首页运行时验证

运行时验证

玻尔百科

定义

运行时验证是指在系统实际执行过程中进行实时监控，以确保其符合预定规范的一种形式化分析技术。该技术利用线性时序逻辑（LTL）和信号时序逻辑（STL）等形式化语言来提供鲁棒性评分，并通过运行时保障机制主动预防潜在故障。运行时验证的应用范围涵盖了物理系统、经济模型完整性以及医疗人工智能安全等多个领域。

核心要点

运行时验证实时监控系统的实际执行，这与测试（不完整）或离线验证（仅检查模型）不同。
它使用时序逻辑（LTL、STL）等形式化语言来规定规则，并能提供一个定量的“鲁棒性分数”，以表明安全裕度或违规的严重程度。
通过运行时保障，监控可以扩展为主动从复杂控制器切换到经过验证的安全控制器，以避免迫在眉睫的故障。
其应用超越了物理系统，延伸到抽象领域，如确保经济模型的科学完整性和医疗领域AI的安全性。

引言

在一个日益复杂的自主系统时代，从自动驾驶汽车到人工智能驱动的医疗诊断，一个根本性问题随之产生：我们如何能相信它们在不可预测的现实世界中安全、正确地运行？尽管测试和设计时验证等传统方法提供了一定程度的信心，但它们往往力不从心。测试只能覆盖一小部分可能的情景，而对系统蓝图的验证也无法保证系统在现实世界中不会出现偏差或未预见的交互。本文旨在填补这一关键空白，引入了运行时验证（Runtime Verification, RV）这一强大的范式，它通过监控系统执行时的实际行为来补充传统方法。RV并非分析模型，而是像一个警惕的看门狗一样，对正在运行的系统进行监视，依据形式化规约进行实时检查。首先，我们将探讨运行时验证的基本原理和机制，从第一性原理揭示其工作方式、用于表达规则的语言，以及使其具有实用性的优雅算法。随后，我们将拓宽视野，考察其多样化的应用，展示该技术不仅在工程领域，而且在医疗、经济和科学建模等不同领域中如何提供安全和保障。

原理与机制

要真正理解一个思想，我们必须将其剥离至本质，从第一性原理看它如何运作，然后再重新构建它，以欣赏其全部的力量和精妙之处。运行时验证的核心是一个非常简单和自然的想法：在系统运行时观察它，并检查其行为是否符合预期。想象一下休斯顿的一位任务控制员，眼睛紧盯着从数百万英里外的探测器传回的遥测数据。他们不只是被动地观察；他们正在积极地将每一个数据点——温度、电压、轨迹——与一本厚厚的规则书，即任务计划，进行比较。他们正在执行运行时验证。

但是，要将这种简单的直觉转变为一门严谨的科学和工程学科，我们需要精确。 “观察”意味着什么？我们可以检查什么样的“规则”？这种观察又能真正告诉我们关于系统安全性和正确性的什么信息？

三种验证者的故事

想象一下，你刚刚拿到了一辆新型高科技自动驾驶汽车的钥匙。你如何确定它是安全的？主要有三种方法可以尝试。

首先，你可以进行测试。你可以把车开到测试赛道上，在十几种不同的场景下驾驶：紧急刹车、急转弯、行人突然出现。如果它通过了，你会获得一些信心。但你没有尝试过每一种可能路况下的每一种可能情况。测试能够显示在已测试案例中存在正确行为，但众所周知，它无法证明在所有未测试案例中不存在错误。

其次，你可以尝试离线验证，通常称为模型检测。这就像一个侦探，拥有汽车完整的蓝图和软件代码。你不是驾驶真车，而是使用强大的计算机来模拟和探索汽车控制软件可能进入的每一个可能的状态。这是对设计的一次详尽分析。如果分析成功完成，你可以对设计没有某些类型的缺陷抱有非常高的信心。然而，这里有一个陷阱，蓝图和现实之间存在潜在的差距。如果真车上的某个传感器校准略有偏差怎么办？如果用于底盘的一批钢材比规定强度要弱怎么办？离线证明是关于模型的，而模型可能不是物理世界的完美反映。

这就引出了第三种方法：运行时验证。这就像在车内安装一个复杂的、独立的诊断计算机，在你驾驶时持续运行。它接入真实的传感器——实际速度、真实转向角、来自物理摄像头的数据——并将这些实时数据流与汽车的安全规约进行核对。它观察的是实际运行的系统，而不是其模型。它不会在你开始旅程前给你一个普遍的保证，但它会在真实世界中，实时地对汽车的行为提供持续的判断。

这个观察者的一个关键特性是其理智上的诚实。对于任何给定的规则，在任何时刻，其监视器都可以给出三种判定之一： $\top$ （真，规则被明确地永久满足）， $\bot$ （假，规则已被明确地违反），或者最常见的， $?$ （未知，迄今为止的情况与未来的好结果和坏结果都相符）。这种说“我还不知道”的能力不是一个弱点，而是观察一个随时间展开过程的基本方面。

涌现性故障的微妙艺术

“但是，”你可能会问，“如果我的工程师很聪明，他们把所有组件都设计得稳定安全，并且离线验证也证实了这一点，为什么我还需要一个持续的看门狗呢？”答案在于复杂系统中最迷人也最危险的现象之一：涌现属性。有时，完全安全的组件会以意想不到的方式相互作用，从而产生灾难性的故障。

考虑一个用于先进无人机的假设控制系统。它有两种飞行模式，一种是用于敏捷性的“快速”模式，另一种是用于稳定性的“慢速”模式，由控制矩阵 $M_1$ 和 $M_2$ 控制。我们的工程师已经证明，每种模式如果单独运行都是稳定的。谱半径——一个数学度量，任何小于1的值都意味着稳定——是 $\rho(M_1) = 0.9$ 和 $\rho(M_2) = 0.9$ 。一切看起来都很好。静态验证给出了绿灯。

但是一个聪明的攻击者发现了一个漏洞。不是在软件的数据中，而是在其时序中。通过巧妙地操纵网络数据包延迟，攻击者迫使无人机的控制器在快速和慢速模式之间快速切换。系统的状态不再仅仅根据 $M_1$ 或 $M_2$ 演化，而是根据它们的乘积 $M_2 M_1$ 演化。让我们看一下数学计算。单个矩阵是：

M_1 = \begin{pmatrix} 0.9 & 100 \\ 0 & 0.9 \end{pmatrix}, \quad M_2 = \begin{pmatrix} 0.9 & 0 \\ 100 & 0.9 \end{pmatrix}

代表攻击下两步演化的乘积是：

M_2 M_1 = \begin{pmatrix} 0.9 & 0 \\ 100 & 0.9 \end{pmatrix} \begin{pmatrix} 0.9 & 100 \\ 0 & 0.9 \end{pmatrix} = \begin{pmatrix} 0.81 & 90 \\ 90 & 10000.81 \end{pmatrix}

如果我们计算这个新矩阵的谱半径，我们会发现 $\rho(M_2 M_1) \approx 10001.62$ 。这个值远大于1！系统是剧烈不稳定的。每个组件都是安全的，但它们之间的快速切换，就像有节奏地推一个孩子荡秋千一样，将微小的运动放大成巨大的、不受控制的振荡。静态分析错过了这一点，因为它只孤立地看待组件。然而，一个运行时监视器会发现这种恶意的快速切换模式或由此导致的无人机状态的指数级增长，并发出警报。这是一个深刻的教训：要在一个动态的世界中确保安全，你必须观察舞蹈本身，而不仅仅是舞者。

时间的语言

要构建一个有用的观察者，我们首先需要一种方法来告诉它要寻找什么。我们需要一种形式化语言来表达时序属性。计算机科学家和工程师已经开发出像时序逻辑这样的强大工具。

对于由一系列离散事件定义的系统，我们可以使用线性时序逻辑（LTL）。我们可以编写听起来像自然语言的规约：

$\mathbf{G}(\text{request} \rightarrow \mathbf{F}\ \text{response})$ ：“全局地，每个请求之后都必然会有一个响应。”
$\mathbf{G} \neg (\text{critical\_section\_1} \land \text{critical\_section\_2})$ ：“全局地，系统永远不会同时处于两个临界区。”

对于其状态是连续信号（如电压或温度）的信息物理系统，我们使用信号时序逻辑（STL）。在这里，逻辑被增加了时间和值的约束：

$\mathbf{G}_{[0, 100]} (\text{temperature} \lt 80)$ ：“全局地，在从0到100秒的时间区间内，温度总是小于80度。”
$\mathbf{F}_{[0, 5]} (\text{speed} \ge 60)$ ：“最终，在未来5秒内，速度将达到至少60。”

该领域的一个关键创新是超越了简单的真/假判定。布尔判定是脆弱的。如果你的规则是temperature = 80，而传感器读数为80.001，你会得到一个“假”警报。但直观上，这种情况远没有读数为120那么严重。

这催生了鲁棒语义的思想。监视器不再计算一个二元答案，而是计算一个鲁棒性分数，一个实数 $\rho$ 。

如果 $\rho > 0$ ，属性被满足。 $\rho$ 的大小告诉你它被满足的鲁棒程度——你的安全裕度。对于温度规则，+15的分数意味着当前温度是65，远低于限制。
如果 $\rho < 0$ ，属性被违反。其大小告诉你违规的严重程度。-40的分数意味着温度是120，一次严重的违规。
如果 $\rho = 0$ ，你恰好在边界上。

这种定量方法提供了对系统状态更丰富、更细致的理解。它不仅告诉你是否安全，还告诉你有多安全。它还使得监控能够适应真实世界传感器不可避免的噪声和抖动。

观察者思维的内部

监视器实际上是如何工作的？它不是一个黑匣子；它是一段优雅的计算机科学。其机制取决于所检查的属性。

对于许多属性，特别是LTL中的属性，监视器可以实现为一个有限自动机——一个具有有限数量状态的简单机器。让我们为一个水处理厂设计一个。该属性是一个合取：压力必须始终低于最大值（ $\phi_S$ ），并且流量必须在最初的 $T$ 秒内至少有一次超过最小值（ $\phi_L$ ）。

初始状态：Wait。判定为 $?$ 。到目前为止压力一直正常，但流量目标尚未满足，时间也还没到。
转换到Violation (Pressure)。如果在任何时候压力读数 $p_k$ 超过 $p_{\max}$ ，机器转换到此状态。判定现在永久为 $\bot$ 。安全性属性已不可恢复地被违反，所以无论流量如何，合取式都为假。这是一个吸收状态——一个不归点。
转换到Liveness Satisfied。如果在Wait状态下，一个流量读数 $f_k$ 超过了 $f_{\min}$ ，并且我们仍在截止时间（ $k\Delta \le T$ ）内，机器转换到此状态。活性部分 $\phi_L$ 现在被永久满足。整体判定现在可能被认为是 $\top$ （暂时地），但监视器必须继续观察压力。未来的压力峰值仍可能将其送入Violation (Pressure)状态。
转换到Violation (Timeout)。如果内部时钟超过截止时间 $T$ 而机器仍处于Wait状态，这意味着流量目标从未达到。活性属性 $\phi_L$ 现在不可恢复地为假。机器转换到这个Timeout状态，整体判定永久为 $\bot$ 。

这个简单的自动机完美地捕捉了时间和合取的逻辑。它是三值语义的具体体现。

对于STL中的定量属性，挑战通常是效率。考虑监控 $\varphi = \Diamond_{[0,T]} p$ ，它规定属性 $p$ 必须在未来 $T$ 秒内的某个时刻为真。鲁棒性分数是在该未来时间窗口内 $p$ 的最大分数。要在线计算这个值，一个朴素的监视器可能在每个新时间步都重新扫描过去 $T$ 秒的整个数据缓冲区。如果 $T$ 很大，这对于实时系统来说太慢了。

在这里，一个优美的算法应运而生：使用单调双端队列的滑动窗口最大值算法。可以把这个双端队列想象成一个“冠军候选人短名单”。它存储当前窗口中的候选最大值。当一个新数据点到达时：

它查看列表的末尾。任何比新来者弱的“冠军”都会被踢出去——它们再也不可能成为最大值了。
新数据点被添加到末尾。
它检查列表的前端。如果卫冕冠军现在太旧了（已经超出了 $T$ 秒的窗口），它就会被移除。列表前端的元素始终是当前窗口的最大值。这种聪明的数据结构允许监视器以均摊常数时间 $O(1)$ 更新鲁棒性分数，使得高速监控成为可能。这证明了优雅的算法对于将理论思想付诸实践是多么重要。

从观察到行动：运行时保障

知道灾难即将来临是好的。阻止它则更好。这就是运行时保障背后的思想，它超越了被动监控。

其架构异常简单而强大。你有两个控制器：

一个高性能但复杂的控制器，可能是一个深度神经网络。它非常智能和高效，但其行为难以预测，并且可能缺乏形式化的安全保证。
一个基线的、简单的控制器。它可能不是很聪明，但它在数学上被证明是安全的（例如，它保证能将系统保持在其状态空间的安全区域内）。

一个运行时监视器充当裁判。它持续预测复杂控制器提议的行动的短期后果。如果它预见到复杂控制器即将违反安全边界——例如，要开出马路——一个权威的切换器会进行干预。它断开复杂控制器，将命令交给简单的安全控制器。安全控制器可能只是将系统带到一个安全的停止状态，但它将避免灾难。这种“安全网”方法使我们能够利用复杂的、基于学习的系统的强大功能，同时仍然保持严格的安全保证。

如实的评估

运行时验证是一个极其强大的工具，但像任何工具一样，它有其根本的局限性。它是一个在不确定性下积累证据的过程。随着每一条数据的到来，监视器对系统正确性的不确定性会减少，但很少能完全消除。我们必须诚实地面对它做不到的事情。

采样盲点：监视器受其采样率的限制。如果一个系统可以在比两个传感器读数之间的时间间隔更短的时间内违反一个属性并恢复，监视器将完全看不到它。违规行为发生在时钟滴答之间的“黑暗”中。
活性困境：监视器永远只能观察到系统执行的有限前缀。像“系统最终会关闭”这样的属性是一个活性属性。监视器可以等待很长时间，但它永远无法确定关闭是在下一微秒发生还是永远不会发生。它可以在事件发生后确认满足，但永远不能仅通过等待来确认违反。安全性属性（“坏事永远不会发生”）则不同；一个坏事件就足以给出明确的 $\bot$ 判定。
开销税：监控不是免费的。每次检查都会消耗CPU周期和内存。在资源受限的系统中，监视器本身可能会消耗主控制任务所需的资源。监视器的设计总是在完备性和性能之间进行权衡。

因此，运行时验证不是替代设计时分析或测试的灵丹妙药。它是支撑凳子的关键第三条腿。当蓝图被收起，系统面临开放世界不可预测的现实时，它是一个谦逊、警惕的守望者。它提供了地面实况，揭示的不是系统被设计来做什么，而是它正在做什么，此时此地。

应用与跨学科联系

在我们之前的讨论中，我们深入探讨了运行时验证的原理和机制——这项强大技术的“如何做”。我们看到，其核心是一个简单而优雅的想法：在系统运行时观察它，并实时检查其行为是否符合我们制定的一套规则。现在，我们将踏上一段更激动人心的旅程。我们将探索“为什么做”。这个想法在何处安家？

你可能会倾向于将运行时验证视为计算机科学家的专门工具，一种确保软件不崩溃的小众实践。但这就像把望远镜看作是磨镜工的奇特玩意儿一样。事实上，运行时验证是一个镜头，通过它，我们可以为各种各样惊人的复杂系统带来清晰和保障。它是执行意图的通用原则，一种不仅在我们的代码中，也在我们的机器、基础设施甚至科学理论中建立信任的方式。让我们来游览一下它广阔且不断增长的版图。

物理世界的守护者

也许运行时验证最直观的应用是在信息物理系统（CPS）领域——这些系统中，计算智能被编织到物理世界的结构中。它们是我们工厂里的机器人，道路上的自动驾驶车辆，以及为我们家庭供电的智能电网。在这里，一个逻辑错误不仅仅是一个程序错误；它可能是一场灾难性的故障。运行时验证扮演着一个不知疲倦、廉洁正直的守护者。

想象一下仓库里一个简单的自动化传送带系统，有马达、分拣器和闸门。可能会出什么问题？如果停止闸门放下时马达还开着，包裹可能会被压碎。如果分拣器马达过于频繁地来回切换，可能会过早磨损。或者，一个特定的操作序列可能导致卡塞。这些不仅仅是模糊的担忧；它们可以被描述为精确的、被禁止的行为模式。一个运行时监视器可以观察发送给执行器的命令流，并在检测到这种禁止模式的瞬间发出警报，从而在故障造成损害之前阻止它。这是最基本形式的运行时验证：一个数字裁判在物理硬件上执行游戏规则。

随着这些系统变得越来越复杂，安全要求也随之增加。考虑一辆在同一个仓库中导航的自动驾驶车辆。它的安全不仅仅关乎单个执行器，而是关乎其整个感知-行动循环的相互作用。安全工程师可能会使用像失效模式与影响分析（FMEA）这样的方法来识别潜在风险，例如“激光雷达遮挡导致障碍物漏检”。这种定性的担忧必须被转化为对系统软件的定量的、可验证的契约。车辆“数字孪生”——一个与真实系统并行运行的高保真模拟——上的运行时监视器可以被赋予执行此契约的任务。例如，一个规则可能规定：“如果激光雷达健康分数低于 $0.7$ ，车辆速度必须在一秒内降至低于 $0.5 \, \mathrm{m/s}$ 。”通过持续对照实时数据检查这类规则，运行时验证成为系统形式化安全案例的基石，为高层安全目标和机器的低层行为之间架起了一座桥梁。

这一原则延伸到我们关键基础设施的隐秘世界。想想电动汽车里的电池包。它是一个复杂的电化学系统，由电池管理系统（BMS）管理。为了防止热失控等危险情况，BMS必须将电池的状态——温度、电压和电量——保持在一个安全的操作范围内。但这个范围是什么？利用电池的物理学，我们可以计算出一个“前向可达集”：在给定当前状态和所有可能的合法命令与扰动下，电池可能进入的所有未来状态的预测。然后，一个运行时监视器可以将电池实际测量的电压和温度与这个预测的安全范围进行比较。如果测量值落在了集合之外，这意味着发生了与我们安全操作模型不一致的事情——可能是一个物理故障，甚至是一次恶意的网络攻击。这是一个深刻的转变，从检查简单的规则转向根据系统本身的动态、基于物理的模型来验证行为。

数字孪生：一个受审视的镜像世界

“数字孪生”的概念为运行时验证带来了新的维度。数字孪生是一个物理资产的活生生的模拟，用真实世界的数据持续更新。它是一个我们可以进行测试、预测和分析的镜像世界。运行时验证提供了工具来确保这个镜像没有失真，并利用它来获得更深的洞察。

我们面临的第一个也是最实际的问题之一是时间本身。监视器的优劣取决于它接收到的数据。安全违规可能发生在物理世界，但其证据——一连串传感器数据流——必须经过一连串的采样器、网络和处理队列，才能被监视器看到。每一步都会增加延迟。对于一个任务是确保温度 $x(t)$ 永远不超过阈值 $\Theta$ 的监视器来说，总的检测延迟是许多部分的总和：从违规发生到下一次传感器采样的时间延迟、网络传输时间和抖动、数据批处理策略带来的延迟，以及最后，监视器自身的处理时间。通过仔细建模和累加这些组成部分，我们可以计算出最坏情况下的检测延迟，确保我们的监控系统满足其实际性能要求，例如保证在关键事件发生后的 $100 \, \mathrm{ms}$ 内发出警报。

除了简单的延迟，我们如何知道数字孪生甚至是现实的准确反映？我们可以将运行时验证的镜头转回孪生本身。想象一个监视器，其工作是检查孪生的保真度。它的规约可能是：“物理系统的输出与孪生预测的输出之间的差异必须始终保持很小。”监视器计算一个“鲁棒性”分数——一个数字，不仅告诉我们这个属性是否为真，还告诉我们它有多真（安全裕度有多大）。这才是真正有趣的地方。我们可以创建一个反馈循环：如果鲁棒性分数低于某个阈值，表明孪生开始偏离现实，监视器会自动触发一个再同步事件，将孪生拉回到与其物理对应物一致的状态。在这里，运行时验证不是一个被动的观察者，而是维护整个系统健康的积极参与者。

在处理真实世界不可避免的不确定性时，这种“鲁棒性分数”的概念至关重要。我们的传感器有噪声，我们的模型不完美。我们的数字孪生可能不会给我们一个单一的温度值，而是一个区间：“真实温度可能在 $\hat{x}(t) - \epsilon(t)$ 和 $\hat{x}(t) + \epsilon(t)$ 之间。”我们如何验证像“温度必须最终达到 $0.1 \, \mathrm{K}$ 但始终保持在 $0.5 \, \mathrm{K}$ 以下”这样的属性？我们必须采取一种保守的、鲁棒的方法。要检查温度是否始终低于 $0.5 \, \mathrm{K}$ ，我们必须检查不确定性区间中的最高可能值 $\hat{x}(t) + \epsilon(t)$ 是否低于 $0.5 \, \mathrm{K}$ 。要检查它是否最终达到 $0.1 \, \mathrm{K}$ ，我们必须检查最低可能值 $\hat{x}(t) - \epsilon(t)$ 是否最终超过 $0.1 \, \mathrm{K}$ 。通过根据我们已知不确定性内的最坏情况来评估我们的规则，我们即使在信息不完美的情况下也能做出严谨、可信的陈述。

超越工程：抽象世界中的保障

如果运行时验证仅适用于物理系统，它将是一个强大的工程工具。但其真正的美在于其普适性。核心思想——定义一个属性并对照观察到的行为进行检查——可以应用于远离钢铁和硅片的世界。

考虑一下现代医院的高风险环境，其中临床决策支持系统（CDSS）向医生建议药物。最重要的安全属性之一陈述起来很简单：“绝不应建议任何有禁忌症的药物。”现在，假设我们的CDSS是混合式的。一部分是“白盒”系统，建立在明确的、人为编写的规则之上，如“如果患者诊断为‘肾功能衰竭’，则不建议使用药物‘X’”。另一部分是“黑盒”AI，一个从海量数据中学习了模式的机器学习模型。我们如何确保安全属性？我们使用两种互补的技术。对于白盒规则引擎，我们可以在系统部署前使用形式化验证，为每条规则在数学上证明其前提逻辑上蕴含其结论没有禁忌。但我们无法对黑盒AI这样做。因此，对于AI，我们附加一个运行时监视器作为安全护盾。它拦截AI提出的每一个建议，并在展示给医生之前，对照明确的禁忌知识库进行检查。如果建议不安全，它就会被阻止。这种优雅的双管齐下方法——对透明的部分进行离线证明，对不透明的部分进行在线监控——是构建安全可信AI的基石。

该原则甚至延伸到经济学和分布式系统的抽象世界。想象一个运行在区块链上的“交易能源”市场，家庭可以在这里买卖太阳能。管理这个市场的智能合约是一段代码。我们可以使用形式化验证来证明其内部逻辑是正确的——例如，对于每笔交易，总借方等于总贷方，资金不会被创造或销毁。但这个证明只在区块链的数字领域内有效。该合约依赖“预言机”来告诉它在物理世界中实际输送了多少能量。如果一个预言机有故障或怀有恶意怎么办？这就是运行时审计发挥作用的地方。一个监视器观察区块链的活动，并将链上的金融结算与链下的物理测量进行比较。如果发现巨大差异，它就会发出违规信号。我们再次看到了美丽的二元性：形式化验证确保了代码的逻辑完整性，而运行时监控确保了其对所声称代表的真实世界的忠实度。

也许最令人惊讶的应用在于纯科学建模领域。经济学家和社会科学家构建基于主体的模型（ABMs）来模拟复杂的社会。在这些模型中，数百万个软件“主体”根据简单的规则进行交互。许多经济模型中的一个基本原则是存量-流量一致性，这是复式记账法的一种高级形式。每一笔支付都必须是一个主体的账户借项和另一个主体的贷项。如果代码中的一个错误允许一个主体在不借记自己账户的情况下进行支付，模型将“凭空创造货币”，使其科学结果无效。我们可以使用运行时验证来保护模拟本身的完整性。一个监视器可以与模型并行运行，在每一步中对所有主体余额的变化进行求和。如果总变化不等于来自“外部世界”（如模型中的政府）的净流量，监视器就会标记一个违规。守恒定律被打破了。这无关物理安全，而是关乎确保一个理论构建的科学有效性。

从传送带的实体安全到经济理论的抽象完整性，运行时验证作为一个单一、统一的思想浮现出来。它是观察的艺术——明确什么是“正确”的，并勤奋地检查现实，以其所有形式，是否遵守我们的意图。它是构建一个更可靠、更值得信赖的世界的强大工具，一次一条规则。