故障可操作设计

玻尔百科

核心要点

与为防止灾难而停机的失效安全系统不同，故障可操作系统被设计为即使在发生内部故障后也能维持其基本功能。
真正的系统韧性是通过多样化冗余（可抵御共因失效）和高覆盖率的鲁棒诊断（可可靠地检测故障）等策略来实现的。
可靠性和可用性的数学原理使工程师能够量化系统的鲁棒性，并满足严格的安全目标，例如要求的每小时危险失效概率（PFH）。
故障可操作设计是一个跨学科概念，它影响着实时计算约束、超级计算机中的数据完整性、用户界面响应性以及自动化系统中的伦理决策。

引言

在一个由日益自主和复杂的技术所定义的时代，我们对系统在无人直接监督下执行关键任务的依赖程度前所未有。从飞机的电传操纵系统到自动驾驶汽车和自动化医疗设备，我们将自身的安全与福祉托付给了工程逻辑。这引出了一个根本性问题：当这些系统不可避免地遇到故障时，应该发生什么？虽然传统方法通常是设计“失效安全”系统——即通过关机来防止最坏情况的发生——但这并非总是最安全或最可取的行为。本文旨在填补一个关键的知识空白，探讨一种替代性的、更具韧性的哲学：故障可操作设计，即系统被构建为即使在降级状态下也能继续其基本使命。

接下来的章节将对这一强大的概念进行深入剖析。首先，在“原理与机制”一章中，我们将深入探讨使系统能够持续工作的核心原则，对比安全性（safety）和活性（liveness）属性，探索冗余的力量，量化可靠性，并研究检测和容忍恶意拜占庭故障的策略。随后，“应用与跨学科关联”一章将揭示这种设计哲学的深远影响，展示其在实时计算、网络安全、超级计算、用户体验乃至人工智能伦理框架等不同领域的相关性。

原理与机制

十字路口：停止还是继续？

想象一下，你正在开车，仪表盘上的一盏灯闪烁起来，预示着一个问题。接下来会发生什么，这是一个深刻的工程哲学问题。如果你在一条安静的郊区街道上，最安全的做法很简单：靠边停车，关闭引擎，然后呼叫救援。车辆已进入失效安全状态。它停止了其主要功能——行驶——以防止发生潜在的灾难性故障，如发动机抱死或起火。这种设计通过退回到一个预定义的最小风险状态，优先避免最坏结果的发生。

但是，如果同样这盏灯在你正行驶于一座多车道高速公路桥梁中央时亮起，周围是飞驰的卡车，又没有路肩可以停靠，情况会怎样？突然之间，停车不再是安全的选择；它成了一个新的、迫在眉睫的危险。在这种情况下，你不希望汽车熄火。你需要它继续运行，至少要足以让你驶过大桥，到达一个安全的出口。你需要这辆车是故障可操作的。

这种区别是设计我们能够托付生命的系统的基石。一个故障可操作系统，在面临内部故障时，能够继续执行其基本功能。它可能无法全功率运行——也许最高速度受到限制，或者一些非关键功能被禁用——但它不会放弃其使命。对于我们周围复杂的赛博物理系统，从自动驾驶汽车到飞机的电传操纵系统，这种选择并非纸上谈兵。例如，自动驾驶汽车的转向控制器不能因为一个传感器失效就简单地放弃工作；“失去转向”是它必须不惜一切代价防止的危险。如果任务要求在隧道或高速公路上持续运行，那么指令停车的失效安全设计可能是不可接受的。唯一可行的路径是采用一种故障可操作架构，一种能够吸收故障并继续运行的架构。

故障的本质：我们承诺了什么？

要构建这样的系统，我们必须更深入地思考我们试图实现的目标。计算机科学家有一种优美而精确的方式来讨论这个问题，即使用安全性（safety）和活性（liveness）这两个概念。

一个安全性属性是一个“坏事永不发生”的承诺。它是关于避免不期望状态的陈述。对于一个放热化学反应器，一个关键的安全性属性是其温度 $T(t)$ 永远不会超过一个最大阈值 $T_{\max}$ 。如果温度在任何时刻达到了 $T_{\max}$ ，那么安全性属性就被违反了，并且未来的任何行动都无法挽回这一事实。你可以在一个有限的时间轴上精确定位这个失效。一个失效安全设计几乎完全关注安全性属性。其首要指令是防止灾难，即使这意味着停止运行。

另一方面，一个活性属性是一个“好事终将发生”的承诺。它是关于进展的陈述。对于一个Web服务器，一个活性属性是每个有效请求最终都会收到一个响应。你永远无法通过观察一个有限的时间轴来证明一个活性属性已经失效；你只能说它“尚未发生”。也许响应就在一秒钟之后。一次违规——即响应永远不会到达——只能通过无限长时间的观察来确认。

这就是故障可操作设计的独特挑战所在：即使在存在故障的情况下，它也必须同时满足安全性和活性属性。自动驾驶汽车必须持续提供有效的转向指令（活性），同时还要确保它永远不会撞墙（安全性）。在形式逻辑的语言中，我们可以将针对单个故障的故障可操作要求表述为：“全局来看，如果恰好有一个故障处于活动状态，那么任务目标仍能被满足”（该属性在线性时序逻辑中写作 $G(one \rightarrow m)$ ）。这是一个纯粹的安全性属性，因为任何存在单个故障但任务失败的时刻，都提供了一个直接的、有限的反例。系统没有“最终”恢复的奢侈；它必须持续正确地运行。这是一个比失效安全强得多的承诺，后者常常为了保证安全性而牺牲活性。

两份（或更多）的力量：作为策略的冗余

一个系统如何可能做出如此强有力的承诺？工程师武器库中最强大的工具就是冗余。如果一个组件容易发生故障，为什么不用两个呢？或者三个？

这就是故障可操作架构的核心。我们可能使用两个或更多的控制器，而不是单个控制器，所有控制器都执行相同的任务。如果一个发生故障，另一个已准备好承担负载。这通常被称为二取一（1-out-of-2）系统，意味着系统功能只需要两个通道中的一个即可。但仅仅添加第二个组件是不够的；魔鬼藏在架构的细节之中。

考虑一辆自动驾驶汽车的感知系统，它必须识别障碍物。让我们比较两种冗余设计：

同构冗余：我们在同一块强大的计算机芯片（SoC）上运行我们相机感知软件的两个相同副本。如果一个软件实例崩溃，另一个可以接管。
多样化冗余：我们使用两个完全不同的系统：一个是在某块芯片上运行其自身算法的相机，另一个是在第二块独立芯片上运行不同算法的激光雷达（LiDAR）传感器。这两块芯片拥有独立的电源和时钟源。

第二种设计要优越得多。为什么？因为它对共因失效具有韧性。在同构设计中，共享感知软件中的一个bug就可能同时使两个副本崩溃。共享电源中的一个电压尖峰可能会烧毁整个SoC，使其两个通道一同失效。这种冗余将是一种幻觉。然而，多样化设计可以抵御这种情况。相机软件中的一个bug不会影响激光雷达。相机硬件的故障与激光雷达的硬件是独立的。这种真正的独立性是高完整性系统的基石，例如那些旨在达到严格的ASIL D（汽车安全完整性等级D）标准的系统。

一场数字游戏：量化鲁棒性

这种对冗余的直观偏好可以通过数学变得精确。工程师使用几个关键指标来量化一个系统有多“好”。

首先，我们必须区分两种“工作”的概念。可靠性（Reliability），记为 $R(t)$ ，是指一个系统在特定时长或“任务时间” $t$ 内无任何故障地执行其功能的概率。它是对连续、不间断生存能力的度量。对于一架飞机，任务时间就是飞行时长。你关心的是在该特定航班中发动机的可靠性。

可用性（Availability），记为 $A$ ，是一个可修复系统在长期运行中处于可操作状态的时间百分比。它考虑了系统可能发生故障、被修复并重新投入使用的情况。你关心的是一个城市的电网或一个ATM网络在数月或数年内的可用性。

这两者不是一回事。一个系统的可用性可能平平，但对于短期任务却具有出色的可靠性。相反，一个频繁发生故障但能立即修复的系统可能具有高可用性，但可靠性却很差。

借助这些工具，我们可以量化故障可操作设计的好处。让我们考虑一个系统，其中单个组件的失效率为常数 $\lambda$ 。它在100小时任务中的可靠性可能是 $R_S(100) \approx 0.999$ ，即千分之一的失效率。现在，让我们用两个这样的组件构建一个故障可操作系统，其中只需要一个工作即可。它在相同任务中的可靠性将飙升至 $R_{FO}(100) \approx 0.999999$ ，即百万分之一的失效率。这种提升是巨大的。

可靠性理论中一个优美的结果表明，对于具有恒定失效率的组件，一个二取一故障可操作系统的平均无故障时间（MTTF）恰好是单个组件MTTF的1.5倍。它不是人们可能天真猜测的两倍。系统只有在第一个组件失效之后，第二个组件在系统的剩余寿命期间也失效时，才会失效。对所有可能性的积分得出了 $\frac{3}{2}$ 这个因子。

当然，这种可操作状态附带一个警示。当一个双通道系统中的一个通道失效时，系统进入降级模式。它仍然可以操作，但已经失去了冗余。它现在是一个单通道系统，其可用性低于完整的双通道系统。在失效组件被修复之前，系统更加脆弱。一个可修复的二取一系统的长期可用性可以使用连续时间马尔可夫链等模型来计算，这些模型平衡了失效率和修复率。对于一个失效率为 $\lambda$ 且修复率为 $\mu$ 的系统，其稳态可用性由下式给出： $A = \frac{2\lambda\mu + \mu^2}{2\lambda^2 + 2\lambda\mu + \mu^2}$

检测的艺术：看不见就无法修复

冗余是一个强大的思想，但如果你不知道某个组件已经失效，它就完全没用。想象一下，你的两个冗余控制器中的一个悄无声息地开始产生无意义的输出。另一个控制器仍在正常工作，但如果系统盲目地对它们的输出求平均，结果将是垃圾。因此，一个故障可操作系统不仅仅是冗余部件的集合；它是一个拥有大脑——即诊断和管理层——的集成整体。

这就引出了诊断覆盖率（Diagnostic Coverage, $C$ ），它回答了一个简单而关键的问题：“如果发生危险故障，我们的诊断系统检测到它的概率是多少？”我们可以通过经验来测量它。如果我们进行1000次存在危险故障的测试，而我们的检测器捕捉到了972次，那么我们的诊断覆盖率就是 $C = \frac{972}{1000} = 0.972$ 。

这个单一的数字对系统安全有着深远的影响。假设我们的控制器有一个危险失效率 $\lambda_D$ （单位：每小时失效次数）。我们检测到的故障可以被处理——故障可操作系统可以切换到备份。而我们未检测到的故障才会导致灾难。这些未被检测到的危险失效的发生率就是 $\lambda_D \times (1-C)$ 。为了使系统达到可接受的安全水平，该发生率必须低于由安全标准设定的目标值，即每小时危险失效概率（ $\text{PFH}_{\text{target}}$ ）。这为我们提供了一个基本的设计不等式：

$C \ge 1 - \frac{\text{PFH}_{\text{target}}}{\lambda_D}$

这个方程优美地将我们组件的质量（ $\lambda_D$ ）、我们安全目标的严格性（ $\text{PFH}_{\text{target}}$ ）和我们诊断的质量（ $C$ ）联系在了一起。如果我们想用现成的组件（中等 $\lambda_D$ ）构建一个超安全系统（非常低的 $\text{PFH}_{\text{target}}$ ），我们唯一的途径就是设计一个具有近乎完美覆盖率（ $C$ 趋近于1）的诊断系统。

群体的欺骗：掩盖与鲁棒融合

检测并非总是直截了当的。考虑一辆自动驾驶汽车试图用三个GPS接收器来确定其位置。如果一个接收器失控并给出一个偏离100米的位置，会发生什么？一个简单的方法是对三个读数取平均值。结果会被拉偏，但或许不至于造成灾难。

但如果三个接收器中有两个被黑客攻击或遭受了共同的大气畸变，并且都报告了同一个错误的位置，情况又会怎样？这就是故障掩盖这个阴险的问题。两个故障传感器形成了一个一致但错误的多数派。如果我们对这三个读数取平均，结果将严重偏向错误的位置。更糟糕的是，如果我们的诊断系统寻找“异常值”，它会看到两个传感器相互认同，而一个传感器意见不合。它会错误地得出结论，认为那个单一的健康传感器才是坏掉的！故障被错误的共识所掩盖了。

这就是为什么故障可操作系统不能依赖简单的投票或平均。它们需要鲁棒传感器融合。这些是设计用来对异常值不敏感的复杂算法。它们的特点是其崩溃点（breakdown point）：在估计值可以被拉到任意错误值之前，数据中可被任意损坏的部分所占的比例。简单平均值的崩溃点为0；一个坏数据点就能毁掉它。而中位数，其崩溃点接近0.5；它可以容忍高达一半的数据是错误的，并且仍然给出一个合理的答案。鲁棒融合是构建能够在欺骗性群体中生存下来的估计器的艺术。

终极对手：拜占庭故障

我们可以将这种欺骗性组件的想法推向其逻辑上和令人恐惧的极端。到目前为止，我们考虑的组件故障方式是崩溃，或是产生一个一致（但错误）的值。但如果一个组件不仅是坏了，而且是主动恶意的呢？如果它被一个对手所控制呢？

这就是拜占庭故障所描述的场景。以古代将军们需要协调攻城的难题命名，一个拜占庭组件的行为可以完全任意。它最狡猾的伎俩是含糊其辞（equivocation）：它可以告诉一个同伴“进攻！”，而告诉另一个同伴“撤退！”，主动散播不和以阻止达成诚实的共识。

容忍这样的对手是故障可操作设计中的终极挑战。简单地故障切换到备份是不够的，因为恶意组件可能会欺骗系统在不应切换时进行切换，或者冒充一个健康的组件。解决方案需要新层次的冗余和协议。容忍 $f$ 个简单的崩溃故障需要总共 $n = 2f+1$ 个副本（这样健康的副本总能形成多数），而容忍 $f$ 个拜占庭故障则至少需要 $n = 3f+1$ 个副本。这“额外的f个”副本是偏执的代价。需要它们来创建一个足够大的诚实参与者群体，以确保即使在说谎者发送了相互矛盾的消息之后，诚实的副本仍然可以达成一个可证明的、正确的、统一的协议。拜占庭容错（BFT）这一领域将故障可操作设计的原则推向了极限，弥合了硬件可靠性与网络安全之间的鸿沟，并构成了从飞机控制到区块链网络等多种技术的基础。

从高速公路桥上的一个简单选择，到对抗数字破坏者的战斗，故障可操作设计的原则构成了一幅丰富而统一的织锦，将概率论、逻辑学、工程学和计算机科学编织在一起，以构建我们能真正依赖的系统。

应用与跨学科关联

在掌握了故障可操作设计的核心原理之后，我们可能会倾向于将其视为一种巧妙但狭隘的工程技术。事实远非如此。这种设计哲学不仅仅是为了让机器持续运转；它是一种深刻而通用的策略，旨在将信任和韧性融入我们技术世界的结构之中。它的应用既多样又关键，从我们熟悉的自动驾驶汽车世界，延伸到医学伦理的前沿，以及超级计算机中比特的微妙舞蹈。让我们踏上这段探索这些关联的旅程，并在此过程中揭示这个简单思想背后非凡的统一性与美感。

基石：物理世界中的安全

故障可操作设计的核心是保护我们免受物理伤害。其最直接的应用在于那些突然停止与故障本身同样危险——甚至更危险——的系统中。

考虑一个自主公共交通系统，如自动驾驶巴士或火车。如果主控制器发生故障，我们不能简单地让车辆在高速公路或繁忙的十字路口中央紧急刹车。它必须继续安全运行，至少直到能够到达一个指定的安全停靠点。但是多少冗余才足够？是两个备用计算机？三个？十个？这不是靠猜测就能决定的。工程师利用概率数学以惊人的精度回答这个问题。通过对单个组件的失效率进行建模，他们可以计算出实现几乎不可能的高可靠性目标所需的确切副本数量，例如确保系统可用时间达到99.99995%。这种定量方法将“安全”这一抽象目标转化为具体的工程蓝图，使我们能够构建可以托付生命的系统。

然而，现代的威胁并不仅限于随机的硬件故障。我们的系统日益互联，而连接带来了恶意攻击的风险。在这里，故障可操作设计演变成了更强健的入侵容忍设计概念。想象一个控制大型水箱水位的工业系统。攻击者可能会试图通过入侵控制器并强制打开进水阀来导致溢出。如果两个控制器运行的是相同的易受攻击软件，那么简单的冗余控制器可能无济于事。一个真正有韧性的架构必须更智能。它可能会使用多样性，采用具有不同硬件和软件的控制器来消除单点故障。它可以集成不同类型的独立传感器——比如一个超声波传感器和一个压力传感器——甚至还有一个简单的、鲁棒的硬件浮子开关，能够物理切断阀门的电源，绕过任何被攻破的软件。通过计算“溢出时间”——从攻击开始到灾难性故障之间那段极其短暂的时间窗口——工程师可以设计出一个多层次的防御系统，能够在攻击者实现其目标之前检测、反应并故障切换到安全状态。

隐藏的机制：计算的约束

一个能在故障中持续运行的系统所作出的承诺是强大的，但这并非魔法。它伴随着非常真实的成本和约束，隐藏在作为这些系统命脉的硅芯片和电源中。

其中最关键的约束之一是时间。对于一个与物理世界交互的系统，想出正确的想法是不够的；它必须足够快地想出来。这就是实时系统的领域。当我们在处理器中添加冗余的备份任务时，我们增加了它的工作负载。安全关键的控制回路还能按时运行吗？飞行控制器能否在飞机姿态变化太大之前计算出其调整量？工程师使用像速率单调分析（Rate Monotonic Analysis, RMA）这样的强大工具，来从数学上证明一组任务是否即使在最坏情况下也能满足其所有截止时间要求。

这个挑战在故障发生的那一刻变得尤为严峻。当检测到故障时，系统必须启动恢复任务——隔离损坏的组件，激活备份，并恢复正常操作。这些恢复任务需要处理器时间，并具有最高优先级。但原始的安全关键任务，如驾驶汽车或监控病人，也必须继续运行。这会在处理器上造成“瞬时过载”。通过使用一种称为最坏情况响应时间分析的技术，设计者可以计算出“响应时间膨胀”——即关键任务在恢复期间将经历的最大延迟——并验证它仍然能满足其不可协商的安全截止时间。这确保了系统不会在其试图自救的精确时刻出现问题。

另一个基本成本是能源。系统中的每个组件，尤其是一个活动组件，都会消耗电力。考虑一个为执行故障可操作任务而设计的电池供电移动机器人。为了实现即时故障切换，它可能会使用一个“热备份”备用计算机，该计算机始终开启，与主计算机同步。这个备用单元会消耗电力。系统还需要在单元之间发送持续的“心跳”消息以确认它们都还活着，而每条消息都会消耗少量能量。罕见的故障切换事件本身会消耗一股能量。当你把所有这些加起来——备用单元的持续消耗、心跳消息的微小能耗，以及偶尔切换时的大量消耗——对电池寿命的影响可能是显著的。这说明了一个普遍的权衡：可靠性和安全性的提高往往以能源效率和运行续航为直接代价 [@problem_-id:4221262]。

更深层次的信任：数字世界中的完整性

保持“可操作”的概念远远超出了物理领域。它也适用于数据的完整性和通信的安全性，此时的故障不是一个损坏的部件，而是一个损坏的比特或一个丢失的信号。

一个故障可操作系统的优劣取决于它首先检测到故障的能力。如果一个故障发生但未被察觉，会怎么样？这是系统设计者的噩梦。使用泊松过程来模拟随机故障的到达率，并知道“诊断覆盖率”——即一个给定故障被检测到的概率——我们可以计算出最危险结果的概率：在任务期间发生未被检测到的故障。这使我们能够理解我们所承担的残余风险，并推动开发更复杂的监控和诊断系统，例如数字孪生（Digital Twins），它不断地将系统的实际行为与基于物理的模型进行比较，以发现细微的异常。

考虑一个既微妙又深刻的问题：时间。许多安全系统依赖于一个可信的、绝对的时间源，比如GPS信号，来验证安全证书。这些证书有过期日期，系统绝不能接受一个已过期的证书。但如果GPS信号丢失了呢？系统必须故障可操作，继续使用其内部硬件时钟运行。然而，这些本地时钟并不完美；它们会漂移。晶体振荡器的物理特性决定了其频率有一个小的、有界的误差。在24小时内，这种漂移可能会累积到几秒钟。如果时钟走得慢，系统的时间概念就会落后于现实。它可能会因此接受一个在现实世界中已经过期的证书，从而打开一个重大的安全漏洞。一个优美而优雅的解决方案是在验证逻辑中建立一个安全裕度。通过了解振荡器的最坏情况漂移率 $\rho$ ，系统可以为其内部计数器的任何给定读数计算出可能的最大真实时间。然后，它检查这个“最坏情况时间”是否仍在证书的过期时间之前。这使得系统能够在一段定义的时间内安全运行，其安全性不是由一个持续的外部信号来保证，而是由对其自身组件基本物理特性的深刻理解来保证。

这种操作完整性的原则甚至延伸到了超级计算的世界。当科学家运行大规模的天气预测模拟时，由宇宙射线撞击内存芯片引起的单个随机比特翻转可能会破坏整个持续数天的计算。为了对抗这一点，一种名为基于算法的容错（Algorithm-Based Fault Tolerance, ABFT）的技术被使用。它巧妙地通过校验和来增强计算中的矩阵。矩阵运算的数学特性确保了如果主计算是正确的，校验和也会匹配。如果发生故障，校验和将出现分歧，从而揭示错误。这使得计算本身具有故障可操作性，能够检测甚至有时纠正其自身的内部错误，确保重要科学结果的完整性。

人类连接：从用户体验到伦理

最终，我们的技术服务于人类，而故障可操作设计最引人注目的应用是那些触及我们直接体验和最深层价值观的应用。

你是否曾经在网上平移一张大地图时，看到空白的灰色方块出现，而详细的图像正在加载？这是一个小故障——一个图像瓦片的网络请求缓慢或未成功。一种“失效安全”的方法可能是冻结屏幕直到数据到达，这是一种令人沮丧的体验。然而，一种故障可操作的方法实践了优雅降级。系统可以立即显示一个低质量、压缩的占位符来代替缺失的瓦片，并安排重试获取高质量版本。这保持了界面的响应性，并提供了即时的视觉背景。但是占位符可以保留多久才不会成为一个分散注意力的“突现”伪影？答案来自人类视觉科学。通过了解人类眼球注视的典型持续时间（约200毫秒），设计者可以为占位符设置一个最大持续时间。如果高质量瓦片在此窗口内到达，我们的大脑通常会平滑地整合这一变化，以至于我们几乎不会注意到。这是将故障可操作设计应用于创造流畅、无缝且更人性化的用户体验，而非防止灾难。

最后，我们到达了最深刻的交汇点：伦理领域。在医院的重症监护室，一个临床决策支持（Clinical Decision Support, CDS）系统可能会推荐调整病人的生命维持药物。如果一个传感器发生故障，系统进入降级状态，应该怎么办？选择是严峻的。一个失效安全的设计会停止所有自动调整，并警报一名人类临床医生，后者可能需要几分钟才能响应。在此期间，病人可能会受到治疗不足。一个故障可操作的设计则会在警报临床医生的同时，自主地执行一个预定义的保守行动（例如，一个非常小的、有界的剂量增加）。但这带来了过度治疗的风险，如果这次增加并非真正需要的话。

哪一个是正确的选择？答案并非纯粹技术性的；它是伦理性的。它取决于伤害的不对称性。在治疗不足远比轻度过度治疗更危险的情况下，采取谨慎行动的故障可操作策略可能会最小化总预期伤害。相反，如果药物效力强且过度治疗非常危险，那么等待人类判断的失效安全策略则更为优越。通过创建一个预期伤害的数学模型——用每个结果的概率来加权其伤害——我们可以从直觉层面的辩论转向理性的、伦理的分析。这个强大的框架表明，故障可操作设计不仅仅是一个工程原则；它是一个将我们的价值观嵌入到将日益塑造我们世界的自动化系统中的工具。

从发电厂旋转的涡轮机，到我们屏幕上的像素，再到生死决策的道德演算，故障可操作设计揭示了自己是一条统一的线索。它是构建永不放弃的系统的艺术与科学——这些系统不仅是鲁棒的，而且是韧性的、优雅的，最重要的是，值得信赖的。