故障建模

玻尔百科

定义

故障建模是电子与系统工程领域中的一种方法，它将复杂的物理缺陷简化为易于处理的逻辑抽象（如固定型故障），以便进行系统化且可扩展的测试。该过程通过激活正常电路与故障电路之间的差异，并将该差异传播到可观测的输出来实现检测。故障建模通常利用自动测试向量生成（ATPG）算法和布尔可满足性（SAT）求解器等工具，为芯片制造、自动驾驶和医疗保健等多个领域提供可靠性保障框架。

核心要点

故障建模将复杂的物理缺陷简化为可管理的逻辑抽象，如固定型故障，以实现系统化和可扩展的测试。
检测一个故障需要两个步骤：首先通过在好电路和故障电路之间制造差异来激活故障，然后将该差异传播到可观测的输出端。
自动化算法，如自动测试向量生成 (ATPG)（通常利用布尔可满足性 (SAT) 求解器），对于为现代复杂芯片创建有效测试至关重要。
故障建模的原理为分析和确保包括自动驾驶系统、医疗保健和材料科学在内的不同领域的可靠性提供了一个通用框架。

引言

我们如何才能保证一个拥有数十亿个组件的设备，比如现代处理器，能够完美工作？测试每一种可能存在的物理缺陷是一项不可能完成的任务，这在制造复杂性与我们确保可靠性的能力之间造成了巨大的鸿沟。本文将介绍故障建模，这是解决此问题的巧妙方案。它是一门创建物理故障的简化逻辑表示的艺术和科学，将一个棘手的物理挑战转变为一个可解的逻辑问题。在接下来的章节中，您将探索支撑这一关键领域的核心概念。“原理与机制”部分将深入探讨基础故障模型、检测机制以及实现自动化测试的强大算法。随后的“应用与跨学科联系”部分将揭示这些思想如何远远超越硅芯片的范畴，为确保自动驾驶、医疗保健和材料科学等不同领域的安全性和可靠性提供一种通用语言。这段旅程将展示一个简单的抽象概念如何成为我们技术世界中驾驭不完美性的强大工具。

原理与机制

想象一下你的车无法启动。你会怎么做？你可能会检查电池、启动器、油量表。你本质上是在根据一个关于可能出错之处的心理模型来工作。你不会考虑引擎缸体中单个原子错位，或者热力学定律暂时失效的可能性。你正在使用简化的、实用的潜在故障抽象来指导你的诊断。

微电子世界面临着类似但复杂得多的挑战。一个现代处理器包含数十亿个晶体管。制造完成后，我们怎么可能知道它是否能正常工作？这数十亿个组件中，一个微小的瑕疵——一粒 stray particle of dust，一根不完美的导线——都可能是灾难性的。测试每一种可能存在的物理缺陷将是一项不可能完成的任务。这正是故障建模的精妙之处。它是一门创建复杂物理故障的简化逻辑表示的艺术和科学，将一个棘手的物理问题转变为一个可解的逻辑问题。

抽象的艺术：为可能出错的地方建模

在这些抽象中，最著名和最基础的是单一固定型故障模型。这个想法非常简单：我们假设一个缺陷将导致整个电路中的某一条线永久地“固定”在逻辑值 $1$ (固定为1) 或 $0$ (固定为0)上。这相当于一个电灯开关永久地熔合在“开”或“关”的位置。这个模型并非对现实的完美再现，但其简单性使其强大。它是芯片测试领域的“球形奶牛”——一种让我们能够取得惊人进展的理想化模型。

当然，现实更加微妙，模型也是如此。有时，两条相邻的导线可能会意外短路，这种情况由桥接故障模型来描述。在这种情况下，其行为取决于底层的电子特性。短路后的值会是两个信号的逻辑与（“线与”或“显性0”行为），还是它们的逻辑或（“线或”或“显性1”）？模型的选择可以决定一个测试是否有效，这凸显了一个好的模型必须捕捉到缺陷的关键物理特性。

在我们的高速世界里，不仅仅要保证正确，还要保证准时正确。一个信号可能最终会达到正确的值，但如果它太慢，整个计算就会被打乱。渡越故障模型通过将缺陷抽象为节点未能在时钟周期内完成从 $0 \to 1$ 或 $1 \to 0$ 的转换来解决这个问题。这需要一个两步测试：首先，设置初始值；其次，启动转换并检查它是否准时完成。

侦探的工具箱：让不可见变得可见

一旦我们有了潜在故障的模型，我们如何“看到”它呢？一个深埋在芯片内部的故障从外部是看不见的。为了找到它，我们需要设计一个测试——一个特定的输入模式——使故障的影响向外涟漪般传播到一个我们可以观察到的点。这个过程依赖于两个基本原则：激活和传播。

激活：我们必须施加输入，迫使无故障电路与故障电路在故障位置产生不同的行为。为了测试一条固定为0的线，我们必须尝试将那条线驱动为逻辑 $1$ 。如果我们不这样做，故障电路的行为将与好电路完全相同，故障就会被隐藏起来。
传播：在故障点产生的差异——即“错误”——必须沿着一条逻辑门路径传递，直到到达一个主输出端，即芯片上测试设备可以实际测量的引脚。这条路径上的每个门都必须被“敏化”，以让错误通过而不被掩盖。

让我们考虑一个简单的双输入异或门。当输入不同时，其输出为 $1$ ，相同时输出为 $0$ 。假设我们怀疑输出节点固定为1。如果我们施加输入模式 $(0, 0)$ ，正确的输出应该是 $0$ 。但如果故障存在，输出将是 $1$ 。输出不同，所以故障被检测到了！然而，如果我们施加模式 $(0, 1)$ ，正确的输出是 $1$ 。一个输出固定为1的电路也会产生 $1$ 。输出匹配，这个模式没有检测到故障。一个测试向量可以检测到某些故障，但会漏掉其他故障。

这揭示了一个巨大的挑战。在现代时序电路（带有存储器的电路）中，将一个故障传播通过数百万个门是极其困难的。这就像试图穿过一系列所有门都关闭的房间来喊话。为了解决这个问题，工程师们想出了一个天才般的创举，叫做可测试性设计 (DFT)。最常见的技术是扫描设计，它将芯片中所有的存储元件（触发器）重新配置成一个长的移位寄存器——一个扫描链。在“测试模式”下，我们可以简单地移入任何期望的内部状态（可控性），并在一个时钟周期后移出结果来查看发生了什么（可观测性）。这一神来之笔有效地打破了反馈循环，将极其复杂的时序测试问题转化为一系列简单得多的组合逻辑测试问题。这就像给了我们的侦探一把能打开大楼里每一扇门的万能钥匙。

衡量成功： “良好的覆盖率”究竟意味着什么？

一组测试向量的有效性由其故障覆盖率来衡量——即它能检测到的已建模故障的百分比。99%的分数听起来很棒，但它真正意味着什么？在这里，我们必须小心，因为这个概念有几个层次。

故障覆盖率是衡量测试质量相对于特定抽象模型的指标。达到99.9%的固定型故障覆盖率是一项了不起的成就，但这并不能说明我们检测与时序相关的渡越故障或其他类型缺陷的能力。
测试覆盖率，例如翻转覆盖率，是一个更简单的度量，仅衡量电路活动。它会问：我们的测试向量是否使电路中的每条线都至少在 $0$ 和 $1$ 之间切换过一次？这是一个有用的健康检查，但仅仅驱动一条线并不保证你已经测试了其上所有可能的故障。
缺陷覆盖率是我们最终关心的指标。它是指一个实际物理缺陷，无论其性质如何，被我们的测试捕获的概率。这决定了我们出货芯片的质量，通常用百万缺陷数 (DPPM) 来衡量。

我们如何弥合从抽象模型到真实世界缺陷之间的差距？我们无法知道每个缺陷的性质，但我们可以根据制造工艺对可能缺陷的谱系有一个很好的了解。一种复杂的方法是通过针对多个故障模型（固定型、渡越、桥接等）运行我们的测试来估计缺陷覆盖率，然后创建一个故障覆盖率的加权平均值，权重由每类缺陷发生的概率决定。这是概率推理的一个漂亮应用，将我们的抽象模型与出货可靠产品的具体目标联系起来。优先选择哪些模型的决策是一项关键的工程决策，由深刻的物理理解驱动。例如，如果分析表明时序故障更可能源于许多门的小延迟累积，而不是单个大延迟，那么路径延迟故障模型就成为比渡越延迟模型更有效的选择。

检测的机器：工作中的算法

为十亿晶体管的芯片生成一组能达到高覆盖率的测试，是一项远超人类能力的任务。这是自动测试向量生成 (ATPG) 的领域，这是一个由复杂的算法组成的家族，它们扮演着数字世界不知疲倦的侦探角色。

ATPG算法的核心是一种搜索算法。对于给定的目标故障，它必须找到一组主输入，同时满足激活和传播条件。关键的挑战是同时对好电路和故障电路进行推理。如果我们有一个故障点，在好电路中应为'1'，但却固定为'0'，我们如何表示这种“分裂的现实”并将其在电路中传播？

测试领域最优雅的思想之一由此诞生：D算法的5值逻辑。除了标准的 $\{0, 1, X\}$ (代表未知)，它引入了两个新符号： $D$ ，表示在好电路中为 $1$ 、在故障电路中为 $0$ 的节点；以及 $\overline{D}$ ，表示 $(0, 1)$ 。这些因数学需要而生的符号，完美地封装了故障效应——即差异本身。整个ATPG过程可以被看作是一场探索：找到一条路径，将 $D$ 或 $\overline{D}$ 从故障点传播到一个可观测的输出。如果一个 $D$ 出现在输出端，那么一个测试就找到了！没有这种特殊表示法，关于差异的关键信息将消失在大量通用的'未知'值中。

一旦生成了一个测试向量，我们必须确定它能检测到的所有故障。逐个进行（串行仿真）太慢了。这催生了极其巧妙的故障仿真算法的开发。并行故障仿真利用计算机字（例如64位）的位来同时仿真好电路和63个故障电路，使用标准的位逻辑运算。一种更先进的技术，并发故障仿真，基于一个简单但强大的观察：对于任何给定的测试，故障电路的行为在几乎所有地方都与好电路相同。该算法只仿真差异，在每个节点维护一个发散行为的列表。这是一种效率极高的事件驱动方法，是现代故障仿真的主力。

超越随机故障：智能对手

到目前为止，我们的模型都将缺陷视为自然的随机行为。它们遵循统计分布，但没有意图。但当“故障”不是随机小问题，而是来自智能对手的恶意、有针对性的攻击时，会发生什么？

这个问题将建模的概念推向了网络安全领域。考虑一个监控电网的数字孪生，它每隔 $\Delta$ 秒采样一次状态以检测异常。一个随机物理故障，被建模为泊松过程，在任何时间发生的可能性是均等的。平均而言，它会发生在采样间隔的中点，导致平均检测延迟为 $\Delta/2$ 。我们的风险分析是基于这种平均行为。

然而，对手不是随机的。对手知道采样时间表。为了最大化损害，他们不会在随机时间触发攻击；他们会在一次采样刚结束后，即在时间 $t_k + \epsilon$ 触发攻击。这样，攻击在几乎整个时间间隔内都未被检测到，将检测延迟最大化到接近 $\Delta$ 。这里的风险不是平均情况，而是最坏情况。

这揭示了建模哲学上的一个深刻区别。在为随机故障建模时，我们关心的是期望和平均。在为智能对手建模时，我们必须关心优化和最坏情况分析。前者是与自然的对话；后者是与思维对手的棋局。这显示了故障建模的惊人力量和广度——一个概念框架，不仅确保我们的电子设备能工作，还提供了在日益互联的世界中保护它们的工具。

应用与跨学科联系

在了解了故障建模的原理和机制之后，人们可能会留下这样的印象：这是电气工程中一个相当专业，甚至有些深奥的角落。一个充满固定为一和固定为零的世界，局限于数字逻辑的抽象领域。但事实远非如此！我们一直在探索的思想不仅仅是关于调试计算机芯片；它们代表了一种关于不完美性的基本思维方式，一种用于推理故障和确保可靠性的结构化语言。事实证明，这种语言在各种各样的领域中都被使用，从医院急诊室内的繁忙活动到电池内部寂静的原子舞蹈。

现在，让我们开始一次对这些应用的巡礼，看看一个简单的故障建模概念如何绽放成为塑造我们现代世界的强大工具。

硅之心跳：确保数字完美

我们的旅程从故障建模的主场开始：集成电路。现代微处理器可以说是人类有史以来创造的最复杂的物体，在一个指甲大小的空间里包含了数十亿个晶体管。在其制造过程中，无数事情可能出错——一粒灰尘，化学过程中的一个细微变化——留下微观的瑕疵。我们怎么可能确定这数十亿个组件中的每一个都完全按预期工作？我们无法观察。我们必须测试。

正是在这里，故障模型提供了从不可能到可行的关键一跃。工程师们不再试图想象每一种可能的物理缺陷，而是将它们抽象为逻辑上的不当行为。其中最经典的是固定型故障，即一条导线被建模为永久固定在逻辑 $0$ 或 $1$ 。通过开发一个能将导线驱动到相反值并检查电路输出是否与预期行为相符的测试向量，我们可以间接检测出一整类物理缺陷。

但是，那些不会导致完全失效，而仅仅是延迟的缺陷呢？在高速处理器中，一个信号晚到几皮秒与一个永远不会到达的信号一样是灾难性的。为此，工程师们开发了渡越故障模型，该模型捕捉了节点未能在要求的时钟周期内从 $0$ 切换到 $1$ 或从 $1$ 切换到 $0$ 的情况。测试这些故障需要更复杂的时钟脉冲舞蹈——一个用于启动转换，另一个精确定时的脉冲用于捕获结果。特殊的“可测试性设计”结构，如扫描链，被直接构建到芯片中，赋予我们上帝般的能力来控制和观察电路的内部状态，使得这些复杂的测试成为可能。

现在，假设一个测试失败了。一个十亿分之一的芯片从流水线上下来，我们精心设计的测试向量报告了一个错误。我们该怎么办？扔掉它并不能告诉我们任何信息。为了改进制造过程，我们需要进行尸检——即诊断。这就是故障建模转变为一种高科技侦探工作的地方。我们有一组线索：哪些测试向量失败了，哪些通过了。我们有一份嫌疑人名单：潜在的故障位置和类型。任务是找出最可能的罪魁祸首。

早期的方法很简单，比如“命中计数”法，它倾向于选择能解释最多观测到故障的候选故障。但现代诊断要微妙得多，它采用了概率的语言。我们可以建立一个最大似然模型，它会问：“给定一个特定的候选故障，观察到我们所见的精确通过和失败模式的概率是多少？”使我们的观察结果最不令人意外的候选者就是最有可能的。我们还可以更进一步，使用贝叶斯推断将这种似然性与先验知识相结合。也许对芯片布局的分析告诉我们，某个区域更容易出现缺陷。这种先验信念可以与测试得出的证据进行数学结合，以产生后验概率，从而为我们提供对真正根本原因的最佳估计。这使工程师能够区分不同类别的故障，从简单的逻辑级错误到标准单元内更复杂的晶体管级缺陷，这种技术被称为单元感知诊断。

硅难题的最后一块是自动化。手工生成这些测试向量是一项不可能完成的任务。因此，工程师们转向了计算机科学的另一个领域：形式化方法。为某个故障寻找测试向量的问题可以转化为一个布尔可满足性 (SAT) 问题。电路的逻辑、故障模型以及检测条件（ $y_{\text{good}} \oplus y_{\text{faulty}} = 1$ ）都被编码成一个单一的、巨大的逻辑公式。然后，我们释放一个SAT求解器——一种为寻找此类公式的满足赋值而高度优化的算法。如果求解器找到一个解，它赋给输入变量的值恰好就是我们正在寻找的测试向量。这种将物理问题优雅地转化为纯粹抽象逻辑问题的做法，是现代电子设计自动化（EDA）的基石，它使得为最复杂的芯片自动生成紧凑而高效的测试套件成为可能。

超越芯片：守护物理世界

故障检测的原理如此强大，以至于它们自然而然地从数字领域延伸到信息物理系统（Cyber-Physical Systems）的混乱、模拟的现实中——这些系统将计算与物理过程相结合，如机器人、飞机和自动驾驶汽车。

考虑一辆自动驾驶汽车。它的“感官”——摄像头、激光雷达、雷达——是它的生命线。一个 malfunctioning 传感器可能是灾难性的。汽车的大脑如何知道一个传感器是否在说谎？它可以使用一个数字孪生（Digital Twin），这是一个与真实硬件并行运行的复杂传感器软件模型。该模型获取汽车的估计状态（其位置、速度等），并预测传感器应该读取到什么。这个预测与实际传感器测量值之间的差异是一个称为残差（residual）的信号。

在一个完美、无故障的世界里，残差应该接近于零，只考虑一点随机噪声。但是当故障发生时，残差将以一种特征性的方式偏离。例如，一个传感器可能会产生偏差，即一个加性故障，它在其读数上增加一个恒定的偏移量。或者，它的校准可能会漂移，导致一个乘性故障，不正确地缩放其输出。通过持续监控残差，系统可以实时检测这些故障，根据它们的特征诊断它们，并采取纠正措施——也许是通过依赖其他传感器或平稳地将控制权交还给人类驾驶员。这种基于模型的方法是构建安全可靠的自主系统的基本技术。

机器中的幽灵：从硬件缺陷到软件弹性

到目前为止，我们已经讨论了使用故障模型来测试和诊断硬件。但是运行在硬件上的软件呢？这就引出了一个引人入胜且深刻的问题：底层硬件故障对高层算法有何影响？

想象一下一颗卫星里的计算机，它受到宇宙射线的轰击，这些射线可以随机翻转其内存中的比特——这是一种“软错误”。假设这台计算机正在运行一个简单的排序算法。如果一个比特翻转破坏了中间数据结构中的一个值，比如计数排序中使用的计数数组，会发生什么？最终的输出很可能不再是完美排序的。

我们可以使用故障建模来研究这个问题。通过系统地在算法执行的不同阶段——初始计数、前缀和计算或最终输出阶段——注入模拟的比特翻转故障，我们可以测量算法的弹性。我们可以量化“有序性”的退化程度，并发现算法的哪些部分最脆弱。这个被称为算法容错的领域，对于为安全关键或高可靠性环境设计健壮的软件至关重要，它弥合了硬件可靠性与软件正确性之间的鸿沟。

这个想法可以更进一步。我们不仅可以分析脆弱性，还可以设计明确具有容错能力的系统。这对于下一代、受大脑启发的神经形态硬件尤其重要。这些奇异的芯片可能非常复杂，以至于完美地制造它们在经济上是不可行的。它们下线时可能带有一些坏死的神经元或固定的突触。这会使它们变得无用吗？完全不会。

通过创建芯片的详细故障图——一张“不完美地图”——我们可以将这些缺陷视为将神经网络映射到硬件过程中的硬性约束。神经形态芯片的“编译器”可以被设计来解决一个复杂的优化问题：将所需AI模型的逻辑神经元和突触放置和布线到物理基底上，同时智能地避开已知的坏死组件并绕过固定的组件。故障模型成为软件工具链的一个组成部分，使我们能够驾驭这些大规模并行设备的强大功能，即使它们存在瑕疵。

一种通用的失败语言：从医学到材料科学

故障建模的真正美妙之处在于其普遍性。它所体现的对失败进行结构化、逻辑化思考的方式并不仅限于电子学。它是一个通用的智力工具，用于在任何复杂系统中管理风险和确保安全。

这一点在医疗保健领域表现得尤为明显。当医疗差错发生时，原始的反应是追究责任。而现代的、系统思维的方法，称为根本原因分析（RCA），则恰恰相反。它试图理解导致错误发生的潜在系统因素——在流程、培训或设备中。为此，医疗保健专业人员使用的工具直接借鉴自工程安全分析。

他们可能会使用像故障树分析（FTA）这样的自顶向下方法，从一个已定义的伤害（例如，“病人收到错误药物”）开始，并用形式化的与门和或门逻辑地向后追溯所有可能导致它的促成事件和条件。或者他们可能会使用像故障模式与影响分析（FMEA）这样的自底向上方法，系统地列出一个流程中每个步骤的潜在故障（例如，开药、配药、给药），并向前追踪其潜在影响。这些方法提供了一种结构化的方式来推理风险，现已成为医疗安全科学的基石，并且是新医疗设备（尤其是寻求符合欧盟MDR等法规的复杂AI诊断工具）获得监管批准过程中的强制性部分。在这里，“故障模型”是人类和系统易错性的模型。

这个概念的普遍性一直延伸到原子尺度。考虑一下驱动我们绿色能源转型的材料，比如锂离子电池中的正极材料。这种材料的性能关键取决于其晶体结构。理想的晶体是一个完美重复的原子晶格，但真实材料总是不完美的。它们含有缺陷。

在层状氧化物正极中，一个常见的缺陷是堆叠层错，即原子平面的常规A-B-C-A-B-C堆叠被破坏。这本质上是晶体在原子尺度“制造”过程中的一个故障。材料科学家如何检测和量化这些故障？他们使用X射线衍射。一个完美的晶体会产生一个由尖锐、清晰的峰组成的图谱。堆叠层错的存在破坏了长程有序性，导致这些峰发生各向异性展宽，并在它们之间产生弥散的强度条纹。

科学家可以创建一个晶体的“故障模型”——例如，一个描述相邻层之间发生故障概率的马尔可夫过程。然后，他们可以使用这个模型，也许在一个复杂的模拟框架如德拜散射方程内，来计算这样一个有缺陷的结构会产生的确切衍射图谱。通过将这个模拟图谱与实验数据进行比较，他们可以进行“诊断”，并提取出堆叠层错密度的精确、定量测量值。这些知识对于设计更好、更长寿命的电池至关重要。

从CPU的逻辑门，到汽车的传感器，到算法的代码，再到医院的安全程序，最后到晶体的原子晶格，故事都是一样的。故障建模为我们提供了一个框架，来面对不完美性，不把它看作是不可逾越的障碍，而是看作任何真实世界系统中一个可处理、可分析和可管理的特征。它是对抽象力量和科学思想统一之美的安静而深刻的证明。