单一固定型故障模型

玻尔百科

定义

单一固定型故障模型是电子测试领域中的一种逻辑抽象模型，它通过将各种物理缺陷简化为单个信号线永久固定在逻辑0或1的状态来简化问题。该模型通过故障激活与传播这两个核心步骤来检测错误，并通常采用五值逻辑系统进行行为跟踪。为了实现大规模集成电路的可行性测试，该模型还结合了故障合并与可测试性设计等关键技术。

关键要点

单一固定型故障模型是一种抽象，它将无数的物理缺陷简化为一个可管理的逻辑问题：即单条线路永久固定在逻辑 $0$ 或 $1$ 。
检测固定型故障是一个两步过程，需要通过将故障线路驱动到其相反的值来激活故障，然后将其传播到一个可观测的主输出。
五值逻辑系统（0, 1, X, D, D-bar）对于算法在测试生成过程中跟踪正常电路和故障电路行为之间的差异至关重要。
诸如故障压缩（利用等效性和支配性）和可测性设计（DFT）等技术，对于使拥有数十亿晶体管的复杂芯片的测试在计算上变得可行至关重要。

引言

测试一个拥有数十亿晶体管的现代集成电路是一项艰巨的挑战。潜在物理缺陷（微观裂缝、短路或退化的元件）的数量几乎是无限的，这使得直接、穷尽的验证变得不可能。这产生了一个关键的知识鸿沟：我们如何在不测试每一种可能的物理缺陷的情况下，自信地确定一个复杂芯片是否正常工作？解决方案不在于蛮力，而在于优雅的抽象。我们需要一个简化的模型，它能捕捉大量物理失效的逻辑效应，为测试提供一个系统化的框架。

本文探讨了单一固定型故障模型，这一基石性的抽象使得数字电子产品能够可靠地大规模生产。我们将首先深入探讨该模型的原理与机制，审视其核心虚构——即单条线路“固定”在某个固定的逻辑电平上。您将学习故障激活和传播的基本过程，了解自动化测试生成所需的专门逻辑，以及用于使问题变得易于处理的巧妙技术。随后，本文将探讨该模型深远的应用与跨学科联系，展示这个简单的理念如何支撑从测试基本逻辑门到开发复杂软件工具、革命性的可测性设计（DFT）理念，乃至现代硬件安全实践的方方面面。

原理与机制

想象一下，您是一位医生，面对一位只说“我不舒服”的病人。您该从何处入手？人体是一个极其复杂的系统，拥有数万亿个细胞和无数的相互作用。随机、穷尽地寻找问题是不可能的。相反，您依赖于模型——对可能出错的情况进行的简化而实用的描述。发烧表明感染；胸痛表明心脏问题。您基于这些模型进行特定的测试，以证实或否定您的假设。

测试一个拥有数十亿晶体管的现代集成电路也面临类似的挑战。芯片可能发生物理失效的方式几乎是无限的。一根导线可能有一条微小的裂缝，两个连接点可能因一粒灰尘而意外桥接，一个晶体管可能退化导致开关速度过慢。要想有希望验证芯片是否正常工作，我们不可能考虑到每一个物理上的细微差别。我们需要一个模型。我们需要一个强大而简化的理念，能够捕捉大量物理失效的逻辑效应。这就是单一固定型故障模型所扮演的角色。

一个必要的虚构：固定型故障

单一固定型故障模型是一项优美的科学抽象。它提出了一个简单但非常有效的虚构。我们想象在电路中数十亿个元件中，只有一个地方出了问题：一根导線，或称“线网”，被永久地“固定”住了。它要么总是处于逻辑 $1$ （固定为1故障，缩写为 $s@1$ ），要么总是处于逻辑 $0$ （固定为0故障，或 $s@0$ ），无论电路的其他部分试图使其变成何种状态。

这现实吗？它能捕捉所有可能的缺陷吗？当然不能。但正如牛顿物理学在人类尺度上是描述世界的一个绝佳模型一样，单一固定型故障模型已被证明极其有效。大量的真实世界缺陷，从短路到开路，其表现方式往往在逻辑上等同于一个简单的固定型故障。通过专注于这种理想化的错误类型，我们可以发展出一套严谨而系统的方法来寻找它们。

检测的艺术：让不可见变为可见

所以，我们有了一个嫌疑对象：一根被固定的导线，隐藏在我们电路这座巨大城市的某个角落。我们是侦探，只能通过控制其主输入和观察其主输出来与电路互动。我们如何诱使故障暴露自身？这是一个两步过程。

首先，我们必须激活故障。这意味着我们必须施加一个输入模式，在健康的电路中，这个模式会迫使问题导线达到与其固定值相反的状态。如果一条线固定为0，我们必须尝试将其驱动为1。如果它固定为1s，我们必须尝试将其驱动为0。这是检测的基本要求。这个动作在故障的精确位置产生了一个差异，一个逻辑错误。对于这一个特定的输入模式，正常电路在该线上的值是一个，而故障电路上的值是另一个。我们“触碰”了故障。

其次，这个局部的差异必须传播到主输出。如果错误被后续的逻辑门立即抑制或掩盖，那就没有意义了。故障的影响必须通过一连串的逻辑门 ripple（传播），直到它改变了我们能够实际测量到的一个引脚的值。考虑一个简单的例子：一名技术人员将输入向量 $(A, B, C) = (1, 0, 1)$ 应用于一个电路。为了检测一个 $A$ 固定为0的故障，技术人员知道 $A$ 的健康值是 $1$ 。固定为0的故障产生了一个差异。只有当这个内部差异导致最终输出改变，使故障变得可观测时，测试才算成功。

可以把它想象成一个复杂街道网络中一个卡在红灯状态的交通信号灯。要知道它坏了，必须发生两件事。首先，必须有车辆到达这个路口，而这些车辆本应遇到绿灯（激活）。其次，由此产生的交通堵塞必须蔓延到你能看到的主干道上（传播）。如果永远没有车来，或者这条街是个死胡同，你就永远不会知道那个灯是坏的。

用于双世界问题的特殊语言

我们如何自动化这项侦探工作？一个自动测试向量生成（ATPG）程序需要一种方法来同时推理电路的两个版本：“正常”电路和“故障”电路。仅有 $0$ 和 $1$ 值的简单布尔逻辑是不够的。

这个挑战催生了一种极富表现力的五值逻辑系统的发明，它是像D算法这样的经典算法的核心。这个逻辑系统包括我们熟悉的 $0$ 、 $1$ 和 $X$ （代表“未知”或“无关”）。但它增加了两个至关重要的新符号：

$D$ ：这个符号代表一条在线路在正常电路中为 $1$ 但在故障电路中为 $0$ 。可以把 $D$ 看作是值对 $(v_{\text{good}}, v_{\text{faulty}}) = (1,0)$ 。
$\overline{D}$ ：这个符号代表一条线路在正常电路中为 $0$ 但在故障电路中为 $1$ 。这对应于值对 $(0,1)$ 。

这些符号 $D$ 和 $\overline{D}$ 是故障效应的体现。它们不仅仅是错误的占位符；它们携带着错误的具体“方向”。这一点至关重要，因为逻辑门对它们的处理方式不同。例如，如果一个信号 $D$ 通过一个反相器，它的值就变成 $\overline{D}$ 。值对 $(1,0)$ 变成了 $(0,1)$ 。这种逻辑演算能够正确地跟踪差异的变换。

为什么这如此重要？想象一下只用 $0、1$ 和 $X$ 来做这件事。当我们激活一个故障时，我们制造了一个差异——比如，在内部线网 $w$ 上出现了一个 $(1,0)$ 。在一个三值系统中，我们能做的最好的事情就是将 $w$ 标记为 $X$ ，因为它的值并非一致的 $0$ 或 $1$ 。但 $X$ 只意味着“未知”。当这个 $X$ 传播时，下游逻辑会将其视为“可能是 $0$ 或 $1$ ”，输出很可能也会变成 $X$ 。关键信息——即正常值和故障值绝对不同——丢失了。而五值逻辑通过给差异赋予自己的名称来保留这一信息，使得算法可以在 $D$ 或 $\overline{D}$ 到达主输出时，确认检测到了一个故障。

驯服野兽：故障压缩的优雅

即使有了我们的简化模型，一个现代芯片仍有数百万条线网，这意味着有数百万个潜在的固定型故障。为每一个故障单独生成测试在计算上是 prohibitive（不可行的）。但在这里，另一个优美的简化来拯救我们了：故障压缩。

事实证明，许多不同的物理故障在逻辑上是无法区分的。这引出了两个关键概念：

故障等效性：如果两个或多个故障对于所有可能的输入模式，在主输出上产生完全相同的行为，那么它们是等效的。例如，在一个简单的双输入与门，其输出连接到一个反相器（构成一个与非门）中，任一输入上的固定为0故障与最终输出上的固定为1故障产生的故障函数完全相同——它们都迫使输出永久为 $1$ 。由于它们无法区分，我们不需要对所有这些故障都进行测试。我们可以将它们分组到一个等效类中，并只为其中一个代表生成测试。
故障支配性：有时，一个故障比另一个“更容易”被检测到。如果每一个能检测到故障 $F_2$ 的测试向量也能检测到故障 $F_1$ ，我们就说 $F_1$ 支配 $F_2$ 。这意味着 $F_2$ 的测试集是 $F_1$ 测试集的一个子集。为了保证两者都被捕捉到，我们只需要针对“更难”检测的那个，即 $F_2$ 。一旦我们找到了 $F_2$ 的测试，我们就已经处理了 $F_1$ 。所以，我们可以从我们的目标列表中移除支配性故障 $F_1$ 。

通过系统地应用这些等效性和支配性原则，我们可以将庞大的初始故障列表“压缩”成一个更小、更易于管理的集合，而不会损失我们最终测试套件的任何质量。这是一个强有力的例子，说明了数学结构如何能极大地简化一个蛮力工程问题。其结果是一个更高效的测试过程，其衡量标准是一种称为故障覆盖率的指标——即我们的测试向量成功检测到我们压缩后列表中故障的百分比。

无法捕捉的幽灵：冗余故障

那么，我们总能为我们压缩列表中的每一个故障找到测试吗？如果一个故障在逻辑上不可能被检测到怎么办？这些被称为冗余故障。无论你应用什么输入模式，故障电路的输出都与正常电路的输出完全相同。

这些故障就像机器中的幽灵。它们对应于真实的物理缺陷，但对电路的逻辑行为没有影响。这种情况通常发生在电路设计本身包含逻辑冗余时。例如，布尔函数 $F = (A \cdot B) + (\overline{A} \cdot C) + (B \cdot C)$ 包含一个冗余项 $(B \cdot C)$ ，这是由共识定理决定的。代表这个项的线路上发生固定为0的故障将被其他两项完全掩盖，因此是不可检测的。在一个无冗余、无扇出的电路中，每一个单一故障都有可能是可检测的，从而不留下任何冗余的幽灵。

虽然它们自身不会引起逻辑错误，但冗余故障仍然是一个问题。它们的存在会使得检测其他非冗余故障变得更加困难。此外，操作条件的变化或第二个故障的发生可能会突然使先前良性的冗余故障变为活动状态。识别它们是确保设计稳健可靠的关键部分。

穿越单一固定型故障模型的旅程，将我们从物理缺陷的混乱现实带入一个充满逻辑和代数的结构化世界。它证明了良好建模的力量，让我们能够定义问题、开发工具（ $D$ -演算）并优化解决方案（故障压缩）。这个简单而优雅的模型构成了数字测试的基石，更复杂的针对其他类型故障的模型都是建立在这个基础之上的。

应用与跨学科联系

理解了单一固定型故障模型的原理后，人们可能倾向于将其视为一个精巧但狭隘的学术难题。这与事实相去甚远。这个极其简单的抽象——即一个缺陷的行为就像一根导线永久地连接到逻辑 $0$ 或 $1$ ——并不仅仅是一个智力上的好奇心；它是整个现代半导体产业赖以建立的根本基石。它的力量在于它能够将一个混乱的物理问题（“这个拥有十亿晶体管的芯片是否正常工作？”）转化为一个清晰、可解的纯逻辑问题。这一转变不仅在制造业，还在电路设计、计算机科学甚至网络安全领域引发了革命。让我们踏上旅程，看看这一个简单的理念如何在广阔的技术领域中回响。

第一步：测试砖瓦

想象一下你正在建造一座巨大的建筑。在担心宏伟的建筑结构之前，你必须首先确保每一块砖都是坚固的。在数字逻辑的世界里，“砖块”是像与门（AND）、或门（OR）和异或门（XOR）这样的基本门。我们如何测试它们？固定型模型为我们提供了精确的方案。

考虑一个简单的双输入与门。为了确信它没有损坏，我们必须设计一组输入信号，或称“测试向量”，能够揭露任何可能的固定型故障。如果一个输入固定为1，我们如何察觉？与门的输出在任何输入为 $0$ 时为 $0$ 。一个输入上的固定为1故障只有在我们试图将该输入设置为 $0$ 同时将另一个输入设置为 $1$ 时才可见，这使得输出对我们正在测试的输入敏感。如果输出在应该为 $0$ 时却是 $1$ ，我们就抓住了故障！同样，要捕捉一个固定为0的输入，我们必须尝试将其设置为 $1$ 。对于与门来说，当另一个输入也为 $1$ 时，这个测试最有效。通过系统地对所有输入和输出遵循这个逻辑，我们发现一个包含三个向量的最小集合——(0,1), (1,0), 和 (1,1)——就足以测试双输入与门中的每一个单一固定型故障。向量 (0,0) 或许令人惊讶地并非必需，因为它检测到的故障也会被其他向量捕捉到。

同样的“如果-那么”推理适用于所有基本门。对于一个三输入或门，逻辑是相反的。要测试一个输入上的固定为0故障，我们必须尝试将该输入设置为 $1$ 而所有其他输入为 $0$ 。要测试任何输入固定为1的情况，我们只需要一个向量：(0,0,0)。如果任何输入固定为1，输出在应该为 $0$ 时将会是 $1$ 。

这些简单的练习不仅仅是谜题。它们是一个庞大的自动化过程的第一步。当我们从单个门扩展到一个稍微复杂一些的电路，比如一个计算和（ $S = A \oplus B$ ）与进位（ $C = A \land B$ ）的半加器时，同样的原则也适用。我们必须找到一组最小的输入模式，确保任何在输入或输出上的单一固定型故障都会导致至少一个输出（ $S$ 或 $C$ ）不正确。这要求我们考虑故障如何同时通过不同的逻辑路径传播。对于更大的功能模块，比如一个由异或门树构成的4位奇偶校验生成器，我们还必须确保我们的测试能够检测到连接门之间的内部线上的故障，而不仅仅是主输入和输出上的故障。

软件革命：自动化搜寻

对于少数几个门来说，手动设计测试集是可行的，但一个现代微处理器包含数十亿个门。在这里，固定型模型的真正威力显现出来，因为它为软件提供了一个明确的目标。寻找测试向量的问题变成了一个算法挑战，催生了自动测试向量生成（ATPG）领域。

ATPG算法就像不知疲倦、逻辑严谨的侦探。其中一个经典的策略，称为PODEM（Path-Oriented Decision Making，面向路径的决策），通过设定一个目标并向后工作。为了找到一个内部线上固定为0故障的测试，它的第一个目标是强制该线达到逻辑 $1$ 。然后它从那条线向主输入“回溯”，决定需要哪些输入值来实现该目标。一旦故障被“激发”（即在正常电路和故障电路之间产生了一个差异 $D$ ），算法的目标就改变了：它现在必须将这个 $D$ 传播到一个输出。它通过选择一条通往输出的路径，并将该路径上所有门的“旁路输入”设置为非控制值（例如，将与门的另一个输入设置为 $1$ ）来保持路径畅通。这种在激发和传播目标之间的交替持续进行，直到找到一个完整的测试向量。

当然，一旦我们有了一组测试向量，我们如何知道它有多好？它实际检测到了所有可能的固定型故障的百分之多少？这是故障仿真的工作。与其制造和测试数百万个有缺陷的芯片，我们可以对它们进行仿真。但是为每个测试向量逐一仿真每个可能的故障将会慢得不可思议。这个计算挑战催生了算法设计方面的惊人创新。

并行故障仿真利用了计算机体系结构的一个巧妙技巧。一个计算机字（例如64位）可以用来同时仿真64个不同的电路。一个位代表无故障电路，其他63个位代表带有63个不同故障的电路。机器上的一个按位AND操作可以在一条指令中为所有64个电路执行AND逻辑！
并发故障仿真，是目前使用最广泛的现代技术，基于一个深刻的洞察：对于任何给定的测试向量，一个故障只在它导致一个值与无故障电路偏离的地方才重要。该方法仿真一次正常电路，并为每个门维护一个列表，该列表只包含那些在该点主动引起不同值的故障。这些“偏离”像事件一样被传播，如果一个故障的影响被掩盖（例如，被门上的一个控制值掩盖），它就会从列表中被移除。这是一种“事件驱动的差异跟踪”方法，因为它只关注差异，所以效率极高。

固定型模型以其优雅的简洁性，创造了一个定义明确的问题，从而推动了数十年在算法、数据结构和计算效率方面的研究。

为测试而设计：一场必要的革命

随着电路变得越来越复杂，工程师们碰壁了。一个现代的时序电路，拥有数百万个存储状态的触发器，就像一个黑匣子。试图找到一个输入序列来测试深藏在内部的故障，就像蒙着眼睛去解一个有百万个面、需要数千步的魔方一样。这个问题在计算上变得棘手。

解决方案不是一个更好的算法，而是设计本身的范式转变，一种被称为可测性设计（DFT）的哲学。如果电路太难测试，那么我们必须改变电路。最重要的DFT技术——扫描设计，是单一固定型故障模型的直接结果。这个想法非常巧妙：在测试模式下，芯片中所有的触发器被重新配置，连接成一个或多个长的移位寄存器，即“扫描链”。

这为进入电路的灵魂创造了一条秘密的后门。工程师现在可以暂停芯片，串行地“扫描输入”任何所需的状态到所有触发器中，让芯片运行一个时钟周期以“捕获”组合逻辑的结果，然后“扫描输出”那个结果状态以进行观察。这将不可能的时序测试问题转变为一个可管理的组合问题 [@problemid:4264531]。我们只需要测试触发器之间的逻辑云，这些触发器现在充当“伪主输入”和“伪主输出”。固定型模型为这种组合测试提供了完美的框架。

这种哲学也帮助我们处理设计中其他“不整洁”的部分。异步电路，比如一个简单的纹波计数器，构成了一个特殊的挑战。在纹波计数器中，一个时钟边沿触发第一个触发器，其输出接着触发第二个，如此级联下去。输出不会同时稳定下来。一个标准的、单边沿的扫描捕获只会看到最终状态，完全错过了瞬态的“中间纹波”状态。这使得无法验证纹波连接本身是否正常工作。解决方案是什么？我们再次修改设计，插入像多路复用器这样的测试逻辑，允许我们在测试模式下同步地为所有触发器提供时钟，或者选择性地“门控”纹波链以在中间纹波状态下冻结它以供观察。固定型模型不仅测试最终设计；它指导我们创造一个首先就是可测试的设计。

超越缺陷：经典模型的新前沿

单一固定型故障模型的影响力并不仅限于制造测试。故障的理念本身已经成为设计更好、更可靠系统的强大工具。

在航空航天或医疗设备等关键应用中，我们不能因为芯片失效就扔掉它。我们需要能够容忍故障的系统。一种方法是在操作期间使用故障检测的原理。例如，在一个像超前进位加法器这样的关键组件中，我们可以用“双轨逻辑”来设计它。我们构建两份进位计算逻辑的副本——一份计算真实的进位信号，另一份计算其补码。在无故障电路中，它们的输出应该总是相反的。一个校验电路持续监控这一点。如果任何一个进位路径中发生单一固定型故障，这种互补关系就会被破坏，校验电路会立即标记一个错误。这以增加面积和功耗为代价，但提供了在线错误检测，将测试模型转变为弹性模型。

也许这个框架最激动人心的现代应用是在硬件安全领域。如果一个恶意行为者秘密地在芯片设计中插入一个微小的电路——一个“硬件木马”——会怎么样？这个木马可能会潜伏着，直到被一组非常具体、罕见的内部条件激活，此时它可能会泄露秘密信息或导致芯片失效。我们如何在这大海中捞到这根针？

值得注意的是，我们可以改造ATPG机制。现在的目标是双重的：我们仍然想要测试标准的固定型故障，但我们同时也想在激活可能触发木马的罕见条件时这样做。这是一个多目标优化问题。使用像加权最大可满足性（Weighted Max-SAT）这样的先进技术，我们可以指示ATPG求解器将故障检测标准视为必须满足的“硬”约束，同时将木马触发条件视为它应该尝试满足的“软”约束。我们甚至可以根据这些软约束的罕见程度为其分配权重，使求解器偏向于寻找最不可能和可疑的状态。其结果是一个测试向量，它不仅验证了制造质量，而且还充当了一个探针，试图唤醒任何隐藏的恶意逻辑。

从一个简单的门到一个安全的超级计算机，单一固定型故障模型已经被证明是一个惊人富有成效的理念。它证明了一个良好抽象的力量：通过将复杂的物理现实简化为一个可管理的逻辑现实，它为构建我们每天依赖的可靠而复杂的数字世界提供了坚实的基础。