硬件木马

玻尔百科

核心要点

硬件木马是对电路的蓄意、恶意修改，其定义在于其恶意意图和有害的有效载荷。
木马由一个触发器和一个有效载荷组成。触发器等待一个罕见的条件，而有效载荷则执行恶意行为，如数据泄露或拒绝服务。
全球IC供应链中的漏洞使得木马可以在各个阶段被插入，从初始设计和第三方IP到制造工具和晶圆代工厂本身。
检测木马具有挑战性，因为它们被设计得非常隐蔽，通常需要侧信道分析来在自然的芯片偏差中找到其微弱的物理特征。

引言

我们对现代电子产品——从智能手机到国家电网——的信任，建立在硅的微观基础之上。但如果这个基础可能被秘密地篡改呢？这就是硬件木马的威胁，一种对集成电路的蓄意恶意修改，旨在造成损害。在一个全球化的供应链时代，单个芯片的设计、制造和测试可能跨越多个公司和国家，这种蓄意破坏的机会大大增加。本文旨在解决围绕这些隐藏威胁的关键知识鸿沟，解释一个“幽灵”是如何被植入机器之中的。本次探索将引导您了解这些恶意电路背后的核心原理、它们的实际应用以及追踪它们的跨学科挑战。首先，我们将深入探讨“原理与机制”，以理解硬件木马是如何构建和隐藏的，然后继续探索其在“应用与跨学科联系”中的毁灭性潜力。

原理与机制

要理解硬件木马的威胁，我们必须首先学会像间谍和侦探一样思考。间谍的目标是保持不被发现，融入环境，只在最有利的时机行动。侦探的目标是找到难以察觉的线索，与常规的细微偏差，即机器中的幽灵。硬件木马的原理和机制是这两种思维方式之间的一场精彩对决，在一个由硅和电构成的微观舞台上演。

机器中的幽灵：什么是硬件木马？

想象一下，您正在检查一个复杂银行金库的蓝图。您可能会发现一个错误——一个齿轮被意外地指定了错误的齿数。这是一个设计缺陷。这是一个错误，也许代价高昂，但它是无意的。或者，在金库建造过程中，一个焊工可能因失误制造了一个脆弱的接头。这是一个制造缺陷。同样，是一个错误，但不是恶意的。

现在，想象一个破坏者，一个内部人员，巧妙地修改了设计。他们在锁上增加了一个隐藏的辅助机制，只有当在键盘上输入一个特定的、秘密的数字序列时，门才会弹开。这就是硬件木马。

将硬件木马与简单的缺陷或瑕疵区分开来的唯一、最重要的特质是恶意意图。木马是对电路的蓄意、敌对的修改。但仅有企图是不够的；没有行动的恶意想法是无害的。因此，一个硬件木马有两个基本组成部分：

恶意意图 ( $M(x)$ ): 该修改由对手故意引入以造成损害。
有效载荷 ( $P(x)$ ): 当被激活时，该修改会执行未经授权的有害操作。

所以，硬件木马被正式定义为同时存在恶意意图和有效载荷。

然而，一个笨拙的破坏者如果使其隐藏机制显而易见，将立即被抓住。最有效的间谍是隐身大师。同样，最危险的硬件木马也设计有两个附加属性：隐蔽性和罕见激活。它们被设计成几乎无法通过标准测试程序找到，并在正常操作期间保持休眠状态，只在非常特定的情况下才会“醒来”。这些并非木马的基本定义的一部分，但它们是精心设计的木马的标志。

破坏者的剖析：触发器与有效载荷

每个木马都可以被剖析为两个基本部分：触发器和有效载荷。触发器是秘密的握手信号，是等待特定条件的引爆器。有效载荷是恶意行为本身，是触发器触发时引爆的炸弹。

触发器：秘密的握手信号

触发器的主要工作是保持木马处于休眠和隐藏状态，直到合适的时机。触发条件的选取标准是，在正常操作期间，以及最重要的是，在芯片的制造后测试阶段，都极为罕见。

一个简单而有效的触发器可能是组合逻辑触发器。想象一个木马被设计为仅在五个特定的内部信号（我们称之为 $A, B, C, D, E$ ）同时为高电平时触发。触发器的逻辑只是一个简单的与门： $Trig = A \land B \land C \land D \land E$ 。如果这些信号是随机且独立的，那么在任何给定的时钟周期内发生这种情况的概率是 $(\frac{1}{2})^5$ ，即1/32。但如果这些信号不是随机的呢？如果它们代表处理器指令解码器中的罕见条件呢？如果根据实际软件，每个信号为'1'的概率是0.1，那么触发概率将骤降至 $(0.1)^5$ ，即十万分之一。攻击者可以使这个概率变得极低，从而确保随机测试在统计上注定失败。这是一种显而易见的隐藏方式。

一个更老练的攻击者可能会使用时序逻辑触发器。这就像一个数字密码锁。它不只是等待单个事件，而是等待一个随时间推移的特定事件序列。例如，一个隐藏的状态机可能会计数1024个时钟周期，然后在数据总线上寻找一个特定的命令序列。激活这需要不仅是正确的数据，还需要在正确的时间以正确的顺序出现的正确数据，这使得偶然触发它的难度呈指数级增加。

也许最阴险的是模拟触发器。这些触发器不监听1和0的数字对话。它们感知芯片的物理环境。一个模拟触发器可能使用一个隐藏的比较器电路来监控芯片的供电电压 $v_{dd}(t)$ 和温度 $\Theta(t)$ 。木马可以被编程为仅在电压降至某个阈值以下（例如， $v_{dd}(t) \le 0.92\,\mathrm{V}$ ）且温度非常高（例如， $\Theta(t) \ge 85^\circ\mathrm{C}$ ）时激活。这种情况在实验室中可能永远不会发生，但可能在芯片使用多年后，随着其电源老化或部署在恶劣环境中而发生——这是制造一颗定时炸弹的完美方式。

有效载荷：恶意行为

一旦触发器触发，有效载荷就会被释放。其影响可以从微妙的性能退化到灾难性的故障。

拒绝服务（DoS）： 这是纯粹的破坏行为。有效载荷的目标是使芯片或其一部分无法使用。一个经典的例子是，一个木马在被触发时，关闭通往一个关键处理单元（如向量流水线）的时钟信号。流水线 einfach 停止工作，任务停滞，系统的吞吐量崩溃。
信息泄露： 在这里，木马是间谍，而不是破坏者。它的目的不是破坏芯片，而是窃取敏感信息。想象一个加密引擎内部的木马。当被触发时，它可能会激活一个微小的、隐藏的环形振荡器——一个以高频振荡的简单电路。然后，木马可以根据秘密加密密钥的比特来调制这个振荡器的信号。这个振荡信号会产生微弱的电磁辐射，将芯片变成一个微型无线电发射器，向附近的天线广播秘密密钥。
参数退化： 这是最微妙的有效载荷。它不会导致明确的功能性故障，但会使芯片的性能明显变差。例如，一个木马可以改变某些晶体管上的电偏置，使一条关键路径的延迟仅仅增加50皮秒。芯片不会崩溃，但其最大安全工作频率降低了10%。这可能导致间歇性的、难以诊断的时序错误，这些错误只在特定条件下出现，或者它可能只是恶意竞争对手用以降低对手产品性能的一种方式。

渗透：木马从何而来？

现代集成电路（IC）供应链是全球化的奇迹。它是一场涉及数十家公司、团队和国家的复杂舞蹈。一个芯片在一个国家构思，其构建模块（IP核）从其他国家授权，使用另一组供应商的软件工具进行设计，最后在世界另一端的晶圆代工厂制造。这种碎片化虽然高效，却创造了一个充满渗透机会的格局。

木马几乎可以在任何可以修改设计部分的地方被插入：

设计阶段（RTL）： 最直接的威胁是内部人员——设计公司的恶意工程师，他们将木马直接写入芯片的源代码（寄存器传输级，或RTL，蓝图）中。在一个拥有数百万行代码的项目中，一个小的、经过混淆的恶意逻辑块很容易被忽视。
第三方知识产权（IP）： 现代芯片很少从零开始构建。设计者通常从其他公司购买预制的功能块，如USB控制器或处理器核。这些IP块通常以“黑盒”形式交付，其内部逻辑对集成者不可见。木马可以被嵌入到这个第三方IP中，使得IP供应商成为安全链中的关键环节。
EDA工具阶段（综合）： 将人类可读的RTL蓝图转换为门级网表（一个称为综合的过程）的软件工具本身极其复杂。一个被篡改的电子设计自动化（EDA）工具可以被编程为自动识别设计中的某些结构，并在设计者不知情的情况下插入一个木马。攻击不是针对芯片的设计，而是针对用于构建它的工具。
制造阶段（晶圆代工厂）： 这也许是最令人不安的威胁。在这里，一个不受信任的晶圆代工厂可以直接对物理硅片进行恶意修改。他们不改变设计蓝图；他们改变其物理实现。例如，他们可以改变一小部分晶体管的掺杂浓度。这改变了晶体管的电学特性（如其阈值电压），而不改变物理版图。这是终极隐形木马的物理体现。

隐身之术：木马如何隐藏

木马的生存取决于它规避检测的能力。这种规避是一种艺术形式，利用了逻辑学、物理学和计算机科学的原理。

显而易见的隐藏：逻辑隐蔽

正如我们所见，罕见的触发器是木马的第一道防线。但一个聪明的攻击者可以通过利用可控性和可观测性的概念来更有系统地进行。简单来说：

可控性是衡量通过仅控制芯片的主要输入来将电路中的内部连线“驱动”到特定值（0或1）的难易程度。
可观测性是衡量通过仅观察芯片的主要输出来“看到”内部连线值的难易程度。

攻击者会将木马触发器放置在一个可控性非常低的节点上——电路中一个极难从外部到达的“黑暗角落”。他们会将有效载荷的影响放置在一个可观测性非常低的节点上，确保即使木马触发，其影响也会被削弱，不太可能传播到一个可以被看到的地方。因此，木马被嵌入到设计的逻辑上不可访问的部分。

物理伪装：参数隐蔽

最先进的木马甚至不添加新的逻辑。它们本质上是纯物理的，或参数化的。考虑在晶圆代工厂层面改变晶体管中掺杂原子的威胁。这种木马是一个幽灵。为什么？

首先，它规避了光学检测。物理学的基本定律，特别是光的衍射极限，决定了光学显微镜无法分辨比所用光波长一半左右更小的特征。使用绿光（ $\lambda \approx 550\,\mathrm{nm}$ ）的检测系统无法看到任何小于约300纳米的东西。对发生在10-30纳米尺度的掺杂分布的修改，在物理上是不可见的。这就像试图从卫星上阅读报纸印刷体。

其次，它规避了逻辑验证。检查RTL设计和最终网表之间等效性的工具在较高的抽象层次上操作。它们检查电路是否实现了正确的布尔函数，将晶体管视为理想开关。晶体管阈值电压（ $V_T$ ）的微小变化可能不会在正常条件下改变其逻辑行为。验证器看到的是一个完美的与门，而实际上，它是一个物理上受损的与门。该工具正在检查蓝图，但木马是建筑材料中的缺陷。它存在于逻辑设计和物理现实之间的抽象鸿沟中。

追踪：检测的挑战

如果木马如此擅长隐藏，我们怎么能希望能找到它们呢？对硬件木马的追捕是现代网络安全中最重大的挑战之一，一场信号与噪声的博弈。

功能测试，即向芯片输入数据并检查其输出，通常是一场败局。用随机测试向量触发一个罕见触发器的概率极低。对于一个激活概率为 $p_t = 10^{-9}$ 的触发器，你需要运行数十亿个测试向量才能有一次激活它的合理机会。

这就是为什么检测的前沿在于侧信道分析。我们不再问“芯片的答案是否正确？”，而是问“芯片在计算答案时行为是否正常？”。我们成为物理侦探，在芯片的模拟特性中寻找木马活动的指纹：它的功耗、它的时序延迟、它的电磁辐射。

但这种方法面临一个强大的对手：工艺偏差。从装配线下线的任意两块芯片都不是完全相同的。晶体管的物理特性总是存在微小的、随机的波动。这意味着即使是“干净”的芯片，其侧信道特征也存在自然的变化。这种自然变化就是噪声。木马就是我们试图在这种噪声中寻找的信号。

检测过程变成了一个统计过程。我们测量一批受信任的“黄金”芯片，以建立一个正常行为的统计模型，通常是一个高斯分布 $\mathcal{N}(\mu_{0}, \sigma^{2})$ ，其中 $\mu_0$ 是平均行为， $\sigma^2$ 是由于工艺偏差引起的方差。然后我们测量一个可疑芯片。如果其测量值是一个显著的统计异常值——如果它落在“正常”分布的尾部太远——我们就标记它。

这里有一个根本的限制。如果一个木马的影响 $\delta$ 太小，它将在统计上与工艺偏差的背景噪声无法区分。最小可检测效应大小 $\Delta_{\min}$ 是噪声方差 $\sigma^2$ 、我们采样的芯片数量 $N$ 以及我们对误报和漏检的容忍度的函数。任何影响小于此限制的木马，实际上都是不可见的。

侧信道的选择至关重要。对于一个具有极低活动性触发器的隐蔽木马，其对总功耗的影响可能微乎其微——一个埋藏在巨大噪声中的微小信号。然而，它对单个关键路径延迟的影响可能要显著得多。通过仔细测量路径延迟，我们也许能够检测到仅几十飞法的附加电容，而功率测量则需要一个大数千倍的信号才能被看到。在这种情况下，路径延迟传感对侦探来说是一个灵敏度高出几个数量级的工具。因此，对硬件木马的追捕是一场对更好的传感器、更智能的统计方法以及对这些幽灵留下的物理线索更深刻理解的持续探索。

应用与跨学科联系

我们花时间理解了硬件木马的基本原理——一种对电路设计的秘密、恶意修改。我们看到了它如何由触发器和有效载荷组成，一个等待秘密组合的数字时代定时炸弹。但要真正领会这个想法的精妙和危险，我们必须离开抽象逻辑的洁净室，去看看这些幻影在现实世界中潜伏于何处。这才是故事真正变得有趣的地方，将我们整洁的逻辑门与运行我们社会的庞大、复杂且时而混乱的系统联系起来。

欺骗的剖析：恶意行为的构建模块

在其核心，硬件木马是一种寄生在宿主电路上的寄生虫。它最简单的形式几乎大胆得可笑。想象一个简单的双输入与门，计算的基本原子。一个木马可以被设计为在几个时钟周期内监听输入。在其大部分生命周期中，它什么也不做。但是，当看到一个非常具体、罕见的输入序列——比如说， $(1,0)$ ，然后是 $(0,1)$ ，然后是 $(1,1)$ ，最后是 $(0,0)$ ——一个微小的内部状态机就会扳动一个开关。从那一刻起，这个与门不再是与门；它被永久地重新布线，以充当一个或门。逻辑在其最基本的层面上被破坏了。

这并不仅限于将一个门的功能改变为另一个。木马可以被设计为操纵一个1位比较器的输出，仅在观察到一个秘密的三周期序列后才翻转其“大于”的结果。这样的改变可能看起来很小，但在一个排序或条件分支依赖于此比较的系统中，其后果可能级联成完全的失败。

这些恶意电路不需要很大或很明显。它们可以被编织进标准组件的结构中。一个日常的多路选择器，设计用于从多个输入中选择一个，可以被劫持。它的一些数据输入，本应连接到逻辑‘1’或‘0’以实现特定功能，可以被秘密地连接到一个隐藏的“密码”总线。当正确的密码出现在这个总线上时，多路选择器的行为会针对特定输入被巧妙地改变，在木马主人希望的时候恰好反转正确的结果。

木马设计者的真正艺术在于瞄准芯片最关键和最复杂的部分。考虑一个进位选择加法器，一种为高速算术设计的巧妙工程。该组件通过同时计算两种可能的进位输入值的和，然后使用多路选择器选择正确的一个来工作。木马可以瞄准这个选择机制。对于几乎所有的数字，加法器工作得完美无瑕。但如果两个非常特定的数字作为输入出现——比如说，十六进制 0xAA 和 0x55——木马可以强制多路选择器选择错误的结果，就好像进位输入不同一样。这引入了一个完全依赖于数据的计算错误，一个只在处理“魔法数字”时出现的幽灵。

有效载荷并不总是一个简单的数据错误。一些木马是为纯粹的破坏而设计的。在一个简单的纹波计数器中，它随着每个时钟脉冲逐个通过二进制数，存储计数值的触发器通常有异步的“置位”和“清零”引脚。这些是用于初始化的。一个木马可以将其触发逻辑连接到这些引脚。当被特定状态和外部使能信号激活时，它可以异步地强制计数器跳转到一个完全不相关的状态，从而完全打乱程序的执行流程。

系统级破坏：从故障到失效

破坏单个组件是一回事；搞垮整个系统是另一回事。这就是硬件木马展现其真正危害潜力的地方。考虑一个总线仲裁器，复杂芯片的交通警察，决定几个主设备中哪一个可以使用共享通信总线。这个功能通常在可编程逻辑器件（CPLD）中实现。嵌入在该仲裁器中的木马可以被设计为观察来自不同主设备的罕见总线请求序列。这个序列对正常操作毫无意义，却是木马锁的钥匙。在看到序列中的最后一个请求后，木马进入一个永久的“锁定”状态。它的有效载荷？覆盖仲裁器的逻辑，永远不将总线授予任何人。这是一个完美的拒绝服务（DoS）攻击，冻结了系统的核心，使其在物理复位前都毫无用处。

随着现代现场可编程门阵列（FPGA）的出现，这种威胁被极大地放大了。FPGA是一片未承诺的逻辑门海洋，只有在加载了称为比特流的配置文件后才具有其功能。许多系统为了成本和简单性，将此比特流存储在外部不安全的闪存芯片上。这开启了一个巨大的漏洞。具有物理访问权限的攻击者不需要对硅片进行纳米手术；他们可以简单地从闪存芯片中读取比特流，在计算机上修改它以包含恶意木马（或完全恶意的设计），然后写回去。在下一次上电时，FPGA天真地加载其新的、武器化的人格，成为系统心脏中的叛徒。在这种情况下，硬件功能的供应链已被破坏。

电线上的窃窃私语：隐蔽信道与数据窃取

也许硬件木马最优雅和阴险的应用不是破坏系统，而是利用它来窃取秘密。这些是“隐蔽信道”攻击，它们代表了数字逻辑、模拟电子学和信息论的美妙交集。

想象一个共享总线，如用于I2C或SMBus的总线，多个设备可以在上面通信。总线线路通过一个“上拉”电阻保持在逻辑高电压。要发送逻辑‘0’，设备会打开一个晶体管将线路拉到地。当所有设备都沉默时，总线安静地处于逻辑‘1’。木马可以利用这个空闲状态。要泄露一个‘1’的秘密比特，它什么也不做。要泄露一个‘0’，它激活一个连接到精心选择的电阻的特殊晶体管。这个晶体管非常轻微地将总线电压拉低——不足以被认为是逻辑‘0’，但足以被灵敏的监听设备测量到。电压可能从 $3.3$ V降到 $2.2$ V，而逻辑高的官方阈值可能是 $2.0$ V。对于总线上的所有其他合法设备来说，线路仍然是高电平；逻辑是正确的。但对于窃听者来说，“高”电压的微妙调制是一条秘密信息，一股在应该沉默的电线上窃窃私语的被盗数据流。这种攻击表明，数字和模拟之间的界限是一种幻觉，是我们为了方便而创造的虚构，也是可以被巧妙利用的。

伟大的猫鼠游戏：规避与检测

一个自然的问题出现了：“为什么我们不能 просто测试我们的芯片并找到这些木马呢？”答案在于它们设计的狡猾，并引导我们进入概率和统计的世界。木马被明确设计为规避检测。

现代芯片过于复杂，无法进行详尽测试。取而代之，我们使用自动化方法，如逻辑内建自测试（LBIST），其中芯片上的伪随机模式生成器（一个LFSR）生成数百万个测试输入，一个专用寄存器（一个MISR）将输出压缩成一个“签名”。如果最终签名与预先计算的“黄金”签名匹配，则芯片通过测试。

木马的触发器被设计成一个“罕见事件”。单个随机测试向量激活它的概率 $q$ 被做得极小。如果一个测试运行 $N$ 个向量，木马从未被触发的概率是 $(1 - q)^N$ 。对于一个典型的 $N = 10^5$ 个向量的测试运行和一个罕见事件触发器（ $q = 10^{-5}$ ），规避的概率是 $(1 - 10^{-5})^{10^5}$ 。这个值，正如微积分学生所认识的，大约是 $1/e$ ，即约 $0.37$ 。这意味着整个测试套件有37%的机会在运行时一次也没有激活木马，使其完全未被检测到。

这揭示了挑战的核心：检测概率主要由激活概率决定。改进测试过程，例如通过使用“加权”随机模式使罕见条件更有可能发生，可以显著增加发现木马的机会。将测试模式的质量提高，使一个5节点触发器的激活概率从0.02提高到0.05，可以将总体检测概率从令人沮丧的 $0.26\%$ 提高到更可观的 $22\%$ 。这比例如增加MISR的长度以减少已经很小的混叠（真实错误被意外压缩成黄金签名）机会要有效得多。真正的战斗不在于观察有效载荷，而在于唤醒这只野兽。

看不见的前沿：网络物理安全

最后，我们来到了最高层面的影响：我们的关键基础设施。电网、供水系统和交通网络都由网络物理系统管理——像保护继电器和远程终端单元（RTU）这样的设备，它们连接了数字和物理世界。

这些设备是主要目标。硬件木马可以在保护继电器在不受信任的海外晶圆代工厂制造期间被插入。一个恶意的固件更新，由于是用被盗的加密密钥签名的而显得合法，可以被加载到一个RTU中。两者都是供应链攻击的例子，并且由于我们刚刚看到的原因，两者都可以规避标准的生产测试。

安全专业人员必须像精算师一样思考，对风险进行建模。他们计算预计有多少被篡改的设备会通过测试并部署到现场。通过将设备数量乘以被篡改的概率和测试规避的概率，他们可以量化威胁。一个公用事业公司可能会发现，他们平均可以预期在一个数百个单元的部署中，大约有3个未被检测到的、被篡改的设备——三个潜伏在国家电网中的沉默破坏者。

这段从单个逻辑门到国家安全的旅程，揭示了硬件安全的深刻而深远的影响。这是一个优雅的布尔代数定律与全球经济和间谍活动的严酷现实相遇的领域。它提醒我们，我们对数字世界的信任建立在硅的物理基础上，而保护这个基础是我们这个时代伟大的、看不见的挑战之一。