首页可信平台模块 (TPM)

可信平台模块 (TPM)

玻尔百科

定义

可信平台模块 (TPM) 是一种通过度量启动过程建立硬件信任根的专用硬件组件。该技术利用平台配置寄存器记录系统状态，通过远程度量和数据密封功能确保只有在系统处于已知安全状态时才释放敏感信息。它是网络安全领域的关键组成部分，广泛应用于全盘加密、生物识别保护以及通过虚拟化TPM实现的云端机密计算。

核心要点

TPM 通过名为“度量启动”的过程建立硬件信任根，该过程在平台配置寄存器 (PCR) 中创建一个不可伪造、顺序敏感的完整启动过程日志。
其核心功能是远程证明（向远程验证者证明系统的完整性）和封装（加密数据，如磁盘密钥，使其只有在系统处于已知的良好状态时才能被释放）。
TPM 对于解决“检查时-使用时”(TOCTOU) 问题至关重要，它通过证明可信计算基 (TCB) 的状态来实现，而 TCB 必须包含管理内存访问的可信组件。
TPM 的应用范围从保护单台机器（通过全盘加密和生物特征保护），到通过用于机密计算的虚拟 TPM (vTPM) 在云等复杂环境中建立信任。

引言

在一个由软件构建的世界里，我们如何才能真正信任我们的数字设备？从你打开电脑的那一刻起，一连串的程序开始执行，每一个都将控制权交给下一个。但是，如果这个链条中的任何一个环节被恶意篡改，整个系统的安全性就会崩溃。纯软件解决方案具有内在的脆弱性，因为它们可能被其本应防范的攻击所修改。这就产生了一个根本性问题：我们需要一个存在于可塑的软件世界之外的信任之锚。

本文深入探讨了该问题的解决方案：可信平台模块 (TPM)。你将了解到这个专门的硬件芯片如何为系统完整性提供一个不可动摇的基础。我们将首先探索其核心原理和机制，揭示它如何为系统的启动过程创建一个可验证的记录。随后，我们将遍历其多样化的应用，展示 TPM 如何保护从单个笔记本电脑的加密磁盘到云端整个虚拟机集群的一切。读完本文，你将理解这个小小的芯片如何为现代计算实现一个强大而统一的信任模型。

原理与机制

看不见的守护者：建立信任根

当你按下电脑的电源按钮时，你启动了一系列复杂而迅如闪电的事件。一个微小的初始程序被唤醒，它又唤醒一个更大的程序，后者再启动主操作系统。从电流开始流动直到你的桌面出现，这个交接过程以链式方式发生。但这里有一个深刻的问题：你如何知道这个链条的每一个部分都是真实的？你如何确定没有恶意行为者替换了某个关键环节，将你信任的机器变成了间谍？

要构建一个值得信赖的系统，你必须从一个本身就值得信赖的东西开始——一个不能被软件改变或破坏的基础。这就是信任根。在现代计算机中，这个根被物理地蚀刻在处理器本身的硅片上：一小段存储在不可变只读存储器 (ROM) 中的代码。这段代码是处理器唤醒时最先运行的东西。它的任务简单、单一且至关重要：在交出控制权之前，验证启动链中的下一个环节。

这个验证过程被称为安全启动 (Secure Boot)，其工作方式就像一系列不可破坏的承诺。不可变的 ROM 代码持有一个公钥，就像一把万能锁。它检查下一个软件（通常是系统的固件，如 UEFI）的数字签名——一个独特、不可伪造的印章。如果签名有效，ROM 代码就会“解锁”它并转移控制权。然后，固件重复这个过程，使用自己的密钥来验证引导加载程序，引导加载程序再验证操作系统内核。这就创建了一个信任链，其中每个环节都为下一个环节的完整性和真实性作保。如果链中的任何环节被篡改，其签名将无效，启动过程将停止，从而阻止恶意代码的执行。

安全启动是一个强大的强制执行机制。它就像一个保镖，在门口检查身份证，拒绝任何不在名单上的人进入。但是，如果一个组件在名单上——它有有效的签名——但它是一个我们不再信任的、存在漏洞的旧版本怎么办？或者，如果我们不仅仅想阻止不良启动，还想获得一次良好启动过程中究竟发生了什么的可验证记录，那该怎么办？为此，我们需要一种不同类型的守护者。我们需要的是一个公证员，而不是一个保镖。这就是可信平台模块 (TPM) 的角色。

度量启动：机器中的公证员

TPM 是你计算机主板上的一个小型专用芯片，充当基于硬件的加密引擎。它在启动过程中的主要作用不是强制执行，而是记录。这个过程被称为度量启动 (Measured Boot)。在启动链中的每个阶段，它不是仅仅检查签名，而是在启动下一阶段之前对其进行“度量”。度量是一个加密哈希——组件代码的一个简短、固定大小的数字指纹。

这些度量值被记录在 TPM 内部一组称为平台配置寄存器 (PCR) 的特殊寄存器中。但是，你不能简单地向 PCR 写入一个值。唯一允许的操作被称为扩展 (extend)。如果一个 PCR 持有值 $p$ ，并且进行了一次新的度量 $m$ ，那么新的 PCR 值将变为：

$p' \leftarrow H(p \parallel m)$

这里， $H$ 是一个加密哈希函数（如 SHA-256）， $\parallel$ 表示串联。这个简单的操作是 TPM 魔力的源泉。它具有几个关键特性，使其非常适合创建防篡改的日志。

它是仅附加的。 旧的 PCR 值 $p$ 是新值 $p'$ 的一个输入。整个度量历史都被加密地折叠到当前状态中。你无法抹去过去；你只能在其上添加。如果一个 PCR 被重置，只能通过完全的平台重置来完成，而这个事件本身是可检测的。
它是顺序敏感的。 $H(p \parallel m)$ 的结果与 $H(m \parallel p)$ 的结果完全不同。事件的顺序至关重要。交换两个启动组件的顺序会产生一个完全不同的最终 PCR 值，这正是我们想要的，因为启动顺序对安全至关重要。
它是一条单行道。 因为哈希函数 $H$ 是抗原像攻击的，所以从计算上来说，不可能通过一个最终的 PCR 值反向推导出产生它的度量序列。你只能前进。

这个过程——先度量，再执行，然后扩展——在信任链的每个环节都会重复，从最早的固件到操作系统内核。PCR 中的最终值作为整个启动过程的紧凑、唯一且不可伪造的指纹。

信任的脆弱性：检查时-使用时 (TOCTOU)

这个优雅的度量链似乎牢不可破。但现实世界是混乱的，硬件的物理现实可能会引入一些微小但致命的漏洞。度量启动的原则是度量一个组件的代码，如果度量结果是好的，就执行那段完全相同的代码。这就是等价不变性：你检查的字节必须是你使用的字节。

考虑引导加载程序的任务：它将操作系统内核从硬盘加载到内存 (RAM) 中。然后它执行两个安全职责：验证内核的签名（用于安全启动）和度量其哈希值（用于度量启动）。这是“检查时”(Time-of-Check)。在这些检查通过后，它将执行权转移到内存中的内核。这是“使用时”(Time-of-Use)。

如果在检查和使用之间的微小时间窗口内，有东西可以改变内存中的内核代码怎么办？恶意行为者可以等待引导加载程序验证一个完好的内核，然后，在处理器跳转到它之前的纳秒级时间内，用恶意内核覆盖它。这样系统就会运行一个被攻破的内核，但 PCR 却反映的是好内核，使得 TPM 的日志变成了一个谎言。

什么东西能做到这一点？任何可以在不涉及主处理器的情况下直接写入系统内存的硬件组件，这个特性被称为直接内存访问 (DMA)。例如，存储控制器就拥有这种能力。那么，在这个关键阶段，谁来控制存储控制器呢？是引导加载程序自己的存储驱动程序。这引出了一个深刻的认识：为了维持等价不变性，存储驱动程序本身必须是可信的。它必须是可信计算基 (TCB) 的一部分——即为确保安全而必须正确的所有组件的最小集合。TCB 不仅仅是执行检查的代码；它也包括任何可能颠覆检查的代码。信任不仅仅是一个逻辑属性；它也是一个物理属性。

信任的果实：证明与封装

假设我们已经建立了一个值得信赖的链，那么我们可以用存储在 TPM 的 PCR 中的不可伪造的日志做什么呢？这正是 TPM 真正力量被解锁的地方。

远程证明：向他人证明信任

想象一个公司服务器需要向你的笔记本电脑发送敏感数据。它首先需要知道你的笔记本电脑是否处于一个健康、未被攻破的状态。它可以通过一个名为远程证明 (remote attestation) 的过程来做到这一点。

服务器向你的笔记本电脑发送一个称为随机数 (nonce) 的随机、一次性使用的数字。
你的笔记本电脑的 TPM 生成一个引用 (quote)：一个数据结构，包含当前的 PCR 值和服务器的随机数，所有这些都使用一个只有 TPM 拥有的、与硬件绑定的唯一证明身份密钥 (AIK) 进行数字签名。
服务器收到引用。它使用相应的公钥验证签名，并检查随机数是否与它发送的相匹配（这可以防止攻击者重放一个旧的、有效的引用）。
最后，它将证明的 PCR 值与一个已知的“黄金”列表进行比较。如果它们匹配，服务器就知道你的笔记本电脑是以完全正确的固件、引导加载程序和内核启动的。它现在可以信任你的设备并发送敏感数据。

这种机制非常精确，甚至可以检测到任何被度量组件中一个比特位的翻转。它可以轻易地检测到回滚攻击，即使用一个旧的、有签名的组件，因为旧组件的度量值（哈希）会不同，导致最终的 PCR 值也不同，服务器会拒绝它。

TPM 封装：保护你自己的秘密

也许更强大的是，TPM 可以使用度量启动来保护你免受自己机器的侵害。假设你的磁盘是加密的，解密密钥需要存储在某个地方。你可以请求 TPM 封装 (seal) 该密钥。

封装将一个秘密与一组特定的 PCR 值绑定。TPM 获取密钥和当前的“黄金” PCR 值，并以一种特殊方式加密密钥，使得它只能由 TPM 自己解密，并且只有当 TPM 中当前的 PCR 值与封装时使用的值完全匹配时才能解密。

结果非常巧妙：你正常启动你的电脑，所有的度量都是正确的，PCR 达到了它们的“黄金”值，TPM 解封你的磁盘密钥，允许操作系统启动。现在，想象一个恶意软件感染了你的引导加载程序。下一次启动时，引导加载程序的度量值会不同。这将改变 PCR 链，最终的 PCR 值将不再匹配“黄金”状态。当操作系统请求磁盘密钥时，TPM 会检查 PCR，看到不匹配，并拒绝解封密钥。

恶意软件就这样被阻止访问你的数据了。度量启动与封装相结合，创建了一个在其自身完整性受到损害时会自动保护你的秘密的系统。这种保护甚至延伸到像“挂起到内存”(suspend-to-RAM) 这样的复杂状态，这时需要像动态度量信任根 (DRTM) 这样的新度量技术来在唤醒时重新验证系统状态。

从一个简单、不可变的硅片，到密码学与硬件状态的复杂舞蹈，可信平台模块的原理为计算领域最深层的问题之一提供了强大而优雅的解决方案：在一个可塑的软件世界里，我们如何建立信任的基础？

应用与跨学科联系

在上一章中，我们拆解了可信平台模块的内部构造。我们看到了它的齿轮和弹簧：作为加密哈希单行道的平台配置寄存器 (PCR)，可以像瓶中信一样被封装起来的密钥，以及允许芯片为系统代言的证明过程。但一个钟表的构造只有在它能报时的时候才显得有趣。所以现在，我们不禁要问：我们能用这个奇妙的小机器做什么？它能帮助我们解决哪些计算领域的巨大挑战？

我们即将踏上一段旅程，从一台笔记本电脑的神圣领地开始，向外扩展到广阔、共享的云宇宙。你将看到，从硬件信任根这个简单而优雅的原则出发，我们可以层层构建安全防护，创造出强度和美感都令人惊叹的结构。TPM 不仅仅是一个组件，它是一个基石。

内部堡垒：保护单台机器

让我们从家里开始，从你面前的电脑开始。TPM 如何保护你的机器上的你的数据？

也许最常见和最强大的应用是加强全盘加密 (FDE)。你已经加密了你的硬盘，这是极好的第一步。但是你把密钥放在哪里？如果它只是从你的密码派生而来，那么拿到你笔记本电脑的攻击者可能会花上数周时间来猜测它。一个更好的主意是让 TPM 来释放解密密钥。我们可以将密钥“封装”到一组特定的 PCR 值上——这是一个已知的、良好启动过程的加密指纹。如果攻击者试图启动一个不同的操作系统来绕过安全措施，PCR 值将不匹配，TPM 会干脆拒绝释放密钥。你的数据仍然是一个锁着的盒子。

但这个优雅的解决方案立刻带来了一个悖论。当你安装合法的软件更新时会发生什么？你的内核变了，你的引导加载程序可能也变了——正是这些被度量的组件发生了变化！新的 PCR 值将不同，而你的 TPM，出于其坚定不移的忠诚，会将你自己锁在电脑外面。这就是更新悖论。TPM 的早期应用曾为此苦恼，但现代 TPM 有一个非常灵活的解决方案。我们不再将密钥封装到一组单一、僵化的 PCR 值上，而是可以将其封装到一个策略上。这个策略可以被设计成可由可信的权威机构（如操作系统供应商）更新，从而允许它预先授权下一次有效更新的 PCR 值。这样，安全性和可用性终于可以共存；你的系统可以安全地演进，而不会导致灾难性的锁定。

TPM 还可以作为我们最个人化秘密的保险库。考虑生物特征认证——你的指纹。将你的指纹模板，即使是用密码加密后，存储在常规文件系统中也是有风险的。假以时日，一个窃取了你的设备或侵入了你的云备份的对手可以发动离线攻击来猜测密码并暴露模板。一旦泄露，就永远泄露了。通过将此模板作为不可迁移数据存储在 TPM 内部，游戏规则完全改变了。拥有物理设备的攻击者将不得不对芯片本身发起复杂且昂贵的硬件攻击，这远超大多数人的能力。量化风险分析表明，这不仅仅是一个微小的改进；它可以将你的生物特征数据被泄露的概率降低几个数量级。

堡垒还必须保护其最短暂的状态。当计算机休眠时，它会将其内存的完整快照写入磁盘。攻击者可能会用一个你登录时期的旧文件替换这个文件，诱使机器恢复到一个脆弱的状态。这是一种“回滚攻击”。在这里，TPM 的另一个巧妙特性发挥了作用：单调计数器。这是 TPM 内部一个特殊的、非易失性的计数器，只能递增。把它想象成一个只能向前转的棘轮。通过将这个计数器的当前值包含在用于封装休眠密钥的策略中，我们就可以挫败回滚攻击。一个旧的休眠文件将与一个旧的计数器值绑定，TPM 将拒绝释放密钥，因为它的内部计数器已经超过了那个值。系统被迫总是向前迈进。

同样，交换分区，即操作系统临时换出内存的地方，也是秘密的宝库。对其进行加密至关重要。但我们想要前向保密性：如果攻击者从一次会话中攻破了交换密钥（也许是通过一种在断电后瞬间读取内存数据的复杂“冷启动攻击”），他们不应该能够解密过去或未来会话的数据。TPM 通过保护一个长期的根密钥来提供帮助，但真正的魔力来自于每次启动时，使用根密钥和一点真正的随机性来派生一个全新的、临时的交换密钥。这个高熵的随机数确保了每个会话的密钥都是独一无二且不可预测的，从而切断了它们之间的联系。

扩张的宇宙：互联世界中的信任

到目前为止，我们已经将 TPM 视为一个孤独的哨兵。但其最深远的应用出现在系统之间需要相互信任的时候。一台计算机如何通过一个不受信任的网络向另一台计算机证明其完整性？答案是远程证明。

想象一下，你的计算机感染了内核模式的 rootkit。这是最糟糕的一种恶意软件；它以最高权限运行，并且可以向操作系统谎报自己的存在。机器无法再信任自己。但它无法对它的 TPM 说谎。在度量启动期间，TPM 记录了内核的哈希值，包括 rootkit。通过远程证明，远程服务器可以对这台机器发起质询。TPM 提供其 PCR 的签名“引用”，这是一份关于实际运行了什么代码的不可伪造的声明。服务器可以将其与已知良好值的列表进行核对，并立即检测到感染。这说明了一个关键的区别：安全启动阻止坏代码运行，而度量启动和证明检测它。这是了解大量机器健康状况的关键工具。它也教会我们谦卑；这种默认形式的证明在发现启动时威胁方面非常出色，但往往对用户应用程序在运行时发生的恶作剧视而不见。

这种运行时度量的能力延伸到最棘手的现代威胁之一：供应链攻击。如果一个受信任的硬件供应商的签名密钥被盗，并且对手开始分发带有“有效”签名的恶意设备固件，那该怎么办？签名现在已毫无意义。在这里，TPM 与另一个名为输入/输出内存管理单元 (IOMMU) 的硬件协同工作，提供了一条前进的道路。当一个新设备被热插拔时，操作系统可以忽略签名。取而代之的是，它计算固件实际内容的哈希值，将此哈希扩展到一个动态 PCR 中，并使用 IOMMU 来控制该设备访问系统内存的能力。只有当 TPM 能够证明——无论是通过向服务器进行证明，还是通过解封一个本地能力令牌——固件的哈希值与已知的良好允许列表匹配时，IOMMU 才会“释放”该设备。这是硬件特性协同工作的优美交响乐，共同抵御被破坏的信任链。

这些例子迫使我们更深入地思考一个核心安全概念：可信计算基 (TCB)。TCB 是我们必须信任以执行我们安全策略的所有硬件和软件组件的集合。像具有无限制直接内存访问 (DMA) 的蜂窝基带处理器这样的组件绝对必须在 TCB 中，因为它可以读取或写入任何东西。它的代码必须是完美的。然而，IOMMU 充当硬件防火墙，通过限制外围设备能做什么来帮助我们缩小 TCB。因此，TPM 是我们用来度量和证明我们 TCB 内部剩余组件完整性的工具。

云之星云：虚拟化信任

信任的最后前沿是云。一台物理服务器可能为不同的客户托管数百个虚拟机 (VM)。一个租户如何能相信他们的 VM，一个纯粹的软件构造，正在安全运行，并且没有被云提供商或邻近的 VM 监视？解决方案是虚拟化 TPM 本身。

虚拟 TPM (vTPM) 是一个由虚拟机监控程序 (hypervisor) 管理的软件程序，它为每个 VM 模拟一个真实的 TPM。这是一种远比简单地将唯一的物理 TPM 直通给一个幸运的 VM 更好的方法，因为那将允许该 VM 发出全局命令（如 TPM_Clear），从而破坏主机本身！vTPM 提供了隔离，但它带来了一个必要的权衡：客户 VM 必须信任 hypervisor 是一个忠实且安全的模拟器。

有了这个 vTPM，我们就可以为虚拟机构建一个完整的、端到端的证明流程。它的工作方式如下：物理主机执行度量启动，将其自身的完整性锚定在其硬件 TPM 中。然后，hypervisor 启动一个带有 vTPM 的 VM，vTPM 自身的加密身份锚定在物理 TPM 中。VM 本身执行度量启动，将其虚拟固件、引导加载程序和内核的哈希值记录到其 vTPM 的 PCR 中。现在，租户的远程服务器可以发出一个质询。VM 使用其 vTPM 生成其启动状态的签名引用。这个引用是一个加密证明，可以一直追溯验证到主机机器的硅片。验证者可以确认 VM 的软件是纯净的，该 vTPM 属于他们特定的 VM 实例，并且它运行在真实的硬件上。只有到那时，它才会向 VM 释放秘密，如磁盘加密密钥。这就是支撑着新兴的机密计算领域的魔力，使我们能够在公共云中运行敏感的工作负载，并获得可验证的隐私和完整性保证。

优雅的统一

我们的旅程完成了。我们从一个单一、不起眼的芯片开始。我们用它为我们的个人数据建造了一座堡垒，抵御更新、密码猜测者，甚至时间旅行攻击。然后，我们将目光转向外部，用它作为普适的见证者来检测恶意软件和驯服被破坏的供应链。最后，我们学会了虚拟化它，在云中创造出整个由可信机器组成的星云。

贯穿始终，核心思想保持简单和统一：一个不可动摇的根，一个不可破坏的度量链，以及通过密码学说出真相的能力。这证明了一个好想法的力量，即从如此简单的一组原语中，可以构建出具有如此巨大实际重要性和智识美感的结构。