扩展页表 (EPT)：原理、性能及应用

玻尔百科

定义

扩展页表 (EPT)：原理、性能及应用指的是一种通过硬件实现二维地址转换的虚拟化技术，其将客户机虚拟地址映射为宿主机物理地址。该技术通过减少虚拟机退出（VM-Exits）消除了软件影子页表的性能开销，并利用 CPU 缓存机制缓解了 TLB 未命中带来的性能损耗。在云计算与系统安全领域，EPT 建立了严格的安全层次结构，使监控程序能够最终控制内存访问权限，从而支持热迁移和系统自省等高级功能。

核心要点

EPT 是一项硬件特性，可执行二维地址转换 (GVA→GPA→HPA)，从而消除了基于软件的影子页表所带来的性能开销。
尽管 EPT 显著减少了 VM-Exit 的次数，但它在 TLB 未命中时会产生巨大的性能损失，这一成本可通过复杂的 CPU 缓存机制来缓解。
EPT 通过将最终内存访问权限设置为客户机操作系统和虚拟机监控程序规则的逻辑与 (AND)，建立了一个严格的安全层级，赋予了虚拟机监控程序最终控制权。
这项技术是云计算中实时迁移和即时快照等关键功能，以及高级安全和系统内省能力的基础。

引言

在单一物理机器上运行多个隔离的操作系统是现代计算的基石，从大型云数据中心到个人开发者笔记本电脑无不如此。这一虚拟化魔力的核心在于一个根本性挑战：内存管理。虚拟机监控程序（Hypervisor）如何能制造出一种幻象，让每个客户机操作系统都以为自己独占了物理内存，而实际上它们都在共享内存？早期的解决方案依赖于巧妙但代价高昂的软件技术，如影子页表，但这种方法存在严重的性能下降问题。这催生了一个关键的知识缺口，并激发了对更高效、硬件集成的内存虚拟化方法的需求。

本文将探讨针对此问题的革命性解决方案：扩展页表（EPT）。我们将从核心芯片出发，一路探寻至其所赋能的云服务。在第一章“原理与机制”中，我们将剖析 EPT 的工作原理，揭示其取代繁琐软件拦截的优雅二维页表遍历，并探讨此设计带来的性能权衡。随后，在“应用与跨学科联系”中，我们将看到这项基础技术如何成为强大的工具集，推动着动态的云计算世界，构建系统安全的坚固堡垒，并为深度系统分析提供显微镜。让我们从揭开硬件辅助内存管理这一精巧幻象的面纱开始吧。

原理与机制

想象你是一位魔术大师，而你最伟大的戏法就是让一个计算机程序——实际上是一个完整的操作系统——相信它独占了整个舞台。它相信自己拥有私有的内存、硬件和世界。而实际上，它只是运行在同一台物理计算机上的众多程序之一，共享着相同的内存芯片和处理器。这就是虚拟化的宏大幻象，而戏法背后的秘密就在于我们如何管理内存。

从本质上讲，操作系统就是内存的管理者。它创建了一张映射表，即一组页表，将其程序使用的、整洁连续的地址——我们称之为客户机虚拟地址 (GVA)——转换为它认为是真实的物理内存位置，即客户机物理地址 (GPA)。但在我们的幻象中，这些 GPA 也不是真实的。它们只是另一层抽象。运行这场表演的魔术大师——虚拟机监控程序，已经分配了实际的硬件内存地址，即主机物理地址 (HPA)。根本的挑战在于，如何在不让客户机操作系统察觉自己被欺骗的情况下，将 GVA 一路桥接到 HPA。

魔术师劳累过度的秘书

多年来，实现这种障眼法的主要技术是一种名为影子页表的方法。想象一下，虚拟机监控程序是一位一丝不苟但经常劳累过度的秘书。客户机操作系统毫不知情地在自己的私人笔记本上潦草地记录着 GVA 到 GPA 的映射。秘书的工作就是偷看客户机写了什么，然后煞费苦心地创建一份主列表——即影子页表——将客户机的虚拟地址直接映射到真实的主机物理地址（GVA $\rightarrow$ HPA）。这份主列表是 CPU 硬件唯一能够理解和使用的列表。

这听起来很聪明，但有一个巨大的缺陷。每当客户机操作系统决定更改自己的一个内存映射时——这是一个频繁且常规的操作——就像它在自己的本子上潦草地记下了一笔新笔记。正在运行客户机程序的硬件准备使用这个新映射，但它做不到，因为它只知道秘书的主列表。为了保持幻象的一致性，客户机的行为必须被拦截。表演必须停止。控制权从客户机手中被夺走，交还给虚拟机监控程序，这个过程称为 VM-Exit。然后，秘书（虚拟机监控程序）更新其主列表以反映客户机的更改，并且只有到那时，才会恢复表演。

这些 VM-Exit 的代价是高昂的。它们相当于虚拟化世界中的急刹车，绕道去主管办公室，然后再重新上高速公路。对于内存密集型应用，客户机操作系统会不断更新其页表，其性能开销可能会高得惊人。必须有更好的方法。

硬件的新维度

如果我们不依赖那个劳累过度的软件秘书，而是教会硬件本身去理解这种双层现实呢？这就是英特尔的扩展页表 (EPT) 和 AMD 的嵌套页表 (NPT) 背后的革命性思想。虚拟机监控程序不再需要创建一个扁平化的伪映射，CPU 硬件学会了执行二维页表遍历。

这是一个极其优雅的概念。当客户机中的程序尝试访问一个内存地址时，CPU 会像往常一样开始地址转换过程，即遍历客户机自己的页表。它按照客户机操作系统的意图，从一个级别到下一个级别跟踪指针，将 GVA 转换为 GPA。但奇妙之处在于：CPU 在此遍历过程中需要读取的每个页表条目本身都位于一个客户机物理地址上。现在配备了 EPT 的 CPU 不会惊慌。它只会说：“啊，这是另一个我需要转换的地址！”然后，它会动态地执行第二次遍历。它会查阅一套全新的、独立的页表——即仅由虚拟机监控程序控制的扩展页表——来将该 GPA 转换为最终的 HPA。

想象一下，你正在遵循一张藏宝图（客户机页表）。每条线索都告诉你下一条线索的位置。有了 EPT，每条线索的位置都用一种密码（GPA）写成。要遵循这张地图，你需要一本单独的密码本（EPT）来破译每条线索的位置，然后才能去那里读取下一条线索。CPU 会自动为客户机页表遍历的每一步都执行这个过程。

这种方法的美妙之处在于，虚拟机监控程序现在基本上解脱了。客户机操作系统可以随心所欲地修改其页表。硬件只会在下一次遍历时使用这些新表，并在每一步都透明地应用虚拟机监控程序基于 EPT 的现实检验。那些因常规内存管理而导致性能骤降的、持续不断的 VM-Exit 消失了。

优雅的代价：穿行迷宫

当然，在物理学和计算机科学中，没有免费的午餐。EPT 的优雅是有代价的，这个代价在转译后备缓冲器 (TLB) 未命中时支付。TLB 是一个存储最近使用的 GVA $\rightarrow$ HPA 转换的小型、极速缓存。当转换在 TLB 中时（“TLB 命中”），内存访问快如闪电。但当它不在时（“TLB 未命中”），硬件必须执行完整的二维遍历。

而这是一次多么漫长的遍历！假设客户机操作系统使用标准的 4 级页表（ $L_g = 4$ ），并且虚拟机监控程序也使用 4 级的 EPT（ $L_e = 4$ ）。一次原生页表遍历需要 4 次内存访问。一次影子页表遍历也需要 4 次。那么嵌套遍历呢？

让我们在最坏情况下（没有任何缓存命中）计算一下步骤：

为了读取第一级客户机页表条目，CPU 必须首先转换其 GPA。这需要一次完整的 EPT 遍历：4 次内存访问。然后，它才能读取该条目本身：1 次访问。总计：5 次。
为了读取第二级客户机条目，它必须为新的 GPA 重复整个过程：4 次 EPT 访问 + 1 次客户机条目访问。总计：5 次。
这个过程在第三级和第四级重复。仅遍历客户机页表就需要 $4 \times 5 = 20$ 次内存访问。
但我们还没完！最后的客户机页表条目给出了实际数据的 GPA。这个最终的 GPA 也必须被转换，需要再进行一次完整的 EPT 遍历：4 次访问。

仅地址转换的总内存引用次数就高达惊人的 $4 \times (4+1) + 4 = 24$ 次！与原生系统的 4 次引用相比，虚拟化环境中的单次 TLB 未命中可能会慢六倍。我们用频繁但短暂的中断（VM-Exit）换来了罕见但长得多的硬件管理停顿。

用缓存驯服猛兽

6 倍的减速听起来很可怕。如果这就是全部真相，那么虚拟化对于许多任务来说就太慢了。但正如计算机体系结构中经常出现的情况一样，救星是缓存。

绝大多数内存访问都是 TLB 命中，完全绕过了这个迷宫般的遍历过程。一项分析显示，在典型的 TLB 命中率为 $0.98$ 的情况下，巨大的最坏情况惩罚被稀释得如此之多，以至于基于 EPT 的系统的平均访问时间可能只比旧的影子页表系统慢几个百分点。

此外，CPU 采用的缓存比最终的 TLB 更为巧妙。

它有专门的缓存来存储中间的 GPA $\rightarrow$ HPA 转换，因此并非客户机遍历的每一步都会触发完整的 EPT 遍历。
它有页表遍历缓存 (PWC)，用于存储页表的高级条目。当程序顺序访问内存时，很可能会重用相同的高级页目录，从而导致 PWC 命中，缩短遍历过程。一个用随机访问模式冲击 TLB 的微基准测试所测得的平均遍历成本，会远高于一个用顺序访问模式的测试，这证明了这些内部缓存的强大功能。
硬件设计者甚至添加了虚拟处理器标识符 (VPID)。这就像给每个 TLB 条目贴上一个名牌，标识它属于哪个虚拟机。在 VPID 出现之前，从 VM-A 切换到 VM-B 需要刷新整个 TLB，以防止 B 意外使用 A 的转换。有了 VPID，硬件可以同时将所有虚拟机的条目保留在缓存中，只需关注带有正确标签的条目。这个简单的想法极大地降低了虚拟机之间上下文切换的成本。

甚至页面大小本身也起着作用。如果虚拟机监控程序可以使用大的 $2 \text{ MiB}$ EPT 页面而不是微小的 $4 \text{ KiB}$ 页面来映射客户机内存，EPT 遍历的深度（ $L_e$ ）就会减少，从而减少嵌套遍历的总长度。例如，一个 4 级客户机遍历嵌套在一个 3 级 EPT 遍历中，总共需要 $4 \times (3+1) + 3 = 19$ 次访问——这比我们之前看到的 24 次是一个显著的改进。

作为架构师的虚拟机监控程序：法律与秩序

EPT 不仅仅是一个性能特性；它是一次深刻的权力转移。它赋予虚拟机监控程序对客户机内存的最终、不可破坏的控制权，并由芯片直接强制执行。基本规则是，任何访问要想被允许，必须同时得到客户机页表和虚拟机监控程序的 EPT 的允许。最终的权限是两者的逻辑与（AND）。

这创造了一个有趣的“指挥链”。

当客户机更严格时：假设客户机操作系统将一个页面标记为不可执行。即使虚拟机监控程序的 EPT 条目允许执行该页面，访问也会失败。硬件在转换的第一阶段会看到客户机的“不可执行”规则，并立即在客户机内部触发一个标准的页错误。虚拟机监控程序甚至不会被通知，因为客户机只是在执行自己的策略。
当虚拟机监控程序更严格时：现在，想象相反的情况。客户机允许一个页面在用户模式下执行。但是虚拟机监控程序出于安全原因，将 EPT 条目设置为禁止用户模式执行（使用像基于模式的执行控制 (MBEC) 这样的功能）。当一个用户进程试图在那里运行代码时，客户机级别的检查会通过，但硬件会继续进行到第二阶段，并撞上 EPT 的路障。这不会导致客户机页错误。相反，它会触发一个 EPT 违例——一个将控制权交给虚拟机监控程序的 VM-Exit，相当于在说：“老板，客户机试图做你禁止的事情。我该怎么办？” 虚拟机监控程序可以终止该虚拟机，记录事件，甚至向客户机注入一个伪造的页错误，以欺骗它以为自己违反了自己的规则。

这种严格的顺序至关重要。如果一个内存页面同时在客户机的映射和虚拟机监控程序的映射中“缺失”，硬件不会感到困惑。它将总是首先报告客户机的问题。客户机收到一个页错误，修复其页表，然后指令被重试。只有在重试时，硬件才会遇到 EPT 问题并陷入（trap）到虚拟机监控程序。这种关注点的清晰分离使得整个系统健壮且易于管理。它允许虚拟机监控程序实现极其精细的安全策略，甚至可以从更高的特权级别强制执行客户机级别的安全不变量，如 SMEP（防止内核执行用户代码）。

这就是 EPT 的真正美妙之处：它创造了一个世界，在这个世界里，客户机相信自己对其内存拥有完全的自主权，而虚拟机监控程序则保留着绝对的、由硬件强制执行的权威。这是一个被完美设计的幻象。

应用与跨学科联系

在体验了扩展页表 (EPT) 复杂的机械运作之后，人们可能会留下这样一种印象：我们仅仅是审视了一项巧妙的硬件工程——对一个本已复杂的系统进行的性能增强。但如果仅仅将 EPT 视为一种优化，就像将指挥家的指挥棒仅仅看作一根棍子。EPT 的真正美妙之处不仅在于其机制本身，更在于它所指挥的充满可能性的交响乐。这个简单而优雅的间接层，位于客户机操作系统和物理硬件之间，已成为一项基础技术，推动了云计算、系统安全和软件分析领域的革命。它证明了计算机科学中的一个深刻原理：一个位置恰当的抽象层可以改变一切。

让我们来探索这个新世界，从 EPT 的原理走向其广阔的应用领域。

云计算的支柱：效率与移动性

现代云，凭借其看似无限且弹性的资源，是建立在将整个计算机视为可任意处置、可移动的软件对象的能力之上的。EPT 正是使这一切魔法成为可能的幕后功臣。

思考一下任何数据中心中最关键的操作之一：实时迁移。你如何将一台正在运行的虚拟机——也许是一台处理实时流量的服务器——从一台物理主机移动到另一台，而无人察觉？那种暂停虚拟机、通过网络复制其数 GB 的内存、然后再恢复它的暴力方法会导致无法接受的长时间停机。解决方案是一种名为“迭代预复制”的优雅舞蹈，而 EPT 正是其中的编舞者。虚拟机监控程序首先将虚拟机的所有内存复制到目的地。在此期间，虚拟机继续运行，并且自然会修改——或“弄脏”——其内存。这就是 EPT 发挥威力的地方。虚拟机监控程序可以在 EPT 中将所有客户机页面标记为只读。当客户机尝试写入时，会触发 EPT 违例，这是一个陷入（trap）到虚拟机监控程序的故障。虚拟机监控程序记录下被弄脏的页面，将 EPT 权限改回可写，然后恢复客户机。这个过程对客户机操作系统是完全透明的。第一轮过后，虚拟机监控程序只发送那些被弄脏的页面。它重复这个过程，每一轮传输的数据集都小得多，直到剩余的脏页集变得微不足道。只有到那时，它才会短暂地暂停虚拟机，进行最后一次快速同步，然后在新主机上恢复它。得益于 EPT 透明高效地跟踪写操作的能力，整个迁移过程的停机时间可以以毫秒而不是分钟来衡量。

同样是透明拦截写操作的原理，也推动了云效率的另一大支柱：即时虚拟机快照与克隆。当你在云控制台上点击“快照”时，你无需等待数 GB 的数据被复制。相反，虚拟机监控程序可以使用一种类似于经典操作系统技巧“写时复制”（COW）的技术。它创建一个新的虚拟机，与原始虚拟机共享所有相同的物理内存页面。两个虚拟机的 EPT 条目都被标记为只读。如果任一虚拟机——父虚拟机或克隆体——尝试写入共享页面，就会触发 EPT 违例。虚拟机监控程序拦截该故障，为写入的虚拟机分配一个新的内存页，复制原始页面的内容，并更新该虚拟机的 EPT，使其指向这个新的、具有写权限的私有副本。另一个虚拟机不受影响。通过这种方式，页面仅在被修改时才被复制，从而实现了以最小内存开销即时创建分支和快照的功能。

除了移动和创建，EPT 还为资源管理提供了一个强大的工具。想象一下对一个虚拟机强制执行严格的内存配额。虚拟机监控程序可以使用 EPT 为虚拟机维护一个物理页面的“允许集”。配额内的任何页面在 EPT 中都具有正常权限。此集之外的任何页面则其权限被撤销。如果虚拟机试图访问一个它拥有但超出其当前配额的页面，就会触发 EPT 违例。然后，虚拟机监控程序可以使用一种策略，如最近最少使用 (LRU)，将新访问的页面换入允许集，同时换出另一个页面。本质上，虚拟机监控程序正在使用 EPT 违例作为触发器来管理虚拟机的物理内存占用，从而创建一种对客户机操作系统完全不可见的、虚拟机监控程序级别的交换机制。

堡垒：安全与隔离

如果说效率是虚拟化这枚硬币的一面，那么安全就是另一面。在同一物理硬件上运行互不信任的租户这一想法本身，就要求一个近乎完美的隔离边界。EPT 是这个边界的基石，但它并非孤军奋战。

一个常见的误解是，EPT 可以保护虚拟机免受所有形式的攻击。然而，EPT 管理的是源自 CPU 的内存访问。现代系统中充满了其他参与者——如网卡和存储控制器等外围设备——它们可以通过直接内存访问 (DMA) 直接写入内存。一个恶意的客户机可以编程一个设备来覆写虚拟机监控程序的内存，从而完全绕过 EPT。这就是输入/输出内存管理单元 (IOMMU) 发挥作用的地方。IOMMU 对于设备，就像 CPU 的 MMU（带有 EPT）对于 CPU 一样。它拦截来自设备的内存请求，并对其进行类似的两阶段转换和权限检查。客户机驱动程序使用 I/O 虚拟地址 (IOVA) 对设备进行编程，IOMMU 首先将其转换为客户机物理地址 (GPA)。然后，在由虚拟机监控程序控制的第二阶段，它将 GPA 转换为主机物理地址 (HPA)，并在此过程中强制执行权限。这种两阶段的 IOMMU，作为 EPT 的架构镜像，确保了分配给一个虚拟机的设备无法访问该虚拟机合法域之外的内存，从而堵上了一个关键的安全漏洞。

EPT 的安全保证是如此精细，以至于它不仅可以用来隔离各个虚拟机，还可以在单个虚拟机内部创建安全区域。想象一个客户机内核，其中一个敏感的设备驱动程序需要被保护，以防范内核中其他可能存在漏洞或恶意的部分。虚拟机监控程序可以配置 EPT，以拒绝所有对该驱动程序内存映射 I/O (MMIO) 区域的访问。当内核需要使用该驱动程序时，它可以执行一个 hypercall，然后虚拟机监控程序可以切换到另一个临时授予访问权限的 EPT 上下文。由于 EPT 策略是针对客户机物理地址强制执行的，因此这种保护无法通过巧妙操纵客户机自身的虚拟内存映射来绕过。内核其他任何部分试图映射和访问受保护的 MMIO 区域的任何尝试，都将导致 EPT 违例，陷入虚拟机监控程序，从而挫败攻击。

作为访问控制执行者的这一角色，使 EPT 处于机密计算最新进展的核心。像 AMD 的安全加密虚拟化 (SEV) 和安全嵌套分页 (SNP) 等技术，提供了加密保证，确保客户机的内存是机密的且具有完整性，甚至可以防范恶意的虚拟机监控程序。至关重要的是要理解，这些加密保护与 EPT 提供的访问控制是正交的，而不是替代关系。权限检查是控制逻辑问题，而非数据内容问题。CPU 首先检查客户机和 EPT 的权限位，以决定一次访问是否被允许。只有在访问被允许的情况下，内存控制器才会继续获取并解密数据。EPT 及其等效技术是决定谁可以敲门的守门人；SEV/SNP 则确保门后的对话是私密且未经篡改的。

显微镜：调试与内省

除了管理和安全，EPT 还提供了一个无与伦比的有利位置，可以用来观察、分析和调试一个正在运行的系统。通过仲裁每一次内存访问，虚拟机监控程序可以有效地在任何一块客户机内存上放置一个探针。

监控内存的简单方法是撤销权限并在每次访问时陷入。正如我们在实时迁移中看到的，这种“陷入并模拟”的方法可能有效，但会产生巨大的性能开销。然而，现代处理器已经发展出带有高性能监控功能的 EPT。例如，当虚拟机监控程序想要记录对客户机内核代码的所有写操作时，它不需要撤销写权限。相反，它可以使用一项名为页面修改日志 (PML) 的功能。虚拟机监控程序在 EPT 中保持页面可写，但将其“脏”位设置为 $0$ 。当客户机对其中一个页面执行第一次写操作时，硬件会自动将脏位置为 $1$ ，并且至关重要的是，将修改页面的地址记录到一个特殊的缓冲区中——所有这些都不会导致代价高昂的 VM exit。只有当这个缓冲区满了时，才会发生 VM exit，从而允许虚拟机监控程序以高效的批处理方式处理修改事件。这将内存内省从一个缓慢、破坏性的过程转变为一个轻量级、被动的观察工具，对于安全监控和恶意软件分析至关重要。

这种级别的控制甚至可以实现更具攻击性的安全策略，例如确定性地检测自修改代码——一种恶意软件常用的技术。虚拟机监控程序可以与 EPT 权限进行一场复杂的舞蹈。它首先将一个代码页标记为“可执行”但“不可写”。如果客户机试图写入此页面，就会触发 EPT 违例。然后，虚拟机监控程序原子性地将权限翻转为“可写”和“不可执行”，并使用一个特殊功能（监控陷阱标志 Monitor Trap Flag）让客户机精确执行一条指令——即写操作。它会立即再次陷入虚拟机监控程序，后者可以恢复原始权限。该协议为写操作创造了一个微小且受控的窗口，同时保证在页面被修改时无法从中获取任何指令，从而干净地防止了困扰此类检测方案的竞争条件。

同样的能力也可以转向主动的缺陷查找。虚拟机监控程序可以注入合成的 EPT 违例，以探测客户机内核中是否存在诸如“释放后使用”或“陈旧指针”之类的缺陷。其思想是暂时撤销内存区域的权限，然后观察是否有任何东西试图访问它。单次、孤立的违例可能是一个良性的瞬时事件，但在短时间内对同一页面的大量违例则强烈暗示存在缺陷。然而，这种技术需要仔细的数据分析。一个简单的警报阈值可能会导致“抖动”或误报。一个健壮的系统必须使用更复杂的时域滤波，例如带有滞后效应的滑动窗口计数器——使用较高的阈值来触发警报，使用较低的阈值来清除它。这个应用完美地展示了底层硬件架构与数据科学统计技术之间的跨学科联系，这两者都是将原始硬件事件转化为可操作情报所必需的。

最后，EPT 独立的读、写、执行权限位所具有的纯粹灵活性，使其成为架构探索的工具。在一些高级处理器上，可以创建可执行但不可读的 EPT 条目（ $X=1, R=0$ ）。这允许虚拟机监控程序为客户机模拟“仅执行”内存，这是一种安全特性，可防止代码被当作数据读取，从而挫败某些类型的代码重用攻击。虽然并非普遍支持，但此功能表明 EPT 不仅仅是固定策略的实现，而是一个用于试验新内存保护模型的多功能工具集。

从数据中心到安全分析师的工具箱，EPT 已将自己融入现代计算的肌理之中。它是一个简单的概念，却有着深远的影响，是一场重新定义我们对机器控制权的静悄悄的革命。它有力地提醒我们，在计算机科学的世界里，最美丽的思想往往是那些提供了一种简单、强大的新方式来看待——并控制——世界的思想。