硬件辅助虚拟化 (HVM)

玻尔百科

定义

硬件辅助虚拟化 (HVM) 是通过引入根模式与非根模式等处理器功能，解决 x86 平台软件虚拟化架构缺陷的技术。该技术利用嵌套页表和 IOMMU 等硬件特性加速内存与输入输出处理，是实现云计算安全多租户及无服务器应用微型虚拟机的关键基础。现代系统通过将硬件辅助虚拟化的直接执行能力与半虚拟化驱动相结合，使虚拟机能够获得接近原生的性能表现。

核心要点

HVM 引入了新的处理器模式（root/non-root 模式），以解决导致 x86 平台无法实现高效纯软件虚拟化的架构缺陷。
嵌套页表（EPT）和 IOMMU 等硬件特性对于加速内存和 I/O 虚拟化至关重要，能极大降低由虚拟机退出（VM exits）带来的性能开销。
HVM 是实现云计算中安全多租户、无服务器应用中快速启动的 microVM 以及嵌入式系统中安全关键隔离的基础技术。
现代系统通过将 HVM 的直接硬件执行与用于优化 I/O 和电源管理的半虚拟化驱动程序及 hypercall 相结合，实现了接近本机的性能。

引言

硬件辅助虚拟化 (HVM) 是现代计算的基石，是支撑从大型云数据中心到我们汽车中的智能系统等一切事物的无形根基。虽然在一个操作系统内部运行另一个操作系统的概念看似简单，但其实际实现，尤其是在无处不在的 x86 架构上，历史上一直受到性能和安全方面的重大挑战困扰。纯软件方法无法高效、安全地将客户机系统与主机隔离，由此产生的关键知识鸿沟限制了虚拟化技术的潜力长达数十年之久。

本文描绘了通过将虚拟化支持直接集成到处理器的芯片中来解决这一问题的技术革命。第一章“原理与机制”深入探讨了使 HVM 成为可能的基础硬件变革，探索了从存在缺陷的“陷阱-模拟”（trap-and-emulate）模型到稳健的 root/non-root 架构的转变。您将了解到嵌套页表和 IOMMU 等特性如何攻克内存和 I/O 虚拟化的复杂挑战。随后，“应用与跨学科联系”一章将展示这些技术原理如何应用于构建我们今天所知的世界，审视 HVM 在提供云计算、无服务器功能和安全关键嵌入式系统所需的隔离和性能方面所扮演的角色。

原理与机制

要真正掌握硬件辅助虚拟化，我们必须踏上一段旅程，就像物理学家追溯从经典力学到量子理论的路径一样。我们从一个优雅的经典构想开始，发现其局限性，然后见证新硬件能力带来的美妙而深刻的革命。我们的故事不关乎齿轮和杠杆，而是关于特权级别、内存地址以及软件与芯片之间错综复杂的协作。

经典构想及其缺陷

想象一下，您想在一个操作系统（“主机”）内部运行另一个操作系统（“客户机”）。最简单、最优雅的想法是欺骗客户机。我们告诉客户机操作系统：“你掌管一切”，但我们秘密地让它在处理器的一个功能较弱的模式下运行，即所谓的用户特权级别（如 x86 处理器上的 Ring 3）。我们的主程序 hypervisor 则在最高特权级别（Ring 0）运行。

这个被称为陷阱-模拟 (trap-and-emulate) 的理论很简单：每当客户机试图执行一个特权操作——比如禁用中断或直接访问硬件设备——处理器会识别出客户机的低级状态并拒绝该操作。取而代之的是，它会产生一个“陷阱”，即一个将控制权从客户机直接转移给我们 hypervisor 的故障。然后，hypervisor 可以查看客户机试图做什么，用软件安全地模拟该行为，然后无缝地将控制权返还给客户机，而客户机对此一无所知。

这听起来很完美。但在现实中情况如何呢？考虑一个客户机操作系统试图执行一条简单的 cli 指令来清除处理器的中断标志。在没有硬件辅助的情况下，hypervisor 只是主机操作系统上的另一个程序。事件的序列出奇地复杂：

在主机用户空间中运行的 hypervisor 线程执行客户机的 cli 指令。
CPU 看到一条特权指令在非特权模式下运行，并产生一个通用保护故障（#GP）。
这个故障将控制权陷入到主机操作系统的内核，而主机内核根本不知道什么是“客户机操作系统”。它只看到一个程序（hypervisor）行为不当。
主机内核通过发送信号来通知 hypervisor 进程发生了故障，就像对待任何其他程序崩溃一样。
最后，hypervisor 自己的信号处理程序代码被唤醒。它检查故障原因，识别出有问题的 cli 指令，并通过更新内存中一个代表客户机虚拟中断标志的变量来模拟其效果（ $IF_{virt} \leftarrow 0$ ）。
然后，hypervisor 小心地调整客户机的虚拟程序计数器，并恢复客户机的执行。

这个如同鲁布·戈德堡机械 (Rube Goldberg-like mechanism) 一般的机制虽然可行，但速度缓慢且复杂，还把主机操作系统当作一个不知情的中间人牵涉进来。然而，真正的问题更为深层。在 20 世纪 70 年代，计算机科学家 Gerald Popek 和 Robert Goldberg 提出了一个架构能够以此方式被高效虚拟化的正式要求。他们的关键洞见是，敏感指令（读取或修改特权状态的指令）集合必须是特权指令（在用户模式下运行时会触发陷阱的指令）集合的子集。

几十年来，我们大多数计算机中流行的 x86 架构都有一个致命缺陷：它违反了这一条件。它拥有一类既敏感又非特权的指令。例如：

SGDT/SIDT：这些指令读取关键系统表的位置。运行这些指令的客户机可以窥探主机的内存布局。
SMSW：该指令读取一个控制寄存器，从而泄露敏感的系统状态。
POPF：该指令试图更改系统标志。在用户模式下，它不会触发陷阱，而只是静默地无法修改特权标志。

这些指令在我们的虚拟机壁垒上制造了裂缝。客户机要么能看到它不该看到的东西，要么其代码行为会与在真实硬件上不同，从而打破了虚拟化的幻象。多年来，这意味着在 x86 上的虚拟化需要极其复杂和缓慢的变通方法，比如在客户机代码运行之前费力地重写它。

一种新的虚拟化架构

当解决方案出现时，它不是一个巧妙的软件技巧，而是对处理器本身的根本性改变。英特尔（通过 VT-x）和 AMD（通过 AMD-V）的架构师们引入了一种思考处理器特权的新方式。他们不仅保留了环（Ring 0 到 3）的垂直层级结构，还增加了一个新的正交维度：root 模式和 non-root 模式。

Root 模式： 这是 hypervisor 的所在之处。它对硬件拥有绝对的、最终的控制权。
Non-root 模式： 这是一个新的沙箱，客户机虚拟机在其中运行。它仍然有自己的内部特权级别（Ring 0-3），所以客户机操作系统可以认为它在自己的 Ring 0 中运行，但整个沙箱都处于 root 模式下 hypervisor 的控制之下。

连接这两种模式的魔法是虚拟机退出（VM Exit）。Hypervisor 现在可以向 CPU 提供一个详细的“规则手册”——一个在内存中的数据结构，在英特尔的世界里称为虚拟机控制结构 (VMCS)，在 AMD 的世界里称为虚拟机控制块 (VMCB)——它精确指定了哪些客户机行为应该导致陷阱。至关重要的是，这个列表可以包括所有那些讨厌的敏感但非特权的指令。

当一个处于 non-root 模式的客户机执行了一个被 hypervisor 标记为需要拦截的操作时，CPU 会自动保存客户机的状态，切换到 root 模式，并将控制权直接交给 hypervisor。这是一个干净、快速、硬件原生的转换。通过主机操作系统内核的复杂舞蹈不复存在。Popek 和 Goldberg 提出的要求最终通过硬件指令得以满足。

攻克内存和 I/O

这种新的 root/non-root 架构解决了 CPU 虚拟化的问题，但仍有两个巨大的挑战：内存和输入/输出 (I/O)。高效地虚拟化这两者，是将一个漂亮的学术思想与驱动云时代的技术区分开来的关键。

内存的双体问题

在虚拟化系统中，我们有两层内存地址。客户机应用程序使用客户机虚拟地址 (GVA)，客户机操作系统使用其页表将其转换为客户机物理地址 (GPA)。但这个“物理”地址仍然只是一个模拟。Hypervisor 必须再将该 GPA 转换为主机物理地址 (HPA)——即机器 RAM 芯片中的实际位置。

没有硬件支持，这将是一场性能噩梦。为了查找客户机应用程序的单个数据片段，系统将必须：

遍历客户机的页表以找到 GPA。这涉及到多次内存读取。
对于客户机页表遍历中的每一次内存读取，hypervisor 都必须介入并遍历主机的页表，以将客户机页表条目的 GPA 转换为 HPA。

这导致了成本爆炸。如果客户机有一个 $w_g$ 级页表，而主机有一个 $w_h$ 级页表，那么在最坏的情况下，一次客户机内存访问可能需要 $w_g \times w_h$ 次内存查找才能完成页表导航。

硬件解决方案惊人地优雅：嵌套页表 (Nested Page Tables)，在英特尔上称为扩展页表 (EPT)，在 AMD 上称为快速虚拟化索引 (RVI) 或嵌套页表 (NPT)。处理器的内存管理单元 (MMU) 基本上被赋予了第二个专用的硬件页表遍历器。它使用客户机的页表执行 GVA $\rightarrow$ GPA 的转换，然后自动使用主机的 EPT/NPT 表执行 GPA $\rightarrow$ HPA 的转换，所有这些都在芯片中以惊人的速度完成。这一特性消除了虚拟化开销最大的来源之一。

I/O 瓶颈

一个必须与物理硬件隔离的客户机，如何与网卡或存储驱动器通信？传统方法非常粗暴：捕获每一条 I/O 指令。一个希望读取设备状态一百万次并写入控制命令三万次的客户机工作负载，将导致 $1,000,000 + 30,000 = 1,030,000$ 次 VM exit。每次退出都是一次昂贵的上下文切换，因此对于 I/O 密集型应用来说，这种方法慢得不切实际。

硬件辅助虚拟化利用内存映射 I/O (MMIO) 和嵌套页表，实现了一种更智能的技术。它不使用特殊的 I/O 指令，而是将设备的控制寄存器映射到客户机物理内存的一个区域中。

最初，hypervisor 使用 EPT 将这些内存页面标记为“不可访问”。
当客户机第一次尝试接触这些页面中的一个时，会引发一次 VM exit（一次 EPT 违例）。
然后，hypervisor 更改 EPT 权限，允许客户机自由读写该页面，不再产生任何退出。
但是，hypervisor 如何知道客户机何时向设备写入了新命令呢？它不需要捕获每一次写入。相反，每当客户机写入该页面时，硬件会自动在该页面的 EPT 条目中设置一个“脏”位。Hypervisor 只需设置一个周期性计时器（这也会导致一次 VM exit），每隔一毫秒左右唤醒一次，并高效地扫描这些脏位，以查看哪些设备需要关注。

对于同样的工作负载，这种现代方法将仅产生 2 次初始退出（设备映射到的每个内存页面各一次）外加周期性 1ms 计时器产生的 1000 次退出，总共仅 1002 次 VM exit。这减少了超过 99.9% 的开销，证明了软硬件协同设计的强大威力。

微调的艺术

现代硬件虚拟化不是一把单一的锤子，而是一套丰富的精密仪器工具箱，让 hypervisor 能够最大限度地减少昂贵的 VM exit。

选择性拦截： Hypervisor 可以精细调整哪些事件会导致退出。使用 MSR 位图，hypervisor 可以告诉 CPU：“对大多数控制寄存器的写入进行陷阱操作，但忽略对这个特定寄存器 IA32_TSC_AUX 的写入，因为我知道客户机在每次系统调用时都会使用它。” 在繁忙的系统中，这种简单的调整每秒可以消除数百万次退出。
虚拟化不可见之物： 即使是像时间这样的概念也被虚拟化了。当一个深嵌在嵌套虚拟机（一个运行在另一个客户机内部的客户机）中的客户机读取 CPU 的时间戳计数器 (TSC) 时，它看到的值是真实硬件时间加上每一层虚拟化所施加偏移的干净组合： $T_{L2} = T_H + \delta_1 + \delta_2$ 。像 APICv 和 AVIC 这样的高级特性对硬件中断也做同样的处理，在许多情况下将它们直接传递给客户机而无需退出。
减少缓存刷新惩罚： 在 hypervisor 和客户机之间切换过去需要刷新转译后备缓冲器 (TLB)，这是一个用于内存地址转换的关键缓存。这就像每次切换任务时都要清空你的短期记忆。虚拟处理器标识符 (VPID) 和地址空间标识符 (ASID) 通过标记 TLB 条目来解决这个问题，允许 hypervisor 和多个客户机的转换在缓存中和平共存，从而显著提高性能。

这些特性共同产生的影响是深远的。我们甚至可以对其建模。虚拟机退出的速率可以看作是 CPU 密集型工作的基准速率和 I/O 密集型工作的附加速率之和。现代硬件特性对这两个部分都有所改善，但它们在削减与 I/O 相关的开销方面尤其有效，在典型场景中可将该部分的退出率降低 60% 或更多。

这段从一个有缺陷的经典构想到一个复杂的软硬件合作关系的旅程，揭示了计算机科学的一个核心真理：硬件和软件之间的界限不是固定的。它是一个动态的前沿，我们一次又一次地在那里找到优雅的方法，将复杂性从缓慢、通用的软件转移到快速、专门的芯片中，从而解锁我们曾经只在梦中想过的新能力。然而，尽管硬件辅助是现代云计算的主力，纯软件模拟在某些任务中仍然占有重要地位，例如为不同类型的 CPU（如在 x86 上运行 ARM）运行软件，或者需要深度、细粒度的插桩时——这提醒我们，在工程学中，很少有唯一的解决方案，只有一系列强大的权衡取舍。

应用与跨学科联系

在探索了硬件辅助虚拟化奇妙的内部机制——那些赋予虚拟机生命的秘密陷阱门和隐藏页表之后——你可能会问：“所有这些聪明才智究竟是为了什么？” 这是一个合理的问题。物理学或工程学中的一个原理，其强大与否取决于它能解决的问题。就硬件虚拟化而言，其应用范围之广令人惊叹：这一系列硬件技巧从根本上动摇了计算的基础，从驱动我们数字生活的全球云，到嵌入在我们驾驶汽车中的智能系统。

让我们踏上这段穿越此景的旅程，看看 root 模式、嵌套分页和 I/O 重映射等抽象原理如何成为解决现代技术中一些最紧迫挑战的切实方案。

云的基石：一个充满隔离幻象的世界

想象一下现代云服务提供商面临的挑战。他们拥有庞大的数据中心，即装满了强大服务器的仓库。在这些硬件上，他们必须同时为成千上万个不同的客户运行程序。这些客户彼此陌生；他们互不信任，当然也不相信他们的代码能在一个邻居可以窥探他们数据或使他们应用程序崩溃的环境中运行。你如何在一个共享的基础上构建安全的多租户公寓？

这正是硬件辅助虚拟化 (HVM) 应运而生的典型问题。Hypervisor 利用 Intel 的 VMX 或 AMD 的 SVM 等硬件特性，成为终极“房东”。它将每个租户的整个操作系统——内核、应用程序及其所有——都放入一个特殊的“non-root”模式中。客户机操作系统认为它拥有整台机器，认为它运行在全能的 Ring 0 中。但这是一个精心构建的幻象。真正的主人，hypervisor，则留在“root 模式”中，从更高的特权层面进行观察。

为了保护内存，确保一个租户无法读取另一个租户的秘密，hypervisor 依赖于一种基于硬件的内存地址“复式记账”系统，如扩展页表 (EPT)。客户机管理自己的一套页表，但 CPU 本身在每一次内存访问时都会查阅第二套由 hypervisor 控制的页表，将客户机的“物理”地址转换为真实的机器地址。客户机被困在 hypervisor 分配给它的内存中，无法命名，更不用说访问其围墙之外的内存了。

但设备呢？一个流氓网卡或存储控制器，如果任其自由，可以使用直接内存访问 (DMA) 覆盖系统内存的任何部分，完全绕过 CPU 的保护。这就是输入输出内存管理单元 (IOMMU) 发挥作用的地方。它充当设备的警惕看门人，使其 DMA 请求受到与 CPU 对内存访问相同的地址转换审查。因此，一个直通给特定虚拟机的设备就被束缚在该虚拟机的内存上，无法在别处造成破坏。

这种由硬件强制执行的边界与容器所使用的基于软件的隔离有着本质的不同，并且更为强大。容器是单个操作系统内核的一个巧妙功能，用于划分其自身资源。但所有容器化进程仍然与同一个内核对话。那个共享内核庞大的系统调用接口中的一个 bug，就可能成为一把能打开大楼里所有房间的万能钥匙。相比之下，虚拟机为每个租户提供了自己的内核。要逃逸，恶意程序需要找到的不是庞大的 Linux 或 Windows 内核中的缺陷，而是更小、为特定目的构建的 hypervisor 及其暴露的虚拟设备中的缺陷——这是一个攻击面要小得多，且受到更严格审查的领域。

这种强大的隔离使得云管理的神奇操作成为可能。例如，如果一台服务器需要维护，hypervisor 可以执行“实时迁移”，将一个正在运行的虚拟机的全部状态——CPU 状态、内存及所有——打包起来，通过网络将其“传送”到另一台物理服务器上，而客户机操作系统或其应用程序甚至不会注意到那短暂的停顿。这需要精妙的兼容性配合。在实践中，云运营商可能会选择为其整个服务器集群配置一个通用的、虚拟化的 I/O 设置，甚至放弃像 SR-IOV 这样的专用硬件所能提供的最高性能，只为保证任何虚拟机都能无缝迁移到集群中的任何服务器。这是一个经典的工程权衡：为了整体的运营灵活性，牺牲少数个体的峰值性能。

对速度的追求：让幻象与现实无异

虚拟化最初的承诺是隔离，但其广泛采用取决于第二个问题：我们能让它变快吗？通过一层软件模拟来运行整个操作系统，听起来注定会很慢。在早期，情况确实常常如此。HVM 的魔力在于它让我们既能拥有蛋糕，又能吃掉它。

像 Linux 的内核虚拟机 (KVM) 这样的现代系统并非纯粹的“Type 2” hypervisor，不仅仅是作为主机操作系统上的一个应用程序运行。它们是复杂的混合体。主机操作系统内核本身成为 hypervisor，利用 HVM 特性让客户机代码大部分时间直接在物理 CPU 上运行。昂贵的软件模拟部分，通常由像 QEMU 这样的用户空间程序处理，只在需要处理棘手问题时才被调用，比如模拟老旧设备。

为了获得与本机相媲美的性能，工程师们必须向开销宣战，在 CPU、内存和 I/O 三条战线上同时作战。

在 I/O 战线上，最大的开销来源是“VM exit”——从客户机到 hypervisor 的上下文切换。在一个纯模拟系统中，每一次 I/O 操作都可能导致一次昂贵的退出。想象一个每秒能处理数十万个数据包的高速网络设备。如果每个数据包的到达都触发一次 VM exit，CPU 开销可能会变得不堪重负。解决方案是硬件和软件智慧的完美结合。借助像“posted interrupts”（Intel APICv 或 AMD AVIC 的一部分）这样的特性，硬件可以将设备中断直接传递到客户机 CPU 的上下文中，而无需 VM exit。仅此一项优化就可以将中断延迟削减一半，并将主机 CPU 开销从致瘫的负载降低到可忽略的背景噪音，这一变化可能意味着虚拟化网络设备从跟不上速度到以线速运行的天壤之别。

在内存战线上，即使有 EPT 在硬件中处理地址转换，开销仍然可能悄然而至。例如，hypervisor 可能不知道客户机的哪些内存页面接下来会被需要，导致需要 VM exit 才能在 EPT 中建立新映射的次要页错误。在这里，一点点合作大有裨益。通过半虚拟化 (PV)，确实知道自己要做什么的客户机操作系统可以通过 hypercall 向 hypervisor 发送一个提示。它可以说：“我将要从这些用户空间页面复制数据”，从而允许 hypervisor 主动映射它们，避免未来的故障。这些故障的预期减少量是一个简单而强大的乘积：访问的页面数、被提示的比例、故障的基线概率以及提示成功的概率，即 $m = NLpr$ 。另一个内存挑战就是内存占用。如果你有一百个虚拟机都在运行相同的操作系统，那么内存中就有一百份相同的库副本。聪明的 hypervisor 可以扫描内存以寻找相同的页面，并将它们合并成一个单一的、共享的写时复制 (Copy-on-Write, COW) 页面，从而节省大量 RAM。这也是一种权衡。如果其中一个虚拟机后来写入该共享页面，就会触发一次昂贵的 COW 故障来创建私有副本。系统设计者必须仔细对此建模，只有当这种“伪共享”写入的概率 $p_{fs}$ 低于某个阈值，使得故障的预期成本超过节省的收益时，才决定合并。

总而言之，这些优化意味着一个配置良好的虚拟机，利用 HVM 进行 CPU 和内存虚拟化，并使用半虚拟化驱动程序进行 I/O 操作，可以实现通常只比在裸机上运行慢几个百分点的性能。幻象变得近乎完美。

超越数据中心：新前沿

HVM 的影响远远超出了传统的数据中心。它创建强大、高效隔离的能力正在催生全新的计算范式。

考虑一下“无服务器”革命。其目标是为客户运行微小的代码片段，仅持续几分之一秒，并以近乎瞬时的启动速度完成。容器启动速度快，但其共享内核的安全模型对于运行来自许多不同租户的不可信代码来说通常太弱。传统虚拟机安全，但它们可能需要数十秒才能启动——在无服务器的世界里，这简直是永恒。解决方案是什么？microVM。像 Firecracker 这样的项目使用 HVM 来创建虚拟机，但它们将虚拟硬件精简到绝对的最低限度：一个网卡、一个磁盘，别无他物。通过省去几十个老旧虚拟设备的初始化过程，并利用巧妙的“快照/恢复”技巧来加载一个预先启动的客户机状态，microVM 可以在几毫秒内启动。它提供了容器的速度和虚拟机的强大、硬件强制的隔离，为无服务器功能创建了完美的沙箱。

HVM 的触角甚至延伸到了嵌入式系统的世界。现代汽车是带轮子的复杂计算机，同时运行着几十个任务。其中一些，如信息娱乐系统，很复杂但非安全关键。另一些，如控制刹车的高级驾驶辅助系统 (ADAS)，则具有最高的重要性。历史上，这些系统会运行在独立的专用处理器上。如今，HVM 允许将它们整合到单个强大的片上系统 (SoC) 上。Type-1 hypervisor 对硬件进行划分，提供严格的空间隔离（使用 IOMMU 让 ADAS 客户机独占 CAN 总线控制器）以及至关重要的时间隔离。它保证 ADAS 虚拟机获得其专用的 CPU 核心，并且无论信息娱乐虚拟机变得多忙或多不稳定，都能始终满足其实时截止时间的要求。这需要仔细的设计，甚至要深入到 hypervisor 内部的锁原语，以防止出现优先级反转等情况，即低优先级系统可能无意中延迟高优先级系统。

最后，这种“盲目”的 hypervisor 和“有意识”的客户机之间的协作之舞甚至可以帮助我们构建更节能的系统。Hypervisor 无法知道客户机操作系统是真正空闲还是只是在循环中空转。没有这些信息，它不敢将物理 CPU 置于深度省电睡眠状态（C-state），因为唤醒可能需要时间。但是，来自客户机的一个简单的半虚拟化提示——一个 hypercall 说“我将在接下来的 100 毫秒内保持空闲”——给了 hypervisor 所需的信心，去命令硬件进入深度睡眠。这个跨越虚拟边界传递的简单信息，可以将空闲期间的能耗削减超过 75%，当汇总到数据中心数百万台服务器上时，这是一笔巨大的节省。

从保障云安全，到加速 I/O，到赋能无服务器计算，再到确保我们汽车的安全，硬件辅助虚拟化已被证明是我们这个时代功能最全面、影响最深远的技术之一。它证明了在一个由简单、优雅且巧妙的硬件真理构成的基础上，可以构建出复杂而有用的幻象。