虚拟地址转换

玻尔百科

核心要点

虚拟地址转换是硬件与操作系统协作的过程，它使用页表将程序的私有虚拟地址空间映射到共享的物理内存上。
页表项 (PTE) 的功能不止于转换；它们包含权限位（读、写、执行），提供由硬件强制执行的强大安全性和进程隔离。
转译后备缓冲器 (TLB) 是一个关键的硬件缓存，用于存储近期的地址转换，这使得性能高度依赖于程序的内存访问模式和局部性。
除了内存管理，虚拟地址转换还支撑了操作系统的核心功能，如按需分页、写时复制 (COW)，以及通过页面固定和 IOMMU 实现的安全、高性能 I/O。

引言

在现代计算领域，最基本的概念之一便是虚拟内存这个优雅的幻象。这一强大的抽象机制让每个应用程序都相信自己独占着一个从地址零开始的、广阔而私有的内存空间。实际上，这是一种精心管理的假象；众多程序必须共存并共享机器有限的物理 RAM。使这一切成为可能关键机制就是虚拟地址转换，一个由操作系统和计算机硬件协同编排的复杂过程。这个过程解决了在多任务环境中如何安全有效地管理内存的核心问题。

本文深入探讨虚拟地址转换的复杂工作原理，全面概述其原理和应用。在接下来的章节中，您将了解到：

原理与机制： 探索核心的转换过程，从内存管理单元 (MMU) 和页表的作用，到对性能至关重要的转译后备缓冲器 (TLB) 以及高级页表结构。
应用与跨学科联系： 了解虚拟地址转换如何成为按需分页、写时复制、系统安全和高性能设备 I/O 等基本功能的基础，揭示其对整个计算机系统的深远影响。

原理与机制

从本质上说，虚拟内存是计算领域中最深刻的幻象之一。它赋予每个运行中的程序一种奢侈的错觉，让它们以为自己独占了整台机器，拥有一片从地址零开始的、广阔、私有且纯净的内存空间。但这只是一个精心构建的幻想。实际上，众多程序在有限的物理内存中争夺空间，它们的数据散落各处，就像图书馆书架上的书籍。维持这一幻象的魔力便是虚拟地址转换，这是计算机硬件及其操作系统之间的一场协作之舞。让我们层层揭开这一优美机制的神秘面纱。

转换的艺术：从虚拟到物理

想象一下，内存不是一条标有门牌号的长街，而是一系列大小相等的社区，即页 (page)。一个程序的私有地址空间，即其虚拟地址空间 (virtual address space)，就是这些虚拟页的完整集合。计算机的实际硬件内存，即物理地址空间 (physical address space)，同样被划分为同样大小的社区，称为物理帧 (physical frames)。

转换的核心在于一个简单的数学技巧。当一个程序请求访问某个内存位置——比如虚拟地址 $43,127$ ——硬件的内存管理单元 (MMU) 并非将这个数字作为一个整体来处理。相反，它会立即将其识别为一个由两部分组成的坐标：一个页号和在该页内的偏移量。例如，如果页大小为 $4096$ 字节 ( $2^{12}$ )，则虚拟页号 (VPN) 通过整数除法得到 ( $VPN = \lfloor \frac{43127}{4096} \rfloor = 10$ )，而偏移量 (offset) 则是余数 ( $offset = 43127 \pmod{4096} = 2167$ )。这种分解是完全可逆的；原始地址总能通过页号和偏移量重建。这种数学上的双射关系是构建一切其他机制的无损基础。

但关键在于：硬件并不会假定虚拟页 $10$ 就在物理帧 $10$ 中。相反，它使用 VPN 作为索引来查询一个称为页表 (page table) 的特殊映射。你可以将页表想象成程序内存的目录。对于每个虚拟页，都有一个页表项 (PTE)，其中包含了至关重要的信息：该页在 RAM 中实际所在的物理帧号 (PFN)。

如果 VPN $10$ 的 PTE 显示该页位于 PFN $165$ ，MMU 就会通过取该帧的基地址 ( $165 \times 4096$ ) 并加上原始偏移量 ( $2167$ ) 来构造最终的物理地址。这个最终地址 $678007$ 会被发送到内存总线上。而程序对此一无所知，它获取了自己的数据，其简单线性内存的私有幻象得到了完美的维持。

门前的守护者：保护与特权

然而，页表项的真正威力远不止于简单的转换。PTE 是一个微型控制面板，是其对应页面的守护者，以铁一般的硬件权威强制执行规则。

最基本的规则由有效位 (valid bit) 决定。如果一个程序试图访问一个当前根本不在物理内存中的页面，会发生什么？该页 PTE 的有效位会被设为 $0$ 。当 MMU 看到这个标志时，它不会崩溃，而是触发一个页错误 (page fault)，这是一种将控制权转移给操作系统的特殊陷阱 (trap)。这并非一个错误，而是一个求助信号。这个机制使得按需分页 (demand paging) 成为可能，这是一种优雅的策略，即页面仅在首次被访问时才从硬盘（“后备存储”）加载到内存中。操作系统找到一个空闲的物理帧，命令磁盘将该页的数据加载进去，用新的 PFN 更新 PTE 并将有效位置为 $1$ ，然后指示硬件重试原始指令。这一次，转换成功了。程序继续执行，完全没有意识到在其背后刚刚发生了一次复杂的 I/O 操作。

除了有效位，PTE 还包含权限位：一个用于读 (read)，一个用于写 (write)，一个用于执行 (execute)。如果一个程序试图向一个被标记为只读的页面（比如它自己的代码）写入数据，MMU 会再次拒绝，这次会触发一个保护错误 (protection fault)。这种硬件级别的强制执行阻止了大量的程序错误和安全漏洞。

最终的保护层是用户/超级用户位 (user/supervisor bit)。操作系统内核——系统的总控制器——运行在特权的“超级用户”级别。其自身的代码和数据位于标记为仅限超级用户访问的页面中。任何常规的“用户”程序访问这些页面的企图都会被 MMU 立即阻止，并引发一个错误。这种保护是如此根本，以至于即使面对现代处理器激进的推测执行 (speculative execution)，它依然有效。如果一个恶意程序推测性地尝试读取内核地址，MMU 的权限检查仍会标记一个错误。CPU 在意识到该指令是错误的时，会在它被“引退”或提交到架构状态之前，将其及其所有影响全部清除。任何内核数据都不会泄露到用户程序的寄存器或内存中。这个坚固的硬件屏障是稳定、多任务操作系统的基石。

追求速度：缓存转换

这个复杂的转换过程带来了严峻的性能挑战。如果每一次内存访问——每一次指令获取、每一次数据读或写——都需要额外一次或多次内存访问来遍历页表，性能将会严重受损。

救星是一个小型的专用硬件，称为转译后备缓冲器 (Translation Lookaside Buffer, TLB)。TLB 是一个缓存，但它缓存的不是数据，而是转换结果。它存储了少量最近使用过的 VPN 到 PFN 的映射。当 MMU 需要转换一个虚拟地址时，它首先检查速度极快的 TLB。如果找到了映射——即 TLB 命中 (TLB hit)——转换可能在一个时钟周期内就完成了。

如果映射不存在——即 TLB 未命中 (TLB miss)——硬件就必须通过访问主存来执行缓慢的页表遍历。这个代价是巨大的。对于一个两级页表，一次 TLB 未命中可能需要两次内存访问来找到最终的 PTE，然后第三次访问才是获取实际数据。这延迟是 TLB 命中时的三倍。即使在最好的情况下，即页表项恰好位于 CPU 的数据缓存中，一次未命中仍然会带来几十个周期的不可忽略的惩罚，因为硬件需要协调页表遍历。

TLB 之所以有效，原因很简单：引用局部性 (locality of reference)。程序并非随机访问内存；它们倾向于在一段时间内在一小组页面内工作。考虑顺序读取一个大数组。对一个页面的首次访问会导致 TLB 未命中。但接下来的数百次访问都将指向同一个页面，从而产生一连串快速的 TLB 命中。在一种场景下，这带来了超过 $99.8\%$ 的惊人命中率，访问时间几乎不比原始内存高。现在，将其与每次读取都跳转到一个新页面的访问模式进行对比。在这种情况下，每一次访问都是 TLB 未命中，有效内存访问时间增加了一倍多。这种巨大的差异有力地说明了程序行为和局部性原理如何通过 TLB 直接影响性能。

驯服无限：高级页表结构

在 64 位计算时代，地址空间大得惊人。一个用于 $2^{64}$ 字节地址空间的简单、扁平的页表本身就需要数万亿 TB 的内存——这在物理上是不可能的。为了解决这个问题，系统设计者开发了更复杂的结构。

最常见的解决方案是多级页表 (hierarchical page tables)。虚拟页号被分成多个部分，用于索引一个页表树，而不是一个单一的巨型表。例如，在一个两级方案中，VPN 的第一部分索引一个“页目录”，它指向一个二级页表，然后用 VPN 的第二部分索引该二级页表，以找到最终的 PTE。这种方法的美妙之处在于，如果地址空间的一大片区域未使用，相应的二级页表根本不需要分配，从而节省了大量的内存。

一个更激进的设计是反向页表 (inverted page table)。系统中不再是每个进程都有自己的从虚拟页到物理页的映射表，而是维护一个单一的、全局的表，该表由物理帧号索引。该表中的每个条目存储当前占用该帧的 (进程 ID, VPN) 对。这种结构出色地解决了操作系统的一个关键问题：当需要从一个物理帧中换出一个页面时，它可以通过一次查找（ $O(1)$ 时间）找出该帧的拥有者。然而，这反转了转换问题：正向查找，即从 (PID, VPN) 到 PFN，现在变得困难。解决方案是在反向页表上叠加一个哈希表。这使得正向查找的期望时间复杂度为 O(1)，同时保留了反向查找的 O(1) 复杂度。这产生了一个有趣的权衡：多级页表的未命中延迟由其深度 $L$ 决定，而在哈希反向页表中，它由哈希表的负载因子 $\alpha$ 决定。事实上，可以推导出一个精确的关系，显示出当两个设计的未命中延迟相等时的临界负载因子 $\alpha^{\star} = 1 - 1/L$ ，这是一个将相互竞争的架构哲学在一个方程式中交汇的美丽例子。

最后，值得注意的是，这些系统通常是分层的。像 Intel IA-32 这样的历史架构在分页之前使用分段 (segmentation) 作为初始转换步骤。一个以段和偏移量形式给出的逻辑地址，首先会根据段的限制进行检查，然后转换为一个线性地址，该线性地址再被送入分页单元。这可能导致访问因未通过段限制检查而失败，尽管底层的页面在分页系统中是完全有效的，这提醒我们地址转换是一个丰富的、多阶段的过程，由优雅的设计和历史演变共同塑造 [@problem_-id:3620267]。

应用与跨学科联系

在探索了虚拟地址转换这套复杂精密的机制之后，你可能会觉得它虽然奇妙复杂，但或许只是一个纯粹的内部系统管道。事实远非如此。虚拟内存的原理不仅仅是管理 RAM 的一种聪明方法；它们是现代计算的基石，是一个多功能的工具包，支撑着从我们操作系统的安全到我们视频游戏的性能，再到我们数据库的可靠性的一切。让我们来探讨这个抽象概念如何触及计算的几乎每一个方面，揭示硬件、软件乃至其他领域思想之间美妙的统一性。

幻象的艺术：塑造进程的世界

从本质上讲，虚拟内存是一种深刻的幻象行为。它赋予每个进程一种错觉，即它独占了整台机器，拥有一个从零开始的、广阔、私有且组织清晰的地址空间。这不仅仅是为了方便，它还是灵活强大软件设计的基础。

你是否曾想过，你的操作系统是如何加载一个比可用物理 RAM 还大的程序的？或者，多个程序是如何在不相互干扰内存的情况下同时运行的？答案就是按需分页，这是虚拟内存的直接产物。操作系统只加载程序代码和数据中实际需要的部分——即单个页面。当程序试图接触内存中不存在的部分时，MMU 硬件会触发一个页错误，而操作系统就像一个尽职的图书管理员，从磁盘中取回所需的页面。

这位“图书管理员”甚至可以施展更巧妙的技巧。现代操作系统允许进程将文件直接映射到其地址空间。程序员只需通过读写内存中的数组，就可以读写磁盘上的一个巨大文件。操作系统和 MMU 会处理这背后的魔法，按需将文件数据取入物理帧中。这个系统非常灵活。进程可以通过取消映射 (unmapping) 不再需要的区域来在其地址空间中创建“空洞”，从而实现复杂的内存布局。这里一个至关重要的洞见是指针算术和指针解引用之间的区别。你可以拥有一个指向未映射“空洞”中某个地址的指针。对该指针值进行计算——加法、减法——完全没有问题，不会引发错误。只有当你试图解引用它，即访问那个位置的数据时，错误才会发生。这时，MMU 这个守护者会介入并说：“访问被拒绝！”

也许最优雅的幻象是写时复制 (Copy-on-Write, COW)。当一个进程创建子进程时（例如 Linux 上的 [fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 系统调用），操作系统无需费力地复制父进程的整个内存。相反，它只为子进程复制父进程的页表，并将底层的页面标记为只读。这样，父子进程现在共享相同的物理帧。一旦任一进程试图写入一个共享页面，MMU 就会触发一个保护错误。此时，操作系统介入，为写入的进程制作该页面的一个私有副本，更新其页表以指向这个具有写权限的新副本，然后恢复执行。这是一种极致高效的行为，将昂贵的工作推迟到绝对必要时才执行。

门前的守护者：保护、安全与调试

启用这些幻象的同一套硬件，也扮演着一个不懈的守护者。与每个页表项关联的权限位（读、写、执行）是系统安全的基石。它们强制实施进程之间的隔离，防止恶意网页浏览器读取你的密码管理器的内存。它们还在用户应用程序和操作系统内核本身之间建立了不可逾越的壁垒。

但这些保护位的作用不仅仅是粗暴的安全防护。它们还能实现一些极其巧妙的软件技巧。以调试器为例。它如何在不物理改写机器码的情况下在断点处停止你的程序？答案是利用“执行”权限位进行的一场漂亮的“诡计”。要设置一个断点，调试器只需请求操作系统找到包含目标指令的页面，并将其执行权限位翻转为“关闭”。当程序的执行到达该指令时，CPU 试图从一个不可执行的页面中获取它，这会导致 MMU 触发一个保护错误。操作系统捕获这个错误，通知调试器断点已命中，然后将控制权交给你。要继续执行，调试器会告诉操作系统临时将权限位翻转回“开启”，在 CPU 上启用一种特殊的单步模式，然后恢复执行。在恰好执行一条指令后，CPU 再次陷入（trap）。然后操作系统通过再次关闭执行权限来恢复断点。这是调试器、操作系统和 MMU 之间的一场精彩协作，一切只为创造无缝的调试体验。

伟大的指挥家：编排高性能 I/O

输入/输出 (I/O) 的世界是虚拟内存作为总指挥家角色真正大放异彩的地方。在这里，我们面临一个根本性的冲突：程序在干净、连续的虚拟地址世界中运行，而像磁盘控制器和网卡这样的高速设备通常使用直接内存访问 (DMA) 直接写入物理内存，完全绕过 CPU。

这造成了一种危险的局面。如果一个数据库请求操作系统将数据从磁盘读入一个缓冲区，它提供的是一个虚拟地址。操作系统启动 DMA 传输到相应的物理帧。但是，如果在这个缓慢的磁盘还在寻道的时候，操作系统决定将该物理帧换出，以便为另一个进程腾出空间，会发生什么？对此一无所知的 DMA 控制器最终会将其数据写入这个物理帧，而这个帧现在属于别人了。结果就是：静默的数据损坏。

为了防止这种情况，操作系统提供了一种称为页面固定 (page pinning) 的机制。像数据库这样的应用程序可以告诉操作系统：“我正在对这个虚拟页面执行 DMA。请固定它。”这是一个契约，禁止操作系统在应用程序取消固定之前换出底层的物理帧。这确保了 DMA 的物理目标在 I/O 操作期间保持稳定和正确。

然而，分页引入了另一个挑战。一个在进程虚拟地址空间中连续的 1MB 缓冲区，可能分散在 256 个不连续的 $4\,\text{KiB}$ 物理帧中。DMA 设备如何向它写入数据？分配一个大的、物理上连续的内存块很困难，并且会导致碎片化。解决方案是分散-聚集 I/O (scatter-gather I/O)。操作系统驱动程序不是给设备一个单一的物理地址，而是遍历虚拟缓冲区的页表，并构建一个描述符列表。每个描述符包含一个物理基地址和一个长度（例如，一个 $4\,\text{KiB}$ 的帧）。然后，设备可以将传入的数据“分散”到这些多个物理片段中，而程序则在其虚拟缓冲区中看到这是一个单一、统一的“聚集”。分页，曾经是一个问题，现在却成为了一种避免内存碎片和额外数据复制的解决方案的一部分。

现代系统通过输入输出内存管理单元 (Input-Output Memory Management Unit, IOMMU) 将这一点又推进了一步。可以把它想象成一个为你的设备服务的 MMU。IOMMU 位于设备和主存之间，使用它自己的一套页表 (IOPT) 将以设备为中心的虚拟地址 (IOVA) 转换为物理地址。这提供了两大好处。首先，它极大地改变了安全格局：操作系统可以配置 IOPT，以确保网卡只能写入其指定的缓冲区，从而防止一个被攻破的设备接管整个机器。其次，它简化了事情。设备驱动程序现在可以处理连续的 IOVA，而 IOMMU 则负责处理繁琐的分散-聚集细节。就像 CPU 的 MMU 一样，IOMMU 也有自己的 TLB（一个 IOTLB）来加速这些转换，而管理这些缓存的一致性是操作系统的一项关键任务。

看不见的手：性能、优化与统一的类比

除了实现功能外，虚拟地址转换对系统性能有着深远而常常是微妙的影响。转译后备缓冲器 (TLB) 是这场秀的主角。因为在内存中遍历页表很慢，所以 TLB 缓存了最近的转换。当你的程序表现出良好的空间和时间局部性——访问在空间或时间上相近的数据——它很可能会获得 TLB 命中，执行速度就很快。

然而，某些访问模式可能会造成严重破坏。想象一下以步长方式遍历一个非常大的数组，访问每第 512 个元素。如果每个步长恰好都落在一个新的虚拟页面上，你可能在每一次访问时都会产生一次 TLB 未命中。如果在短时间内你接触到的不同页面数量超过了 TLB 的容量，你将不断地驱逐旧的条目，却在片刻之后又需要它们。这种现象被称为“TLB 抖动 (TLB thrashing)”，能让一个强大的处理器束手无策。它揭示了高层算法设计与底层硬件现实之间的深刻联系；你的代码性能可能关键性地取决于其内存访问模式与分页系统的交互方式。

为了解决这个问题，架构师引入了大页 (huge pages)。除了标准的 $4\,\text{KiB}$ 页面，系统还可以使用 $2\,\text{MiB}$ 甚至 $1\,\text{GiB}$ 的页面。一个用于 $2\,\text{MiB}$ 大页的 TLB 条目所覆盖的范围与 512 个用于 $4\,\text{KiB}$ 页面的条目相同。对于像数据库或科学模拟这样具有大工作集的应用程序，使用大页可以显著减少 TLB 未命中和页表的内存开销。其权衡是可能因内部碎片而浪费内存，并且预留这些页面会减少可用于其他任务的内存。在一个内存受限的嵌入式系统中，从总共 $R$ 的 RAM 中预留 $H$ 个大小为 $P$ 的大页的开销就是损失的内存比例： $\frac{HP}{R}$ 。

最后，我们来到了计算机体系结构中所有交互中最微妙和最美妙的一个：虚拟索引、物理标签 (VIPT) 缓存中的同义词问题 (synonym problem)。当两个进程映射一个共享库时，操作系统可能会将其放置在不同的虚拟地址。现在我们就有了两个虚拟地址，它们是同一块物理内存的同义词。这通常没问题，但它可能给 CPU 缓存带来一场噩梦。在 VIPT 缓存中，组索引是从虚拟地址派生出来的。如果同义词的虚拟地址在用于索引的位上不同，那么相同的物理数据就可能被加载到缓存中的两个不同组中。这打破了缓存的基本假设，即一个物理地址只存在于一个地方。如果一个进程写入其副本，另一个进程的副本就会变旧，导致静默的数据损坏。

解决方案可以来自硬件（设计缓存使得索引位不跨越页面边界），或者更有趣地，来自软件。操作系统可以实现页着色 (page coloring)，这是一种方案，通过它操作系统仔细地为物理页面选择虚拟地址，以确保给定页面的所有同义词总是映射到同一个缓存组。这是一个惊人的例子，说明操作系统必须理解并弥补底层硬件的微妙怪癖。

这个抽象问题在一个完全不同的领域有一个惊人的相似之处：计算机网络。考虑一个执行网络地址转换 (NAT) 的路由器，它将来自网络内部的多个私有（IP 地址，端口）对映射到一个单一的公共 IP 地址。私有（IP，端口）就像一个虚拟地址，公共 IP 就像一个物理地址，而 NAT 表就是页表。如果路由器配置错误，只查看私有 IP 而忽略端口来创建映射，那么同一台内部计算机上的两个不同应用程序可能会被映射到公共端的同一个出站端口。这就是一个同义词！当返回的流量回来时，路由器不知道该把它发送到哪个内部应用程序。这种歧义，这种唯一映射的破坏，是同一个根本性问题，无论它发生在 CPU 缓存中还是网络路由器中。

从塑造进程内存到守护系统，从指挥高速 I/O 到影响我们算法的性能，虚拟地址转换远不止是一个技术细节。它是一个强大的、统一的概念——是层次抽象以及硬件与软件之间复杂而美妙的协作的证明，正是这些使得现代计算成为可能。