首页页表遍历

页表遍历

玻尔百科

定义

页表遍历是计算机体系结构中当快表（TLB）未命中时，硬件通过遍历多级页表将虚拟地址转换为物理地址的过程。这一转换机制由于需要多次读取物理内存而产生显著的性能开销，直接影响着处理器、输入输出虚拟化以及嵌套虚拟化的效率。在系统优化中，通常采用大页技术和页表遍历缓存（PWC）来减少遍历的频率与成本。

核心要点

页表遍历是在发生TLB未命中时，硬件遍历多级页表以将虚拟地址转换为物理地址的过程。
此转换过程会引入显著的性能开销，因为单次虚拟内存访问可能需要多次物理内存读取。
转译后备缓冲器（TLB）是一个关键的缓存，用于存储最近的转换结果，从而使大多数内存访问能够绕过耗时的页表遍历。
页表遍历机制的影响超出了CPU范畴，还影响到I/O虚拟化（IOMMU）、嵌套虚拟化的性能以及系统安全。
通过使用大页和页表遍历缓存（PWC）等技术，可以降低页表遍历的频率和成本，从而优化系统性能。

引言

在现代计算中，最优雅和最基本的抽象之一是虚拟内存——它为每个程序营造出一种假象，即每个程序都在其自己私有的、连续的内存空间中运行，并与其他程序完全隔离。这就提出了一个根本性问题：系统如何能同时为无数程序提供这种私有空间而不造成混乱？答案在于硬件和软件之间的一场复杂协作，而页表遍历（page walk）则是其中的核心编排。这个过程是将程序使用的虚拟地址转换为计算机实际RAM物理地址的关键，但它也带来了一项隐藏的性能税。本文将深入剖析这一关键机制。首先，“原理与机制”一章将揭示页表遍历的内部工作原理，从它所遍历的分级页表到帮助避免其成本的转译后备缓冲器（TLB）。接下来，“应用与跨学科关联”一章将探讨页表遍历对高性能计算、全系统安全以及复杂的虚拟化世界所产生的深远影响。

原理与机制

宏伟的幻象：私有的内存宇宙

想象一下你正在编写一个计算机程序。从你的视角来看，你的代码存在于一个广阔、纯净且私有的内存宇宙中。它从地址零开始，向上延伸数GB，就像一块干净的画布任你使用。更重要的是，在同一台计算机上运行的其他每个程序都享有完全相同的特权。这怎么可能呢？每个程序怎么能都认为自己拥有从零开始的相同内存地址，而不会引发彻底的混乱？

这就是现代计算中最优雅的幻象之一：虚拟内存。它是处理器硬件与操作系统软件之间协同合作的杰作。你的程序所使用的地址并非计算机RAM芯片中的真实物理地址，它们是虚拟地址，仅存在于你的进程上下文中。其魔力在于一种机制，它能在你的程序每次获取指令或读取数据时，即时地将这些虚拟地址转换为实际的物理地址。

这种转换不是逐字节进行的。相反，内存被划分为固定大小的块，称为页（pages）。一个典型的页面大小是 $4\,\text{KiB}$ 。虚拟地址空间是一系列虚拟页，而物理内存则是一系列物理页帧（frames）。虚拟内存系统的工作就是维护一本字典或映射表，说明“虚拟页X映射到物理页帧Y”。这本宏伟的字典被称为页表（page table）。

遍历：一场穿越内存的寻宝之旅

那么，这个至关重要的页表存放在哪里呢？对于一个使用 $4\,\text{KiB}$ 页面大小的64位系统来说，其虚拟地址空间是巨大的（ $2^{64}$ 字节）。一个简单的、扁平的字典若要映射数万亿个可能的页面，其大小将是天文数字，远非任何地方所能存储。

解决方案非常巧妙：我们将页表本身设计成一个多级的分层结构。不要把它想象成一本巨大的电话簿，而应看作一系列指引。要找到一个位置，你首先查阅一个区域目录（1级），它告诉你去哪里找城市目录（2级）。城市目录又指向街道目录（3级），最终才给出门牌号。

这正是页表遍历（page walk）的工作方式。虚拟地址被分成几部分，每个部分都作为页表每一级的索引或“选择”。处理器的内存管理单元（MMU）就如同一个正在寻宝的侦探。它从一个存放在特殊处理器寄存器中的单一地址开始，该地址指向1级页表的基址。

它取虚拟地址的第一部分作为索引，将其加到1级基址上，然后从内存中获取一个页表项（PTE）。
这个PTE并不包含最终答案。相反，它包含了层级结构中下一个表（即2级页表）的物理基址。
MMU接着取虚拟地址的第二部分，用它作为这个新的2级表的索引，再获取另一个PTE。
这个过程不断重复，形成一个指针跟随链，直到到达最后一级。最后一级的PTE终于包含了宝藏：数据实际所在的物理页帧号。

这个过程是间接寻址的一个绝佳范例。为了找到两级方案中最终PTE的地址，MMU必须首先读取一个内存位置以获得一个指针，然后用该指针计算最终地址。这个计算过程大致如下： $EA = [[\text{PT}_{\text{base}} + \text{index}_1 \times \text{size}]] + \text{index}_2 \times \text{size}$ 其中 [[...]] 符号表示从内存中获取一个值并将其用作下一步计算的指针。这种类似递归的结构，由速度极快的硬件实现，正是页表遍历的核心。

抽象的隐藏税

这是一种绝妙的抽象，但与计算中的所有抽象一样，它也附带着隐藏的税负。你的程序每次想要访问单个字节的内存，MMU都可能需要执行这整个多级遍历过程。

让我们来计算一下成本。想象一个没有任何缓存或其他技巧的简单系统。要执行一次内存访问，比如load R1, [address]，系统必须：

访问内存以获取1级PTE。
再次访问内存以获取2级PTE。
……依此类推，遍历页表的所有 $d$ 个层级。
只有在完成 $d$ 次内存访问之后，它才能执行最终的、真正的数据内存访问。

这意味着一次虚拟内存引用会爆炸式地增长为 $d+1$ 次物理内存引用。如果你的系统有一个四级页表（ $d=4$ ），而主内存延迟比如说为 $L=100$ 个周期，那么仅页表遍历一项就会产生 $d \times L = 400$ 个周期的开销。这是为转换付出的代价，而且是在你甚至还未接触到你的数据之前付出的。如果每次内存访问都要承受这种惩罚，我们现代的数GHz处理器将表现得如同慢动作播放。这项税负将是毁灭性的。

为转换而生的缓存：TLB来救场

我们如何避免这项沉重的税负？答案与计算机体系结构中许多其他领域拯救我们的方法相同：缓存。我们观察到程序表现出引用局部性（locality of reference）——如果一个程序访问了某个内存页，它很可能很快会再次访问同一个页。这意味着我们正在重复执行完全相同的地址转换。

因此，硬件包含一个小型、专用且速度极快的缓存，称为转译后备缓冲器（Translation Lookaside Buffer, TLB）。TLB的唯一工作就是存储近期转换的结果。它对MMU来说就像一张小小的备忘单。

现在，每次内存访问的流程变为：

首先，检查TLB。这个过程快得令人难以置信，通常耗时不到一个处理器周期。
如果转换结果在TLB中（即TLB命中），我们立即获得物理页帧号。昂贵的页表遍历被完全跳过，我们可以直接进行数据访问。
如果转换结果不在TLB中（即TLB未命中），且仅在这种情况下，我们才不得不支付税负，执行完整的、多级的页表遍历。这次遍历的结果随后会被存入TLB，以期不久后再次用到。

由于命中率通常超过99%，TLB的效果非常显著。它确保我们只在极少数情况下才支付转换税，从而使虚拟内存这一宏伟的幻象变得切实可行。

性能经济学

我们可以使用一个名为有效内存访问时间（EMAT）的指标来精确量化TLB的好处。它是命中时间和未命中时间的加权平均值。

命中时间是TLB访问时间（ $t_{TLB}$ ）加上主内存访问时间（ $t_m$ ）。
未命中时间是TLB访问时间（ $t_{TLB}$ ），加上页表遍历时间（ $t_{pw}$ ），再加上主内存访问时间（ $t_m$ ）。

如果命中率为 $h$ ，则未命中率为 $(1-h)$ 。EMAT的计算公式为： $EMAT = h \cdot (t_{TLB} + t_m) + (1-h) \cdot (t_{TLB} + t_{pw} + t_m)$

通过一些代数运算，这个公式可以简化为一个非常有洞察力的形式： $EMAT = t_{TLB} + t_m + (1-h) \cdot t_{pw}$

这个方程式讲述了一个精彩的故事。平均访问时间等于最佳情况（TLB时间 + 内存时间），外加一个惩罚项：页表遍历的成本（ $t_{pw}$ ）乘以你承担该成本的频率（未命中率， $1-h$ ）。

这揭示了一个深刻的系统设计原则。如果我们想提升性能，我们有两个杠杆：可以降低未命中率（提高 $h$ ），或者可以降低页表遍历的惩罚（ $t_{pw}$ ）。我们的性能对命中率的敏感度由导数 $\frac{\partial EMAT}{\partial h} = -t_{pw}$ 给出。这意味着提高命中率的“价值”与一次未命中所带来的痛苦程度成正比！如果页表遍历非常耗时，那么高命中率就至关重要。

在比较32位和64位系统时，这一点尤为重要。一个64位系统需要覆盖更大的地址空间，因此通常需要更深的页表（例如 $d=4$ 或 $d=5$ ），而32位系统则较浅（例如 $d=2$ ）。这直接增加了页表遍历时间 $t_{pw}$ 。即使在TLB命中率同为96%的情况下，一个64位系统的EMAT也可能明显更高，仅仅因为其罕见的未命中事件惩罚更为严厉。

深入挖掘：当遍历本身也很快时

到目前为止，我们的模型有一个小小的简化：它假设页表遍历期间的每次访问都去往缓慢的主内存。但页表本身也只是存储在内存中的数据。和任何其他数据一样，它们的条目（PTE）也可以驻留在处理器高速的L1或L2数据缓存中！

这是系统设计统一性的一个绝佳例子。正是那个加速你程序数据的缓存层次结构，也含蓄地加速了操作系统的元数据。一个更现实的页表遍历惩罚模型， $t_{pw}$ ，将不再是一个固定的 $d \times t_m$ 。相反，遍历中 $d$ 个步骤中每一步的时间本身都是一个期望值，取决于那个特定的PTE是在L1缓存、L2缓存还是主内存中找到。

如果页表上层级的PTE被频繁使用，它们往往会在L1/L2缓存中保持“热”状态。这可以使得有效的页表遍历时间显著短于最坏情况。一次详细的计算可能会显示，单个PTE访问的平均延迟仅为14个周期，而不是180个，因为它大多数时候都在缓存中命中。这极大地降低了整体的未命中惩罚，并改善了EMAT。

终极未命中：页错误

我们还有最后一个“如果”需要探讨。如果硬件尽职地完成了整个页表遍历，到达了最终的页表项，却发现一个“存在位”被设置为0，那会怎样？这个位是一个标志，它说：“转换信息存在，但你想要的页面当前并不在物理内存中。它正待在磁盘上。”

这个事件被称为页错误（page fault）。它是终极的TLB未命中。此时，硬件已经无能为力。它会放弃并触发一个陷阱（trap），这就像是为操作系统（OS）拉响警报，让它来处理这个危机。

页错误处理过程是硬件-软件协作的生动体现：

陷入操作系统：CPU保存出错程序的状态，并跳转到操作系统内核中的一个特殊例程。
验证：操作系统检查这次访问是否合法（例如，是否试图向一个只读页面写入？）。如果访问有效，则继续。
寻找页帧：操作系统在RAM中寻找一个空闲的物理页帧。如果没有空闲的，它必须选择一个牺牲页将其换出。
磁盘I/O：操作系统向磁盘控制器发出命令，从硬盘或SSD中读取所需的页面，并将其加载到选定的物理页帧中。这是迄今为止最慢的一步。在此期间，程序会被置于休眠状态。
更新页表：一旦数据从磁盘到达，操作系统就会更新页表。它将存在位设置为1，并填入正确的物理页帧号。
恢复：操作系统从陷阱中返回，恢复程序的状态，并重新启动最初导致错误的指令。

这一次，当指令被重试时，页表遍历会发现存在位为1。转换成功，并且MMU作为这次成功访问的一部分，通常会在PTE中设置另一个位，即访问位（accessed bit），以告知操作系统该页面最近被使用过。

与简单的页表遍历相比，页错误的成本是天文数字。一次遍历可能花费数百个CPU周期。而一次需要磁盘I/O的页错误（主错误，major fault）可能花费数百万个周期。对延迟成分的分析表明，对于主错误，存储I/O时间（ $T_{io}$ ）完全主导了所有其他成本，如操作系统陷阱开销或调度延迟。然而，对于次错误（minor fault）（即页面在内存中，只是未被映射，例如在写时复制场景中），没有I/O操作，主要成本变成了操作系统分配页帧的软件开销（ $T_{alloc}$ ）。在一个非常繁忙的系统上，甚至等待再次被调度运行的时间（ $T_{sched}$ ）也可能成为主导因素。

平行宇宙：架构的选择

我们所描述的页表遍历机制，即硬件在TLB未命中时自动遍历页表，是常见的（例如，在x86处理器中）。但它并非唯一的方式。一些架构，如MIPS，使用软件管理的TLB。在TLB未命中时，硬件只是陷入操作系统，然后由一个特殊的、高度优化的操作系统例程负责在软件中完成整个页表遍历，并将结果加载到TLB中。

这种设计选择改变了权衡。它赋予了操作系统更大的灵活性，但由于陷阱的开销可能会更慢。它也为不同的优化策略打开了大门。一个采用软件管理TLB的系统可能会受益于一个专用的页表遍历缓存（PWC），该缓存用于缓存页表层次结构中的中间指针；或者它可能会完全抛弃分层结构，转而采用反向页表（IPT），其功能更像一个将虚拟页映射到物理页帧的全局哈希表。比较这些设计涉及到对缓存命中率、异常开销和内存访问模式的迷人分析，揭示了在计算机体系结构这个美丽而复杂的世界里，没有单一的“最佳”解决方案，只有一系列的权衡取舍。

应用与跨学科关联

在我们迄今为止的旅程中，我们已经揭开了页表遍历这一复杂机制的神秘面纱——当转译后备缓冲器（TLB）中找不到转换条目时，硬件便会坚定地遍历页表。它是驱动虚拟内存这一宏伟幻象的引擎。但要真正领会其重要性，我们不能将其视为一个孤立的机制，而应将其看作计算这出宏大戏剧中的核心角色，其影响力从处理器核心的硅片延伸至数据中心的庞大架构，乃至网络安全的阴影世界。现在，让我们来探索这个看不见的舞蹈在现实世界中扮演的众多角色。

追求速度：驯服页表遍历

虚拟内存这一优美的抽象并非没有代价。每当TLB辜负我们时，我们都必须付出代价：一次页表遍历。这个成本以时间、内存带宽，并最终以性能来衡量。高性能计算机体系结构的艺术，在很大程度上，其实就是驯服页表遍历的艺术。

基线成本可能是惊人的。想象一个程序在内存中毫无局部性地跳转，就像一只蝗虫在一片广阔的田野上随机跳跃。如果其工作集足够大，几乎每次内存访问都会导致TLB未命中。对于每一次这样的访问，处理器都必须执行一次完整的页表遍历。在一个四级页表的系统中，这意味着需要进行四次独立的内存读取，仅仅是为了找出数据在哪里，然后才能进行第五次读取来获取数据本身。如果这些页表项不在处理器的缓存中，这个过程可能比一次简单的内存访问慢上数百倍。这是我们一直在与之抗争的原始惩罚。

我们如何反击？最有效的策略之一出奇地简单：迈更大的步子。我们可以不将内存划分为微小的 $4\,\text{KiB}$ 页面，而是使用 $2\,\text{MB}$ 甚至 $1\,\text{GB}$ 的“大页”。这样一来，TLB用相同数量的条目就可以映射一个大得多的内存区域。对于一个处理大型数据集的程序来说，这可能意味着TLB从只能覆盖其内存的一小部分，变为能覆盖其全部。更高的“TLB覆盖范围”意味着TLB未命中次数的大幅减少，从而也意味着更少的页表遍历。仅此一项改变就能大幅削减地址转换所消耗的带宽，将内存总线解放出来，去做它真正的本职工作：移动数据。

即使TLB未命中不可避免，遍历过程本身也可以被优化。想象一下在城市里穿行。如果你需要访问同一街区的几个地址，你不会每次都回到市中心去问路。同样，当程序顺序访问内存时，连续的页表遍历会经过相同的上层页表。处理器可以利用这一点，通过一个页表遍历缓存（PWC），这是一个小型的专用缓存，用于记住穿越页表层级结构上层的路径。对于顺序工作负载，PWC几乎可以立即提供下层页表的地址，只留下遍历的最后一步需要从主内存中获取。然而，对于随机访问模式，这个缓存就没什么用了，因为每次遍历都会开辟一条新路线。这在软件行为和硬件性能之间建立了一个有趣的联系：算法的访问模式可以直接影响其地址转换的效率，这种差异通过PWC变得具体可感。

认识到页表遍历的关键作用，架构师们甚至考虑过将其提升为指令集架构（ISA）中的一等公民。我们可以想象一个专门的指令，姑且称之为PTWASSIST，它告诉硬件：“我将需要转换这个地址；现在就将整个遍历过程作为单个原子操作为我完成。”在专用微码和缓存的支持下，这样的指令执行遍历的效率会远高于一系列通用的内存加载指令，这表明页表遍历是如此基础，以至于可以被直接铭刻在机器的语言中。

在大数据时代，工作负载常常涉及在庞大的图结构中追逐指针。此时，多个独立的任务可以同时活跃。现代处理器可以利用内存级并行（Memory-Level Parallelism）来处理这种情况，类似的思想也可以应用于地址转换。通过为CPU配备多个并行的页表遍历引擎，系统可以同时处理多个TLB未命中。一个流的页表遍历延迟可以被另一个流的数据获取所掩盖。这就像有一组图书管理员同时去取一本书的不同章节；获取所有信息的总时间远少于一个图书管理员按顺序完成所有工作的总时间。其目标是完美平衡“转换工作”与“数据工作”，确保页表遍历引擎的性能恰好足够为数据流水线提供支持，而自身不成为瓶颈。

普适原理：CPU之外的页表遍历

地址转换的概念是如此强大，以至于它不仅限于CPU。整个系统都从中受益。考虑一个需要使用直接内存访问（DMA）直接与内存进行数据传输的网卡或图形处理器。如果没有虚拟内存，操作系统将不得不给它一个原始的物理地址。这是危险的——一个有缺陷的驱动程序或一个恶意的设备可能会覆写系统内存的任何部分。

解决方案是输入输出内存管理单元（IOMMU）。IOMMU位于I/O设备和主内存之间，为它们充当转换代理。它为每个设备提供自己的虚拟地址空间，就像CPU的MMU为进程所做的那样。那么，它如何转换这些设备虚拟地址呢？通过它自己的TLB（一个IOTLB），以及在未命中时，通过它自己的硬件驱动的页表遍历，遍历IOMMU专用的页表。这将虚拟内存的安全性和灵活性扩展到了整个系统，确保行为不端的显卡不会涂抹内核的内存。页表遍历再次扮演了守门人的角色。

这种普适性指向了未来。在下一代“解耦式”数据中心中，计算、内存和存储可能不再位于同一个服务器机箱内。相反，它们可能成为独立的资源池，通过高速网络连接在一起。在这种世界里，页表遍历会发生什么？如果页表位于远程内存池中，一次页表遍历将需要多次极其缓慢的网络往返。一次三级遍历将意味着仅为转换就需要三次网络往返，然后是第四次用于获取数据。延迟将是灾难性的。在这种背景下，TLB从一个单纯的性能优化转变为架构的绝对支柱。高TLB命中率成为使解耦式内存这一整个概念变得哪怕只有一丝可行的关键要素，因为每一次命中都节省了一连串代价高昂的远程事务。

双刃剑：虚拟化与安全

页表遍历的深远影响在虚拟化和安全领域表现得最为淋漓尽致，它既是令人烦恼的开销来源，也是强大的执行工具。

虚拟化创造了一个“世界中的世界”。一个客户机操作系统相信它正在控制一台拥有真实物理地址的真实机器。但这些“客户机物理地址”本身只是另一层抽象。主机虚拟机监视器必须将它们转换为机器RAM的真正“主机物理地址”。这种二维转换通常由硬件通过嵌套页表来加速。

在虚拟机内部发生TLB未命中时会发生什么？硬件开始一次正常的页表遍历，遍历客户机的页表。但这里有一个陷阱。客户机页表中的每一个条目都位于一个客户机物理地址上。为了获取它，硬件必须首先转换那个地址。这会触发第二次完整的页表遍历，遍历主机的嵌套页表。客户机页表遍历的每一步都会发生这种情况。结果是一场性能噩梦：TLB未命中的成本不是与页表的深度 $d$ 成正比，而是与其平方 $d^2$ 成正比。这种二次方成本是硬件辅助虚拟化的基本开销之一，是页表遍历递归性质直接而痛苦的后果。

然而，这种复杂的机制可以被巧妙地重新用于安全目的。我们如何能在一台计算机内部创建一个安全的“飞地”（enclave），一个受保护的代码和数据空间，即使是恶意的操作系统或虚拟机监视器也无法触及？页表遍历提供了一个关键。我们可以设计处理器，为飞地内存使用一个特殊的、第三级地址转换，由安全硬件控制。通过向嵌套页表遍历中添加一个或多个只有处理器自身逻辑才能访问的专属层级，我们可以创建一个虚拟机监视器可以被指示去分配，但永远无法直接读取或写入的内存空间。页表遍历变成了一道由硬件强制执行的堡垒墙。当然，这种安全的代价是性能：每次访问飞地现在都需要一次更深、更昂贵的页表遍历。

但是，页表遍历作为安全特性和性能优化的双重性质，使其成为一个诱人的攻击目标。那些为加速转换而设计的页表遍历缓存（PWC）本身，可能成为信息泄露的漏水龙头。如果一个受害者进程和一个攻击者进程在同一个核心上运行，它们会共享PWC。攻击者可以小心地用自己的页表项“预热”缓存，让受害者执行，然后通过计时自己的访问来“探测”。如果现在一次访问变慢了，攻击者就知道受害者的页表遍历肯定驱逐了它的条目，从而泄露了关于受害者内存访问模式的信息。这是一个经典的侧信道攻击。解决方法是什么？对缓存进行分区。通过为每个缓存条目打上每个进程唯一的地址空间标识符（ASID）标签，硬件可以确保一个进程无法命中或甚至感知到另一个进程的缓存条目。这优雅地切断了秘密信道，以少量存储开销为代价，恢复了被共享缓存破坏的隔离性。

从一个实现抽象的简单机制开始，页表遍历已经演变。它是一个性能杠杆，一个全系统的安全执行者，虚拟化世界中的瓶颈，以及攻击者与防御者的战场。它证明了当简单而强大的思想层层叠加时，会涌现出何等美妙的复杂性。页表遍历这支看不见的舞蹈，实际上正是现代计算机的脉搏。