页面置换策略

玻尔百科

定义

页面置换策略是操作系统中用于在发生缺页中断时决定剔除哪个内存页面以腾出空间的算法。该领域包含会导致贝莱迪异常的先进先出（FIFO）算法，以及能够确保性能随内存增加而提升的最近最少使用（LRU）等栈算法。为了防止系统进入颠簸状态，现代操作系统常采用时钟算法（CLOCK）等高效手段来近似实现 LRU，利用引用位为最近访问的页面提供第二次机会。

核心要点

页面置换策略是一种操作系统算法，用于在发生缺页时决定淘汰哪个内存页面，以便为新页面腾出空间。
像 First-In, First-Out (FIFO) 这样的简单策略可能会遭受 Belady 异常的影响，这是一种反直觉的现象，即更多内存反而导致更多缺页。
栈算法，如理论上的 Optimal (OPT) 和实践中的 Least Recently Used (LRU)，保证了性能永远不会随着内存大小的增加而下降。
CLOCK 算法是 LRU 的一种高效、广泛使用的近似实现，它使用一个引用位来给予最近使用的页面在被淘汰前“第二次机会”。
颠簸（Thrashing）是一种灾难性状态，此时系统将所有时间都花费在交换页面上。当一个进程所需的内存（其工作集）超过其分配的内存时，就会发生这种情况。

引言

在现代计算机中，高速的主存（RAM）是一种稀缺而宝贵的资源，它就像是相对于硬盘这个巨大仓库而言的一个小型工作台。每当系统需要的数据当前不在这个工作台上时，就会产生一次代价高昂的延迟，称为缺页（page fault）。为了给新数据腾出空间，必须淘汰一个现有页面。选择移除哪个页面的策略被称为页面置换策略，这一决策对整个操作系统的性能和稳定性至关重要。这个选择远非易事，因为看似直观的策略可能导致自相矛盾的糟糕结果，而最优策略在实践中又无法实现。本文旨在通过探讨支配内存管理的核心逻辑，来弥合理论与现实之间的差距。

本文首先深入探讨页面置换的“原理与机制”，从像 FIFO 这样简单但有缺陷的算法及其可能产生的奇异 Belady 异常开始。然后，文章通过 Optimal 算法树立了理论上的黄金标准，并揭示了区分可预测算法与混乱算法的统一“栈属性”。最后，文章考察了为现实世界系统提供动力的实用、高效的近似算法，如 CLOCK。随后，“应用与跨学科联系”部分揭示了这些原理如何远远超出操作系统内核的范畴，影响着从系统安全、CPU 架构到大规模数据处理算法设计的方方面面。

原理与机制

想象一下，你计算机的内存是一个巨大仓库中的小工作台。仓库是你的硬盘，存有数TB的数据和程序。你的工作台，即主存（RAM），是实际工作的地方，但相比之下它非常小。当你需要一个不在工作台上的工具或信息时，你必须停下手中的活儿，走进仓库，找到它，然后带回来。在计算中，这次代价高昂的行程被称为缺页（page fault）。“页面”（page）只是一个固定大小的数据块，就像一个用于存放工具的标准化盒子。

困境是显而易见的：工作台总是满的。要从仓库取来一个新工具（页面），你必须先通过送回一个旧工具来清理出一些空间。关键问题是：送回哪一个？做出这一选择的策略被称为页面置換策略。这一决策位于现代操作系统如何管理其最宝贵资源——快速但有限的内存——的核心。

最简单的想法：First-In, First-Out (FIFO)

让我们从最直接的方法开始，一个普通人可能会当场想出的方法：First-In, First-Out (FIFO)，即先进先出。规则很简单：在工作台上停留时间最长的页面最先被淘汰。它是“最老”的居民。这个策略有种公平感，而且实现起来非常简单。你可以想象内存帧排列成一个圆圈，像一个旋转的传送带。当一个新页面到达时，它会取代在传送带上停留时间最长的那个页面的位置，然后传送带转动一个位置。最老的页面总是在最前面，随时准备被推出去。

这似乎完全合理。在很多情况下，它工作得很好。但 lurking 在这种优雅的简单性之中的是一个令人惊讶且极度反直觉的缺陷。

一个令人惊讶的缺陷：当更多反而更糟

问自己一个简单的问题：如果你得到一个更大的工作台（更多的内存帧），你应该需要更少次地往返仓库，对吗？有了更多空间，你可以把更多的工具放在手边，所以你的缺页率应该总是下降。这似乎像万有引力定律一样确定无疑。然而，对于 FIFO 来说，这显然是错误的。

这种奇异的现象被称为 Belady 异常。对于某些特定的页面请求序列，给予系统更多的内存可能导致更多的缺页。这怎么可能呢？问题在于 FIFO 对“什么是旧的”的记忆只与加载时间有关，而与使用情况无关。更大的内存容量可能会改变淘汰序列，导致你很快会需要的页面被淘汰，而如果内存较小，它反而可能幸存下来。

考虑在有3个帧的情况下这个页面请求序列： $\langle 1, 2, 3, 4, 1, 2, 5, 1, 2, 3, 4, 5 \rangle$ 。仔细追踪会发现它导致了9次缺页。现在，用4个帧试试。缺页次数跃升至10次！更大的内存通过改变淘汰节奏，恰好在错误的时机踢出了页面，导致性能更差。FIFO 尽管简单，但根本上是不可预测的。它缺乏一种确保“越多越好”的属性。这一发现告诉我们，在复杂的算法世界里，我们的直覺可能是一个糟糕的向导，背后有更深层次的原理在起作用。

对完美的追求：Optimal 算法

如果 FIFO 有缺陷，那么一个完美的算法会怎么做？让我们想象我们有一个可以预知未来的水晶球。当我们需要淘汰一个页面时，我们可以查看水晶球，看看当前内存中的每个页面下一次将在什么时候被需要。那么，完美的策略就是淘汰那个下一次使用时间在最遥远未来的页面。这就是 Optimal (OPT) 算法。

当然，我们无法在真实系统中构建这样的算法，因为没有操作系统能够预测未来。然而，OPT 并非毫无用处。它是一个至关重要的理论基准。通过在一段记录下来的引用序列上模拟 OPT，我们可以确定该工作负载下可能的最少缺页次数。这给了我们一把标尺，用以衡量我们所有现实世界中的实用算法。如果我们的算法实现了15%的缺页率，而 OPT 实现了10%，我们就知道还有改进的空间。如果我们达到了11%，那我们已经做得非常出色了。

至关重要的是，OPT 不会遭受 Belady 异常的影响。更多的内存总是对它有帮助。这就引出了一个问题：OPT 拥有而 FIFO 缺乏的秘密属性是什么？

统一原则：栈属性

区分像 OPT 这样“行为良好”的算法和像 FIFO 这样“不可预测”的算法的深层原理被称为包含属性（inclusion property），或更常见的栈属性（stack property）。拥有此属性的算法被称为栈算法。

其思想是：在任何时间点，如果你观察一个算法在有 $n$ 个帧的情况下会保留在内存中的页面集合（我们称之为 $C_n$ ），以及它在有 $n+1$ 个帧的情况下会保留的集合 $C_{n+1}$ ，栈属性保证了第一个集合是第二个集合的子集： $C_n \subseteq C_{n+1}$ 。用我们的工作台类比来说，这意味着如果你得到一个更大的工作台，它将能容纳小工作台上的所有工具，外加一个额外的工具。小工作台上的任何东西都不会被移除。

这个属性直接禁止了 Belady 异常。如果一个页面引用在有 $n$ 个帧时是“命中”（页面已在内存中），那么它在有 $n+1$ 个帧时也必须是命中，因为较小内存的内容是较大内存内容的子集。因此，随着内存大小的增加，缺页次数只能减少或保持不变。

那么，为什么 OPT 和其他一些算法是“栈算法”呢？这是因为它们的淘汰决策基于一个独立于可用帧数的页面排序。对于 OPT 而言，排序依据是“距离下次使用的时间”。对于另一个著名的栈算法 Least Recently Used (LRU) 来说，排序依据是“距离上次使用的时间”。LRU 是 OPT 的实践对应物。OPT 展望未来，而 LRU 回顾过去。它的策略是：淘汰最近最少使用的页面。这是基于引用局部性（locality of reference）原理，这是计算机性能的基石：最近使用过的页面很可能很快会再次被使用。

另一方面，FIFO 不是一个栈算法。它的“排序”基于加载时间，而加载时间又取决于缺页的序列，缺页序列又取决于帧的数量。这种依赖性是其混乱行为的根源。

从理论到实践：用 CLOCK 算法近似 LRU

LRU 是一个优美的算法，但完美地实现它通常代价太高。它需要特殊的硬件来为每一次对每个页面的内存访问维护一个精确的时间戳。因此，在实践中，操作系统使用一种巧妙而高效的 LRU 近似算法，称为 CLOCK 算法。

想象一下所有的物理页面帧都排成一个圆圈，就像一个时钟的表盘。一个指针，即“时钟指针”，在它们上面扫过。每个页面都有一个额外的信息位：一个引用位。每当一个页面被访问（读取或写入），硬件会自动将其引用位设置为 $1$ 。

当发生缺页并且必须选择一个牺牲者时，时钟指针开始扫描。如果它指向一个引用位为 $1$ 的页面，这意味着该页面最近被使用过。算法会给它一个“第二次机会”：它将该位翻转为 $0$ 并将指针移到下一个页面。如果它发现一个页面的位已经是 $0$ ，这意味着自从指针上次扫过以来该页面没有被触碰过。这就是我们的牺牲者。它被淘汰，新页面被放入其位置，其引用位设置为 $1$ ，并且指针前进。

这个简单的机制出色地近似了 LRU。一个频繁使用的页面几乎总是其引用位被设置为 $1$ ，并且能在时钟指针的多次扫描中幸存下来。一个旧的、未使用的页面，其引用位会被清除为 $0$ ，并很快成为淘汰的目标。我们甚至可以对此进行概率分析，在实践中，时钟指针的速度是一个可调参数。例如，操作系统可以根据当前的缺页率调整扫描速度：较高的缺页率可能会触发更快的扫描以积极回收内存，而较低的缺页率则允许更温和、更慢的扫描。这优雅地将操作系统的一个高级调优参数与它运行的程序的低级行为联系起来。

现实世界是 messy 的：高级时钟和脏页面

当我们考虑到并非所有页面淘汰的代价都相等时，我们的模型变得更加复杂，也更加 현실。如果一个页面被读取但未被修改，我们可以简单地丢弃其内容。但如果一个页面被写入过——即它是“脏”的——我们必须先将其内容保存回硬盘，然后才能重用它的帧。这个写操作非常慢。

为了处理这个问题，实际系统使用一种增强型 CLOCK 算法，该算法考虑每个页面的两个位：引用位（ $R$ ）和一个修改位（ $M$ ，或称“脏位”），硬件在任何写操作时都会将其设置为 $1$ 。该算法现在有四类页面 (R, M)，并有一个强烈的淘汰顺序偏好：

$(0, 0)$ : 最近未使用，且干净。（理想的牺牲者）
$(0, 1)$ : 最近未使用，但脏。（尚可的牺牲者，但需要一次写操作）
$(1, 0)$ : 最近使用，且干净。（可能很快需要）
$(1, 1)$ : 最近使用，且脏。（最差的牺牲者）

时钟指针可能会进行多次扫描：第一次寻找一个 $(0,0)$ 页面，如果没找到，第二次扫描寻找一个 $(0,1)$ 页面，以此类推。这个简单的补充使算法变得更加智能，因为它拼命试图避免写入磁盘的成本。这也揭示了操作系统设计的艺术。有时一个页面是“语义上脏的”——例如，一个没有后备文件的匿名内存页面，如果被淘汰必须保存到交换区——即使硬件 $M$ 位是 $0$ 。一个聪明的操作系统可能会主动设置 $M$ 位，对置换算法“撒谎”，从而正确地表明淘汰此页面代价高昂，应该避免 [@problem_d:3655896]。

房间里的大象：颠簸（Thrashing）

到目前为止，我们一直表现得好像一个好的算法总能解决问题。但是，如果一个进程的需求从根本上超过了它所获得的资源，会发生什么？如果你是一个学生，试图写一篇需要同时打开10本不同书籍的研究论文，但你的桌子上只允许放4本书，会怎么样？

结果是一场名为颠簸（thrashing）的灾难。系统进入一个恶性循环：为了访问页面A，它必须淘汰页面B。片刻之后，它需要页面B，于是淘汰页面C。然后它需要页面C，又淘汰了页面D，而页面D马上就要用到。缺页率飙升至 $1.0$ ，意味着几乎每次内存访问都会导致一次缓慢的硬盘之旅。系统把所有的时间都花在了交换页面上，几乎没有做任何有用的计算。

在这种状态下，选择哪种算法几乎无关紧要。对于一个循环访问的页面数超过可用帧数的工作负载，即使是像 LRU 和 CLOCK 这样的“好”算法也会发生颠簸，因为它们尽职地淘汰了那个保证在几步之后就会被需要的页面。矛盾的是，像随机置换这样“更笨”的算法可能会表现得稍微好一些，因为它的随机选择可能意外地打破这种病态循环。颠簸是一个信号，表明一个进程的工作集（working set）——即它为取得合理进展所需的一组页面——无法装入分配给它的物理内存中。

控制这头野兽：系统层面的视角

颠簸表明页面置换并非故事的全部。它是在分配给单个进程的内存内运行的局部策略。但是，如果整个系统因为太多进程争夺有限的全局内存池而发生颠簸，该怎么办？

解决方案必须是全局性的。当操作系统检测到系统范围内的缺页率 catastrophically 高（超过某个阈值 $\theta$ ）时，它必须进行干预。它无法创造更多内存，但可以更有效地重新分配内存。主要策略是降低多道程序设计级别——也就是说，暂时挂起一个或多个进程。

通过挂起一个进程，操作系统回收了分配给它的所有内存帧。这些被释放的帧随后可以分配给其余的活动进程。有了更多的内存，这些剩余进程的工作集现在可能能够装下，它们各自的缺页率将大幅下降，系统可以摆脱颠簸的螺旋，恢复到高效的工作状态。

这是一个深刻的最后一课。页面置换算法——FIFO、LRU、CLOCK——的复杂舞蹈是关于局部优化的。但确保系统稳定性是一个更高层次的准入控制和负载均衡问题。世界上最美的算法也无法拯救一个承诺了超出其拥有内存的系统。真正的性能来自于一个整体的设计，从 CLOCK 算法的巧妙位操作，一直到进程调度器决定谁可以运行、谁必须等待的智慧。

应用与跨学科联系

在经历了页面置换的原理和机制之旅后，人们可能很容易将这些知识归档为操作系统工程中一个巧妙但深奥的细节。但这样做就只见树木，不见森林了！在空间有限的情况下，决定保留什么、丢弃什么的问题，并非某个晦涩的技术细节；它是计算中，乃至生活中，最基本和普遍的挑战之一。我们所发展的思想并不仅限于内核；它们回响在高性能硬件的设计、数字安全 Safeguards 以及驱动我们世界的算法结构之中。看到这一点，就能领会计算原理的深刻统一性。

操作系统：一位 juggling 大师

让我们从起点重新开始，但用新的眼光看待。操作系统就像一个 juggling 大师，同时保持几十个程序运行，每个程序都在要求自己的内存份额。当内存紧张时，这位大师会让哪个球暂时落下？这不是一个随机的选择。一个理想的、具有远见的 juggling 大师会暂时放下那个在最长时间内都不会再被需要的球。这正是 Optimal (OPT) 算法的智慧所在。

想象一下几个流媒体应用同时运行：一个处理视频，另一个处理文件传输，第三个执行不频繁的后台签到。如果系统面临压力，OPT 会直觉地知道要“溢出”属于后台任务的页面，因为它的下一次访问在遥远的未来，同时将宝贵的内存專用于保持视频和文件传输流的顺畅。这不仅仅是为了最小化缺页；这是基于预测的需求智能地分配资源，这一原则是调度和资源管理的核心。

当然，没有哪个真实系统有完美的预见能力。但这个理想给了我们一个衡量标准。它也帮助我们理解游戏的基本规则。对于任何程序，我们都可以定义其“工作集”——它在短时间窗口内活跃使用的一组页面。一个优美而简单的真理浮现出来：如果一个程序的工作集大小 $|W(t)|$ 大于分配给它的物理帧数 $k$ ，那么无论页面置換算法多么聪明，都无法避免缺页。事实上，它在该时间窗口内必须至少产生 $|W(t)| - k$ 次缺页。这是一个基本的容量限制，是内存系统的自然法则。你根本无法将十升水装入一个五升的桶中。

当系统的其他部分提出要求时，这个 juggling 表演变得更加复杂。考虑一个使用直接内存访问（DMA）的高速磁盘驱动器。为了确保磁盘可以在没有干扰的情况下写入数据，操作系统必须“钉住”所涉及的内存页面，使它们没有资格被淘汰。假设我们钉住了 $x$ 个页面。突然之间，我们可管理的内存池从 $F$ 帧缩小到 $F - x$ 。如果所有运行程序的总工作集 $W$ 刚好能装入 $F$ 中，那么现在它可能会悲剧性地超过可用的 $F - x$ 帧。结果呢？系统开始颠簸，疯狂地换入换出页面，因为每个进程都在争夺一块现在变得太小的蛋糕。这是一个经典的例子，说明了局部优化——加速 I/O——如何导致全局系统灾难，这是复杂系统相互关联性的有力教训。

机器中的幽灵：安全与信息泄露

到目前为止，我们一直将页面置换视为一场性能游戏。但如果这场游戏关乎秘密呢？同样的内存 juggling 机制可以被颠覆以泄露信息，创建破坏安全的“侧信道”。

想象一个攻击者进程与一个受害者进程共享一台机器。如果操作系统使用全局置换策略，所有的内存帧都在一个大池子里。当受害者进入高活动阶段（比如说，处理敏感数据）时，其工作集会扩展。它开始接触更多的页面，将它们标记为“最近使用”。在内存竞争中，攻击者那些不太活跃的页面会开始显得“更旧”，成为淘汰的首选对象。攻击者可以检测到这一点！通过简单地监控它自己的缺页率，它可以观察到一个峰值，并推断出受害者正忙 [@problemid:3645340]。缺页率变成了一种摩尔斯电码，敲打出受害者的秘密活动。

我们如何阻止这一切？通过建墙。局部分配策略为每个进程提供固定的内存配额。攻击者的缺页现在只取决于它自己在其沙盒内的行为。受害者产生的涟漪被限制在它自己的池塘里。这种分配策略的选择，看似只是一个调优参数，实际上是一个关键的安全决策。故事变得更加直接。如果一个程序将一个秘密密钥解密到一个内存缓冲区中呢？如果操作系统面临压力，它可能会天真地认为这个缓冲页面在几毫秒内没有被使用过，并将其换出到磁盘以腾出空间。如果交换文件未加密，你的主密钥现在就以明文形式躺在硬盘上！。解决方案是给应用程序一种方式告诉操作系统：“这个页面是特殊的。它的置换策略是：永不淘汰。”将页面锁定在内存中的机制是这一思想的直接而重要的应用，提供了安全所需的确定性保证。

一个普适的缓存与预测原则

这个主题的美妙之处在于它超越了操作系统。管理一个小的、快速的存储区域（缓存）以服务于一个大的、慢速的存储区域的问题是普遍存在的。例如，你的网页浏览器正在缓存标签页。当你打开太多标签页时，你关闭哪一个？原则是相同的。LRU 策略会建议关闭你最长时间没有看过的标签页。相比之下，MRU (Most Recently Used) 策略会关闭你刚刚看过的标签页——对于这种工作负载来说，这是一种顯然荒謬的策略，这表明策略的选择深深地依赖于访问模式。

这个原则一直延伸到 CPU 的微体系结构核心。现代处理器使用推测执行：它们猜测程序将走哪条路径，并提前执行指令以保持繁忙。这涉及到获取数据，从而获取页面。如果猜测错误怎么办？CPU 会丢弃计算结果，但内存系统已经看到了页面请求。这些由一个虚构的执行路径引用的“幽灵”页面，在真实的程序流程中将永远不会再被使用。我们理想的 OPT 算法会如何处理这个？凭借其完美的预见能力，它会看到这些页面的下一次使用距离是无限远。当正确路径上发生真正的缺页时，OPT 会立即选择淘汰这些幽灵页面中的一个，从而清除系统中 speculative execution 留下的短暂产物。这是对该算法逻辑纯粹性的一个完美展示。

这个原则甚至指导我们如何设计大规模算法。考虑对一个大小为数 GB 的文件进行排序——这个文件太大，无法放入内存。一个“外部归并排序”算法通过对数据进行多次遍历来工作。它的设计是缺页友好的。在每次遍历中，它读取长的、连续的数据段，并使用一个小的、内存中的数据结构（比如一个堆）来决定合并顺序。一个好的置换策略（即使是像 LRU 这样简单的策略）会很快学习到堆页面被持续使用，而数据段页面只被使用一次，然后很长时间内不会再用。它会自然地将堆保留在内存中，并通过少量缓冲区循环使用数据段页面。算法的设计者和操作系统的内存管理器是合作伙伴，共同努力来驯服这项艰巨的任务。

从一台单核机器因突发的临时互联网文件污染其 LRU 缓存而变慢的平凡问题，到操作系统如何与程序的同步原语（如 barrier）合作以更好地预测未来的抽象之美，主题都是相同的。遗忘的艺术与记忆的艺术同等重要。我们用来做出这一选择的策略不仅仅是晦涩的细节；它们是逻辑和预测的根本体现，对整个计算领域的性能、安全和设计都产生深远影响。