遗忘的智慧：最近最少使用 (LRU) 算法深度解析

玻尔百科

定义

遗忘的智慧：最近最少使用 (LRU) 算法深度解析指的是一种通过移除最长时间未被访问的数据项来优化性能的缓存策略，该策略的核心在于利用空间与时间局部性原理。在计算机科学领域，LRU 算法通常结合哈希表与双向链表来实现常数级的时间复杂度操作。作为一种典型的栈算法，它能够有效规避贝莱迪异常（Belady's Anomaly），并在 CPU 缓存、浏览器及数据库等多种场景中得到广泛应用。

关键要点

最近最少使用 (LRU) 策略利用时间局部性原理，通过淘汰最长时间未被使用的项来提高性能。
一个高效的 LRU 缓存结合了用于实现即时查找 ( $O(1)$ ) 的哈希表和用于实现即时重排序 ( $O(1)$ ) 的双向链表。
LRU 是一种“栈算法”，不受 Belady 异常的影响，确保了增加缓存大小绝不会使其命中率恶化。
尽管 LRU 非常有效，但在循环访问模式下可能会遭受“抖动”之苦。其原理被广泛应用于从 CPU 缓存到 Web 浏览器和数据库的各个领域。

引言

在计算世界中，速度为王。然而，最快的存储器总是最有限的，这就产生了一个根本性的两难困境：我们如何最大限度地利用一个宝贵而狭小的空间？每当计算机需要获取数据时，它都面临一个选择——是保留手头已有的，还是为新数据腾出空间。这个决策由缓存替换策略来管理，而在所有构想出的策略中，最近最少使用 (LRU) 算法是最高效、最优雅的策略之一。这是一条简单的规则，却带来了深远的影响，一个基于对时间和注意力本质的预判而构建的策略。

本文深入探讨了 LRU 的精妙之处，探索了为什么“丢弃最旧的”这样一个简单的原则会如此强大。我们将从该算法的理论基础出发，一直到它在现实世界中的影响。在第一部分“原理与机制”中，我们将剖析 LRU 的工作方式，审视赋予其生命的巧妙数据结构，将其与竞争对手进行比较，并揭示使其如此可靠的优美数学特性。随后，在“应用与跨学科联系”中，我们将看到这个单一思想如何超越其在内存管理中的起源，影响着从操作系统设计、科学计算到预测社交网络用户行为的概率模型的方方面面。准备好，来发现遗忘中蕴含的惊人智慧吧。

原理与机制

内存游戏：为何我们需要策略

想象一下，你计算机的处理器是一位在繁忙厨房里的大厨。他需要食材——也就是数据——来烹饪出你在屏幕上看到的结果。一些食材就在他面前的操作台上，这个区域我们称之为缓存，它小而超快。其他食材则存放在大厅尽头的一个巨大食品储藏室里，即主存，它空间广阔但访问速度要慢得多。大厨可以闪电般地工作，但前提是食材都在操作台上。每一次去储藏室取食材都是一次痛苦的延迟。

因此，这场游戏的关键在于成为一名优秀的厨房助理。我们必须预测大厨接下来需要哪些食材，并确保在需要它们之前就把它们放到操作台上。然而，操作台很小。如果大厨需要一种新食材而操作台已满，我们就必须做出选择：把现有的哪种食材放回储藏室以腾出空间？

这个选择由替换策略决定。一个糟糕的策略就像是不断地把盐和胡椒收起来，导致大厨每次都需要等待最常用的调味品。一个好的策略则会将最有用的物品放在手边。最近最少使用 (LRU) 策略是为这场游戏设计的有史以来最优雅、最高效的策略之一。

局部性原理：基于历史的博弈

在缓存游戏中，什么才是一个好的赌注？我们无法确切地知道未来。最优策略需要知道整个未来的请求序列，如同神谕一般。但我们没有神谕。所以，我们采取次优选择：审视最近的过去。

LRU 的逻辑植根于一个关于程序行为的基本观察，即局部性原理。该原理有两个主要方面，但对 LRU 而言，其中一个至关重要：

时间局部性： 如果你刚刚使用了一个项目，你很可能很快会再次使用它。想想你自己的办公桌。你刚用过的笔、正在书写的纸、正在参考的书——它们都放在近处，因为你很可能在接下来的几分钟内再次需要它们。你不会在写了一个字之后就把笔放回房间另一头的抽屉里。

LRU 将这种直觉形式化为一条简单而强大的规则：当需要腾出空间时，淘汰最长时间未被使用的项。 这是一种预判：如果某样东西已经有一段时间没被需要，那么它在不久的将来被需要的可能性，要小于刚刚还在使用的东西。

完美机器：如何构建一个 LRU 缓存

这个规则听起来简单，但要高效地实现它，却是数据结构设计的杰作。我们面临两个相互冲突的需求，而且都必须瞬间完成（理想情况下，在常数时间，即 $O(1)$ 内）：

快速查找： 当处理器请求一个项时，我们必须能立即知道它是否在缓存中以及它的位置。
快速重排序： 我们需要维护一个完整的访问时间历史，以找到“最近最少使用”的项，并能立即将被访问的项提升为“最近最多使用”。

一个简单的列表适合排序，但查找性能很差（你必须扫描整个列表）。一个标准的哈希表擅长查找，但没有顺序感。解决方案是将两者结合起来，形成一种优美的共生关系。

想象一下，缓存是一个特殊的书架。为了能即时找到任何一本书，我们有一个卡片目录（一个哈希表）。每张卡片上都有书名（键）和一个神奇的指针，能直接带你到那本书在书架上的物理位置。这解决了快速查找的问题。

书架本身是一个双向链表。这不是一个普通的书架；每本书都与它左边和右边的书相连。这种结构使得奇迹般的重组成为可能。当你访问一本书时，你使用卡片目录即时找到它。然后，你告诉这本书：“松开你的邻居，飞到书架的最前面去。” 因为它是双向链接的，将它解开并重新挂在最前面只需要改变几个指针——无论书架上有多少本书，这个操作都花费常数时间。

书架的前端是我们的“最近最多使用”端，后端是“最近最少使用”端。

执行 get 操作时： 我们用哈希表找到该项，将其移动到列表的前端，然后返回它。
执行 put 操作时： 如果该项是新的且缓存已满，我们只需丢弃列表最末尾的项（LRU 项），并将新项添加到前端。

哈希表和双向链表的结合让我们两全其美： $O(1)$ 的查找和 $O(1)$ 的重排序。当然，这种优雅是有代价的——链表中的指针和哈希表本身都需要额外的内存，超出了存储数据本身所需的空间。LRU 及其更简单的近亲 FIFO 都需要为大小为 $K$ 的缓存提供额外的 $\Theta(K)$ 空间，尽管 LRU 的常数因子略大，因为每个项需要两个指针而不是一个。

智慧的对决：LRU 与竞争者们

LRU 的策略究竟有多“聪明”？最好的方法是让它与其他策略一较高下。

LRU vs. FIFO (先进先出)

FIFO 是最简单的策略：“先进先出”。它就像一个结账队伍；第一个进来的人第一个离开，无论中间发生了什么。为了看出区别，让我们用一个博物馆的比喻。一个博物馆有 $C$ 个展位（缓存容量）。有 $C-1$ 个经久不衰的热门展品（比如《蒙娜丽莎》），以及每天都有一个新的轮换展品。

FIFO 的策略： 热门展品被装入。然后第一个新展品到达，踢掉了最旧的热门展品。那些来看这件经典作品的参观者现在失望了。第二天，另一个新展品到达，又踢掉了下一个最旧的热门作品。很快，FIFO 造成了一种局面，它不断地循环淘汰人们真正想看的展品。它的命中率直线下降，因为它对受欢迎程度（最近使用情况）视而不见。
LRU 的策略： 热门展品被装入。由于参观者每天都会访问它们，LRU 将它们标记为“最近使用”。当一个新的每日展品到达时，LRU 寻找最近最少使用的项。是哪个呢？是前一天的轮换展品，已经没人再问津了！LRU 明智地淘汰了旧的临时展品，并保留了所有热门的经典作品。它适应了访问模式，为热门项目实现了近乎完美的命中率。

LRU vs. MRU (最近最多使用)

MRU 策略似乎很荒谬：“当你需要空间时，扔掉最新的东西。” 为什么这会是个好主意？对于一种非常特殊且相当奇怪的访问模式，它却是完美的策略：对刚好大于缓存的数据进行循环扫描。

想象你有一个大小为 $k=3$ 的缓存，并且你以一个重复循环的方式访问项目： $\langle 1, 2, 3, 4, 1, 2, 3, 4, \dots \rangle$ 。

LRU 的命运： 缓存填满了 $\{1, 2, 3\}$ 。下一个请求是 $4$ 。LRU 淘汰了最近最少使用的项： $1$ 。缓存变成了 $\{2, 3, 4\}$ 。紧接着的下一个请求是... $1$ ！这是一次未命中。LRU 淘汰了 $2$ 。缓存现在是 $\{3, 4, 1\}$ 。下一个请求是 $2$ ——又是一次未命中。LRU 永远都慢一步，淘汰的恰恰是它接下来需要的项。这是一场彻头彻尾的灾难，一种被称为抖动的现象。
MRU 的惊人胜利： 缓存填满了 $\{1, 2, 3\}$ 。对 $4$ 的请求来了。MRU 淘汰了最近使用的项： $3$ 。缓存变成了 $\{1, 2, 4\}$ 。现在，序列继续请求 $1$ 和 $2$ 。两者都是命中！MRU 通过扔掉那个下次使用距离最远的项，打破了抖动的循环。

这个例子完美地说明了没有一种替换策略是普遍完美的。其成功与否取决于访问模式是否符合策略的底层假设。LRU 赌的是时间局部性；当这个赌注错了，比如在循环扫描中，它就可能惨败。

一个优美的不变性：为何对 LRU 而言多多益善

计算机科学中最令人困惑的悖论之一是 Belady 异常。对于像 FIFO 这样一些“较笨”的算法，给予缓存更多内存，反而可能导致更差的性能（更多的未命中）。这就像给我们的厨房增加第二个操作台，却发现大厨现在更慢了，因为助手总是放错东西。

LRU 则不受此异常的影响。更多的内存永远不会损害 LRU 缓存。原因在于一个深刻而优雅的特性，称为包含特性，它使得 LRU 成为一种栈算法。

可以将 LRU 想象成维护一个所有见过页面的主列表，按从最近到最不近的顺序排列。一个大小为 $k$ 的缓存只是持有这个主列表的前 $k$ 项。一个大小为 $k+1$ 的缓存则持有前 $k+1$ 项。因此，在任何时间点，大小为 $k$ 的缓存中的项集都是大小为 $(k+1)$ 的缓存中项集的完美子集。

这个简单而强大的不变性保证了任何在较小缓存中是命中的访问，在较大缓存中必定也是命中。你可能会因为内存更多而获得更多命中，但绝不会更少。FIFO 缺乏这个特性；它的淘汰决策取决于进入队列的到达时间，而队列的状态会随着内存大小的不同而发生分歧，从而导致异常。

从理想到现实：CLOCK 近似算法

尽管 LRU 在理论上很美，但在硬件中直接为每一次访问都维护那个完美排序的列表成本太高。工程师们需要一个更廉价的近似方法，他们想出了一个绝妙的方案：CLOCK 算法。

替代完整的有序列表，缓存中的每个页面只被赋予一个额外的信息位：一个“引用位”或一个“二次机会位”。当一个页面被访问时，它的位被设置为 $1$ 。

当我们需要淘汰一个页面时，一个“时钟指针”会扫过所有页面。

如果指针指向一个位为 $1$ 的页面，算法会说：“啊，你最近被使用过。我给你第二次机会。” 它将该位翻转为 $0$ 并继续前进。
如果指针指向一个位为 $0$ 的页面，它会说：“你最近没有被使用过，而且你的第二次机会已经用完了。” 这个页面被淘汰。

这个简单的机制粗略地将页面分为两组：“最近使用”（位为 1）和“非最近使用”（位为 0）。它不如 LRU 精确——它无法区分一秒前使用的和十秒前使用的东西。这种不精确性意味着它有时可能会做出次优选择，并且比真正的 LRU 产生更多的未命中。但对于每个页面仅增加一个位的成本来说，它提供了一个非常有效且实用的近似方法，在实际系统中被广泛使用。

预言家的智慧与对手的残酷

我们已经确定 LRU 是一个不错的赌注，但与完美相比它表现如何？理论上的最佳替换算法 (OPT) 是那个对未来有完美了解的算法。当它淘汰一个页面时，它总是选择那个下次使用距离最远的页面。LRU 通过审视过去，试图猜测 OPT 确切知道的事情。

这个猜测可能有多糟糕？为了找出答案，我们可以设计一个“对抗性”序列，它被完美地构建出来，让 LRU 看起来很愚蠢。考虑一个大小为 $k$ 的缓存和 $k+1$ 个项的集合。如果我们以一个简单的循环请求它们， $\langle p_1, p_2, \dots, p_k, p_{k+1}, p_1, \dots \rangle$ ，LRU 会被强制进入完全抖动的状态，每次访问都会未命中。而具有远见的 OPT 处理这个序列则要优雅得多。在最坏情况下，LRU 的未命中次数可能高达 OPT 未命中次数的 $k$ 倍。这个因子 $k$ 被称为 LRU 的竞争比 [@problem_d:1398593]。它为 LRU 的不完美性提供了一个鲜明的理论界限。虽然 LRU 在典型工作负载下表现出色，但这个对手提醒我们，它并非万无一失。

更深层次的模式：局部性、可预测性与熵

从本质上讲，LRU 的成功是一个关于利用模式的故事。请求序列的可预测性越强，LRU 的性能应该越好。我们能将这种“可预测性”的概念形式化吗？

一个强大的工具来自信息论：香农熵。一个低熵的序列是高度结构化和可预测的。例如，轨迹 $\langle a, a, a, a, b, a, a, c, a \rangle$ 主要由 'a' 主导；它的熵很低。一个高熵序列则更随机、更不可预测，比如均匀的轨迹 $\langle a, b, c, a, b, c, a, b, c \rangle$ 。

正如我们所料，LRU 在低熵、偏斜的轨迹上表现得更好，因为它很快就学习到 'a' 很重要并将其保留在缓存中。而在高熵、均匀的轨迹上，它会发生抖动，完全没有命中。这揭示了一个优美的联系：更低的熵通常与更强的时间局部性相关，而后者又导致 LRU 的未命中率更低。

然而，我们必须小心。这种简单的熵形式只考虑了项的频率，而没有考虑它们的顺序。而对于缓存来说，顺序决定一切。可以构建两个不同的访问序列，它们具有完全相同的项频率（因此具有相同的零阶熵），但在 LRU 下的未命中率却大相径庭。这是一个深刻的最后教训：虽然像熵这样的高层概念给了我们宝贵的直觉，但魔鬼总在序列的细节之中。缓存的游戏是一场穿越时间的动态舞蹈，而 LRU 是其最优雅、最持久的编舞之一。

应用与跨学科联系

我们已经看到，最近最少使用策略是一条简单而优雅的规则：当你空间不足时，丢弃你最长时间没有碰过的东西。这是一个赌注，是对宇宙基本模式——引用局部性的赌博，即我们刚用过的东西，很可能马上会再用。你可能认为这只是计算机的一个小聪明，是宏大计划中的一个微小细节。但你错了。

这个简单的想法，如同一条线索，贯穿了广阔且看似毫无关联的科学技术领域。追随这条线索，会揭示出一种优美的统一性，一种共同的逻辑，它既支配着处理器核心的硅片，也支配着社交网络的行为，还支配着数学概率的抽象世界。让我们踏上旅程，看看这条朴素的规则将我们引向何方。

计算的机房

我们的第一站是 LRU 的自然栖息地：计算机复杂的内存系统。现代处理器速度惊人，但相比之下，它的主内存却像一只行动迟缓的野兽。为了弥合这一差距，工程师们使用小型、极速的缓存来临时存储处理器正在处理的数据副本。问题是，哪些数据应该占据这片宝贵的空间？LRU 是经典的答案。

但当我们对局部性的赌注失算时会发生什么？想象一位工匠，他的小工作台只能放两件工具。他需要完成一项任务，这项任务要求他按循环顺序使用锤子、螺丝刀和扳手。他拿起锤子，然后是螺丝刀。工作台满了。为了拿起扳手，他必须放下一样东西。遵循 LRU 规则，他放下了锤子，因为这是他最长时间（两步之前）没有用过的工具。但这个循环接下来需要什么工具呢？锤子！于是他必须放下螺丝刀来拿起锤子。如此往复，一场永无休止的交换之舞，他需要的每一件工具恰恰是他刚刚放下的那一件。

这种病态被称为抖动，当活跃的“工作集”数据大小超过缓存容量时，这是 LRU 的一种基本行为。在处理器的组相联缓存中，如果映射到同一个双槽缓存组的三个内存位置被循环访问，命中率将骤降至零。每一次访问都成为一次代价高昂的未命中。这不是一个“bug”；它是规则固有的、可预测的后果，是系统发出的一个警告：我们关于局部性的假设正在被违背。

同样的情节在操作系统的更大舞台上上演。你的计算机使用主内存 (RAM) 作为速度慢得多的硬盘或固态硬盘的 LRU 缓存。当你同时运行许多要求苛刻的应用程序时，它们内存页面的总工作集可能会超过可用 RAM。操作系统开始抖动，疯狂地在 RAM 和磁盘之间交换页面，整个计算机都陷入停顿。理解 LRU 有助于我们诊断为什么我们飞快的计算机突然变得如此缓慢。

这个原则是如此通用，以至于它不仅仅用于数据。当一个程序运行时，它使用必须被翻译成 RAM 中“物理”位置的“虚拟”内存地址。一些系统使用一种称为反向页表的结构，搜索起来可能很慢。我们如何加速它？通过添加另一个缓存！一个小的、针对每个程序的 LRU 缓存可以记住最近的地址翻译，从而在大多数时候避免缓慢的全局查找。这个小小的缓存，仅保存几个最近的翻译，通过再次押注于局部性——即一个程序很可能会访问它刚刚访问过的页面附近的内存页面——极大地提高了性能。

最奇妙的是，这直接关系到我们编写的代码。考虑一个处理两个大数组的简单嵌套循环，这是科学计算中的常见模式。如果内层循环需要扫描一个刚好太大而无法装入可用内存帧的数组，它将导致灾难性的抖动。对于外层数组的每一个元素，系统都将不得不从慢速内存中重新读取整个内层数组，一页一页地，痛苦不堪。对 LRU 的理解使得程序员能够预见并重构此代码，或许通过将数据分成能装入缓存的较小“块”来处理，从而将一个需要运行数小时的程序转变为一个在几分钟内完成的程序。

通用工具箱

LRU 原则是如此有效，以至于它已经挣脱了其在内存管理中的束缚。它现在是更广泛的软件和算法世界中的一个标准工具。

想想记忆化，这是一种存储昂贵函数调用结果以避免重复计算的算法技术。这本质上就是一个缓存。例如，在递归计算斐波那契数列时，调用 $F(n)$ 需要 $F(n-1)$ 、 $F(n-2)$ 等等的结果。将这些结果存储在由 LRU 管理的有限大小的缓存中是一种自然的应用。一个子问题的“最近性”是其对于计算序列中下一个数的效用的良好预测指标。

你每天都会遇到 LRU 缓存。你的 Web 浏览器用它来决定将哪些图片和网页保存在本地磁盘上以便更快加载。数据库用它来将最常访问的数据库部分保留在快速 RAM 中。为你带来流媒体视频的全球内容分发网络 (CDN) 使用类似 LRU 的策略来决定在你附近的服务器中存储哪些电影。在每一种情况下，都是基于对流行和近期事物的同样简单的赌注。

概率论视角的惊人之美

到目前为止，我们一直将 LRU 视为一种确定性机制。但当我们退后一步，通过概率的视角来看待它时，真正的魔力就出现了。我们不再问“对于这个特定的请求序列会发生什么？”，而是问“平均来看，可能会发生什么？”。答案不仅强大，而且具有惊人的优雅和统一性。

让我们回到应用世界。想象一个社交媒体平台正在设计其信息流。它希望为每个用户缓存帖子，以使信息流感觉快捷。用户的兴趣不是随机的；他们更有可能与最近看到的帖子互动。我们可以用一个简单的几何概率分布来模拟这种“新近度偏好”：重访第 $j$ 个最近的帖子的几率是 $p_r(1-p_r)^{j-1}$ ，其中 $p_r$ 是一个捕捉用户重访倾向的参数。如果平台使用一个大小为 $k$ 的 LRU 缓存，那么用户想要的下一个帖子在缓存中的概率是多少？从第一性原理推导出的答案是一个优美简洁的公式：

$P(\text{Hit}) = 1 - (1-p_r)^{k}$

突然之间，我们有了一条直接连接用户心理 ( $p_r$ ) 与系统设计 ( $k$ ) 的线。这使得工程师能够在不进行任何模拟的情况下推理权衡利弊。

现在是见证奇迹的时刻。让我们跳转到一个完全不同的领域：编程语言编译器的内部。为了实现一种称为“闭包”的特性，运行时可能需要频繁地创建将代码与其环境捆绑在一起的对象。为了节省时间，它可以缓存这些闭包对象。假设下一个需要的闭包与刚刚创建的闭包相同的概率是 $p$ 。如果我们使用一个容量为 $C$ 的 LRU 缓存，命中率是多少？答案是：

$P(\text{Hit}) = 1 - (1-p)^{C}$

这是完全相同的公式。支配用户滚动社交媒体信息流的数学定律，同样也支配着编译器最晦涩机制的效率。这就是科学家和工程师们所追求的统一性——一个单一、强大的原则，解释了各种不同的现象。

这种概率方法甚至可以模拟更复杂的场景。考虑一个物联网网关，它为一个传感器服务，该传感器以平均速率 $\mu$ 产生新读数，而一个应用程序以速率 $\nu$ 查询一个特定的“基线”读数。网关在 LRU 缓存中保留最后 $k$ 个读数。一个新的查询到达时发现其基线读数已被 $k$ 个更新的读数挤出，这个概率是多少？这是一场与时间的赛跑，是两个相互竞争的泊松过程之间的战斗。随机过程理论给了我们一个明确的答案：“数据丢失”的概率是 $(\frac{\mu}{\mu+\nu})^k$ 。这可以直观地理解为，在组合事件流中，观察到 $k$ 个“新读数”事件先于单个“查询”事件的概率。

如果根本没有任何模式呢？如果请求是完全随机且均匀地分布在一个大小为 $W$ 的工作集上呢？在这里，概率论再次给出了一个简单直观的答案。对于一个大小为 $C$ 的 LRU 缓存，其命中率就是 $C/W$ 。命中的概率仅仅是能装入缓存的项目的比例。这为评估我们从 LRU 设计用来利用的局部性中获益多少提供了一个至关重要的基线。

遗忘的智慧

我们的旅程从 CPU 的具体逻辑门，一直走到了马尔可夫链的抽象领域，其平稳分布可以精确地描述在 LRU 缓存中找到任何给定项的概率。“丢弃最近最少使用的”这条简单的规则，被揭示远不止是一个编程技巧。

它是在不确定的世界中管理有限资源的一项基本策略。它是对时间和兴趣连续性的一种信念的物理体现。它的行为，从灾难性的抖动之舞到优雅的命中概率数学，都可以被理解、预测和利用。LRU 教会我们，在一个复杂的世界里，效率的关键不仅在于记忆，更在于拥有遗忘的智慧。