CPU 缓存局部性

玻尔百科

定义

CPU 缓存局部性是计算机体系结构中的一个基本原理，指处理器通过利用时间局部性和空间局部性来高效访问数据。该机制通过重用最近访问的数据以及预加载相邻信息，弥补了高速处理器与较慢的主内存之间的性能差异。在实际应用中，通过选择像结构体数组（SoA）这样利于缓存的数据结构和算法，可以显著提升数据并行任务的执行效率。

核心要点

CPU 缓存利用时间局部性（重用近期数据）和空间局部性（访问邻近数据）来弥合与主内存之间的巨大速度差距。
数据的内存布局，例如在数据并行任务中选择数组结构体（SoA）而非结构体数组（AoS），对于最大化缓存性能至关重要。
算法选择，例如在某些情况下优先选择深度优先搜索而非最佳优先搜索，可以通过与缓存利用时间局部性的方式相契合来获得卓越性能。
在实践中，由于其高效的内存访问模式，一个具有较高大O复杂度的缓存友好算法（如在有序数组上进行二分查找）的性能可能超过一个具有较低复杂度的算法（如哈希表）。

引言

在计算世界里，速度至关重要。然而，一个根本性的瓶颈始终存在：快如闪电的中央处理器（CPU）总是被相对缓慢的主内存（DRAM）拖后腿。如果 CPU 的每一次操作都必须等待从内存中获取数据，现代计算机将会陷入停顿。这个巨大的性能鸿沟由一个被称为 CPU 缓存的小型、高速内存缓冲区所弥合，它保存着最近使用过的数据，并假设这些数据很快会再次被需要。因此，高性能计算的艺术与科学，不仅在于编写巧妙的逻辑，更在于确保 CPU 需要的数据总能在这个缓存中被找到。

本文深入探讨了决定缓存有效性的核心原则：局部性。我们将探索如何构建程序和数据，使其“说硬件的语言”，通过与内存层级结构的物理现实相协调来最大化性能。您将学习局部性的两条黄金法则，并看到它们并非抽象理论，而是塑造了众多学科软件的有形力量。第一部分 “原理与机制” 将解析时间局部性和空间局部性的基本概念，解释缓存如何工作以及如何避免缓存污染等常见陷阱。第二部分 “应用与跨学科联系” 将展示这些原理在现实世界中的应用，从视频游戏中的数据结构设计，到驱动基因组研究和宇宙学模拟的算法。

原理与机制

想象你在一个巨大的车间里。你的工作台很小，但上面放着你现在正在使用的工具。几步之外是一个工具车，上面有你当前项目所需的工具。在车间的远端是一个巨大的仓库，里面有你能想象到的每一种工具。你计算机的处理器，即中央处理器（CPU），工作方式与此非常相似。工作台是它的 寄存器——速度快得惊人，但一次只能存放少量东西。仓库是主内存，即 动态随机存取存储器（DRAM）——容量巨大，但从 CPU 的角度来看速度慢得令人痛苦。

如果 CPU 每取一件数据都必须跑到仓库去，那么它大部分时间都将花在路上，而不是工作。这时工具车就派上用场了：CPU 缓存。缓存是位于 CPU 和主内存之间的一个小型、高速的存储器。它保存着 CPU 最近使用过的数据的副本，赌它很快会再次被需要。当 CPU 需要数据时，它会首先检查缓存。如果数据在那里（缓存命中），那就大获全勝——CPU 能立即获取它并继续工作。如果数据不在那里（缓存未命中），CPU 就必须暂停，等待一次到主内存的缓慢旅程。

高性能计算的整个游戏，从你如何编写一个简单的循环到操作系统如何管理多个任务，基本上都围绕着一件事：最大化缓存命中。为此，我们必须理解那些决定缓存该把什么放在手边的优美而简单的原则。这些原则被称为局部性。

两条黄金邻近法则

CPU 缓存并非随机猜测。它基于对程序行为倾向的两个深刻而又符合常理的观察。

复用规则：时间局部性

第一条法则是时间局部性：如果你访问了一块数据，你很可能很快会再次访问它。思考一个对数字求和的循环；保存总和的变量在每一次迭代中都会被访问。缓存将这个变量保持在近处，放在工作台上，从而避免了每次都去仓库取。

这个原则远不止于简单的循环，它延伸到复杂系统的设计中。考虑一个动态内存分配器——当程序请求内存时，由它来分配。当程序用完一块内存后，它会“释放”这块内存。一个聪明的分配器可能会注意到，程序常常在释放一块特定大小的内存后不久，又请求一块同样大小的内存。如果分配器对其空闲块列表使用后进先出（LIFO）策略，它会将最近释放的块放在列表的最前面。当下一个请求到来时，分配器第一次尝试就能找到一个大小完美的块。这个巧妙的技巧利用了内存请求的时间局部性，使得分配过程异常迅速。

“热”缓存的概念是时间局部性在更大范围内的体现。当一个线程在某个处理器核心上运行时，它会用其工作数据填充该核心的缓存。如果该线程被短暂暂停（也许是为了等待文件加载），然后又在同一个核心上恢复执行，它的数据通常还在那里，是温热且准备就绪的。然而，如果它在另一个核心上恢复，它将面临“冷启动”，不得不再次缓慢地从主内存中获取所有数据。这就是为什么操作系统调度器有处理器亲和性的概念——倾向于将一个线程保持在同一个核心上。当一个线程醒来时，一个关键的决策就出现了：是等待一小段时间（ $w$ ）让其“热”核心变空闲，还是立即迁移到一个空闲的“冷”核心并支付缓存预热的代价（ $t_{\text{warm}}$ ）？如果等待时间比预热代价长（ $w \gt t_{\text{warm}}$ ），那么时间局部性的好处就被延迟所抵消，迁移是更好的选择。

邻近规则：空间局部性

第二条法则是空间局部性：如果你访问了一块数据，你很可能很快会访问内存中位于它附近的数据。当 CPU 从主内存中获取数据时，它不只取一个字节，而是取入一整块连续的数据，称为缓存行（通常是 64 字节）。这就像你去图书馆找一本关于量子力学的书；你不如把书架上它旁边的三本书也一并拿走，因为你很可能也需要它们。

这就是为什么不起眼的数组是高性能计算中默默无闻的英雄。在内存中，数组是一个完美、不间断的数据邻域。当你写一个循环来遍历数组时，你正走在一条笔直的道路上。第一次访问 A[0] 可能会导致缓存未命中。但这次未命中会将包含 A[0]、A[1]、A[2] 等的整个缓存行带入缓存。接下来的几次访问就都是快如闪电的命中了。

空间局部性的威力和陷阱在多维数组中变得尤为明显。在像 C、C++ 和 Python（使用 NumPy）这样的语言中，二维数组以行主序存储。这意味着第二行只有在第一行完全在内存中布局之后才开始。想象一个存储为 Data[slice][row][col] 的三维医学扫描。要显示一个水平切片，我们固定 slice 索引并遍历 row 和 col。因为 col 是最内层的维度，我们的代码会连续地遍历内存，展现出完美的空间局部性。但如果我们想显示一个 sagittal（矢状）视图，固定 col 索引并遍历 slice 和 row 呢？我们的内存访问现在会跨越巨大的间隙——row 的每一步都跳过一整行的大小，slice 的每一步都跳过一整个切片的大小。为 Data[0][0][x_0] 获取的缓存行对于下一次访问 Data[0][1][x_0] 毫无用处。为了优化这第二种访问模式，我们本应将数据存储为 Data[row][col][slice]。这不仅仅是理论上的好奇心；这是科学计算和图形学中的一个关键决策，可以将性能改变几个数量级。同样的原则也使得编译器能够执行循环交换，重排嵌套循环以确保最内层循环沿着内存的连续维度进行迭代。

当我们把数组与其他数据结构进行比较时，数组的优点就显得尤为突出。例如，链表与邻域的概念正好相反。每个节点包含一个指向下一个节点的指针，但下一个节点可能位于主内存浩瀚空间的任何地方。遍历链表涉及指针追逐，这是一种在内存中的随机漫步，严重破坏了缓存性能。哈希表则更为棘手；其设计初衷就是将键伪随机地散布到内存中以避免冲突。这在理论上很棒，但在实践中，这意味着每次查找都是一次跳跃到一个新的、不可预测的位置，很可能导致缓存未命中。

这导致了一个有趣且违反直觉的结果。假设你需要实现一个稀疏数组。你可以使用哈希表，它提供平均情况下 $O(1)$ 的访问时间。或者，你可以使用两个已排序的并行数组（一个用于索引，一个用于值），并使用二分查找来寻找元素，其复杂度为 $O(\log m)$ 。在一个没有缓存的世界里，哈希表会赢。但在我们的世界里，对连续数组进行二分查找是如此的缓存友好，以至于它的速度可能要快得多。搜索的每一步都会带入一个新的缓存行，但该行包含许多可能在后续步骤中被检查的相邻索引。然而，哈希表的“随机”访问每次探测可能要花费 $100$ 纳秒，而在缓存的数组中进行一次比较可能只需要 $10$ 纳秒。突然之间，即使对于非常大的数据集， $O(\log m)$ 的算法也可能胜过 $O(1)$ 的算法。这是一个深刻的教训：你的算法的大O复杂度并非全部。你的数据结构同样重要。

证明规则的例外：当缓存造成损害时

在对缓存赞不绝口之后，你可能会认为将数据加载到其中总是一件好事。但缓存是一个小而排他的俱乐部。让错误的数据进入，可能比不让它进入更糟糕。这个问题被称为缓存污染。

想象你需要写入一个巨大的日志文件，或者初始化一个你短期内不会再读取的庞大数组。这是没有时间局部性的数据。如果你执行正常的写入，CPU 会遵循“写分配”策略。它必须首先从内存中获取相应的缓存行——一次获取所有权的读取（RFO）——尽管你马上就要完全覆盖它。然后，写入之后，这块巨大而无用的数据块占据着你的缓存，挤掉了其他你确实打算重用的、可能非常有用的数据。这就是缓存污染。你用宝贵的工具车空间换来了一堆你再也不会碰的垃圾。

为了解决这个问题，现代 CPU 提供了一种特殊指令：非临时性存储（或流式存储）。这是给 CPU 的一个提示：“将这些数据直接写入主内存，不要费心把它放进缓存。”这些存储操作会绕过缓存，使用特殊的写合并缓冲区来有效地将完整的缓存行直接发送到内存。这避免了初始的 RFO 读取，并且最重要的是，防止了有价值的缓存数据被驱逐。对于没有重用的流式数据，非临时性存储可以将内存总线流量减半并消除缓存污染，从而带来巨大的性能提升。

理解数据局部性就像拥有一种超能力。它揭示了我们编写的代码背后隐藏的机制，将硅的物理世界与算法的抽象世界联系起来。它教导我们，我们如何安排数据以及如何遍历数据，与计算逻辑本身同样重要。这是一个统一的原则，表明在算法、编译器或操作系统中所做的选择，都随着 CPU 及其缓存的相同节奏而舞动。

应用与跨学科联系

我们已经探讨了内存层级结构的原理，即 CPU 缓存的“是什么”和“为什么”。但要真正领会其深远影响，我们必须踏上一段旅程，去看看“在哪里”应用。CPU 缓存并非只有硬件工程师才需操心的晦涩细节；它是计算物理现实的一个基本方面。最出色、最高效的软件往往不是与这一现实抗争，而是学会与之共舞。

想象一位在车间里的大师级工匠。他们的技艺不仅来自知道如何使用工具，更来自他们为追求纯粹效率而布置的车间。最常用的工具触手可及，当前工作所需的零件按顺序摆放，整个空间都经过组织以最大限度地减少无效移动。CPU 就是这位大师级工匠，而缓存就是它的工作台。在许多领域，高性能编程的艺术就是成为完美助手的艺术——那个能安排好工作，让大师以惊人速度移动的助手。现在让我们看看这门艺术在广阔的科学技术领域中是如何实践的。

布局的艺术：数据结构与局部性

在最基础的层面上，缓存性能关乎我们如何在内存中安排数据。正如整理厨房能让烹饪更快一样，组织数据也能让程序快上几个数量级。

一个极佳而直接的例子来自视频游戏和高性能模拟世界。想象一个有数千颗小行星的游戏，每颗都有位置、速度和颜色。一种自然的、面向对象的冲动是为每颗小行星创建一个 struct，包含其所有属性，然后将这些结构体打包到一个大数组中。这被称为结构体数组（AoS）。这就像为每个小行星模型准备一个独立的小盒子，里面装着它的位置、速度和颜色。但考虑一个常见的操作：更新所有小行星的位置。CPU 必须从一个盒子跳到下一个盒子，从每个盒子中只挑选出位置数据，而忽略旁边的速度和颜色。在内存中，这意味着它加载了包含位置、速度和颜色的整个缓存行，但在跳转到下一个结构体并重复此过程之前，只使用了其中的一小部分。

如果我们换一种方式组织呢？如果我们有一个巨大的、连续的数组存放所有的位置，另一个存放所有的速度，第三个存放所有的颜色呢？这就是数组结构体（SoA）布局。现在，要更新所有位置，CPU 只需流式地处理一个单一、干净、连续的内存块。它加载到缓存中的每个字节都是它需要的位置数据。这种完美的空间局部性使得 CPU，特别是利用其向量指令（SIMD）时，能像流水线一样运作，一次对一整块数据执行相同的操作。这不是微不足道的调整；对于数据并行任务，这种布局上的改变可能意味着卡顿的模拟与流畅的实时体验之间的区别。

同样的原则也回响在科学计算领域。在求解大规模线性方程组时，一个常见步骤是矩阵的 LU 分解。矩阵只是一个二维数字网格。我们可以按“逐行”（行主序，常见于 C/C++）或“逐列”（列主序，常见于 Fortran/MATLAB）的方式将其存储在内存中。像 Doolittle 和 Crout 分解法这样的算法执行相同的数学任务，但以不同的模式遍历矩阵——一个可能更“面向行”，而另一个更“面向列”。如果你将一个面向行的算法与列主序存储配对，你就迫使 CPU 在每一步都要跨越内存中的巨大步幅，从而扼杀了缓存性能。艺术在于将算法的访问模式与数据的内存布局相匹配，确保 CPU 总是在一条连续的路径上行走 ([@problem-aloblem_id:3222449])。

当我们的数据是稀疏的——即大部分是零——时，情况就变得更加复杂了。为一个 99.9% 为空的流体动力学问题存储一个巨大的矩阵是极其浪费的。因此，计算机科学家发明了只存储非零值的格式。压缩稀疏行（CSR）格式是一种流行的选择。它非常适合 CPU，因为它将给定行的所有非零元素连续存储。问题在于，每行可以有不同数量的非零元素，这造成了 CPU 能够很好处理的不规则性。但对于图形处理器（GPU）呢？GPU 就像一支由数千个简单处理器组成的军队，它们步调一致地前进（这种模型称为 SIMT，即单指令多线程）。这支军队异常强大，但讨厌不规则性。如果一个线程需要处理一个长行，而另一个线程处理一个短行，整个群体都必须等待最慢的那个。对于这类硬件，像 ELLPACK 这样的格式有时更好。它会将每行填充到与最长行具有相同数量的非零元素。虽然浪费了一些内存，但其完美的规律性允许 GPU 的线程以一种完全协调、“合并”的方式访问内存——这是 GPU 版本的空间局部性。因此，数据结构的选择是数据抽象性质、内存物理布局以及执行工作处理器的特性之间一场优美的三方博弈。

搜索的形态：算法与局部性

除了静态的数据布局，算法遍历内存的路径——其搜索策略——对缓存也有深远的影响。

考虑编译器为理解你的代码而构建的抽象语法树（AST）。为了优化代码，编译器可能需要频繁地重构这棵树，移动整个分支。如果树存储在一个数组中，其中节点的子节点具有可预测的索引，那么遍历这棵树是缓存友好的。但是移动一个分支就变成了一场噩梦，需要复制数组的大块内容。相比之下，由节点和指针构成的传统树对于简单的遍历来说不那么理想（指针追逐可能在内存中到处跳跃），但重构它却很简单——只需改变几个指针。对于一个以重构为主的任务，基于指针的方法会胜出，这表明最优选择完全取决于工作负载的访问模式。

这引出了一个更微妙的原则：时间局部性。一个绝佳的例证来自优化和用分支定界算法求解混合整数线性规划的世界。该算法探索一个巨大的可能解的树。最佳优先搜索（BestFS）策略似乎最聪明：它总是探索树中任何看起来最有希望的节点。深度优先搜索（DFS）似乎更笨：它固执地尽可能深地探索一个分支，然后再尝试另一个。然而，DFS 通常具有关键的物理优势。当它求解一个“父”节点然后立即求解其“子”节点时，子问题与父问题几乎完全相同。用于求解父节点的所有复杂数据结构（如 LP 基）仍然“热”在缓存中，准备好为子节点重用。而 BestFS 通过跳转到一个有希望但遥远的节点，确保当它到达那里时，所有相关数据都已从缓存中被驱逐。DFS 算法的“短期记忆”与硬件的短期记忆——缓存——完美契合。

这种“聪明的”全局搜索与“愚蠢的”局部搜索之间的张力在数值宇宙学中再次出现。为了找到暗物质晕，宇宙学家必须为数十亿模拟粒子中的每一个粒子找到所有相邻粒子。均匀网格是划分空间的一种简单且缓存友好的方法；邻居查找涉及检查相邻的单元格，这些单元格在内存中通常是连续的。但宇宙并非均匀；物质会 clump 成星系和星系团。在这些区域，单个网格单元可能会变得灾难性地过度拥挤，网格的性能会崩溃。像 k-d 树这样的自适应结构，它根据粒子的密度来划分空间，对于这种聚集现象要稳健得多。然而，遍历树涉及追逐指针，这本质上对缓存不友好。在这里我们看到了在为原始空间局部性优化的结构（网格）和为应对复杂、真实世界数据而进行算法效率优化的结构（树）之间的权衡。

系统交响曲：跨学科的局部性

局部性原则是如此普遍，以至于我们看到它以巧妙的方式应用于整个系统，从网络服务器到基因组科学的工具。

在网络领域，性能至关重要。当服务器从互联网接收到一个请求——比如说，包含 10,000 条待处理记录——该数据在消息中的布局至关重要。如果数据是一堆散布在内存中的指针，处理每条记录都会迫使 CPU 玩捉迷藏游戏，几乎每条记录都会导致一次缓存未命中。但如果记录是连续打包的，CPU 就可以流式处理它们，让硬件预取器发挥其魔力，在数据被需要之前就将其加载到缓存中。这并非小优化；它可能意味着吞吐量增加四到五倍，这是一个响应迅速的服务与一个失败的服务之间的区别。我们甚至可以利用硬件来提供帮助。现代网络接口卡（NIC）可以由其驱动程序编程以执行分散-聚集 DMA。驱动程序可以告诉 NIC：“当数据包到达时，从接下来的 8 个数据包中取出头部，并将它们放在这个单一的连续内存块中，然后将大的有效载荷分散到别处。”硬件本身完成了为 CPU 后续处理头部的任务创造完美空间局部性的工作。这是一个漂亮的协同设计范例，整个系统都 conspiring 起来帮助 CPU。

这种主动创造局部性的主题在大型科学模拟中达到了顶峰。在分子动力学中，我们模拟数百万个粒子的运动。一个关键挑战是，在三维空间中相邻的粒子需要被一起访问，但内存是一维线性的。我们如何将三维邻近性映射到一维邻近性？解决方案是一个具有深刻数学优雅思想：空间填充曲线。想象画一条单一、连续、分形的线（如 Morton 或 Hilbert 曲线），它蜿蜒穿过你三维模拟盒子中的每一个点。如果你然后根据粒子沿此曲线出现的顺序重新排序内存中的所有粒子，你就施展了一种魔法。曲线的特性确保了，以高概率，在三维空间中相近的粒子现在在一维内存数组中也相近。这种线性时间的重排序极大地减少了模拟中最昂贵部分——力计算——期间的缓存未命中，并且是许多现代 N 体代码的基石。

也许最鼓舞人心的例子来自生物信息学。将测序仪产生的数十亿个短 DNA“读段”映射到一个 30 亿字母的参考基因组上，曾是一个巨大的瓶颈。bowtie 比对器通过使用基于Burrows-Wheeler 变换（BWT）的索引实现了速度上的突破。BWT 是一种文本的可逆排列，它具有一个显著的特性：它倾向于将具有相似上下文的相同字符组合在一起。比对算法通过对这个排列后的字符串进行一系列查询来工作。由于 BWT 的聚类特性，这些连续的查询访问的内存位置彼此非常接近。该算法令人难以置信的速度并非来自某些蛮力技巧，而是来自一个深刻的算法见解，该见解导致了出色的缓存局部性。它证明了“说硬件语言”的算法有能力推动科学革命。

从单个 struct 的布局，到对宇宙数据的探索，再到我们自身基因组的解码，局部性原则是一条统一的线索。它提醒我们，我们抽象的算法运行在物理机器上，而效率——通常还有优雅——是通过拥抱物理学找到的。内存层级结构不是一个需要规避的缺陷；它是我们计算宇宙的一个特性。最伟大的程序员和科学家是那些学习其法则并用它们来构建具有惊人力量和速度的工具的人。