非统一内存访问 (NUMA) 系统

玻尔百科

定义

非统一内存访问 (NUMA) 系统是一种计算机架构设计，其中内存访问时间取决于内存相对于处理器的位置。在这种层次结构中，访问本地内存的速度明显快于远程内存，因此操作系统需要采用首触策略和页面迁移等手段来优化数据布局。这种架构对于高性能计算中的并行算法设计至关重要，但其延迟差异也可能被利用于基于争用的侧信道攻击。

核心要点

NUMA 架构创建了一个性能层级，其中访问本地内存的速度显著快于访问另一节点上的远程内存。
操作系统采用“首次接触”策略、页迁移和页复制等策略来优化数据放置并最小化远程访问。
并行应用程序的性能，尤其是在高性能计算 (HPC) 领域，严重依赖于 NUMA 感知的算法设计和数据分区。
NUMA 系统中的延迟差异可被利用于基于争用的侧信道攻击，将一个与性能相关的特性转变为安全漏洞。

引言

现代计算的决定性特征是对性能的不懈追求，这催生了拥有海量处理器核心的系统。然而，这种并行性也带来了一个根本性的瓶颈：单一的共享内存系统无法跟上如此多“饥饿”处理器的需求。非统一内存访问 (NUMA) 正是应对这一挑战的架构性答案，它通过牺牲统一访问的简单性来换取可扩展性的强大能力。通过将内存去中心化，将其与特定处理器分组为“节点”，NUMA 实现了大规模并行处理，但也引入了一种新的复杂性：数据的位置现在深刻地影响着性能。

本文旨在弥合经典的统一内存模型与现代硬件的非统一现实之间的知识鸿沟。它揭示了机器中那个可能拖慢幼稚程序，或者在被理解后可被利用以获得显著性能提升的“幽灵”。您将学习支配这些强大而复杂系统的核心概念，从而在硬件架构与软件性能之间架起一座桥梁。

首先，在“原理与机制”部分，我们将探讨 NUMA 游戏的基本规则，剖析管理数据局部性的硬件和操作系统策略，从初始放置到动态迁移。然后，在“应用与跨学科关联”部分，我们将审视这种架构的深远影响，揭示 NUMA 感知能力对于程序员、科学家、系统架构师乃至安全专业人士为何至关重要。

原理与机制

要真正理解一台机器，你不仅要看它的蓝图，还要领会塑造其设计的压力。现代计算机已不再是过去那种简单、优雅的加法机。它们是庞大而复杂的生态系统，诞生于一场与单一、无法平息的敌人——光速——的持续战争。非统一内存访问 (NUMA) 的原理正是这场战斗的直接产物，是一个巧妙而优美，尽管有时略显混乱的解决方案，旨在解决如何“喂饱”日益增多的“饥饿”处理器的问题。

统一性的幻象与“邻里”的现实

想象一个巨大的图书馆，组织得井井有条，任何一本书的取用时间都完全相同。这是我们对计算机内存的经典心智模型，一个我们称之为统一内存访问 (UMA) 的系统。这是一个美好的抽象：简单、可预测且公平。在很长一段时间里，这个模型与现实足够接近。但随着我们在单块主板上构建拥有数十乃至数百个处理器核心的机器，这幅优雅的图景开始瓦解。

问题在于瓶颈。一个单一的内存控制器——我们的总图书管理员——一次只能处理这么多请求。当核心（读者）数量激增时，图书管理员不堪重负，最终每个人都得排队等候。解决方案——大自然也常常采用的方案——是去中心化。我们不再建造一个巨大的中央图书馆，而是建立一个由许多更小的本地社区图书馆组成的城市。在计算机中，这意味着将处理器分组为“节点”或“插槽”，每个节点都拥有自己专用的高速本地内存。

这种架构是 NUMA 的核心。访问你所在节点的内存（本地社区图书馆）速度极快。但如果你需要的数据在另一个节点上（城那头的图书馆）呢？你必须通过一个较慢的长途通信链路，即互连（interconnect），发送请求。这段行程需要耗费多得多的时间。突然之间，数据的位置变得至关重要。访问内存的时间不再是统一的，而是非统一的。这就是 NUMA 简单而深刻的真理。

这种“非统一性”并不仅仅是一个简单的“本地 vs. 远程”的二元对立。连接这些节点的互连有其自身的拓扑结构——可能是环形、网格或更复杂的网络。到远程节点的延迟可能取决于它在这个网络中的“距离”，以请求必须经过的跳数来衡量。在环形拓扑中，向相邻节点的请求可能比向对面节点的请求更快。这创造了一个丰富但有时也颇为恼人的延迟谱系，软件必须在其中导航。

NUMA 游戏的基本规则

一旦我们接受了这个非统一的现实，性能优化的整个游戏规则就改变了。唯一最重要的目标变成了最大化本地内存访问的次数。我们可以用一个优美简洁的公式来量化缓存未命中时的平均内存访问时间 (AMAT)。如果你的内存访问中有比例为 $p$ 的部分是本地访问，比例为 $q = 1-p$ 的部分是远程访问，那么你等待的平均时间是：

$AMAT = p \cdot t_{\ell} + q \cdot t_{r}$

这里， $t_{\ell}$ 是本地访问延迟， $t_{r}$ 是远程访问延迟。在一个典型的系统中， $t_{r}$ 可能是 $t_{\ell}$ 的两倍甚至三倍（例如，本地访问 80 纳秒 vs. 远程访问 210 纳秒）。这个公式是导航 NUMA 系统的指南针。每一个策略、每一个硬件特性、每一个编程技巧，本质上都是为了提高 $p$ 的值，即本地命中的概率。 $p$ 值的一个微小变化，比如从 $0.7$ 变到 $0.9$ ，就可能对整体性能产生巨大影响。我们接下来的旅程就是探索我们为赢得这场游戏而采用的各种巧妙方法。

作为城市规划师的操作系统

如果数据和处理器生活在不同的“邻里”，那么操作系统 (OS) 就必须扮演城市规划师的角色，决定数据“居住”在哪里，以最小化使用它的线程的“通勤时间”。它有几种策略可供使用。

初始放置：奠定基础

首次接触策略 (First-Touch Policy)：这是最简单的策略。第一个访问（通常是写入）某个内存页的线程，会导致该页被物理分配在该线程所在的本地节点上。这是一个极其简单、去中心化的启发式方法。如果一个线程分配并初始化自己的数据，这个策略会完美地工作，确保数据及其主要使用者一开始就是近邻。然而，如果一个主线程在开始时分配了所有数据，那么这个策略可能会事与愿违，导致所有数据都滞留在单个节点上，迫使其他节点上的线程终身进行缓慢的远程访问。
交错策略 (Interleaving)：这个策略将一个数据结构的页面像发牌一样条带化地分布在所有节点上。例如，一个大数组的第一个页面在节点 0，第二个在节点 1，第三个又回到节点 0，依此类推。为什么要这样做？对于被所有节点广泛共享和访问的数据——比如一个只读的查找表——交错策略为每个使用者提供了公平、可预测（尽管不是最优）的性能。它防止某个节点的内存控制器成为热点，并将负载均匀地分散开来。

动态管理：迁移和复制房屋

初始放置通常只是一个最佳猜测。随着程序的运行，其访问模式可能会改变。一个真正智能的操作系统必须能够适应，不仅扮演规划师的角色，还要扮演一个动态的、数据驱动的经济学家。

页迁移 (Page Migration)：如果操作系统观察到节点 A 上的一个线程正在持续访问节点 B 上的一个页面，它可以进行成本效益决策。它可以支付一次性的迁移成本 ( $M$ )，将整个页面从节点 B 移动到节点 A。移动之后，该线程的所有后续访问都将变成快速的本地访问。操作系统可以使用硬件性能计数器来跟踪远程访问。如果对一个“热”页面的远程访问次数足够多，那么将这些访问转变为本地访问所带来的预期未来收益将超过迁移的直接成本。
复制与迁移 (Replication vs. Migration)：对于只读数据，还有另一个选择：复制。想象一个页面被长时间地分段访问，先是被节点 A 访问，然后是节点 B，然后又是 A，如此往复。来回迁移页面（ $A \to B$ ，然后 $B \to A$ ，...）在每次切换时都会产生开销。一个更聪明的做法可能是支付一个稍高的一次性成本来复制这个页面，在节点 A 和节点 B 上都创建本地副本。此后，来自两个节点的所有访问都是本地的，并且没有开销。决定是迁移还是复制完全取决于访问模式。如果预计页面会在两个节点间来回传递多次，那么重复迁移的累积成本将很快超过一次性复制的成本，使得复制成为明显更优的选择。

硬件的隐藏天赋：一致性与通信

操作系统以大块（页）为单位管理内存，而硬件则在微小的缓存行（通常为 64 字节）尺度上操作。NUMA 与底层的缓存一致性协议之间的互动，是某些最深刻、最精妙的优化发生的地方。

当节点 A 上的一个核心写入一个内存位置时，系统不能仅仅更新其本地缓存。它必须确保整个机器上任何其他缓存中该数据的任何副本都被无效化。这是基于目录的缓存一致性协议 (directory-based cache coherence protocol) 的工作。每个内存行都有一个“主”节点，该节点维护一个目录，这是一个记录了哪些其他节点正在缓存该行的小记录。

缓存到缓存传输 (Cache-to-Cache Transfers)：当节点 A 上的一个核心请求主节点为 B 的数据时，最朴素的路径是从节点 B 的主内存中获取。但如果节点 B 上的一个核心已经在其缓存中拥有该数据——可能是一个更新的、已修改的版本呢？现代协议如 MOESI 引入了一条捷径。节点 B 上的硬件可以直接将其缓存中的数据转发到节点 A 的缓存中。这种缓存到缓存的传输通常比完整的远程内存访问快得多。MOESI 中的 Owned (O) 状态是一个特别巧妙的设计：一个缓存可以在不拥有独占权的情况下向其他缓存提供数据，使其能够在不涉及主内存的情况下满足远程读取请求，从而进一步减少延迟和流量。
承诺的代价：内存栅栏 (Memory Fences)：在一个高度并行的系统中，CPU 可能会“提交”一个写操作——即，将写请求发送到内存系统，然后立即继续执行其他指令，并假设写操作最终会完成。这对性能很有利，但也带来了不确定性。当你在节点 A 上写入一个值时，你怎么知道节点 B 上的线程何时能看到它？这由内存栅栏（或内存屏障）来保证。执行一个栅栏就像告诉 CPU：“停下。在确认我之前所有的内存操作都已全局执行之前，不要继续。” 对于向远程节点的写操作，这意味着 CPU 必须等待整个一致性事务完成：写请求必须到达主目录，无效化指令必须发送给所有共享者，必须从所有共享者那里收到确认，只有到那时，写操作才被认为是“全局可见的”。栅栏是程序员用来在这个复杂、分布式的环境中强制执行顺序并确保通信可预测地发生的工具。
协调的高昂代价：NUMA 延迟对于同步操作尤其具有惩罚性。获取一个主节点在远程节点上的简单自旋锁不是一个单一操作。它是跨越互连的一场漫长的对话。首先，你的核心执行一次远程读取，以查看锁是否空闲。如果是，你的核心接着发起一个原子的比较并交换 (Compare-and-Swap, CAS) 操作，这是一个请求独占所有权的远程请求。然后，主目录必须使所有其他缓存的锁副本无效，这又涉及另一轮往返通信延迟。获取锁的总延迟是所有这些步骤的总和，可能是单个远程读取成本的许多倍，这使得 NUMA 感知的同步成为一个关键而困难的挑战。

当良好系统出问题：失效的新前沿

NUMA 系统的复杂性也引入了新的、微妙的失效模式，这些模式超出了简单架构的经典问题。

远程颠簸 (Remote Thrashing)：我们通常认为“颠簸”是指系统物理内存耗尽，所有时间都花在与慢速磁盘之间交换页面的状态。NUMA 引入了一种新的颠簸：带宽颠簸 (bandwidth thrashing)。想象节点 A 上的一个进程，由于糟糕的放置策略，其数据大部分位于节点 B 上。该进程在其本地节点上可能有大量可用内存。然而，它对远程数据的持续请求可能会完全饱和互连的带宽。当对远程数据的需求超过互连的容量时，延迟会因请求排队而急剧上升。CPU 几乎所有时间都处于停滞状态，等待来自拥堵互连的数据。系统陷入停顿，不是因为磁盘 I/O 而颠簸，而是因为远程内存带宽。
死锁 (Deadlock)：NUMA 是一个分布式系统，和所有分布式系统一样，它也容易发生死锁。考虑这样一个场景：多个节点上的进程都试图同时将页面迁移到彼此的节点。节点 $N_0$ 上的进程 $P_0$ 需要获取节点 $N_1$ 上的一个缓冲区来发送页面，而 $N_1$ 上的 $P_1$ 需要 $N_2$ 上的一个缓冲区，以此类推，形成一个环。如果每个进程都先获取其本地资源，然后等待远程资源，它们就有可能进入致命的拥抱：每个进程都持有着下一个进程所需的资源，谁也无法继续。在操作系统中设计资源分配协议以避免这种循环等待，对于整个系统的稳定性至关重要。

NUMA 架构不是一个缺陷；它是一个杰出且必要的妥协。它用统一访问的简单优雅换取了大规模并行的原始动力。理解其原理，就是将现代计算机理解为一个动态的、由相互连接的邻里组成的城市，而不是一个单一的实体，在这个城市里，性能是一场关于数据放置、通信和协调的持续舞蹈。

应用与跨学科关联

在我们之前的讨论中，我们拆解了机器以观察其内部工作。我们了解到，在一个非统一内存访问 (NUMA) 系统中，计算机并非一个单一的、庞大的实体，而是一个由处理“岛屿”组成的联邦，每个岛屿都有其本地的内存“海岸”。访问遥远岛屿上的数据是可能的，但这需要更多时间。现在我们了解了这片群岛的地图，我们必须提出真正的问题：那又怎样？这对我们编写的软件、我们解决的问题以及我们保守的秘密意味着什么？

事实证明，这个简单的非统一性事实是现代机器中的一个幽灵。它困扰着那些天真的程序，因代码本身不可见的原因而使它们变慢。然而，对于那些学会其规律的人来说，这个幽灵可以被驯服，其力量可以被驾驭。驯服这个幽灵的旅程将我们从简单的编程难题带到科学计算的前沿，操作系统深处，甚至进入网络安全的阴影世界。

程序员的故事：一个链表的长途旅行

想象一下，你正在编写一个程序来遍历一个简单的数据结构——链表，它不过是一系列节点，每个节点指向下一个。在一台旧的、统一内存的机器上，从一个节点跳到下一个节点所需的时间总是相同的。然而，在 NUMA 系统上，情况可能大相径庭。

假设你的程序运行在“插槽 0”（Socket 0）的一个核心上，但当你构建链表时，操作系统并未察觉你的意图，将节点分散在所有可用内存中。也许它交替分配：第一个节点被本地分配在插槽 0，第二个节点被分配在遥远的插槽 1，第三个又回到插槽 0，依此类推。当你的程序遍历这个链表时，它踏上了一段令人沮丧的往返旅程。访问一个本地节点就像去隔壁串门一样快；访问下一个远程节点则像是通过互连拨打一个长途电话。每次跳跃的平均时间是快速本地延迟和慢速远程延迟的糟糕平均值。对于一个比本地访问慢两倍的远程访问，这种简单的、未经思考的分配方式可以使整个遍历过程比它本应有的速度慢 50%！

我们如何驱除这个性能幽灵？解决方案出奇地简单，并且是 NUMA 感知编程的基石：“首次接触”策略。许多现代操作系统遵循一个简单的规则：页面的物理内存被分配在首次访问（或“接触”）它的处理器的插槽上。一个聪明的程序员可以利用这一点。通过确保初始化链表的线程与稍后使用它的线程是同一个，你实际上是在告诉系统：“我将在这里工作；请把我的材料放在近处。” 结果是所有节点都落在本地内存中，每次访问都很快，远程延迟的幽灵也随之消失。

科学家的挑战：大规模计算

虽然驯服一个链表是个好的开始，但科学家和工程师面临的挑战在量级上完全不同。在模拟一个星系、为气候建模，或执行支撑现代机器学习的巨量矩阵乘法时，我们处理的不是单一的数据链，而是一个多维的数据宇宙。在这里，NUMA 感知从一个简单的技巧演变成一个深刻的架构原则。

考虑两个巨大矩阵的乘法， $C = A \times B$ 。如果计算任务被分配给两个插槽，每个插槽将需要 $A$ 的某些行和 $B$ 的某些列。如果数据被粗心地分布，每个插槽将花费大量时间从另一个插槽获取矩阵块，从而使互连饱和。关键的洞见是，我们必须设计算法的数据访问模式来匹配硬件的地理布局。通过将矩阵划分为块，并仔细安排哪个插槽计算结果的哪个部分，我们可以让大部分工作都在本地数据上完成。那些最少的、不可避免的通信可以以大型、高效的传输方式完成，而不是通过大量小的远程访问造成“千刀万剐”式的性能损失。

这个思想是高性能计算 (HPC) 的核心。对于大规模科学模拟，开发者使用一种混合方法，结合使用消息传递接口 (MPI) 进行节点（或插槽）间的通信，以及 OpenMP 进行单个插槽共享内存内的并行处理。这种策略最小化了通信“表面积”相对于计算“体积”的比例，减少了必须跨越慢速 NUMA 或网络链路的数据量。最复杂的设置甚至采用“拓扑感知的秩映射”，即软件的逻辑通信进程网格被智能地映射到超级计算机的物理网络上，确保模拟中的相邻进程在硬件上也是邻居。

系统架构师的困境：构建一个 NUMA 感知的世界

NUMA 的负担不能仅仅落在应用程序员身上。我们的基础软件工具——操作系统、编译器和数据库引擎——的架构师们必须构建一个默认即是局部性的世界，而不是例外。

操作系统内核是基础。当一个程序请求一小块内存时，内核的内存分配器开始工作。一个天真的全局分配器可能会从任何地方分配内存，导致我们之前看到的链表病态。然而，一个 NUMA 感知的内核会维护每个节点的内存池，就像 Linux 中的 slab 分配器一样。当插槽 0 上的一个线程请求内存时，内核会首先尝试从插槽 0 的本地池中满足它。这个简单的策略，结合一个试图将线程保持在同一插槽上（线程亲和性）的调度器，极大地增加了线程在其期望位置找到其数据的概率。

这个原则向上延伸到整个技术栈。想象一下一个带有即时 (Just-In-Time, JIT) 编译器的托管运行时，比如 Java 虚拟机 (JVM)。当它识别出一个被执行数十亿次的“热循环”时，JIT 会将其编译成高度优化的机器码。但是这些代码应该放在内存的什么位置？事实证明，代码和数据一样，也有一个“家”。将热循环的机器码放在另一个插槽的远程内存中，意味着该循环的每一次指令获取都可能遭受远程延迟的惩罚。一个 NUMA 感知的 JIT 不仅会优化代码，还会将其固定在线程运行所在插槽的本地内存中，通过确保指令本身是“本地的”，常常能带来巨大的性能提升。

这些挑战在现代事务型数据库中表现得最为明显。数据库是各种交互组件的交响乐，NUMA 惩罚可能来自每个角落。一个查询可能需要一个恰好驻留在远程插槽上的缓冲池中的数据页。为了确保一致性，它必须获取一个锁，但该锁的元数据也可能是远程的。如果缓冲池已满，必须逐出一个页面，而将该脏页写回其主节点可能又是另一次远程操作。要全面评估性能，需要对所有这些不同来源的远程命中概率进行建模，从数据访问到并发控制再到缓冲管理。

有时，系统架构师会面临一个残酷的困境，即两种优化相互冲突。为了加速地址转换，现代系统支持“巨页”，它覆盖的内存区域比标准的小页大得多。这减轻了转译后备缓冲器 (Translation Lookaside Buffer, TLB)——一个用于地址转换的缓存——的压力。但如果为你在插槽 0 上的应用分配一个巨页的唯一方法是将其放在插槽 1 的内存中呢？你面临一个权衡：享受更少的 TLB 未命中，但在每一次访问时都遭受远程延迟，或者使用本地的小页并遭受更频繁的 TLB 未命中。存在一个精确的“盈亏平衡点”，在这一点上，远程访问的惩罚恰好抵消了巨页带来的好处。理解这些权衡是系统性能调优的艺术。

理论家的视角：重温速度法则

几十年来，我们对并行计算极限的理解一直受到 Amdahl 定律的塑造。它告诉我们，我们能实现的最大加速比受限于程序中固有串行部分的比例。如果你程序中 10% 的部分无法并行化，那么无论你投入多少处理器，你永远无法获得超过 10 倍的加速。

NUMA 迫使我们为这个定律增加一个新的、发人深省的项。远程内存访问的开销就像一个额外的串行组件。这个开销不会随着你增加处理器而缩小；事实上，随着更多处理器竞争相同的互连，它常常会增长。我们可以认为 NUMA 惩罚构成了一个随处理器数量增加而增加的“有效串行分数”。这为我们直观感受到的东西提供了一种形式化的数学语言：NUMA 通信是一个根本性的瓶颈，它对可扩展性施加了一个新的、更严苛的限制。

间谍的游戏：当性能缺陷变成安全漏洞

这里我们到达了我们最后也是最令人惊讶的目的地。一个为性能设计的特性，一个硬件组织的细节，可以被扭曲成一种间谍工具。本地和远程内存访问之间的延迟差异不仅仅是规格表上的一个数字；它是一个信号。任何可以被秘密调制的信号，都可以被用来泄露那个秘密。

想象一个攻击者在插槽 0 上运行一个进程。他们希望获知一个在插槽 1 上运行的受害者进程使用的秘密比特。受害者的代码很简单：如果秘密比特是 1，它就执行一个大型计算，大量读写其在插槽 1 上的本地内存；如果比特是 0，它什么也不做。这种依赖于秘密的活动在插槽 1 的内存控制器和互连上产生了流量。

攻击者做了一件很聪明的事。他们反复计时访问他们故意放置在受害者插槽（即插槽 1）上的内存所需的时间。当受害者空闲时（ $s=0$ ），攻击者的探测穿过一个安静的互连，他们测量的延迟仅仅是基本的远程访问时间。但当受害者活跃时（ $s=1$ ），其内存流量在共享的互连和内存控制器上造成了“交通堵塞”。攻击者的探测被卡在这个队列中，他们测量的延迟明显更长。通过简单地测量自己内存访问的时间，他们可以可靠地区分受害者是忙碌还是空闲，从而推断出秘密比特。这是一种“基于争用的侧信道攻击”。

这是一个深刻且令人不安的联系。那个在科学计算中限制我们性能的完全相同的物理资源——互连——可以成为信息泄露的管道。内存系统的非统一性，一个性能挑战，变成了一个安全漏洞。

设计的统一性

从一个简单的链表到一个复杂的超级计算机，从可扩展性定律到间谍的艺术，非统一内存访问的原则贯穿着一条统一的线索。它提醒我们，我们的软件并非运行在一个抽象的数学领域，而是运行在一台具有可触摸地理的物理机器上。忽视这片地理，就会被糟糕性能和意外漏洞的幽灵所困扰。而理解它，并据此和谐地设计算法和系统，才是真正掌握现代计算机的关键。