高性能计算中的数据布局

玻尔百科

定义

高性能计算中的数据布局是指为了适应硬件架构（如 SIMD 和多路服务器）而对数据结构进行的战略性组织。该技术通过采用数组结构（SoA）、数据填充以防止伪共享以及遵循 NUMA 架构的“首次触碰”策略，最大限度地提高缓存效率和计算吞吐量。针对多维问题，采用分块或瓦片式的数据布局对于减少缓存和 TLB 未命中、提升空间局部性具有至关重要的作用。

核心要点

将数据结构与硬件对齐，例如为 SIMD 处理使用数组结构体（SoA），可以最大化缓存效率和计算吞吐量。
在并行编程中，当位于同一缓存行上的独立变量导致严重的性能下降时，就会发生伪共享，这可以通过填充数据结构来解决。
在多插槽服务器上，非统一内存访问（NUMA）架构要求将数据和计算共同定位在同一节点上，这通常在初始化期间使用“首次接触”（first-touch）策略。
多维问题，如三维 FFT，受益于能够改善空间局部性并减少缓存和 TLB 未命中的平铺或分块数据布局。

引言

现代处理器速度惊人，每秒能执行数十亿次操作，但其性能却常常受限于一个根本性的瓶颈：从主内存中检索数据的过程极其缓慢。这种差异通常被称为“内存墙”，意味着若无精心规划，我们强大的处理器大部分时间都将用于等待数据，而非进行计算。数据布局的艺术与科学通过在内存系统中精心组织数据，使其与硬件协调一致，从而直接应对这一挑战。这是一种无形的编排，能够释放高性能机器的全部潜力。

本文深入探讨了数据布局的关键技术，这些技术能将运行缓慢的代码转变为效率典范。通过掌握这些概念，您可以弥合硬件潜力与软件性能之间的鸿沟。第一章 “原理与机制” 将通过探索内存层级结构、数据局部性的深层物理原理，以及并行编程中的伪共享等危险陷阱，为后续内容奠定基础。随后的 “应用与跨学科联系” 章节将展示这些原理如何付诸实践，通过计算流体动力学、数值宇宙学等领域的真实案例，揭示如何通过智能的数据布局显著提升单一算法的性能。我们的旅程将从审视支配所有现代计算机架构的基本权衡开始。

原理与机制

想象一下，您想在一间厨房里烹饪一顿美食，但食材却被随意乱放。面粉在卧室，鸡蛋在车库，盐在花园的某个地方。即使您是世界上最快的厨师，大部分时间也只会花在跑来跑去上，而不是烹饪。现代计算机就像一位速度惊人的厨师，每秒能执行数十亿次操作，但它也面临着类似的“厨房”挑战——内存系统。数据布局的艺术与科学正是关于如何整理这个厨房，安排数据，以便处理器将时间用于计算，而非等待。这关乎理解机器工作的深层物理原理，并使我们的软件与之协调一致。

距离的暴政：局部性与内存层级结构

每台现代计算机的核心都存在一个根本性的权衡：速度是昂贵的。最快的内存，即 CPU 的寄存器，可以在一个时钟周期内访问，但数量非常有限。稍远一些的是缓存（一级、二级和三级），它们容量依次增大但速度渐慢。更远的地方是广阔的主内存（DRAM），再往外则是固态硬盘等持久性存储。

速度差异并非微不足道，而是天壤之别。访问寄存器就像从桌上拿起一支铅笔。访问主内存则好比开车去市中心的图书馆，找到一本书，然后再开车回来。这种巨大的速度差距通常被称为“内存墙”，是性能的最大障碍。

那么，计算机如何应对呢？它会“作弊”。它赌的是一个被称为局部性原理的强大思想，该原理有两种形式：

时间局部性：如果您现在访问了一份数据，很可能很快会再次访问它。
空间局部性：如果您现在访问了一份数据，很可能很快会访问物理上与它相邻的数据。

缓存就是为了利用这一点而构建的。当处理器请求主内存中的一个字节时——即发生“缓存未命中”——它不仅仅取回那一个字节。它会取回一个称为缓存行的连续内存块，通常为 64 字节长。这就像去图书馆借一本书，却带回了它所在的那整个书架。计算机在赌你很快就会需要那个书架上的其他书。

这正是我们作为程序员发挥作用的起点。计算机已经对空间局部性下了赌注；我们的工作就是让这个赌注得到回报。考虑一个遍历大型对象数组的简单循环。每次访问之间在内存中的距离称为步幅。

如果步幅小于缓存行大小，我们就赢了。假设我们的对象每个 32 字节，缓存行是 64 字节。第一次访问对象 0 会导致缓存未命中，带入一个包含对象 0 和对象 1 的 64 字节缓存行。当循环处理到对象 1 时，数据已在缓存中——一次闪电般的缓存命中！在这里，每两次访问有一次未命中，未命中率为 0.5。
如果步幅大于缓存行大小，比如 128 字节，我们就会输得很惨。访问对象 0 会带入一个缓存行。访问 128 字节之外的对象 1，则落入一个完全不同的缓存行，导致另一次未命中。每一次访问都会导致一次到主内存的缓慢行程。未命中率为 1.0。

对数据结构大小的一个简单改变，比如通过压缩数据，可以将步幅从 128 字节削减到 32 字节。这一举动就能突然实现空间局部性，将一个高未命中率的工作负载转变为一个高命中率的工作负载，从而显著提升性能。平均内存访问时间（AMAT），即命中和未命中时间的加权平均值，会急剧下降。这是我们对数据布局力量的初步认识：布局直接控制局部性，而局部性决定性能。

为硬件构建数据：AoS、SoA 与并行性

知道数据是以 64 字节的块被消耗后，我们应该如何组织复杂数据？想象一个有数百万个粒子的模拟，每个粒子都有位置、速度、质量和电荷等属性。然而，对于某个特定的计算，我们可能只需要每个粒子的速度。

一种自然的编程方式是定义一个 Particle 结构体，并创建一个由它组成的大型数组。这就是结构体数组 (AoS) 布局：

[Particle1, Particle2, Particle3, ...] 其中 Particle1 = {pos1, vel1, mass1, ...}

当我们的代码循环访问 particle[i].velocity 时，处理器会取回一个缓存行。但这个缓存行不仅填充了我们想要的速度数据，还包含了该粒子的位置、质量和电荷——这些数据对于当前循环来说是“冷”的。这被称为缓存污染。我们浪费了宝贵的缓存空间和内存带宽在不需要的数据上，挤占了其他可能有用的数据。

还有另一种方法。我们可以将组织方式反转为数组结构体 (SoA)：

{ [pos1, pos2, ...], [vel1, vel2, ...], [mass1, mass2, ...] }

现在，所有的速度数据都被紧密地打包在一起。当我们的循环运行时，它会流式地遍历速度数组。每一个被拉入缓存的字节都是热的、有用的数据。没有污染。缓存被以最高效率使用，内存带宽也得到了节约。对于只访问部分字段的循环，SoA 布局通常能带来巨大的性能提升。

这一原则的应用超出了缓存的范畴，延伸到了处理器的执行单元。现代 CPU 采用单指令多数据 (SIMD)技术，允许它们同时对多个数据元素执行相同的操作。例如，一个 256 位的 SIMD 寄存器可以同时操作八个 32 位浮点数。但要利用这种能力，数据必须被正确地“排好队”。

考虑处理一个以 AoS 格式存储的 RGB 图像，其格式为 R0, G0, B0, R1, G1, B1, ...。如果我们想使用 SIMD 并行地对所有 R 值应用一个函数，我们首先必须从这个交错的数据流中提取它们，并将它们打包到一个 SIMD 寄存器中。这需要特殊的“shuffle”和“permute”指令，这些指令会消耗时间和精力。而 SoA 布局，将 R、G 和 B 值分别存储在三个独立的平面中，所提供的数据格式恰好是 SIMD 单元希望消费的。对于应用多种不同滤波器的复杂图像处理流水线来说，支付一次性成本将图像从 AoS 转换为 SoA，然后在完美组织的数据上运行所有后续操作，可能会高效得多。

并行性的危险：伪共享

当涉及多个处理器核心——即厨房里有多个厨师时，数据布局的世界变得更加错综复杂和危险。为防止混乱，当一个核心修改了一份数据时，它必须通知所有其他核心，它们的副本现在已经过时。这由缓存一致性协议管理，例如 MESI（Modified, Exclusive, Shared, Invalid）。简而言之，一个核心在写入一个缓存行之前，必须获得该缓存行的独占所有权。为此，它会向所有其他核心发送“作废”消息，迫使它们丢弃该行的副本。

这个必要的协议引发了并行编程中最隐蔽的性能缺陷之一：伪共享。当两个核心处理位于同一缓存行上的完全独立的变量时，就会发生伪共享。

想象一下两个线程在两个核心上运行，每个线程都在递增自己的私有计数器。counter_0 属于线程 0，counter_1 属于线程 1。如果我们天真地将它们存储在一个简单的数组中，long counters[2]，它们在内存中是相邻的，几乎肯定会落在同一个 64 字节的缓存行上。

核心 0 需要递增 counter_0。它获得该缓存行的独占所有权。
核心 1 需要递增 counter_1。它请求该行。这迫使核心 0 的副本失效并写回内存。核心 1 现在拥有独占所有权。
核心 0 需要再次递增 counter_0。它请求回该行，使核心 1 的副本失效。

缓存行在两个核心之间通过内存互连疯狂地“乒乓”传递。尽管线程的任务在逻辑上是并行的，硬件上的争用却使它们的执行串行化。我们观察到高并发性（许多线程准备运行），但并行加速效果却很差。这种硬件级别的数据依赖关系可以完全阻塞一个强大的乱序处理器，使其无法找到并执行独立的指令，从而导致数量级的性能损失。

解决方案虽然粗暴但有效：填充。我们必须有意地插入未使用的空间，以迫使独立变量分布在不同的缓存行上。例如，我们可以让每个计数器成为一个 64 字节的结构体。这虽然浪费了内存，但换回了我们的并行性。这是高性能计算中的一个基本权衡。

一种更精巧的方法，特别是对于涉及真共享（多个线程操作同一对象）和伪共享的场景，是使用每个工作者（per-worker）的本地存储。每个工作线程更新自己私有的、经过填充的副本，而不是让所有线程争用一组统计数据。然后，一个单独的聚合线程会定期将这些本地副本汇总起来，以产生全局结果。这优雅地消除了关键路径上的真写入争用和伪写入争用，从而实现了惊人的可伸缩性。

更宏观的视角：页、TLB 与 NUMA

如果我们从 64 字节的缓存行尺度放大视野，会发现另一层组织结构：虚拟内存页，通常为 4096 字节（4 KB）。这是操作系统（OS）管理的内存单位。为了将程序使用的虚拟地址转换为 DRAM 的物理地址，CPU 使用一个称为转译后备缓冲器 (TLB) 的特殊缓存。TLB 速度极快，但容量也非常小，可能只能容纳 64 到 128 个条目。

如果一个程序的内存访问模式表现良好，在一段时间内保持在少数几个页内，TLB 的工作效果会非常好。但是，如果访问模式在一个巨大的页数范围内不可预测地跳跃——例如，对一个跨越数万个页的巨型二维数组进行随机访问——TLB 就会不堪重负。这被称为 TLB 抖动。几乎每一次内存访问都会在 TLB 中未命中，从而强制进行一次缓慢的“页表遍历”，这可能涉及多次内存查找。

数据布局再次成为解决方案。我们可以不使用简单的行主序布局，而是将数据重组成平铺或分块布局。我们先完整处理一个能容纳在少数几个页内的小矩形块，然后再移至下一个块。这种对数据和计算的重构确保了我们的“工作集”页数很小，从而使 TLB 保持良好状态，性能得以提升。这就是为什么具有隐式笛卡尔布局的结构化网格通常比可能需要通过内存进行指针追逐的非结构化网格性能好得多的根本原因。

最后，让我们将视野放大到整台机器。一台现代高端服务器通常包含多个插槽，每个插槽都有自己的处理器和专用的内存库。在这种非统一内存访问 (NUMA) 架构中，一个核心访问其本地内存的速度远快于访问连接到另一个插槽的远程内存。一个简单的程序可能会让其线程在一个插槽上运行，而其数据却驻留在另一个插槽上，从而在每次访问时都产生严重的性能损失。这种“延迟叠加”对于依赖于在数据结构中追逐指针的工作负载来说可能是毁灭性的，因为每一步都必须等待前一步完成。

驾驭 NUMA 的关键是利用操作系统的首次接触（first-touch）策略。当一个程序首次访问一个虚拟页时，操作系统会在首次接触该页的核心所在的 NUMA 节点上分配物理页。因此，宏观策略是将数据与计算共同定位：

将一组线程绑定到特定插槽的核心上。
让这些相同的线程初始化它们将负责处理的数据。

这确保了线程处理的数据物理上存储在其本地内存库中，从而消除了 NUMA 远程访问的惩罚。这项技术对于在大型科学计算和数据分析中实现高性能至关重要。

从字节到插槽，数据布局是与硬件的一场对话。它是通过安排信息来尊重物理边界并利用架构优势的艺术。通过理解局部性、缓存行、伪共享和 NUMA 的原理，我们从单纯的程序员转变为真正的性能工程师，能够释放现代机器全部的、令人惊叹的力量。

应用与跨学科联系

想象一位大师级厨师在一个巨大的厨房里。为了准备一道复杂的菜肴，他们不会从一个绵延数英里的架子上随意抓取食材。相反，他们的工作空间被精心组织。常用物品放在他们正前方的台面上，不那么常用的放在附近的架子上，而大宗物资则存放在步入式储藏室里。他们烹饪的速度和优雅完全取决于这种深思熟虑的组织方式。高性能计算的世界就是这个厨房，处理器是我们不知疲倦的厨师，而我们在内存中安排数据的方式就是整理厨房的艺术。这就是数据布局的科学，它是将一个缓慢、笨拙的计算转变为速度与效率交响曲的无形编排。

这种编排的需求源于现代硬件一个简单而残酷的事实：处理器速度惊人，但从主内存访问数据却极其缓慢。为了跨越这道“内存墙”，计算机使用了一个由更小、更快的内存缓存组成的层级结构，就像厨师的台面一样。我们的目标是确保处理器需要的数据尽可能地已经在缓存中等待。此外，现代处理器就像能一次性切一整排胡萝卜的厨师，它们使用称为 SIMD（单指令多数据）的特殊向量指令。但这只有在胡萝卜整齐地并排排列时才有效。如果它们散落在厨房各处，厨师就只能一个一个地去捡。我们的数据布局应用之旅，就是一次探索如何把那些胡萝卜排成行的艺术之旅。

单处理器的舞蹈：缓存与向量

让我们从最简单的运动形式开始：直线。许多科学问题，例如求解一根杆上的热传递，最终都归结为在长长的一维数组上进行流式处理的算法。一个经典的例子是用于求解三对角系统的 Thomas 算法，它在计算流体动力学（CFD）中频繁出现。该算法先向前扫描数据，然后向后扫描。一个关键的洞见是，向后扫描并不需要所有原始数据；它只需要最初四个数组中的两个。

这就带来了一个选择。我们可以将数据存储为“结构体数组”（AoS），即对于杆上的每个点，我们将其所有物理属性组合在一起——就像地址簿中的一个条目。或者，我们可以使用“数组结构体”（SoA），即为每个属性设置独立的、连续的列表——一个所有温度的列表，一个所有压力的列表，等等。对于 Thomas 算法的第二遍扫描，SoA 布局是明显的赢家。它允许处理器只从主内存中流式传输它需要的两个数组，与 AoS 布局相比，有效地将内存流量减半，因为 AoS 布局会不必要地用不再相关的数据污染缓存。

当我们想要利用处理器的 SIMD 功能时，AoS 和 SoA 之间的选择变得更加关键。考虑一个常见的 CFD 任务：更新流体模拟中数百万个单元的状态（密度、压力、速度）。相同的更新规则应用于每个单元，这种情况简直就是为 SIMD 量身定做的。在 AoS 布局中，单元 1 的密度旁边是单元 1 的压力，而不是单元 2 的密度。要将例如四个连续单元的密度加载到一个 4 通道 SIMD 寄存器中，处理器必须执行一次“收集”（gather）操作——从非连续的内存位置抓取数据。这很慢。

解决方案是进行数据布局转换。通过将数据转换为 SoA 布局，所有的密度都变成了一个单一的、连续的数组。现在，处理器可以用一条闪电般快速、对齐的向量指令加载四个、八个甚至更多连续的密度值。仅仅通过重新排列数据，我们就让硬件能够充分发挥其潜力，将一系列缓慢的、单独的步骤转变为一个强大、同步的飞跃。

但如果问题本身不规则怎么办？如果我们的数据是“稀疏”的，就像一个庞大的社交网络，其中人们只与少数几个人相连，而不是所有人？稀疏矩阵向量乘法（SpMV）是许多此类问题的计算核心，从模拟网络到求解大型工程系统。每行的非零元素数量可能千差万别，这对于 SIMD 的同步执行来说是一场噩梦。将每一行都填充到最长行的长度将是灾难性的浪费。

在这里，数据布局变成了一项微妙的妥协艺术。一个绝妙的解决方案是 Sliced ELLPACK (SELL- $C$ - $\sigma$ ) 格式。它不强制实施全局统一性，而是创建了小范围的规则性区域。它将行分组为小块（例如，每块 $W$ 行，其中 $W$ 是 SIMD 宽度），并且仅将行填充到该块内的最大长度。通过预先按行长度排序，我们可以确保每个块包含长度相似的行，从而最大限度地减少填充浪费。我们为 SIMD 单元制造了恰到好处的规则性，让它们可以大快朵颐，而无需支付高昂的内存代价。这就是数据布局的精髓：在混乱中发现隐藏的秩序，并以硬件能理解的方式呈现给它。

宏大的芭蕾：多维与多处理器的世界

世界不是一维的，我们的模拟也不是。当我们转向二维或三维时，数据布局的挑战会加剧。一个典型的例子是快速傅里叶变换（FFT），它是从信号处理到数值宇宙学等领域的基石，在数值宇宙学中，它被用来分析宇宙的大尺度结构。三维 FFT 通常是沿着每个轴进行一系列一维 FFT 来执行的。标准的“行主序”布局，即 $x$ 方向的元素是连续的，非常适合 $x$ 轴的 FFT。但当我们切换到 $y$ 轴时，连续的元素之间被一个等于整行长度的“步幅”隔开。对于 $z$ 轴，步幅更大——等于一个二维切片的完整大小。这些大步幅对缓存来说是毒药，因为每次内存访问都可能是缓存未命中。

解决方案是放弃简单的线性排序，采用一种尊重数据多维性质的布局。通过将三维网格分解成更小的、连续的三维“砖块”或“瓦片”，我们确保在三维空间中彼此接近的元素在线性内存中也彼此接近。这极大地改善了沿任何轴的操作的空间局部性。同样的分块策略也是稠密线性代数库中实现高性能的关键，它通过确保子矩阵由缓存友好的瓦片组成，使 QR 分解等算法能够高效地对子矩阵进行操作。同样的原则也适用于现代高阶数值方法核心的张量收缩，其中，安排数据以使最内层的收缩循环访问连续内存，对于性能至关重要。

有时，不规则性不在于数据结构，而在于内存访问模式本身。有限元法（FEM）的组装阶段就是一个经典的例子，它被用来模拟从桥梁到血液流动的一切。在这里，我们在一个小的、完全规则的局部单元上计算贡献，然后必须将这些结果“散布”到一个大的、稀疏的全局矩阵中。写入的内存地址看起来是随机的，由网格的连通性决定。这是“收集”和“散布”操作的数字等价物，是一个臭名昭著的性能瓶颈。我们无法使访问模式本身变得规则。但我们可以做一些非常聪明的事情：我们可以重新排列全局网格中节点的编号。通过使用将空间上相近的节点分组的算法，我们可以确保我们散布到的“随机”内存位置，更常地彼此靠近。这并不能消除散布操作，但它使其对缓存更加友好，将一堆混乱的内存写入变成了一阵更局部化的活动。

当我们从单个处理器核心转向多插槽机器时，数据布局呈现出一个新的维度：非统一内存访问（NUMA）。在这样的系统上，每个处理器都有自己的“本地”内存库，访问兄弟处理器的“远程”内存则明显更慢。在执行大型矩阵乘法时，我们应该如何分配矩阵 $A$ 、 $B$ 和 $C$ ？通过分析数据流，一个优美的策略浮现出来。如果我们按行划分输出矩阵 $C$ ，每个处理器负责一个行块。为了计算它的 $C$ 块，一个处理器需要相应的 $A$ 的行和整个矩阵 $B$ 。因此，最优策略是将所需的 $A$ 的行与每个处理器的 $C$ 的部分共同定位，并为每个处理器提供一份完整的矩阵 $B$ 的副本。复制 $B$ 的一次性成本远小于使后续数十亿次内存访问都变为本地访问所带来的巨大性能增益。

超级计算机的交响曲：规模化的数据布局

进一步扩大规模，我们进入了分布式内存超级计算机的领域，其中数千个处理器通过网络连接。在这里，“数据布局”是关于决定哪个处理器“拥有”模拟的哪一部分。例如，在一次大规模的分子动力学（MD）模拟中，模拟空间被分解为多个域，每个处理器负责其域内的原子。为了计算其原子的受力，处理器需要邻近原子的位置，而这些原子可能驻留在另一个处理器上。这就需要进行“光环交换”（halo exchange），即从邻近处理器复制一层薄薄的“幽灵”原子位置。时间积分算法的选择直接决定了必须存储和通信的数据。像 Beeman 这样的算法不仅需要当前的加速度，还需要前一个时间步的加速度。这意味着当一个原子从一个处理器的域迁移到另一个处理器的域时，它的新主人必须接收其完整的状态——位置、速度以及当前和之前的加速度——才能无缝地继续积分。物理学决定了数据，而数据布局策略则成为遍及整台机器的通信与状态管理的复杂舞蹈。

最后，我们如何编写一个既能在多核 CPU 上又能在海量并行 GPU 上表现良好的单一科学代码？这些架构截然不同。CPU 拥有少数强大的核心，配备大缓存和复杂的向量单元。GPU 则拥有数千个更简单的核心，它们被组织成同步执行的“线程块”（“warps”），并能访问一个小的、极快的手动管理的“共享内存”。

答案在于将数据布局和并行性的基本原则抽象成一个“性能可移植性”层。像 Kokkos 这样的库允许科学家根据层次化并行性来表达他们的算法。人们可以这样指定：“为我模拟中的每个元素分配一个线程团队。该团队应使用快速的暂存内存进行中间计算。在团队内部，将工作分配给各个线程，对于最内层的循环，使用向量级并行。”

这种抽象描述完美地捕捉了 DG 方法中高效求和因子分解算法的精髓。然后，性能可移植性层就像指挥家一样，将这些指令智能地映射到具体的硬件上。在 GPU 上，它将“团队”映射到一个线程块，“暂存内存”映射到片上共享内存，“向量级并行”映射到 warp 的线程。在 CPU 上，它将“团队”映射到一个核心的线程，“暂存内存”映射到 L1/L2 缓存，“向量级并行”映射到 SIMD 通道。其基本原理——本地数据复用、向量单元的连续内存访问以及层次化并发——是通用的。可移植性层只是提供了表达它们的语言，使得一段优雅的代码能够在各种硬件舞台上表演一出优美而高效的芭蕾。

从组织一个单一数组到在一台超级计算机上编排计算，数据布局是计算科学中默默无闻的英雄。它是理解算法的抽象逻辑与机器的物理现实之间深层、密切联系的艺术。通过掌握这门艺术，我们释放了计算机的真正力量，使它们能够应对最宏大的挑战，从解开宇宙的奥秘到设计未来的材料。