首页伙伴分配器

伙伴分配器

玻尔百科

定义

伙伴分配器是一种将内存划分为 2 的幂次方大小的块以处理分配请求的内存管理算法。该系统通过将大块内存拆分为较小的成对块进行管理，并在释放时利用位异或运算识别相邻的“伙伴”块进行高效合并。它是操作系统管理物理内存页的基础组件，现已广泛应用于 GPU 共享内存和大型对象堆等现代应用场景中。

核心要点

伙伴分配器使用大小为2的幂的内存块来管理内存，通过分裂这些块来满足请求，并在释放时利用按位异或（XOR）操作定位“伙伴”，从而高效地合并它们。
尽管它通过即时合并有效地解决了外部碎片问题，但它将每个内存请求的大小向上取整到最接近的2的幂，这必然会导致内部碎片。
它是操作系统中管理物理内存页的基础组件，通常与Slab分配器配合使用，以高效处理小对象的分配。
该算法的速度和可预测性使其在各种现代应用中具有重要价值，包括GPU共享内存、大对象堆以及异构内存系统。

引言

管理计算机内存就像处理一块陶土；随着碎块被不断取用和归还，原本完整的一块会变成一堆零散无用的小块。这个问题被称为碎片化（fragmentation），它会使系统在总可用内存充足的情况下也无法找到大的连续内存块，从而严重影响系统性能。为了应对这种混乱，计算机科学发展出了多种优雅的策略，其中最基础的一种便是伙伴分配器（buddy allocator）。它施加了一种看似僵化但效率极高的规则，并已成为现代计算的基石。

本文将深入探讨伙伴分配器那优美的简洁性。在接下来的章节中，我们将首先探索其“原理与机制”，揭示其严格的2的幂次规则、级联分裂以及巧妙的位运算技巧如何实现快速的内存分配与释放。接着，我们将转向其“应用与跨领域关联”，展示这一核心算法如何在操作系统内核、GPU及其他复杂系统中作为关键组件发挥作用，证明了有时最强大的解决方案源于最优雅的约束。

原理与机制

想象一下，你得到了一大块完好无损的雕塑用陶土。一个人要一小块，另一个人要一中块，第三个人要一块形状奇特的大块。你把它们切下来。之后，他们归还了各自的陶土块。现在你手上只剩下一堆用过且形状不规则的土块。当下一个人需要一大块陶土时，你手上的陶土总量可能足够，但都分散在许多不相连的小块中。你无法将它们无缝地粘合在一起。这就是经典的碎片化问题，对于任何需要管理资源的系统，尤其是计算机内存而言，这无异于一场瘟疫。

伙伴分配器是一种优美简洁、近乎严酷的纪律性方法来解决这个问题。它不试图满足每一个任意大小的请求，而是施加了一套严格的规则，这些规则乍看之下似乎很浪费。但正是在这种刚性中，我们发现了一种深刻的优雅和卓越的效率，使其成为现代操作系统的基石。

秩序之美：2的幂次规则

伙伴系统的基础规则在其简洁性上堪称激进：所有内存块的大小都必须是2的幂。一个系统可能管理一个总大小为 $2^K$ 字节的内存池，而唯一允许的块大小是 $2^0, 2^1, 2^2, \ldots, 2^K$ 。不存在大小为37、100或500的块。一切都被严格规整。

最初，整个内存是一个单一的、大的、 $K$ 阶（大小为 $2^K$ ）空闲块。当需要一个较小的块时，这个大块不会被随意切割，而是被精确地一分为二，创建两个“伙伴”块，阶为 $K-1$ 。如果还需要更小的块，其中一个伙伴块会再次被一分为二，以此类推。这自然形成了一个二叉树结构，其中每个块（除了最小的块）都有一个父块和两个子块。

这种严格的、层次化的结构是关键。它用灵活性换取了秩序，并在这秩序中找到了力量。

分配之舞：一连串的分裂

让我们看看这条规则在实践中是如何运作的。假设一个程序请求一个大小为 $s$ 的内存块。伙伴分配器的第一步是持悲观态度。它知道除非 $s$ 恰好是2的幂，否则无法提供大小恰好为 $s$ 的块。因此，它将请求的大小向上取整到最接近的2的幂。例如，一个100字节的请求会被视为一个128字节（ $2^7$ ）块的请求。在某些系统中，在取整之前还会加上一个小的元数据开销，用于存储块本身的信息。

假设向上取整后的大小是 $2^k$ 。分配器会查询其空闲链表，这些链表仅仅是按阶（大小）整齐组织的可用块列表。是否存在一个 $k$ 阶的空闲块？如果存在，太好了！分配器直接将其交出，分配完成。

但如果不存在呢？分配器会接着寻找一个 $k+1$ 阶的空闲块。如果找到了，它会执行一次干净利落的分裂。这个 $k+1$ 阶的块被一分为二，成为两个 $k$ 阶的伙伴块。一个交给请求者，而它的“双胞胎”——它的伙伴——则被放入 $k$ 阶的空闲链表中。

如果连 $k+1$ 阶的块也没有，它会去寻找 $k+2$ 阶的块并进行分裂，从而创建一个 $k+1$ 阶的空闲块。然后它再分裂那个块，最终得到所需的 $k$ 阶块。这形成了一串优美的级联分裂，从能够满足需求的最小可用块开始，一路向下，直到获得完美的大小。这个过程是确定且可预测的：总是分裂地址最低的块，并持续分裂地址较低的那一半，将地址较高的那一半放入空闲链表。

XOR的魔力：找到你的双胞胎

我们通过分裂内存块，制造了一批分散在内存各处的“同胞兄弟”。我们该如何将它们重新组合在一起呢？这正是伙伴系统天才之处的闪光点，一个纯粹的二进制算术技巧。

对于任何大小为 $2^k$ 、起始地址为 $a$ 的块，其伙伴的地址可以通过一个惊人简单的公式得出：

$\text{buddy_address} = a \oplus 2^k$

在这里， $\oplus$ 是按位异或（XOR）运算。这简直是计算魔法。为什么这个方法有效？因为对齐不变性：一个大小为 $2^k$ 的块的起始地址必须是 $2^k$ 的倍数。这意味着其地址的低 $k$ 位全为零。而数字 $2^k$ 在二进制表示中就是在第 $k$ 位为1，后面跟着 $k$ 个零。

当你将地址 $a$ 与 $2^k$ 进行异或运算时，你实际上只是翻转了地址的第 $k$ 位。如果该位是0，它就变成1；如果是1，它就变成0。这让你瞬间跳转到由同一个父块分裂而成的另一个块的地址。寻找一个块的伙伴不是一次搜索；它是一次单一的、常数时间的计算。这正是伙伴系统效率的核心。

重聚：合并与对抗混乱

有了XOR这个技巧，释放内存的过程（称为合并）就变成了一场优雅的重聚之舞。当一个位于地址 $a$ 的 $k$ 阶块被释放时，分配器不仅仅是把它加入一个列表。它首先会问一个关键问题：“我的伙伴也空闲吗？”

它计算出伙伴的地址 $a \oplus 2^k$ ，并检查 $k$ 阶的空闲链表。如果伙伴也在那里，合并就会发生！分配器将伙伴从空闲链表中移除，然后两者融合成它们单一的 $k+1$ 阶父块。

但这场舞蹈并未就此停止。这个新形成的、更大的块可能也有一个空闲的伙伴。于是过程重复：分配器计算新块的伙伴地址并再次检查。这种递归合并会沿着层级结构一路向上，直到找到一个仍在使用中的伙伴，或者它已经一路合并回最初那个单一的、完整的内存块。

这种积极的、“最大化合并”策略保证了一个至关重要的不变性：绝不可能存在两个互为伙伴的空闲块。如果这样的一对可能存在，那么free操作在之前就已经将它们合并了。这种对碎片化的持续斗争已经融入了算法的结构之中。

纪律的代价：内部碎片

这个优美的系统并非没有代价。2的幂次大小的硬性规定导致了一种特定的浪费：内部碎片。当一个程序请求65字节时，它会得到一个128字节的块。分配给它的那个块里剩下的63字节就被浪费了。这些空间已经交给了程序，但程序并没有请求它们。

这种浪费能有多严重？乍一看，似乎可能非常糟糕。但一个简单的论证揭示了一个惊人地严格的界限。考虑一个大小为 $s$ 的请求，它被分配了一个大小为 $B = 2^k$ 的块。如果一个更小的块，比如 $B/2 = 2^{k-1}$ ，就足够了，那么分配器就会使用它。因此，分配器之所以选择大小为 $B$ 的块，必然是因为请求大小 $s$ 大于下一个更小的尺寸。

$\frac{B}{2} s \le B$

浪费的空间是 $B-s$ 。因为 $s$ 总是严格大于 $B/2$ ，所以浪费的空间 $B-s$ 必须总是严格小于 $B/2$ 。浪费的比例是 $(B-s)/B$ ，这个值必须小于0.5。

因此，无论如何，伙伴系统保证对于任何单次分配，内部碎片的量永远不会达到该块大小的50%。最坏的情况是请求的大小刚好超过2的幂，比如 $2^{k-1} + 1$ ，这会浪费掉几乎一半的块。

无法战胜的幽灵：外部碎片

伙伴分配器的主要目标是对抗外部碎片——即空闲内存散落在许多小的、不连续的块中的问题。它在这方面做得很好，但无法完全消除它。

想象一个场景，我们用最小尺寸的块（比如16字节）填满整个内存。现在，我们每隔一个块就释放一个。我们释放了整整一半的内存！但看看剩下的是什么：一个由已分配和空闲的16字节块组成的棋盘格图案。现在，如果我们请求一个32字节的块，请求将会失败。为什么？总的空闲内存非常大，但每个空闲块的伙伴都仍然处于已分配状态。无法发生任何合并。我们能提供的最大连续块是16字节。

这是一个病态案例，但它揭示了一个基本事实：即使有伙伴系统巧妙的合并机制，仍然可能存在大量“不可用的空闲”内存。分配器那条“只有伙伴才能合并”的严格规则，阻止了它将两个恰好相邻但来自不同父块分裂的“陌生”空闲块组合起来。

现实世界中的伙伴：从内核延迟到虚拟现实

那么，在这些权衡之下，伙伴分配器适合用在何处？其速度和可预测的行为使其在操作系统内核内部成为明星级的表现者。当内核需要内存时，它需要得快。最坏情况下的分裂或合并次数与阶数之差 $m-k$ 成正比，这为任何单次操作的延迟设定了界限。为保证响应性，一些先进系统甚至将部分分裂和合并过程推迟到后台线程执行，从而限制了任何单次操作可能花费的最长时间。

也许它最重要的角色是为虚拟内存系统管理物理内存。你电脑的CPU生活在一个干净、连续的虚拟地址世界里。但物理内存（RAM）却是一个混乱的地方。操作系统使用伙伴分配器来管理物理页帧（例如，4 KiB的块）。当你的程序请求一个大的、48 KiB的连续虚拟内存块时，操作系统可以通过从伙伴分配器中找到12个物理页来满足这个请求。这些页面可能散布在物理RAM的各处（例如，在帧100、305、101...）。

内存管理单元（MMU），一个硬件部件，会即时将CPU整洁的虚拟地址转换成混乱的物理现实，从而对程序完全隐藏了物理碎片。然而，系统的其他部分，比如使用直接内存访问（DMA）的网卡，通常使用物理地址。如果没有特殊的硬件（IOMMU），该设备会看到这些分散的页面并失败，迫使操作系统去寻找物理上连续的块，或者执行昂贵的数据拷贝操作到“弹跳缓冲区”。

这展示了现代计算机系统美妙的分层结构。伙伴分配器以其简单而强大的规则，在物理内存的混乱世界中提供了一个基础的秩序层，使得所有现代软件所依赖的虚拟内存的无缝幻象成为可能。这是一个计算机科学中深刻而优美的思想的完美典范：通过拥抱一个严格而优雅的约束，我们可以征服一个充满复杂性的世界。

应用与跨领域关联

在我们探索了分裂与合并的优雅机制之后，你可能会倾向于将伙伴分配器归档为一个聪明但小众的算法。这大错特错！它那个简单而强大的思想——通过减半和加倍来管理空间——不仅仅是学术上的好奇心。它是一个基本的构建模块，一个自然界（或者至少是计算机科学界）似乎钟爱的反复出现的模式。就像泥瓦匠用标准化的砖块可以建造从简单墙壁到宏伟教堂的一切事物一样，伙伴分配器的2的幂次块为我们有史以来构建的一些最复杂的软件系统提供了有序的基础。

让我们来探索这个美妙思想在何处焕发生机。我们将看到，它的应用不仅数量众多，而且已经融入了现代计算的肌理之中，从操作系统的核心到高性能计算和未来硬件的前沿。

操作系统的心脏

伙伴分配器最自然的家园是在软件栈的最底层：操作系统内核，负责管理机器的物理内存。你电脑中的内存是数十亿字节的浩瀚海洋，但操作系统更喜欢用“页”（pages）来思考——固定大小的块，通常是 $4~\text{KiB}$ 。伙伴系统是分配这些页的完美工具，根据需要提供 $1, 2, 4, 8, \dots$ 个页大小的块。

但在这里，我们立即面临一个深刻的挑战：连续性的暴政。想象一下，你需要一个非常大的、单一的、不间断的内存块——比如用于高分辨率视频帧或硬件设备的缓冲区。理论上，伙伴分配器可以通过将许多小的空闲块合并成一个大块来提供。但如果在一大片空闲空间的正中间，分配了一个微小的、不可移动的页，情况会怎样？伙伴系统依赖于特定地址对齐的严格规则就会受挫。那个“碍事”页面两侧的大片空闲区域不是“伙伴”，永远无法合并。这就是外部碎片的幽灵：你总的空闲内存足够多，但它们分散在太多不相邻的小块中，以至于你的大块内存请求失败了。

这不仅仅是理论上的担忧。一个高负载的系统是一个动态而混乱的地方。小的、生命周期长的内核数据结构就像溪流中不可移动的岩石，阻碍了大的连续空闲区域的形成。一个典型的例子是一个被硬件设备用于直接内存访问（DMA）的“钉住的”页；操作系统不敢移动它。在这种情况下，即使99%的内存是空闲的，单靠伙伴分配器也可能无力创建一个大块。

那么，操作系统如何摆脱这种暴政呢？它会引入更强大的工具。一个是内存规整（memory compaction），这个过程就像在计算机内存里玩俄罗斯方块。操作系统费力地将所有“可移动”的页移动到一个连续的区域，将所有空闲空间挤压成一个单一的大块。这是一个功能强大但代价高昂的操作，是当伙伴系统简单的合并机制失败时的最后手段。

一种更主动的方法是预留（reservation）。对于某些关键任务，比如为一个无法处理碎片化内存的旧式硬件设备提供大缓冲区，操作系统可以在启动时预留一个大的内存池。这块内存可以被“借出”用于其他用途，但在需要时，它的页面总能被回收，以形成保证的连续块。这就是Linux内核中连续内存分配器（Contiguous Memory Allocator, CMA）等机制背后的原理——一个确保伙伴分配器的碎片化问题不会妨碍关键硬件正常工作的安全网。

共生关系：伙伴与Slab分配器

我们已经看到，伙伴分配器在处理由小的、持久性分配引起的外部碎片时会遇到困难。我们也看到，对于非常小的请求，其2的幂次取整规则可能非常浪费——为一个65字节的对象分配一个512字节的块实在谈不上高效！这启发了一种美妙的分工。为什么不为小对象使用另一种工具呢？

这就是Slab分配器背后的洞察力。伙伴分配器仍然是粗粒度资源——页——的管理者。但它不再亲自为每个小请求服务，而是将整个页（或小的连续页组）交给Slab分配器。Slab分配器随后将这个页当作一块陶土，熟练地将其分割成许多小的、固定大小的槽，这些槽完美地为文件描述符或网络包头等对象量身定做。

这种两级层次结构是共生设计的杰作。Slab分配器解决了小对象的内部碎片问题，并且通过将它们限制在各自的Slab内，防止它们污染全局的页池。这反过来又帮助了伙伴分配器，减少了它需要处理的外部碎片，使其更容易找到和合并大的内存块。

这种关系甚至可以是动态和智能的。想象一下Slab分配器需要一个新的页。它可以向伙伴系统请求一个2页的块，或者两个1页的块。哪个更好？如果系统缺少2页的块，强迫伙伴分配器去分裂一个更大的块可能不是好主意，因为它可能妨碍未来一个真正的大块请求成功。通过使用操作系统级别的启发式方法，比如空闲链表上的“低水位线”，Slab分配器可以做出智能的请求，也许转而请求一个1页的块，以避免给系统带来压力。这是内存管理器各层之间持续不断的、安静的对话，所有这些都旨在使系统保持健康、无碎片的状态。

超越内核：经典算法的新前沿

伙伴系统的原理是如此基础，以至于它们在远超操作系统内核范围的领域找到了沃土。

其中一个最激动人心的舞台是图形处理器（GPU）。现代GPU是一个并行计算的巨兽，有成千上万个线程同时运行。这些线程使用一种称为“共享内存”的、极小且极快的片上内存进行通信和协作。高效地分配这种宝贵的资源对性能至关重要。伙伴分配器以其速度和简洁性，成为这项工作的绝佳候选者。在这里，碎片化的抽象概念具有直接、可衡量的成本。分配器因2的幂取整而浪费的每一个字节，都是另一个线程无法使用的字节。这直接减少了可以在硬件上同时运行的线程块数量——这是一个称为占用率（occupancy）的关键指标。较低的占用率通常意味着较低的性能。因此，在高性能计算的世界里，伙伴分配器的行为不仅关乎内存效率，更关乎计算吞吐量。

让我们跳转到另一个世界：托管语言运行时，比如Java或C#的运行时。这些系统具有自动垃圾回收器（GC），可以回收不再使用的对象的内存。许多高性能的回收器会移动对象来规整内存，这是一种称为复制式或压缩式GC的策略。然而，复制非常大的对象代价高得令人望而却步。解决方案是什么？一种混合方法。小对象存放在一个由移动式回收器管理的区域，而巨型对象则被放置在一个特殊的“大对象空间”（Large Object Space, LOS）中，它们永远不会被移动。那么，对于一个存放大小各异、不可移动的大对象的空间来说，什么是最完美的分配器呢？当然是伙伴系统！它处理可变大小大块和通过合并对抗外部碎片的能力，使其成为管理托管堆中“巨无霸”的理想选择。

最后，让我们展望计算机架构的近期未来：异构内存系统。你的下一台计算机可能拥有多种内存——少量超高速的DRAM和一个更大的、速度稍慢但持久的非易失性内存（NVM）池。操作系统如何管理这样的层次结构？一个常见的策略是为每个内存池运行一个独立的伙伴分配器。然后，一个高层策略引擎充当交通警察。它观察哪些数据是“热”的（频繁访问），哪些是“冷”的。当高速DRAM已满且一个新的热对象到来时，操作系统可以选择一个冷对象，将其迁移到较慢的NVM，然后将新的热对象放置在刚释放的DRAM空间中。这个决策是一个复杂的成本效益分析，权衡了访问延迟与迁移成本。在这场复杂的舞蹈中，伙伴分配器为管理每一层级内的空间提供了底层机制，使操作系统能够做出智能的、以性能为导向的放置决策。

从其作为一种组织内存的简单方式的卑微起源开始，伙伴分配器已被证明是一个惊人地多才多艺和经久不衰的思想。它的优雅之处不在于完美地解决每一个问题，而在于提供了一个简单、快速和可预测的基础，更复杂、更智能的系统可以在此之上构建。这是一个好想法力量的证明，一个简单的分裂与合并模式，为计算的美丽混沌带来了必要的秩序。