分代垃圾回收

玻尔百科

定义

分代垃圾回收是计算机科学中基于弱分代假说的一种内存管理策略，该假说认为大多数对象的生命周期极短。这种方法将堆内存划分为存放新对象的“新生代”和存放长寿对象的“老年代”，并利用写屏障机制高效追踪跨代引用。分代垃圾回收通过频繁回收新生代并减少对整个堆的扫描，显著提升了内存管理系统的性能。

核心要点

分代垃圾回收建立在弱分代假说之上：大多数对象的生命周期极短，而存活了一段时间的对象则很可能存活更长时间。
该策略将内存堆划分为用于存放新对象的“nursery”（新生代），该区域被频繁且快速地回收；以及用于存放长寿对象的“老年代”，该区域被回收的频率较低。
写屏障是一种关键机制，它能高效地跟踪从老年代指向新生代的指针，从而在次要回收期间无需以扫描整个老年代这种高昂代价来确保正确性。
分代 GC 的性能并非孤立的；它与编译器优化、硬件内存模型，乃至高层级的应用程序设计选择都紧密交织。
调优 nursery 大小、晋升阈值和卡片大小等参数涉及关键的权衡，需要在回收频率、内存开销和晋升短命垃圾的风险之间取得平衡。

引言

自动内存管理是现代编程语言的基石，它将开发者从手动分配和释放内存这一易于出错的任务中解放出来。然而，并非所有的垃圾回收器都生而平等。那些对所有对象一视同仁的简单方法，往往会导致效率低下和干扰性的应用程序暂停。分代垃圾回收作为一种优雅而强大的解决方案应运而生，它建立在一个关于程序行为的简单而深刻的观察之上。这一策略通过将回收工作的重点放在最有效的地方，极大地提高了效率，但其精妙之处不仅在于其自身的机制，更在于它与整个计算生态系统的深层联系。

本文将带领读者踏上一段理解这项关键技术的旅程。首先，在“原理与机制”一章中，我们将从底层开始解构回收器，从基础的分代假说出发，逐步讲解双代结构、写屏障的巧妙侦测，以及性能调优的精妙艺术。随后，“应用与跨学科关联”一章将把视野拉远，揭示分代 GC 如何不是一个孤立的组件，而是一个核心原则，与编译器、硬件架构师、机器学习模型，乃至新编程语言的设计进行着复杂的互动。

原理与机制

要真正领略分代垃圾回收的优雅，我们绝不能仅仅学习其规则，而应亲身去发现它们。让我们踏上这样一段旅程：从一个关于程序本质的简单观察出发，并由此一步步构建出整个机制。我们将发现，正如科学与工程中常见的那样，一个强大思想催生出一个优美而复杂的结构，其中还伴随着其自身引人入胜的挑战和巧妙的解决方案。

分代假说：程序的一个奇特习性

让我们从观察计算机程序的行为开始。在生活的许多领域，我们都能观察到一个共同的模式：事物要么很快就失效，要么能持续很长时间。一个新灯泡要么在最初几小时内烧坏，要么就可能亮上好几年。程序创建的数据对象也大抵如此。如果我们为每个新对象赋予一个“生命周期”，用程序在对象不再被需要前所完成的工作量来衡量，我们会发现一个惊人的趋势。这个趋势被称为弱分代假说，它是我们构建整个回收器的基石。

它的表述很简单：绝大多数对象都是朝生夕死的。

这不仅仅是一个模糊的直觉，而是一个我们可以度量的经验事实。想象一下，我们分配一百万个新对象，并跟踪在一系列“回收周期”后仍有多少对象在使用中。数据可能看起来是这样的：

经过 1 个回收周期，仅有 35% 的原始对象存活。
经过 2 个回收周期，仅有 18% 存活。
经过 3 个回收周期，仅有 12% 存活。

请注意这种急剧的下降。高达 65% 的对象在第二次回收有机会检视它们之前就已变得无用！但现在，请仔细观察那些幸存者的情况。从第 5 周期到第 6 周期，存活率的差异非常小（从 9.5% 降至 9.3%），而从第 6 周期到第 7 周期则更小。这引出了该假说的第二个同等重要的部分：一个存活了一段时间的对象，很可能会存活更长的时间。

把它想象成一个繁忙的夜店。大多数进来的人只是短暂停留一会儿就离开。只有一小部分是会待到打烊的忠实常客。如果保镖要不断地询问俱乐部里的每一个人是否准备离开，那将是极其低效的。一个更聪明的策略是把注意力集中在出入口区域，因为那里的人员流动最为频繁。

这正是我们将用来构建垃圾回收器的洞见。

为二元世界设计的二部机器

如果我们的程序世界被划分为短暂的访客和长期的居民，为什么不构建一个能反映这一点的内存系统呢？我们将把我们的堆——程序总内存空间——分割成两个截然不同的区域。

Nursery：新来者的场所

首先，我们创建一个称为 nursery（或新生代）的小区域。所有新对象都在这里诞生。由于它是为短生命周期对象设计的，我们可以让它变得极其高效。分配一个新对象快如闪电；我们使用一种称为指针碰撞分配的技术，它所做的仅仅是在一块连续的内存中前移一个指针，就像从一卷票中按顺序分发票据一样。

我们通过一种称为次要回收（minor collection）的操作频繁地清理 nursery。当 nursery 满了，程序会短暂暂停。回收器会迅速识别出少数仍然“存活”（即，可从程序的“根”追溯到）的对象，并将它们移出。因为分代假说告诉我们这里的大多数对象都将是死的，所以需要完成的工作量——需要复制的对象数量——非常小。对于典型的应用程序，nursery 中超过 99% 的对象可能都是垃圾，这意味着我们只需复制存活的 1%。这使得次要回收极其快速，从而导致程序执行中的暂停非常短暂且不频繁。

老年代：长寿对象的家园

那么幸存者去哪里了呢？它们被晋升（promoted）到一个更大的区域，称为老年代。这里是 VIP 休息室，是那些通过在一次或多次次要回收中存活下来、证明了自己长寿性的对象的宁静养老院。因为我们假设这些对象会长期存在，所以我们不常去打扰它们。老年代只偶尔通过一个更彻底、因此也更慢的过程，即主要回收（major collection）来进行清理。

我们可以把老年代看作一个水库。从 nursery 晋升上来的存活对象是持续的流入，我们称其速率为 $p$ 。主要回收过程是流出，速率为 $c$ 。只要回收速率能跟上晋升速率（ $c \ge p$ ），系统就是稳定的。但如果晋升超过了回收（ $p > c$ ），水库将不可避免地满溢，导致内存溢出错误。这个简单的模型表明，老年代的健康状况取决于流量的微妙平衡。

机器中的间谍：写屏障

我们设计了一个非常高效的系统。通过将精力集中在 nursery 上，我们成功地以最小的努力回收了绝大多数垃圾。但我们的设计中存在一个微妙而危险的缺陷。

当老年代中的一个对象创建了对新生代中某个对象的引用时，会发生什么？例如，一个长寿的 CustomerList 对象中添加了一个新的、年轻的 Order 对象。我们的次要回收过程从一组“根”（如全局变量和程序的执行栈）开始，找出所有可达的年轻对象。如果我们只扫描这些根，我们就会漏掉这个新的 Order 对象，因为它只能从老年代的 CustomerList 到达。回收器会错误地断定 Order 是垃圾并将其删除。

为了解决这个问题，我们可以在每次次要回收期间扫描整个老年代来寻找这类指针。但这将是灾难性的！它会完全摧毁我们获得的效率。为了清理一个小小的 nursery 而扫描一个数 GB 大的老年代，是得不偿失的。

解决方案不是更努力地搜索，而是更聪明。我们不主动搜索这些指针，而是让程序在创建它们时告诉我们。我们通过安装一个间谍来做到这一点：写屏障（write barrier）。写屏障是一小段由编译器自动插入的代码，它在任何向对象字段写入指针的指令之后立即运行。

它的工作是监视一个特定事件：一次从老对象指向年轻对象的指针写入。当它看到这种情况时，它会做个记录。这个记录的集合被称为记忆集（remembered set）。

一种非常普遍且高效的实现方式是使用卡表（card table）。想象一下，整个老年代是一张巨大的城市地图。我们将这张地图分成大小相等的“区”，称为卡片（card）（比如，每张 512 字节）。写屏障的工作非常简单：如果一个指针被写入到某个区内的任何地方，它只需在地图上对应的区画上一个红色的'X'。它不需要知道确切的地址或写入了什么；它只记录该区现在是“脏”的。

有了这个机制，次要回收的工作又变得简单了：

扫描标准的根。
查看卡表地图，并只扫描脏区的内容以查找指向 nursery 的指针。

这是一个优美的权衡。我们为某些指针写入支付了微小的、近乎恒定的“税”，作为回报，我们免除了每隔几毫秒就要扫描整个老年代的艰巨任务。这个系统是如此精妙，以至于智能的编译器甚至可以识别出某些情况，比如初始化一个全新对象的字段时，写屏障被证明是不必要的，可以被安全地省略，从而进一步减少开销。即使是像一个对象被终结器线程“复活”这样的棘手情况，只要间谍监视着所有可以修改堆的线程，也能被正确处理。

调优的艺术：平衡机器

我们的机器现在已经完整且正确，但还不完美。它是一个充满平衡权衡的系统，对其参数进行调优是一门揭示其深层工程原理的艺术。

Nursery 大小： nursery 应该多大？一个更大的 nursery 意味着对象在被回收前有更多时间死亡，从而减少了需要复制的幸存者数量。这也意味着回收不那么频繁，从而分摊了每次回收的固定成本。然而，更大的 nursery 显然会消耗更多的内存。存在一个最佳点，一个最优大小 $B^{\star}$ ，它通过平衡回收工作的成本和内存的“租用”成本来最小化总成本率。
晋升阈值： 一个对象在被我们晋升之前必须经历多少次次要回收？如果阈值太低，我们可能会冒着晋升即将死亡的对象的风险，从而用垃圾污染了老年代。这被称为晋升失败。一项分析表明，使用简单的晋升方案，超过 44% 的晋升对象可能在晋升后几乎立即死亡。通过引入一个中间的“幸存区”作为等候室——实际上是创建了一个三层系统——这个失败率可以被削减到仅 3%。这就是为什么许多现代 GC 在新生代中使用一个或两个幸存区的原因：它们给对象更多机会死亡，然后才被授予在老年代的永久居留权。
卡片大小： 我们卡表地图上的“区”应该多大？这个选择在精度和开销之间呈现了一个有趣的权衡。如果我们使用非常大的卡片（例如 4096 字节），我们的地图（卡表本身）会很小。但我们会遭受伪共享（false sharing）之苦：对一个对象的单次写入迫使我们扫描一个包含许多其他不相关对象的大区域。这可能导致一个称为浮动垃圾（floated garbage）的问题，即脏卡上的一个已死的老对象包含一个指向年轻对象的指针，从而不必要地使该年轻对象保持存活。一次模拟显示，将卡片大小从 512 字节增加到 4096 字节，会使浮动垃圾的数量增加近七倍。另一方面，如果卡片太小，卡表本身会变得很大，管理它的开销也会增加。最坏的情况是，写入如此频繁和广泛，以至于每一张卡片都被标记为脏，迫使我们无论如何都要扫描整个老年代，使我们的聪明方案变得毫无用处。

当假说失效时

分代回收的整个宏伟结构都建立在一个简单假设之上。但当这个假设是错误的时候会发生什么？如果一个程序并不主要创建短生命周期和极长生命周期的对象呢？

想象一个程序，其主要工作是创建“中生命周期”的对象——这些对象恰好活得足够长，能够熬过 nursery 并被晋升，但在到达老年代后不久就死亡了。这是 GC 的噩梦情景。

新生代努力工作，通过几次次要回收来让这些对象存活。
系统随后付出代价将它们晋升到老年代。
老年代迅速被这种“已晋升的垃圾”填满。
这触发了频繁且昂贵的主要回收来清理老年代。

结果是所有世界中最糟糕的：程序遭受了频繁次要回收的开销、晋升的成本，以及频繁主要回收带来的长暂停。低效指数——衡量每次分配的 GC 成本的指标——急剧飙升。

这告诉我们，分代垃圾回收，尽管其才华横溢，并非万能灵药。它是一个高度专业化和优化的工具，旨在为一种非常普遍的程序行为模式提供卓越性能。理解它的原理，从高层的假说到写屏障的底层机制，让我们不仅能欣赏它的天才之处，也能认识到其固有的局限性。

应用与跨学科关联

在遍历了分代垃圾回收的原理与机制之后，我们可能会倾向于将其视为一项巧妙、自成体系的工程杰作，一个针对技术问题的简洁解决方案。但这样做，就好比只欣赏一个精美的齿轮，而没有看到它所驱动的奇妙钟表机构。分代假说——即大多数事物都是朝生夕死——的真正优雅之处，不仅在于其内在逻辑，更在于它在整个计算生态系统中产生的深刻且往往出人意料的涟漪效应。它不仅仅是一个组件；它是一个基础性原则，塑造了我们设计算法、构建编译器、架构硬件，乃至创造新编程世界的方式。

现在，让我们来探索这幅更宏大的画卷，看看这个关于短暂性的简单观察是如何在十几个不同领域成为一股指导力量的。

与编译器的共舞

乍一看，编写代码的程序员和清理内存的垃圾回收器似乎在各自独立的世界里运作。程序员思考的是抽象——列表、对象、函数——而回收器思考的是字节和指针。然而，它们之间进行着一场复杂而持续的舞蹈，一方的舞步深刻地影响着另一方。

考虑一下算法设计中的一个简单选择：我们是原地修改数据，还是创建一个带有更改的新副本？后者，一种“非原地”或函数式风格，通常更清晰且易于推理。它产生一系列转换，每个阶段都创建一个新的、临时的数据结构，使用后很快被丢弃。这种编程风格会产生大量的短生命周期“垃圾”。一个简单的垃圾回收器会被此 choking (阻塞)。但对于分代回收器来说，这不是问题；这是一曲交响乐！大量短生命周期的对象正是新生代被设计用来以极高效率处理的。数据的短暂性与分代假说完美契合，使得回收器能够以最小的成本回收大片内存。相反，一个原地算法通过复用内存，最小化了分配，并从整体上降低了回收的频率。一个算法范式的选择，一个高层次的创造性决策，对内存管理的底层行为产生了直接且可量化的影响。

当我们考虑到编译器作为编舞者的角色时，这场舞蹈变得更加亲密。现代编译器是优化的宗师，不断寻求让代码运行更快的方法。它最喜欢的技巧之一是“内联”——用函数体本身替换函数调用。这可以通过消除调用的开销来提高性能。但这与垃圾回收有什么关系呢？内联可能会增加我们在一个热循环中写入对象字段的次数。如果那个对象恰好在老年代，每一个可能指向年轻对象的指针写入都必须通过写屏障。更多的写入意味着更多的屏障检查，成本会累积起来。突然之间，一个看似无关的编译器优化决策，对垃圾回收器的运行时开销产生了直接、可衡量的影响。编译器不能在真空中进行优化；它必须意识到维护分代不变性的成本。

这种协作的顶峰体现在即时（JIT）编译器中，它们在代码运行时进行优化。这些系统会做出大胆的、推测性的假设——例如，将一个堆分配的对象当作一个保存在 CPU 寄存器中的简单值（标量替换）。但如果推测结果是错误的，会发生什么？系统必须执行一次“去优化”，这是一个在飞行中进行的疯狂操作，以返回到一个安全状态。这涉及到在堆上实体化那些前一刻还只作为短暂值存在于处理器思维中的真实对象。这些新对象应该放在哪里？我们又该如何修补所有指向它们以及从它们发出的指针，而不违反 GC 的严格规则？一个正确的去优化处理器必须小心地将这些对象分配在新生代，并为任何从老年代创建的新指针细致地应用写屏障，确保分代不变性不被破坏。这是协同作用的惊人展示，一场高空走钢丝表演，其中编译器和垃圾回收器必须完美同步，以同时保持速度和安全性。

生命周期的逻辑：从启发式到预测

分代假说是一个统计上的真理，但并非所有对象生而平等。有些对象生来就注定长寿。一个智慧的运行时系统，就像一个智慧的社会一样，学会识别这些个体并区别对待它们。

一个经典的例子是字符串驻留。为了节省内存，许多语言运行时只存储每个唯一字符串字面量的一个副本。每当创建一个新字符串时，系统会检查一个全局表，看是否存在一个完全相同的字符串。如果存在，它就返回对现有字符串的引用。这些被驻留的字符串，就其本质而言，是长寿的；它们被保存在一个全局表中，并且永远不应被丢弃。让它们像真正的短暂对象一样在新生代经历同样的“火的考验”有意义吗？也许没有。一种替代方案是“预晋升”：将这些已知的长寿对象直接分配到老年代。这节省了在次要回收期间反复复制它们的成本。然而，这并非免费的午餐。老年代中一个指向新分配的年轻对象的对象，会在记忆集中创建一个条目，增加了写屏障和必须扫描此集合的次要回收的开销。这个决策涉及到一个仔细的权衡，即在新生代中复制的成本与从老年代跟踪引用的成本之间的权衡。

我们可以通过思考“晋升阈值”来推广这个想法——一个对象在被认为是老对象之前必须达到的年龄，以存活的回收次数来衡量。正确的年龄是多少？如果我们过于不耐烦，过快地晋升对象，我们就会用即将死亡的对象污染老年代，这种现象称为“过早晋升”。这会膨胀老年代，并迫使进行更频繁、更昂贵的`主要回收。如果我们过于耐心，我们会在新生代内花费太多精力反复复制长寿对象。对对象生命周期进行数学建模，例如将它们视为短生命周期和长生命周期群体的混合体，揭示了一个优美的真理：更有耐心并增加晋升阈值，会持续减少过早晋升的垃圾量。多复制几次真正长寿的对象，也比错误地给予一个短寿对象“永久职位”要好。

这条推理线索将我们引向一个诱人的前沿：如果我们能为某些对象制定特殊规则，我们能否为所有对象学习规则？这就是垃圾回收世界与机器学习相交的地方。想象一个分类器，在对象被分配的那一刻，根据其类型、大小和创建它的代码位置等特征来预测其生命周期。预测为短生命周期的对象像往常一样进入新生代。但预测为长生命周期的对象可以被预晋升，直接进入老年代。当然，模型会犯错。一个假阳性（一个被预测为长寿的短寿对象）会污染老年代。一个假阴性（一个被预测为短寿的长寿对象）必须忍受晋升过程。然而，通过仔细地为成本和收益建模，构建一个即使是不完美的机器学习模型也能比简单的、一刀切的基线带来显著性能提升的系统是可能的。这将 GC 调优从一门手动启发式的玄学，转变为一门数据驱动的科学。

计算的物理学：硬件与并发

软件并非运行在抽象的数学领域；它运行在物理硬件上，受制于电子学定律和现代架构的复杂性。一个健壮的垃圾回收器不能忽视这个物理现实；它必须拥抱它。

在现代多处理器上，这一点表现得尤为明显。我们可能想象，如果一个处理器执行了指令 A，然后执行了指令 B，那么系统中的所有其他处理器都会先看到 A 的效果，然后再看到 B 的效果。在许多现代架构上，如 ARM 或 POWER，这根本不是真的。为了最大化性能，硬件可能会对内存操作进行重排序。考虑写屏障：它首先将一个指针写入字段，然后在一个表中标记一个“卡片”以表示该区域是脏的。如果另一个处理器在看到新的指针值之前就看到了卡片被标记，会发生什么？GC 线程可能会扫描该区域，错过新的（但尚未可见的）指针，并错误地回收一个存活的对象。为了防止这种灾难性的竞争条件，写屏障必须使用称为“内存栅栏”的特殊指令。例如，标记卡片必须是一个“释放”操作，而 GC 检查卡片必须是一个“获取”操作。这些栅栏充当屏障，迫使硬件尊重事件的逻辑顺序。写屏障不仅仅是一段软件逻辑；它是一个精心构建的协议，尊重并发世界中内存一致性的基本物理规律。

在具有非统一内存访问（NUMA）架构的大型服务器系统上，硬件交互的挑战急剧增加。在 NUMA 机器中，系统由多个节点组成，每个节点都有自己的本地内存。处理器可以快速访问其本地内存，但访问远程节点上的内存则要慢得多。一个“NUMA-unaware”（NUMA-无感知）的垃圾回收器会将所有内存视为平等，导致线程不断因等待缓慢的远程内存访问而停顿，从而造成巨大的性能下降。一个复杂的、NUMA-感知的分代 GC 会适应机器的物理拓扑。它可能会为每个节点维护一个独立的年轻代和记忆集。当节点 A 上的线程需要记录一个指向节点 B 上年轻对象的指针时，它不会立即执行缓慢的远程写入。相反，它会在本地缓冲更新，并分批次清空这些缓冲区，从而分摊跨节点通信的成本。GC 的设计成为机器物理布局的反映，最小化了远程流量并最大化了数据局部性。在这个以及任何分代系统中的一个关键优化是，让写屏障智能地过滤写入，完全忽略那些不跨越分代边界的写入（例如，一个老对象指向另一个老对象），从而减少需要跟踪和通信的信息总量。

构建世界：专用运行时与语言

有了这些原则的武装，我们可以超越仅仅为通用语言管理内存。我们可以构建全新的世界——专用的运行时和领域特定语言（DSL）——将内存管理作为其设计中的一等公民。

考虑一个支持软件事务内存（STM）的系统，这是一种无需使用传统锁来管理数据并发访问的范式。STM 系统通常通过在一个私有的“重做日志”中记录事务的预期更改，并仅在成功提交时将它们应用到共享内存中来工作。这与垃圾回收器如何交互？一个事务可能是唯一使一个新创建的年轻对象保持存活的东西。如果 GC 运行，它绝不能忽略隐藏在这些私有日志中的引用。因此，GC 必须与 STM 协同设计：这些日志必须被视为 GC 的根。此外，如果 GC 移动了一个对象，它必须找到并更新那些日志中指向该对象的任何指针，以免事务提交过时的数据。这是一种深度的共生关系，其中内存管理器和并发控制机制是不可分割的伙伴。

最后，让我们看一个为数据管道设计的领域特定语言。这样的系统以微批次的方式处理数据流，这些微批次流经一个由持久化操作符节点组成的图。这个应用领域与分代模型完美映射。微批次是典型的短生命周期对象，流经系统并迅速成为垃圾。定义管道逻辑的操作符则是长寿的。这种设计几乎是不言自明的：在新生代中分配微批次，并将操作符预晋升到老年代。我们甚至可以进行一次“粗略”计算来适当地确定新生代的大小：如果我们知道平均数据速率和批次的平均生命周期，我们就可以配置一个足够大的新生代，以确保大多数批次在被晋升之前就死亡并被回收。在这里，垃圾回收器不再只是一个隐藏的实用工具；它是应用程序架构的核心组件，根据其所服务的领域的语义进行了调整。

从程序员的算法风格到 CPU 的物理定律，从编译器的启发式到机器学习模型的预测，分代假说的影响既普遍又深刻。它有力地提醒我们，在计算的世界里，一个植根于对现实简单观察的优雅思想，可以统一并照亮整个图景。