首页垃圾回收 (GC)

垃圾回收 (GC)

玻尔百科

定义

垃圾回收 (GC) 是计算机科学中的一种自动内存管理机制，其核心原理是回收从根指针集合不可达的对象内存。该系统组件深度集成于编译器和操作系统中，通过标记-清除、复制或分代回收等算法来优化堆内存使用。现代并发回收器利用分代假说和写屏障等技术，在减少程序停顿的同时平衡系统性能与内存碎片。

核心要点

垃圾回收基于可达性原理运作，即只有当内存从一组根指针不可达时才会被回收，这一规则可能导致逻辑内存泄漏。
核心GC算法，如标记-清除、复制和分代回收器，在性能、内存开销和堆碎片化之间提供了不同的权衡。
分代假说——即大多数对象生命周期很短——是一个关键洞见，它通过将回收工作集中在一个小的“新生代”堆上，实现了高效的回收。
先进的并发回收器使用写屏障和三色不变性等机制与应用程序并行运行，从而最大限度地减少了破坏性的“stop-the-world”暂停。
垃圾回收不是一个孤立的工具，而是一个深度集成的系统组件，它影响着编译器、操作系统乃至CPU缓存等硬件级进程，并受其影响。

引言

自动内存管理，通常被称为垃圾回收（Garbage Collection, GC），是现代软件开发的基石，它将程序员从手动分配和释放内存这一复杂且易错的任务中解放出来。尽管这种自动化简化了开发，但GC的内部工作原理及其深远影响通常被视为一个黑箱。本文旨在揭开这个黑箱的层层面纱，弥合自动内存管理的表面简单性与其底层复杂性和全系统影响之间的鸿沟。它将揭示，GC不仅仅是一个清理工具，而是一个建立在优雅理论原理和巧妙工程之上的复杂系统。

读者将首先了解垃圾回收的核心原理和机制，探索“垃圾”是如何被定义的，以及为回收它而开发的经典算法。随后，本文将拓宽视野，探讨GC的深远应用和跨学科联系，展示其作为编译器的合作伙伴、操作系统的调度对象以及硬件架构的苛刻客户。这一探索将提供一个统一的视角，说明回收内存这一看似微不足道的行为是如何深深地融入整个计算生态系统的结构之中的。

原理与机制

在我们理解自动内存管理的旅程中，我们现在来到了这台机器的核心。系统如何知道一块内存不再被需要？什么样的宏大原则指导着这个过程，又有哪些巧妙的机制将这些原则付诸实践？垃圾回收（GC）的故事并非一个简单的清洁工在整理房间；它是一个关于图论、经验观察和复杂系统工程的故事，所有这些协同工作，以完成一项看似简单实则复杂的任务。

不可达之物：垃圾的新定义

首先，我们必须抛弃日常生活中对“垃圾”的概念。在计算机程序的世界里，垃圾回收器无法读懂程序员的心思，从而知道某块数据何时在语义上不再有用。取而代之，它采用了一个更严谨、可证明安全的定义：垃圾是不可达的。

想象一下，你程序的内存是一个由相互连接的对象组成的浩瀚宇宙。在这个宇宙中，有一组特殊的起点，称为GC根（GC roots）。这些是所有合法活动的立足点——例如全局变量、当前在处理器寄存器中处理的数据，以及每个线程栈上的函数调用序列。一个对象被认为是存活的（live），当且仅当你能从这些根之一出发，通过一连串指针追踪到它。任何无法通过这样的路径到达的对象，根据定义，就是不可达的。它是一座孤岛，与程序活动状态的大陆失去了联系。这便是回收器可以安全回收的“垃圾”。

这一原则是所有追踪式垃圾回收器的基石。然而，它带来了一个深远的影响：GC并非消除所有内存相关问题的魔杖。如果程序员意外地保留了一个指向不再需要的对象的指针，那么该对象仍然是可达的。回收器会恪守其核心原则，尽职地保留它。这就导致了一种被称为逻辑内存泄漏的情况：内存因为仍然可达而未被回收，尽管它已不再有用。

考虑一个带有用户界面的现代应用程序。一个事件分发器可能会持有一个“监听器”列表，这些监听器对按钮点击等事件作出反应。如果一个视图控制器注册了一个监听器，而该监听器又强引用回该视图控制器，一个微妙的陷阱就形成了。当视图控制器被关闭并从屏幕上移除时，我们期望它的内存被释放。但如果作为全局对象（因此也是GC根）的事件分发器仍然持有对监听器的引用，那么一条从根到分发器，再到监听器，再到视图控制器的指针链将使该视图控制器永远存活。在程序员的脑海中，它已成为一座孤岛，但在回收器的视图中，它仍是一个相连的半岛。类似地，一个执行任务并将每个结果存储在全局映射中，却从不移除旧条目的服务器，会发现其内存随时间线性增长，即使客户端很少请求这些结果。程序泄漏内存并非因为GC失败，而是因为程序无意中持有了不再需要的对象。为了解决这个问题，程序员可以使用弱引用（weak references），这是一种特殊类型的指针，允许他们引用一个对象而不阻止GC回收它——这相当于说：“我想知道这个对象的信息，但不要仅仅为了我而让它保持存活。”

标记-清除：第一个伟大的算法

如果垃圾是不可达之物，我们如何找到它？第一个也是最基础的算法被称为标记-清除（Mark-and-Sweep）。它分两个简单的阶段运行，很像人口普查员。

标记阶段（The Mark Phase）： 回收器从GC根开始，遍历对象图。它“标记”接触到的每一个对象为存活状态，通常是通过翻转对象头中的一个比特位。这是一次详尽的搜索：从根出发，跟随每一个指针，再从找到的对象出发，跟随它们所有的指针，依此类推，直到每一个可达对象都被标记。
清除阶段（The Sweep Phase）： 标记完成后，回收器开始对整个堆进行线性扫描，从第一个字节到最后一个字节。它检查遇到的每一个对象。如果一个对象被标记，回收器会取消标记，为下一个周期做准备。如果一个对象未被标记，这意味着标记阶段从未到达它。它就是垃圾。回收器会回收其内存，通常是将其添加到一个“空闲列表”（free list）中，以备未来分配。

标记-清除算法的优点在于其正确性和完整性。它回收所有不可达的对象。这包括了简单内存管理方案的一大难题：循环垃圾。想象两个对象， $A$ 和 $B$ ，它们不再能从任何根到达，但 $A$ 指向 $B$ ， $B$ 又指回 $A$ 。像引用计数（reference counting，仅跟踪指向一个对象的指针数量）这样更简单的方案会看到每个对象都有一个入指针，因此永远不会回收它们。然而，标记-清除算法从根开始遍历。由于它无法从任何根到达 $A-B$ 循环，因此 $A$ 和 $B$ 都不会被标记。随后的清除阶段将正确地识别它们俩都是垃圾并予以回收。这种能力是有代价的。清除阶段的性能与整个堆的大小成正比，而不仅仅是存活数据量，因为它必须检查每一个对象。此外，经过几个周期后，堆可能会变得碎片化（fragmented），空闲内存散布在不相连的小块中，使得为大的新对象寻找连续的内存块变得困难。

复制回收器：作为副作用的压缩

为了解决标记-清除算法的缺点，一种截然不同的方法被发明出来：复制回收器（copying collector）。内存不再是单个堆，而是被分为两半：from-space和to-space。所有新对象都在from-space中分配。

当触发回收时，过程异常简洁：

回收器从根开始遍历对象图，就像标记阶段一样。
当它在from-space中找到一个存活对象时，它不只是标记它，而是将该对象复制到当前为空的to-space中下一个可用的位置。
然后，它在旧位置留下一个“转发地址”（forwarding address），指向该对象的新家。
随着遍历的继续，如果遇到一个指向已被移动对象的指针，它只需用转发地址更新该指针。

当遍历完成时，一件了不起的事情发生了。所有存活的对象都已被迁移，并紧凑地排列在to-space的起始部分。from-space中只剩下垃圾和存活对象的旧副本。整个from-space可以被瞬间清空。在下一个周期，两个空间的角色互换。

这种设计有两个强大的优势。首先，其工作量与需要复制的存活数据量成正比，而不是整个堆的大小。如果大多数对象都是垃圾，复制回收会非常快。其次，或许更重要的是，它自动地压缩（compacts）了堆。通过将所有存活对象移动到一个连续的块中，它完全消除了碎片化。这使得分配变得微不足道且快如闪电：要分配一个新对象，运行时只需检查是否有足够空间，然后增加一个指针即可（一种称为“指针碰撞分配器”或“bump allocator”的方式）。

这种压缩还有一个奇妙的、不那么明显的性能优势。现代CPU严重依赖缓存来实现高速运行。当数据随机散布在内存中时，CPU会频繁地发生缓存未命中，必须等待缓慢的主内存。通过将相关对象紧密地打包在一起，压缩式GC改善了空间局部性（spatial locality），从而带来更好的缓存利用率，并使应用程序在GC周期完成后运行得更快。缺点呢？复制回收器通常是“stop-the-world”（STW）的，意味着在回收发生时，应用程序必须完全暂停。

分代飞跃：对行为的洞察

对真实世界程序的观察揭示了一个惊人一致的模式，现在被称为分代假说（generational hypothesis）：大多数对象生命周期很短。也就是说，程序分配的绝大部分对象仅在极短的时间内被使用。这一洞见催生了垃圾回收历史上最重要的优化之一：分代回收器（generational collector）。

其思想是将堆划分为（至少）两个代：一个年轻代（young generation，或称为nursery）和一个老年代（old generation，或称为tenured space）。

所有新对象都在新生代中诞生。
新生代很小，并使用快速的、STW的复制回收器频繁进行回收。这被称为次要回收（minor collection）。由于大多数对象生命周期短暂，这些回收非常高效——它们只会发现很少的存活数据需要复制。
一个在一次或多次次要回收中幸存下来的对象被认为是“顽强的”，并被晋升（promoted）——它被复制到老年代中。
老年代要大得多，包含长寿的对象。它的回收频率低得多，通常使用空间效率更高的回收器，如标记-清除或标记-压缩算法。这被称为主要回收（major collection）。

这种策略针对常见情况进行了优化。通过将大部分回收精力集中在“死亡率”最高的新生代，系统可以实现高吞吐量。回收一个对象的成本与其预期的生命周期被仔细地平衡。

但这种设计引入了一个关键的新挑战。次要回收只扫描新生代。如果老年代中的一个对象指向新生代中的一个对象会发生什么？这个“老到少”的指针会被错过，年轻对象将被错误地回收。为了解决这个问题，分代回收器使用写屏障（write barrier）。这是编译器在程序中每次指针写入操作后插入的一小段代码。如果应用程序（mutator）执行old_obj.field = young_obj，写屏障会捕捉到它，并将old_obj的位置记录在一个称为记忆集（remembered set）的特殊数据结构中。一个流行的实现是卡表（card table），它将老年代划分为称为“卡”（cards）的小型固定大小块，如果块内的任何对象成为指针写入的目标，就简单地将该卡标记为“脏”（dirty）。这种方法精度较低，但效率高得多[@problem_d:3683426]。当次要回收开始时，其根集不仅包括栈和全局变量，还包括记忆集中的所有脏卡，从而确保没有存活的年轻对象被遗漏。

并发前沿：在行驶的汽车上换轮胎

对于许多应用程序——如实时游戏、高频交易平台、大型Web服务——即使是次要GC的短暂暂停也是不可接受的。GC设计的最终前沿是在应用程序（mutator）运行时并发执行回收工作。这类似于在行驶的汽车上更换轮胎。回收器试图绘制存活对象的图，而mutator同时在该图中添加、删除和重连指针。

为了理解这种复杂的舞蹈，回收器使用三色不变性（Tricolor Invariant）。想象一下对象可以是三种颜色之一：

白色：尚未被回收器看到。假定为垃圾。
灰色：已被回收器看到，但其子节点尚未被扫描。这是回收波的“前沿”。
黑色：已被回收器看到，并且其所有子节点都已被扫描。

回收过程通过将白色对象变为灰色，灰色对象变为黑色来进行。正确性的不可侵犯规则是：绝不允许任何黑色对象指向白色对象。如果发生这种情况，回收器在处理完黑色对象后，可能永远不会发现它所指向的白色对象，从而错误地回收它。

写屏障再次成为英雄。当mutator尝试执行像black_obj.field = white_obj这样的写操作时，写屏障会拦截它并维护不变性，例如，通过将white_obj涂成灰色，确保回收器稍后会访问它。

即使有并发性，也总有一些时刻，mutator线程必须被短暂停止以与回收器同步。这些时刻被称为安全点（safepoints）。一个协作式系统依赖于线程周期性地检查一个标志，并在代码中预定的安全位置暂停自己。但是，如果一个线程卡在一个没有安全点检查的紧凑计算循环中怎么办？整个系统可能会因为等待这一个不合作的线程而停顿。最先进的运行时用一种优雅的升级策略解决了这个问题：在短暂等待后，运行时向这个不听话的线程发送一个操作系统信号，强制中断它。一个特殊的信号处理器随后会保守地扫描该线程的栈——将任何看起来像指针的东西都当作根——并允许并发回收继续进行，从而保证了有界的暂停时间和响应迅速的系统。这种并发工作的调度本身就变成了一场复杂的算法之舞，将GC任务穿插在mutator关键活动的间隙中。

从简单的可达性概念到复杂的并发回收编排，垃圾回收的原理和机制揭示了理论与实践的美妙结合。这是一个让程序员能够专注于逻辑而非簿记的系统，其背后是由数十年杰出工程技术隐藏的强大动力。

应用与跨学科联系

如果你跟随我们的旅程至此，你可能会有这样一种印象：垃圾回收是一个聪明但自成一体的软件——一种在程序地下室工作的数字清洁工，整理内存以便楼上的程序员可以无忧工作。这幅图景是真实的，但它美妙地不完整。垃圾回收不是一个孤立的工具；它是现代计算的一个基础支柱，其影响力向外辐射，触及软件设计、编译、执行乃至其运行硬件构建的几乎每一个方面。

在本章中，我们将踏上一段旅程，见证这种令人难以置信的相互联系。我们将看到，垃圾回收不仅仅是一个实现细节，而是程序员的合作伙伴，编译器的同谋，操作系统的调度公民，以及计算机底层架构的苛刻客户。准备好通过一个新的镜头看待熟悉的计算世界，在这个世界里，回收内存这一看似微不足道的行为揭示了整个数字生态系统的深刻统一性。

程序员的伙伴：打造高效代码

在最直接的层面上，垃圾回收器是程序员的无声伙伴。虽然它的自动化特性将我们从手动内存管理的繁琐负担中解放出来，但这种自由并非粗心大意的通行证。一个理解GC本质的程序员可以编写出不仅正确而且效率显著提高的代码。

考虑一下现代语言中一种优雅的特性，称为闭包（closure）——一个“记住”其创建时环境的函数。这是一个极其强大的抽象工具。但“记住”意味着什么？在一个有垃圾回收的世界里，它意味着闭包持有一个对其出生环境所需变量的引用，从而使这些变量保持存活。这其中就隐藏着一个微妙的陷阱。假设你有一个函数，它处理一个非常大的配置对象——比如数兆字节的数据——但它返回的闭包只需要从中派生出的一个微小信息，比如一个计算出的单一值。

如果程序员天真地编写闭包来捕获整个配置对象，那么只要该闭包存在，那个巨大的对象就永远无法被GC回收。它被一个单一的引用所挟持，导致了巨大的、隐藏的内存占用。然而，一个明智的程序员会在创建闭包之前计算出那小块数据，并让闭包只捕获那个小的结果。现在，巨大的配置对象不再被任何东西引用，并迅速被垃圾回收器清除。内存消耗的差异可能是数量级的，而这一切都取决于一个基于对GC可达性理解的微小代码结构改变。

这种伙伴关系从程序员延伸到了他们使用的工具。一个聪明的编译器可以在这个过程中充当自动化的助手。想象一个程序对一个大数据集执行一系列转换，每一步都创建整个数据集的一个新的临时副本。这是一种常见且清晰的代码编写方式，但它极其浪费。它产生大量的短生命周期数据，给垃圾回收器带来巨大压力，并导致频繁的回收暂停。

然而，一个智能的编译器可以分析这种模式并应用一种称为循环融合（loop fusion）的优化。编译器可以将它们融合成一个单一的循环，一次性执行所有三个转换，只写入最终结果，而不是运行三个独立的循环并创建两个巨大的中间数组。通过消除中间数组的分配，编译器极大地降低了内存分配的速率。这反过来意味着垃圾回收器需要运行的频率大大降低，从而使程序更平滑、更快。这是一个高级编译器优化与低级内存管理系统性能之间协同作用的美好例子。

架构师的蓝图：编译器-GC联盟

要真正欣赏垃圾回收，我们必须看得更深，深入到它与编译器形成的复杂联盟中。编译器不仅仅是生成机器代码；在一个受管理（managed）的运行时中，它将对垃圾回收器需求的深刻理解直接嵌入到该代码中。

对于GC来说，最基本的问题之一是：我如何知道这8个字节的数据块是一个指向对象的指针，还是仅仅是整数42？一个“保守的”（conservative）GC会猜测，这可能有风险。然而，一个“精确的”（precise）GC却知道。但如何知道呢？因为编译器告诉它！在代码的关键点，称为GC安全点（GC safepoints，通常在函数调用处），编译器会发出一份特殊的元数据，称为栈图（stack map）。这张图是GC的精确指南，列出了在程序执行的那个特定时刻，可以在栈上和机器寄存器中找到存活对象引用的确切位置。这是一次非凡的合作：编译器通过其对代码的深入分析（如存活分析 liveness analysis），生成了使GC能够以完美准确性完成其工作的蓝图。

这种合作具有深远的性能影响。考虑一下迭代循环和递归函数之间的经典选择。如果没有特殊的优化，每次递归调用都会在调用栈上创建一个新的帧。如果一个函数递归 $n$ 次，它会创建一个深度为 $n$ 的栈。对于必须扫描栈以寻找根的GC来说，这个深栈意味着大量工作。每一帧都必须根据其栈图进行检查，而深栈可能导致更长的GC暂停。

然而，编译器通常可以应用尾调用优化（Tail-Call Optimization, TCO），它将某种类型的递归转换为本质上的循环，反复重用同一个栈帧。最明显的好处是防止栈溢出。但更微妙且同样重要的好处是对于垃圾回收器。通过将栈深度保持在 $O(1)$ 而不是 $O(n)$ ，TCO极大地减小了GC需要扫描的根集的大小，从而可能缩短GC暂停时间并提高整体性能。一个算法选择和一个编译器特性共同作用，使GC的工作变得更轻松。

编译器-GC联盟也负责实现复杂的语言特性。在许多面向对象的语言中，一个对象可以有一个特殊的finalize方法，该方法应在对象被回收前调用。这不是魔法。编译器将代码注入到对象的构造函数中。如果类有终结器（finalizer），构造函数会调用一个运行时函数，将新创建的对象注册到GC。然后，GC会维护一个这些“可终结”（finalizable）对象的特殊列表。当它发现其中一个不可达时，它不会立即回收它。相反，它会将其移动到一个队列中，一个独立的线程稍后会调用finalize方法。编译器和GC甚至必须合作，以确保对于具有继承关系的对象，终结器以正确的顺序被调用——从派生程度最高的类到基类。

指挥家的权杖：GC与操作系统

再放大视野，我们看到垃圾回收器是操作系统的一个公民，与其他程序或进程一样竞争系统资源。它的行为可以对全系统性能产生可衡量的影响，这是一个传统上在操作系统中研究的领域。

想象一个运行多个应用程序作业的简单系统。一个“stop-the-world”垃圾回收器就像一个高优先级任务，它周期性地抢占正在运行的任何东西，为自己的工作占用CPU，然后让应用程序恢复。从操作系统的角度来看，这种GC活动是CPU没有运行应用程序的时间。这直接降低了应用程序的CPU利用率，并通过延长总完成时间，减少了整个系统的吞吐量。这些GC暂停的频率和持续时间成为关键的调优参数，用于在内存压力与应用程序响应性和吞吐量之间进行权衡。

“垃圾回收”这个概念本身并不仅限于程序的主内存。考虑一个使用链式分配（linked allocation）的文件系统，其中文件是散布在磁盘上的块链。当用户删除这样一个文件时，这些块不会神奇地变为空闲。它们现在是“垃圾”。操作系统必须有一种机制——一种形式的垃圾回收——来遍历这个块链并将它们返回到空闲列表中。这种基于磁盘的GC与活跃的用户请求竞争磁盘I/O。系统设计者可以使用排队论（queueing theory）来对这种竞争进行建模，并确定文件系统GC的最佳“步调”，确保清理工作及时进行，而不会过度损害活跃用户的响应时间。这是同样的基本原理——回收不可达资源——应用于一个完全不同的领域。

也许GC和操作系统设计最富挑战性的交集是在实时系统（real-time systems）的世界里。对于飞行控制器或医疗设备来说，来自“stop-the-world”GC的长时间、不可预测的暂停不仅仅是烦恼；它是一场灾难性的失败。这推动了高度复杂的增量式（incremental）和并发式（concurrent）GC的发展。这些回收器被设计成在小的、可预测的时间块内完成其工作。在这个世界里，GC被建模为系统中的另一个高优先级周期性任务。利用实时可调度性分析（real-time schedulability analysis）中的形式化方法，工程师可以计算出GC在每个小时间间隔内可以运行的最长时间（ $C_{gc}$ ），同时从数学上保证系统中所有其他关键任务仍能满足其硬性截止日期。这将GC从危险的不可预测性源头转变为一个行为良好、可分析的关键任务系统组件。

物理学家的视角：GC与裸金属

我们的旅程在最深的层次结束：硬件本身。垃圾回收器的行为，这些看似抽象的软件操作，其涟漪一直传递到硅片上。

许多垃圾回收器是压缩式（compacting）或复制式（copying）回收器。为了对抗内存碎片化，它们移动存活对象，将它们整齐地打包在内存的一个区域。但“移动”一个对象意味着什么？它意味着GC必须找到整个系统中引用该对象旧地址的每一个指针，并将其更新为新地址。这个过程称为指针重写（pointer swizzling）。其成本与需要更新的指针数量成正比。如果一个移动式GC需要疏散 $k$ 个对象，并且每个对象平均有某个概率被指向，我们可以量化GC必须执行的预期重写操作次数。这不是免费的工作；这是所选GC算法的基本成本。

然而，最令人震惊的联系在于垃圾回收和现代多核处理器中的缓存一致性协议（cache coherence protocols）之间。在多核系统中，不同的核心可以在其本地缓存中拥有相同数据的副本。当一个核心写入该数据时，硬件的一致性协议必须向所有其他核心发送失效消息，告诉它们它们的副本现在已经过时了。

现在，考虑一个在一个核心上运行的复制式垃圾回收器。当它疏散一个存活对象时，它会在对象的旧位置写入一个转发指针。如果该对象的数据正在被其他核心使用，它很可能存在于它们的缓存中。GC对该对象头部的写入被硬件视为一次标准写入。基于目录的一致性硬件会查找哪些其他核心缓存了该行，并跨芯片的互连网络（interconnection network）发出一连串的失效消息。在GC周期中移动对象的简单行为可以在硬件级别产生显著的网络流量，可能会减慢其他核心的速度。这一揭示是深刻的：一个高级别的算法选择（复制式GC）对处理器内部比特流的流动产生了直接的、物理的后果。它表明，要构建真正的高性能系统，必须跨越所有抽象层次进行思考，从算法到架构。

一个统一的整体

从程序员对闭包捕获内容的选择，到编译器的循环优化；从操作系统调度器平衡GC与用户任务，到多核芯片上最终的失效包风暴——垃圾回收是将所有这些联系在一起的线索。它证明了现代计算美妙的、分层的复杂性。它不仅仅是地下室的清洁工；它是一位建筑师、一位指挥家和一位物理学家，是宏伟、统一的机器的核心部分。