写时复制 (Copy-on-Write, COW)

玻尔百科

定义

写时复制 (Copy-on-Write, COW) 指一种在计算机科学中用于优化内存使用的资源管理技术，该技术允许多个进程在尝试修改数据前共享相同的物理内存页。该机制依靠硬件页错误来触发延迟拷贝，仅在必要时才创建私有副本，从而显著提升了 fork() 系统调用等操作的性能。除了操作系统管理，这一原理还被广泛应用于文件系统快照和编程语言的大数据处理，以实现资源分配的“策略性懒惰”。

核心要点

写时复制 (COW) 通过初始时共享内存页面而非执行完整的立即复制，极大地提升了 fork() 等操作的性能。
该技术由首次尝试写入共享页面时产生的硬件页错误触发，从而允许操作系统仅在必要时创建一个私有副本。
COW 的“策略性懒惰”原则超越了操作系统的进程管理，实现了文件系统中的即时快照和编程语言中对大型数据的高效处理等功能。
尽管效率很高，COW 也引入了一些权衡，包括首次写入时更高的延迟、稀疏写入可能导致的内存膨胀，以及系统层面的内存超售风险。

引言

在现代计算世界中，复制进程的能力是一项基础任务，其典型代表是类 UNIX 系统中经典的 [fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 系统调用。最直接的方法——一丝不苟地将一个进程的每一字节内存复制到新位置——虽然简单，但效率极低，会消耗大量系统资源，且常常执行一些立即被丢弃的工作。这种固有的浪费构成了一个显著的性能瓶颈，促使人们需要一种更巧妙的解决方案。

本文通过探索一种优雅而强大的替代方案来应对这一挑战：写时复制 (Copy-on-Write, COW) 原则。这是一种富有成效的拖延策略，将昂贵的工作推迟到最后一刻。我们将审视这个概念如何不仅仅是一个底层技巧，而是系统设计中的一个基本范式。在接下来的章节中，您将了解 COW 在基础层面是如何运作的，以及它的影响如何远远超出了其最初的应用场景。“原理与机制”一节将揭示 COW 如何利用硬件和软件的巧妙结合来实现其高效率。随后，“应用与跨学科联系”一节将展示这个单一思想如何超越其操作系统起源，成为文件系统、数据库和编程语言中的基础设计模式，展现了策略性懒惰在计算机科学中的深远影响。

原理与机制

完美副本的幻象

想象一下，您是一个操作系统，是计算机上所有运行软件的总指挥。您最基本的任务之一，继承自古老的 UNIX 传统，是 [fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 系统调用。当一个程序调用 [fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 时，它是在发出一个简单而深刻的请求：“克隆我。创建一个新进程，让它在此时此刻成为我的同卵双胞胎。” 这个新的“子”进程应该拥有完全相同的内存内容、相同打开的文件，相同的一切。这是一场数字世界的有丝分裂。

您会如何满足这个请求？最直接的方法是我们可能称之为立即复制 (eager copy)。您会忠实地暂停父进程，为子进程分配一块全新的内存，然后一丝不苟地将父进程内存中的每一个字节复制到子进程的内存中。如果父进程正在使用，比如说，128 MiB 的内存，您就复制 128 MiB。简单、正确且可靠。

但现在，如果计算机是一台繁忙的服务器，每秒处理数百个这样的请求呢？如果每秒有 100 个进程进行 fork，每个进程占用 128 MiB，那么您将疯狂地尝试在内存总线上每秒复制 $128 \times 100 = 12,800$ MiB，即大约 12.5 GiB 的数据。这种巨大的数据传输将消耗大量的内存带宽，减慢其他所有操作的速度。

更糟糕的是，这种辛苦的工作常常完全是白费力气。[fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 之后一个非常常见的模式是子进程立即调用 exec()，这会完全清除其内存并加载一个新程序。您刚刚复制的所有数据呢？被丢弃了，根本没用上。在其他情况下，子进程可能只读取内存或修改其中一小部分。为了改变几千字节而复制数千兆字节的数据，似乎效率极低。大自然很少如此浪费。当然，我们可以更聪明一些。

懒惰原则：写时复制

这时，一个极其优雅的原则登场了：写时复制 (Copy-on-Write, COW)。其哲学很简单：非到万不得已，不要做功。这是一种富有成效的拖延策略。

操作系统并没有在 [fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 时立即复制所有内存，而是施展了一个巧妙的戏法。它创建了新的子进程及相应的地址空间，但没有为其页面分配任何新的物理内存。相反，它调整子进程的页表——即从虚拟地址到物理内存的映射——使其指向父进程正在使用的完全相同的物理内存帧。

现在，父进程和子进程共享物理内存。如果我们到此为止，就会出现问题。[fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 的核心承诺是进程隔离；子进程的写入操作绝不能被父进程看到。如果它们共享内存，任何一方的写入都会立即破坏另一方对世界的看法。

为了防止这种情况，操作系统玩了一个漂亮的把戏。在设置好共享映射后，它在父进程和子进程的页表中都将共享页面标记为只读。这就像一位图书管理员把同一份珍贵的手稿交给两位研究者阅读，但附带一条严格的规则：“你们都可以自由阅读，但一旦有人想在页边空白处写字，必须先来找我。”

这个改变权限位的简单操作使 [fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 调用几乎是瞬时的。没有大规模的数据复制。操作系统只是设置了一些指针并翻转了几个比特位。成本可以忽略不计。但魔法还在后头。

魔法时刻：首次写入

当其中一个进程——比如说，子进程——终于尝试向这些共享的只读页面之一写入数据时，会发生什么？

这时，计算机硬件和操作系统软件之间一场优美的舞蹈开始了。

陷阱 (The Trap)： 子进程执行一条写指令。硬件的内存管理单元 (MMU)，负责翻译虚拟地址和检查权限，立即行动起来。它查看目标地址的页表条目 (PTE)，看到了只读权限位。向一个只读页面写入是保护冲突！硬件并不知道我们巧妙的 COW 方案；它只看到一条规则被打破。它立即停止该进程，保存其状态，并触发一个硬件异常——页错误 (page fault)——将控制权交给操作系统内核。
内核的秘密 (The Kernel's Secret)： 内核的页错误处理程序被唤醒进行调查。它检查出错的地址和出错的原因。通过检查 PTE，它不仅看到该页面是只读的，还看到了它为自己留下的一个特殊的、软件定义的位：COW 位。这个位是内核的秘密便条。它说：“别慌。这不是一个真正的错误。这是我一直在等待的一次合法写入。是时候执行‘写时复制’的‘复制’部分了。” 这个检查是内核区分透明的 COW 错误和会导致向进程发送段错误信号 (SIGSEGV) 的真正内存访问错误的方式。
复制 (The Copy)： 此刻，也只有在此刻，真正的复制才会发生。内核以原子级的精度执行以下序列：
- 它从可用内存列表中分配一个新的、空的物理帧。
- 它将原始共享页面的全部内容（通常为 4 KiB）复制到这个新帧中。
- 它更新子进程的 PTE。新的 PTE 现在指向新的物理帧，权限更改为读写，并且 COW 位被清除，因为这个页面现在是子进程私有的。
- 它将原始物理帧的引用计数减一，这是一个跟踪有多少个 PTE 指向它的小计数器。由于子进程不再指向它，计数减一。
- 最后，它通知硬件从转译后备缓冲器 (TLB) 中刷新任何缓存的、关于此地址的旧翻译，确保下一次访问使用更新后的映射。

然后，内核将控制权返还给子进程。出错的指令被重新执行。这一次，当 MMU 检查 PTE 时，它发现这是一个可写页面。写入操作成功，仿佛什么都没发生过。子进程完全不知道刚才代表它上演了一场复杂的内核舞蹈。与此同时，父进程继续运行，其 PTE 仍然指向原始的、未被触动的物理帧。独立内存的幻象被完美地维持着。

系统的美：效率与优雅

写时复制的优雅之处在于其卓越的效率。对于 forked 的子进程执行新程序或只读取其继承内存的常见情况，根本不会发生任何复制。内存被节约了，[fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 调用也快如闪电。

节省的资源可以直接量化。如果一个进程有 $n$ 个页面，而子进程最终修改了其中的 $k$ 个，那么与立即复制相比，节省的总物理内存恰好是未修改页面的内存： $(n - k)P$ ，其中 $P$ 是页面大小。系统只需为实际使用的部分付出代价。盈亏平衡点是当 $k=n$ 时，意味着每个页面都被修改。即便如此，COW 所做的工作量也只与立即复制相同，但它有益地将这项工作分散到了时间上。

这转化为巨大的性能提升。对于我们那个每秒 fork 100 个进程的服务器场景，如果每个子进程只修改其 128 MiB 地址空间的 10% ( $m=0.10$ )，COW 就为系统省去了复制另外 90% 的工作。这种简单的懒惰行为可以释放每秒超过 11 GiB 的内存带宽，否则这些带宽将被浪费掉。

其实现揭示了更深层次的优雅。例如，当子进程的写入导致原始帧的引用计数降至 1 时，内核知道该帧现在由父进程独占。一个复杂的内核可以找到父进程的 PTE 并主动将其权限升级回读写，清除 COW 位。这避免了如果父进程后来决定写入该页面时发生的不必要的页错误。系统自我修复以变得更高效。即使在复杂的并发情况下，比如一个进程因写入而发生页错误，而另一个进程因页面不在内存中而在同一页面上发生页错误，内核也会在物理页面上使用细粒度锁定来正确地序列化操作，确保数据首先从磁盘分页读入，然后被复制，所有过程都无误。

隐藏的成本与权衡

当然，在物理学和计算机科学中，没有免费的午餐。虽然 COW 是一种强大的优化，但它也带来了自己的一系列权衡和潜在的陷阱。

首先，对共享页面进行首次写入的成本显著增加。它不再是一个简单的机器指令，而是一个复杂序列，涉及硬件陷阱、切换到内核模式、内存分配、一次完整的页面复制（例如，4096 字节）和页表修改。这种开销是懒惰的代价。

其次，COW 可能会遭受一种我们称之为页面粒度上的伪共享 (false sharing at page granularity) 的现象。硬件缓存处理的是小的缓存行（例如，64 字节），但 COW 操作的是大得多的页面（例如，4096 字节）。想象一个父进程 fork 了两个子进程。所有三个进程共享一个页面。如果子进程 1 写入页面的第一个字节，而子进程 2 写入最后一个字节，它们在逻辑上并没有相互干扰。然而，由于两次写入都发生在同一个页面内，两者都将触发一次独立的、昂贵的页错误和一次完整的 4 KiB 页面复制。页面的粒度迫使它们为共享付出代价，即使它们并没有真正争用相同的数据。

这导致了一个相关的危险：稀疏写入导致的内存膨胀 (memory blowup from sparse writes)。如果一个程序在大的内存区域内进行许多小的、分散的修改，每次写入都可能落在一个不同的、之前未被触及的页面上。这可能引发一连串的页面复制。一个执行 $k$ 次单字节写入的程序，在最坏的情况下，可能导致 $k$ 个完整的页面被复制。在 $P$ 个页面上进行 $k$ 次随机写入后，预期的内存消耗可以优雅地用表达式 $sP\left(1 - \left(1 - \frac{1}{P}\right)^k\right)$ 来描述，其中 $s$ 是页面大小。这个公式显示了即使只有一小部分字节被实际修改，复制的内存也会如何迅速增长到几乎覆盖整个区域。

最后，COW 分配的延迟特性对整个系统的稳定性有着深远的影响。它允许操作系统进行内存超售 (memory overcommit)。即使当前没有足够的物理内存或交换空间来满足最坏情况（所有共享页面都被写入），操作系统也可以批准一个 [fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 调用。它在做一个可能无法兑现的承诺，赌最坏的情况不会发生。如果赌赢了（通常如此），系统运行效率会更高。但如果赌输了——如果一个 forked 的进程意外地开始写入其所有内存——系统就会耗尽资源。这可能调用可怕的内存不足 (OOM) 查杀器，这是一个内核组件，会粗暴地终止进程以释放内存。因此，写时复制不仅仅是一个底层技巧；它是一项高风险的策略，在整个系统的性能和风险之间进行权衡。它证明了在系统设计中，正如在生活中一样，最优雅的解决方案往往涉及最有趣的权衡。

应用与跨学科联系

正如我们所见，写时复制原则是深刻的简洁与优雅的典范。它的核心是一种“策略性懒惰”——将工作推迟到最后一刻的必要瞬间。但不要被它的简单所迷惑。这个想法并非仅限于操作系统设计中某个尘封角落的奇技淫巧。相反，它是一个基础概念，其回响几乎可以在现代计算的每一层中找到。它是一条统一的线索，将进程的创建、内存的管理、文件系统的架构、数据库的设计，乃至编程语言的语义都缝合在一起。让我们踏上一段旅程，追寻这条线索，见证这个巧妙思想所带来的美丽而常常令人惊讶的后果。

现代操作系统的核心：进程与内存

在像 UNIX 或 Linux 这样的现代操作系统的核心中，写时复制的影响无处比在进程创建中更为显著。

想象一个繁忙的 Web 服务器，需要派生一个新的工作进程来处理一个传入的请求。传统的方法是使用 [fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 系统调用。天真地看，[fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 必须创建一个与其父进程完全相同的子进程。如果父进程是一个庞大复杂的应用程序，占用了 1 GB 或更多的内存，一个天真的 [fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 将需要细致地将那整整 1 GB 的数据复制到 RAM 中的一个新位置。一个简单的计算表明，即使使用非常快的内存，这也很容易花费数十毫秒——在计算术语中这是一个永恒。更糟糕的是，[fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 最常见的用法是立即调用 exec()，这个命令告诉新的子进程完全丢弃其继承的内存并加载一个新程序。复制父进程内存的巨大努力将完全白费！

这就是写时复制施展魔法的地方。操作系统不是进行昂贵的、立即的复制，而是简单地为子进程创建一套新的地址映射，这些映射指向与父进程完全相同的物理内存页面。然后，它巧妙地将这些共享页面对两个进程都标记为只读。[fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 调用几乎瞬间返回。如果子进程随后调用 exec()，旧的映射就被简单地丢弃，没有任何数据被复制。然而，如果父进程或子进程试图写入这些共享页面之一，硬件会触发一个错误。操作系统捕获这个错误，并且只有在那时，它才会懒惰地分配一个新页面，复制原始内容，并将这个新的、私有的页面以写权限映射到写入进程的地址空间中。性能提升是惊人的：一个本需要数十毫秒的操作被缩短到仅仅几微秒，这一切都归功于将复制延迟到证明其必要之时 ****。

这种效率不仅限于节省 CPU 时间；它还节省了宝贵的 I/O。在一个使用请求分页的系统中，一个大进程的许多页面甚至可能不在物理 RAM 中，而是驻留在磁盘上。一个立即复制的 [fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 将不得不触发数千次页错误，仅仅为了给一个可能永远不会使用它的子进程复制数据而从慢速磁盘上读取每个页面。有了 COW，这些页面不会被触动。子进程继承父进程的映射，只有当子进程实际尝试访问一个页面时，它才会从磁盘加载，从而极大地减少了 [fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 密集型工作负载的磁盘 I/O ****。

该原则在操作系统中的实用性不止于此。想想你系统上几乎每个应用程序都在使用的共享库。如果每个运行中的程序都有自己私有的标准 C 库等通用代码副本，那将是极大的浪费。取而代之的是，操作系统将包含库代码的相同物理页面映射到每个进程的地址空间。写时复制确保了如果某个流氓进程试图修改这个共享代码，它会得到自己的私有副本，而原始的、纯净的版本则为其他人保持不变。这个简单的机制节省了大量的内存，使得数百个进程能够在物理 RAM 有限的系统上并发运行 ****。同样的想法也适用于文件的私有内存映射；应用程序可以获得一个文件的私有的、可修改的“草稿板”版本，并确信其更改不会影响磁盘上的原始文件或任何其他正在查看它的进程 ****。

当然，没有哪个原则是万能灵药。COW 的优雅有时会与其他系统目标冲突。例如，在虚拟化环境中，客户机操作系统可能会为硬件设备直接访问而“钉住”某些内存页面（一种零拷贝 I/O 技术）。这些页面必须保持在固定的物理位置，并且可由应用程序写入。在 [fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 期间应用标准的 COW 语义将是灾难性的，因为一次写入会触发一次复制，将页面移动到新的物理位置，从而破坏硬件的访问。在这种情况下，操作系统足够聪明，能够识别冲突并为那些被钉住的页面选择性地禁用 COW，退回到预先的、立即的复制。这展示了精湛工程的一个关键方面：不仅知道如何应用一个强大的原则，而且知道何时收回它 ****。

超越易失性内存：宏大数据

这种懒惰复制的思想是如此强大，以至于它没有停留在易失性内存的世界里。它重塑了我们脚下的根基：文件系统。

像 ZFS 和 Btrfs 这样的现代文件系统完全围绕写时复制原则构建。当你修改一个文件时，文件系统不会覆盖旧的数据块。相反，它将新数据写入磁盘上的一个全新块，然后以级联的、写时复制的方式更新元数据指针，一直到文件系统树的根部。这种方法有一个真正非凡的副作用：由于旧数据从未被覆盖，文件系统可以创建即时“快照”。快照只是文件系统在特定时间点根指针的一个冻结副本。创建它几乎不花时间，并且最初不消耗额外空间，因为所有数据块都与活动文件系统共享。这就像为你的数据拥有了一台时间机器。

然而，这种能力也带来了新的挑战。如果旧块从未被覆盖，那么何时可以安全地删除它们以释放空间？只有当没有任何活动文件系统和任何现有快照持有对某个存储区的引用时，该存储区才真正是空闲的。这将空闲空间管理变成了一个复杂的垃圾回收问题，系统必须一丝不苟地跟踪每个块的引用计数，并且不仅要考虑当前状态，还要考虑所有活动快照的状态以及任何可能即将创建新引用的在途事务 ****。

这种文件系统的性能也变得与数据修改的模式深度交织。COW 的效率取决于复制的粒度。如果一个小的更改迫使一个大块被复制，开销可能会很大。这揭示了高级数据结构设计与低级系统性能之间一个美妙的联系。例如，如果目录的元数据存储在一个线性列表中，并且一块连续的记录被更新，所有这些更改可能都落在一个或两个块内，导致最小的 COW 开销。但如果相同的元数据存储在哈希表中，相同数量的更新可能会随机分散在许多不同的块上，触发一场块复制风暴，并极大地增加写放大。一种算法的选择可能对底层存储系统产生深远的、不明显的后果 [@problem_targ:3634438]。

COW 与数据管理之间的这种深刻联系随着像持久化内存 (PMem) 这样的新技术的出现而变得更加关键。PMem 模糊了内存和存储之间的界线，允许对持久数据进行直接的、字节可寻址的访问。在这里，程序员对 COW 语义的理解至关重要。试图通过私有映射 (MAP_PRIVATE) 修改 PMem 文件将触发到易失性 RAM 的写时复制，导致“持久”更新在重启时消失。为确保持久性，必须使用共享映射 (MAP_SHARED)，但这引入了并发挑战。如果一个父进程和子进程都试图更新一个共享的 PMem 数据结构，硬件的缓存刷新和栅栏指令不足以防止竞争条件。应用级同步，如互斥锁，对于确保多步更新的持久原子性变得至关重要 ****。

COW 作为一种设计模式

旅程并未在操作系统或文件系统的边界结束。写时复制已经超越其作为底层内核优化的起源，成为一种在应用程序甚至编程语言层面使用的强大设计模式。

考虑一个需要提供“快照隔离”的数据库系统——保证一个长时间运行的只读查询看到的是查询开始时存在的数据库的一致视图，不受后续写入的影响。如何高效地实现这一点？一个绝妙的简单解决方案是使用操作系统本身作为工具。主数据库进程可以 [fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 一个子进程，并且由于 COW，子进程立即拥有了从那一刻起整个数据库缓冲池的完整、隔离且静态的快照。子进程然后可以在这个不变的视图上为只读查询提供服务，而父进程则继续修改自己版本的页面以处理新的写事务。在这里，来自操作系统内核的一个原语被重新用于优雅地解决数据库并发控制中的一个高级问题 ****。

此外，COW 已成为许多编程语言语义中的一个关键特性。当你在 Python 中对字符串进行切片，或在 R 中传递一个大的数据帧时，你通常不是在创建一个完整的副本。相反，运行时会给你一个新对象，该对象在内部引用原始数据。只有当你试图修改内容时，才会执行一次完整的、深度的复制。这使得操作大型数据对象感觉轻量且快速。然而，这种高级语言特性对编译器提出了新的要求。编译器的副本传播优化——用它所复制的变量替换一个变量——通常是直接的。但在具有 COW 语义的语言中，编译器必须更加小心。只有当它能证明没有中间的写操作可能破坏共享并导致两个变量分化时，它才能执行替换。在一个简单的基于值的语言中安全的优化，在没有对底层 COW 内存模型有更深入理解的情况下，可能会变得不正确 ****。

懒惰的优雅

从进程创建中节省的微秒到文件系统快照中保存的太字节，写时复制原则证明了少做即是多的力量。它是一种反复出现的模式，将成本推迟到不可避免之时，共享资源直到它们必须分道扬镳。起初是优化内存使用的底层技巧，后来发展成为提供事务完整性、并发控制和高效编程范式的范式。它提醒我们，在计算的复杂舞蹈中，有时最优雅、最强大的动作就是简单地等待。