文件系统中的日志记录

玻尔百科

定义

文件系统中的日志记录指的是一种通过在将更改应用于主文件系统之前先将其记录在顺序日志中来防止数据损坏的恢复机制。该技术属于计算机存储和操作系统领域，利用预写式日志（Write-Ahead Logging）模式确保更新的原子性和崩溃一致性。通过不同的日志模式，系统可以在性能需求与机械硬盘或固态硬盘的数据完整性保障之间取得平衡。

核心要点

日志记录通过首先在一个顺序日志中记录所有预期的变更，来防止文件系统损坏，从而确保更新是原子性的（“全有或全无”）。
不同的日志模式——writeback、ordered 和 data——在系统性能与数据完整性保证级别之间提供了关键的权衡。
日志记录的性能成本取决于底层硬件，主要通过寻道影响 HDD 的时间，并通过写入放大影响 SSD 的耐久性。
预写式日志是一种通用的容错性设计模式，其应用超出了文件系统，出现在数据库和其他需要崩溃一致性的应用中。

引言

在数字世界中，数据的完整性至关重要。然而，系统崩溃和电源故障构成了持续的威胁，可能导致我们最重要的文件在不知不觉中损坏。现代系统如何抵御这种混乱，确保保存的文件真正安全？答案在于日志记录，这是一种强大而优雅的技术，为意外中断提供了坚固的安全网。本文旨在揭开日志记录的神秘面纱，弥合“知道数据安全”与“理解数据如何被保护”之间的关键鸿沟。

我们将对这一基础概念展开详细的探索。第一部分，原理与机制，将剖析日志记录的核心，解释预写式日志（Write-Ahead Logging, WAL）如何为崩溃的无序状态带来秩序，并审视在安全与性能之间取得平衡的不同日志模式。在此之后，应用与跨学科联系部分将拓宽我们的视野，探讨日志记录对不同硬件（如 HDD 和 SSD）的影响，其与 RAID 等技术的相互作用，以及其作为一种通用设计模式在整个计算机科学领域产生的深远影响。

原理与机制

想象一下，您正在保存一个重要的大型文档。计算机嗡嗡作响，突然间，电源中断了。当您重启计算机时，您屏住了呼吸。您的文档完好无损吗？是变成了写了一半的乱码？还是完全消失了？一声释然的叹息和一声绝望的哭喊之间的差别，往往取决于现代操作系统核心中一个优雅而强大的概念：日志记录。

日志记录不仅仅是一项功能；它是在我们处理可靠性问题的方式上的一次深刻转变。它将充满电源故障和系统崩溃的混乱、不可预测的世界，转变为一个可预测、有序的恢复过程。要理解它的美妙之处，我们必须首先领会它所驯服的混乱。

崩溃的无序状态

让我们暂时扮演文件系统，我们的工作是向一个文件中添加一个新的数据块。为此，我们需要对存储在磁盘上的主记录执行至少两个关键更新：

更新索引 ( $W_I$ ): 我们必须更新文件的索引块，以包含一个指向我们新数据块位置的指针，我们称之为块 $d$ 。
更新空闲空间映射表 ( $W_F$ ): 我们必须更新磁盘的空闲块主映射表，将块 $d$ 标记为“已使用”，这样我们就不会意外地将它分配给另一个文件。

当然，我们还必须将实际数据 ( $W_D$ ) 写入块 $d$ 。现在，我们向磁盘驱动器发出这三个写入命令—— $W_D$ 、 $W_I$ 和 $W_F$ 。问题就在这里：磁盘驱动器为了追求效率，可能不会按我们发出的顺序执行这些写入。它可能认为先执行 $W_I$ ，然后是 $W_D$ ，最后是 $W_F$ 会更快。

如果在最糟糕的时刻发生电源故障会怎样？假设磁盘已完成 $W_I$ 但未完成 $W_F$ 。重启后，文件系统看到一个索引自豪地指向块 $d$ 。然而，它的空闲空间映射表仍然将块 $d$ 列为“空闲”。这是一场被称为悬空指针的灾难。文件系统在不知情的情况下，可能很快会将“空闲”的块 $d$ 分配给一个完全不同的文件。现在，你有两个文件都认为它们拥有同一块磁盘空间。当其中一个文件写入时，它会损坏另一个文件的数据。这种无声的、悄然发生的损坏，是数据完整性噩梦的根源。

簿记员的账本：预写式日志

我们如何防止这种无序状态？解决方案既简单又巧妙，借鉴自会计领域。一位谨慎的簿记员在对主账本进行不可逆转的更改之前，会首先在一个单独的、顺序的日记中详细记下预期的交易。只有当这条笔记被安全地写下后，他们才能着手更新主账本。如果他们中途被打断，他们总可以回到日记中查看自己正在做什么，并正确地完成工作。

这就是预写式日志 (Write-Ahead Logging, WAL)的精髓。文件系统在磁盘上维护一个特殊的专用区域，称为日志。在它考虑接触主文件系统结构（“原始位置”）之前，它首先将所有它将要进行的更改的描述写入日志。这组更改构成一个事务。

这个过程有两个关键步骤，与大型分布式系统中著名的两阶段提交协议惊人地相似：

准备阶段： 文件系统将一个事务的所有“重做”记录写入日志。在我们的例子中，这将是“将索引条目 $I[k]$ 改为指向 $d$ ”和“将空闲空间映射表条目 $F[d]$ 改为 1（已分配）”。
提交阶段： 一旦事务的所有更改都安全地记录在日志中，文件系统会写入最后一条特殊的记录：提交记录。这条记录是原子提交点。它是一个声明，表示：“事务 $\mathcal{T}$ 现已完成，其意图已完全记录。”

只有当提交记录持久地存在于磁盘上时，该事务才被认为是“已提交”的。然后，文件系统可以在它方便的时候，在一个称为检查点机制的过程中，将这些更改从日志复制到它们的最终原始位置。

奇迹发生在恢复期间。崩溃后，文件系统会忽略可能不一致的主文件区域，而只查看日志。它扫描日志：

如果找到一个带有提交记录的事务，它就知道这个事务是完整的。它会小心地将更改从日志“重放”到主文件系统，确保更新被应用。这个重放过程是幂等的——意味着你可以一遍又一遍地做，结果都是一样的，这是一个至关重要的属性，以防系统在恢复过程中再次崩溃。
如果它找到一个事务的记录但没有提交记录，它就知道崩溃发生在“思考”中途。它会简单地丢弃这个不完整的事务，不作任何更改。

结果是美妙的原子性：事务是“全有或全无”的。悬空指针的情景变得不可能。要么提交记录存在，索引和空闲空间映射表都被正确更新；要么提交记录不存在，两者都不被触及。文件系统再也不会陷入那种不一致的、更新了一半的状态 [@problemid:3651370]。

安全性的光谱：日志记录的模式

现在，一个有趣的问题出现了：我们到底应该在日志中写什么？仅仅是结构性更改（元数据），还是也包括文件的实际数据？这个选择导致了一系列日志模式，每一种都代表了绝对安全与原始性能之间的不同权衡。

Writeback 模式：冒险家

这是最快、性能最高的模式。它仅记录元数据。它不保证实际的用户数据何时被写入磁盘。系统将元数据更改写入日志，提交事务，然后向应用程序报告“完成！”。磁盘可以自由地在它方便的时候写入实际的数据块。

性能非常棒，但风险是真实存在的。崩溃可能发生在元数据提交之后，但相应的数据写入磁盘之前。恢复后，文件系统将忠实地恢复元数据，而这些元数据现在可能指向磁盘上一个仍包含陈旧数据或仅仅是随机垃圾数据的块。这种模式用数据完整性换取了速度。使用效用函数 $U = R \cdot (1-P)$ 来平衡吞吐量 ( $R$ ) 和损失概率 ( $P$ )，这种模式提供了最高的 $R$ ，但也有一个非零的 $P$ 。

Ordered 模式：实用主义者

这是最常见的模式，代表了一种绝妙的折衷。与 writeback 模式一样，它也仅记录元数据。然而，它强制执行一条严格的黄金法则：实际的数据块必须在元数据事务提交到日志之前被写入它们的原始位置。

这条简单的排序规则优雅地解决了“元数据指向垃圾数据”的问题。当提交记录使元数据更改生效时，它们所引用的数据已经安全地存储在磁盘上了。这为文件系统结构提供了出色的保护，并防止了最严重形式的数据损坏，使其成为一个流行的默认选择。然而，它并非完美。如果在写入数据本身时发生物理错误，系统仍可能最终处于元数据健全但数据内容错误的状态。文件系统将报告 I/O 错误，但已提交的元数据仍然存在，像是一个未能保存的数据的结构性幽灵。

Data 模式：完美主义者

这种模式，通常被称为 data=journal，是所有模式中最安全的。它不冒任何风险。它将所有东西——元数据和实际的用户数据——都写入日志。整个文件修改变成一个大型的原子事务。当事务提交时，结构和内容都保证是持久和一致的。崩溃后，从日志中恢复会将文件恢复到其确切、正确的新状态。这为防止因崩溃导致的数据丢失提供了最强的保证。

人们可能会认为这是最慢的模式，因为它似乎将数据写入了两次：一次写入日志，然后在检查点机制期间再次写入其原始位置。但在这里，我们揭示了一个关于物理硬件的美妙的、反直觉的真相。在旋转的硬盘上，移动读写头（一次“寻道”）是极其缓慢的。Ordered 模式至少需要两次不同的写入：一次到数据的原始位置，另一次到日志区域，这涉及到一次代价高昂的寻道。相比之下，Data 日志记录可以将数据和元数据合并为一次对日志的大型顺序写入，完全避免了寻道。对于某些工作负载，这可以使 data=journal 模式比 ordered 模式更快，同时提供最大的安全性和卓越的性能。

审慎的代价

这种强大的保护并非没有代价。日志记录会引入开销。现在，每一个修改文件系统的操作都需要额外的日志写入。对于一个简单的元数据更新，这可能意味着写入一个描述符块、一个数据块和一个提交块，从而增加了操作的延迟。

此外，崩溃后，系统并不能立即使用。它必须首先执行一次日志重放，扫描日志以使文件系统恢复到一致状态。所需时间与日志大小 ( $J$ ) 和磁盘读取速度 ( $v_{disk}$ ) 直接相关。一个更大的日志可以在正常操作期间缓冲更多的事务，从而提高性能，但代价是崩溃后恢复时间更长，这是一个经典的工程权衡。

即使是日志本身也必须是健壮的。如果在写入日志区域时发生软介质错误怎么办？一个设计良好的文件系统对此有所准备，它有策略可以将故障的物理扇区重映射到一个健康的备用扇区并重试写入。反过来，恢复过程必须是多疑的，使用像 CRC 这样的校验和来验证它读取的每一条记录，然后才重放一个事务。如果发现已提交事务的任何部分损坏，整个事务都必须被丢弃，以维护原子性的神圣“全有或全无”保证。

从崩溃的最初混乱到日志记录的优雅、多层次的解决方案，我们看到了计算机科学实践中的一个美妙故事。它是一个由规则、权衡和对硬件物理现实的深刻思考组成的系统，所有这些协同工作，提供了一个简单而强大的承诺：当你保存你的工作时，它就会被保存下来。

应用与跨学科联系

现在我们已经探索了日志记录的优雅机制——在行动之前将我们的意图写入日志的精心编排——我们可以提出最令人兴奋的问题：这个想法将我们带向何方？你可能会感到惊讶。这个“预写式日志”原则并非什么仅限于文件系统的陈旧技巧。它是一种基本的模式，是贯穿计算机科学结构的一条思想线索，将昨日的旋转铁盘与今日的硅存储器连接起来，将对可靠性的追求与安全性的要求联系起来，并揭示了我们构建弹性系统方式中一种深刻、统一的美。

审慎的代价：日志记录与硬件现实

从本质上讲，日志记录是与现实达成的一项协议。它为我们提供了一种珍贵的商品——崩溃一致性——但它也要求回报。这种“代价”的性质完全取决于我们所处的物理世界。

考虑一下经典的磁性硬盘驱动器（HDD），一个由旋转盘片和飞驰的读写头组成的机械奇迹。在这里，日志记录的成本以毫秒计算，这是以物理运动支付的税。为了提交一项更改，文件系统不能仅仅更新其最终位置的数据。首先，它必须将磁头移动到磁盘上一个独立的日志区域，写入日志条目，然后才能将磁头移回以写入实际数据。这些步骤中的每一步都涉及到一次“寻道”——将磁头定位到正确磁道的时间——和“旋转延迟”——等待旋转盘片将正确的扇区带到磁头下方所花费的时间。预写式日志协议，就其本质而言，强制至少有两个独立的写入位置（日志和原始位置），因此与一个幼稚、不安全的写入相比，至少增加了一次额外的寻道和旋转延迟。这是在磁性磁盘上进行日志记录的基本性能权衡：我们用时间换取安全。

但是，当我们把旋转盘片换成固态硬盘（SSD）时会发生什么？游戏规则完全改变了。在 SSD 上，没有移动部件；可以以几乎相同的速度从任何位置电子访问数据。寻道的时间税消失了！那么，日志记录现在是免费的吗？完全不是。货币只是从时间变成了耐久性。

SSD 由 NAND 闪存构成，它有一个奇特的限制：每个存储单元在磨损前只能被写入有限的次数。因此，新的成本是“写入放大”（WA）。这是物理写入闪存芯片的数据量与主计算机打算写入的数据量之比。每一次写入，无论多小，都会增加这个预算并缩短驱动器的寿命。根据定义，日志记录涉及至少两次写入数据：一次写入日志，一次写入其最终位置。这直接导致了写入放大。即使在“仅元数据”的日志记录模式下，只记录小的结构性更改，持续的日志条目流也会累积起来，对驱动器的耐久性构成稳定的税收。设计者必须仔细选择他们的日志记录策略，在期望的保护级别与写入成本之间取得平衡。完整数据日志记录通过记录数据本身来提供最大程度的保护，但写入放大成本很高。仅元数据日志记录成本较低，但在崩溃期间为数据内容提供的保护较少。

系统的交响：协同工作的日志记录

文件系统并非存在于真空中。它是一个宏大系统组件交响乐中的一个演奏者，它奏出的音乐取决于它如何与其他乐器互动。日志记录也必须与其他技术协调一致。

一个很好的例子是现代混合存储系统。想象一下，我们有一个小的、快速的 NVMe SSD 和一个大的、较慢的 HDD。我们可以巧妙地将小而写入频繁的日志放在 SSD 上，而将大量数据存放在 HDD 上。这种设计发挥了两者的优势：日志受益于 SSD 的低延迟，加速了事务提交，而 HDD 则为大文件提供了廉价、充足的存储空间。然而，这种优雅的安排引入了关于可靠性的有趣新问题。如果带有日志的 SSD 发生故障，但 HDD 幸存下来会怎样？最近提交的事务将永远丢失。如果 HDD 发生故障但 SSD 上的日志幸存下来会怎样？我们有可能从备份中恢复，然后“重放”幸存的日志以恢复数据直到故障点，如果两者都在同一个故障驱动器上，这是不可能完成的壮举。系统的整体可靠性变成了一个更复杂的计算，因为任何一个设备的故障都可能导致服务中断。

与独立磁盘冗余阵列（RAID）的相互作用是另一个引人入胜的故事。RAID 提供了对整个磁盘故障的容错能力，而日志记录则提供了对像断电这样的崩溃的一致性。它们是可靠性方面的合作伙伴。但是一个幼稚的组合可能会导致性能灾难。例如，在 RAID 5 阵列上，一个小的、单块的写入会招致沉重的“写入惩罚”，需要两次读取和两次写入来保持奇偶校验信息的正确性。如果我们的日志写入又小又分散，每一次都要支付这种 4 倍的税。一个单一的文件创建，涉及多次日志写入和检查点写入，可能会触发数十次物理 I/O。解决方案在于和谐与对齐。通过巧妙地在磁盘上布局日志，使得多个元数据记录填满整个 RAID 条带，我们就可以执行一次高效的完整条带写入。这避免了对日志数据的 RAID 5 写入惩罚，将 I/O 的杂音转变为单一、高效的操作。这表明，真正的系统性能来自于理解和优化协议栈所有层之间的交互。

最后，考虑日志记录和安全性的交叉点。日志是近期更改的明确记录。如果攻击者获得对磁盘的物理访问权限，他们可以读取明文日志并了解最近修改了哪些文件，即使最终的文件数据是加密的。日志这个用于完整性的工具，变成了机密性的一个 liabilities。解决方案是将安全工具反过来应用于日志本身。通过将所有日志写入路由到一个块级加密层，或者由文件系统在写入每个日志记录之前对其进行加密，我们可以确保没有正确的密钥，日志就是不可理解的。电源重启后，存储在易失性存储器中的密钥消失，磁盘上的日志对攻击者来说只是无意义的密文。这使我们能够同时拥有崩溃一致性和机密性，而两者互不妥协 [@problemid:3631011]。

作为通用模式的日志

也许最深刻的认识是，日志记录不仅仅是文件系统的一个特性。它是一种实现原子性——即在任何可能崩溃的系统中实现“全有或全无”保证——的通用设计模式。

想象一下你是一位正在构建数据库的应用程序开发人员。你使用内存映射 I/O (mmap) 直接在内存中处理一个大文件以获得最高性能。你更新了一条恰好跨越两个内存页边界的记录。你写入新数据，然后……崩溃了。因为操作系统的回写式缓存可以以任何顺序将脏页刷回磁盘，你可能会发现只有你的记录的前半部分被保存了。你的数据库现在已经损坏。你该怎么办？你可能出于纯粹的需要，在应用层重新发明了日志记录。在修改数据之前，你可以通过编程方式将预期的更改写入一个单独的日志文件，并使用像 msync 这样的调用强制其写入磁盘。只有这样，你才会修改内存映射中的数据。你甚至可以使用内存保护（mprotect）将数据页默认设置为只读，以防止在你的事务逻辑之外发生意外写入。通过这样做，你就在你的应用程序内部构建了一个预写式日志，一个事务系统。日志记录是一个可以应用于软件栈任何层的基本思想。

这个视角也让我们能够将日志记录与其他一致性机制进行比较，例如写时复制（COW）。日志记录通过说“让我先写下我的意图，然后就地修改世界”来实现原子性，而 COW 则采取了不同的方法：“让我在一旁构建一个世界的新修改版本。只有当它完美时，我才会原子地切换一个指针，使其成为新的现实。”两种方法都可以提供崩溃一致性，但它们有不同的性能特征和权衡。并且，至关重要的是，两者都依赖于底层硬件对于写入何时真正持久化的“诚实”。

我们旅程的最后一步是看到日志记录被推向其逻辑结论：日志结构文件系统（LFS）。如果我们决定完全停止“就地”写入数据会怎样？如果每一次写入——无论是数据还是元数据——都只是追加到一个单一的、连续的日志中会怎样？在这个世界里，日志不再仅仅是一个助手；它就是文件系统。查找一个文件意味着在一个本身也存储在日志中的索引里查找其最新的块位置。这种激进的设计可以将所有随机写入转化为大型的顺序写入，这对于 HDD 和 SSD 都非常高效。然后，主要挑战就变成了“清理”日志：通过将活动数据从旧日志段中迁移出来以寻找可用空间。在这里，策略变得异常复杂。通过观察数据的“温度”——将频繁更新的“热”数据与很少接触的“冷”数据隔离开来——系统可以更有效地进行清理，并减少磁盘上文件的长期碎片化。一个简单的日志思想，当被推向极致时，绽放成一种全新的存储设计哲学。

从一个简单的安全网到一个现代系统的基石，日志记录原则展示了一个单一、优雅思想的力量。它教给我们关于硬件的物理现实、系统组件的复杂舞蹈以及对原子性的普遍需求。它证明了当我们用简单、有原则的设计来面对失败的混乱现实时所产生的美。