固态硬盘内部原理

玻尔百科

定义

固态硬盘内部原理指的是管理闪存存储设备的底层硬件架构与固件逻辑。这些系统依靠闪存转换层（FTL）来管理地址映射和异地更新，从而克服了数据块在重写前必须先擦除的物理限制。研究这些内部原理对于计算机工程领域至关重要，因为垃圾回收和写入放大等过程会直接影响存储性能和设备寿命。

核心要点

SSD 在浮栅晶体管中存储数据，这种设计带来了“写前擦除”的限制，要求在写入新数据之前必须先擦除大的块。
闪存转换层 (FTL) 是一种关键固件，它通过使用异地更新和管理逻辑到物理地址的映射，来掩盖闪存的复杂性。
垃圾回收是回收空间所必需但成本高昂的后台过程，它会导致写放大，而写放大是影响 SSD 性能和耐久性的一个主要因素。
SSD 的独特性质迫使我们重新思考传统的软件设计，包括操作系统的 I/O 调度器、缓存策略以及像 B+ 树这样的数据结构。
通过主机与设备的协作，利用 TRIM 命令和分区命名空间 (ZNS) 等特性来提高效率，现代系统的性能得以增强。

引言

从旋转式硬盘驱动器 (HDD) 到无声的、基于硅的固态硬盘 (SSD) 的转变，彻底改变了计算性能。然而，在其安静的外表下，隐藏着一个复杂且违反直觉的世界。其底层的闪存与传统磁盘的行为完全不同；它有有限的寿命，而且数据不能被简单地覆盖。这提出了一个重大挑战：我们如何弥合这种奇特的物理介质与我们操作系统所期望的简单、可靠的块存储之间的鸿沟？

本文深入探讨了现代 SSD 的内部机制，揭示了其卓越性能背后硬件与软件之间巧妙的协同作用。我们将探索数据从应用层到存储它的量子力学陷阱的整个历程。首先，“原理与机制”一章将揭示闪存的物理学原理、闪存转换层 (FTL) 的关键作用，以及不可避免的垃圾回收和磨损均衡任务。随后，“应用与跨学科联系”一章将审视这些内部特性对更广泛的计算机科学领域产生的深远影响，迫使我们重新构想从操作系统调度器到数据库算法的方方面面。

原理与机制

如果你有机会窥探现代固态硬盘 (SSD) 的内部，你找不到其前身——硬盘驱动器 (HDD)——中的旋转盘片和精密的执行器臂。取而代得的，是一个由硅芯片构成的安静、静止的世界。然而，这个无生命的物体却能完成一项看似神奇的壮举：它存储海量信息，并在眨眼之间检索出任何一部分。这套无声的魔法是如何运作的？固态存储器如何记忆，它又使用了哪些巧妙的技巧来模仿我们计算机早已习惯的、可简单覆写的磁盘？深入 SSD 内部的旅程，是一个关于量子力学、精妙幻象以及软硬件之间美妙协作的故事。

量子陷阱：闪存如何记忆

每个 SSD 的核心都是一个非凡的器件：浮栅晶体管。你可以把它想象成一种特殊的电灯开关。普通的开关要么是开，要么是关。但想象一个开关，它的杠杆底部有一个微小、完全绝缘的笼子。我们可以通过一些量子技巧，强行将电子塞进这个笼子里。当电子被困在里面时，它们的负电荷使得将开关拨到“开”的位置变得困难得多。如果笼子里没有电子，开关则能轻松拨动。

这正是 NAND 闪存的工作原理。“笼子”就是浮栅，是晶体管中一块与其余部分电绝缘的导电材料。存储单元的状态——“1”或“0”——取决于这个浮栅是否充有电子。

一个已擦除的单元，其浮栅中没有多余的电子。它的阈值电压 ( $V_{th}$ ) 很低，意味着很容易导通。我们可以将其视为“1”状态。
一个已编程的单元，其浮栅中困有电子。这需要更高的电压才能导通；它的阈值电压很高。这代表“0”状态。

为了让电子进入这个量子陷阱，我们施加一个大电压，通过一种称为量子隧穿的现象迫使它们穿过一个绝缘层。为了将它们取出——即擦除单元——我们施加一个反向电压。在这里，我们遇到了闪存的第一个也是最关键的约束：虽然我们可以非常精确地对单个单元进行编程，但擦除操作却是一个“暴力”的过程。它必须在一个大的擦除块上完成，该块由成千上万甚至数百万个单元组成。你不能只擦掉页面上的一个字母；你必须把整页都擦干净。这就是著名的写前擦除限制。

那么，我们如何在不干扰其他单元的情况下读取单个单元的状态呢？现代 SSD 将这些晶体管排列成称为 NAND 串的长串行链。想象一下，在一根电源和地线之间，串联了 32 个或更多的我们那种特殊开关。要读取比如第 15 个开关的状态，我们对所有其他 31 个开关施加一个“通过”电压，这个电压足够高，无论它们是被编程还是已擦除，都能使它们导通。对于第 15 个开关，我们施加一个更精细的“读取”电压，该电压刚好足以导通一个已擦除的单元，但不足以导通一个已编程的单元。

如果第 15 个单元是已擦除的（低 $V_{th}$ ），它会导通，从而完成电路。串中的所有开关现在都处于导通状态，电流流向地线。如果第 15 个单元是被编程的（高 $V_{th}$ ），我们的读取电压不足以使其翻转。它保持开路状态，电路被切断，没有电流流过。整个串的行为就像一个与非门（AND gate，更确切地说是 Not-AND，因此得名 NAND），其输出由我们目标单元的状态决定。这是一个简单、优雅且强大的机制，完全建立在对少数被困电子的巧妙操控之上。

宏大的幻象：闪存转换层

现在我们有了一种存储介质，但它非常奇特。我们不能覆盖单个字节；我们必须先擦除巨大的块。这就像一个“蚀刻画板”（Etch A Sketch）：你不能只修复一个小错误，你必须摇晃整个画板从头开始。此外，闪存单元在经过一定数量的编程/擦除周期后会磨损。如果我们总是在同一个位置写入，它会很快失效。

我们如何将这种难以驾驭的介质呈现给计算机，使其看起来像一个简单、行为良好的块设备，任何地址都可以随时被覆盖？这就是闪存转换层 (FTL) 的工作，它是一套在 SSD 内部专用处理器上运行的复杂软件。FTL 是一位幻术大师。

FTL 的主要戏法是间接映射。它创建了一个映射表，将操作系统请求的逻辑块地址 (LBA) 与闪存芯片上的实际物理位置——物理页号 (PPN)——分离开来。当操作系统说“写入 LBA 123”时，FTL 不会去 LBA 123 旧的物理位置。相反，它执行一次异地更新：它将新数据写入驱动器上某个全新的、预先擦除的页面，然后简单地更新其映射表：“LBA 123 现在位于 PPN 45678”。包含先前数据的旧物理页被标记为“过时的”或“无效的”。

这一招同时解决了两个问题。它避免了每次写入前都必须擦除的需要，从而大大加快了写入速度。它还实现了磨损均衡：因为 FTL 可以在任何地方写入新数据，所以它可以将写入操作均匀地分布在驱动器的所有物理块上，确保没有单个块会过早磨损。

但这个宏大的幻象是有代价的。映射表必须极快，因此其一大部分存储在 SSD 电路板上的易失性 DRAM 中。这个表可能非常庞大。对于一个现代的 2 TiB、页面大小为 4 KiB 的驱动器，FTL 需要追踪超过 5 亿个逻辑页。为其中每一个存储一个指针，再加上元数据，可能需要几 GB 的 DRAM。这种“DRAM 开销”是 SSD 设计的基本组成部分。并非所有映射都能装入 DRAM，因此 FTL 通常将 DRAM 用作缓存。对 DRAM 中映射条目的请求快如闪电，但一旦未命中，就需要从闪存中缓慢读取，从而引入显著的延迟惩罚。实际上，SSD 本身就是一台微型的、专门用于管理一种更微型、更特殊的存储介质的计算机。

不可避免的琐事：垃圾回收与写放大

FTL 的异地更新策略非常出色，但它引入了一个新的长期问题。随着数据的更新，驱动器会慢慢地被无效页面填满。这些页面在它们所属的整个擦除块被擦除之前无法使用。但如果那个块中仍然包含一些属于其他未动文件的有效页面怎么办？

这时，SSD 的“管家”——垃圾回收 (GC)——就登场了。GC 进程会找到一个混合了有效和无效页面的擦除块。它读取所有仍然有效的页面，将它们复制到一个新的、干净的块中，并更新 FTL 映射表以指向它们的新家。一旦所有有效数据都被迁移出去，旧块现在只包含无效页面，最终可以被擦除，从而可用于新的写入。

这种内部复制是导致一种关键现象——写放大 (WA)——的根源。对于主机计算机想要写入的每一个字节，SSD 可能需要在内部写入更多字节，仅仅是为了移动有效数据。写放大因子 (WAF) 是闪存上总的物理写入量与主机请求的逻辑写入量之比。

垃圾回收的效率完全取决于被回收块的“纯净度”。其成本可以用一个简单的公式完美地描述。如果为垃圾回收选择的块中有效数据的比例是 $\alpha$ ，那么此过程产生的写放大约为 $W_{\text{GC}} = \frac{1}{1 - \alpha}$ 。

让我们来看一下。如果一个块充满了无效数据（ $\alpha=0$ ），GC 可以直接擦除它，无需复制。成本为零， $W_{\text{GC}} = 1$ （译注：此处原文为 $W_{\text{GC}} = 1$ ，应为 $W_{\text{GC}} = 0$ 或理解为回收单位空间产生的写为0。但为忠于原文，译为1）。这是理想情况。然而，如果一个块大部分充满了有效数据（比如 $\alpha = 0.95$ ），写放大就是 $W_{\text{GC}} = \frac{1}{1-0.95} = 20$ 。SSD 为了回收 1 个单位的空间，必须执行 20 次写入！随着文件系统的老化以及随机的文件创建和删除，其有效数据倾向于均匀地散布在整个驱动器上，导致块中平均 $\alpha$ 值升高，使得垃圾回收的成本越来越高。

协同工作：操作系统如何提供帮助（或阻碍）

FTL 不懈地维护着它的幻象，但操作系统既可以成为一个有用的伙伴，也可能成为一个麻烦的对手。SSD 的性能不仅仅取决于硬件，还取决于整个系统栈的协同作用。

首先，让我们破除一个迷思。在 HDD 上，操作系统使用复杂的 I/O 调度器来重新排序读写请求，以最小化磁头的物理移动，因为寻道时间和旋转延迟是最大的性能杀手。在 SSD 上，没有移动部件。访问 LBA 5 的时间与访问 LBA 5,000,000 的时间相同。那么，逻辑数据的布局就完全不重要了吗？

它仍然重要，但原因完全不同。虽然 FTL 可以并行读取物理上分散的页面，但操作系统发出的每一个 I/O 命令都有固定的软件和协议开销。发出一个命令读取 1 MiB 的连续文件，远比为 4 KiB 的片段发出 256 个单独的命令要高效得多，即使总数据量相同。SSD 上逻辑连续性的好处不在于避免寻道，而在于分摊每个命令的开销。

这种伙伴关系对于写入来说更为关键。操作系统可以通过成为一个“闪存感知”的公民来显著减少写放大。

顺序性与对齐： 如果操作系统顺序地写入一个大文件，并确保写入与 SSD 的擦除块边界对齐，它就在向 FTL 发送一个强烈的暗示：“所有这些数据都是相关的，并且很可能一起被删除。”一个智能的 FTL 会将整个数据流放入一个或多个干净的擦除块中。当文件稍后被删除时，这些块中的所有页面会同时变为无效。垃圾回收器找到一个 $\alpha=0$ 的块，免费擦除它，写放大接近理想值 1。而小的、随机的、未对齐的写入则会产生相反的效果，将具有不同生命周期的数据分散到许多块中，从而最大化未来的 GC 成本。
使用 TRIM 说实话： 当你删除一个文件时，操作系统只是在自己的表中将相应的逻辑块标记为空闲。然而，FTL 对此一无所知；它仍然认为数据是有效的。它会在垃圾回收期间尽职尽责地继续复制这些无用的数据，导致不必要的写放大。TRIM 命令是操作系统告知 FTL 的一种方式：“我已经删除了这些 LBA 上的文件。你不再需要保留它们的数据了。” 这会立即将有效页面变为无效页面，使垃圾回收器的工作轻松得多，并显著降低 WAF。

然而，有时抽象层之间会相互掣肘。一个日志结构文件系统 (LFS)，它在软件层面实现了自己的异地更新和清理，当运行在基于 FTL 的 SSD 上时，可能会造成一场噩梦。LFS 的清理器为了整合空间而复制有效数据，所有这些写入——包括新的用户数据和 LFS 复制的数据——都被发送到 SSD。SSD 的 FTL 将此视为一个新的写入流，并执行它自己的垃圾回收。结果是一场乘数效应的灾难，两层的写放大相互叠加，导致灾难性的性能和耐久性下降。这是一个关于“泄露的抽象”的警示故事。

这一观察催生了 SSD 设计中一个引人入胜的演进：分区命名空间 (ZNS)。如果我们干脆去掉 FTL 最复杂和最不可预测的部分——垃圾回收和磨损均衡——并将这些责任以一种结构化的方式交还给主机呢？ZNS 设备将其空间划分为大的分区（zone）。规则很简单：你只能在一个分区内顺序写入，要回收空间，你必须重置整个分区。这使得垃圾回收被外部化了。操作系统现在完全负责管理数据放置和清理，但它可以智能地进行，比如在空闲时间安排清理，并避免传统 FTL 中导致延迟尖峰的内部资源争用。ZNS 代表了终极的伙伴关系，将操作系统和 SSD 从魔术师和观众，转变为一个协同工作的工程师团队。

应用与跨学科联系

我们花了一些时间窥探固态硬盘内部那个奇特而精彩的世界，一个由浮栅晶体管奇特的量子力学规则所支配的世界。我们看到写入数据就像注入电荷，而擦除数据则需要强行驱逐这些电荷，这一行为是如此剧烈，以至于只能在大的内存块上进行，并会逐渐磨损设备。你可能会倾向于认为这些只是实现细节，是一些应由聪明的控制器隐藏起来的怪癖。但那样你就错过了故事中最精彩的部分。

事实是，这些看似底层的物理约束所带来的后果，会一直涟漪般地影响到计算栈的顶层。SSD 不仅仅是一个“更快的硬盘”，它是一种根本上不同的存储介质，其本质迫使我们重新思考从操作系统的核心逻辑到我们最基础算法设计方式的一切。现代 SSD 的故事是一个关于协同设计的故事，是硬件与软件之间一场错综复杂而又优雅的舞蹈。

操作系统：连接两个世界的桥梁

第一个直面闪存奇异规则的软件层是操作系统。几十年来，操作系统设计师们为旋转的磁盘完善了他们的技艺，在那种设备上，最慢的操作无疑是机械臂的物理移动。

解决方案是什么？想象一栋高楼里的一部电梯，访问各楼层的请求随机到来。一个愚蠢的电梯会按接收顺序处理请求，疯狂地上下穿梭。而一个聪明的电梯，则会先向上扫描，接上所有上行的人，然后再向下扫描。这就是操作系统中“电梯调度器”的精髓。对于硬盘驱动器，它会根据 I/O 请求在磁盘上的物理位置对其进行排序，以最小化读写头的寻道时间。这一策略曾是一代人存储性能的基石。

现在，SSD 登场了。它没有移动部件。“寻道时间”几乎为零。在 SSD 上使用电梯调度器，就像在一栋拥有传送门的建筑里运行那部聪明的电梯——不仅无用，而且适得其反！现代 NVMe SSD 是一种大规模并行的设备，拥有许多可以同时处理请求的内部通道。其性能的关键在于同时为其提供许多独立的请求。电梯调度器通过将所有请求排序到一个单一的顺序队列中，完全破坏了这种并行性，迫使设备绑着一只手工作。一个技术上曾是绝妙的优化，对下一个技术却成了瓶颈。因此，现代操作系统不得不开发全新的多队列子系统，允许应用程序将工作直接提交到硬件队列，从而释放设备的内部并行性。

这种重新思考旧有智慧的主题仍在继续。思考一下操作系统的页面缓存。对于硬盘来说，一次读未命中（read miss）迫使从磁盘读取数据是一场灾难——会带来毫秒级的延迟。因此，操作系统会试图在其 RAM 缓存中保留尽可能多的数据。另一方面，写入通常会被缓冲和合并，但主要目标是避免缓慢的读取。在 SSD 上，这种成本模型被颠覆了。读取速度极快，以微秒计。然而，一次写入的“真实”成本，不仅是编程一个页面的时间，还有它稍后在垃圾回收期间可能引起的“写放大”。

一个聪明的操作系统可以利用这一点。由于读未命中的代价现在如此之低，操作系统可以更积极地从其缓存中驱逐页面。这提供了一个稳定的“脏页”（需要写入磁盘的数据）流。然后，操作系统可以扮演一个总指挥的角色：它不是在页面变脏时就随机地将它们写出，而是可以收集一大批，按其逻辑地址排序，然后作为一个单一的、大的、顺序的流写出。从 FTL 的角度来看，这是一个完美的工作负载。它可以将这些数据整齐地安放在新的擦除块中，最大限度地减少碎片，并确保当垃圾回收最终发生时，效率会高得多。我们用几次廉价的额外读取，换取了写入长期成本的大幅降低。同样的原则也解释了为什么操作系统级的写缓冲（它将许多小的、随机的应用程序写入合并为更少、更大、更顺序的写入）对 SSD 如此有益——它将写入流整理成 FTL 可以高效处理的形式，从而极大地减少了写放大。

新的契约：主机-设备协作

很长一段时间里，FTL 是一个黑盒，一个不透明的层，它呈现出简单块设备的幻象，同时隐藏了闪存混乱的现实。但正如我们所见，这个幻象并不完美。拥有数据高层知识的操作系统，通常能比只看到一连串逻辑块地址流的设备做出更好的决策。这开启了一个协作的新时代，主机和设备通过更丰富的接口进行通信。

最重要的例子是分离“热”数据和“冷”数据。想象一下你在打包裹。一个箱子里放你冬天的衣服，你一年后才需要。另一个箱子里放你的咖啡杯，你每天都用。把咖啡杯存放在储藏室后面、压在冬衣箱子底下是愚蠢的。然而，当 SSD 的 FTL 在不知不觉中将频繁更新的“热”数据（如数据库日志）与很少接触的“冷”数据（如归档照片）混合在同一个擦除块中时，情况正是如此。为了回收被覆盖的热页面的空间，GC 必须费力地将所有冷的、有效的数据先复制出去。

像 NVMe 这样的现代接口允许操作系统向设备提供“提示”。通过用不同的流标识符标记写入，操作系统可以告诉 FTL：“这些数据是热的，那些数据是冷的。”一个智能的 FTL 随后可以在物理上将这些流隔离到不同的擦除块中。现在，热数据块充满了很快就会失效的数据，使它们成为垃圾回收器完美的、易于清理的目标。写放大，其值约等于 $\frac{1}{1-v}$ （其中 $v$ 是牺牲块中有效数据的比例），随着热数据块的 $v$ 趋近于零而急剧下降。这种简单的沟通行为节省了大量的内部工作。

这种更好的主机-设备契约的思想，在解决“双重日志”问题的架构中被推向了其逻辑终点。一些高级文件系统，如 F2FS，本身就是“日志结构的”，旨在将所有写入都转化为一个顺序日志——这对于闪存来说是完美的。但是，当你在一个同样具有日志结构 FTL 的 SSD 上运行这样的文件系统时，你就会遇到一个“相互倾轧”的问题。文件系统的清理器移动数据以减少其内部碎片，从而产生新的写入；然后 FTL 的垃圾回收器可能再次移动相同的数据来清理它的块。这种冗余的工作会导致惩罚性的写放大。解决方案是什么？改变规则。像分区命名空间 (ZNS) 这样的接口将 SSD 的擦除块结构暴露给主机。主机同意只对这些“分区”进行顺序写入，作为回报，设备可以关闭其自身复杂的日志记录和垃圾回收功能。重复工作被消除了，控制权被放在了拥有最多信息的地方——主机层面。

这种合作甚至延伸到管理设备的有限寿命。由于每个擦除周期都会造成微小的物理磨损，SSD 真的可能被“写到死”。操作系统或数据中心管理员可以实施策略来控制这一点，例如，通过限制每分钟的逻辑写入次数来保证一个目标寿命，比如说五年。这是一种直接的、系统级的性能与可靠性之间的权衡，只有通过理解闪存磨损的底层物理原理才可能实现。

为闪存重新构想的算法

闪存的影响并不仅限于操作系统；它一直延伸到基础数据结构和算法的设计中。几十年来，B+ 树几乎是每个数据库系统的主力。它的设计是为磁性磁盘完善的，在磁性磁盘上，更新是“原地”执行的。在闪存上，若不进行昂贵的擦除操作，这是不可能的。

解决方案是拥抱闪存的异地更新特性。我们不是修改一个树节点，而是创建一个新的副本——这种技术称为写时复制 (CoW)。当一个节点分裂时，我们将两个新节点写入新的页面，然后（延迟地）更新父节点以指向它们。旧节点只是被标记为无效，等待垃圾回收器稍后清理。这使得整个数据结构变成了一个只追加系统，完美匹配了闪存的优势。像 B-link 树这样的高级变体特别适合，因为它们能容忍暂时的不一致性，允许更新被批量处理并延迟地向上传播，从而进一步最小化写放大。类似的逻辑也适用于哈希表。用于标记已删除槽位的“墓碑”是哈希表算法的一个逻辑构造；它不能直接转换成存储的 TRIM 命令。正确的、闪存感知的方法是定期重建表，只将有效的条目复制到新位置，然后对整个旧空间发出一个单一的、大的 TRIM 命令，FTL 可以以最高效率处理该命令。

然而，有时理论与实践的美妙融合意味着无需重新设计。考虑缓存无关合并排序算法，这是一种理论上优雅的算法，它递归地对数据进行排序，而无需为任何特定的缓存或块大小进行调整。其基本操作涉及合并已排序的序列，这会产生长的、顺序的输出流。正如我们所见，这对于日志结构的 FTL 来说是理想的工作负载！该算法在抽象内存模型中追求理论上的最优性，其结果是自然地产生了一种几乎完美适应 SSD 物理现实的写入模式。任何试图通过使其感知擦除块大小来“优化”它的尝试，都将是徒劳的，只会破坏其优雅性。

与熵共舞：安全与信息论

也许最令人惊讶的联系是与密码学和信息论领域的联系。现代应用程序要求加密以保护静态数据。一个好的加密算法将结构化的、可预测的明文转换为在计算上与随机噪声无法区分的密文。换句话说，它最大化了熵。

但在这里我们遇到了直接的冲突！SSD 的 FTL 配备了其自己的数据缩减功能，如压缩和去重，这些功能通过寻找和消除冗余来工作——也就是说，通过利用低熵。当 FTL 收到一串加密数据时，这些功能就完全失效了。它无法压缩看起来随机的密文，而且由于现代密码对每个块使用唯一的初始化向量，即使是相同的明文块也会产生唯一的密文块，从而完全挫败了去重功能。

这个僵局的解决方案是什么？不是削弱加密，例如使用会泄露底层数据信息的确定性方案。解决方案在于将整个系统视为一个整体。去除冗余的正确位置是在它被加密隐藏之前。一个智能的系统会首先在操作系统层面压缩数据，然后才对更小的、压缩后的结果进行加密。FTL 仍然看到一个不可压缩、不可去重的流，但写入设备的总数据量已经被主机减少了。这种优雅的分层方法同时实现了安全性和效率，减少了物理写入并延长了驱动器的寿命。

从 I/O 请求的调度到 B+ 树的设计，再到加密文件系统的实现，固态硬盘的内部机制几乎在计算机科学的每个角落都留下了自己的印记。解锁其性能的旅程是关于该领域统一性的一堂精彩课程，它表明，真正的理解并非来自孤立地优化某一层，而是来自欣赏所有层面之间美丽而错综复杂的相互作用。