浮点单元 (FPU)

玻尔百科

定义

浮点单元 (FPU) 指计算机体系结构中专门用于根据 IEEE 754 标准对包含符号、尾数和指数的数字进行算术运算的硬件组件。该单元通过流水线技术和融合乘加 (FMA) 等硬件特性提供巨大的动态范围和一致的相对精度，从而支持人工智能和气候建模等严苛领域的计算需求。浮点单元的峰值性能依赖于硬件功能与软件优化的协同，包括编译器驱动的软件流水线以及操作系统级别的惰性上下文切换。

核心要点

FPU 使用符号、尾数和指数来表示数字，依据 IEEE 754 标准的定义，实现了巨大的动态范围和一致的相对精度。
FPU 的峰值性能依赖于硬件特性（如流水线和融合乘加（FMA））与软件优化（如编译器驱动的软件流水线和操作系统级的惰性上下文切换）之间的协同作用。
FPU 的特性，如混合精度、渐进下溢（次规范数）和 FMA，是为应对人工智能和气候建模等高要求领域中遇到的数值挑战而直接产生的。
FPU 的设计涉及关键的权衡，例如支持双精度硬件的成本和复杂性，与在软件中模拟它可能带来的性能损失之间的权衡。

引言

浮点单元（FPU）是现代计算的基石，是一个专门的处理器组件，对于处理科学、工程和人工智能所需的大范围数字至关重要。虽然我们依赖它的计算来完成从天气预报到视频游戏的一切事务，但实现这一能力所涉及的复杂设计和关键权衡往往被隐藏起来。计算机如何使用有限的硬件来表示原子尺度和宇宙尺度的数字？又是什么阻止了这些计算崩溃为一连串的错误？本文旨在通过对 FPU 的全面介绍来填补这一知识空白。

这段旅程将通过两个相互关联的章节，揭示数字精度背后的天才之处。首先，在原理与机制部分，我们将剖析 FPU 本身，探索浮点表示的基本概念、IEEE 754 标准的优雅规则，以及将这些思想付诸实践的架构创新。随后，应用与跨学科联系部分将视野拉远，展示 FPU 在其生态系统中的作用，揭示它如何与操作系统、编译器和虚拟机交互，并论证其特定功能为何对于解决人工智能和气候科学等领域的复杂问题不可或缺。读完本文，您将对硬件、软件和现实世界数学之间的协同作用有深刻的体会，正是这种协同作用使 FPU 成为逻辑设计的杰作。

原理与机制

想象一下，你正在尝试描述宇宙。你需要谈论原子的大小，也需要谈论到最遥远星系的距离。你需要能够表示极其微小和天文数字般巨大的数。如果你用数苹果的计数系统来写下这些数字，你将需要多得离谱的纸张。这正是浮点单元（FPU）为解决这一根本挑战而生的原因。它是计算机大脑中专门处理这种巨大范围数字的部分，是科学和工程的语言。但它是如何工作的呢？它不仅仅是一个更大的计算器；它是一件逻辑设计的杰作，充满了巧妙的技巧和深刻的权衡。

两种数字的故事：定点与浮点

在我们深入浮点世界之前，让我们先考虑一下另一种选择。对于许多任务，特别是在用于音频或简单图形的数字信号处理（DSP）中，我们可以使用定点数。一个定点数就像一个整数，我们只是假装小数点（或二进制点）在其他某个位置。例如，我们可以使用一个16位整数来表示从0到65535的数字，或者我们可以规定最后8位是小数部分，从而得到一个从0到255的范围，精度为 $1/256$ 。这种方法简单、快速，而且功耗极低。

那么，为什么不将定点用于所有事情呢？想象一下，你正在为智能设备设计一个低功耗芯片。你可以选择一个简单高效的定点单元（FXU），或者一个更复杂的浮点单元（FPU）。对于像滤波器计算这样的特定重复性任务，FXU 可能能够以更高的时钟速度运行，并在相同的芯片面积内容纳更多的并行处理通道。即使 FPU 在理论上更“强大”，FXU 每瓦的原始计算吞吐量也可能高出数倍。当您预先知道数字的范围，并且可以接受一个恒定的绝对精度时，定点就是王道。

当您不知道范围时，问题就出现了。科学计算充满了未知。一个模拟可能会产生跨越许多数量级的值。这就是浮点数派上用场的地方。它做出了一个约定，一种与魔鬼的交易：它放弃了统一的绝对精度，以换取在巨大动态范围内的统一相对精度。

科学记数法的秘密：为力量而立的契约

浮点的秘密是你在高中科学课上学到的一个概念：科学记数法。我们不写 $300,000,000$ ，而是写 $3 \times 10^8$ 。我们有一个尾数（或称有效数） $3$ ，和一个指数 $8$ 。浮点数做的完全是同样的事情，只不过是在二进制下。一个数字被表示为：

$\text{值} = \text{符号} \times \text{尾数} \times 2^{\text{指数}}$

这种简单的结构异常强大。通过使用少数几个比特位来表示指数，我们可以在一个巨大的范围内移动二进制点，从接近普朗克长度的数字到比可观测宇宙中原子数量还大的数字。尾数，以其固定的比特数，决定了精度，或者说我们能保持的有效数字位数。这意味着，对于小数，两个相邻可表示数之间的差距很小；对于大数，这个差距很大，但相对误差大致保持不变。

游戏规则：IEEE 754 及其角色阵容

为了防止每个计算机制造商都有自己格式的“数字世界蛮荒西部”，电气和电子工程师协会（IEEE）创建了 IEEE 754 标准。这份文件是浮点算术的圣经。它不仅定义了数字的格式，还定义了运算的精确规则和异常情况的处理。

标准中规定的一项关键创新是隐藏位的概念。对于大多数数字，称为规格化数，其尾数被调整为总是 $1.f$ 的形式，其中 $f$ 是小数部分。既然开头的“1”总是在那里，就没有必要存储它！硬件可以假装它的存在，从而免费获得一个额外的精度位。

但是，当数字变得非常非常接近零时会发生什么？如果我们坚持要求开头是“1”，那么我们能表示的最小数字（除了零本身）将在零附近有一个显著的间隙。为了填补这个间隙，标准允许使用次规范（或非规范）数。这些是特殊的、极小的数字，它们的指数处于最小值，并且隐藏位被假定为 $0$ ，而不是 $1$ 。这允许“渐进下溢”，即当数字接近零时，精度会平滑地降低，而不是突然跌落悬崖。一个复杂的 FPU 必须包含单独的硬件路径来处理这两种情况：一条为规格化数插入隐藏的“1”，另一条为次规范数绕过这个逻辑。

该标准还为无法用简单数字表示的情况定义了一组特殊角色：

零：不只是一个零，而是有 $+0$ 和 $-0$ 。在某些高级计算中，这种区别可能很有意义。
无穷大： $+\infty$ 和 $-\infty$ 是诸如 $1/0$ 之类的运算或超出最大可表示值的数字（上溢）的良好定义结果。
非数值 (NaN)：这是对无效运算（如 $\sqrt{-1}$ 或 $0/0$ ）的回答。NaN 有一个奇妙而危险的特性：它们会传播。任何涉及 NaN 的运算都会产生另一个 NaN。这对于调试很有用，因为 NaN 表明上游出了问题。然而，在无人值守的系统（如航天器的控制回路）中，一个意外的 NaN 可能会陷入反馈循环，污染所有后续计算，并导致系统锁定。设计强大的硬件看门狗来检测这些“NaN-反馈锁定”，同时不干扰正常计算，是计算机体系结构中的一个严峻挑战，需要能够跟踪单个指令随时间行为的机制。

完美的代价：精度的成本

现在我们有了规则，让我们回到构建我们的 FPU。设计者必须回答的首要问题之一是：多高的精度才足够？IEEE 754 标准定义了几种格式，最常见的是32位“单精度”和64位“双精度”。

增加双精度支持不是一个简单的升级。这是一个重大的工程决策，伴随着巨大的成本。一个双精度单元需要更宽的数据路径（用于53位的尾数，而单精度是24位）、更复杂的逻辑和更大的芯片物理面积。这种额外的复杂性也可能延长电路的关键路径，迫使整个 FPU 以较低的时钟频率运行。设计者可能面临一个选择：一个快速、小巧、仅支持单精度的 FPU，或者一个更大、更慢、两者都支持的 FPU。如果一个工作负载很少需要双精度，那么坚持使用更简单的硬件并模拟罕见的双精度操作可能更具成本效益。模拟意味着使用一连串的单精度指令来执行操作，这个过程要慢得多，但不需要专门的硬件。决策取决于“盈亏平衡点”：工作负载中必须有多少比例是双精度，才能证明专用硬件的成本是合理的？

机器内部：一次计算的生命周期

让我们跟随两个数字进入 FPU 进行加法运算。这个过程就像一个多级流水线。

首先，指数必须匹配。FPU 查看两个指数，并将指数较小的数字的尾数向右移动，每次移动都增加其指数，直到它们相等。如果两个数字在量级上差异很大，这个对齐步骤可能会导致精度损失——较小数字的最低有效位可能会被移出。

接下来，对齐后的尾数进行加法或减法。在这里，我们来到了 FPU 设计中最微妙和最美妙的方面之一：舍入。

舍入的艺术

乘法的结果可能拥有操作数两倍的位数，加法也可能需要额外的位数。但最终结果必须能够放回标准的浮点格式中。这意味着我们必须进行舍入。IEEE 754 定义了几种舍入模式，如“向零舍入”或“向最近偶数舍入”。

这在芯片中是如何实现的呢？一个天真的方法是计算一个高精度的结果，然后决定如何舍入它。一个更聪明的方法是使用专用的逻辑块同时计算几个可能的舍入结果。例如，一个块计算截断的结果，另一个计算截断结果加一，等等。然后，一个简单的多路复用器，由当前舍入模式和在加法过程中计算出的几个额外位（保护位、舍入位和粘滞位）控制，选择哪个候选结果是正确的，并将其传递出去。

但要正确舍入，你需要对你丢弃的东西有所了解。高性能 FPU，如著名的 Intel x87，会以一种临时的、更高精度的格式执行其内部计算。它们使用一个内部累加器，其精度超出了最终存储格式所要求的范围，带有额外的“保护数字”。这意味着对于计算的中间步骤，算术行为就像它有一个更小的机器ε（即满足 $1+\varepsilon > 1$ 的最小数 $\varepsilon$ ）。这种精度的临时提升确保了当最终结果被舍入回标准格式时，误差被最小化。这就像厨师在混合配料时使用一个更大、更精确的量杯，只在最后才将最终的菜肴倒入顾客的小碗中。

舍入模式本身是可以控制的。通常，处理器有一个特殊的控制寄存器（如FCSR），用于设置全局舍入模式。但如果你只想对一条指令使用不同的模式怎么办？一些架构允许将舍入模式直接编码到指令本身中。这带来了一个有趣的流水线挑战：FPU 必须知道是使用来自控制寄存器的全局模式，还是使用来自指令的局部模式，并且如果前一条指令仍在流水线中试图修改该全局寄存器，它必须处理潜在的数据冒险。

数字的流水线

整个 FPU 是作为一个流水线来运作的。一条指令会经过取指、译码、执行和写回等阶段。一个深的 FPU 流水线可能仅为执行一条 ADD 或 MULTIPLY 指令就有很多个阶段。单条指令遍历所有这些阶段所需的时间是其延迟，我们可以称之为 $L$ 个周期。

如果 FPU 必须等待一条指令完全完成后才能开始下一条，性能将惨不忍睹。相反，一个流水线化的 FPU 可以在每个周期开始一条新指令，即使前面的指令仍在处理中。这个特性是它的吞吐量。一个设计良好的 FPU 可以达到每周期1次操作的吞吐量，尽管其延迟可能是，比如说， $L=5$ 个周期。

这会产生一个关键的依赖问题，称为写后读（RAW）冒险。如果指令 $C$ 需要指令 $P$ 的结果，它必须等到 $L$ 个周期后 $P$ 的结果准备好才能开始执行。流水线必须停顿，插入气泡。我们如何避免这种情况？关键是指令级并行。如果我们能在 $P$ 和 $C$ 之间找到其他独立的指令来执行，我们就可以隐藏延迟。一个优美而简单的规则出现了：为了完全隐藏生产者指令 $P$ 的延迟 $L$ ，我们必须在 $P$ 和其消费者 $C$ 之间调度至少 $k = L-1$ 个独立的操作。如果单个代码流没有足够的独立工作，现代处理器可以交错执行来自完全不同线程的指令，以保持 FPU 流水线满载并隐藏延迟，从而实现最大吞吐量。

协同的杰作：征服斜边

让我们看看所有这些原理如何结合起来解决一个实际问题：计算直角三角形的斜边， $\text{hypot}(x,y) = \sqrt{x^2+y^2}$ 。

一个简单的方法，即直接计算 $x$ 的平方，再计算 $y$ 的平方，然后相加，充满了危险。如果 $x$ 很大，比如说 $2^{600}$ ，它的平方 $2^{1200}$ 将会溢出标准的双精度格式，即使最终结果 $\text{hypot}(2^{600}, 0) = 2^{600}$ 是完全可以表示的。这被称为伪溢出。同样，如果 $x$ 非常小，比如说 $2^{-800}$ ，它的平方 $2^{-1600}$ 可能会下溢为零，导致不正确的最终结果。

一个鲁棒的算法必须更加巧妙。一种标准技术是首先找到绝对值较大的值，我们称之为 $a$ ，较小的为 $b$ 。然后我们可以使用这个恒等式：

$\text{hypot}(x,y) = a \sqrt{1 + (b/a)^2}$

这样安全得多。比率 $b/a$ 总是在 $0$ 和 $1$ 之间，所以它不会溢出。平方根内的项在 $1$ 和 $2$ 之间。这避免了中间的溢出和下溢问题。高级的 FPU 实现使用一种仔细的缩放技术，在计算前将输入乘以一个2的幂，将它们带入一个“安全”的指数范围内，然后在计算后将最终结果缩放回去。

此外，为了达到最高的精度，我们可以利用大多数现代 FPU 中提供的一个特殊指令：融合乘加（FMA）。这个指令计算 $A \times B + C$ ，并且只在最后进行一次舍入，而不是在乘法后舍入一次，加法后又舍入一次。使用 FMA 来计算 $1 + (r \times r)$ （其中 $r=b/a$ ）减少了总的舍入误差次数，产生的最终结果明显更精确。一个巧妙的算法和一个强大的硬件特性（如 FMA）之间的这种协同作用，使得高质量的数学库能够提供与真实数学值几乎无法区分的结果。

从数字表示的基本选择到流水线、舍入和算法重构的微妙舞蹈，浮点单元是几十年智慧的结晶。它本身就是计算机体系结构的一个缩影——一个充满权衡、巧妙优化和优美逻辑的世界，所有这些协同工作，以计算宇宙的语言。

应用与跨学科联系

我们已经游历了浮点单元的内部世界，惊叹于那些巧妙的设计，它们让 FPU 能够用有限的比特位集合来表示无限的实数。我们见识了其中的技巧：隐藏位、偏置指数、用于表示无穷大和非数值的特殊模式。但这不仅仅是一台漂亮的抽象机器。FPU 是驱动当今众多科学技术的不知疲倦的引擎。要真正领会其重要性，我们必须看到它的实际应用。这些比特和指数的复杂舞蹈在何处发挥作用？让我们开始一段旅程，从处理器的核心到人类知识的前沿。

性能的艺术：硬件与软件的交响乐

FPU 并非孤立地施展其魔力。它是一个宏大交响乐团的一部分，一个复杂的系统，在这个系统中，硬件设计师、编译器作者和操作系统开发者都必须完美和谐地工作，以达到性能的巅峰。FPU 的设计是一个关于权衡、优化和惊人联系的故事。

想象你是一名处理器架构师，正在决定是否要投入数百万美元设计一个更快的 FPU。你如何知道这是否值得？答案在于一个简单而深刻的原则，即阿姆达尔定律。如果一个程序只将其一小部分时间用于浮点计算，那么即使 FPU 的速度无限快，也只能提供很小的整体加速。为了做出明智的决定，必须首先描述工作负载的特征。运行科学模拟的处理器将从强大的 FPU 中获益匪浅，而专用于简单数据录入的处理器则可能不然。这种经济和工程上的现实迫使我们进行概率性思考，对不同类型的程序甚至不同的电源管理模式进行平均，以在制造任何一个晶体管之前估算预期的性能增益。

一旦我们有了一个拥有多个执行流水线的强大并行 FPU，一个新的挑战就出现了：我们如何持续为其提供工作？在现代超标量处理器内部，指令风暴般地涌来，都在争抢资源。一个加法需要一个算术逻辑单元（ALU），一个内存访问需要一个加载/存储单元，而一个乘法需要一个 FPU。处理器的分派器必须像一个技艺高超的空中交通管制员，在每个时钟周期实时地将每个“微操作”分配给一个空闲的执行单元。这个看似混乱的资源分配问题有一个植根于抽象数学的惊人优雅的解决方案。它可以被建模为一个二分图匹配问题，其中一组节点代表指令，另一组代表执行单元。如果一个指令可以在某个单元上执行，则在它们之间连接一条边。目标是找到最大数量的配对——即可并发运行的最大指令集。这是一个美丽的例子，说明了图论中的深层结果，如 Hopcroft-Karp 算法，不仅仅是学术上的奇珍，而是内嵌于使你的计算机快速运行的逻辑之中。

硬件调度器不是这个交响乐团中唯一的音乐家。将人类可读代码翻译成机器指令的编译器，扮演着至关重要的角色。考虑一下数字信号处理和人工智能中的一个关键操作：卷积，它本质上是一长串融合乘加（FMA）操作。一个 FMA 操作，如 $a \times b + c$ ，可能需要几个时钟周期才能完成。如果编译器天真地发出一指令并等待它完成后再开始下一条，FPU 大部分时间都将处于空闲状态。为了解决这个问题，编译器采用了一种复杂的技术，称为软件流水线。它们重新排列并交错来自多个独立计算的指令，就像一条装配线。当 FPU 忙于计算 A 的第一阶段时，编译器发出计算 B 的第一阶段。当 FPU 准备好进行 A 的第二阶段时，它已经开始了 B、C 和 D。这隐藏了单个操作的延迟，使 FPU 能够达到其理论上的峰值吞吐量，即每周期完成一次 FMA。这需要仔细分析数据依赖和资源约束，通常涉及展开循环以创造更多的独立工作，展示了编译器智能与 FPU 并行架构之间错综复杂的协同设计。

看不见的管理者：操作系统与 FPU

FPU 是一个共享的社区资源。在一个多任务系统中，许多不同的程序或进程轮流在处理器上运行。这就提出了一个根本性的问题：谁负责 FPU 的状态？是什么阻止了一个恶意或有缺陷的程序破坏另一个程序的浮点计算？答案是操作系统（OS），它作为所有硬件的受信任的、特权的管理者。启用、禁用或修改 FPU 控制寄存器的能力是一项特权操作，只有 OS 才能访问。这个基本的保护屏障确保了每个进程都在其自己隔离的“沙箱”中运行，对其他进程的存在一无所知。

然而，管理 FPU 状态是有代价的。FPU 寄存器的集合可能相当大，保存一个即将退出的进程的状态并恢复一个即将进入的进程的状态可能需要数千个处理器周期。对于许多常见程序，如文本编辑器或简单的 shell 命令，FPU 甚至从未使用过。为什么要为一个不需要 FPU 的进程支付完整 FPU 上下文切换的代价呢？这一洞见引出了一种极其巧妙的优化，称为惰性 FPU 上下文切换。

以下是 OS 的赌注：在上下文切换时，OS 赌进入的进程不会使用 FPU。它对 FPU 寄存器不做任何操作，让旧进程的状态留在原处，只是在一个处理器控制寄存器中设置一个“陷阱”位。如果 OS 赌赢了——新进程在没有任何浮点运算的情况下运行完毕——那么 FPU 上下文切换的成本就完全避免了。如果 OS 赌输了——新进程尝试执行其第一条 FPU 指令——陷阱就被触发了！处理器暂停该进程，并通过“设备不可用”异常将控制权交给 OS。此时，也只有在此时，OS 才执行“即时”上下文切换：它保存旧的 FPU 状态，恢复新的状态，清除陷阱位，然后让进程像什么都没发生过一样继续运行。是否使用这种惰性策略的决定取决于一个简单的概率计算：在大多数情况下避免切换所节省的成本，必须超过在少数需要 FPU 的情况下处理陷阱的额外成本。

然而，这种惰性方案引入了新一层的复杂性，尤其是在乱序处理器中。想象一下，一直在使用 FPU 的进程 A 被切换出去。它的状态保留在 FPU 寄存器中。进程 B 被切换进来。现在，假设进程 B 执行了一条导致 FPU 异常的指令，比如除以零。一个天真的处理器可能会发出警报，但这是谁的错？被除的数字属于进程 B，但 FPU 的状态标志（可能指示了先前被屏蔽的错误）可能仍然属于进程 A！将故障归咎于错误的进程将是 OS 隔离保证的灾难性失败。现代处理器用它们的重排序缓冲器（ROB）解决了这个难题，ROB 精确地按顺序记录所有指令。“FPU 不可用”陷阱，就像算术异常一样，并不会立即被处理。它只是在 ROB 中为引发故障的指令条目中被记录下来。只有当该指令到达队列头部，准备提交到体系结构状态时，异常才最终被触发。这确保了所有异常都是精确的——它们以正确的顺序处理，并且总是归因于正确的进程，在乱序执行的表象混乱中维持了秩序 [@problem-id:3667598]。

虚拟机中的幽灵

抽象的层次还在继续。在硬件和操作系统之上，我们经常运行一个虚拟机监视器（hypervisor），这是一个创建和管理多个虚拟机（VM）的程序。每个 VM 都认为自己拥有私有的硬件，包括它自己的 FPU。这种幻觉是如何维持的？再一次，这是一个关于陷阱和巧妙欺骗的游戏。

例如，虚拟机监视器可以配置虚拟硬件对客户机操作系统撒谎，通过虚拟化的 CPUID 指令告诉它没有 FPU 存在。一个行为良好的客户机操作系统在收到此信息后，会准备在软件中模拟任何浮点指令。它通过设置一个控制位（x86 上的 CR0.EM）来实现这一点，该位会导致任何 FPU 指令触发一个陷阱。虚拟机监视器配置 VM 来拦截这个特定的陷阱。当客户机应用程序尝试使用 FPU 时，会发生连锁反应：指令触发陷阱，导致 VM 退出，将控制权交给虚拟机监视器。然后，虚拟机监视器可以决定做什么：它可以让客户机操作系统处理陷阱并执行缓慢的软件模拟，或者它可以透明地代表客户机使用真实的硬件 FPU，并像操作系统为其进程所做的那样，惰性地管理其状态。这种嵌套陷阱和状态管理的复杂机制是云计算的基础，允许单个物理服务器在数十个隔离的虚拟机之间安全高效地共享其 FPU。

数字世界中的物理世界：科学、AI 与对精度的追求

我们已经看到了管理 FPU 所涉及的巨大复杂性，但我们尚未触及最深刻的问题：为什么它们被设计成这样？为什么有不同级别的精度？为什么需要像次规范数和融合乘加这样深奥的功能？答案是，FPU 是我们模拟物理世界的主要工具，而这个世界在数值上是一个要求苛刻的地方。

考虑一下人工智能领域的革命。训练大型神经网络涉及数十亿次的浮点运算。为了使这成为可能，设计者转向了混合精度计算。大部分计算——巨大的矩阵乘法——使用低精度格式如 binary16 (FP16) 执行，这种格式更快、更节能。然而，这是与魔鬼的交易。如果你用 FP16 格式累加长点积（许多乘积之和）的结果，舍入误差会迅速累积，以至于最终结果完全是垃圾。此外，网络权重的更新，即梯度，可能会变得极其微小。在 FP16 中，这些微小但至关重要的信号会被冲刷为零，从而有效地停止学习过程。

解决方案是一种复杂的 FPU 架构。虽然乘法可能涉及 FP16 输入，但累加必须在更高精度的格式如 binary32 (FP32) 中完成。这就是为什么现代 AI 加速器配备了将 FP16 乘法器结果送入宽 FP32 累加器的 FPU。为了解决下溢问题，使用了一种称为损失缩放的技术：在任何计算之前，初始值乘以一个大的 2 的幂（ $S=2^k$ ）。这“放大”了所有中间梯度，将它们从 FP16 危险的下溢区中提升出来。在计算出更新后，再通过除以 $S$ 将其缩放回去，这个操作对于 2 的幂是精确的。这些特性并非随意设计的；它们是数值分析师和计算机架构师共同努力使深度学习成为可能之后，得到的直接成果。

同样的原则也适用于气候建模的巨大挑战。模拟地球气候需要跟踪守恒量，如能量和化学示踪剂。FPU 的数值特性可能意味着一个稳定、可预测的模型与一个陷入胡言乱语的模型之间的区别。

你如何将一个微小的更新（例如，一个 $10^{-15}$ 的残差）添加到一个大的量上（例如，一个接近 $1$ 的网格单元的存量）？如果你的精度太低，更新将小于可表示数字之间的间隔，并会直接消失。这需要 binary64（双精度）的高精度来确保更新被记录下来，质量得以守恒。
你如何通过减去两个巨大且几乎相等的数字（例如，一个网格单元的输入和输出能量通量）来计算一个微小的变化？标准的乘法后加法会在乘法后引入舍入误差。当两个大数相消时，这个微小的舍入误差可能会主导最终结果，这种现象称为灾难性抵消。融合乘加（FMA）指令是解药。它只用一次最终的舍入来计算整个表达式 $ab+c$ ，从而保留了那个微小而脆弱的结果。
你如何跟踪一个衰减到像 $10^{-310}$ 这样值的示踪剂浓度——极其微小，但在物理上不为零？没有渐进下溢，任何低于最小规格化值（在 binary64 中约为 $10^{-308}$ ）的数字都会被突然冲刷为零。渐进下溢，由次规范数支持，允许系统以递减的精度表示这些微小量，确保“非零”仍然是“非零”。

因此，FPU 的设计是一部记录了数十年科学计算经验教训的编年史。像精度级别、FMA 和次规范数支持这样的特性并非学术脚注。它们是让我们的数字模拟能够忠实于真实世界物理学的基本工具，无论我们是在训练一台机器学会看东西，还是在预测我们星球的未来。最终，浮点单元是抽象的数学世界与具体的现实需求相遇的地方。