混合精度计算

玻尔百科

定义

混合精度计算是一种将低精度算法用于大规模计算并结合高精度算法处理关键误差敏感步骤的计算技术。该方法通过利用专用硬件显著提升性能并降低内存带宽需求，广泛应用于科学模拟和深度学习等领域。为了保持结果的准确性，该技术采用了迭代精炼和损失缩放等手段，同时需要谨慎处理数值不稳定性等潜在问题。

核心要点

混合精度计算策略性地将快速的低精度算术用于大宗计算，同时将缓慢的高精度算术用于关键的、对误差敏感的步骤。
这种方法通过减少内存带宽和利用专用硬件，显著提升了性能，但需要对数值误差进行仔细管理。
诸如用于线性求解器的迭代求精和用于深度学习的损失缩放等关键技术，使得主要使用低精度计算也能获得高精度结果。
其应用范围从计算流体动力学（CFD）和分子动力学等科学模拟，到训练大规模人工智能模型，从根本上提高了计算效率。
实现混合精度需要应对一些微妙的陷阱，包括数值不稳定性、非连续算法中的逻辑错误以及违反尺寸一致性等物理原则。

引言

在数字计算的世界里，始终存在一个根本性的矛盾：对速度的追求与对精度的需求。高精度算术能够提供可靠的结果，但速度缓慢且资源密集；而低精度格式速度快，但可能引入危险的数值误差。这种权衡在从科学模拟到人工智能等领域构成了一个重大的障碍。混合精度计算作为一种强大而优雅的解决方案应运而生，提供了一种两全其美的方法。本文探讨了该方法背后的复杂策略，超越了表层视角，揭示其深层原理。为此，我们将首先剖析其核心的“原理与机制”，审视不同数字格式的工作方式、误差的来源以及如何设计算法来控制它们。随后，我们将踏上一段旅程，探索其变革性的“应用与跨学科联系”，发现混合精度计算正在如何加速众多领域的探索发现。

原理与机制

近似的艺术：两种数字的故事

自然界以其壮丽的复杂性，是连续的。时间的流逝、磁场的强度、恒星的温度——这些事物都是平滑变化的。然而，要在我们的数字计算机中描述它们，我们必须犯下一个虽小但必要的“罪”：我们必须近似。计算机无法存储一个真正连续的数；它必须将其切碎、四舍五入，并存储在有限数量的比特中。

这就是浮点数的世界。想象一下，你试图用科学记数法写下一个数字，比如 $a \times 10^b$ 。你有三个部分：一个符号（是正还是负？）、一个尾数或小数部分（ $a$ ，它给你有效数字或精度），以及一个指数（ $b$ ，它告诉你量级或范围）。计算机做的也是同样的事情，但用的是二进制。分配给尾数的比特数决定了你能多精确地表示一个值，而用于指数的比特数则决定了你能处理的数值范围，从宇宙之宏大到无穷之微小。

几十年来，科学计算的主力一直是双精度格式，即 float64。它拥有慷慨的 64 位（其中 52 位用于尾数！），就像一块校准精良的瑞士手表，能够以惊人的保真度表示数字。但这种精度是有代价的。存储这些大数字，更重要的是，用它们进行算术运算，都需要时间、内存和能量。

于是，更精简、更快捷的格式应运而生：单精度（float32）、半精度（float16），甚至还有像 bfloat16 这样更为奇特的变体。它们就像坚固、轻便的秒表。它们使用更少的比特，尤其是在尾数部分。它们的精度较低，但效率极高。移动它们成本更低，而且现代处理器，特别是带有 Tensor Cores 等专用硬件的图形处理单元（GPU），能够以惊人的速度用它们进行计算——有时比用 float64 快几个数量级。

这给我们带来了一个经典的困境，一个计算核心的基本权衡：我们是选择缓慢、细致的高精度路径，还是选择快速、但有时粗心大意的低精度路径？

两全其美：混合精度策略

如果我们不必选择呢？如果我们既能成为谨慎的钟表匠，又能成为迅捷的运动员，只在最需要的地方施展各自的技能，那会怎样？这就是混合精度计算背后核心而优美的思想：将快速的低精度算术用于大部分工作，并为少数精度至关重要的关键步骤保留缓慢的高精度算术。

让我们想象一个具体问题：我们想用梯形法则这样的简单数值方法计算一条曲线下的面积，比如 $\int_0^1 \sin(1000x) dx$ 。我们将该区域划分为大量薄梯形，计算每个梯形的面积，然后将它们相加。我们答案中的总误差来自两个来源：

截断误差：这是一个数学误差。通过用平顶梯形来近似平滑曲线，我们“截断”了真实的形状。我们使用的梯形越多（即步数 $N$ 越大），这个误差就越小。它大致按 $N^{-2}$ 的比例缩小。
舍入误差：这是一个计算误差。每一次计算——求函数值、乘以梯形宽度，特别是累加到总和中——都是在有限精度下完成的，每一步都会引入一个微小的误差。随着我们增加 $N$ ，这个误差会累积起来。

现在考虑我们的困境。假设我们有固定的时间预算。如果使用快速的 float32 算术，我们可以负担非常大的 $N$ ，使截断误差变得微不足道。但 float32 不够精确。经过数百万次加法后，微小的舍入误差可能会堆积成山，淹没我们美好的结果。相反，如果使用缓慢的 float64 算术，我们的舍入误差可以忽略不计。但我们负担不起很大的 $N$ 。我们少量梯形对曲线的近似很差，最终留下巨大的截断误差。

混合精度提供了一个绝佳的解决方案。我们可以使用快速的 float32 进行数百万次独立的函数求值，然后，对于最敏感的那个操作——将每个小面积加到运行总和中——我们使用一个 float64 累加器。这个“高精度桶”确保了求和过程中微小的误差不会累积。我们实现了两全其美：用大的 $N$ 来压制截断误差，用精确的累加来抑制舍入误差。在许多现实世界的场景中，这种策略不仅仅是一种折衷；对于给定的计算预算，它被证明比纯 float32 或纯 float64 更精确。

驯服误差猛兽：误差从何而来？

要掌握混合精度，我们必须成为误差的鉴赏家。混合精度计算中的总误差通常是两种主要来源之间的一场拉锯战：

输入量化误差：这是在你将初始数据存储为低精度格式的那一刻所产生的误差。在任何计算开始之前，这都是对你精度的一次不可避免的、一次性的打击。
累积误差：这是在算术运算期间悄悄潜入的噪声，就像我们积分例子中的舍入误差。

让我们看一个简单而基本的操作：两个大向量的点积， $\sum_{i=1}^N a_i b_i$ 。这是矩阵乘法和无数其他算法的核心。假设我们在低精度下计算每个乘积 $a_i b_i$ ，但将它们相加到一个高精度累加器中。累加本身是无误差的，但每个乘积 $p_i = a_i b_i$ 都是以一个小的相对误差计算的，即 $\hat{p}_i = p_i (1 + \delta_i)$ 。

最终总和中的总误差是多少？如果我们将这些小误差 $\delta_i$ 视为均值为零的独立随机变量，它们并不会简单地相加。相反，它们进行了一次“随机游走”。总累积误差的增长与 $N$ 不成正比，而是与 $\sqrt{N}$ 成正比。这是一个极其重要的结果！它告诉我们，对于非常大的求和，累积误差的增长比我们天真预期的要慢得多，这也是低精度算术在机器学习和科学计算中出奇有效的一个深层原因。

混合精度程序的最终精度通常取决于一种微妙的平衡。对于一个大小为 $n$ 的矩阵乘法，输入量化误差与低精度格式的单位舍入误差（比如， $u_{\mathrm{bf16}}$ ）有关，而累积误差则与问题规模和高精度累加器的单位舍入误差的乘积成比例（例如， $n \cdot u_{\mathrm{fp32}}$ ）。对于某些问题规模，一种误差源会占主导地位；而对于另一些规模，它们可能完美平衡。理解这种相互作用是设计稳健混合精度算法的关键。

性能回报及其代价

所有这些精细的误差管理的动机，当然是速度。使用较低精度的格式意味着数据占用更少的空间，因此可以有更多数据装入处理器的高速本地内存（缓存）中，减少了耗时的数据移动。它也需要更少的能量。最重要的是，像 GPU 这样的专用硬件可以以惊人的速度执行低精度计算。

但这种加速并非免费的午餐。通常，混合精度算法需要在不同格式之间转换数据——例如，将 float16 输入转换为 float32 进行计算。这种转换需要时间，并且可能需要在单个处理线程上完成，从而造成串行瓶颈。

这引入了一种有趣的权衡，我们可以用 Amdahl 定律的一个变体来理解它。想象一下，我们可以通过使用较低精度将代码的可并行化部分的加速比提高 $p$ 倍。然而，这样做会增加串行转换任务所花费的时间。起初，增加 $p$ 会带来巨大的整体加速。但随着我们推向更低的精度（更大的 $p$ ），串行转换成本可能会增长到开始占据主导地位的程度，我们的回报会递减。我们甚至可能发现，一个中间的精度级别能提供最佳的整体性能。“最快”的格式并不总是最好的；最优选择是一个微妙的工程决策，它平衡了原始算术速度与系统级开销。

超越简单求和：恢复精度与稳定性

混合精度的力量远不止于简单的求和与乘积。它可以用来构建一些算法，这些算法从低精度计算中恢复高精度结果的能力近乎神奇。

一个经典的例子是求解线性方程组 $Ax=b$ 的迭代求精。求解这些系统是科学与工程的基础，但最昂贵的步骤通常是分解矩阵 $A$ 。混合精度的技巧如下：

用快速、低精度的 float32 执行昂贵的分解和初始求解，以获得解的一个粗略猜测值 $\hat{x}$ 。
现在，计算这个猜测值的残差，即误差： $r = b - A\hat{x}$ 。这是一个关键步骤。由于 $\hat{x}$ 是一个接近但不完美的解， $A\hat{x}$ 会非常接近 $b$ 。要准确计算它们的差值，需要高精度以避免“灾难性抵消”。因此，我们在 float64 中计算残差。
残差告诉我们我们的猜测错了多少。然后我们求解一个修正量， $A\delta = r$ ，再次使用我们廉价的 float32 分解。
最后，我们在高精度下更新我们的解， $\hat{x} \leftarrow \hat{x} + \delta$ ，然后重复。

仅仅几次迭代后，这个过程就可以收敛到具有完整 float64 精度的解，尽管计算最密集的工作是在 float32 中完成的。这就像用一张廉价、模糊的地图进入正确的街区，然后拿出一张高分辨率卫星图像走完最后几步到达目的地。

然而，这种精度之间的舞蹈也会影响数值模拟的精细稳定性。在求解时变偏微分方程时，通常存在像 Courant-Friedrichs-Lewy (CFL) 条件这样的稳定性约束，它限制了你能采取的时间步长的大小。引入低精度算术带来的额外数值噪声，实际上可能会缩小这个稳定区域，迫使你采取更小、更频繁的时间步来防止模拟爆炸。这就需要在选择时间步长时留出一个“安全缓冲”，用一些性能换取保证的稳定性。同样，在深度学习中，混合精度产生的量化误差会以复杂的方式与反向传播过程中的重复矩阵乘法相互作用，有时有助于抑制臭名昭著的“梯度爆炸”问题，而有时则会使其恶化。

逻辑的脆弱性：当数字破坏规则时

低精度计算最微妙和危险的方面，或许出现在我们的算法不是基于平滑的算术，而是基于尖锐的 if-then-else 逻辑时。

考虑计算流体动力学中使用的斜率限制器。像“Superbee”限制器这样的算法使用分段函数，根据计算出的斜率比值 $r = \Delta^- / \Delta^+$ 的值来改变其行为。在数学的连续世界里，这完全没问题。但在浮点数的离散世界里，这是一个雷区。如果分母 $\Delta^+$ 是一个非常小的数会怎样？在 float16 中，它可能被四舍五入为零，导致计算 $r$ 时产生 NaN （非数值）或 Infinity （无穷大），使模拟崩溃。

即使没有崩溃，一个微小的舍入误差也可能将 $r$ 的值推过函数的一个尖锐阈值。算法在其数字盲目中，突然跳转到完全不同的逻辑分支，导致一个定性上错误的结果，从而破坏整个模拟。这表明，在低精度下实现具有非线性或不连续性的算法时，需要格外小心，通常需要使用稳定的公式来优雅地处理这些危险的边界情况。

这种脆弱性最深刻的例证来自量子化学的世界。物理学的一个基本原则是尺寸一致性：两个无相互作用的系统一起计算的能量，应该等于它们分开计算的能量之和。如果你这里有一个氢原子，另一个在一光年之外，它们的总能量就是单个氢原子能量的两倍。这似乎是显而易见的。

然而，在混合精度计算中，构建系统哈密顿矩阵过程中的微小舍入误差，可能会在两个物理上分离的原子之间产生虚假的、非零的耦合。计算机在其有限精度的世界里，虚构了它们之间一种幽灵般的、非物理的相互作用。当我们计算基态能量时，二阶微扰理论告诉我们，这种虚假的耦合会人为地降低总能量。结果呢？组合系统的能量小于其各部分之和。尺寸一致性被打破了。这个数值工具违反了物理学的基本定律。

这是一个令人谦卑而又美丽的教训。它揭示了我们计算机中的数字并非数学中的纯粹实体。它们是物理上的近似，有其自身的行为和局限性。明智地使用它们，就是要在速度与真理之间拥抱这种权衡，理解它们微妙的失效模式，并不仅仅将其作为计算工具来挥舞，而是作为一种探索发现的媒介，并给予这种强大媒介应有的所有谨慎与尊重。

应用与跨学科联系

我们花了一些时间探索混合精度计算的齿轮与杠杆——速度与精度之间的微妙平衡、不同的数值格式以及赋予它们生命的硬件。现在，我们来到了旅程中最激动人心的部分：见证这些思想的实际应用。这种巧妙的平衡之术究竟在哪些领域产生了影响？你可能会感到惊讶。它不仅仅是计算机架构师的一个小众技巧；它是一股革命性的力量，正在重塑整个科学和工程领域。

让我们从一个简单、近乎异想天开的例子开始。想象一下，你正在为一个视频游戏构建一个广阔而美丽的世界。你有两段不同的代码，本应将景观图块完美地并排放置。一段代码使用高精度数字计算图块的位置，将图块索引乘以图块宽度。另一段代码，也许由另一位程序员编写或用于系统的不同部分，通过从一个原点开始，使用较低精度数字反复加上图块宽度来布局图块。在一个完美的世界里，结果将是相同的。但在真实的计算机中，它们并非如此。在铺设了数千个图块之后，你可能会发现一条微小而丑陋的接缝——一个宽度不超过一根头发，但却异常显眼的缝隙或重叠。这不是游戏逻辑中的错误；这是“机器中的幽灵”，是计算机存储数字的有限方式所产生的副产品。这个简单的小麻烦揭示了一个深刻的真理：管理数值精度不仅仅是一个学术练习。它会产生切实的后果，掌握它使我们能够构建更稳健、更高效的系统。

现在，让我们从游戏世界转向科学世界，这里的风险要高得多。

现代科学的引擎：求解巨型方程组

从模拟机翼上的气流到模拟地球气候，科学和工程领域中数量惊人的问题最终都归结为求解一个巨大的线性方程组，其著名形式为 $A x = b$ 。在这里， $A$ 是一个代表问题物理定律和几何形状的巨型矩阵， $x$ 是我们想要找到的未知状态（比如电路板上每一点的温度），而 $b$ 是已知量（比如热源）。对于现实问题，这个矩阵 $A$ 可能有数十亿的行和列，太大以至于无法用你在初级线性代数课程中学到的教科书方法来求解。

取而代之，我们使用迭代方法，这有点像一种智能的“猜-校”法。我们从 $x$ 的一个初始猜测开始，然后逐步改进它，直到它“足够好”。这些方法中最著名的一种是共轭梯度（CG）算法，它是科学计算真正的中流砥柱。而这正是混合精度首次大显身手的地方。CG 算法中最耗时的部分是重复地将巨大的矩阵 $A$ 与一个向量相乘。这个操作通常不是受计算机的计算速度限制，而是受其从内存向处理器传输数据的速度限制。这是一个内存带宽瓶颈。

这是一个绝妙的想法：如果我们使用快速的低精度算术来执行这项繁重的工作——矩阵向量乘积——会怎样？通过使用，比如说，32位的单精度数字而不是64位的双精度数字，我们将需要移动的数据量减半。这可以显著加快每次迭代的速度。当然，代价是我们引入了更多的数值“噪声”。混合精度 CG 的魔力在于，我们用高精度来执行算法中其他成本较低的部分——那些跟踪我们进度并决定下一个搜索方向的精细记账步骤。这起到了强大的纠正作用，尽管主要计算存在粗糙之处，但仍能保持迭代在正确的轨道上。结果呢？我们通常可以获得同样高精度的答案，但只用了一小部分时间。

这种策略对于良态问题（即系统在数值上稳定）尤其有效。对于棘手的病态系统，比如由臭名昭著的 Hilbert 矩阵所代表的那些，低精度算术增加的噪声有时会减慢收敛速度，甚至导致其完全停滞。但即便如此，也有技巧。迭代求精方案可以周期性地使用高精度计算来“重置”累积的误差，让收敛再次启动。

故事并未就此结束。通常，矩阵 $A$ 如此难以处理，以至于我们需要一个“预处理器”，即另一个矩阵 $M$ ，它是 $A$ 的一个更易于处理的近似。用 $M$ 求解系统有助于引导原始系统的求解器。事实证明，我们通常也可以使用低精度算术来构建和应用这些预处理器！一个近似问题的近似答案通常足以提供惊人的加速，这是计算实用主义的一个 krásný 例子。

这些工具不仅仅是理论上的奇珍。它们在像数据同化这样的领域是不可或缺的，这是天气预报背后的科学。像 3D-Var 这样的技术将基于物理的预报（“背景”）与数百万个真实世界的观测数据（来自卫星、气象站等）融合，以生成对当前大气状态的最佳描绘。这个融合过程在数学上简化为求解一个巨大的 $A x = b$ 系统，其中矩阵 $A$ 的不同块代表我们模型中的不确定性与观测中的不确定性。在此处应用混合精度 CG 求解器可以从预报周期中节省宝贵的时间，从而产生更及时、更准确的天气预报。

为智能革命提供动力

加速传统科学模拟的同样原理，也正是现代人工智能革命的核心。例如，训练一个深度神经网络涉及一个巨大的优化问题：调整数百万或数十亿的模型参数，以最小化一个衡量网络表现有多差的“成本函数”。这通常通过一种称为梯度下降的算法来完成，其核心是另一个迭代求精过程。

在作为深度学习引擎的现代 GPU 上，对极快的 16 位半精度算术有着巨大的硬件支持。其策略与我们在 CG 方法中看到的惊人相似：在快速的 FP16 中执行主要计算（网络的前向和后向传播）中的数十亿次乘法，但在更稳定的 32 位单精度中维护一个至关重要的模型参数的主副本。

然而，一个新的挑战出现了。梯度——告诉网络如何更新其参数的信号——可能会变得极其微小。在 FP16 有限的动态范围内，这些微小的数字可能会被四舍五入为零，从而有效地停止学习过程。解决方案是一种名为“损失缩放”的巧妙技术：在进入 FP16 域之前，你将整个成本函数乘以一个大的缩放因子，比如 2048。这会放大所有的梯度，将它们推入 FP16 的可表示范围内。计算继续进行，只有在最后，回到 FP32 的安全环境中，你才将结果除以缩放因子以获得正确的更新。这是一项美妙的数值工程，如今已成为几乎所有大规模深度学习的标准实践。

人工智能与科学计算之间的这种协同作用正在成为一个良性循环。例如，物理学家现在正在训练像 GAN 和 VAE 这样的生成模型，以作为复杂粒子物理实验的超快模拟器。一个在传统模拟器上可能需要几分钟的过程，可以在毫秒内完成。为了实现这种令人难以置信的吞吐量，这些人工智能模型在 GPU 上使用混合精度运行，仔细平衡批处理大小与内存限制，以榨取硬件的每一滴性能。当然，输出必须与已知的物理学进行严格的核对，确保像衰变粒子的不变质量这样的关键量在统计上与高精度的基准真相无法区分。

模拟宇宙，从分子到星系

最后，我们转向从第一性原理模拟物理系统的宏大挑战。

在分子动力学（MD）中，科学家模拟原子和分子的复杂舞蹈，以理解从药物如何与蛋白质结合到材料在应力下如何失效等一切事物。这些模拟遵循牛顿运动定律，跨越数十亿个微小的时间步。一个关键的挑战是守恒像能量这样的物理量。在精确算术中，一个精心设计的积分器（如速度 Verlet 方法）能够完美地守恒一个“影子”能量。但在计算机的有限世界里，每一步的舍入误差会累积，导致总能量缓慢漂移，污染了物理过程。任何混合精度策略——例如，用单精度计算力，但用双精度更新位置和速度——都必须经过严格的测试。其中一项测试是时间可逆性：向前运行模拟，翻转所有速度，然后向后运行。在一个完美的世界里，你会精确地回到起点。在真实的模拟中，由精度误差引起的微小差异会被系统的混沌性质放大，从而为方法的保真度提供了一个非常敏感的诊断。这确保了我们对速度的追求不会导致一个物理上错误的答案。

在计算流体动力学（CFD）中，它模拟从洋流到喷气发动机的一切，我们遇到了混合精度最优雅的理由之一。想象一个图表，横轴是每次模拟步骤消耗的能量（或时间），纵轴是数值误差。存在一个“帕累托前沿”，一条最优的权衡曲线。你无法在不花费更多能量的情况下减少误差，也无法在不接受更多误差的情况下节省能量。混合精度提供了似乎好得令人难以置信的东西：它移动了整个前沿。通过在低精度下执行大部分计算（如评估流体通量），同时将敏感的累积保持在高精度，我们可以用更少的能量获得具有相同误差的解。这不仅仅是增量改进；这是计算经济学的根本性变革。

这种根据任务定制精度的思想甚至延伸到了算法本身的设计。在求解守恒律的先进方法中，如间断 Galerkin（DG）方法，我们可能会在流动的平滑区域使用高阶多项式来表示解，但在激波附近切换到更稳健的低阶方案。混合精度方法可以叠加在此之上，对计算中粗糙、不那么敏感的部分使用较低精度，对精细的高阶更新使用较高精度，进一步优化成本与精度的平衡。

从修复游戏中的图形故障到预测天气，从训练大规模神经网络到模拟自然的基本定律，混合精度计算是一条统一的线索。它教导我们，将所有数字都视为需要同等级别的关照，不仅效率低下，而且缺乏想象力。现代计算科学的真正艺术在于理解一个问题的数值灵魂——知道哪些可以用低精度的蛮力效率来处理，哪些需要高精度的精细、外科手术般的触摸。这是一场精度的交响乐，学会指挥它，是开启下一代发现的关键。