浮点误差

玻尔百科

核心要点

所有浮点误差都源于一个根本需求：使用有限数量的比特来表示无限的实数，这导致了初始的舍入不精确性。
减去两个几乎相等的数会导致灾难性抵消，这种现象会消灭有效数字，产生一个高度不准确的结果。
在许多操作中，微小的、独立的舍入误差会缓慢累积，最终可能主导最终结果，尤其是在迭代算法和大规模求和中。
巧妙的算法设计，如代数重构、补偿求和（如 Kahan 算法）和区间算术，可以有效地减轻或管理数值误差。

引言

在一个计算支撑着科学与工程几乎所有方面的时代，我们常常将计算机视为绝无谬误的计算器。然而，这种信任忽视了一个根本性的限制：有限的机器无法完美地表示无限的实数世界。这一差距催生了浮点误差——这些微妙的不精确性会悄无声息地破坏计算，导致模拟失败、算法不稳定以及危险的错误结论。本文旨在揭开这些计算魅影的神秘面纱。我们将首先探讨其核心的原理与机制，剖析误差如何从有限表示中产生，被灾难性抵消放大，并通过累积而增长。然后，在应用与跨学科联系部分，我们将穿梭于不同领域——从混沌理论和机器学习到经济学和计算生物学——见证这些误差的真实世界影响，并发现为控制它们而发展的精妙技术。通过理解这些概念，我们可以从计算怪癖的受害者转变为数值精度的掌控者。

原理与机制

既然我们已经对浮点误差可能造成的麻烦有了一点了解，现在让我们拉开帷幕，近距离审视这台机器。这些“魅影”是如何产生的？支配它们行为的基本原理是什么？这不是一个关于硬件故障或软件缺陷的故事。这是一个引人入胜的故事，讲述了数学中无限、连续的世界与计算机内部有限、离散的世界之间固有的冲突。理解这些原理是成为计算的主人而非其受害者的第一步。

原罪：一个有限数字的世界

首先要认识到的是，在某种程度上，你的计算机是数学上的“文盲”。它无法真正理解像 $\pi$ 或 $\sqrt{2}$ 这样的实数概念，这些数字拥有无限多不重复的小数位。计算机的内存是有限的，由数量庞大但有限的开关（即比特）构成。为了存储一个数字，它必须将其编码为一个有限的比特串。

这方面的标准是 IEEE 754 格式，它以一种科学记数法的形式表示数字：一个符号、一个*尾数（有效数字）和一个指数*。例如，数字 $12.375$ 会被存储为类似于 $+1.2375 \times 10^1$ 的形式。问题在于，尾数和指数的比特数都是固定的。对于标准的双精度浮点数，尾数大约能保持 15 到 17 位的十进制精度。

这意味着什么呢？这意味着任何需要更多位数才能写下的数字都必须被舍入。数字 $1/3$ 是 $0.33333...$ ，它被存储为类似 $3.333333333333333 \times 10^{-1}$ 的形式。无限延伸的“3”被直接截断了。这种初始的、不可避免的、深植于数字表示本身的误差，被称为表示误差。

你可以把计算机内部的数字想象成只存在于一个离散的网格上。一个很好的模型是使用“量化器”函数，正如在一个“完美”透镜的模拟中所探讨的那样。想象所有实数都位于一条连续的线上。计算机只能看到这条线上那些间距极小的倍数点，我们称之为 $\varepsilon$ 。任何落在这些网格点之间的数字都必须被“吸附”到最近的一个点上。这个微小的“吸附”动作就是数值计算的原罪。对于大多数单个数字来说，它是无害的。但正如我们将看到的，这些微小到难以察觉的误差可以合谋制造出宏观的灾难。

消失的戏法：灾难性抵消

所以，我们存储的数字中存在微小的误差。当我们用它们进行算术运算时会发生什么？通常，影响不大。两个带有小表示误差的数字进行加、乘、除运算，结果通常也只会有类似的小误差。但有一种运算却截然不同，甚至可以说是恶魔般的：两个几乎相等的数相减。

这种现象被称为灾难性抵消，它或许是计算中产生巨大误差最重要的来源。想象一下，你想求简单函数 $f(r) = (1+r) - 1$ 的根。代数上，这等于 $f(r) = r$ ，所以根显然是 $r=0$ 。但是，让我们用一个只有 7 位精度的玩具十进制系统，一步步地看看计算机是如何计算的。

假设我们选择一个非常接近根的数，比如 $a = -5 \times 10^{-8}$ 。真实的函数值是 $f(a) = -5 \times 10^{-8}$ ，这是一个负数。现在我们来计算。首先，计算机计算 $1+a = 1 - 0.00000005 = 0.99999995$ 。但它的尾数只有 7 位。它的数轴上的离散点位于 $0.9999999$ 和 $1.000000$ 。我们的结果 $0.99999995$ 正好在它们中间。根据标准的舍入规则，它会舍入到最近的“偶数”，即 $1.000000$ 。所以，在计算机的内存中，第一次加法的结果就是 $1$ 。现在进行第二步： $\operatorname{fl}(1 - 1) = 0$ 。

计算出的值 $\widehat{f}(a)$ 是 $0$ 。原始的非零值，以及更重要的，它的负符号，已经完全消失了！对于一个小的正数，比如 $b = 5 \times 10^{-8}$ ，也会发生同样的事情。计算机计算出 $\widehat{f}(b) = 0$ 。

这对依赖符号的算法（如二分法）会产生毁灭性的后果。二分法的保证依赖于找到一个区间 $[a, b]$ ，使得 $f(a)$ 和 $f(b)$ 符号相反。我们的区间 $[-5 \times 10^{-8}, 5 \times 10^{-8}]$ 当然包含了根。但计算机计算出 $\widehat{f}(a) \cdot \widehat{f}(b) = 0 \cdot 0 = 0$ ，这不满足区间包含根的条件 $\widehat{f}(a) \cdot \widehat{f}(b) \lt 0$ 。算法会停滞或失败，完全看不到就在它指间的根。

信息不仅仅是减少了，而是被彻底消灭了。这是因为我们减去了两个在最高有效位上一致的数（ $1.000000...$ ），而结果取决于它们不同的那些位——恰恰是那些因表示误差而不确定的位。结果是一个几乎没有甚至完全没有正确有效数字的数。

蝴蝶效应：微小误差如何爆炸性增长

有时，巨大的最终误差并非源于像抵消这样的灾难性操作。相反，你试图解决的问题本身就对最微小的扰动极其敏感。这就是病态问题的本质。

想象一个飞行控制系统，试图计算两架无人机的交汇点，它们的路径是几乎平行的线。设第一架无人机的路径为 $L_1: y = 0.5000 x + 10$ 。第二架无人机本应遵循 $L_2: y = 0.5010 x + 9$ 。简单的计算表明，它们将在 $x=1000$ 米处相遇。

现在，假设一个微小的浮点误差污染了计算机内存中第二架无人机路径的斜率。系统存储的不是 $0.5010$ ，而是 $0.5012$ ，变化仅为 $0.02\%$ 。这无疑是个微不足道的差异。新的路径是 $L'_2: y = 0.5012 x + 9$ 。现在系统认为它们将在哪里相遇呢？新的交点位于 $x \approx 833.3$ 米。计算出的交汇点误差超过 166 米！输入数据中一个微观的误差被放大成了输出中一个宏观的误差。

这与算法的好坏无关，而是问题本身的属性。寻找两条几乎平行线的交点就是一个病态问题。其中一条线微小的摆动都会让交点飞速地移向远方。如果这两条线是垂直的，斜率上的小误差只会导致交点位置的微小误差。理解一个问题是良态的还是病态的是一项关键技能。对于一个病态问题，如果你的初始数据精度不够高，再巧妙的算法也救不了你。

千刀万剐之死：误差的缓慢累积

灾难性抵消和病态问题是戏剧性的。但一种更常见、更隐蔽的误差形式是累积。这是在漫长的计算过程中，微小且不可避免的舍入误差缓慢、稳定地累加起来。就像被千刀万剐一样，单个误差是无害的，但它们的集体效应可能是致命的。

系统性累积：求和问题

考虑一个看似简单的任务：对一个长列表的数字求和。一位金融分析师可能会用它来计算一项资产在一百万天内的总回报。假设我们有一个很大的累计总和，比如 $S = 1.0$ ，我们需要加上一个非常小的每日回报， $r = 10^{-16}$ 。在双精度算术中，数字 $1.0$ 大约有 16 位十进制精度。它能记录的最小变化发生在其最后一位有效数字上，大约是 $10^{-16}$ 的量级。当计算机尝试计算 $1.0 + 10^{-16}$ 时，这个小数低于大数的解析度。结果被舍入回 $1.0$ 。这个小回报被完全忽略了！如果你这样做一百万次，朴素的求和结果将是 $1.0$ ，而真实的总和应该是 $1.0 + 10^6 \times 10^{-16} = 1.0 + 10^{-10}$ 。这个误差不是随机的，而是一种系统性的信息丢失。

迭代累积：模糊的现实

这种累积在逐步演化系统的模拟中尤其明显。考虑一个“完美”透镜的光线追踪模拟。在理想物理学中，所有平行射入透镜的光线都应汇聚到一个无限清晰的焦点上。

在计算机模拟中，我们以一系列小步骤来传播每条光线。在每一步，我们计算光线的新位置，这个过程涉及浮点运算，从而引入一个微小的舍入误差——就像我们前面讨论的“吸附”到网格上一样。光线现在稍微偏离了其理想路径。在下一步中，我们从这个新的、略有偏差的位置计算更新，又会增加另一个微小的误差。

经过数千个这样的步骤后，每条光线累积的误差导致它们以一个看似随机的微小量错过了焦点。模拟产生的是一个模糊的光斑，而不是一个清晰的点。一个物理预测——一个完美的焦点——被腐化成了一个模糊的斑点，不是因为物理学错了，而是因为计算噪声缓慢而无情的累积。

序列算法中的污染

误差也可以通过复杂算法的不同阶段传播。在数值线性代数中，找到一个矩阵的所有特征值是一项常见任务。一种称为序列降阶法的方法首先找到最大的特征值，然后修改矩阵以“移除”它，并在新的、更小的问题上重复此过程。

问题在于，计算出的第一个特征值及其相应的变换会带有一个微小的数值误差。这个误差被“固化”到了降阶后的矩阵中。然后，算法在一个已经略微错误的矩阵上继续寻找第二个特征值。这个计算引入了它自己的误差，然后加到之前的误差上，并固化到下一个矩阵中。每一步，被分析的矩阵都进一步被所有先前误差的幽灵所污染。因此，第一个特征值的计算精度最高，而最后一个特征值则是从一个被所有先前步骤累积误差污染的矩阵中找到的，使其成为最不准确的一个。

无法获胜的竞赛？截断误差与舍入误差

在许多科学问题中，比如计算积分，我们面临一个根本性的权衡。我们常常用一个更简单的对象（如梯形法则中的一系列直线）来近似一个复杂的数学对象（如一条曲线）。这种简化带来的误差称为截断误差。为了减小它，我们可以使用更小的步长 $h$ ，这意味着用更多的片段来近似对象。

但这里有个陷阱：更多的片段意味着更多的计算。更多的计算意味着舍入误差有更多的机会累积。

这造成了一个有趣的困境。想象一下，为一支有每日现金流的 30 年期债券定价。我们可以将其建模为一个积分，并用梯形法则来近似计算。为了获得高精度，我们的第一直觉是使用一个非常小的时间步长，对应于每日支付。这意味着需要 $N = 30 \times 365 = 10950$ 个步骤。如此小的步长，数学上的截断误差极小，大约在 $10^{-5}$ 美元的量级。我们可能为我们的精度感到非常自豪。

然而，计算涉及对超过 10000 个项求和。使用标准的单精度算术，这么多加法中舍入误差的缓慢累积可以增长到几美元的量级。舍入误差不仅增加了截断误差，它甚至以五个数量级的优势完全主导了它！试图通过减小 $h$ 来提高“精度”实际上使最终答案变得更糟了。

这揭示了一个深刻的真理：对于任何给定的数值方法，都存在一个收益递减点。当我们通过减少数学截断误差来要求越来越高的精度时（例如，在自适应例程中要求更小的容差 $\epsilon$ ），我们不可避免地会撞上一堵墙，此时累积的舍入误差开始占主导地位。越过这一点是徒劳的；答案只会在由机器精度决定的噪声地板附近跳动。

反击：数值稳定性的艺术

这次关于浮点数问题的巡览可能看起来令人沮丧，但它实际上是一个关于人类智慧故事的前奏。整个数值分析领域，在很多方面，就是与这些魅影作斗争并将有限计算为我们所用的艺术。我们并非无助，我们有智慧作为武器。

算法重构

通常，一个数值不稳定的过程可以通过简单的代数重排变得稳定。我们看到，对于非常小的 $x$ ，朴素地计算 $\ln(1+x)$ 是灾难性抵消的根源，因为 $1+x$ 会被舍入为 $1$ 。然而，像 log1p(x) 这样的专门库函数使用替代公式（比如对小 $x$ 使用泰勒级数展开）来完全避免这个问题。

另一个漂亮的例子来自计算几何学。一个朴素的测试，用以判断一个点是否在多边形内部，当该点非常靠近一个具有大坐标的多边形边缘时，可能会出现惊人的失败。朴素的公式涉及将一个微小的修正量加到一个巨大的坐标上，结果被舍入吞噬。一个稳健的替代方案将比较重新排列成一个类似叉积的计算。这种新形式避免了将大数和小数相加，并保留了关键的符号信息。数学上是等价的，但数值行为却有天壤之别。

补偿算法

有时，我们不能简单地重构问题。对于求和问题，加法的顺序可能是固定的。这时，需要一种更复杂的方法。Kahan 求和算法就是这方面的一个杰作。它的工作原理是引入一个“补偿”变量 $c$ ，巧妙地跟踪每次加法中丢失的低位比特。在下一步中，它将这个丢失的“零头”加回到总和中，然后再添加下一个数。这就像有一个小助手跟着你的计算，把你留下的舍入灰尘扫起来，并小心地放回下一次操作中。这个简单的技巧可以将一个长序列求和的误差从与项数线性增长降低到几乎与项数无关。

误差感知

最成熟的数值计算方法是承认误差是不可避免的。我们不仅可以寻求一个单一的、“正确”的数字，还可以设计能够理解自身局限性的算法。在稳健的点在多边形内测试中，算法不只是返回真或假，还可以根据正向误差分析计算一个容差。如果点位于边缘周围的这个“不确定性带”内，它可以被标记为“在边缘上”。这是一种诚实的计算：它不仅返回一个答案，还返回一个对其答案置信度的度量。

浮点数的世界是一个微妙而美丽的世界。在这个世界里，来自连续数学的直觉可能会失败，但更深的理解揭示了稳定性、条件和收敛的新原则。通过学习它的规则，我们可以将计算机从一个有缺陷的计算器转变为一个极其强大的科学发现工具。

应用与跨学科联系

我们花了一些时间来理解浮点运算的齿轮和杠杆——表示、舍入和抵消的机制。这固然很好，但真正的冒险始于我们走出工作室，去看看这套机器在野外的表现。事实证明，这个“机器中的幽灵”并非只有计算机架构师才关心的深奥缺陷；它的幽灵指纹遍布现代科学和工程。理解它的习性是任何计算领域真正实践者的标志。这是建造一座屹立不倒的桥梁与一座摇摇欲坠的桥梁之间的区别，是发现新的自然法则与追逐一个数值幻象之间的区别。

让我们踏上一段穿越不同学科的旅程，看看这些看似微小的误差如何级联成巨大的后果，以及人类的智慧如何迎接挑战，驯服它们。

放大器：当耳语变成咆哮

自然界和数学中的一些系统是极其敏感的。它们就像一个精心平衡的纸牌金字塔，底部一张牌的轻轻一弹就可能使整个结构轰然倒塌。在计算世界中，这些系统充当了浮点数微小不精确性的强大放大器。

也许这方面最著名的例子是在混沌研究中。考虑 Lorenz 系统，一个用于大气对流的简化数学模型，它产生了标志性的、美丽的“蝴蝶吸引子”。如果我们试图在计算机上模拟这个系统的轨迹，我们就在玩一场与惊人敏感性对抗的游戏。想象一下，从我们认为是完全相同的初始点开始两个模拟。实际上，因为一个计算是用单精度完成的，另一个是用双精度完成的，它们的起始点有微乎其微的差异，可能在第八位或第十六位小数之外。在短时间内，两个模拟的轨迹紧密地贴合在一起。但混沌的内在本质——“蝴蝶效应”——抓住了这个微小的差异并将其指数级放大。很快，路径就急剧分歧，最终落在吸引子的完全不同区域。两个模拟偏离彼此达到一个显著量所需的时间，直接衡量了信息丢失的速度。这不是模拟方法的失败；这是系统的一个基本真理，通过我们数字的局限性被揭示出来。

这种极端的敏感性并不仅限于物理学领域。它出现在我们处理数学家所说的病态问题时。一个病态系统是指输入的小变化导致输出的大变化的系统。一个绝佳的例证来自优化和经济学领域，即用于求解线性规划的单纯形法。该算法沿着一个多维多胞体的顶点行走以寻找最优解。在每一步，它都必须决定要走哪个方向。这个决定涉及到求解一个线性方程组。如果该系统恰好是病态的（意味着其定义矩阵接近奇异），计算可能对输入数据极其敏感。问题参数中一个微小的表示误差——小到百万分之一的误差——可能被病态矩阵如此放大，以至于算法做出完全错误的选择，走向一条非最优的路径。

同样，病态这个恶魔也困扰着计量经济学和统计学领域。当经济学家建立模型来理解变量之间的关系时——比如，教育和经验如何影响收入——他们通常使用一种称为线性回归的技术。模型系数的可靠性取决于数据的性质。如果两个或更多的输入变量高度相关（这种情况称为多重共线性），底层的数学问题就会变得病态。病态矩阵的一个经典例子是 Hilbert 矩阵，它可能出现在多项式回归中。试图求解一个涉及 Hilbert 矩阵的系统就像试图让一根针在针尖上保持平衡；最轻微的扰动都会让解飞走。当存在多重共线性时，求解线性回归的“正规方程”会使条件数平方，使一个糟糕的情况变得灾难性地更糟。由此产生的系数可能极不准确，充满了“喧哗与骚动，却毫无意义”。

缓慢的蠕变：误差的隐秘累积

并非所有的数值失败都如此戏剧性。有些更像是缓慢蔓延的锈蚀，是大量微小误差在数百万或数十亿步中累积的结果。这是长期运行的迭代算法所面临的挑战，而这些算法是现代计算的主力军。

考虑一个用于求解大型线性方程组的迭代法，如 Jacobi 迭代法。该算法从一个猜测开始，并反复对其进行修正。如果系统是良态的（数学上，如果其迭代矩阵的谱半径小于一），每一步都会使解更接近真实答案。误差呈指数级缩小……但它不会缩小到零。它最终会撞到一个“地板”，在这个点上，更新量小于浮点数的精度。此时，误差停止减小，只是随机地跳动。我们称之为误差饱和。然而，如果系统是不稳定的，每次迭代不是减少误差，而是略微放大它。经过数千步，这些小的放大效应复合起来，计算出的解会偏离真相，无限增长直到溢出。

这种缓慢的累积是现代机器学习中的一个核心挑战。训练一个深度神经网络涉及到在一个可能包含数十亿数据点的数据集上最小化一个损失函数。一种朴素的方法，批量梯度下降，需要为单次更新计算所有十亿个点的平均梯度。想象一个运行中的总和。在加上数百万个小的梯度向量后，总和变得相当大。当你再试图加上下一个小梯度时，你是在将一个极小的数加到一个巨大的数上。在浮点运算中，这就像试图通过将一根羽毛放在一艘战舰上来测量它的重量——战舰的重量不会改变。羽毛的贡献完全丢失了。这种现象，称为有效位丢失，意味着计算出的梯度可能极不准确，被求和中的初始数据点主导，而忽略了最后的数据点。

随机梯度下降（SGD），这个驱动了大部分人工智能革命的算法，通过每次更新只使用一个（或一小批）数据点，巧妙地回避了这个问题。它完全避免了大规模、易于出错的求和。它通往最小值的路径是嘈杂和不规则的，但它避免了其大批量表亲的系统性盲点。

我们在 PageRank 算法中看到了类似的故事，该算法是网络搜索的核心。它通过模拟一个随机冲浪者来迭代计算网页的重要性。算法的核心是重复的矩阵-向量乘法。每次乘法都会引入一个小的舍入误差。经过多次迭代，这些误差会累积。这种累积的速度与算法的“阻尼因子” $\alpha$ 密切相关。一个接近 1 的 $\alpha$ 值意味着“较慢”的收敛，需要更多的迭代，从而让误差的缓慢蠕变有更多时间累积，导致单精度和双精度计算之间出现显著差异。

数字卫生的艺术：巧妙的防御与保证

面对这些挑战，科学家和工程师们并未绝望。相反，他们发展出一种优美而微妙的“数字卫生”艺术——一套用于管理、减轻甚至消除浮点误差影响的技术。

一类技术涉及恢复被舍入腐蚀的基本数学属性。例如，用于优化的强大 BFGS 算法依赖于维持一个对称正定的矩阵。在精确算术中，更新公式会保持这一属性。然而，在浮点运算中，经过多步累积的微小误差会微妙地推动矩阵，导致其失去正定性——这是一种算法无法恢复的灾难性失败。类似地，在用于结构工程的有限元分析中，计算出的结构振动模式本应相对于质量矩阵是完全正交的。有限精度求解器产生的模式只是几乎正交的。这种正交性的丧失会破坏后续的动态模拟。解决方案不是要求不可能的精度，而是执行一个“重新正交化”步骤——一个数值程序，它接受这些略有缺陷的向量并“清洁”它们，恢复底层理论所要求的正交性。这不是作弊，而是一种必要的维护行为。

一个更优雅的策略是设计内在感知浮点表示的算法。在计算生物学中，从 DNA 数据推断进化树通常涉及计算一个似然值，它是许多小概率的乘积。将数千个小于 1 的数相乘，结果会小到难以想象，以至于下溢为零。一个常见的技巧是处理对数似然。但一个更复杂的方法是在计算过程中周期性地重新缩放部分似然值，以使其量级保持在一个“健康”的范围内，远离零。其天才之处在于如何做到这一点：通过乘以 2 的幂。在二进制浮点运算中，乘以 2 的幂是一个精确操作——它只涉及对指数域进行加法，完全没有舍入误差。这使得人们可以在几乎不损失精度的情况下防止下溢，这是对我们数字系统结构本身的美妙利用。

最后，对于最关键的应用，我们需要的不仅仅是一个好的近似值；我们需要一个数学上的保证。在像形式化验证和合成生物学这样的领域，人们可能正在设计一个具有安全关键行为的遗传回路，“几乎确定”的答案是不够的。在这里，我们可以求助于区间算术。每个变量不再用单个浮点数计算，而是用一个区间 $[a, b]$ 表示，该区间保证包含真实值。每个算术运算都被重新定义为在这些区间上操作，并仔细控制舍入模式以始终向外舍入，确保结果区间仍然包含真实结果。这个过程在计算上更昂贵，但它提供了一个无价的奖赏：一个附带正确性数学证明的最终区间。当我们用它来分析一个遗传触发开关的模型时，我们不仅得到一个故障概率的估计值；我们得到一个可证明的上限，一个对安全至关重要的认证保证。

从行星轨道的混沌之舞到我们自身细胞的复杂逻辑，浮点运算的原理是一个安静但恒久的存在。我们数字的不完美不是计算大厦中的一个缺陷，而是其景观的一个基本特征。学会驾驭这片景观——预测其悬崖，绘制其缓慢的漂移，并利用其本身的地形为我们服务——是贯穿所有现代科学的一条深刻而统一的线索。