单位舍入

玻尔百科

定义

单位舍入是数值分析中的一个基本概念，用于衡量有限精度浮点运算中单次舍入操作所产生的最大相对误差。它是评估计算机计算精度和分析数值算法稳定性的关键界限。了解这一局限性有助于在气象模型和人工智能等领域设计稳定的算法，从而避免由于误差累积而导致的计算结果失真。

核心要点

计算机使用浮点运算以有限精度表示实数，这不可避免地会引入微小的舍入误差。
单位舍入 ( $u$ ) 用于衡量单次舍入操作产生的最大相对误差，是数值算法分析中的一个关键界限。
当两个几乎相等的数相减时，会发生灾难性抵消，这会放大微小的舍入误差，从而破坏结果的准确性。
理解这些局限性有助于设计出能够避免或减轻舍入误差影响的数值稳定算法。
舍入误差在不同领域都有实际影响，例如限制天气模型的可预测性以及影响人工智能系统的输出结果。

引言

在无缝衔接的数学世界里，数字可以无限精确。然而，在计算机的数字世界中，每个数字都存在于有限的空间内，这迫使我们不断进行近似处理。真实与可表示之间的这种差距导致了舍入误差——这个概念并非简单的技术缺陷，而是支配所有现代计算的基本原则。忽视这个“机器中的幽灵”可能导致数据被悄无声息地破坏、模拟失败以及灾难性的错误答案。本文将深入探讨这一核心主题，提供理解和管理这些不可避免误差所需的知识。第一章“原理与机制”将揭示计算机存储数字的方式，并定义机器 epsilon 和单位舍入等关键概念。随后的“应用与跨学科联系”一章将揭示这些微小误差对从天气预报到人工智能等领域的深远影响，并展示数值分析师如何运用巧妙的技术来构建稳健而精确的算法。

原理与机制

想象你有一把尺子。但这是一把奇怪的尺子——它只有整厘米的刻度。你可以测量某个物体是 7 厘米或 8 厘米，但无法测量它是 7.5 厘米。如果物体的长度落在刻度之间，你就必须做出选择：进行舍入。你可能会决定它“更接近 7”或“更接近 8”。简而言之，这就是数字计算机的工作方式。计算机只能近似模拟平滑、连续的实数世界。它的数轴上有着巨大但终究有限的标记点集，任何落在间隙中的数值都必须被舍入。数字的这种基本“颗粒感”是舍入误差的根源，这个概念不仅是技术上的麻烦，更是塑造所有现代计算的深刻原理。

硅基世界中的科学记数法

要理解这种颗粒感，我们首先需要探究计算机是如何存储数字的。它并非写下一个无穷尽的小数串，而是使用一种二进制形式的科学记数法。这被称为浮点表示法。任何数字都可以通过三部分信息来描述：

符号 ( $s$ )：表示数字是正还是负。
有效数或尾数 ( $m$ )：表示数字的有效数字。
指数 ( $e$ )：用于缩放有效数的幂，表示数字的大小。

一个数 $V$ 的值由类似 $V = (-1)^s \times m \times \beta^e$ 的公式给出，其中 $\beta$ 是基数（对于计算机通常是 2）。

让我们想象一台为简单控制器设计的玩具计算机，它使用一个自定义的 12 位系统来存储数字。在这 12 位中，1 位用于符号，5 位用于指数，6 位用于有效数的小数部分。在包括本例在内的大多数系统中，我们使用一种称为规格化的技巧。就像在科学记数法中我们倾向于写 $5.97 \times 10^{24}$ 而不是 $0.597 \times 10^{25}$ 一样，计算机将数字规格化，使其有效数始终具有 $(1.\text{something})_2$ 的形式。这确保了每个数字都有一个唯一的、标准的表示方式，并最大限度地利用了我们宝贵的比特位。由于规格化数的首位‘1’总是存在，我们甚至不需要存储它；它是一个“隐藏位”，免费为我们提供了一位额外的精度！

最小步长：机器 Epsilon 与 ULP

这种有限表示法带来了一个深远的影响：两个不同数字之间的接近程度是有限的。让我们问一个简单的问题：从数字 1.0 开始，我们那台玩具 12 位计算机能够表示的下一个数字是什么？

数字 1.0 表示为 $(1.000000)_2 \times 2^0$ 。为了得到最小的下一个数字，我们保持指数不变，并对有效数进行最小的可能改动。我们将小数部分的最后一位从 0 翻转为 1。由于我们的玩具系统有 6 个小数位，这最后一位代表的值是 $2^{-6}$ 。因此，下一个数字是 $(1.000001)_2 \times 2^0$ ，即 $1 + 2^{-6}$ 。

它们之间的间隔就是 $2^{-6}$ ，即 $0.015625$ 。这个微小的间隔，即从 1 到下一个可表示数字之间的距离，有一个特殊的名字：机器 epsilon，通常表示为 $\epsilon_{\text{mach}}$ 。它是衡量浮点系统在数字 1 附近“分辨率”的基本指标。对于大多数科学计算中使用的标准 64 位数字（称为 [binary64](/sciencepedia/feynman/keyword/binary64) 或 double precision），其有效数有 53 位（1个隐藏位 + 52个存储位），机器 epsilon 为 $\epsilon_{\text{mach}} = 2^{-52}$ ，这是一个小得多的数。通常，对于一个基数为 $\beta$ 、精度为 $p$ 的系统，机器 epsilon 为 $\epsilon_{\text{mach}} = \beta^{1-p}$ 。

这种间距在整个数轴上并非均匀分布。大指数数字之间的间隔远大于小指数数字的间隔。这种局部间距被称为末位单位（Unit in the Last Place, ULP）。因此，机器 epsilon 只是一个特例：它是数字 1 处的 ULP，即 $\epsilon_{\text{mach}} = \text{ULP}(1)$ 。ULP 是衡量局部绝对分辨率的指标，而机器 epsilon 则为系统的相对精度提供了一个参考点。

精度的代价：单位舍入

那么，当一个计算（例如 $2 \div 3$ ）产生的结果落入这些间隙之一时，会发生什么呢？计算机必须将其舍入到最接近的可表示数字。单次舍入操作会引入多大的误差呢？

这就引出了第二个密切相关的概念：单位舍入，用 $u$ 表示。机器 epsilon 描述的是数字的间距，而单位舍入描述的则是单次舍入操作可能产生的最大相对误差。

大多数现代系统采用“向最近舍入”（round-to-nearest）作为其规则。顾名思义：结果会被舍入到最接近的可用浮点数。当真实结果恰好落在两个可表示数字的正中间时，会发生最大误差。在这种情况下，绝对误差恰好是间距的一半，即 $\frac{1}{2} \text{ULP}$ 。我们关心的是一个与尺度无关的精度度量，即最大相对误差，也就是这个半间距除以数字的量级。对于 1 附近的数字，这给出了一个优美而简单的关系：

$u = \frac{1}{2} \epsilon_{\text{mach}}$

对于我们熟悉的 [binary64](/sciencepedia/feynman/keyword/binary64) 系统，这意味着单位舍入为 $u = \frac{1}{2} \times 2^{-52} = 2^{-53}$ 。这是数值分析中的黄金数字。它告诉我们，任何一次行为良好的操作，其相对误差都在 $2^{53}$ 分之一（约 $9 \times 10^{15}$ 分之一）以内。这是一个惊人的精度水平，但它并非为零。

$\epsilon_{\text{mach}}$ 和 $u$ 之间的区别虽然微妙但至关重要。计算机科学库通常提供一个名为“机器 epsilon”的常量，它等于我们的 $\epsilon_{\text{mach}}$ ，因为它回答了这样一个实际问题：“满足 1.0 + x 不等于 1.0 的最小数字 x 是什么？”。然而，当科学家和工程师对其算法进行误差分析时，他们使用的是单位舍入 $u$ ，因为这个数字才真正界定了他们算术运算的误差。

一个绝佳的例子是“向偶数舍入”（ties-to-even）规则，该规则用于处理恰好位于两个可表示值中间的数字。考虑 [binary64](/sciencepedia/feynman/keyword/binary64) 中的数字 $1+u = 1+2^{-53}$ 。这个值恰好是 $1$ 和 $1+\epsilon_{\text{mach}} = 1+2^{-52}$ 的中点。应该向哪个方向舍入呢？为了避免统计偏差，规则是向有效数最后一位为零的邻居（即“偶数”）舍入。1 的有效数以 0 结尾，而 $1+2^{-52}$ 的有效数以 1 结尾。因此，计算机会将 $1+2^{-53}$ 向下舍入为 1！。我们加上的那个数完全被舍入误差吞噬了。

当微小误差串通一气

单个 $2^{-53}$ 的舍入误差看起来完全无害。但数值计算中的危险很少来自单个误差，而在于这些微小误差累积，或者更糟的是，被算法本身放大时会发生什么。

这就导致了可怕的灾难性抵消现象。想象一下，我们要为一个非常小的 $t$ 值（比如 $t = 10^{-14}$ ）计算函数 $f(t) = \sqrt{1 + t} - 1$ 。 $\sqrt{1+t}$ 的值将非常接近 1。例如， $\sqrt{1.00000000000001} \approx 1.000000000000005$ 。使用 [binary64](/sciencepedia/feynman/keyword/binary64) 的计算机可以表示这两个数。但当它执行减法时，它是在减去两个在前 14 或 15 个十进制位上完全相同的数。减法的结果会有效地丢弃所有这些共享的、精确的信息，只留下一个由最低有效位中的微小舍入误差主导的结果。这就像试图通过测量帝国大厦顶部放与不放一张纸时的高度来计算一张纸的厚度——你对大厦高度的任何微小测量误差都会淹没对纸张的测量。

在我们的例子中，幼稚的计算可能会产生一个具有巨大相对误差的结果，如果 $t$ 足够小，结果甚至可能为零。然而，一点代数上的洞察力就能解决问题。如果我们将表达式乘以 $\frac{\sqrt{1 + t} + 1}{\sqrt{1 + t} + 1}$ （它就是 1），我们得到一个等价形式：

$f(t) = \frac{(\sqrt{1 + t} - 1)(\sqrt{1 + t} + 1)}{\sqrt{1 + t} + 1} = \frac{(1+t) - 1}{\sqrt{1 + t} + 1} = \frac{t}{\sqrt{1 + t} + 1}$

第二种形式是数值稳定的。对于很小的 $t$ ，我们现在是用一个非常接近 2 的数来做除法。我们将一个减去几乎相等数的操作转换成了一个加法，完全避免了抵消。这揭示了一个核心教训：设计好的数值算法不仅仅是使用高精度；它是一门艺术，需要深刻理解如何防止微小、不可避免的误差演变成灾难性的失败。

机器中的幽灵

你可能认为，只要理解了 [binary64](/sciencepedia/feynman/keyword/binary64) 算术的规则，就能准确预测程序的行为。但现实是，情况要复杂得多，有时甚至令人抓狂。

想象你编写一个程序来凭经验测量机器 epsilon，使用一个简单的循环：从 x=1.0 开始，不断将其减半，直到 1.0 + x 等于 1.0。在 [binary64](/sciencepedia/feynman/keyword/binary64) 系统上，你预期当 x 降至 $2^{-53}$ （单位舍入 $u$ ）时会发生这种情况，因此最后一个有效的 x 是 $2^{-52}$ （机器 epsilon $\epsilon_{\text{mach}}$ ）。

但在某些计算机架构上，比如使用 x87 浮点单元（FPU）的旧款 Intel 处理器，你运行代码可能会得到 $2^{-63}$ 的答案！这是怎么回事？硬件为了提供帮助，可能会使用更高的内部精度（80位而不是64位）来执行中间计算。当你的程序评估表达式 1.0 + x 时，它可能是在一个 80 位寄存器内完成的。在这个高精度环境中，x 必须变得小得多得多，总和 1.0 + x 才会被舍入回 1.0。你测量到的机器 epsilon 是 80 位寄存器的，而不是你在代码中定义的 64 位变量的。

这个“机器中的幽灵”揭示了编程语言的抽象数学模型与执行它的硅芯片物理现实之间一个引人入胜的差距。要获得“正确”的 64 位答案，你必须变得聪明。你必须明确地强制计算机在比较之前将加法结果舍入回 64 位，例如通过将结果存储在一个内存变量中。这会迫使该值离开宽寄存器，并将其截断到类型的标称精度。这是一个优美而微妙的提醒：在计算世界里，没有真正“精确”的数字，而理解精巧的误差机制是掌握数字世界的第一步。

应用与跨学科联系

既然我们已经探讨了浮点运算的复杂机制，我们可能会想把这些知识当作计算机工程中的奇闻异事而束之高阁。那将是一个错误。这并非供书呆子们纠结的深奥细节；它是我们观察现代世界所依赖的计算透镜的一个基本方面。单位舍入，这个微小、看似无足轻重的量，是机器中的一个幽灵，其微妙的影响无处不在，从预测我们天气变化的模拟，到驱动人工智能的算法。让我们踏上一段旅程，去看看这个幽灵在何处显现，以及理解它如何让我们施展现代魔法。

蝴蝶效应与可预测性边界

也许，微小误差力量最戏剧性的例证是混沌理论中的“蝴蝶效应”。这个想法是，在像地球大气层这样复杂、混沌的系统中，初始条件的微小变化——一只蝴蝶扇动翅膀——可能导致数周后结果的巨大差异。在计算机模拟中，这种初始的、不可避免的误差来源是什么？通常是在有限精度下表示大气初始状态时产生的舍入误差。

在一个简化的天气动力学模型中，预报的相对误差可以被认为呈指数级增长： $\delta(t) \approx \delta_{0} \exp(\lambda t)$ ，其中 $\delta_0$ 是初始误差， $t$ 是时间， $\lambda$ 是“李雅普诺夫指数”，用于衡量系统状态发散的速度。假设当误差 $\delta(t)$ 达到百分之一 (0.01) 时，我们的模拟就变得无用。如果我们的初始误差 $\delta_0$ 仅仅是计算机的单位舍入，那么我们的预报能有效多久呢？

假设一个合理的李雅普诺夫指数约为每天一，那么以单精度（单位舍入约为 $10^{-8}$ ）运行的模拟大约在 12 天后失去其预测能力。如果我们花钱购买更强大的计算机，并以双精度（单位舍入接近 $10^{-16}$ ）运行相同的模拟，我们并不会获得无限的知识。相反，初始误差变得小得多，预报在大约 32 天内保持有效。我们为自己多争取了 20 天的可预测性，不是通过改进我们的物理模型，而仅仅是通过减小机器中那个初始幽灵的大小。这是一个由小小的单位舍入决定的、计算成本与科学洞见之间实实在在、可量化的权衡。

当算术定律不再普适

有限精度的最直接、最惊人的后果是，我们熟悉的算术规则并非总是适用。我们在学校学到加法是结合的： $(a+b)+c$ 总是等于 $a+(b+c)$ 。在计算机上，这并不能保证。

想象一下你正试图将三个尺度差异巨大的数字相加：一个非常大的数 $a$ ，一个中等大小的数 $b$ ，和一个极小的数 $c$ 。如果你先计算 $a+b$ ，结果将是一个仍然约等于 $a$ 的数。如果 $c$ 小于这个结果周围的表示“间隙”，加上它不会有任何效果；它被完全吸收了，就像一滴雨水落入大海。计算机计算 $(a+b)+c$ 得到 $a+b$ 。然而，如果你先计算 $b+c$ ，这个和很可能是精确的。再将这个结果加到 $a$ 上，就可能产生一个不同的、更准确的最终答案。运算顺序突然变得重要起来，这是数字生存空间有限的直接后果。

这导致了一个更危险的现象，即灾难性抵消。假设天体物理学家正在计算两个几乎相同的星系之间的引力势差。他们计算第一个星系的势能 $\Phi_1$ 和第二个星系的势能 $\Phi_2$ 。两者都是非常大的负数，并且由于星系相似， $\Phi_1$ 和 $\Phi_2$ 几乎相等。当计算机计算它们的差 $\Phi_2 - \Phi_1$ 时，它是在减去两个巨大的、几乎相同的数字。两个数字的前导、最高有效位是相同的，它们相互抵消。结果是一个小数，但它是由原始数字的“残渣”——即最低有效位、最容易出错的部分——构成的。对于巨大的势能而言微不足道的相对误差，在微小的差值中变成了巨大的相对误差。这就像试图通过称量整艘战舰（船长在船上和不在船上时）来确定船长的体重；你正在寻找的微小差异完全被测量巨型船只的噪声所淹没。

撞上数字之墙

这些算术上的怪癖不仅仅是奇闻异事；它们给我们用来解决问题的算法施加了硬性限制。以二分法为例，这是一个用于求解方程根的、优美简洁且稳健的算法。你从一个已知包含根的区间开始，然后反复将其对半分割，总是保留包含根的那一半。在纯数学世界里，你可以永远这样做下去，以任意精度逼近根。

在数字世界里，你会碰壁。区间不断缩小，直到其端点 $a_k$ 和 $b_k$ 成为相邻的浮点数。它们之间没有其他可表示的数字了！当算法试图计算下一个中点 $c_k = (a_k+b_k)/2$ 时，结果必须舍入为 $a_k$ 或 $b_k$ 。区间无法再缩小。算法停滞不前，不是因为其逻辑有缺陷，而是因为它用尽了数字。你能可靠达到的最小区间宽度取决于根附近浮点数的间距，这个量与单位舍入成正比。

“最佳点”这一主题随处可见。科学中的一个核心工具是数值微分——近似计算函数的导数。标准方法是在两个相近的点 $x_0$ 和 $x_0+h$ 处求值，然后计算斜率。数学告诉我们，随着步长 $h$ 变小，近似值会变得更好。但随着 $h$ 缩小， $x_0$ 和 $x_0+h$ 越来越近，当我们计算它们的差时，就会一头栽进灾难性抵消的陷阱。

因此我们有两种相互竞争的效应：来自数学近似的截断误差（它希望 $h$ 小）和来自机器算术的舍入误差（它希望避免过小的 $h$ ）。总误差是这两者之和，存在一个最优步长 $h_{opt}$ 使其最小化。试图通过选择比这个最优值更小的 $h$ 来获得“更高精度”是徒劳的；舍入误差会爆炸性增长，结果变得更糟。我们能达到的最佳精度从根本上受限于机器精度。

数值魔法的艺术

情况是否毫无希望？我们是否注定要在与舍入误差的斗争中屡战屡败？完全不是。这正是数值计算真正艺术性的闪光之处。通过了解敌人，我们可以设计出非常巧妙的策略来智取它。

回想一下数值微分的问题。灾难性抵消源于减法 $f(x_0+h) - f(x_0)$ 。有没有一种方法可以在不进行这种减法的情况下计算导数？这听起来不可能，但一个优美的数学技巧提供了解决方案。如果我们的函数是“解析的”（足够光滑以至于可以在复数上定义），我们可以使用复步导数公式： $f'(x_0) \approx \frac{\operatorname{Im}(f(x_0 + ih))}{h}$ 。我们在虚数平面上移动一小步 $ih$ ，求函数值，然后取结果的虚部。注意这里少了什么：没有两个相近数的减法。这个方法完全避开了灾难性抵消！它的舍入误差不会随着 $h$ 变小而增大，允许我们选择一个非常小的 $h$ ，从而达到接近机器精度极限的准确度。

然而，有时问题不在于算法，而在于问题本身。如果一个问题的答案对输入的微小变化极其敏感，我们就说这个问题是“病态的”。一个经典的例子是求解具有重根的多项式的根。像 $p(x) = (x-1)^m$ 这样的多项式在 $x=1$ 处有一个明确的 $m$ 重根。现在，让我们对其进行一个微小的扰动，量级为机器 epsilon，比如 $p(x) = (x-1)^m - u$ 。你可能期望根会移动一个与 $u$ 成正比的量。但实际的新根位于 $x = 1 + u^{1/m}$ 。对于 $m=11$ 的重数和 $u \approx 10^{-16}$ ，根的变化不是 $10^{-16}$ ，而是 $(10^{-16})^{1/11} \approx 0.035$ ！千万亿分之一的扰动导致了答案百分之三的变化。任何算法，无论多么巧妙，都无法克服这种固有的敏感性。

数字世界中的生活

这些概念并不仅限于科学实验室。它们影响着我们日常交互的软件和系统。

考虑一个金融或电子商务系统中的大型数据库。你可能想根据价格或传感器读数来连接两个表。如果一个表将值存储为 1.0，而另一个表由于计算历史略有不同而将其存储为 1.0000000000000002，会发生什么？严格的相等性测试 == 将会失败，连接操作会错过这个匹配项。一个稳健的系统需要执行“近似连接”，检查是否满足 $|x-y| \le \text{tolerance}$ 。但容差应该是多少？像 0.001 这样的固定值对于小数可能太大，而对于大数又可能太小。正确的方法是使用按单位舍入缩放的相对容差： $|x-y| \le \alpha \cdot u \cdot \max(|x|, |y|)$ 。这以一种尊重数字自身自然粒度的方式定义了“相等”。即便如此，将列的数据类型从单精度更改为双精度也可能改变谓词的结果，这是数据库设计者必须预见到的影响。

同样的问题也出现在现代人工智能中。当像 GPT 这样的自然语言处理（NLP）模型生成文本时，它通常会为数千个可能的下一个词计算概率分数。这些分数可能极其接近。如果你使用标准浮点数对这些分数进行排序以找到最可能的词，你就有可能得到错误的顺序。两个分数真实不同，但差异小于单位舍入的词，会被舍入为相同的浮点值。一个“幼稚”的排序可能会将它们排错顺序，从而可能改变生成的句子。稳健的系统必须使用更仔细的排序技术，例如使用分数的精确有理数表示来打破平局，确保真正的最佳候选者总是被选中。

从处理器内部一个微妙的舍入决策到我们屏幕上出现的文字，这是一条直接的路径。机器中的幽灵无处不在。但它并非一个恶意的精灵，而是有限世界应对无限的逻辑结果。通过理解它的规则，我们不仅避免了它的陷阱，还学会了构建更精确、更稳健、更优美的计算工具。我们学会了与数字宇宙的优雅不完美共存。