数值误差剖析：从理论到应用

玻尔百科

定义

数值误差剖析：从理论到应用是指对数值不准确性来源的系统研究，其核心认为所有误差均源于数学过程近似产生的截断误差和机器精度限制导致的舍入误差。该理论揭示了减小步长虽能降低截断误差却会放大舍入误差的权衡关系，并在数值分析中通过后向误差分析等方法评估算法稳定性。这些原理被广泛应用于解释计算流体力学中的数值扩散现象，以及识别密码系统中的安全漏洞。

核心要点

所有的数值误差都源于两个方面：近似数学过程产生的截断误差和机器有限精度产生的舍入误差。
减小步长会降低截断误差，但会放大舍入误差，这之间存在一个基本的权衡，从而形成一个 U 形的总误差曲线。
后向误差分析通过提问“一个计算出的答案是否是一个略微扰动问题的精确解”来重新审视问题，从而判断算法的稳定性。
数值误差可以表现为物理现象，如计算流体力学中的数值扩散，或在密码系统中造成安全漏洞。

引言

在科学计算的世界里，我们依赖机器将复杂的数学语言转化为具体的答案。然而，计算机的本质决定了它们无法处理真实世界中的无限精度，这迫使它们进行近似。这种根本性的限制引入了数值误差，这是一个普遍存在的挑战，可能会削弱我们结果的有效性。本文旨在解决“信任计算机输出”与“理解其内在缺陷”之间的关键知识鸿沟。我们将深入探讨这些误差的来源、行为和后果。在第一章“原理与机制”中，我们将剖析两种主要的误差形式——截断误差和舍入误差，并探讨稳定性、条件以及后向误差分析这一强大视角等概念。随后，在“应用与跨学科联系”中，我们将见证这些理论误差如何在真实世界场景中显现，从在模拟中产生虚假的物理效应到危及密码系统的安全，最终为掌握计算中不可避免的误差提供一份全面的指南。

原理与机制

每当我们要求计算机进行计算时，我们都在订立一份信任契约。我们相信这台由逻辑和硅构成的奇迹会给我们正确的答案。但在其数字核心中，计算机是一个实用主义者。它无法处理实数那无限的复杂性，它必须进行近似。而这种近似正是所有数值误差的种子。本章的旅程旨在理解这种不可避免的缺陷的本质——去度量它，看它如何增长和传播，并最终学会如何驾驭它，以便我们仍然能够揭示关于世界的真理。

原罪：不完美的表示

想象你有一个数，一个纯粹的数学概念，比如 $p = \frac{2}{3}$ 。它的十进制形式是 $0.66666...$ ，一串 6 无限延伸下去。现在，想象一台假设的计算机，它在小数点后只能存储三位数字。为了存储 $\frac{2}{3}$ ，它必须做出选择。它可以四舍五入到最接近的可表示数，也可以简单地截断多余的数字。如果我们的机器进行截断，它会存储近似值 $p^* = 0.666$ 。

这个数不再是完美的，它被污染了。但是污染了多少呢？我们需要一种方法来衡量这种“错误性”。最直接的方法是绝对误差，它就是差值的绝对大小： $|p - p^*|$ 。对于我们被截断的分数，绝对误差是 $|\frac{2}{3} - \frac{666}{1000}| = \frac{2}{3000} = \frac{1}{1500}$ 。这告诉了我们错误的原始大小。

但是 $\frac{1}{1500}$ 的误差是大是小呢？这要视情况而定。如果你在测量到太阳的距离，这个误差小得惊人。如果你在加工一个微型齿轮，它可能就非常巨大。这就是相对误差发挥作用的地方。它通过被测量物的大小来衡量错误： $\frac{|p - p^*|}{|p|}$ 。在我们的例子中，这是 $\frac{1/1500}{2/3} = \frac{1}{1000}$ ，即 $0.1\%$ 。相对误差通常能更直观地反映误差的重要性。

然而，我们必须小心。没有哪个工具能完美适用于所有工作。考虑一个试图达到接近绝对零度温度的实验，比如设定点为 $T^* = 0.010 \text{ K}$ 。仪器本身有物理限制——传感器的噪声和执行器的精度大约在 $0.001 \text{ K}$ 的量级。 $0.001 \text{ K}$ 的绝对误差容限是一个反映硬件能力的合理目标。但如果我们要求 $1\%$ 的相对误差容限呢？那将需要将温度控制在 $0.01 \times 0.010 \text{ K} = 0.0001 \text{ K}$ 以内，这个精度比仪器所能测量、更不用说控制的精度高了一个数量级。在这里，相对误差度量变得具有误导性且在物理上无法实现。当一个量接近零时，任何固定的绝对不确定性都会膨胀成一个巨大的，甚至是无限的相对误差。这个教训是深刻的：选择如何度量误差不仅仅是数学上的便利；它深刻反映了问题的物理背景。

误差的两大来源

表示数字的误差仅仅是个开始。在任何实际计算中，误差都来自两个截然不同的领域。我们可以把它们看作是方法的误差和机器的误差。

第一种是截断误差。这是我们用一个近似过程代替精确数学过程时所犯的错误。当我们想解一个像 $y'(t) = \sin(t) + \cos(t)$ 这样的微分方程时，我们可能会使用像 Euler's method 这样的数值方案，它用一系列短的直线段来近似解的路径。解的真实弯曲路径与这种“连点成线”的近似之间的差异就是截断误差。至关重要的是，这个误差的大小取决于精确解本身的性质。Euler's method 的标准误差界涉及解的二阶导数的最大值 $|y''(t)|$ 。一个平缓弯曲的函数很容易用直线近似；一个剧烈来回摆动的函数则不然。这个误差是我们理想化算法的一个特性，即使在一个拥有完美算术的世界里也存在。有时，我们误差公式的假设会失效。如果我们将一个三阶方法应用于一个解不够光滑的问题（例如，其四阶导数在起点处为无穷大），该方法不一定会失败，但其精度可能会低于预期。当我们采取更小的步长时，误差仍然会趋于零，但其收敛速度会比我们通常预期的要慢，这个速度取决于解本身具体的不光滑程度。

第二大来源是舍入误差。这是由机器的有限精度引起的误差，也就是我们最初讨论的“原罪”。但它不仅仅是存储数字时的静态误差；它是一种活动的、悄然蔓延的腐败，感染着每一个算术运算。每当计算机进行加、减、乘、除时，结果都会被舍入到它能表示的最接近的数。每一步都会引入一个微小的误差，量级上称为机器ε ( $u$ )。单个的舍入误差小到可以忽略不计。但在一个涉及数十亿次运算的大型计算中，这些微小的误差可能会累积，或者正如我们将看到的，被放大，从而导致一个完全错误的答案。

一个鲜明的例子是让计算机为一个矩阵 $A$ 计算 $A \cdot A^{-1}$ 。在纯数学的柏拉图天堂里，答案总是单位矩阵 $I$ 。在浮点运算的现实世界中，计算出的结果几乎永远不完全是 $I$ 。对于一个良态矩阵，计算出的乘积将非常接近 $I$ ，偏差在机器ε的量级。但对于一个出了名的敏感或病态矩阵，比如 Hilbert 矩阵，计算出的乘积可能与单位矩阵相差甚远，令人震惊。在求逆和乘法过程中引入的微小舍入误差被矩阵固有的敏感性极大地放大了，导致了一个性质上完全错误的结果。

黎明决斗：精度的极限

我们现在面临两种相互竞争的影响。为了减少方法的截断误差，我们的本能是采取越来越小的步长。如果我们正在近似一个导数，使用更小的步长 $h$ 会使我们的有限差分公式更接近真实的极限。然而，舍入误差的行为方式恰恰相反。一个典型的差分公式涉及两个函数值的相减，然后除以 $h$ 。当 $h$ 变小时，我们是在用一个越来越小的数做除法，这会放大分子中存在的任何舍入误差。

这就产生了一种根本性的张力，一场截断误差（随 $h$ 减小而缩小）与舍入误差（随 $h$ 减小而增大）之间的决斗。如果我们在双对数坐标上绘制总误差与步长 $h$ 的关系图，一幅优美而极其重要的画面便会浮现：一条 U 形曲线。

对于较大的 $h$ 值，截断误差占主导地位。误差随着 $h$ 的减小而减小，图中显示为一条斜向下的直线。这条线的陡峭程度揭示了方法的精度阶数；一个一阶方法的斜率为 $+1$ ，而一个更精确的二阶方法的斜率为 $+2$ 。随着我们继续减小 $h$ ，我们会达到一个收益递减的点。舍入误差开始反击。最终，我们到达“U”形的底部，即总误差最小化的最佳步长。如果我们越过这一点，让 $h$ 变得更小，一件令人震惊的事情发生了：误差开始增大。我们进入了舍入误差占主导地位的领域。此时图中显示为一条斜率为 $-1$ 的向上直线，无论方法的阶数如何。试图提高精度反而使我们的答案变得更糟。这条 U 形曲线是一个根本性的障碍，它生动地说明了对于任何给定的方法和机器精度，我们所能达到的精度都有一个硬性限制。

当减法成为灾难

舍入误差的放大有时会如此剧烈，以至于它配得上一个专门的名称：灾难性抵消。这种情况发生在我们对两个非常接近的数进行相减时。这些数的前导、最有效的数字相互抵消，留下的结果几乎完全由尾部的、最无效的数字组成——而这些数字恰恰是受舍入误差污染最严重的。我们得到的结果大部分是噪声，相对误差可能会爆炸到 $100\%$ 或更高。

考虑 RLC 电路的固有频率公式： $\omega = \sqrt{\frac{1}{LC} - (\frac{R}{2L})^2}$ 。在电阻 $R$ 很小的情况下， $\frac{1}{LC}$ 项很大。然而，当电路接近临界阻尼状态时，平方根下的两项，我们称之为 $A = \frac{1}{LC}$ 和 $B = (\frac{R}{2L})^2$ ，在数值上变得非常接近。在计算机上计算表达式 $A-B$ 会导致灾难性抵消。计算出的 $\omega$ 结果可能会失去几乎所有正确的数字，不是因为物理现象奇特，而是因为这个公式在这个区域是数值不稳定的。一个看似无害、从可靠的物理原理推导出的方程，可能会成为数值计算的雷区。

一种更开明的误差观

到目前为止，我们对误差的看法很简单：计算机给出一个答案 $\hat{x}$ ，真实答案是 $x^*$ ，误差就是它们之间的差。这是前向误差，也是最直观的思考方式。但是还有另一种更微妙、且往往更强大的观点：后向误差。

后向误差分析不是问“我的答案错到什么程度？”，而是问“我计算出的答案 $\hat{x}$ 是否是一个略有不同问题的精确解？”它将责任从解本身转移到了问题本身。

让我们看看实际情况。假设我们让一台具有 7 位精度的计算机计算 $1.0000004 - 1.0000001$ 。真实答案是 $0.0000003$ 。但由于输入数字非常接近，它们在进行减法之前都被舍入为 $1.000000$ 。计算机计算出 $1.000000 - 1.000000 = 0$ 。前向误差是灾难性的：真实答案是 $3 \times 10^{-7}$ ，计算答案是 $0$ ，所以相对前向误差是 $100\%$ 。这似乎是一次彻底的失败。

但现在让我们从后向误差的角度来看。计算出的答案 $0$ 是问题 $(1.0000004 + \Delta x) - 1.0000001 = 0$ 的精确解。解出扰动 $\Delta x$ 得到 $\Delta x = -0.0000003$ 。为了使我们的答案合理，我们必须对输入 $x$ 做出的相对改变非常小，大约是 $3 \times 10^{-7}$ 。所以，尽管前向误差巨大，后向误差却很小。该算法（减法）是后向稳定的：它对一个稍微错误的问题给出了完全正确的答案。

这个想法既优美又通用。当我们用梯形法则近似一个积分 $\int f(x) dx$ 并得到一个值 $\hat{I}$ 时，我们可以问：哪个被扰动的函数 $\tilde{f}(x) = f(x) + c$ 会以 $\hat{I}$ 作为其精确积分？我们可以找到这个小的常数扰动 $c$ 。我们没有完全正确地得到 $f(x)$ 的积分，但我们完美地得到了一个邻近函数 $\tilde{f}(x)$ 的积分。误差不在于我们的答案，而在于我们隐式积分的函数。

超越算法：地图与领土

这就引出了最后一个关键的区别。后向误差分析是评判我们计算算法的有力工具。如果一个算法是后向稳定的，我们就可以信任它。这意味着任何大的前向误差都必须归咎于问题本身是病态的，而不是算法的错。但所有这些分析——前向、后向、截断、舍入——都存在于数学世界中。它回答的问题是：“我们对给定方程的求解做得有多好？”

它不能，也不会回答这个问题：“我们求解的方程是正确的吗？”

这就是数值误差和模型差异之间的区别。想象一下，我们建立一个复杂的太阳系计算机模型，由一组微分方程描述。我们使用后向稳定算法和双精度算术以极高的保真度求解这些方程。后向误差很小；我们的计算无可指摘。然而，我们对一年后地球位置的预测是错误的。为什么？因为我们的模型，我们那组方程，忽略了木星的引力。

错误不在于计算；而在于模型。物理世界与我们对其的数学描述之间的不匹配就是模型差异。再强大的计算能力或再巧妙的算法也无法修正一个有缺陷的模型。数值分析帮助我们确保我们正在绘制的地图（解）是我们数学计划（模型）的忠实再现。但是，确保计划与领土（物理现实）相对应，则取决于科学家通过实验和观察来完成。理解这一区别是掌握数值误差的最后一步——这是知道什么可以归咎于计算机，什么不能的智慧。

应用与跨学科联系

我们已经探究了数值误差的起源，揭示了舍入和截断这两个孪生来源。但要真正领会它们的特性，我们必须离开它们诞生的抽象世界，去看看它们在现实中的运作。这些误差不仅仅是需要被拂去的烦恼；它们是计算图景中的一个基本组成部分。它们是机器中的幽灵，和所有幽灵一样，它们有故事要讲——关于欺骗、关于转变，有时，还关于对我们要求机器解决的问题的本质的深刻且意想不到的揭示。

欺骗性误差与转变性误差

最基本地，数值误差会误导我们。考虑求解一个大型线性方程组 $A\mathbf{x} = \mathbf{b}$ 的任务，这个问题是从桥梁设计到天气模拟等一切事物的核心。一台使用有限精度算术的计算机可能会找到一个解 $\mathbf{x}_c$ 。当它通过计算残差 $\mathbf{r} = \mathbf{b} - A\mathbf{x}_c$ 来检查其工作时，它可能会发现一个非常小的结果，这表明解非常出色。然而，这可能是一种错觉。如果解接近正确，那么 $A\mathbf{x}_c$ 将是一个与 $\mathbf{b}$ 几乎完全相同的向量。在有限精度下减去两个几乎相同的数是丢失有效数字的典型方式——一种被称为灾难性抵消的现象。计算出的残差可能很小，不是因为误差小，而是因为计算被舍入噪声所淹没。幽灵欺骗了我们。

幸运的是，我们可以智胜它。迭代求精技术做了一件了不起的事情：它只用更高的精度来计算这一个关键的残差减法。这使得它能够诚实地衡量误差，然后用这个误差来修正解。这是一个使用有针对性的一剂精度来治愈由浮点运算限制引起的疾病的绝佳例子。

其他误差并非源于不精确的数字，而是源于不精确的方法。当我们使用像梯形法则这样的数值规则来近似一个积分时，我们是有意识地在做权衡。我们用一系列简单的直线代替一个光滑弯曲的函数。误差是不可避免的。但是这种截断误差并非随机的失误。对于像通过对时变电流积分来计算电容器上沉积的电荷这样的任务，我们可以使用微积分工具来推导误差主导项的精确数学表达式。我们发现它可预测地依赖于步长 $h$ 和函数的导数。这种可预测性是我们对误差规律性的第一次窥见。这是一个信号，表明误差不是混乱，而是一种我们可以分析和理解的结构化现象。

这种结构可能引出数值分析中最深刻的见解之一。误差并不总是只给我们一个不准确的答案；有时，它从根本上改变了我们正在解决的问题。想象一下，为一个数字控制器建模一个简单的动力系统，比如说，由方程 $\dot{x}(t) = a x(t)$ 描述。该系统的行为——无论是增长还是衰减——由“极点” $a$ 决定。当我们在计算机上离散化这个方程，使用有限的时间步长 $h$ 时，我们的数值模拟就不再是原始系统的完美表示。相反，它的行为精确地如同一个不同的连续系统的精确解，这个系统有一个新的、“有效”的极点 $s_{\mathrm{eff}}$ 。这个差异 $s_{\mathrm{eff}} - a$ 是截断误差的直接后果。我们的数值近似已经悄悄地改变了支配我们模拟的物理定律。

在计算流体力学 (CFD) 领域，这种效应更为显著。如果我们使用一个简单的“一阶迎风”格式来模拟风中烟雾等物质的输运，我们经常观察到清晰的锋面被人为地抹平了，就好像有某种扩散过程在起作用。截断误差分析揭示了惊人的来源：离散化引入的主要误差项在数学上等同于一个物理扩散项， $\kappa_{\mathrm{num}} \frac{\partial^2 \phi}{\partial x^2}$ 。数值误差伪装成了一种物理现象，创造了我们所说的数值扩散。我们本想解一个方程，但由于我们近似的性质，我们最终解了另一个。机器中的幽灵穿上了实验服，开始干预物理学了。

驾驭误差：化敌为友

如果误差如此结构化和可预测，我们能否利用它来对付它自己？答案是响亮的“是”。这就是计算科学中最强大的技术之一——Richardson extrapolation 背后的思想。

假设我们通过分析知道，我们模拟中的误差行为类似于 $C h^p$ ，其中 $h$ 是我们的网格间距或时间步长。我们用一个粗网格 $h_2$ 进行模拟，得到结果 $u_{h_2}$ 。然后我们将网格细化到 $h_1$ 并得到一个新结果 $u_{h_1}$ 。我们现在有两个近似答案，两者都是“错误”的。但因为我们知道误差的形式，我们可以将这两个错误的答案组合起来，以抵消主导误差项，从而让我们能够外推到我们在 $h=0$ 时会得到的“完美”答案。这项技术在工程和科学领域被广泛使用，以产生高精度的结果并验证代码是否按预期工作。通过理解误差的性质，我们已经把它从敌人变成了我们寻求真理过程中的同谋。

现代视角：数据与概率时代的误差

在大数据和机器学习的现代，我们与误差的关系变得更加微妙。在这里，有两个概念至关重要：后向误差和低精度计算的权衡。

后向误差的概念代表了一种深刻的哲学转变。我们不再问“我的答案错到什么程度？”（前向误差），而是问“对于哪个略有不同的问题，我的答案是完全正确的？”一个能为邻近问题提供精确答案的算法被称为“后向稳定”。

想象一下分析一个社交网络以找到某人的“介数中心性”。一个算法计算出的值，比如说， $0.36$ 。后向误差分析可能会揭示，对于一个增加或删除了一条友谊链接的网络来说，这正是其精确的中心性。如果对输入（网络）的改变很小，我们就可以信任我们的算法，即使对于原始网络的答案并非完全精确。
这种观点在机器学习中至关重要。当我们训练一个线性模型时，我们通常在解决一个巨大的最小二乘问题。一个后向稳定的算法确保计算出的模型参数 $\widehat{\theta}$ 是我们训练数据某个轻微扰动版本的精确最优参数。

然而，后向稳定性只是故事的一半。后向误差和前向误差之间的联系由问题本身的敏感性，即其条件数所决定。基本关系是：[前向误差](/sciencepedia/feynman/keyword/forward_error) $\lesssim$ 条件数 $\times$ [后向误差](/sciencepedia/feynman/keyword/backward_error)。即使是一个后向稳定的算法（小的后向误差），如果问题是病态的，也可能产生灾难性的错误结果（大的前向误差），病态意味着其解对输入的微小变化极其敏感。这个优雅的规则将算法的质量与数学问题固有的性质统一起来。

数据的爆炸也引入了新型的误差。对于真正巨大的矩阵，我们可能无法承担用完整矩阵进行计算的成本。像随机奇异值分解 (rSVD)这样的现代技术，首先会创建一个小得多的矩阵“速写”。在这种情况下，误差的主要来源不是浮点运算，而是速写过程本身固有的近似——这是一种为惊人速度而刻意牺牲精确度的权衡。

同时，对性能的需求已将硬件推向低精度运算。这种速度的代价是什么？考虑Hamiltonian Monte Carlo (HMC)，这是现代统计学和贝叶斯机器学习中的一个基石算法。其效率取决于一个数值积分器（如蛙跳法），该积分器近似地守恒一个模拟物理系统的“能量”。当这种积分在低精度下执行时，额外舍入误差的累积破坏了这种微妙的能量守恒。这导致更多提议的移动被拒绝，从而显著降低了采样器的统计效率。在这里，我们看到了计算速度和统计性能之间一个直接的、可量化的权衡。

终极后果：当比特泄露秘密

这些微妙的数值产物是否会产生超越纯粹不准确性的后果？比如说，它们是否会危及安全？

考虑一个密码学流密码，它旨在通过模拟一个混沌动力系统的轨迹来生成一个随机比特序列。其前提是，对初始条件的敏感依赖性——即“蝴蝶效应”——将产生一个不可预测且统计上无偏的零和一序列，适合用于加密。

然而，设计者必须在计算机上实现这一点，使用一个具有有限步长 $h$ 的数值方法。正如我们所学到的，这会引入一个系统性的截断误差。而这个误差，通过后向误差分析的视角来看，意味着计算机模拟的并非预期的混沌系统，而是一个略有不同的“影子”系统。这个影子系统也是混沌的，但其统计特性——其长期的“气候”，由其不变测度所描述——被轻微地改变了。

如果原始系统被完美地平衡以产生 50% 的一和 50% 的零，那么影子系统可能会有偏差，例如，产生 50.01% 的一。这个微小的偏差，其量级约为 $\mathcal{O}(h^p)$ （其中 $p$ 是方法的阶数），是一个结构性缺陷。一个密码分析者如果收集足够长的比特流，就可以进行频率测试并检测到这种与完美随机性的偏离。检测的条件大致是当比特数 $N$ 远大于 $h^{-2p}$ 时。数值误差，作为离散化的一个不可避免的后果，已经造成了一个统计上的漏洞，即密码装甲上的一道裂缝。这是一个令人不寒而栗而又优美的例证，说明了数值分析中最抽象的概念在现实世界中可能产生最具体、最关键的后果。事实证明，机器中的幽灵也可能是一个间谍。