首页绝对公差与相对公差

绝对公差与相对公差

玻尔百科

定义

绝对公差与相对公差是数值分析中用于定义迭代计算中允许误差范围的两种标准。绝对公差设定一个固定的误差上限，而相对公差则根据解的数值大小按比例控制误差阈值。为了在处理跨尺度数值或接近零的值时保持计算稳定性，通常采用结合了两者的混合公差准则。

核心要点

绝对公差提供了一个固定的误差限制，虽然简单，但对于跨越极大尺度范围的问题效果不佳。
相对公差根据解的量级按比例控制误差，但当解趋近于零时会灾难性地失效，可能导致计算停滞。
混合公差准则（ $atol + rtol \times |y|$ ）通过在相对控制和绝对控制之间平滑过渡，稳健地处理大数值和小数值。
控制每一步的局部误差并不能保证模拟的最终全局精度，因为内在不稳定的系统会随时间放大微小的误差。

引言

在科学计算的世界里，完美往往是一种幻觉。当我们让计算机解决复杂问题时——从模拟行星轨道到仿真化学反应——我们很少能得到精确的答案。相反，我们必须定义何为“足够接近”。这种对可接受误差的定义，即所谓的公差（tolerance），是数值计算准确性和效率的基石。然而，选择正确的误差衡量方式带来了一个根本性挑战：固定的误差容限（绝对公差）可能因问题尺度的不同而过于严格或过于宽松，而按比例设定的容限（相对公差）在数值趋近于零时可能灾难性地失效。本文将深入探讨这一关键难题。第一章“原理与机制”将剖析绝对公差和相对公差的机理，揭示它们各自的弱点，并解释为何混合方法是现代求解器中的通用解决方案。随后，“应用与跨学科联系”一章将展示这一概念如何成为贯穿数值微积分、工程学、蛋白质组学和机器学习等领域的统一主线，将抽象理论转化为强大的发现工具。

原理与机制

想象你是一名弓箭手。你的目标是射中靶心。你可能会说：“我希望我的箭落在靶心一厘米的范围内。”这是一个简单、固定的成功标准。或者，你也可以说：“我希望我的误差不超过到靶子距离的百分之一。”如果靶子在100米外，这就给了你一米的容差。如果靶子在10米外，你的容差就缩小到十厘米。

在计算领域，当我们让计算机解决那些我们没有完美解析解的问题时，我们经常面临类似的选择。我们无法总是精确射中真实解的“靶心”。相反，我们必须定义何为“足够接近”。这个“足够接近”的概念被称为公差（tolerance），它有两种基本类型，就像我们弓箭手的目标一样：绝对公差（absolute tolerance）和相对公差（relative tolerance）。理解这两者之间的相互作用不仅仅是一个技术细节；它是构建精确高效的数值模拟（从预测天气到设计新药）的核心所在。

“足够接近”的两种定义

让我们从射箭转向数学世界，例如，求解一个方程的根——即函数 $f(x)$ 等于零时 $x$ 的值。像Newton's method这样的算法从一个猜测值开始，通过迭代不断逼近答案。但我们应该在什么时候停止呢？我们需要一个停止准则。

一个自然的想法是，当连续两次猜测值之间的变化非常小时停止。这就是绝对公差准则。我们预先设定一个小数，称之为 $\epsilon$ （epsilon），当刚完成的一步， $|x_{n+1} - x_n|$ ，小于 $\epsilon$ 时，我们就停止。这就像弓箭手的“一厘米”规则。它为我们愿意接受的误差设定了一个固定的、绝对的下限。

但如果我们要找的根非常大，比如说 $x^* = 1,000,000$ 呢？ $0.001$ 的绝对变化 $\epsilon$ 意味着我们已经以极高的精度找到了根。现在，如果根非常小，比如说 $x^* = 0.00001$ 呢？ $0.001$ 的绝对变化 $\epsilon$ 比根本身大了一百倍！我们的“解”可能完全是错误的。

这时相对公差就显示出其优势。停止准则变为当相对变化很小时停止： $\left| \frac{x_{n+1} - x_n}{x_{n+1}} \right| < \delta$ ，其中 $\delta$ （delta）是另一个小数。这就像要求一定数量的有效数字。它会自动适应答案的尺度。对于大数值的根，它允许一个较大的绝对步长；对于小数值的根，它要求一个更小的步长，从而在两种情况下都保证了相同的比例精度。相对公差似乎是一种更智能、更具尺度意识的方法。那么，我们为什么不完全采用它呢？

比例性的风险

相对公差有一个隐藏的、且可能带来灾难性后果的致命弱点：数字零。想象一下，我们正在模拟一个其数值会穿过零的物理系统，比如一个摆锤经过最低点，或者一种化学中间产物先生成后被消耗。

一个使用纯相对公差的自适应算法被要求将其局部误差 $E_n$ 控制在与解的量级 $|y_n|$ 成正比的某个阈值以下： $E_n \le \tau_{rel} |y_n|$ 。当真实解 $y(t)$ 趋近于零时，其数值近似值 $y_n$ 也会变得非常小。为了满足这个准则，允许的误差 $\tau_{rel} |y_n|$ 会趋向于零。算法要达到这个不断缩小的误差目标，唯一的方法就是采取越来越小的时间步长。它越接近零，步长就变得越小，直到求解器实际上“停滞”，以极慢的速度前进，无法跨越零点。

从数学上讲，这个问题更为根本。相对误差的定义 $\frac{|\text{近似值} - \text{真实值}|}{|\text{真实值}|}$ 本身就涉及除以真实值。如果真实值为零，相对误差在数学上是未定义的。你不能要求相对于“无”的精度。

混合方法的和谐：混合公差安全网

所以，绝对公差对尺度变化不敏感，而相对公差对零值感到恐惧。两者单独使用都不足够。解决方法既简单又优雅，那就是同时使用两者。这就是混合误差公差准则，现代数值求解器的中坚力量。

在每一步，解的每个分量 $i$ 的估计局部误差 $E_i$ 都必须满足： $|E_i| \le \mathbf{atol} + \mathbf{rtol} \times |y_i|$ 这里， $\mathbf{atol}$ 是绝对公差， $\mathbf{rtol}$ 是相对公差。让我们来欣赏这个简单组合的美妙之处。

当解 $|y_i|$ 很大时： $\mathbf{rtol} \times |y_i|$ 这一项将远大于 $\mathbf{atol}$ 。该准则实际上变为 $|E_i| \le \mathbf{rtol} \times |y_i|$ 。我们回到了控制相对误差的模式，获得了我们想要的尺度无关的精度。例如，在化学反应早期，当反应物浓度很高时就是这种情况。
当解 $|y_i|$ 很小（接近零）时： $\mathbf{rtol} \times |y_i|$ 这一项变得可以忽略不计。该准则实际上变为 $|E_i| \le \mathbf{atol}$ 。绝对公差接管控制，为允许的误差提供一个恒定的“下限”。这就像一个安全网，通过给求解器一个合理的、非零的误差目标，防止其停滞。这正是控制反应后期（当反应物几乎耗尽时）模拟的机制。

这个混合准则在大数值时平滑地过渡到相对控制，在小数值时过渡到绝对控制，让我们兼得两者的优点。

在苹果和行星之间权衡：多尺度世界中的公差

真实世界很少像单个摆锤那样简单。我们更常模拟包含许多相互作用组分的复杂系统，这些组分的量级可能跨越多个数量级。想象一个生物细胞：水的浓度以摩尔为单位，而某个关键信号蛋白的浓度可能以纳摩尔为单位——相差十亿倍！

如果我们对整个系统使用单一的标量 atol，我们将面临一个可怕的困境。

如果我们将 atol 设置得足够小，以精确追踪纳摩尔级别的蛋白质（例如 $10^{-12} \mathrm{M}$ ），那么这个公差对于水的浓度来说将是荒谬地严格，迫使求解器进行大量不必要的工作。
如果我们将 atol 设置得适合水的浓度（例如 $10^{-6} \mathrm{M}$ ），那么这个公差将比蛋白质的全部浓度大一千倍！蛋白质的数值结果将完全没有意义，淹没在噪声之中。

这不仅仅是数值上的不便；它会导致物理上错误的预测。解决方法是认识到，对于每个组分，“足够接近”的定义是不同的。主要有两种方式来处理这个问题。

第一种，更直接的方法，是使用一个绝对公差向量。我们不再使用单个 atol，而是提供一个列表 $[\text{atol}_1, \text{atol}_2, \dots, \text{atol}_N]$ ，其中每个 $\text{atol}_i$ 都根据其对应变量 $y_i$ 的特征量级进行缩放。这确保了低浓度物种不会被忽略。当求解器组合所有组分的误差时，它们通常使用加权范数，其中每个组分的误差在求和之前都除以其特定的公差。这确保了每个组分，无论大小，在决定一个步长是否足够精确时都有平等的“投票权”。

第二种，更深刻的方法，深受物理学家喜爱，即无量纲化。在开始模拟之前，我们重新缩放我们的变量。我们定义新的无量纲变量，如 $x_A = [A]/[A]_{\text{typical}}$ 和 $x_E = [E]/[E]_{\text{typical}}$ 。通过将每个变量除以其自身的特征尺度，我们所有的新变量 $x_i$ 的量级都将在1左右。问题被转换到一个所有事物大小都相似的世界。在这个尺度良好的世界里，一套标准的公差（atol 和 rtol）就能完美地适用于所有变量。这不仅仅是一个技巧；它常常能揭示问题更深层次的数学结构。

必要的谦逊：局部步长与全局过程之间的差距

我们已经建立了一个复杂的误差控制机器。在其过程的每一步，我们的求解器都会仔细检查其工作，并确保它引入的误差小于我们规定的公差。因此，我们很容易相信，我们最终答案中的误差——全局误差——也将与我们的公差在同一数量级。这是一个危险的假设。

控制每一步的局部误差并不能自动保证模拟结束时全局误差的可控性。缺失的因素是系统本身的内在性质。

考虑两个简单的系统：

系统A：一个指数增长的种群， $y' = \lambda y$ （其中 $\lambda \gt 0$ ）。
系统B：一种指数衰减的放射性物质， $z' = -\lambda z$ 。

在系统B中，动力学是稳定的。在某一步引入的任何小误差都会随着时间的推移被系统的衰减特性所抑制和削弱。局部误差几乎没有机会累积，最终的全局误差通常与局部公差在同一数量级。

然而，在系统A中，动力学是不稳定的。系统会自然地放大任何扰动。在早期步骤中引入的一个小局部误差不会被抑制；相反，它会在随后的每一步中被指数增长所放大。这些小误差会复合和增长，可能导致最终的全局误差比我们精心设定的局部公差大几个数量级。

这是一个关于谦逊的教训。我们对误差的控制是局部的。我们模拟的最终精度取决于我们的局部精度和我们正在研究的系统的全局特性。设置公差是用户与求解器之间的一场对话，但问题本身的动力学总是有最终决定权。

应用与跨学科联系

在掌握了绝对公差和相对公差的原理之后，我们可能会觉得我们拥有了一个有用但或许有些枯燥的数值计算工具。但如果止步于此，就像学会了国际象棋的规则却从未欣赏过大师对弈的精妙一样。这些概念的真正魔力在于我们看到它们在实践中如何发挥作用。这不仅仅是关于误差检查；它是精确地不精确这门基础艺术。它是指导从恒星模拟到救命药物设计等一切事物的幕后推手。让我们踏上一段穿越科学和工程广阔领域的旅程，看看这个简单的双面概念是如何提供一条统一的主线的。

驯服无穷：数值微积分

从本质上讲，大部分计算科学都是试图用有限的机器来处理无限。作为连续变化语言的微积分，必须被翻译成离散的步骤。我们如何知道我们的分步近似已经足够好了呢？公差就是我们的指南。

想象一下，你正在编程一个机器人来寻找山谷的最低点。一个粗略的方法是每隔十米检查一次海拔。一个更精细的方法是每一米，或者每一厘米检查一次。但哪种是正确的呢？如果山谷像一个大洲那么大，一厘米的精度是荒谬的过度。如果它是一个硅芯片上的微观凹槽，十米的步长则毫无用处。“正确”的精度不是固定的；它取决于问题的尺度。

这正是像Brent's method这样的数值求根算法所面临的挑战。这些算法是用于求解 $f(x)=0$ 形式方程的主力。假设我们正在寻找一个巨大的根，比如在一百万左右。 $0.1$ 的误差可能微不足道。但如果根接近零，比如 $10^{-8}$ ， $0.1$ 的误差则是灾难性的。一个真正智能的算法必须能够自适应。因此，它们使用一种混合公差，形式通常为 $\text{tolerance} = \text{const} \times \epsilon_{rel} \times |x| + \epsilon_{abs}$ 。当根的估计值 $|x|$ 很大时，相对项 $\epsilon_{rel} \times |x|$ 占主导地位，确保误差只是答案量级的一个小分数。当 $|x|$ 很小时，绝对项 $\epsilon_{abs}$ 接管，提供一个固定的精度下限，并防止算法在接近零时追逐无意义的数字。这个简单的公式蕴含着深刻的计算智慧，让一个单一的算法能够以高效和优雅的方式在任何尺度的环境中导航。

同样的智慧也适用于我们计算积分时，这项任务被称为数值积分。自适应算法会巧妙地在函数变化剧烈的地方放置更多的计算点，在函数平滑的地方放置较少的点。但是，如果一个函数在一个很大的区间内几乎是平的并且非常接近零呢？一个只使用相对公差（要求误差是积分值（很小）的一个微小分数）的幼稚算法会掉入“完美主义陷阱”。它会一次又一次地细分区间，浪费巨大的计算资源去追求一个没有物理意义的精度。增加一个绝对公差打破了这个魔咒，告诉算法“这已经足够好了”，从而将资源解放出来，用于真正重要的地方。

描绘未来：模拟运动中的世界

如果说数值微积分是关于分析静态快照，那么求解常微分方程（ODEs）就是关于预测未来。我们使用ODEs来模拟一切随时间变化的事物：行星的轨道、飞机机翼的颤振、药物在血液中的浓度，或者化学反应中错综复杂的动态过程。

考虑为一位患者给药后的药代动力学建模的挑战。药物在不同的“隔室”——血液、组织、器官——之间以截然不同的速率移动。注射后，浓度在几秒钟内发生变化。几小时后，药物可能正在从深层组织中缓慢清除。一个固定时间步长的模拟要么对于初始阶段来说过于粗糙，要么对于后期阶段来说过于缓慢。

这时自适应步长求解器就派上用场了，而公差就是它们的大脑。在每个试探性的时间步中，求解器会估计局部误差。然后，它将这个误差与用户指定的公差进行比较，通常是相对值和绝对值的组合： $error \le atol + rtol \times |y|$ 。如果误差太大，求解器会拒绝这一步，并用一个更小的步长重试。如果误差远小于公差，求解器会变得更大胆，并增加下一步的步长。结果是一个在平稳时期“冲刺”，在快速变化时刻“踮脚”的模拟，同时始终保持由科学家设定的精度水平。

在处理所谓的刚性系统时，这种自适应能力变得至关重要。这些是包含发生在迥然不同时间尺度上的过程的动力系统，这在工程和生物学中都很常见。Van der Pol振荡器是某些电子电路的一个简单模型，它可以表现出缓慢、平滑的振荡，中间穿插着几乎瞬时的跳变。同样，在酶动力学中，酶-底物复合物的浓度可以在微秒内从零飙升到接近稳态，而整个底物的消耗却需要几分钟。对于这些问题，绝对公差 $\text{atol}$ 是不可或缺的。当一个组分的值接近零时（比如酶复合物的初始浓度），相对公差准则变得毫无意义。绝对公差提供了一个合理的误差下限，防止求解器迈出危险且不准确的第一步。公差使得这些复杂、多尺度系统的模拟在计算上成为可能。

除了仅仅追踪一条路径，我们常常还想知道系统何时会越过一个关键阈值。想象一下，模拟一座桥梁在大风中的扭转振动。我们主要关心的不是每一微秒的角度，而是扭转角首次超过结构安全限制的精确时刻。一个自适应ODE求解器可以通过“事件检测”来做到这一点。它在精度公差的控制下向前求解系统，但同时它也监控一个特殊的“事件函数”。底层积分的精度确保了系统的路径被足够精确地知道，以便插值出越过阈值的确切时间。在这里，公差不仅关乎效率；它关乎我们预测的可靠性和安全性。

解读线索：实验数据中的公差

公差的作用并不仅限于模拟世界。它在解释实验数据方面同样至关重要。我们进行的每一次测量，无论仪器多么先进，都具有有限的精度。

一个绝佳的例子来自蛋白质组学领域，即对蛋白质的大规模研究。在一种称为质谱法的技术中，科学家将蛋白质消化成称为肽段的更小片段，然后以极高的精度测量它们的质荷比。为了识别原始蛋白质，这个实验测得的质量需要与一个庞大的理论肽段质量数据库进行比较。

算法会寻找完美的匹配吗？当然不会。那将是徒劳的。相反，科学家会指定一个质量公差。一台高分辨率仪器可能有一个例如百万分之十（10 ppm）的公差。这是一个纯粹的相对公差。这意味着对于一个测得的1000原子质量单位（Da）的肽段，搜索窗口是 $1000 \pm 0.01$ Da，而对于一个更大的3000 Da的肽段，窗口则按比例增大为 $3000 \pm 0.03$ Da。任何质量落在这个窗口内的理论肽段都被认为是潜在的匹配项。公差是在不完美的现实世界测量与理想化的理论数据库之间架起的一座必不可少的桥梁。

抽象的顶峰：收敛的逻辑

最后，我们来到了数值方法的前沿：大规模优化。在这里，我们不仅仅是求解一个方程，而是在一个高维空间中搜索“最佳”的可能解——成本最小、误差最小或能量最低的配置。这些问题通过迭代算法解决，这些算法采取一系列步骤，希望每一步都更接近最优解。但它们何时停止呢？

在用于模拟桥梁应力或汽车底盘变形的有限元法（FEM）中，算法寻找使总势能最小化的位移场。当网格中每个节点上的合力为零时，就达到了这个平衡状态。在计算机中，这转化为不平衡力的“残差”向量变为零。收敛准则是一个检查：这个残差向量的范数是否小于一个由绝对和相对部分共同构建的公差？这个准则是一个直接的、具有物理意义的陈述，表明系统已经“足够接近”平衡状态。

这一原则延伸到了最先进的优化框架，如交替方向乘子法（ADMM），它被用于解决机器学习、信号处理和控制理论中的问题。这些强大算法的停止准则看起来很复杂，但其核心是在检查当前解是否“足够接近”满足基本的最优性条件。这些检查无一例外地由绝对公差 $\epsilon_{\text{abs}}$ 和相对公差 $\epsilon_{\text{rel}}$ 组合而成，并根据问题的变量维度和量级进行仔细缩放。

从一个简单的测量到优化的前沿，绝对公差和相对公差的概念证明了一个深刻而统一的原则。它们代表了这样一种实践智慧：完美是无法企及的，但精度是可控的。通过巧妙地平衡这两个概念，我们构建了逻辑，使我们的计算工具既强大又高效，既可靠又稳健。这是我们用来告诉机器如何驾驭连续世界的语言，正因如此，它已成为现代科学发现不可或缺的基石。