插值多项式的牛顿形式

玻尔百科

定义

插值多项式的牛顿形式是一种通过给定数据点的多项式表达方式，其核心机制是使用差商作为多项式的系数。该方法在计算上具有极高的效率，支持通过霍纳算法进行快速求值，并允许在不重新计算既有系数的情况下增加新的数据点。这种形式广泛应用于工程设计、金融建模以及求解微分方程等领域，其差商构造为分析函数行为提供了导数的离散模拟。

核心要点

牛顿形式易于扩展；通过添加单个项即可并入新的数据点，无需重新计算先前的系数。
它提供了卓越的计算效率，通过一种嵌套结构（Horner 法）实现快速求值，这对于实时应用至关重要。
其系数被称为均差，可作为导数的离散模拟，为我们洞察底层函数的行为提供了视角。
该方法应用广泛，从工程设计、金融建模到用于求根和求解微分方程的基础算法，无所不包。

引言

用一条平滑曲线连接一系列数据点，是科学与工程领域的一项基本任务。这个过程被称为多项式插值，它使我们能够根据离散信息建模物理现象、预测数值以及创建连续路径。一种常见的初步方法是建立并求解一个线性方程组，但这种方法速度慢得出了名，数值上不稳定，并且在有新数据时缺乏灵活性。这就引出了一个关键问题：是否存在一种更优雅、高效且适应性更强的方法来找到拟合我们数据的唯一多项式？

本文介绍了一种更优越的技术：插值多项式的牛顿形式。我们将探讨这种强大的方法如何克服那些较为朴素的方法的局限性。在“原理与机制”一节中，我们将解构牛顿形式的优雅结构，理解其系数（称为均差）的作用，并领会其卓越的效率和可扩展性。随后，“应用与跨学科联系”一节将揭示这一数学工具如何无处不在地应用，从为机器人手臂的运动建模、优化工程设计，到驱动金融模型，甚至在密码学中保护秘密。

原理与机制

想象一下，你正试图连接图上的一系列点。这不仅仅是一个儿童拼图游戏，而是科学与工程中最基本的任务之一。这些点可能是一颗行星位置的测量值、发动机气缸内随时间变化的压力，或是一支股票的价格。我们常常需要知道这些点之间发生了什么。最自然的方法是画一条平滑的曲线，完美地穿过每一个点。我们所拥有的最简单、最通用的平滑曲线族是多项式，即那些我们熟悉的函数，如 $P(x) = a_n x^n + a_{n-1} x^{n-1} + \dots + a_0$ 。我们的目标是找到“插值”我们数据的唯一多项式。

一种笨拙但熟悉的方法

你会如何着手寻找这个多项式呢？假设你有四个数据点 $(x_0, y_0), (x_1, y_1), (x_2, y_2), (x_3, y_3)$ ，你可以假设多项式是一个三次多项式， $P(x) = a_3 x^3 + a_2 x^2 + a_1 x + a_0$ 。代入每个点，你会得到关于四个未知系数 $a_i$ 的四个线性方程。你可以将其写成一个矩阵方程并求解。这被称为 Vandermonde 矩阵法。

虽然这看起来很直接，但这种方法有一个可怕的秘密：它是一场计算噩梦。求解这些方程组速度很慢，所需的操作次数随点数的立方增长。更糟糕的是，所涉及的矩阵通常是“病态的”，这意味着计算机中微小的舍入误差可能导致答案出现巨大的错误。而且，如果你得到一个新的数据点怎么办？你必须扔掉所有的工作，从头开始解一个全新的、更大的系统。这就像搭建一座纸牌屋，每次想加一张新牌时都必须彻底推倒重来。当然，一定有更好的方法。

更优的构建方法：牛顿形式

这正是 Isaac Newton 的天才之处，他为我们提供了一种远为优雅的结构。牛顿形式不使用标准的“幂基” $\{1, x, x^2, \dots\}$ ，而是使用一组不同的构造块：

P(x) = c_0 + c_1(x-x_0) + c_2(x-x_0)(x-x_1) + c_3(x-x_0)(x-x_1)(x-x_2) + \dots

仔细观察这个结构。为了让多项式穿过我们的第一个点 $(x_0, y_0)$ ，我们只需设置 $c_0 = y_0$ 。当我们计算 $P(x_0)$ 时，所有其他项都含有一个 $(x_0-x_0)$ 因子，因此都消失了！现在，为了满足第二个点 $(x_1, y_1)$ ，我们有 $P(x_1) = c_0 + c_1(x_1-x_0) = y_1$ 。我们已经知道了 $c_0$ ，所以可以轻松解出 $c_1$ 。请注意，第三项 $c_2(x-x_0)(x-x_1)$ 在 $x_0$ 和 $x_1$ 处都为零。

这就是关键思想：我们添加的每一个新项都被专门设计成在所有先前的数据点上为零，这样就不会干扰我们已经完成的工作。我们正在逐步构建我们的多项式，每一新部分都经过量身定制，以捕捉一个新的数据点，而不影响其他部分。系数 $c_k$ 就是我们所需要的神奇成分。

构造块：均差

那么，这些神秘的系数 $c_k$ 是什么呢？它们被称为均差 (divided differences)。可以将它们看作是斜率概念的推广。一阶均差 $f[x_0, x_1]$ 正是连接 $(x_0, y_0)$ 和 $(x_1, y_1)$ 的直线的斜率：

c_1 = f[x_0, x_1] = \frac{y_1 - y_0}{x_1 - x_0}

零阶均差就是函数值本身： $c_0 = f[x_0] = y_0$ 。

更高阶的均差是递归定义的。二阶均差 $f[x_0, x_1, x_2]$ 是“差分的差分”：

c_2 = f[x_0, x_1, x_2] = \frac{f[x_1, x_2] - f[x_0, x_1]}{x_2 - x_0}

它衡量的是斜率的变化情况。这个模式对所有更高阶都适用。我们可以将这些计算整齐地组织在一个均差表中。例如，为了模拟一种新合金的热导率，工程师可能会在不同温度 $T$ 下测量其导热系数 $k$ 。根据几个数据点，他们可以逐步建立这个表格，以找到其插值多项式的系数。

可扩展性之美

这就是牛顿形式真正闪光的地方。想象一下，我们的工程师已经基于四个数据点建立了一个模型，但随后实验室又传来第五个测量值。如果使用旧的 Vandermonde 方法，他们将不得不从头再来。

而使用牛顿形式，这个过程简单得令人惊叹。原始的多项式，我们称之为 $P_3(x)$ ，已经穿过了前四个点。新的多项式 $P_4(x)$ 可以写成：

P_4(x) = P_3(x) + c_4(x-x_0)(x-x_1)(x-x_2)(x-x_3)

新添加的项在所有旧数据点上都为零，所以 $P_4(x)$ 仍然能正确地插值这些点。我们只需要计算一个新的系数，即下一个均差 $c_4 = f[x_0, \dots, x_4]$ ，然后加上这个新项。就是这么简单。无需重建，无需从头开始。这种可扩展性的特性使得牛顿形式在数据顺序到达的应用中（如实时跟踪或自适应建模）显得尤为强大。

求值的艺术：速度与稳定性

一旦我们得到了牛顿形式的多项式，就需要对它进行求值以做出预测。例如，一辆自动驾驶汽车的控制系统可能需要每秒数千次地在其规划的航点间轨迹上确定位置。速度至关重要。

有人可能会将牛顿形式展开成标准的幂基形式 $a_n x^n + \dots + a_0$ ，然后再进行求值。但这种方法效率低下。一种更为优雅的技术是直接利用牛顿形式的嵌套结构。这种方法是 Horner 算法的一种变体，对于一个三次多项式，它看起来是这样的：

P(x) = c_0 + (x-x_0) \Big( c_1 + (x-x_1) \big( c_2 + (x-x_2) c_3 \big) \Big)

为了计算这个表达式，我们从最内层开始，然后逐步向外计算。对于一个 $n$ 次多项式，这只需要 $n$ 次乘法和 $2n$ 次加法。这是一个 $O(n)$ 的过程，意味着工作量随点数线性增长。与之相比，计算其他形式的插值多项式，如拉格朗日形式，可能需要 $O(n^2)$ 次操作。对于 100 个数据点，这之间的差异是几百次操作与数万次操作的对比——也就是实时控制和一个迟钝无用系统之间的区别。

均差告诉我们什么

均差不仅仅是计算工具；它们蕴含着关于我们正在建模的函数的深层信息。这里与微积分有一个美妙的类比。 $k$ 阶均差是 $k$ 阶导数的离散版本。正如一阶导数为常数意味着一条直线一样，一阶均差为常数意味着数据点位于一条直线上。

这带来了一个显著的性质。如果你拥有的数据是从一个三次多项式上完美采样的，你会发现所有的三阶均差都是常数，而所有四阶（及更高阶）的均差都恰好为零！。这为我们提供了一个强大的诊断工具：通过查看均差表，我们可以确定生成我们数据的多项式的真实次数（假设数据无噪声）。

这种联系甚至更深。最高阶均差 $f[x_0, \dots, x_n]$ 正是插值多项式以标准幂形式 $P(x) = a_n x^n + \dots$ 书写时的首项系数 ( $a_n$ )。这个单一的数字捕捉了曲线的最高次行为，而这与我们选择如何表示它无关。

顺序无关紧要（对曲线而言）

最后还有一个微妙之处，它揭示了插值的真正美妙之处。如果你将数据点以不同的顺序输入算法会发生什么？例如，你用 $(x_0, x_1, x_2)$ 的顺序构建一个牛顿多项式，再用 $(x_2, x_1, x_0)$ 的顺序构建另一个。

如果你这样做，你会发现均差表看起来完全不同。牛顿系数会不同。基多项式，如 $(x-x_0)$ 与 $(x-x_2)$ ，也会不同。这两个牛顿形式的多项式在纸面上看起来像是完全不同的函数。

但是，如果你把它们画出来，或者将它们展开成标准的幂形式，你会发现它们是完全相同的多项式。穿过这些点的曲线是唯一的；它不关心你列出这些点的顺序。牛顿形式只是这个唯一多项式的一个“名字”，改变点的顺序只是给了它一个不同的“名字”或表示。这种不变性是一个基本定理的结果，该定理指出：对于给定的一组点，只存在一个给定次数的多项式能够穿过它们。

一个警告：Runge 现象

尽管牛顿形式非常优雅，但它并非万能灵药。它是一种构建多项式的工具，但高次多项式插值本身也有其危险的一面。如果你试图用大量等距点来插值一个函数，你可能会遇到一个被称为 Runge 现象 的问题。多项式可能不会得到更好的拟合，反而可能出现剧烈振荡，尤其是在数据区间的两端，从而在数据点之间产生巨大的误差。

这不是牛顿形式的缺陷；这是一个根本性的警告，即盲目地用高次多项式“连接点”是危险的。科学建模的艺术不仅在于拥有强大的工具，更在于知道如何明智地使用它们。例如，解决 Runge 现象的方法不是放弃多项式，而是在放置数据点的位置上更聪明一些，选择一种让它们在区间两端聚集的方式（例如，使用Chebyshev 节点）。

牛顿形式为我们提供了一种高效、可扩展且富有洞察力的方法来构建拟合我们数据的唯一多项式。它在一个看似简单的问题中揭示了美妙的结构，但它也提醒我们，在数据与理论的共舞中，我们必须始终谨慎而明智地前行。

应用与跨学科联系

在了解了牛顿形式的原理和机制之后，人们可能会不禁要问：“这一切究竟是为了什么？”这是一个合理的问题。我们已经将这些数学构造块组合成一个优雅的结构，但我们用它们来建造什么呢？答案是，无处不在。一个强大数学思想的真正美妙之处不仅在于其内在的一致性，还在于它能够描述、预测甚至保护我们周围的世界。让我们开启一段旅程，去探寻那些多项式插值（尤其是其牛顿形式）成为不可或缺工具的令人惊奇的领域。

为物理世界建模

也许最直观的应用是在描述运动方面。想象一下，你正在工厂里为一个机器人手臂编程。你可以定义几个空间中的关键“航点”，手臂必须穿过这些点，但你不希望它以一种生硬的、连点成线的方式移动。你需要一条平滑、连续的路径。你如何生成它？通过将时间 $t$ 作为自变量，并将空间坐标 $x$ 、 $y$ 和 $z$ 作为因变量。对于每个坐标，你可以创建一个插值多项式，如 $x(t)$ ，它穿过所有指定的 $(t_i, x_i)$ 航点。通过对所有三个坐标执行此操作，你为机器人生成了一条平滑的三维参数曲线 $r(t) = [x(t), y(t), z(t)]$ 以供其遵循。机器优雅地移动，而这一切都归功于一个多项式。

这种从离散数据点创建连续模型的思想贯穿于整个工程领域。考虑一个液压泵的性能曲线。制造商提供一个数据表，显示了在几个特定流量下，泵能产生的压力（或“扬程”）。但是，如果一位工程师在进行复杂的管网模拟时，需要知道一个介于表中流量之间的流量所对应的扬程，该怎么办？插值多项式充当了替身，提供了一个可以查询任何流量的连续函数，从而使模拟成为可能。

世界不是完美的，我们的仪器也不是。传感器会发生漂移。一个周一完全准确的压力传感器，到周五时读数可能会略微偏高。如果我们每周进行校准，就会得到一组数据点：（第 0 周，偏差 0），（第 1 周，偏差 0.1），依此类推。我们可以用一个多项式拟合这些点，以模拟随时间变化的漂移。现在，如果我们在周三（第 0.5 周）进行测量，就可以使用我们的多项式来估计那一刻的偏差，并从读数中减去它，从而得到一个更准确的结果。从科学实验到工业控制系统，这一原理被用来从不完美的硬件中榨取出精度。

同样的概念也为我们口袋里的设备提供动力。你的手机或电动汽车中的电池管理系统需要知道充电状态（SoC）。它无法直接测量 SoC；它只能测量电压。电压和 SoC 之间的关系是一条复杂的非线性曲线。通过在制造过程中获取几个已知的电压到电荷的映射数据点，就可以创建一个简单的插值多项式。这个多项式的系数（通常采用高效的牛顿形式）可以存储在设备的内存中，提供一种快速、廉价的方式将电压读数转换为您在屏幕上看到的百分比。

模拟、优化与金融

有时，我们想要插值的“数据点”并非来自物理测量，而是来自复杂且耗时的计算机模拟。想象一下，试图找到飞机机翼的最佳攻角以最大化升力。每个角度都需要进行大规模的计算流体动力学（CFD）模拟，这可能需要数小时或数天。我们当然不可能测试所有可能的角度。

在这里，插值提供了一条绝妙的捷径。我们只对少数几个角度运行昂贵的模拟。这些结果——（角度 1，升力 1），（角度 2，升力 2）等——成为插值多项式的节点。这个多项式是一个“代理模型”：一个对慢速模拟的廉价、快速的近似。找到一个多项式的最大值很容易——我们只需求其导数，找到根，并检查端点。我们可以在几秒钟内找到我们代理模型的最优角度，从而得到一个极有希望的候选方案，再用一次最终的、昂贵的模拟来验证它。这一思想是现代工程设计与优化的基石。

当我们的数据不是静态时，牛顿形式的效用尤其突出。考虑一下债券交易和收益率曲线的金融世界。收益率曲线将债券的利率建模为其到期时间的函数。交易员拥有例如 1 年期、5 年期和 10 年期到期债券的数据。他们可以构建一个插值多项式 $p_2(t)$ ，来估计一个 3 年期债券的收益率。现在，当一个新的 20 年期债券被交易，给了我们一个新的数据点时，会发生什么？对于大多数插值方案，人们将不得不抛弃一切，从头开始。

但牛顿形式则不然。它的结构是可加的。我们新的、更准确的模型 $p_3(t)$ 只是旧模型加上一个新项：

p_3(t) = p_2(t) + c_3(t - t_0)(t - t_1)(t - t_2)

这个令人难以置信的特性意味着我们可以在不重做所有先前工作的情况下即时更新我们的模型。这是我们学习方式的一种优雅体现——我们用新信息来完善现有知识，而不是每次都从头开始。

算法的秘密生命

除了为外部世界建模，多项式插值也是其他数值算法配方中的关键成分。它是一种用于构建工具的工具。

科学和工程中的许多问题都可归结为求解方程的根，即找到使 $f(x)=0$ 的 $x$ 。Müller 法是一种强大的求根算法，其工作原理是取最近的三个根的猜测值，通过它们拟合一个二次多项式，然后找到该简单抛物线与 x 轴的交点。这个新的交点成为下一个猜测值。这个局部多项式（通常为了稳定性而以牛顿形式表示）充当向导，指引着通往真根的道路。一个相关且同样巧妙的技术是反向插值。我们不是对点 $(x_i, y_i)$ 进行插值，而是对“翻转”后的点 $(y_i, x_i)$ 进行插值。这就创建了一个多项式 $x(y)$ 。要找到原函数的根，我们只需计算我们新多项式在 $y=0$ 处的值。

也许最深刻的内部应用在于求解那些支配宇宙的方程：微分方程。像 Adams-Bashforth 族这样的方法被用来数值求解形式为 $y'(t) = f(t, y)$ 的方程。求解过程涉及对 $f(t, y)$ 进行积分，但我们并不知道这个函数的完整形式。我们确实知道的是在过去已经计算过的时间步长上 $f$ 的值： $f_{n}, f_{n-1}, f_{n-2}, \dots$ 。该方法的精妙之处在于，通过这些过去的值拟合一个插值多项式，然后积分那个多项式作为 $f$ 的替代品。其结果是一个公式，它允许我们在时间上向前迈出下一步，一步步地构建解决方案。物理学、化学和工程学中的绝大多数模拟都依赖于这一基本原理。

一个警告与一次向抽象的飞跃

拥有如此强大的力量，人们很容易得意忘形。关键要记住，插值多项式并非魔法水晶球。如果我们试图通过对过去的数据拟合一个高次多项式来“预测”趋势，我们可能会遇到严重的问题。一个高次多项式有剧烈摆动的自由。虽然它会完美地穿过我们所有已知的数据点，但它在这些点之间或之外的行为可能是狂野而无意义的。这种现象是“过拟合”的一种形式，是数据科学中的一个深刻教训：一个能完美解释过去数据的模型，并不总是预测未来的最佳模型。通常，一个更简单的、次数较低的多项式会提供一个更合理、更稳定的预测。

我们将以一个出人意料的应用来结束我们的旅程，它感觉就像是谍战小说里的情节。你如何将一个秘密——比如说，一枚火箭的发射密码——分给 $N$ 位将军，使得其中任意 $k$ 位将军可以重构它，但任意 $k-1$ 位将军组成的团体却对密码一无所知？

答案是 Shamir 秘密共享方案，它是多项式插值的一个直接而美妙的应用。诀窍不是使用实数，而是在有限域（整数对大素数 $p$ 取模）中进行算术运算。我们将秘密数字 $S$ 编码为一个 $k-1$ 次多项式的常数项： $f(x) = S + a_1 x + a_2 x^2 + \dots + a_{k-1} x^{k-1}$ 。然后我们通过在不同点 $f(1), f(2), \dots, f(N)$ 上对该多项式求值来生成 $N$ 个“份额”，并将一个份额 $(x_i, y_i)$ 分给每位将军。

现在，回想一下插值的基本定理：确定一个 $k-1$ 次多项式，不多不少正好需要 $k$ 个点。如果任意 $k$ 位将军聚在一起，他们就有了 $k$ 个点。他们可以使用插值法来重构唯一一个拟合他们份额的多项式，然后只需在 $x=0$ 处求值即可找到秘密 $S$ 。但如果只有 $k-1$ 位将军会面，他们就没有足够的信息。对于他们可能猜测的任何秘密，都存在一个 $k-1$ 次多项式，既能穿过他们的 $k-1$ 个点，又以该秘密为常数项。他们什么也没学到。

从机器人手臂的优美弧线，到保护国家机密的密码锁，通过一组点绘制一条唯一多项式曲线这一简单行为，被证明是科学与计算语言中最通用、最深刻的思想之一。