离散最小二乘逼近

玻尔百科

核心要点

离散最小二乘法通过最小化误差平方和来寻找“最佳拟合”，但朴素的方法可能导致如龙格现象等严重的不稳定性问题。
使用可通过三项递推关系生成的正交多项式基，可以巧妙地解决不稳定性问题，从而获得稳定且高效的解。
现代的数值稳定实现采用 QR 分解等方法，避免了直接构建法方程时可能出现的信息损失。
最小二乘框架是一个功能极其广泛的工具，其应用横跨工程优化、信号处理和金融建模，甚至构成了机器学习中的基本概念。

引言

在一个数据泛滥的世界里，从复杂或含噪声的观测数据中辨别出简单而有意义的模式是一项根本性的挑战。我们如何在一堆散乱的数据点中找到那条具有代表性的趋势线？离散最小二乘逼近方法为此提供了一个强大而优雅的答案，它构成了无数科学与工程领域中数据分析的基石。然而，寻找这种“最佳拟合”的最直观途径充满了意想不到的陷阱，看似合乎逻辑的选择却可能导致灾难性的失败。本文旨在探讨的核心问题不仅是如何逼近数据，更是如何稳健而可靠地做到这一点。

读者将首先在 “原理与机制” 一章中探索其核心思想。我们将从最小化误差的直观概念入手，通过一个物理类比将其形象化，并用数学语言进行形式化描述。接着，我们将直面臭名昭著的龙格现象——这是对朴素方法的一个严正警告——并揭示其根源在于某些数学工具的病态性。该章的最后将揭示一个优雅的解决方案：正交性的力量，它能将一个不稳定的问题转化为一个性质优良的问题。在这一理论基础之后，“应用与跨学科联系” 一章将展示最小二乘法惊人的通用性。我们将看到这个单一的数学引擎如何被应用于优化发动机、净化图像、分类棒球球路、为金融衍生品定价，乃至揭示其与机器学习领域的深层联系。

原理与机制

想象一下，你正试图描述一个被抛出的球的运动轨迹。你拥有它在不同时间的几个位置快照，但没有完整、连续的轨迹。你会如何画出最合理的路径？你可能会画一条平滑的抛物线，它不一定恰好穿过每一个点，但会尽可能地靠近所有点。这种寻找“最佳拟合”的直观行为正是最小二乘逼近的精髓所在。

弹簧类比：何为“最佳”？

让我们把这个想法精确化。假设我们有一组数据点 $(x_i, y_i)$ 。我们想找到一个简单的函数，比如一个多项式 $p(x)$ ，来最好地表示这些点。对于每个点 $x_i$ ，测量值 $y_i$ 与我们的多项式给出的值 $p(x_i)$ 之间存在一个差值，即残差 (residual)。这个差值就是垂直距离 $r_i = y_i - p(x_i)$ 。

哪个多项式是“最佳”的呢？一个自然的选择是，在某种整体意义上，使这些残差尽可能小的那个多项式。我们可以尝试最小化它们的和，但这很棘手；一个大的正残差可能会被一个大的负残差所抵消。一个由 Gauss 和 Legendre 倡导的更稳健的方法是最小化残差的平方和： $E = \sum_i r_i^2 = \sum_i (y_i - p(x_i))^2$

可以这样想：想象每个数据点都通过一个微小的、理想的弹簧连接到我们的曲线 $p(x)$ 上。根据胡克定律 (Hooke's Law)，每个弹簧中的势能与其拉伸长度的平方成正比，这个长度就是我们的残差。使所有弹簧中存储的总能量最小化的那条曲线，就是处于最“平衡”位置的曲线。这就是离散最小二乘解。这是一个最小能量原理，一个在整个物理学中回响的主题。

如果我们的数据不是一组离散的点，而是一个我们想用更简单的多项式 $p(x)$ 在一个区间（比如从 $a$ 到 $b$ ）上逼近的连续函数 $f(x)$ ，那该怎么办？同样的原理适用。我们只需将对离散点的求和替换为在连续区间上的积分： $E = \int_a^b (f(x) - p(x))^2 \, dx$ 这就是连续最小二乘问题。无论是对几个点求和还是对一个连续统积分，问题的底层结构都惊人地相似。在这两种情况下，寻找多项式系数的过程都会导出一个称为法方程 (normal equations) 的线性方程组。其精妙之处在于，最小化平方和这一核心思想为离散世界和连续世界提供了统一的语言。

朴素方法的陷阱：龙格的棘手现象

让我们试着将其付诸实践。我们想用一个多项式 $p_n(x) = c_0 + c_1 x + c_2 x^2 + \dots + c_n x^n$ 来逼近一个函数。还有什么比使用这组简单的幂函数基，即单项式 (monomials)，更自然呢？让我们取一个性质优良的钟形函数 $f(x) = \frac{1}{1+25x^2}$ ，定义在区间 $[-1, 1]$ 上。我们的直觉告诉我们，如果我们取越来越多等间距的采样点，并用更高阶的多项式去拟合它们，我们的逼近效果应该会越来越好。

准备好大吃一惊吧。事实并非如此。

随着多项式阶数的增加，逼近在区间中部确实有所改善。但在接近端点 $x=-1$ 和 $x=1$ 的地方，多项式开始出现剧烈的振荡。误差非但没有减小，反而灾难性地增大了！。这种令人惊讶且极其重要的病态现象被称为龙格现象 (Runge phenomenon)。它是一个严厉的警告：在数学中，如同在生活中一样，最显而易见的道路并不总是最好的。我们对单项式基函数的简单、直观的选择，再结合等间距的采样点，已经将我们引入了歧途。

龙格现象。随着拟合龙格函数（蓝色）上等间距点（圆点）的多项式阶数增加，端点附近的误差急剧增大（红色虚线）。

应用与跨学科联系

在探索了最小二乘逼近的原理和机制之后，我们可能感觉自己仿佛置身于数学家的工坊深处，仔细检视着一台强大机器的齿轮与杠杆。但一台机器的优劣取决于它能做什么。现在，我们将驾驭这台精美的引擎，去领略它能够驰骋的各种令人惊叹的领域。你会发现，这个简单的想法——通过最小化误差平方和来找到“最佳”拟合——就像一种通用翻译器，让我们能够从几乎所有人类探究领域的数据嘈杂声中，发现隐藏在其中的简单而优雅的故事。它印证了科学思想深邃的统一性。

工程师的工具箱：优化与预测

让我们从一个精度与性能至上的地方开始：工程世界。想象一下，你是一位正在调校高性能发动机的汽车工程师。你有一系列测量数据：在这个转速下，发动机产生这么多扭矩；在那个转速下，它产生另一个不同的数值。这些数据点在你的图表上形成一团云，因微小而不可避免的测量波动而散乱分布。“最佳点”在哪里？发动机在什么转速下能输出其绝对峰值扭矩？

你的原始数据不会直接告诉你答案；真正的峰值可能位于你的测量点之间。这时，最小二乘法就派上用场了。我们可以让我们的数学机器找到一条最平滑、最简单的多项式曲线，使其尽可能地靠近我们所有的数据点。这条曲线就是我们对转速和扭矩之间真实关系的最佳猜测。一旦我们有了这个平滑函数，寻找最大值就成了一个简单的微积分练习：我们只需找到曲线上斜率为零的点。这个过程让我们能够将一组含噪声的离散测量数据转化为一个强大的预测工具，从而告诉我们达到峰值性能所需的发动机转速。

同样的原理也远远超出了车库的范围。在电信领域，工程师可能会测量通信系统在不同信噪比（SNR）下的误码率（BER）。其目标是预测达到一个非常低的目标误码率（比如十亿比特中只有一个错误）所需的信噪比，而这个值可能很难直接测量。通过对测量到的误码率的对数进行多项式拟合，我们可以创建一个模型，用它来外推和预测系统在这些极端、难以达到的工况下的性能。无论是在发动机还是在通信信道中，最小二乘法都让我们能够进行内插和外推，从现有数据中找到隐藏的最优解或预测未知的未来。

见所未见：从图像到信号

最小二乘法的威力并不仅限于一维曲线。想象一张用不完美的相机或在不均匀的室内光线下拍摄的、本应是纯白墙壁的照片。得到的图像可能中心较亮，边缘较暗。这种不均匀的光照是一种“噪声”，它破坏了真实的场景。我们如何去除它？

我们可以将这种缓慢变化的光照建模为一个平滑的二维曲面——一个低阶的二元多项式 $p(x, y)$ 。图像中的每个像素都为我们提供一个数据点。然后，我们让最小二乘机制去寻找最能拟合观测到的像素强度的多项式曲面。这个曲面就是我们对有缺陷光照的模型。为了校正图像，我们只需从原始照片中“除掉”这个光照场。剩下的是一幅干净、光照均匀的图像，揭示了场景的真实面貌。这种通过拟合和移除背景来“平整化”图像的技术是科学成像的基石，从天文学到显微镜学都是如此。

这种将信号与噪声分离的思想与另一个领域——信号处理——有着深刻的联系。想象一个清晰的音频音调被高频的嘶嘶声和静电噪声所污染。如果我们试图用一个非常灵活的高阶多项式来拟合这个含噪声的信号，它会忠实地扭曲自身，穿过每一个噪声的波峰和波谷。但如果我们使用一个更具约束性的基，比如一个只有少数几个控制点的B样条曲线呢？B样条就像一把灵活的绘图曲线尺，由几个销钉（控制点）固定位置。只有少数几个销钉时，这把尺子根本无法弯曲得足够快来跟随高频噪声的快速振荡。它被迫描绘出一条更平滑的路径，从而捕捉到底层的低频音调。

通过这种方式，最小二乘拟合起到了*低通滤波器*的作用。它让信号的“低频”（缓慢变化）部分通过，同时阻断“高频”（快速变化）的噪声。控制点的数量，或者说多项式的阶数，就像一个控制滤波器截止频率的旋钮：控制点越少，拟合就越平滑，滤波也越激进。

分析师的水晶球：从数据到决策

到目前为止，我们已经使用逼近来建模和清理数据。但我们也可以用它来分类和做决策。让我们走进棒球场。一个现代摄像系统跟踪投出的球，生成一连串坐标来描绘其飞向本垒板的路径。这是一记快球、曲线球还是下沉球？

快球（暂不考虑重力）几乎沿直线运动。曲线球因其路径上类似三次函数的偏离而向侧方偏转，而下沉球则以更像二次函数的运动方式下坠。我们可以用正交多项式来拟合球的轨迹。奇妙的是，这个拟合的系数成了这记投球的指纹。例如，线性项的系数 $c_1$ 告诉我们主要运动方向。二次项的系数 $c_2$ 捕捉了“下沉球式”的偏转，而三次项的系数 $c_3$ 则捕捉了“曲线球式”的偏转。

通过基于这些系数的相对大小定义一个“曲率指数”，例如 $I = \sqrt{c_2^2 + c_3^2} / |c_1|$ ，我们可以建立一个简单的规则：如果 $I$ 很小，就是快球；如果 $I$ 很大且主要由 $c_2$ 决定，就是下沉球；如果 $I$ 很大且主要由 $c_3$ 决定，就是曲线球。我们数学拟合中的抽象系数已经变成了有意义的特征，驱动着一个分类引擎，将原始数据转化为可操作的洞见。

这种从建模到决策的飞跃在许多其他领域也至关重要。在量化金融中，期权的价格取决于标的资产的波动率。这个波动率不是恒定的，它会随时间变化。根据对资产方差的含噪声市场观测数据，我们可以使用最小二乘法和正交多项式来构建一个时变方差的平滑、连续模型。然后，这个多项式模型可以被输入到著名的 Black-Scholes 定价公式中，以计算期权的公允价格。在这里，最小二乘法是一个复杂流程中的关键第一步，而这个流程最终将导向数百万美元的金融决策。

有时，我们的数据本身就是主观的。在食品科学中，我们可能会要求测试对象对不同浓度下新产品的甜度进行评分。这些评分会因人而异。此外，我们可能更相信浓度范围中间的评分，而不是两端的极端值。我们可以通过使用加权最小二乘法来融入这种信念，即为更可靠的数据点分配更高的权重。由此得到的曲线为我们提供了一个关于感知甜度的稳健模型，从而指导产品开发。

更深层的统一：统计学与机器学习

最小二乘法最后一个，或许也是最美妙的应用，是它如何揭示了数学和统计学不同领域之间深刻而出人意料的联系。考虑一个完全不连续的函数：一个指示函数，它在某一点 $c$ 之前处处为零，然后在该点突然跳到一。这是对二元事件最简单的表示。如果我们试图用一组平滑、缓和的函数（比如一系列重叠的高斯钟形函数）来逼近这个陡峭的悬崖，会发生什么？

最小二乘机器一番运算后，产生了一个起初令人惊讶的结果。它当然无法再现那个急剧的跳跃。取而代之的是，它创建了一个从零到一的平滑的S形过渡。事实证明，这条“S形”曲线与逻辑斯谛函数（logistic function）惊人地相似，而后者是逻辑斯谛回归的核心，是所有现代统计学和机器学习中最基本的分类工具之一。用最小二乘法平滑一个不连续点的行为，自发地催生了一个核心统计模型的数学形式！

这把我们带到了所有数据分析中的终极权衡问题上：在拟合我们已有的数据和创建一个能够泛化到我们未见数据的模型之间的取舍。这通常被称为偏差-方差权衡（bias-variance tradeoff）。一个非常复杂、扭曲的模型（高方差）可能完美地拟合我们的训练数据，但在预测新数据点时会表现糟糕。一个非常简单、僵硬的模型（高偏差）会很稳定，但可能会忽略底层的趋势。

最小二乘法为我们提供了一种直接控制这种权衡的方法。我们不再仅仅最小化误差 $\sum(y_i - f(x_i))^2$ ，而是可以增加一个对扭曲度的惩罚项。一种常见的方法是惩罚我们基中高阶多项式系数的大小。完整的优化目标变成最小化： $\sum_{i=1}^N \left(y_i - f(x_i)\right)^2 + \lambda \sum_{k=0}^n k^4 c_k^2$ 在这里， $\lambda$ 是一个我们可以调整的“平滑参数”。如果 $\lambda=0$ ，我们就得到标准的、可能很剧烈的最小二乘拟合。随着我们增加 $\lambda$ ，我们越来越惩罚模型使用高阶项（即 $k$ 很大时），迫使它变得更平滑。这种方法是吉洪诺夫正则化（Tikhonov regularization）的一种形式，是平滑样条的精髓所在。

而在最后一个令人叹为观止的联系中，这种增加惩罚项的实用技巧有着深刻的理论依据。这个惩罚项，在实践中通常选择为二阶导数平方积分 $\int (f''(t))^2 dt$ 的近似，它恰好是函数在一个被称为再生核希尔伯特空间（Reproducing Kernel Hilbert Space, RKHS）的特殊、抽象函数空间中的范数的平方。因此，这个为防止过拟合而提出的特设工程解决方案，被揭示为泛函分析中深层原理的一个优雅应用。

从优化发动机到分类棒球球路，从净化图像到为衍生品定价，再到揭示机器学习的基础，最小二乘原理展示了其“不合理的有效性”。它是一个简单、优雅而强大的思想，就像一把万能钥匙，开启了横跨广阔多样的科学与工程领域的洞见。