最小二乘问题

玻尔百科

核心要点

最小二乘法通过最小化误差（残差）的平方和，为超定方程组提供最佳拟合解。
从几何上看，最小二乘解对应于观测向量在模型矩阵列空间上的正交投影。
正规方程 $A^T A \mathbf{x} = A^T \mathbf{b}$ 提供了一种代数解，但可能存在数值不稳定性，因为它会使系统的条件数平方。
QR分解是一种数值上更稳健的方法，它在求解最小二乘问题时无需显式构造有问题的 $A^T A$ 矩阵。

引言

在科学与工程领域，数据很少是完美的。我们经常面对包含比未知参数更多的观测值的测量数据集合，而这些受噪声和误差污染的观测数据会相互矛盾。这就产生了一个超定系统，其中没有任何单一解能完美满足所有数据。那么，我们如何从这个充满噪声的现实中提取一个有意义的答案呢？最小二乘法解决了这一基本挑战，它是一个强大而优雅的框架，用于寻找“最佳可能”的近似解。本文深入探讨了最小二乘问题的核心。第一章“原理与机制”将揭示该方法的数学和几何基础，从最初通过最小化平方误差来寻求折衷，到正规方程的推导，再到QR分解的卓越稳定性。随后，“应用与跨学科联系”一章将展示最小二乘法惊人的通用性，阐明这一单一原理如何成为从数据分析、图像处理到行星科学和演化生物学等领域的主力工具。

原理与机制

想象一下，您是19世纪初的一位天文学家，正在追踪一颗新发现的彗星。您在不同的夜晚对其位置进行了数次观测。您的目标是确定其轨道——比如说，一条简单的抛物线——来预测它下周的位置。您有一个优美的数学模型，也许是 $y(t) = c_0 + c_1 t + c_2 t^2$ 这样的形式，其中 $y$ 是彗星的位置， $t$ 是时间。您有三个未知系数（ $c_0, c_1, c_2$ ）来定义这条唯一的抛物线。

您可能会想：“简单！三个未知数，所以我只需要三次观测。”您进行测量，将数据代入方程，然后解出系数。但是等等，作为一位严谨的科学家，您进行了第四次测量，然后是第五次、第六次。当您将这些新数据点代入您精心计算出的轨道时，它们并不完全吻合。您的方程开始相互矛盾。一次测量表明 $c_0 + c_1(1) + c_2(1)^2 = 5.0$ ，而另一次则坚称 $c_0 + c_1(4) + c_2(4)^2 = 3.0$ 。这是实验科学家面临的经典困境：现实世界充满了不可避免的测量误差和不完美的模型，它是一个超定（overdetermined）系统。您的方程（观测）数量多于未知数（参数），而且它们相互矛盾。根本不存在一条能精确穿过所有数据点的抛物线。这是否意味着您的探索注定失败？您要放弃吗？

当然不是！就在此时，Carl Friedrich Gauss（以及独立研究的 Adrien-Marie Legendre）的天才思想登场了。他们提出了一个更深刻的问题：如果我们找不到一个完美的解，那么我们能否找到一个在某种意义上是最佳可能的折衷方案呢？

最小二乘折衷：寻找“最佳”答案

一个解是“最佳”的，这意味着什么？我们需要一种方法来衡量总误差。对于我们的每一次测量 $(t_i, y_i)$ ，我们的模型预测一个值 $p(t_i)$ 。其差值 $r_i = p(t_i) - y_i$ 就是该点的误差，或称残差（residual）。我们希望让所有这些残差都变小。我们可以尝试使其总和为零，但这是一个坏主意——一个大的正误差可能会抵消一个大的负误差，给我们造成完美拟合的错觉。

优雅的解决方案是通过对误差进行平方来消除符号。最小二乘（least squares）的指导原则是：最佳拟合模型是使残差平方和最小化的模型。我们寻求最小化量 $S = \sum_{i} r_i^2 = \sum_{i} (p(t_i) - y_i)^2$ 。

这个选择并非任意，它具有绝佳的数学性质。最小化平方和是一个平滑问题，可以用微积分完美处理。此外，该标准对大误差的惩罚远重于小误差（因为2的平方是4，而10的平方是100），因此它会促使解避开大的偏差。

如果我们将方程组写成矩阵形式 $A\mathbf{x} \approx \mathbf{b}$ ，其中 $\mathbf{x}$ 是未知参数向量（如 $(c_0, c_1, c_2)^T$ ）， $A$ 是由我们的时间测量值构成的矩阵， $\mathbf{b}$ 是观测到的位置向量，那么残差向量就是 $\mathbf{r} = A\mathbf{x} - \mathbf{b}$ 。残差平方和就是这个残差向量的欧几里得长度的平方，即 $\|\mathbf{r}\|_2^2 = \|A\mathbf{x} - \mathbf{b}\|_2^2$ 。整个问题可以归结为找到使这个长度尽可能小的向量 $\mathbf{x}$ 。

几何视角：真理之影

为了真正理解发生了什么，让我们从代数中抽身，审视一下几何。表达式 $A\mathbf{x}$ 代表矩阵 $A$ 的列的线性组合。当我们尝试所有可能的向量 $\mathbf{x}$ 时，得到的向量 $A\mathbf{x}$ 会在我们高维的观测空间中描绘出一个子空间。这个子空间被称为 $A$ 的列空间（column space），我们称之为 $\text{Col}(A)$ 。可以把它想象成三维房间里的一张平整的纸（一个平面）。

我们的实际测量向量 $\mathbf{b}$ 是这个房间中的一个点。如果存在完美解， $\mathbf{b}$ 就会位于这张纸上。但我们面对的是一个超定系统，我们的 $\mathbf{b}$ 漂浮在纸外某处。我们试图找到在纸上且离 $\mathbf{b}$ 最近的向量 $\mathbf{p} = A\mathbf{x}$ 。

一个平面外的一点到该平面的最近点是什么？您的直觉是正确的：从该点向平面作一条垂线。垂足就是正交投影（orthogonal projection）。最小二乘解正是如此！我们寻求的向量 $\mathbf{x}^*$ 使得 $A\mathbf{x}^*$ 是 $\mathbf{b}$ 在矩阵 $A$ 的列空间上的正交投影。残差向量 $\mathbf{r} = \mathbf{b} - A\mathbf{x}^*$ 就是连接 $\mathbf{b}$ 与其在平面上的“影子”的那条垂直线段。

投影的机制：推导正规方程

这种几何洞察力为我们解决问题提供了一个强大的工具。如果残差向量 $\mathbf{b} - A\mathbf{x}^*$ 与 $A$ 的整个列空间正交，那么它必然与 $A$ 的每一列都正交。用线性代数的语言来说， $\mathbf{b} - A\mathbf{x}^*$ 与 $A$ 的每一列的点积都必须为零。

利用 $A$ 的转置（记作 $A^T$ ），我们可以将这个对所有列都成立的条件以一种极为紧凑的形式写出。 $A^T$ 的行就是 $A$ 的列。正交条件变为： $A^T (\mathbf{b} - A\mathbf{x}^*) = \mathbf{0}$ 稍作整理，我们便得到著名的正规方程（normal equations）： $A^T A \mathbf{x}^* = A^T \mathbf{b}$ 看看发生了什么！我们从一个不一致、不可解的系统 $A\mathbf{x} \approx \mathbf{b}$ 出发，其中 $A$ 可能是一个“高瘦”的 $m \times n$ 矩阵（例如，100次观测对应3个参数）。通过简单地在两边左乘 $A^T$ ，我们将其转换成了一个完全规范、可解的方阵系统。新矩阵 $A^T A$ 是一个小的 $n \times n$ 矩阵（在我们的例子中是一个 $3 \times 3$ 矩阵），而 $A^T \mathbf{b}$ 是一个小的 $n \times 1$ 向量。我们现在可以使用求解线性方程组的标准方法来解出 $\mathbf{x}^*$ 。这就是最小二乘拟合的核心引擎。

名目之内涵：“线性”的意义

一个经常引起混淆的地方是线性最小二乘（linear least squares）中的“线性”一词。这是否意味着我们只能拟合直线？绝对不是。“线性”指的是未知参数 $\mathbf{c} = (c_1, \dots, c_k)$ 在模型中出现的方式。如果模型函数 $f(x; \mathbf{c})$ 是参数的线性组合，那么这个问题就是一个线性最小二乘问题。也就是说，它必须具有以下形式： $f(x; \mathbf{c}) = c_1 g_1(x) + c_2 g_2(x) + \dots + c_k g_k(x)$ $g_j(x)$ 函数可以是任何你喜欢的形式——它们不必须是关于 $x$ 的线性函数！它们可以是多项式（ $x^2, x^3$ ）、三角函数（ $\sin(2\pi x)$ ）、对数函数（ $\ln(x)$ ）或自变量 $x$ 的任何其他函数。只要未知系数 $c_j$ 仅作为简单的乘数，由此产生的优化问题就是一个线性最小二乘问题，而正规方程对于这些系数来说将是一个线性方程组。

例如，拟合像 $f(x) = c_1 \sin(2\pi x) + c_2 \cos(2\pi x)$ 这样的模型是一个线性最小二乘问题。然而，尝试拟合 $f(x) = c_1 \exp(-c_2 x)$ 则不是，因为参数 $c_2$ 位于指数函数内部，使得模型在参数上是非线性的。此类问题求解难度大得多，属于非线性最小二乘的范畴。

“最佳”答案是唯一的吗？

我们已经建立了正规方程这个精良的机制，它为我们提供了最佳解的候选方案。但它总是能给我们一个单一、明确的答案吗？正规方程 $A^T A \mathbf{x} = A^T \mathbf{b}$ 构成一个方形线性系统。根据基础线性代数，我们知道这样的系统有唯一解，当且仅当矩阵 $A^T A$ 是可逆的。

因此，关键问题就变成了： $A^T A$ 何时可逆？答案十分漂亮： $A^T A$ 可逆，当且仅当原始矩阵 $A$ 的列是线性无关的。在数据拟合的背景下，这有一个非常直观的意义。它意味着我们选择的基函数 $g_j(x)$ 中没有冗余的。例如，如果我们尝试拟合像 $y=c_1 x + c_2 (2x)$ 这样的模型，就会遇到问题。我们矩阵 $A$ 中对应这两项的列将是线性相关的（一列是另一列的两倍）。模型无法区分 $c_1$ 和 $c_2$ 的效果；无数种组合都可以产生相同的拟合结果。为了确保唯一解，我们必须选择彼此之间有本质区别的基函数。

数字陷阱：平方的危险

到目前为止，我们的旅程一直处于抽象数学的纯净、完美世界中。但当我们在计算机上实现它时，就进入了有限精度运算的混乱世界中。在这里，一个微妙的陷阱在等待着我们。正规方程法虽然理论上很优雅，但在数值上可能是不稳定的。

考虑矩阵的条件数 $\kappa(A)$ ，它衡量了一个系统 $A\mathbf{x}=\mathbf{b}$ 的解对数据中微小误差的敏感程度。大的条件数意味着问题是“病态的”或“不稳定的”——计算过程中的微小舍入误差可能会被放大成最终答案中的巨大误差。现在，关键事实来了：正规方程中矩阵的条件数与原始矩阵条件数的关系如下： $\kappa(A^T A) = (\kappa(A))^2$ 构造 $A^T A$ 的行为会使条件数平方！如果 $A$ 本身已经有点不稳定，比如说 $\kappa(A) = 10^4$ ，那么矩阵 $A^T A$ 将会变得极其不稳定，其条件数为 $\kappa(A^T A) = 10^8$ 。信息可能会发生灾难性的丢失。

想象一个矩阵 $A$ ，它的列几乎线性相关，但又不完全是。在完美的数学世界里， $A^TA$ 是可逆的。但在精度有限的计算机上，计算 $A^TA$ 可能涉及将一个非常小的数与一个大得多的数相加，导致这个小数因舍入而完全丢失。计算出的 $A^TA$ 版本最终可能恰好是奇异的，从而使系统无法求解。例如，如果两列几乎平行，它们的点积将非常接近它们模的乘积。计算出的矩阵 $B=A^TA$ 可能成为 $\begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}$ ，其行列式为零，即使真实矩阵的行列式是一个微小但非零的数。正规方程，尽管概念上很美，却可能将我们直接带入数值悬崖。

一条更稳健的路径：QR分解的优雅

我们必须放弃对最佳拟合的追求吗？不，我们只需要一条更好的路径——一条完全避免构造危险的 $A^T A$ 矩阵的路径。这就是QR分解（QR factorization）的作用，它是数值线性代数的基石。

其思想是将我们的原始矩阵 $A$ 分解为两个特殊矩阵的乘积： $A = QR$ 。这里， $Q$ 是一个正交矩阵，意味着它的列是相互垂直的单位向量（ $Q^T Q = I$ ）。从几何上看，乘以 $Q$ 就像一次纯粹的旋转；它不会拉伸或扭曲空间。 $R$ 是一个上三角矩阵，处理起来非常容易。

现在，让我们将这个分解代入我们最初的最小化问题。我们希望最小化 $\|A\mathbf{x} - \mathbf{b}\|_2^2 = \|QR\mathbf{x} - \mathbf{b}\|_2^2$ 。由于旋转不改变长度，我们可以将范数内的向量乘以 $Q^T$ 而不改变其值： $\|A\mathbf{x} - \mathbf{b}\|_2^2 = \|Q^T(QR\mathbf{x} - \mathbf{b})\|_2^2 = \|(Q^T Q)R\mathbf{x} - Q^T\mathbf{b}\|_2^2 = \|R\mathbf{x} - Q^T\mathbf{b}\|_2^2$ 问题被转化了！我们现在不再需要解病态的正规方程，而只需为具有更优良性质的矩阵 $R$ 的系统求解最小二乘问题。因为 $R$ 是上三角矩阵，所以可以使用一种称为回代的过程轻松而稳健地求解。

真正的魔力在于， $R$ 的条件数与我们原始矩阵 $A$ 的条件数相同。我们完全避开了条件数的平方！ QR方法处理的是同一个问题，但它沿着一条更稳定的计算路径，通往同一个几何目的地——那个投影，那个真理之影。这是一个绝佳的例子，说明了对数学结构的更深层次理解如何引导我们设计出不仅理论上正确，而且在实践中稳健可靠的算法。

应用与跨学科联系

现在我们已经探讨了最小二乘的原理，您可能会想：“这是一个聪明的数学技巧，一个巧妙的几何学应用，但它究竟有什么用处？”这是对科学中任何思想能提出的最重要的问题。对这个问题的回答是令人愉快且惊奇的。最小二乘法不仅仅是一个工具；它是一种通用的语言，用于在一个充满不确定性、噪声和不完整信息的世界中导航。它是一系列惊人科学发现和技术奇迹背后的主力军。

让我们开启一段旅程，从简单的过点画线，到解读遥远行星的矿物成分，看看这一个单一而优雅的原理是如何提供关键的。

科学侦探：揭示自然法则

从本质上讲，科学是一种侦探工作。我们收集线索——我们的实验数据——这些数据几乎总是被测量误差和随机波动所污染。我们的任务是推断出潜在的规律，即隐藏在含噪数据中的干净信号。这正是最小二乘法开始其工作的地方。

想象一下，您有一组似乎遵循某种趋势的数据点。最基本的模型是一条直线。但您如何画出那条最佳的直线？那条能公正地代表数据，而不被任何单个异常点所偏倚的直线？最小二乘法通过以一种民主的方式定义“最佳”来给出答案：最佳直线是使每个点到该直线的垂直距离的平方总和最小化的那条线。

这个简单的定义带来了令人惊讶的优美结果。例如，如果您有一组关于某个中心点完全对称的数据点，常识可能会告诉您最佳拟合线应该穿过那个对称中心。事实的确如此！最小二乘的数学严谨地证实了这一直觉，表明最优解必须尊重数据中固有的对称性。这不仅仅是一个数值上的巧合；它反映了几何学和统计估计之间深层次的和谐。

但自然法则并非总是如此简单。科学中的许多关系遵循幂律，形式为 $y = c x^a$ 。想想开普勒行星运动定律或动物新陈代谢率与其体重的关系。乍一看，这样的曲线似乎与我们简单的直线相去甚远。

在这里，一点数学上的巧思就能转化这个问题。如果我们对幂律方程两边取自然对数，我们得到：

\ln(y) = \ln(c) + a \ln(x)

看！如果我们绘制一个新图，不是 $y$ 对 $x$ 的图，而是 $\ln(y)$ 对 $\ln(x)$ 的图，关系就变成了线性的。我们复杂的曲线被拉直了。我们现在可以使用我们可靠的最小二乘法来找到这个新的“对数-对数”世界中的最佳拟合线，并从中轻松恢复原始参数 $a$ 和 $c$ 。这种强大的线性化技术无处不在，从先进制造过程中刀具磨损的建模，到物理学和生物学中标度律的分析。这是一个绝佳的例子，说明了视角的改变如何能将一个难题变成一个简单的问题。

工程改造世界：从模糊图像到新材料

如果说数据拟合是为了揭示事物本来的面貌，那么工程学就是为了创造可能存在的事物。在这方面，最小二乘法同样是不可或缺的伙伴。

思考一下您屏幕上的照片。如果它因为相机在曝光期间移动而变得模糊怎么办？这种运动模糊本质上是将每个像素与其邻近像素进行平均的过程。这种“卷积”是一种线性操作。要对图像进行“去模糊”处理，我们需要解决一个逆问题：给定模糊的输出，原始的清晰输入是什么？这可以被表述为一个庞大的线性方程组，每个像素对应一个方程。这是一个压倒性的超定系统，充满了来自相机传感器的噪声。解决这个问题的完美工具是什么？最小二乘法！通过最小化平方误差，我们可以找到最 plausible 的清晰图像，该图像在模糊化后会产生我们所看到的照片。这一原理正是现代计算摄影、医学成像和音频处理的核心，在这些领域，我们不断需要对信号进行去噪、去模糊和去混响，以重建更清晰的现实图景。

当我们为更复杂的耦合系统建模时，最小二乘框架的灵活性真正得以展现。想象一下，您正在设计一种新的复合材料，理论表明其两种属性应随温度线性增加，并且——至关重要的是——它们必须以完全相同的速率增加。我们不再是拟合两条独立的直线，而是在拟合两条具有共同约束的直线。最小二乘法能处理这种情况吗？轻而易举！我们只需构建一个更大的单一方程组，它包含了我们所有的数据和所有约束，然后同时求解所有参数——两个不同的截距和一个共同的斜率。构建和解决这类定制模型的能力，使最小二乘法成为现代计算工程的基石。

也许这类分析最激动人心的前沿之一是在行星科学领域。当卫星观测像火星这样的行星时，其高光谱相机测量从地表反射的光谱。这个光谱是地面上不同矿物光谱的混合。地质学家迫切想知道：这片土地是由什么构成的？是30%的赤铁矿，50%的橄榄石，和20%的辉石吗？这个“光谱解混”问题是最小二乘法的又一个完美应用场景。观测到的光谱被建模为已知候选矿物（“端元”）光谱的线性组合。我们求解能够最佳重建观测信号的混合分数。

这个应用也迫使我们面对更高级、更真实的挑战。如果两种矿物的光谱非常相似，导致系统“病态”且解不稳定，该怎么办？我们可以加入少量的*吉洪诺夫正则化*，它对“过于离谱”的解施加惩罚，从而温和地引导算法找到一个物理上更合理的答案。那么矿物分数不能为负数这一事实又该如何处理？我们可以采用一种简单实用的策略：首先解决无约束问题，然后将任何负分数裁剪为零，并重新归一化结果，使其总和为一。这些扩展展示了基本的最小二乘框架如何被增强，以解决极其复杂和重要的现实世界推断问题。

一种通用的数据语言

到目前为止，我们已经将最小二乘法视为拟合直线和求解方程组的工具。但它的影响远不止于此，它构成了现代科学广阔领域的概念和计算基石。它的力量在于其适应性。其核心思想——最小化平方差之和——可以被深刻地推广。

试想一位生物学家正在研究数百种哺乳动物的奔跑速度和体重的演化。一个简单的普通最小二乘（OLS）回归可能会显示出相关性。但这里有一个隐藏的陷阱：亲缘关系密切的物种，例如狮子和老虎，并非独立的数据点。它们从共同的近代祖先那里继承了许多性状。OLS回归的基本假设是所有数据点都是独立的。在这里天真地应用它，会犯下严重的统计错误。

解决方案不是放弃回归，而是将其推广。系统发育广义最小二乘法（PGLS）正是为此而发明的。它修正了被最小化的“距离”，用一种更复杂的、考虑了进化树分支结构的距离取代了OLS的简单欧几里得距离。在进化树上亲缘关系较近的物种在回归中被认为“更近”，它们的相似性也得到了适当的考虑。这种进化理论与统计学的精妙融合，使我们能够正确地检验关于整个生命树上适应性演化的假说。

这种根据问题调整方法的思想是一个反复出现的主题。在许多领域，如化学，研究人员处理的数据变量数量巨大且高度相关——例如，光谱仪在数千个波长下的吸光度值。一种名为偏最小二乘（PLS）的方法就是为了处理这种情况而开发的。PLS不是将响应变量对所有原始变量进行回归，而是首先找到几个最能预测响应变量的潜在“潜在变量”——即原始预测变量的组合——然后基于这些潜在变量建立模型。它寻求一种折衷，既对预测变量的变化进行建模，也对它们与结果的关系进行建模。

这种适应性的终极体现可能是在广义线性模型（GLM）的领域。如果我们想预测一个必须介于0和1之间的概率怎么办？或者必须是非负整数的计数数据？简单的线性模型行不通。GLM为这些问题提供了一个框架，使用“连接函数”将线性预测器与我们变量的均值联系起来。但我们如何拟合这些复杂得多的模型呢？答案出人意料地又将我们带回了原点。最常见的算法——迭代重加权最小二乘法（IRLS）——通过处理一系列加权最小二乘问题来解决该问题。在每一步，它创建一个临时的“工作响应”变量并计算一组新的权重，然后解决一个标准的加权最小二乘（WLS）问题。这个简单问题的解成为下一次迭代的改进猜测值。

想一想这意味着什么：即使面对复杂的非线性统计模型，我们用来解决最小二乘问题的这个高效而稳健的算法，仍然是驱动优化的引擎。

从画线到去模糊图像，从设计材料到解码基因组和探索行星，最小二乘法是一条金线。它证明了一个简单、优雅的数学思想所具有的力量，能够统一我们的理解，并增强我们理解这个复杂、嘈杂而又美丽宇宙的能力。