最小二乘问题

玻尔百科

核心要点

最小二乘法通过寻找使平方误差最小化的解 $\hat{\mathbf{x}}$ 来求解超定系统，这在几何上对应于将数据向量投影到模型的列空间上。
正规方程 ( $A^T A \hat{\mathbf{x}} = A^T \mathbf{b}$ ) 提供了一个直接的代数解，但其数值上不稳定，因为它会使问题的条件数平方化。
QR 分解和奇异值分解 (SVD) 等方法通过避免构造 $A^TA$ 来提供数值稳定的解，其中 SVD 是处理病态或秩亏问题最稳健的方法。
最小二乘原理是一个基础性概念，其应用远超曲线拟合，涵盖了机器学习、推荐系统以及通过卡尔曼滤波器进行导航中的状态估计等领域。

引言

在几乎每一个科学和工程领域，我们都面临一个共同的挑战：从充满噪声的数据中提取清晰的信号。无论是追踪行星、模拟生物过程，还是分析市场趋势，我们的测量数据很少是完美的，而且我们拥有的数据量往往远超理论模型中的参数数量。这导致了超定方程组——即没有精确解的方程组。于是，核心问题变成了：如果完美的拟合不可能，那么“最佳可能”的拟合是什么？最小二乘问题理论正是为了弥合这种对精确答案的渴望与混乱数据现实之间的鸿沟，提供了一个强大而优雅的解决方案。

本文旨在探索最小二乘背后的基本概念，将一个直观的问题转化为一个精确的数学框架。文章的结构将引导您从基础理论走向其强大的实际应用。第一部分“原理与机制”，将剖析最小二乘作为一种投影的几何之美，推导出著名的正规方程，并直面数值不稳定性的实际风险，从而引出更稳健的算法。随后，“应用与跨学科联系”部分将展示该方法非凡的通用性，说明同一核心思想如何赋能从曲线拟合、机器学习到航天器导航等各种应用。

原理与机制

最佳拟合问题

想象一下，你是一名工程师，正在追踪一个在空中飞行的小物体。你已经收集了它在不同时间的几个高度数据点，但由于气流或测量设备的不完善，测量结果有些噪声。你心中有一个理论模型，也许是一个简单的二次方程，如 $y(t) = c_0 + c_1 t + c_2 t^2$ ，但你不知道系数 $c_0, c_1, c_2$ 的值。你的任务是找到能够“最佳”描述该物体飞行轨迹的系数。

如果你恰好有三个数据点，你可以尝试找到一条精确穿过所有这些点的二次曲线。这将给你一个包含三个未知数的三个线性方程组。但是，当你拥有四个、五个或一百个数据点时会发生什么？你将有一百个方程，但仍然只有三个未知系数。这就是一个超定系统。除非你运气极好，所有数据点都完美地落在一条二次曲线上，否则根本不可能找到一组 $c_0, c_1, c_2$ 能同时满足所有方程。对于系统 $A\mathbf{x} = \mathbf{b}$ ，其中 $\mathbf{x} = \begin{pmatrix} c_0 \\ c_1 \\ c_2 \end{pmatrix}$ ，该系统无解。

那么，我们该怎么做呢？我们放弃追求完美。我们不再要求精确拟合，而是寻找一个“足够好”的拟合——或者更进一步，寻找“最佳可能”的拟合。这需要我们定义“最佳”的含义。一个非常有效且在数学上优美的想法是，找到使误差平方和最小化的系数。对于每个数据点 $(t_i, y_i)$ ，误差或残差是模型预测值 $p(t_i) = c_0 + c_1 t_i + c_2 t_i^2$ 与实际测量值 $y_i$ 之间的垂直距离。我们希望最小化总平方误差：

$\sum_{i=1}^{m} (y_i - p(t_i))^2$

如果我们将测量值汇集成一个向量 $\mathbf{b}$ ，将模型的预测值汇集成一个向量 $A\mathbf{x}$ ，那么这个平方和正是残差向量 $\mathbf{r} = \mathbf{b} - A\mathbf{x}$ 长度的平方。用线性代数的语言来说，我们试图解决的是最小二乘问题：

$\min_{\mathbf{x}} \|\mathbf{b} - A\mathbf{x}\|_2$

这种方法旨在寻找使 $A\mathbf{x}$ 与 $\mathbf{b}$ 尽可能接近的向量 $\mathbf{x}$ 。这是一种妥协，但它是在欧几里得意义下的最佳妥协。

理解是什么使其成为一个线性最小二乘问题至关重要。这并非因为模型函数是一条直线（我们的例子是一个抛物线！）。而是因为模型在其参数上是线性的。我们的模型 $y = c_1 x + c_2 x^2$ 是未知系数 $c_1$ 和 $c_2$ 的一个线性组合。相比之下，像 $y = c_1 (x - c_2)^2$ 这样的模型是非线性的，因为参数 $c_2$ 被平方并与 $c_1$ 相乘。这个看似微小的变化使得问题在求解上变得异常复杂。在接下来的讨论中，我们将专注于线性最小二乘这个优雅的世界。

解的几何学

最小二乘问题的真正美妙之处并非通过代数揭示，而是通过几何。让我们思考一下矩阵 $A$ 。乘积 $A\mathbf{x}$ 是 $A$ 的列向量的一个线性组合。当我们尝试所有可能的系数向量 $\mathbf{x}$ 时，得到的向量 $A\mathbf{x}$ 在我们的数据所在的高维空间中描绘出一个子空间。这个子空间被称为 $A$ 的列空间或值域，记作 $\operatorname{range}(A)$ 。你可以把它想象成我们模型的“可能性宇宙”——它包含了我们模型可能做出的所有预测。

现在，想象一下我们的观测向量 $\mathbf{b}$ 。如果存在一个完美解， $\mathbf{b}$ 将位于 $\operatorname{range}(A)$ 内部。但我们已经确定，在一个超定系统中，它几乎肯定不在其中。我们的数据向量 $\mathbf{b}$ 漂浮在我们模型宇宙之外的某个地方。

最小二乘问题 $\min \|\mathbf{b} - A\mathbf{x}\|_2$ 现在有了一个惊人地简单的几何解释：在子空间 $\operatorname{range}(A)$ 中找到离点 $\mathbf{b}$ 最近的点。

如何在一个平面上找到离其上方一个点最近的点？你作一条垂线！这个点，即 $\mathbf{b}$ 在子空间上的“影子”，就是它的正交投影。我们称这个投影为 $\hat{\mathbf{b}}$ 。这个 $\hat{\mathbf{b}}$ 是我们的模型能够产生的对 $\mathbf{b}$ 的最佳近似。

连接 $\mathbf{b}$ 与其投影 $\hat{\mathbf{b}}$ 的向量是残差向量 $\mathbf{r} = \mathbf{b} - \hat{\mathbf{b}}$ 。根据正交投影的定义，这个残差向量必须与整个子空间 $\operatorname{range}(A)$ 正交（垂直）。这是最小二乘的基石，即正交性原理。它告诉我们，对于最佳拟合解，误差不仅小，而且在一种非常特定的方式上与模型的预测不相关。

寻找神奇参数：正规方程

这种几何洞察为我们提供了一个强大的代数工具。如果残差向量 $\mathbf{r} = \mathbf{b} - A\hat{\mathbf{x}}$ 必须与 $A$ 的整个列空间正交，那么它必须与 $A$ 的每一个列向量都正交。我们可以利用 $A$ 的转置一次性表达这个对所有列向量都成立的条件：

$A^T \mathbf{r} = \mathbf{0}$

代入 $\mathbf{r} = \mathbf{b} - A\hat{\mathbf{x}}$ ，我们得到：

$A^T (\mathbf{b} - A\hat{\mathbf{x}}) = \mathbf{0}$

稍作整理，我们便得到了著名的正规方程：

$A^T A \hat{\mathbf{x}} = A^T \mathbf{b}$

我们已经将一个无解的长方系统 $A\mathbf{x}=\mathbf{b}$ 转化为了一个可解的方阵系统。因为正交投影总是存在且唯一的，我们知道最小二乘解 $\hat{\mathbf{x}}$ 必定存在。

但解 $\hat{\mathbf{x}}$ 是唯一的吗？这取决于矩阵 $A^TA$ 。如果我们原始矩阵 $A$ 的列是线性无关的（意味着没有哪个列可以表示为其他列的组合），那么矩阵 $A^TA$ 将是可逆的，我们可以找到一个唯一的解： $\hat{\mathbf{x}} = (A^TA)^{-1}A^T\mathbf{b}$ 。在大多数良构的拟合问题中，情况就是如此。

然而，如果 $A$ 的列是线性相关的（矩阵是秩亏的），那么 $A^TA$ 是奇异的且不可逆。在这种情况下， $\hat{\mathbf{x}}$ 有无穷多个解！如果你找到了一个特解 $\hat{\mathbf{x}}_p$ ，那么任何形式为 $\hat{\mathbf{x}}_p + \mathbf{z}$ 的向量，其中 $\mathbf{z}$ 是 $A$ 的零空间中的任意向量（即 $A\mathbf{z} = \mathbf{0}$ ），也是一个完美的最小二乘解。所有解的集合构成一条直线、一个平面或一个更高维的仿射空间。但这里有一个奇妙的事实：尽管系数 $\hat{\mathbf{x}}$ 有无穷多个解，它们都产生完全相同的最佳拟合向量。投影 $\hat{\mathbf{b}} = A\hat{\mathbf{x}}$ 是唯一的，即使产生它的系数不是唯一的。

现实的风险：数值不稳定性

正规方程看起来是数学上的一大胜利——确实如此。但在有限精度计算机的世界里，它们隐藏着一个黑暗的秘密。让我们考虑一个实验，我们在非常接近的时间点测量一个量，比如 $t=100.0, 101.0, 102.0$ 。如果我们拟合一条直线 $y = c_0 + c_1 t$ ，我们的矩阵 $A$ 的列将是 $\begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix}$ 和 $\begin{pmatrix} 100 \\ 101 \\ 102 \end{pmatrix}$ 。这两个向量几乎指向同一个方向；它们几乎是线性相关的。这样的矩阵 $A$ 被称为病态的。

当我们构造矩阵 $A^TA$ 时，这种病态性会变得更加严重。衡量这一点的一个指标是条件数 $\kappa(A)$ ，你可以将其视为一个“不稳定性放大器”。它告诉你，对于输入数据 $\mathbf{b}$ 的微小扰动，解 $\mathbf{x}$ 可能会发生多大的变化。一个大的条件数意味着你的问题很敏感，微小的计算机舍入误差可能导致最终答案出现巨大的误差。

一个毁灭性的数学事实是，正规方程矩阵的条件数是原始矩阵条件数的平方：

$\kappa(A^T A) = (\kappa(A))^2$ 因此，如果你的原始矩阵已经有些不稳定，比如 $\kappa(A) = 10,000$ ，那么你实际需要求解的矩阵 $A^TA$ 将会极其不稳定，其条件数 $\kappa(A^TA) = 100,000,000$ 。对于上面那个简单的时间序列例子， $A^TA$ 的条件数是一个惊人的 $1.561 \times 10^8$ 。直接求解正规方程就像用一只颤抖的手做手术——这是灾难的根源。

一条更优雅的路径：正交化与SVD

那么，我们如何才能在不造成这种灾难性精度损失的情况下求解最小二乘问题呢？关键是避免构造 $A^TA$ ，而是更直接地利用该问题优雅的几何性质。

QR分解

矩阵 $A$ 的列的问题在于它们可能构成其列空间的一个“坏”基——它们可能几乎平行。QR 分解是一个过程（类似于 Gram-Schmidt 过程），它接收 $A$ 的列，并找到一个等价的标准正交基——一组完全垂直、单位长度的向量，它们张成完全相同的子空间。这种分解将 $A$ 写成 $A=QR$ ，其中 $Q$ 是一个矩阵，其列是这个优良的新标准正交基，而 $R$ 是一个上三角矩阵，记录了旧基与新基的关系。

由于 $Q$ 的列是 $\operatorname{range}(A)$ 的一个标准正交基， $\mathbf{b}$ 在这个空间上的投影可以很容易地写成 $\hat{\mathbf{b}} = QQ^T\mathbf{b}$ 。最小二乘问题就变成了求解 $A\hat{\mathbf{x}} = QR\hat{\mathbf{x}} = QQ^T\mathbf{b}$ 。通过在左侧乘以 $Q^T$ 并利用 $Q^TQ=I$ 这一事实，问题可以漂亮地简化为：

$R\hat{\mathbf{x}} = Q^T\mathbf{b}$

这是一个简单的三角系统，很容易就能解出 $\hat{\mathbf{x}}$ 。向量 $Q^T\mathbf{b}$ 有一个可爱的几何意义：它的分量是投影 $\hat{\mathbf{b}}$ 在我们这个崭新的、纯净的标准正交基中的坐标。最重要的是， $R$ 的条件数与原始矩阵 $A$ 相同，即 $\kappa(R) = \kappa(A)$ 。我们完全绕开了条件数的平方问题。

奇异值分解 (SVD)

如果说 QR 分解是熟练工匠的工具，那么奇异值分解 (SVD) 就是线性代数的终极万能钥匙。它提供了对一个矩阵最深刻的洞察。SVD 将任何矩阵 $A$ 分解为另外三个矩阵： $A = U\Sigma V^T$ 。在这里， $U$ 和 $V$ 是正交矩阵，它们的列为与 $A$ 相关的四个基本子空间提供了完美的标准正交基。矩阵 $\Sigma$ 是对角矩阵，其对角线上的元素，即奇异值，告诉你空间中每个维度的“强度”或“重要性”。

对于最小二乘问题，SVD 是完美的工具。它通过计算非零奇异值的数量来告诉你矩阵的真实秩。它能优雅地处理秩亏问题。最美妙的是，它直接给你解。对于存在无限多解的秩亏问题，SVD 会自动给出那个“最自然”的解：即长度最小的解向量 $\hat{\mathbf{x}}$ 。这被称为最小范数解。

在实践中，SVD 的威力在于其稳健性。当一个奇异值极小（但由于浮点误差不完全为零）时，我们可以通过设置一个容差将其视为零。这可以防止除以一个极小的数，从而稳定解，有效地在问题的低秩近似中找到最佳解。这是目前已知的解决最小二乘问题最稳定、最可靠的方法，即使是对于正规方程来说非常危险的近共线情况也能驯服。

从一个简单地将直线拟合到噪声数据的愿望出发，我们穿越了高维空间的几何学，揭示了正规方程的代数力量，面对了数值不稳定性的实际危险，并最终到达了像 QR 和 SVD 这样优雅而稳健的算法。这一从直观需求到优美几何图像再到强大计算现实的演进过程，是数学与科学深度统一的标志。

应用与跨学科联系

我们花了一些时间来探索最小二乘法的内部机制，将其视为一种几何投影或代数解法。但一个工具的好坏取决于它能解决的问题。事实证明，这个想法——为一个没有精确解的系统寻找“最佳”近似解——是整个科学工具箱中功能最强大、最通用的工具之一。它不仅仅是一个数学上的奇珍；它是在面对不确定性和复杂性时进行推理的基本原则。让我们踏上一段旅程，看看这个听起来简单的想法将我们带向何方。你可能会对目的地感到惊讶。

曲线拟合的艺术：从直线到生命科学

也许最小二乘法最经典的应用是你已经猜到的：在一堆散点数据中画出最佳的直线。但世界很少如此线性。如果我们试图建模的关系更为复杂怎么办？假设我们正在追踪一种新药在患者血液中的浓度随时间的变化。数据可能呈现出一条指数衰减的曲线。物理学家可能在追踪一个阻尼振荡。最小二乘框架的美妙之处在于它不局限于直线。我们可以拟合多项式、指数函数、正弦函数——几乎任何我们能写出的函数形式。

这个过程是实验科学的基础。你有一个理论模型，并且你想找到该模型的参数，使其最能匹配你来之不易的数据。有时，这很简单。如果我们的模型是基函数的“线性”组合——就像 $p(x) = c_0 + c_1 x + c_2 x^2$ 是 $1, x, x^2$ 的线性组合一样——那么无论最终的曲线多么曲折，问题都会归结为一个线性最小二乘问题。

但生活常常给我们带来更具个性的数据。如果我们知道某次测量比其他测量可靠得多怎么办？也许它是由更高级的仪器或在理想条件下进行的。将所有数据点同等对待是愚蠢的。而我们不必这样做！我们可以引入加权最小二乘的概念，通过为可靠点的平方误差分配更大的权重，来告诉我们的算法“更关注”这些可信赖的点。这使我们能够将关于数据质量的专业知识直接融入数学公式中，从而得到一个更稳健、更精确的模型拟合。

当模型在其参数上真正非线性时，比如函数 $f(x; a, b, c) = a e^{bx} + c$ ，真正的乐趣才开始。在这里，参数 $a$ 和 $b$ 以一种无法简单线性化设置的方式纠缠在一起。你可能会认为我们需要一个全新的理论。但并非如此！在一个“利用已知知识”的漂亮展示中，我们可以迭代地解决这个问题。我们从一个参数的猜测值开始，然后做一个巧妙的操作：我们用一个在猜测值邻域内有效的线性模型来近似我们复杂的非线性模型。这将问题简化为一个我们熟悉的线性最小二乘问题，我们求解它来找到对我们参数的一个微小修正。我们更新我们的猜测并重复这个过程，每一次都进行线性化和求解，一步步地逼近最佳拟合解。这种强大的技术，作为优化的基石之一，被称为高斯-牛顿法，它让我们能够使用我们信赖的线性最小二乘工具来征服广阔的非线性问题领域。药代动力学等领域正是使用这种方法来确定药物如何被身体吸收和排泄，通过将复杂的指数衰减模型与浓度数据进行拟合，帮助设计有效的给药方案。

超越数据点：泛化、正则化与机器学习

到目前为止，我们一直专注于寻找一条描述现有数据的曲线。但是现代科学，尤其是在“大数据”和机器学习时代，通常更关心预测。我们想要一个模型，它不仅能拟合我们已经看到的数据，还能泛化到对我们未曾见过的数据做出准确预测。在这里，最小二乘的世界变得更加有趣，我们也开始看到它与计算机科学中一些最前沿思想的联系。

让我们考虑一个看似简单的任务：分类。我们有属于两个类别之一的数据点，比如说，“肿瘤是恶性的”（我们称之为1）或“良性的”（称之为0）。我们能用最小二乘法来构建一个预测器吗？一种朴素的方法是对这些数据拟合一个线性模型，希望输出对于恶性类别接近1，对于良性类别接近0。但这里有一个陷阱！最小二乘法并不知道我们的输出应该是概率。它是一个无约束的优化器，可以自由地做任何事情来最小化平方误差。结果，它可以愉快地预测一个1.5或-0.2的“概率”，这完全是无稽之谈。这个失败的例子极具启发性：它告诉我们为工作选择正确的工具至关重要。最小二乘的平方误差损失不适合二元结果的统计特性，这就是为什么像逻辑回归这样的方法被发明出来的原因。

然而，这并不意味着最小二乘法出局了。我们可以强制它。我们可以解决一个约束最小二乘问题，告诉算法：“找到最佳拟合参数，但在严格的条件下，你对训练数据的所有预测必须位于0和1之间”。这将我们简单的问题转变为一个更复杂的优化问题，称为二次规划，但它尊重了问题的物理现实。这种添加约束的思想是一个强大的主题，它将最小二乘法的应用范围扩展到复杂的工程设计和控制领域。

现在来看一些真正现代的东西。流媒体服务如何推荐你可能喜欢的电影？其核心是一个巨大的、大部分为空的矩阵，记录了用户对电影的评分。挑战在于预测缺失的条目。这就是“矩阵补全”问题。我们可以通过假设人们的品味不是随机的来解决这个问题；存在一些潜在的因素或“潜在特征”，比如对喜剧、动作片或特定导演的偏好。我们可以尝试将完整的评分矩阵 $R$ 建模为两个更薄的矩阵 $U$ 和 $V^T$ 的乘积，其中 $U$ 代表用户对这些潜在特征的亲和度， $V$ 代表电影对这些特征的表达。我们如何找到 $U$ 和 $V$ ？你猜对了：我们建立一个巨大的最小二乘问题！我们寻找矩阵 $U$ 和 $V$ ，使其乘积 $U V^T$ 最佳匹配我们确实知道的评分。为了防止模型变得过于复杂而只是“记住”数据，我们添加一个惩罚项——一种 Tikhonov 正则化形式——它使 $U$ 和 $V$ 的条目不会变得太大。这种优雅的公式，最小化平方误差和正则化项的组合，是许多现代推荐系统的核心。

找到你的路：最小二乘在导航与控制中的应用

让我们换个话题，看看最小二乘法最深刻、最美丽的应用之一：在世界上找到你的路。从你手机里的GPS到在火星表面导航的探测车，问题总是一样的：你有一个关于你如何移动的模型，但它是不完美的。你还有来自传感器的嘈杂测量数据——GPS卫星、星跟踪器、车轮里程计。你如何融合这两股信息流来获得对你真实状态（位置和速度）的最佳估计？

这是卡尔曼滤波器的领域，它是20世纪工程学的最高成就之一。其核心就是一个最小二乘问题。在每个时间点，滤波器对状态有一个先验信念，由一个均值和一个协方差矩阵（量化其不确定性）表示。然后，一个新的测量到达。卡尔曼更新步骤无非是解决一个加权最小二乘问题，以找到最能协调先验信念与新测量的状态。要拟合的“数据”是先验状态和新测量。 “权重”是它们各自不确定性（协方差）的逆。你更确定的信息获得更高的权重。这个小优化问题的解为你提供了新的、更新的状态估计，这在模型假设下被证明是最佳的估计。这是一个惊人的认识：跟踪和导航的动态、递归过程可以被看作是一系列静态、最优的“最佳妥协”解。这种深刻的联系揭示了最小二乘原理不仅是一个曲线拟合器，更是一个用于最优信息融合的基本规则。

这个观点植根于最小二乘的几何学。当我们解 $A\mathbf{x}=\mathbf{b}$ 时，我们将向量 $\mathbf{b}$ 投影到 $A$ 的列空间上。解 $A\hat{\mathbf{x}}$ 是模型空间中离我们数据最近的点。剩下的部分，即残差 $\mathbf{r} = \mathbf{b} - A\hat{\mathbf{x}}$ ，与该空间正交。这是数据中我们的模型根本无法解释的部分。卡尔曼滤波器在某种意义上是在一个统计空间中做同样的事情，找到一个最小化不确定性的投影。

一种通用语言

最后，最小二乘的语言甚至不局限于实数。在信号处理和量子力学等领域，我们处理复数。交流电路用复数相量分析，量子态用复数波函数描述。最小二乘原理无缝地扩展到这个世界，只需将转置替换为共轭转置即可。这使我们能够使用相同的概念框架解决这些领域中的估计问题，再次证明了其核心思想的深刻普适性。

从将一条简单的线拟合到数据，到推荐电影，再到导航航天器，最小二乘原理是一条贯穿科学和工程的金线。它远不止是一种数值算法；它是一种处理我们所居住的这个混乱、超定和充满噪声的现实的哲学。它为我们提供了一种清晰而强大的方法，从噪声中提取有意义的信号，从有限的数据中做出最佳的推断，并构建有效的模型。它是一个简单而优美的数学思想能够理解复杂世界的有力证明。