最小二乘解

玻尔百科

核心要点

最小二乘法通过最小化数据与模型之间差异（残差）的平方和，为超定系统找到最优解。
从几何上看，最小二乘解对应于数据向量在模型矩阵列空间上的正交投影。
该解是通过求解正规方程组 $A^T A \hat{\mathbf{x}} = A^T \mathbf{b}$ 在代数上推导出来的。
当模型的列向量线性无关时，存在唯一解；否则，可以利用 SVD 等工具找到唯一的最小范数解。
它是科学和工程领域的一项基础工具，应用范围从简单的直线拟合到卡尔曼滤波器等高级算法。

引言

在几乎每一个科学和工程领域，从天文学到经济学，我们都面临一个共同的挑战：将理论模型与混乱的真实世界数据进行拟合。测量从来都不是完美的；它们包含噪声，而模型本身也常常是近似的。这导致了不存在单一精确解的超定方程组。那么，我们如何找到“最佳可能”的答案呢？这正是最小二乘法所要解决的基本问题，它是一个功能强大且无处不在的工具，用于在充满矛盾的世界中找到最优的折衷方案。本文将引导您了解这项基本技术。在“原理与机制”一章中，我们将揭示最小化平方误差背后优雅的几何学和代数学原理，从正交投影到著名的正规方程组。随后，“应用与跨学科联系”一章将展示该方法的广泛用途，说明它如何成为从简单的数据分析到 GPS 系统和机器人技术中使用的复杂实时估计等一切事物的引擎。

原理与机制

想象你是一位实验物理学家，试图找到一个简单的定律，也许是一条直线 $y = mx+c$ ，来解释你辛苦收集的一堆数据点。你将它们绘制在图上，很明显它们并不完全落在一条直线上。自然是混乱的，你的测量有噪声，而你的模型只是一个近似。你为每个点建立一个方程：

$y_1 \approx m x_1 + c$ $y_2 \approx m x_2 + c$ $y_3 \approx m x_3 + c$ ……以此类推。

用线性代数的语言来说，这是一个“超定”系统 $A\mathbf{x} \approx \mathbf{b}$ ，其中 $A$ 包含你模型中的系数（ $x_i$ 值和 1）， $\mathbf{x}$ 是你想要找到的参数向量（ $\begin{pmatrix} m \\ c \end{pmatrix}$ ），而 $\mathbf{b}$ 是你的测量值向量（ $y_i$ 值）。这个系统很可能没有精确解。无论你画哪条线，总会有一些点偏离。该系统在根本上是不相容的。那么，我们能做什么呢？我们找不到一个完美的解，但我们能找到最佳可能的解吗？这正是最小二乘法诞生的核心问题。

“最佳”的几何学

首先，我们必须定义我们所说的“最佳”是什么意思。一个自然的选择是衡量我们模型的预测与实际数据之间的总误差。对于任何给定的解 $\mathbf{x}$ ，预测由向量 $A\mathbf{x}$ 给出，而测量值在向量 $\mathbf{b}$ 中。误差，或称残差，是差分向量 $\mathbf{r} = \mathbf{b} - A\mathbf{x}$ 。“最佳”解应该是使这个残差向量尽可能小的那个。

但我们如何衡量一个向量的“大小”呢？最自然的方式，源自毕达哥拉斯，是其欧几里得长度。我们希望最小化残差的长度 $\|\mathbf{r}\|$ 。出于数学上的美观和便利（它避免了讨厌的平方根，并且非常平滑），我们选择最小化长度的平方，即 $\|\mathbf{r}\|^2 = \|\mathbf{b} - A\mathbf{x}\|^2$ 。这就是“最小二乘”准则。

现在，让我们从几何角度思考这个问题。测量向量 $\mathbf{b}$ 是高维空间中的一个点（如果你有 $m$ 个测量值，它就是 $\mathbb{R}^m$ 中的一个点）。所有可能的预测集合 $\{A\mathbf{x} \mid \mathbf{x} \in \mathbb{R}^n\}$ ，在 $\mathbb{R}^m$ 中形成一个称为 $A$ 的列空间的子空间。你可以把它想象成嵌入在高维空间中的一条线或一个平面。我们的问题 $\min \|\mathbf{b} - A\mathbf{x}\|^2$ 现在被转化了：我们在寻找 $A$ 的列空间中离我们的数据点 $\mathbf{b}$ 最近的那个点。

这个最近的点是什么？你的直觉很可能是正确的。如果你想象一个平面（列空间）和一个漂浮在其上的点（我们的向量 $\mathbf{b}$ ），平面上最近的点就是 $\mathbf{b}$ 正“下方”的那个点。它是你从 $\mathbf{b}$ 向该平面作垂线得到的点。这个点，我们称之为 $\hat{\mathbf{p}}$ ，是 $\mathbf{b}$ 在列空间上的正交投影。我们称之为 $\hat{\mathbf{x}}$ 的最小二乘解，是产生这个投影的向量： $\hat{\mathbf{p}} = A\hat{\mathbf{x}}$ 。

这个几何图像为我们提供了关于最小二乘法最重要的洞见。对应于最佳解的残差向量 $\hat{\mathbf{r}} = \mathbf{b} - A\hat{\mathbf{x}}$ ，正是我们从 $\mathbf{b}$ 向列空间所作的垂线。根据其构造，该残差向量必须与整个列空间正交（垂直）。这就是正交性原理。这是一个强大的验证工具：如果有人给你一个候选解，你不需要解任何东西。你只需计算残差 $\mathbf{b} - A\mathbf{x}_{\text{cand}}$ ，并检查它是否与 $A$ 的每一列都正交。如果是，你就找到了真正的最小二乘解。

正规方程组的魔力

这个优美的正交几何条件不仅用于检验答案，它也是我们首先找到解的方法。如果残差向量 $\hat{\mathbf{r}}$ 必须与 $A$ 的每一列都正交，我们可以使用 $A$ 的转置将其简洁地表述为：

$A^T \hat{\mathbf{r}} = \mathbf{0}$

代入 $\hat{\mathbf{r}} = \mathbf{b} - A\hat{\mathbf{x}}$ ，我们得到：

$A^T (\mathbf{b} - A\hat{\mathbf{x}}) = \mathbf{0}$

稍作整理，我们得到了应用数学中最著名的结果之一，即正规方程组：

$A^T A \hat{\mathbf{x}} = A^T \mathbf{b}$

我们来看看发生了什么！我们从一个不相容、无解的系统 $A\mathbf{x} \approx \mathbf{b}$ 开始。通过一个简单的几何论证，我们为最佳拟合解 $\hat{\mathbf{x}}$ 推导出了一个新系统。这个新系统总是相容的。矩阵 $A^T A$ 恒为方阵和对称矩阵，这是一个比原始的“高瘦”矩阵 $A$ 更友好的对象。通过求解这个系统，我们找到了最小化平方误差和的参数。

唯一性与模型性质

这个过程是否总能给我们一个单一、唯一的“最佳”答案？不总是。解 $\hat{\mathbf{x}}$ 的唯一性取决于矩阵 $A^T A$ 是否可逆。事实证明， $A^T A$ 可逆当且仅当原始矩阵 $A$ 的列是线性无关的。

这具有深刻的物理意义。 $A$ 的列代表你模型的基础函数。如果它们是线性无关的，这意味着你模型的每个部分都贡献了独特且不同的东西。如果它们是相关的，这意味着你的模型是冗余的。例如，想象一个信号模型使用两种模式， $S(t) \approx x_1 f_1(t) + x_2 f_2(t)$ ，但结果发现一种模式只是另一种的倍数，比如 $f_2(t) = -f_1(t)$ 。该模型实际上只是 $S(t) \approx (x_1 - x_2)f_1(t)$ 。任何具有相同差值 $x_1 - x_2$ 的系数对 $(x_1, x_2)$ 都会产生完全相同的拟合和相同的最小误差。在这种情况下，存在无限多个“最佳”解。

当这种情况发生时，我们需要一个额外的标准来从众多解中挑选一个。一个非常自然的选择是选择那个本身“最小”的解向量 $\hat{\mathbf{x}}$ ——即具有最小欧几里得范数 $\|\hat{\mathbf{x}}\|$ 的那个。这被称为最小范数最小二乘解。这个唯一的解具有一个优雅的性质，即它完全位于 $A$ 的行空间内，并且它是由奇异值分解 (SVD) 和 Moore-Penrose 伪逆等高级工具给出的解。

阐明特殊情况

研究特殊情况常常能揭示一个原理的核心。

完美拟合：如果我们的数据向量 $\mathbf{b}$ 本身已经是我们模型列向量的完美组合会怎样？也就是说，如果 $\mathbf{b}$ 已经位于 $A$ 的列空间中？在这种情况下，子空间中离 $\mathbf{b}$ 最近的点就是 $\mathbf{b}$ 本身。投影是完美的，最小二乘误差为零，而解 $\hat{\mathbf{x}}$ 只是原始系统 $A\mathbf{x} = \mathbf{b}$ 的一个精确解。更简单地说，如果我们的矩阵 $A$ 是方的且可逆，它的列空间就是整个空间。一个精确解 $A^{-1}\mathbf{b}$ 总是存在，误差为零，最小二乘机制也会忠实地返回这个相同的解。这表明最小二乘是求解精确系统的一种推广，而非矛盾。
正交模型：当我们的模型矩阵（我们称之为 $Q$ ）的列不仅是独立的，而且是标准正交的——意味着它们相互正交且长度为单位1——时，情况就变得格外优美。在这种情况下，矩阵 $Q^T Q$ 简化为单位矩阵 $I$ 。令人生畏的正规方程组 $Q^T Q \hat{\mathbf{x}} = Q^T \mathbf{b}$ 崩塌为极为简单的解 $\hat{\mathbf{x}} = Q^T \mathbf{b}$ 。计算最佳拟合参数根本不需要矩阵求逆，只需要一个简单的矩阵-向量乘积。这种巨大的计算优势是为什么基于构造标准正交基的方法（如 QR 分解）在数值计算中如此重要的关键原因。

因此，最小二乘原理是连接几何与代数的深刻桥梁。它始于寻找最近点的直观想法，将其转化为清晰的正交条件，并最终形成一个具体的代数系统——正规方程组——为我们回答一个不可能的问题提供了“最佳”答案。它证明了清晰的几何图像如何能够照亮通往一个强大且普遍适用的数学工具的道路。虽然我们专注于最小化平方和，这个选择带来了线性投影的简洁几何学，但值得注意的是，其他选择，如最小化绝对值之和，会导致不同的几何学和具有其自身独特性质的解。数据拟合的世界是丰富的，但最小二乘法的优雅和实用性使其占据了真正特殊的位置。

应用与跨学科联系

想象一下，你是一位 19 世纪初的天文学家，正透过望远镜观察一个新发现的天体。你夜复一夜地记录它的位置，但你的测量有些晃动，大气不稳定，你的时钟也不完美。当你在图表上绘制这些数据点时，它们并未落在一条完美的、清晰的曲线上，而是形成了一片散乱的云。那么，这颗行星的真实轨道是什么？哪一条路径是这个混乱现实的“最佳”代表？

正是这个问题促使伟大的数学家 Adrien-Marie Legendre 和 Carl Friedrich Gauss 独立发明了科学史上最强大、最通用的工具之一：最小二乘法。其核心思想既优雅又有效。“最佳”拟合是使你的模型预测与你的实际观测值之间差异——即“残差”——的平方和最小化的那一个。为什么要用平方？这个选择是天才之举。它同等对待高估和低估，并且会重罚大的误差。一个离群的数据点很难劫持整个结果。这个寻找最优折衷的原则是一段宏大旅程的起点，它将我们从简单的数据图带到技术的最前沿。

蓝图：从数据到模型

在其核心，最小二乘法是经验科学的主力。任何时候我们有一个想要用数据来检验的理论，最小二乘法都能为我们提供一个诚实的评估。最常见的应用是将一条直线拟合到一组点上。经济学家可能会用它来从调查数据中找出可支配收入和家庭支出之间的关系，即“边际消费倾向”。物理学家可能会用它来通过绘制电压与电流的关系来验证欧姆定律。

这个框架非常灵活。我们可以将我们的物理直觉直接融入模型中。例如，研究河流流量的水文学家知道，如果没有降雨，就不应该有额外的径流。这个物理约束意味着最佳拟合线必须通过原点。最小二乘法通过在最小化误差之前简单地调整模型方程来优雅地适应这一点。

事实上，所有这些线性拟合问题，从最简单的直线到复杂的多变量模型，都可以用一种单一、强大的通用语言来表达。我们将系统写成一个矩阵方程 $A\mathbf{x} = \mathbf{b}$ ，其中 $\mathbf{b}$ 是我们的观测向量， $A$ 是编码我们模型结构的“设计矩阵”，而 $\mathbf{x}$ 是我们希望找到的参数向量。由于我们的测量值 $\mathbf{b}$ 含有噪声，通常没有精确解。因此，最小二乘法的目标是找到参数向量 $\mathbf{x}$ ，使向量 $A\mathbf{x}$ 尽可能接近我们观测到的向量 $\mathbf{b}$ ——“尽可能接近”是在最小化平方欧几里得距离 $\|A\mathbf{x} - \mathbf{b}\|^2$ 的意义上定义的。

精炼技艺：应对混乱的现实

当然，现实世界很少如此简单。当我们的误差假设被违反时会发生什么？这正是最小二乘法真正强大和适应性开始闪耀的地方。

想象一下，你正在合并来自两台仪器的数据：一台是全新的高精度设备，另一台是老旧、不稳定的设备。同等信任它们的测量值是愚蠢的。广义最小二乘法 (GLS) 将这种直觉形式化。我们不是最小化简单的误差平方和，而是最小化加权和。每个误差都按其方差（衡量其不确定性的指标）的倒数进行加权。这给予了可靠数据更多的影响力，并降低了含噪声测量的权重。这是一个优美的统计学原则：各尽其能（指其精确度）。

但如果我们的模型矩阵 $A$ 的列也不确定怎么办？标准最小二乘法假设所有误差都在我们的测量值 $\mathbf{b}$ 中。但在许多实验中，我们的自变量也是带误差测量的。总体最小二乘法 (TLS) 通过采用一种更民主的误差观来解决这个问题。它不是最小化数据点到模型的垂直距离之和，而是最小化垂直距离的平方和。这承认了我们的输入和输出都可能有缺陷，为所有变量都含噪声时提供了更稳健的估计。

此外，科学模型通常并非存在于真空中；它们必须遵守基本定律。设计桥梁的工程师不仅要拟合材料的应力-应变数据，还必须确保设计满足静态平衡的精确方程。约束最小二乘法就是为此而生的工具。它找到参数向量 $\mathbf{x}$ ，在满足一组精确线性约束 $C\mathbf{x} = \mathbf{d}$ 的前提下，最小化误差 $\|A\mathbf{x} - \mathbf{b}\|^2$ 。它代表了经验数据拟合与不可侵犯的理论原则的完美结合。

动力室：计算的秘密

找到最小二乘解是一回事；高效、可靠地计算它则是另一回事。最直接的方法是建立并求解所谓的“正规方程组”， $A^T A \mathbf{x} = A^T \mathbf{b}$ 。虽然这在数学上很直接，但在数值上可能很危险，类似于将问题的“难度”平方，这会放大计算机中的舍入误差。

一种远为优雅和稳定的方法是使用 QR 分解。这里的想法是将我们可能很混乱的矩阵 $A$ 分解为两个好得多的矩阵的乘积：一个正交矩阵 $Q$ （其列是完全垂直的单位向量）和一个上三角矩阵 $R$ 。从几何上看，这就像旋转我们的坐标系，使得问题通过简单的回代法变得易于解决。

这种算法之美具有深远的实际影响。考虑一个实时系统，如 GPS 接收器或自动驾驶汽车的感知系统。数据以连续流的形式涌入。我们是否每毫秒都从头开始解决一个庞大的最小二乘问题？这在计算上是不可能的。相反，QR 分解允许极其高效的递推更新。当一个新的测量值到达时，我们可以用少量的工作将其“并入”现有的 $Q$ 和 $R$ 矩阵中，从而快速更新我们的解。正是这种计算上的天才使得高频、实时估计成为可能。

对于最具挑战性的问题——模型参数冗余或系统本身是病态的——我们有终极分析工具：奇异值分解 (SVD)。SVD 将矩阵 $A$ 分解为其最基本的组成部分，揭示了哪些方向被放大，哪些被缩小，哪些被抵消。当应用于最小二乘问题，特别是秩亏问题时，SVD 提供了完整的诊断。它使我们能够计算出唯一的最小范数解，这个解不仅最能拟合数据，而且具有尽可能小的模长，从而确保一个稳定且具有物理意义的结果。

关联的宇宙：伪装的最小二乘法

最小二乘原理是如此基础，以至于它以各种伪装形式出现在广阔的其他科学领域中。我们如何拟合复杂的非线性模型，比如航天器在引力作用下的轨道？许多强大的方法，如高斯-牛顿算法，都是迭代操作的。它们从一个猜测开始，围绕该猜测将问题线性化，然后解决一个线性最小二乘问题，以找到朝向真正解的最佳“微调”。这个过程不断重复，直到解收敛。因此，解决许多复杂非线性问题的引擎是一系列简单的线性最小二乘问题。

也许最令人惊叹和影响深远的应用是那个在我们现代世界背景中默默运行的应用：卡尔曼滤波器。这个算法是飞机和卫星导航、机器人控制以及经济趋势预测背后的大脑。卡尔曼滤波器维持着对动态系统状态（例如，汽车的位置和速度）的“信念”以及该信念的不确定性。当一个新的、含噪声的测量值到达时（比如来自 GPS 传感器），滤波器必须智能地将其预测与这个新证据融合在一起。

它是如何实现这种神奇的信息融合的呢？在其核心，卡尔曼滤波器的测量更新步骤本质上不过是一种递推的加权最小二乘估计。它构建一个成本函数，该函数惩罚对先前信念和新测量的偏离，并根据各自不确定性的倒数进行加权。最小化此成本的解就是新的、更新后的信念，其不确定性比预测或测量本身都小。卡尔曼滤波器是最小二乘原理的生动体现——一场预测与校正之间持续、优雅的舞蹈，使我们能够在一个充满噪声和不确定性的世界中跟踪和控制系统。从一个简单的散点图到火星车的导航，最小二乘法的发展历程证明了一个优美数学思想的统一力量。