正规方程：最小二乘法的核心

玻尔百科

定义

正规方程：最小二乘法的核心是线性代数中用于求解超定线性方程组最佳拟合解的基础数学框架，其标准形式为 AᵀAx = Aᵀb。该方法基于正交性原理，通过使误差向量垂直于模型预测空间来最小化残差平方和。它是共轭梯度法和吉洪诺夫正则化等高级计算方法的基础，但在处理病态问题时，构造 AᵀA 矩阵可能会导致数值不稳定。

核心要点

正规方程 $A^T A \mathbf{x} = A^T \mathbf{b}$ 为没有精确解的超定线性系统 $A\mathbf{x} = \mathbf{b}$ 提供了最佳拟合的“最小二乘”解。
从几何上看，正规方程表达了正交性原理，即测量值与最佳拟合模型之间的误差向量垂直于所有可能的模型预测构成的空间。
当且仅当矩阵 A 的列线性无关时，存在唯一的最小二乘解，这意味着底层模型没有冗余。
尽管计算效率高，但构造矩阵 $A^T A$ 会使问题的条件数平方，这会放大误差并导致病态问题中的数值不稳定性。
正规方程是处理大规模系统的共轭梯度（CG）法和稳定不适定问题的吉洪诺夫正则化等高级方法的基础。

引言

在科学、工程和数据分析中，我们经常遇到测量次数多于未知参数的情况。这导致了一个超定线性方程组 $A\mathbf{x} = \mathbf{b}$ ，由于现实世界的噪声和模型的不完美性，该方程组通常没有精确解。这就带来了一个根本性的挑战：如果完美的答案不存在，我们如何找到最佳可能的答案？本文通过探索正规方程 $A^T A \mathbf{x} = A^T \mathbf{b}$ 来解决这个问题，这是一个强大而优雅的工具，用于寻找最优的近似解。在接下来的章节中，我们将首先深入探讨“原理与机制”，揭示正规方程如何从最小二乘原理中产生，以及它们在几何上代表什么。然后，在“应用与跨学科联系”中，我们将看到这个单一的方程如何应用于经济学和工程学等不同领域，并探讨其关键的计算权衡，这弥合了抽象理论与实际应用之间的鸿沟。

原理与机制

在我们理解世界的征程中，我们常常发现自己拥有的数据远超所需。我们可能为一个我们认为仅由少数几个参数控制的过程，收集了数百次的测量数据。这种数据的极大丰富带来了一个有趣的难题：一个超定系统，用线性代数的语言写成 $A\mathbf{x} = \mathbf{b}$ ，其中方程的数量（ $A$ 的行数）多于未知数的数量（ $\mathbf{x}$ 的元素个数）。在几乎所有现实世界的情况下，不存在一个神奇的向量 $\mathbf{x}$ 能完美地满足我们每一个充满噪声、不完美的测量。向量 $\mathbf{b}$ 根本不“存在”于由 $A$ 的列向量所构成的世界中。

那么，我们该怎么办？放弃吗？绝对不是！如果我们找不到一个完美的答案，我们就必须寻求最佳可能的答案。我们需要一个原则，一种关于“最佳”意味着什么的哲学。

最小二乘原理：一种民主的妥协

想象一下我们系统中的每个方程，即 $A\mathbf{x} = \mathbf{b}$ 中的每一行，都是对 $\mathbf{x}$ 应该是什么的“一次投票”。由于它们并非都达成一致，我们需要一种妥协。一个极其简单而强大的想法是，找到使总误差尽可能小的 $\mathbf{x}$ 。每个方程的误差是我们的模型预测 $(A\mathbf{x})_i$ 与实际测量 $b_i$ 之间的差。这个差被称为残差。我们可以尝试最小化这些残差的总和，但有些是正的，有些是负的，它们可能会相互抵消，从而掩盖大的错误。

取而代之，我们关注残差的平方。平方有两个奇妙的作用：它使每个误差都变为正数，并且它对大误差的惩罚远大于小误差。因此，我们的目标是找到使残差平方和最小的向量 $\mathbf{x}$ 。这就是著名的最小二乘原理。用向量符号表示，我们希望最小化总残差向量 $\mathbf{r} = \mathbf{b} - A\mathbf{x}$ 的平方长度。我们想要最小化的量是 $S(\mathbf{x}) = \|\mathbf{b} - A\mathbf{x}\|_2^2$ 。

这个问题现在是一个微积分问题。函数 $S(\mathbf{x})$ 描述了一个多维的碗状曲面，我们正在寻找它的最低点。为了找到这个最小值，我们对 $S(\mathbf{x})$ 关于 $\mathbf{x}$ 求梯度，并将其设为零。正如在等问题中探讨的那样，一点矩阵微积分的知识揭示了一个非凡的结果。将梯度设为零，即 $\nabla S(\mathbf{x}) = \mathbf{0}$ ，直接导出了一个简洁、优雅的方程：

A^T A \mathbf{x} = A^T \mathbf{b}

就是它！这就是问题的核心。这组给出最佳拟合解的方程，被称为正规方程。

正规方程：最佳拟合的代数配方

正规方程将我们不相容的超定系统 $A\mathbf{x} = \mathbf{b}$ 转化为一个新的、完全可解的方阵系统。新矩阵 $A^T A$ 总是方的（ $n \times n$ ），而右侧的新向量是 $A^T \mathbf{b}$ 。

让我们在一个具体场景中看看这是如何工作的。假设一位工程师正在为微处理器的功耗建模，认为功耗 $P$ 与时钟频率 $f$ 之间存在线性关系： $P = c_0 + c_1 f$ 。在进行三次测量 $(f_1, P_1)$ 、 $(f_2, P_2)$ 和 $(f_3, P_3)$ 后，我们得到了一个包含三个方程和两个未知数 $c_0$ 和 $c_1$ 的系统。我们可以将其写成 $A\mathbf{x} = \mathbf{b}$ ，其中 $\mathbf{x} = \begin{pmatrix} c_0 \\ c_1 \end{pmatrix}$ ， $\mathbf{b}$ 是功耗测量值的向量，而 $A$ 是所谓的设计矩阵：

A = \begin{pmatrix} 1 f_1 \\ 1 f_2 \\ 1 f_3 \end{pmatrix}

为了找到最佳拟合的系数，我们不直接解这个系统。相反，我们计算正规方程的组成部分 $A^T A$ 和 $A^T \mathbf{b}$ ，然后求解 $\mathbf{x}$ 。这个过程是将一堆数据点转化为一个有意义模型的一个通用配方。无论线性模型多么复杂——无论是用于振荡器的正弦和余弦还是用于衰减过程的指数函数——原理都是相同的：从你的模型基函数构建矩阵 $A$ ，然后让正规方程找到最佳组合。

几何杰作：正交性原理

代数推导很简洁，但正规方程的真正美感通过几何学得以展现。思考你的矩阵 $A$ 的列向量。这些列向量的所有可能线性组合构成了一个子空间，这是你测量值所在更大空间内的一个平面或体。这就是 $A$ 的列空间，记作 $\text{Col}(A)$ 。它代表了你的模型可以产生的所有可能结果。

我们的测量向量 $\mathbf{b}$ 是高维测量空间中的一个点。由于系统不相容， $\mathbf{b}$ 不在 $\text{Col}(A)$ 这个“平面”上。最小二乘解 $\hat{\mathbf{x}}$ 给了我们一个向量 $\hat{\mathbf{p}} = A\hat{\mathbf{x}}$ ，它确实位于 $\text{Col}(A)$ 中。这个向量 $\hat{\mathbf{p}}$ 是列空间中最接近 $\mathbf{b}$ 的点。

从一个点到一个平面的最短距离是什么？是与该平面垂直的线段的长度。

这就是最小二乘的几何灵魂。残差向量，也就是误差 $\mathbf{e} = \mathbf{b} - A\hat{\mathbf{x}}$ ，必须与 $A$ 的整个列空间正交（垂直的多维术语）。如果不是这样，你总可以在列空间中找到一个离 $\mathbf{b}$ 更近一点的点。

我们如何用数学方式来表述这个正交性条件？我们只需说误差向量 $\mathbf{e}$ 必须与张成列空间的每个向量正交——也就是与 $A$ 的每一列正交。 $A$ 的每一列与 $\mathbf{e}$ 的点积必须为零。我们可以用一个单一的矩阵方程一次性写出所有这些点积：

A^T \mathbf{e} = \mathbf{0}

代入 $\mathbf{e} = \mathbf{b} - A\hat{\mathbf{x}}$ ，我们得到 $A^T(\mathbf{b} - A\hat{\mathbf{x}}) = \mathbf{0}$ 。稍作整理，我们再次得到了正规方程： $A^T A \hat{\mathbf{x}} = A^T \mathbf{b}$ 。所以，正规方程不过是一个深刻的几何陈述：当误差垂直于所有可能的模型预测构成的空间时，就达到了最佳近似。用线性代数的语言来说，这意味着误差向量 $\mathbf{e}$ 位于 $A^T$ 的零空间中，也就是 $A$ 的列空间的正交补。这不是很美妙吗？

保证与陷阱：它总能成功吗？

我们有了这个优雅的方法，但我们能依赖它吗？两个关键问题随之而来：解是否总存在，以及它是否总是唯一的？

令人惊奇的是，第一个问题的答案是肯定的。正规方程总是相容的，意味着最小二乘解总是保证存在。其数学原因微妙而深刻：矩阵 $A^T A$ 的列空间与 $A^T$ 的列空间相同。由于我们方程的右侧 $A^T \mathbf{b}$ 根据定义就在 $A^T$ 的列空间中，因此它也保证在 $A^T A$ 的列空间中。系统永远不会自相矛盾。

唯一性的问题则更为微妙。要使正规方程产生一个单一、唯一的解 $\hat{\mathbf{x}}$ ，矩阵 $A^T A$ 必须是可逆的。这当且仅当原始矩阵 $A$ 的列是线性无关的 时才会发生。在实践中，这意味着你的模型不能是冗余的。如果你试图用两个相同或互为倍数的基函数来为一个过程建模，那么 $A$ 的列就会变得线性相关。例如，在一个指数衰减模型 $y(t) = c_1 \exp(-\lambda_1 t) + c_2 \exp(-\alpha t)$ 中，如果你恰好选择了参数 $\alpha$ 等于 $\lambda_1$ ，那么你的矩阵 $A$ 的两列就会变得相同。系统变得奇异，你就无法区分 $c_1$ 和 $c_2$ 的贡献。你的实验根本无法提供一个唯一的答案。

实践警告：数字世界中的隐藏危险

在抽象数学的完美世界里，正规方程是一个胜利。然而，我们计算的世界是有限和数字的。计算机以有限的精度存储数字，而这正是正规方程阴暗面可能出现的地方。

关键问题是数值稳定性。一个病态问题是指输入数据的微小误差可能导致输出解的巨大误差。其严重程度由一个称为条件数的量 $\kappa(A)$ 来衡量。大的条件数意味着你的问题很敏感。以下是正规方程一个关键且通常危险的性质：

\kappa_2(A^T A) = (\kappa_2(A))^2

当你构造矩阵 $A^T A$ 时，你将原始问题的条件数平方了！如果你最初的问题已经有点敏感，比如说 $\kappa_2(A) = 10^5$ ，那么你在计算机上实际解决的、涉及 $A^T A$ 的问题，其条件数将高达 $\kappa_2(A^T A) = 10^{10}$ 。这种敏感性的急剧放大可以将一个可解的问题变成一场数值灾难，特别是当 $A$ 的列几乎共线（几乎线性相关）时。测量中的微小扰动，用 $\delta \mathbf{b}$ 表示，可能导致解 $\delta \mathbf{x}$ 的巨大变化，误差放大程度与 $A$ 的最小奇异值 $\sigma_n$ 相关。

此外，用浮点运算计算 $A^T A$ 的行为本身就可能丢失重要信息。如果 $A$ 非常病态，与其最小奇异值相关的信息可能比矩阵乘法过程中产生的舍入误差还要小，这实际上在你开始求解系统之前就已经将其抹去了。

基于这些原因，尽管正规方程具有巨大的理论重要性，并且对于良态问题工作得很好，但在高精度科学计算中，它们经常被规避。诸如QR分解或奇异值分解 (SVD) 等方法直接处理矩阵 $A$ ，避免了构造 $A^T A$ 以及随之而来的条件数平方的危险。从计算角度看，正规方程方法的成本大约为 $m n^2 + \frac{1}{3}n^3$ 次浮点运算，这很高效，但仅当底层问题足够稳定以在该过程中幸存下来时才有用。正规方程提供了一个惊人美丽的初步方法，但理解其局限性与欣赏其优雅同样重要。

应用与跨学科联系

现在我们已经探讨了正规方程背后的原理和机制，你可能会问：我们到底在哪里使用这个？事实上，方程 $A^T A \mathbf{x} = A^T \mathbf{b}$ 不仅仅是线性代数中的一个巧妙技巧；它是一个理解复杂且充满噪声的世界的基本工具。它为一个通常没有完美解的问题提供了“最佳可能”的答案，使我们能够从混乱的数据海洋中提取清晰的信号。让我们踏上一段旅程，看看这个单一的方程如何连接从经济学到计算工程学的各个学科，并揭示一些关于测量和计算本质的深刻真理。

为混乱世界建模：从经济学到工程学

正规方程最常见和直观的应用也许是在数据拟合与建模中。想象你是一位研究消费者行为的经济学家。你想回答一个简单的问题：平均而言，如果人们的收入增加一美元，他们的消费会增加多少？你从成千上万的家庭中收集了关于收入和消费的数据。当你绘制这些数据时，你得到的不是一条完美的直线，而是一片点云。没有一条线能穿过所有这些点。这是一个超定系统，并且由于所有未建模的因素和现实世界数据中固有的随机噪声，它是不相容的。

这正是最小二乘法大显身手的地方。通过建立一个简单的模型，消费 = $\alpha + \beta \times \text{收入}$ ，我们可以使用正规方程来找到 $\alpha$ （基线消费）和 $\beta$ （边际消费倾向）的值，这两个值定义了最能拟合这片数据云的直线。解向量 $\hat{\mathbf{x}} = \begin{pmatrix} \hat{\alpha} \hat{\beta} \end{pmatrix}^T$ 是使每个数据点到直线的垂直距离的平方和最小的那个解。在非常真实的意义上，这是你所有相互矛盾的测量中最民主的妥协。

这个原理是普适的。它不仅限于经济学。

在遥感中，一颗卫星可能拥有冗余的传感器以提高可靠性。由于大气噪声和仪器误差，这些传感器永远不会完全一致。正规方程使我们能够结合它们相互矛盾的读数，以获得我们试图测量的环境参数的最佳估计。
在工程学中，我们可能需要追踪一个冷却中电子元件随时间变化的温度。一个理论模型，也许是一个衰减指数的和，告诉我们曲线应该是什么样子，但我们的测量总是不完美的。正规方程让我们能够找到最能匹配我们实验数据的指数项系数。

在所有这些情况下，故事都是一样的：我们有一个带有某些未知参数的世界模型，并且我们的数据点比参数多。由此产生的线性系统 $A\mathbf{x}=\mathbf{b}$ 没有解。正规方程 $A^T A \mathbf{x} = A^T \mathbf{b}$ 给了我们次优的选择：最小二乘解，这是我们在不完美世界中的最佳估计。

计算的双刃剑

所以，我们有了这个美妙的方程。我们只需让计算机解它，就大功告成了，对吗？嗯，没那么快。从数学理想到实际计算出的答案，这个过程充满了微妙之处，也正是在这里，我们发现了与数值分析领域的深刻联系。

假设我们试图用一个中高阶的多项式去拟合一组紧密聚集的数据点。我们矩阵 $A$ 的列将由 $1, t, t^2, \dots, t^m$ 这样的项组成。如果我们所有的时间点 $t_i$ 都在一个很小的区间内，比如说从 $1.0$ 到 $1.1$ ，那么函数 $t^8$ 、 $t^9$ 和 $t^{10}$ 看起来就非常相似。 $A$ 的列变得几乎线性相关。这样的矩阵被称为病态的——这就像要求某人区分几种几乎无法分辨的灰色阴影。

这里的关键点是：构造矩阵 $A^T A$ 的行为本身可能在数值上是灾难性的。这个看似简单的乘法有一个隐藏的、戏剧性的效果：它会使原始矩阵 $A$ 的条件数平方。条件数是衡量一个问题对微小变化或误差有多敏感的指标。如果 $A$ 的条件数是，比如说， $10^4$ （已经相当敏感），那么 $A^T A$ 的条件数就会变成高达 $10^8$ ！计算机在计算过程中产生的任何微小舍入误差，或者你原始数据中的任何微量噪声，都会被这个巨大的因子放大。得到的解可能是完全无用的垃圾，其系数巨大且振荡，没有任何物理意义。这在计算上等同于试图阅读一张模糊照片的模糊照片；基本信息在处理过程中已经被冲刷掉了。你可以通过尝试用一个著名的病态矩阵（如希尔伯特矩阵）来解决最小二乘问题来在实践中看到这一点；正规方程通常会产生一个极其不准确的答案。

那我们该怎么办呢？我们寻找一种更精巧的方法。QR分解法将 $A$ 分解为一个正交矩阵 $Q$ 和一个上三角矩阵 $R$ 的乘积。然后，最小二乘解可以通过求解更稳定的系统 $R\mathbf{x} = Q^T\mathbf{b}$ 来找到。这种方法的美妙之处在于 $R$ 的条件数与 $A$ 的条件数相同。我们完全避免了灾难性的平方！

但故事还有另一个转折。这是否意味着正规方程毫无用处？完全不是！事实证明，构造并求解正规方程通常比计算QR分解要快得多，特别是当你有大量数据点但只有少数模型参数时（ $m \gg n$ ）。对于非常大的 $m$ ，正规方程方法的速度几乎可以快一倍。这就给我们带来了一个经典的工程权衡：速度与稳定性。如果你的问题是良态的，那么廉价且快速的正规方程是你的朋友。如果你的问题是病态的，那么明智的做法是投入额外的计算精力来使用更安全的QR方法。

一个不断扩展的思想宇宙

正规方程不仅仅是一个终点；它还是通往一个由高级方法构成的完整宇宙的门户，这些方法是现代计算科学的核心。

首先，当 $A$ 巨大时，我们如何求解 $A^T A \mathbf{x} = A^T \mathbf{b}$ ？在许多机器学习应用中， $A$ 可能有数百万或数十亿个条目。显式地构造 $A^T A$ 可能太慢或需要太多内存。在这些情况下，我们可以转向迭代法。我们不一次性求解系统，而是从一个对 $\mathbf{x}$ 的猜测开始，然后逐步改进它。因为矩阵 $A^T A$ 是对称正定的，所以它非常适合强大的迭代求解器。虽然像高斯-赛德尔法这样的简单方法可以奏效，但大规模问题的真正主力是共轭梯度（CG）法。将CG应用于正规方程（一种常被称为CGNE的技术）是解决科学和工程领域巨大最小二乘问题的基石。

其次，如果我们的问题是如此不适定，以至于 $A$ 的列真正是线性相关的，该怎么办？在这种情况下， $A^T A$ 是奇异的，存在无限多个解。这在反问题中很常见，比如医学成像，我们试图从2D扫描重建3D图像。我们应该选择无限个解中的哪一个呢？

这里我们可以使用一个来自统计学和机器学习的极其强大的思想：正则化。我们不只是要求解最能拟合数据，而是增加第二个条件：我们也希望解向量 $\mathbf{x}$ 本身是“小的”。我们最小化一个修正的目标函数 $\lVert A\mathbf{x} - \mathbf{b} \rVert_2^2 + \alpha^2 \lVert \mathbf{x} \rVert_2^2$ 。这导出了正则化正规方程： $(A^T A + \alpha^2 I)\mathbf{x} = A^T \mathbf{b}$ 魔法就在那个小小的项 $\alpha^2 I$ 中。它在 $A^T A$ 的对角线上增加了一个小的正数，这足以使矩阵可逆，并使解唯一且稳定。正则化参数 $\alpha$ 是一个调节旋钮，让我们能够用微小的数据拟合精度损失换取稳定性和抗噪性的大幅提升。这种技术，也称为吉洪诺夫正则化或岭回归，是现代数据科学的基础。

最后，让我们以一个揭示数学美丽、隐藏统一性的洞见来结束。在某些问题中，我们可能更信任某些数据点。我们可以通过执行加权最小二乘拟合来将这一点构建到我们的模型中，这导出了一个新的正规方程： $(A^T W A) \mathbf{x} = A^T W \mathbf{b}$ ，其中 $W$ 是一个包含我们权重的矩阵。这似乎是一个独特的统计概念。

另外，在数值计算的世界里，有一种称为预处理的技术，用于加速像共轭梯度法这样的迭代求解器。其思想是将一个系统 $M\mathbf{x}=\mathbf{c}$ 转化为一个更容易的系统 $P^{-1}M\mathbf{x}=P^{-1}\mathbf{c}$ ，其中“预条件子” $P$ 的选择是为了使新矩阵 $P^{-1}M$ 具有更好的条件数。

这里是惊人的联系：来自加权最小二乘问题的系统矩阵 $A^T W A$ ，可以被看作是无权系统矩阵 $A^T A$ 的一个精确的预处理版本。统计学上为数据点赋予重要性的行为，在数学上等同于计算中加速数值求解器的行为。正是在发现这些不同知识世界之间意想不到的桥梁时，我们得以一窥我们一直在研究的这些原理的真正优雅和统一的力量。