try ai
科普
编辑
分享
反馈
  • 正规方程

正规方程

SciencePedia玻尔百科
核心要点
  • 正规方程通过在模型的子空间中找到最接近数据的点,为超定系统提供了“最佳拟合”解。
  • 该方法的核心原理是,最佳拟合解的误差向量必须与所有可能的模型输出所构成的空间正交。
  • 一个主要缺点是,构造矩阵 ATAA^T AATA 会使条件数平方,可能导致严重的数值不稳定性和计算精度的损失。
  • 尽管存在数值缺陷,正规方程背后的原理仍然指导着现代机器学习中稳健的技术,如迭代求解器和正则化方法。

引言

在几乎每一个科学和工程学科中,我们都面临一个共同的挑战:我们的理论模型是精确的,但真实世界的数据却并非如此。当我们将模型拟合到含噪声的观测数据时,我们常常会得到一个没有完美解的超定方程组。那么,我们如何从无限多的不完美选项中找到那个唯一的“最佳”答案呢?本文通过探索正规方程这一寻找最优近似解的强大工具,来解答这个基本问题。

本次探索分为两个主要部分。首先,我们将在“原理与机制”一章中揭示正规方程背后优美的理论。我们将从正交投影的直观几何概念过渡到其直接的代数推导,但同时也将直面可能使该方法变得不可靠的内在数值缺陷。随后,“应用与跨学科联系”一章将展示正规方程在现实世界(从经济学到机器学习)中的强大威力与风险,并介绍在其基本原理之上建立起来的、更为稳健的现代方法。

原理与机制

想象一下,你是一名工程师,正在尝试校准一个新的传感器。理论上,当你改变温度时,它的电压输出应该是一条直线,遵循一个简单的关系,如 V=c1+c2TV = c_1 + c_2 TV=c1​+c2​T。你进行了一些测量,但这些测量点并没有完美地落在一条直线上。也许是温度有所波动,或者你的电压表不够完美。你得到了一组看起来几乎呈线性但又不完全线性的点。没有任何一条直线能同时穿过你所有的数据点。你该怎么办?哪条线是“最佳”的呢?

这就是超定系统的经典困境。你的数据(方程)比你要拟合的未知参数(在这个例子中是 c1c_1c1​ 和 c2c_2c2​)更多。大自然以其绚丽的纷繁复杂,给了你一个“不可能”解决的问题。正规方程正是我们为寻找最合理、最美妙,并在一个非常特定的意义上,最接近的可能答案所做的尝试。

最近似的可能世界:几何视角

要真正理解“最佳”意味着什么,我们必须停止将问题看作一堆方程,而开始用几何学的眼光来思考。这正是奇迹发生的地方。让我们将我们的测量值——实际观测到的电压——表示为一个向量,称之为 b\mathbf{b}b。每一次测量都是这个向量的一个分量,所以如果我们进行了三次测量,b\mathbf{b}b 就是三维空间中的一个点。

那么,理论模型呢?模型告诉我们,任何可能的“纯净”信号——即任何一组完美符合方程 V=c1+c2TV = c_1 + c_2 TV=c1​+c2​T(对于某些常数)的电压——都可以写成模型基向量的组合。这些基向量构成了我们称之为 AAA 的矩阵的列。通过选择不同的系数 x=(c1c2)\mathbf{x} = \begin{pmatrix} c_1 \\ c_2 \end{pmatrix}x=(c1​c2​​) 所能生成的所有可能的模型输出,即所有向量 AxA\mathbf{x}Ax 的集合,形成了一个子空间。可以把它想象成一个平面,或者说一个“平面国”,存在于我们观测数据所在的更高维(比如三维)空间中。这个平面被称为 AAA 的​​列空间​​,记为 Col(A)\text{Col}(A)Col(A)。

问题就在这里:你的测量向量 b\mathbf{b}b 并不在那个平面内。由于实验中的噪声和误差,它悬浮在平面的上方或下方。你找不到任何一个参数组合 x\mathbf{x}x,能使得 AxA\mathbf{x}Ax 精确地等于 b\mathbf{b}b。方程组 Ax=bA\mathbf{x}=\mathbf{b}Ax=b 无解。

那么,我们该怎么办?我们放弃寻找完美解。转而寻找次优解:在平面 Col(A)\text{Col}(A)Col(A) 中,距离我们实际观测向量 b\mathbf{b}b 最近的点。这个最近的点,我们称之为 p^\hat{\mathbf{p}}p^​,是 b\mathbf{b}b 在列空间上的​​正交投影​​。产生这个点的系数 x^\hat{\mathbf{x}}x^,就是我们的“最佳拟合”参数。我们将问题从“求解”转变为“寻找最佳近似”。

正交性:最小二乘法的灵魂

我们如何知道何时找到了最近的点?想象一下,你要找到你到一堵大墙的最短距离。你不会沿着墙以一个很小的角度走,而是会笔直地走向它,以直角与墙相交。最短的路径是垂直的那条。

同样深刻的原理也适用于我们的向量空间。我们的观测值 b\mathbf{b}b 与任何近似值 AxA\mathbf{x}Ax 之间的距离是误差向量 e=b−Ax\mathbf{e} = \mathbf{b} - A\mathbf{x}e=b−Ax 的长度。为了使这个距离尽可能小,我们最佳解的误差向量 e^=b−Ax^\hat{\mathbf{e}} = \mathbf{b} - A\hat{\mathbf{x}}e^=b−Ax^ 必须与整个子空间 Col(A)\text{Col}(A)Col(A) ​​正交​​(垂直)。它必须从可能解的“平面”中笔直地伸出。如果它有任何分量落在平面内,我们就可以将近似点 p^\hat{\mathbf{p}}p^​ 沿着那个方向移动,从而更接近 b\mathbf{b}b 一点,这意味着我们还没有找到最小距离。

这个正交性原理是最小二乘法全部的几何核心。“最小二乘”解就是误差向量与所有可能的模型输出所构成的空间成直角的那个解。

从几何到代数:揭示正规方程

这个优美的几何思想可以直接转化为矩阵的语言。为了使误差向量 e^\hat{\mathbf{e}}e^ 与 AAA 的整个列空间正交,它必须与 AAA 的每一个列向量都正交。在线性代数的语言中,e^\hat{\mathbf{e}}e^ 与 AAA 的每个列向量的点积都必须为零。我们可以用一个极其紧凑的形式一次性写出这个针对所有列的条件:

ATe^=0A^T \hat{\mathbf{e}} = \mathbf{0}ATe^=0

这个方程表明,误差向量位于 ATA^TAT 的零空间中,这正是与 AAA 的列空间正交的子空间的数学定义。现在,我们只需代入误差向量的表达式 e^=b−Ax^\hat{\mathbf{e}} = \mathbf{b} - A\hat{\mathbf{x}}e^=b−Ax^:

AT(b−Ax^)=0A^T (\mathbf{b} - A\hat{\mathbf{x}}) = \mathbf{0}AT(b−Ax^)=0

经过一点整理,我们就得到了著名的​​正规方程​​:

ATAx^=ATbA^T A \hat{\mathbf{x}} = A^T \mathbf{b}ATAx^=ATb

就是它了。这不仅仅是一个需要记忆的随机公式。它是我们深刻的几何正交原理的代数体现。我们将寻找最小距离的问题转化为了求解一个新的、方形的线性方程组的问题。矩阵 ATAA^T AATA 是一个方阵(如果 AAA 是 m×nm \times nm×n 矩阵,则它是 n×nn \times nn×n 矩阵),而向量 ATbA^T \mathbf{b}ATb 是一个已知值的向量。我们现在可以求解未知的系数 x^\hat{\mathbf{x}}x^。

完美和谐的世界:正交列的魔力

我们创建的这个新矩阵 ATAA^T AATA 是什么?如果你观察它的元素,你会发现第 iii 行第 jjj 列的元素是 AAA 的第 iii 个列向量与第 jjj 个列向量的点积。这个矩阵,有时被称为格拉姆矩阵(Gram matrix),编码了我们模型基向量之间的几何关系。

现在,考虑一个特殊而美好的情况。如果我们的基向量——AAA 的列——从一开始就相互正交呢?那么任意两个不同列的点积都将为零。在这种情况下,ATAA^T AATA 矩阵就变成了一个​​对角矩阵​​!

当系统矩阵是对角矩阵时,方程组是“解耦”的。每个方程只涉及一个未知系数。求解 x^\hat{\mathbf{x}}x^ 变得异常简单;你只需将 ATbA^T \mathbf{b}ATb 的每个元素除以 ATAA^T AATA 相应的对角元素即可。这个理想情景 告诉我们,为模型选择一个好的、正交的基,会使寻找最佳拟合解变得极其简单。这就像拥有一张南北向和东西向道路完全垂直的地图;导航毫不费力。

隐藏的缺陷:当数字说谎时

尽管正规方程具有几何上的优雅,但它们隐藏着一个黑暗的秘密。在​​数值计算​​的世界里,这是一个警世故事。数学是纯粹的,但我们用来进行计算的计算机工作在有限精度下。微小的舍入误差,就像一台精密机器中的沙粒,会累积起来,有时甚至导致灾难性的失败。不幸的是,正规方程对此非常敏感。

问题在于一个叫做矩阵​​条件数​​的概念,记为 κ(A)\kappa(A)κ(A)。你可以把它看作是矩阵对误差的放大程度的度量。一个条件数低的矩阵是表现良好的。一个条件数高的矩阵是“病态的”;它是一个敏感的放大器,会将微小的输入误差(如舍入误差)变成巨大的输出误差。

这正是正规方程方法的致命缺陷:在构造矩阵 ATAA^T AATA 时,我们不只是在创建一个新矩阵。我们是在将原始问题的条件数平方。 κ(ATA)=(κ(A))2\kappa(A^T A) = (\kappa(A))^2κ(ATA)=(κ(A))2 这是一场灾难。如果你原始的矩阵 AAA 已经有点敏感——比如,它的列几乎是平行的(一种称为近共线性的情况)——条件数为 10710^7107,那么你必须处理的矩阵 ATAA^T AATA 的条件数将是 (107)2=1014(10^7)^2 = 10^{14}(107)2=1014。在标准的双精度算术中,它大约能保持16位十进制数字的精度,如此大的条件数意味着你濒临失去所有的精度。你的计算机给出的答案可能完全是垃圾,即使其背后的理论是完美的。这种“病态条件的平方化”是主要原因,使得在实践中,数值分析家们通常会避免使用正规方程,而倾向于更稳健的方法,如QR分解或奇异值分解(SVD),这些方法直接处理矩阵 AAA,避免了这种敏感性的放大。

雄心的代价:当不存在唯一的最佳解时

如果我们的模型矩阵 AAA 的列不仅仅是近似相关,而是真正的线性相关呢?这意味着我们的某个基向量可以写成其他基向量的组合。我们的模型是冗余的,或者说是“秩亏的”。

在这种情况下,矩阵 ATAA^T AATA 不再可逆;它是​​奇异的​​。正规方程不再有单一的、唯一的解。取而代之的是,存在一整条线、一个平面,或一个更高维的仿射空间,其中所有的向量 x^\hat{\mathbf{x}}x^ 都能得到完全相同的最小误差。它们都产生完全相同的最佳拟合投影 p^\hat{\mathbf{p}}p^​。我们的模型是过参数化的,数据无法区分无限多种不同系数的组合。

正规方程本身束手无策。它们告诉我们有无限多个“最佳”答案,但没有告诉我们该选择哪一个。这是SVD等更先进技术大放异彩的另一个领域,因为它们提供了一种自然的方式,从无限解集中选择那个长度最小的解——一个极其优雅的决胜法则。

最终,正规方程提供了一个深刻的教训。它们从一个简单的几何原理——正交性——到解决现实世界问题的强大代数工具,架起了一座优美的桥梁。但它们也严峻地提醒我们,从纯理论到实际计算的旅程,必须小心翼翼、充满智慧,并对数字那微妙而强大的本性怀有健康的敬畏之心。

应用与跨学科联系

在理解了正规方程优美的几何和代数基础之后,我们可能会觉得我们的旅程已经结束了。我们找到了一个清晰、优雅的公式,来为一个没有完美解的问题寻找“最佳”答案。但正如科学中常有的情况一样,一章的结束仅仅是另一段更丰富故事的开始。要真正欣赏正规方程的力量和精妙之处,我们必须看到它在行动中,观察它如何工作,以及最重要的是,见证它的失败。因为正是在理解一个工具的局限性时,我们才学会如何明智地使用它,并发明出更好的工具。

我们的探索将从繁华的数据分析和经济学世界,延伸到要求苛刻的计算工程和机器学习前沿。我们将看到,简单的表达式 ATAx=ATbA^T A \mathbf{x} = A^T \mathbf{b}ATAx=ATb 不仅仅是一个计算配方;它是一个在数十个学科中回响的统一原则。

在噪声中寻找信号:数据科学的核心

也许正规方程最自然、最广泛的家园是在统计学及其现代体现——数据科学领域。我们每天都被数据淹没——嘈杂、不完美、分散。我们可能有股票价格随时间变化的观测值,病人对药物反应的测量值,或者,在经济学的一个经典例子中,关于家庭消费与可支配收入的数据。原始数据只是图表上的一团点。科学家的工作是找到潜在的趋势,即隐藏在噪声中的信号。

假设我们推断存在一个简单的线性关系,比如消费函数 c=α+βyc = \alpha + \beta yc=α+βy。任何一组真实数据点都不会完美地落在一条直线上。那么哪条线是最佳的呢?最小二乘原理给了我们一个答案:最佳的线是那条使每个数据点到该线的垂直距离的平方和最小的线。这是一个非常直观的几何思想。

奇迹就在这里发生。如果你写下这个最小化问题,并应用微积分的方法——对未知参数 α\alphaα 和 β\betaβ 求导,并令其为零以找到最小值——最终得到的方程正是正规方程!。寻找最近投影的几何探索和寻找最小误差的分析探索,殊途同归。这是数学思想统一性的一个美丽例证。通过求解这个系统,我们不仅得到一条线;我们还得到了 β\betaβ 的一个估计值,即“边际消费倾向”,这是一个具有深远经济意义的数字,可以为政策和理论提供信息。正规方程为从原始、混乱的数据到可操作的洞见架起了一座桥梁。

一座危险的桥梁:病态条件的危害

那么,我们有了一个完美的工具,对吗?只需建立系统 ATAx=ATbA^T A \mathbf{x} = A^T \mathbf{b}ATAx=ATb 并求解即可。对于许多简单的问题,这确实行之有效。但随着我们变得更加雄心勃勃,我们这座优雅的桥梁开始出现裂缝。

考虑尝试用一个多项式来拟合一组数据点。如果我们使用一个高次多项式,或者如果我们的数据点聚集得非常紧密,我们就会遇到一个微妙但危险的问题。我们矩阵 AAA 的列,可能是一个短时间间隔内时间的幂,如 1,t,t2,t3,…1, t, t^2, t^3, \dots1,t,t2,t3,…,开始变得彼此非常相似。矩阵变得“病态”,这个术语意味着它的列几乎是线性相关的。这就像试图用两个几乎在同一方向上的地标来导航一样——测量中的一个微小误差就可能让你偏离航向很远。

这正是正规方程暴露其阿喀琉斯之踵的地方。构造矩阵 ATAA^T AATA 这个看似无害的举动,却带来了一个戏剧性的、毁灭性的数学后果:它将原始矩阵 AAA 的条件数平方。条件数 κ(A)\kappa(A)κ(A) 是衡量一个矩阵问题对误差有多敏感的指标。通过构造 ATAA^T AATA,我们正在解决一个敏感度为 κ(A)2\kappa(A)^2κ(A)2 的问题。

这在实践中意味着什么?想象一个有限元模拟中的典型场景,你的数据矩阵 AhA_hAh​ 的条件数大约是 100010001000。这已经是一个中等程度病态的问题了。但当你构造正规方程时,AhTAhA_h^T A_hAhT​Ah​ 的条件数变成了 10002=1,000,0001000^2 = 1,000,00010002=1,000,000。在标准的双精度算术中,它大约有16位十进制数的精度,一个 10610^6106 的条件数意味着你可以预期在开始求解系统之前就会因舍入误差损失掉大约6位数字。最终计算出的答案可能只精确到9或10个小数位,这完全是由于方法的选择而导致的灾难性精度损失。这就是为什么试图拟合这类多项式的工程师们常常发现他们计算出的系数大得离谱且毫无意义;他们计算的数值基础已经变成了沙子。

这种在概念简单性和数值稳定性之间的权衡,迫使我们寻找其他方法。像QR分解这样的技术在数学上等同于求解最小二乘问题,但它们避免了构造 ATAA^T AATA。它们的计算成本更高——对于一个非常大的数据集,可能大约是正规方程方法的两倍——但它们直接处理原始的、表现更好的矩阵 AAA。在精度至关重要的情况下,这是一个非常值得付出的代价。对著名的病态矩阵(如希尔伯特矩阵或范德蒙德矩阵)的经验测试戏剧性地证实了这一点:QR方法始终比朴素的正规方程方法提供更精确的解。

救赎与重塑:正规方程的现代精神

那么,正规方程的故事是一出悲剧吗?一个美好的想法被有限精度算术的残酷现实所毁坏?完全不是。这是一个进化的故事。正规方程的深刻见解已被改造和重塑,其方式构成了现代大规模计算的基石。

对于现代机器学习的庞大数据集,矩阵 AAA 可能大到我们甚至无法将其存储在计算机内存中,更不用说构造更大(或更稠密)的矩阵 ATAA^T AATA 了。此时,我们转向迭代方法。用于正规方程的共轭梯度法(CGLS或CGNR)是一项巧妙的创造。它是一种能够在不显式计算 ATAA^T AATA 的情况下有效求解正规方程组的算法。相反,在每一步中,它只需要为某些向量 v\mathbf{v}v 和 w\mathbf{w}w 计算 AvA\mathbf{v}Av 和 ATwA^T\mathbf{w}ATw 形式的乘积。它通过采取一系列聪明的步骤来找到最小二乘的最小值,而正规方程则作为每一步“正确”方向的概念指南。正规方程不是计算的路径,而是理论的地图。

此外,我们已经学会了从源头上“修复”病态条件。通常,一个病态问题是数据本身不能唯一支持我们试图拟合的复杂模型的信号。那些狂野、振荡的解是“过拟合”的症状。解决方法是一种称为Tikhonov正则化的技术。我们不再求解 ATAx=ATbA^T A \mathbf{x} = A^T \mathbf{b}ATAx=ATb,而是求解一个略微修改的系统:(ATA+λ2I)x=ATb(A^T A + \lambda^2 I)\mathbf{x} = A^T \mathbf{b}(ATA+λ2I)x=ATb。这个改变做了什么?λ2I\lambda^2 Iλ2I 这一项是对矩阵对角线的一个小的“推动”。这惩罚了具有非常大数值的解 x\mathbf{x}x,有效地抑制了剧烈的振荡。它对条件数的影响是神奇的。当你增加正则化参数 λ\lambdaλ 时,修改后的矩阵变得异常良态,其条件数迅速趋向于完美的数值1。当然,这是以在解中引入少量偏差为代价的。但这种权衡几乎总是值得的:我们接受微量的偏差,以换取大量的稳定性和可靠性。这一个思想是现代机器学习、统计学和反问题的基石。

因此,我们看到正规方程远非历史遗物。它们代表了一个基本原则:最小二乘问题的解位于误差与我们可能解的空间正交的点上。虽然直接、朴素地应用这一原则可能充满数值风险,但该原则本身已成为我们拥有的最强大计算工具的基础之一。从经济学到工程学,从用于海量系统的迭代求解器到驯服不稳定问题的正则化技术,正规方程的精神经久不衰——这是一个真正伟大的数学思想的深度和适应性的永恒典范。