最小二乘近似

玻尔百科

关键要点

最小二乘原理通过最小化观测值与预测值之间的差异（残差）的平方和，来为数据找到“最佳”拟合。
从几何上看，最小二乘解对应于观测向量在模型定义的子空间上的正交投影。
这一几何原理引出了代数形式的正规方程 $(A^T A) \mathbf{x} = A^T \mathbf{b}$ ，它为模型参数提供了直接解。
该方法的多功能性使其可以扩展到加权最小二乘、函数逼近，并作为偏最小二乘（PLS）等高级算法的核心组成部分。

引言

在一个数据泛滥的世界中，从随机噪声中辨别出真实信号是所有科学学科面临的一个根本性挑战。从追踪天体到预测经济趋势，我们不断地面对着暗示着某种潜在模式的分散测量数据。本文要解决的核心问题是：我们如何客观地确定一个单一的“最佳”模型——无论是一条直线、一条曲线，还是一个更复杂的关系——来代表这些噪声数据？答案就在于优雅而强大的最小二乘近似法。本文将对这一数据分析的基石进行全面探讨。在第一章 “原理与机制” 中，我们将深入探讨最小化误差平方和的核心思想，揭示其作为投影的惊人直观的几何解释，并推导出提供解决方案的代数正规方程。随后，关于 “应用与跨学科联系” 的章节将展示该方法非凡的多功能性，演示这一单一原理如何从工程和遗传学到复杂的机器学习算法中处处得到应用，从而巩固了其作为科学发现通用工具的地位。

原理与机制

想象一下，你正试图在现实世界的混乱中寻找一种模式。你进行了一项实验，收集的测量数据似乎遵循某种趋势，但它们是分散的，被现实中不可避免的噪声所污染。你如何找到隐藏在噪声中的真实信号？你如何在一团数据点中画出“最佳”的线？这不仅仅是统计学家的问题；这是物理学家、天文学家、生物学家和工程师每天都要面对的基本问题。答案在于一个非常优雅和强大的思想：最小二乘原理。

问题的核心：最小化误差

让我们从一个简单、具体的任务开始。假设我们正在研究大气压力与水沸点之间的关系。我们测量一个压力 $P$ 并观察到一个沸点 $T$ 。我们怀疑存在一种线性关系，这意味着数据理想情况下应落在一条直线上。但在实践中，我们的测量会略有偏差。我们最终得到的是一个散点图。

我们的目标是画一条线，比如 $\hat{T} = mP + c$ ，来最好地代表这些数据。但“最好”意味着什么？一个自然的想法是看我们的线产生的“误差”。对于任何给定的数据点 $(P_i, T_i)$ ，我们的线预测一个值 $\hat{T}_i = mP_i + c$ 。这个点的误差是观测值与预测值之间的差。我们称之为残差， $r_i = T_i - \hat{T}_i$ 。它是从数据点到我们线的垂直距离。

我们希望使这些残差的总和尽可能小。我们不能简单地将它们相加，因为一些是正的（点在线上方），一些是负的（点在线下方），它们可能会相互抵消，给我们一个误导性的很小的总和。我们可以使用它们的绝对值，但这在数学上会很棘手。

Carl Friedrich Gauss 和 Adrien-Marie Legendre 的伟大见解是，将每个残差平方然后相加。这就得到了残差平方和 (SSE)：

$E = \sum_{i} r_i^2 = \sum_{i} (y_i - \hat{y}_i)^2$

这个单一的数字 $E$ 成为我们衡量“坏”的程度。拟合不好的线会有很大的 $E$ ；拟合得好的线会有很小的 $E$ 。根据最小二乘准则，“最佳”的线是使这个和尽可能小的那一条。它是最小化残差平方和的线。这种方法有两个绝妙的特点：它平等地对待正负误差，并且它对较大误差的惩罚远重于较小误差——一次大的失误被认为比两次小的失误要糟糕得多。更重要的是，这种选择开启了一个惊人优美的几何解释。

几何图像：投影问题

让我们换个角度看问题。这是物理学家们钟爱的技巧。当一个问题陷入僵局时，从另一个角度审视它。与其将在二维平面上的 $n$ 个数据点 $(x_i,y_i)$ 考虑，不如将我们的测量值看作 $n$ 维空间中的一个单一向量。例如，如果我们有四个数据点，我们观测到的 $y$ 值 $(y_1, y_2, y_3, y_4)$ 构成了一个四维空间 $\mathbb{R}^4$ 中的向量 $\mathbf{b}$ 。

那么，我们模型 $\hat{y} = mx + c$ 的预测呢？我们使用线性模型可以做出的所有可能的预测向量集合，在我们的 $\mathbb{R}^4$ 数据空间中形成了一个特定的子空间。例如，所有可能的预测形成了一个由两个向量张成的二维平面：一个代表 $x$ 坐标，另一个代表常数偏移。我们称之为“模型空间”。问题在于，我们的观测向量 $\mathbf{b}$ 是“含噪的”，几乎肯定不位于这个完美的模型平面中。

因此，“什么是最佳拟合线？”这个问题就变成了“在模型空间中，哪个向量 $\hat{\mathbf{b}}$ 与我们的观测向量 $\mathbf{b}$ 最接近？”

几何学给了我们一个清晰明确的答案：最近的点是 $\mathbf{b}$ 在模型空间上的正交投影。

用一种你能可视化的方式来思考。想象一个平面（我们的模型空间）漂浮在你的房间里（数据空间）。你是不在平面上的一个点（你的观测向量 $\mathbf{b}$ ）。你到平面的最短距离是一条以直角触及平面的直线。它触及的点就是投影，即我们的最佳估计 $\hat{\mathbf{b}}$ 。在最小二乘的背景下，这意味着残差向量 $\mathbf{r} = \mathbf{b} - \hat{\mathbf{b}}$ ——一次性代表我们所有误差的向量——必须与模型空间正交（垂直）。这就是正交性原理，它是最小二乘方法的几何灵魂。这是一个纯粹的几何条件：误差向量必须与我们的模型可能产生的每一个向量成直角。

从几何到方程：正规方程

这个几何见解很美，但我们如何用它来计算我们直线的斜率和截距呢？我们把它翻译回代数和矩阵的语言。

让我们将所有数据点的方程组写成矩阵形式： $A\mathbf{x} \approx \mathbf{b}$ 。这里， $\mathbf{b}$ 是我们观测到的 $y_i$ 值的向量。向量 $\mathbf{x}$ 包含我们想要找到的参数（例如， $\begin{pmatrix} m \\ c \end{pmatrix}$ ）。矩阵 $A$ 包含决定模型结构的相应 $x_i$ 值。对于线性拟合，它看起来像这样：

$A = \begin{pmatrix} x_1 & 1 \\ x_2 & 1 \\ \vdots & \vdots \\ x_n & 1 \end{pmatrix}$

模型的预测是 $A\mathbf{x}$ 。残差向量是 $\mathbf{r} = \mathbf{b} - A\mathbf{x}$ 。正交性原理指出，这个残差向量 $\mathbf{r}$ 必须与 $A$ 的列空间正交。在矩阵代数中，这可以被优美地表述为：

$A^T \mathbf{r} = \mathbf{0}$

代入 $\mathbf{r} = \mathbf{b} - A\mathbf{x}$ ，我们得到 $A^T (\mathbf{b} - A\mathbf{x}) = \mathbf{0}$ 。稍作整理，我们就得到了著名的正规方程：

$(A^T A) \mathbf{x} = A^T \mathbf{b}$

这是一个宏伟的结果。我们从一个“无解”的超定系统 $A\mathbf{x} \approx \mathbf{b}$ 出发，通过一个简单的几何原理，推导出了一个完全可解的系统，用于求解最佳拟合参数 $\mathbf{x}$ 。矩阵 $M = A^T A$ 和向量 $\mathbf{d} = A^T \mathbf{b}$ 可以直接从我们的数据中计算出来。只要矩阵 $A^T A$ 是可逆的——这当且仅当 $A$ 的列是线性无关时（意味着我们的模型参数不是冗余的）才会发生——我们就能为我们的最佳拟合线找到一个唯一解。

对于实际计算，特别是对于舍入误差可能累积的大型数据集，数学家们开发了更稳健的方法，如QR 分解。这种技术重新组织问题以避免直接计算 $A^T A$ ，从而获得一个数值上更稳定的求解过程。但其基本原理保持不变。

超越直线：最小二乘的统一力量

故事在这里变得更加精彩。我们建立的框架——最小化平方误差、投影到模型空间、求解正规方程——并不仅限于拟合直线。它的力量在于其惊人的普适性。

加权最小二乘：如果我们知道某些测量值比其他测量值更可靠怎么办？我们可以执行加权最小二乘，其中我们最小化的是残差平方的加权和。这就像告诉我们的算法要“更多地关注”我们信任的数据点，通过在和中给予它们的误差更大的权重。这只需将正规方程修改为 $A^T W A \mathbf{x} = A^T W \mathbf{b}$ ，其中 $W$ 是我们置信度权重的对角矩阵。
函数逼近：这个思想甚至不限于离散的数据点！假设你有一个复杂的函数，比如一种特殊设计导线的电阻率，你希望用一个更简单的函数，比如一个常数值 $\rho_{\text{eff}}$ 来近似它。选择哪个常数是最好的？最小二乘原理说，你应该选择那个能最小化整个导线长度上平方差的积分的常数。令人惊讶的结果是，这个最优值就是函数在该区间上的平均值。这将最小二乘与积分学联系起来，并为傅里叶级数等更高级的技术奠定了基础，在这些技术中，我们用正弦和余弦的和来近似函数。

从在散点中寻找一条线，到近似复杂的函数，最小二乘原理提供了一种单一、统一的语言。它定义了“最好”的含义，并为我们提供了一条具体的、几何的和代数的路径来找到它。它证明了在科学中，即使是处理杂乱数据的最实际的问题，也能引出深刻而优美的数学真理。为了窥见更广阔的前景，我们甚至可以考虑测量误差也可能存在于我们的 $x$ 值和 $y$ 值中，这导向了一种被称为整体最小二乘的深刻推广，证明了在寻找模式的发现之旅远未结束。

应用与跨学科联系

理解了最小二乘的原理和机制后，我们可能会觉得自己掌握了一个有用的数学工具。但这样想，就如同看到一把精美的钥匙，却尚未意识到它能打开无数扇门。最小二乘法的真正美妙之处不仅在于其优雅的几何和代数基础，更在于其惊人的普遍性和多功能性。它不仅仅是拟合直线的工具；它是在一个总是嘈杂、复杂和信息过载的世界中提取知识的基本原则。现在，让我们踏上一段旅程，看看这个单一思想如何在科学和工程的版图上绽放。

画线的艺术：从咖啡店到宇宙

从本质上讲，最小二乘就是从一堆散乱的事实中讲述最简单、最诚实的故事。想象一下，你正在追踪冰淇淋销量与每日温度的关系。在任何一天，销量可能比特定温度下的预期稍高或稍低，但随着时间的推移，一个清晰的趋势出现了：天气越热，销量越高。数据点不会完美地落在一条直线上——世界太混乱了。还有其他因素：当地的节日、一场阵雨、竞争店铺的特价优惠。最小二乘法为我们提供了一种形式化、客观的方法来画出穿过这片数据云的“最佳”直线，这条线在特定意义上同时最接近所有点。

这正是一个简单的商业分析问题中所探讨的情景。通过最小化每个数据点到我们线的垂直距离的平方和，我们找到了定义该趋势的唯一斜率和截距。斜率告诉我们，“温度每升高一度，我们预计多卖出约 $3.2$ 个单位。” 截距可能告诉我们在 $0^{\circ}\text{C}$ 时的（也许是无意义的）销量。这种简单的线性拟合是预测模型的基础，从经济学中预测GDP，到天文学中校准恒星颜色与其亮度的关系，无处不在。它让我们能够量化地把握支配我们世界的关系。

更诚实的评估：为我们的信念加权

基本方法将每个数据点都视为同等可信。但这总是公平的吗？假设你是一位正在表征新型压力传感器的工程师。通过仔细的实验，你可能会发现传感器在低压下的读数非常精确，但在非常高的压力下会变得有点不稳定和“嘈杂”。用统计学的语言来说，测量误差的方差不是恒定的——这种情况被称为异方差性。

一个在高压下高度不确定的测量值，是否应该与一个在低压下非常精确的测量值对我们的模型产生相同的影响？直觉上，不应该。我们应该更信任精确的点。加权最小二乘（WLS）提供了完美的解决方案。我们不是最小化简单的残差平方和 $\sum \epsilon_i^2$ ，而是最小化一个加权和 $\sum w_i \epsilon_i^2$ 。那么最佳的权重是什么呢？在一个数学上优雅的转折中，它们被证明与每个测量的方差成反比： $w_i \propto 1/\sigma_i^2$ 。方差高的点（不太可信）被赋予较小的权重，而方差低的点（更可信）被赋予较大的权重。这不仅仅是一个临时的修正；在这些条件下，这被证明是拟合模型的最佳方法，能产生最精确的估计。这个原则可以扩展到任何我们有理由相信部分数据质量高于其他部分的情况。

类似的想法出现在一个更动态的背景中：信号处理。想象一下，你试图识别一个电子系统的特性，但输出测量值不是被简单的白噪声破坏，而是被一种“有色”噪声——一种随时间具有结构或记忆的噪声——所破坏。一个朴素的最小二乘拟合会被误导，被相关的误差所偏置。聪明的解决方案是一个两阶段过程。首先，你“倾听”噪声并为其结构建立一个模型。然后，你对所有数据应用一个“预白化”滤波器。这个滤波器被设计用来精确抵消噪声中的相关性，将问题转化回具有简单、不相关误差的理想情况。再一次，通过理解我们不确定性的性质，我们调整了最小二乘法以恢复其功效和准确性。

超越点和线：逼近函数世界

到目前为止，我们谈论的是拟合数据点。但如果我们想逼近一个完整的函数呢？假设我们有一个复杂的函数，比如 $f(x) = \exp(x)$ ，并且出于计算速度或简便性的原因，我们想在像 $[-1, 1]$ 这样的区间上找到它“最佳”的直线逼近。这里的“最佳”到底意味着什么？

最小二乘原理得到了优美的推广。我们不是对离散点上的平方误差求和，而是在整个区间上对平方误差进行积分。我们寻求直线 $y = mx+b$ 来最小化 $\int_{-1}^{1} (\exp(x) - (mx+b))^2 dx$ 。这可能看起来像一个棘手的微积分问题，但从线性代数的角度看，它变得非常简单。像 $1$ 和 $x$ （以及更高阶的幂、正弦和余弦）这样的函数可以被看作是无限维空间中的向量。如果我们选择一组“正交”的基函数，比如勒让德多项式，找到最佳逼近就变得像找到我们的目标函数在每个基函数上的投影一样简单。我们逼近多项式的系数就是这些投影的结果。这一强大的思想构成了傅里叶分析和大部分数值分析的基础，使我们能够用几个简单的、精心选择的项来表示极其复杂的函数。

现代统计学的引擎：解决棘手问题

最小二乘的天才之处还在于：它可以作为更复杂算法的核心引擎，使我们能够解决表面上看起来与线性回归毫无关系的问题。考虑广义线性模型（GLMs）这个广阔的世界。这些模型使我们能够将预测变量与一个非连续数值的结果联系起来，例如二元的“是/否”选择或事件计数。

直接的最小二乘拟合是不可能的。解决方案是一种巧妙的迭代过程，称为迭代重加权最小二乘（IRLS）。该算法从对模型参数的猜测开始。基于这个猜测，它计算出一个“工作响应”变量和一组权重。关键在于，这个工作响应的构造方式使得寻找参数的下一个、更好的猜测等同于解决一个简单的加权最小二乘问题。然后，它使用这个WLS问题的解作为新的猜测并重复此过程。每次迭代都迈出一小步，简单的一步，由WLS引导，而这一系列步骤收敛到那个更困难的非线性问题的解。这是一个令人惊叹的数学自举的例子，其中一个更简单的工具被反复使用来攻克一个更复杂的挑战。

驾驭数据洪流：高维预测与解释

从基因组学到金融学，现代科学的特点是数据泛滥。我们常常有成千上万，甚至数百万个变量（预测变量）的测量值，但样本数量却很少。想象一下，试图根据20,000个基因的表达水平来预测患者对药物的反应，而只使用了100名患者的数据。标准的最小二乘法在这种“高维”设置中完全失效。

在这里，对最小二乘法的一个巧妙修改再次挺身而出：偏最小二乘（PLS）回归。PLS不是天真地使用所有数千个预测变量，而是首先试图将信息提炼成少数几个“潜变量”。但与其他仅关注预测变量方差的方法不同，PLS明确地在预测变量空间中寻找与我们试图预测的响应变量具有最大协方差的方向。它只关注对我们目标有意义的变异。

这种方法在计算生物学和化学计量学中非常强大。我们可以用它来根据基因代码的特征预测一个基因将产生的蛋白质数量。但PLS不仅仅是一个黑箱预测机器。因为潜变量是由原始预测变量构建的，所以它们可以被解释。在一项关于癌症耐药性的研究中，一个PLS模型可能不仅能预测一个细胞系对药物的敏感性，而且第一个潜变量可能会被发现是参与特定代谢途径的基因的加权平均值。这为耐药性的机制提供了一个直接的、数据驱动的假设。PLS将最小二乘法从一个单纯的曲线拟合器转变为一个在复杂系统中进行科学发现的工具。

揭示自然法则：遗传学案例研究

也许最深刻的应用是当最小二乘法帮助我们测量自然界的一个基本常数时。思考遗传学中“遗传力”的概念：我们所看到的像身高或作物产量这样性状的变异中，有多大比例是由于遗传差异造成的？

一个优雅的测量方法是通过人工选择实验。经过多代，育种者可能只选择最大的个体作为下一代的亲本。这些被选中的亲本的平均值与整个种群平均值之间的差异是“选择差”， $S$ ——衡量育种者推动力度的指标。下一代后代平均体型的相应变化是“选择响应”， $R$ 。著名的育种家方程阐明了一个简单的线性关系： $R = h^2 S$ ，其中 $h^2$ 是实现遗传力。

在实验进行了多代之后，科学家得到了一组数据点：随时间累积的选择压力，以及种群的累积响应。通过将累积响应对累积选择差作图，并使用最小二乘法拟合一条通过原点的直线，该直线的斜率提供了对 $h^2$ 的直接估计。一个简单的统计程序，应用于一个精心设计的实验，使我们能够窥视进化的机制，并为其最基本的参数之一赋予一个数值。

从店主的账本到生命的蓝图，最小二乘法提供了一条共同的线索，一种将数据转化为洞察，将噪声转化为信号，将相关性转化为理解的通用语言。其持久的力量在于数学的简单性与应用的深刻性的完美结合。