最小二乘拟合

玻尔百科

定义

最小二乘拟合是一种统计方法，通过寻找使观测数据与预测值之间的误差平方和最小化的参数来确定最佳拟合模型。这一核心原理具有高度的适应性，常用于分析非线性关系和高维数据，并可通过加权最小二乘等扩展方法处理非均匀误差。该技术是数据分析和建模领域的基础方法，能够通过正则化手段防止过拟合。

核心要点

最小二乘法通过找到使观测数据与预测值之间平方误差和最小化的参数来确定最佳拟合模型。
它通过加权最小二乘法 (WLS) 处理非均匀误差，以及通过正则化防止复杂模型过拟合等扩展方法，来应对现实世界的数据挑战。
其核心原理具有高度的适应性，构成了分析非线性关系、高维数据 (PLS) 甚至复杂因果推断问题的基础。

引言

在一个充满不完美数据的世界里，我们如何从噪声中发现隐藏的真实信号？从绘制行星轨迹的天文学家到追踪药物疗效的生物学家，研究人员不断面临分散的数据点，并且必须确定其潜在关系。最小二乘法正是为解决这一问题而开发的基础统计技术。它提供了一种稳健而优雅的方法来将模型拟合到数据，已成为现代科学、工程和机器学习的基石。本文旨在通过探索其核心逻辑和卓越的适应性，揭开这一强大方法的神秘面纱。

我们的探索之旅始于最小二乘法的原理与机制。我们将揭示最小化平方误差和这一简单思想如何导向“最佳”拟合，并审视由此产生的优美几何特性。我们还将讨论该方法如何通过偏差-方差权衡和正则化等巧妙的扩展来应对含噪数据的挑战。随后，文章将转向应用与跨学科联系，展示这一基本概念如何被用于解决复杂的现实世界问题。我们将看到它在生物化学中拟合非线性曲线、在基因组学中处理高维数据，甚至在旨在推断因果关系的方法中充当关键组成部分。

原理与机制

想象一下，你是一位 19 世纪初的天文学家，正在追踪一个新发现天体的轨迹。你手头有少量观测数据——图表上代表其在不同时间位置的点。这些点并不完美；你的望远镜会晃动，大气会闪烁，你的时钟也并非完全精确。这些点并不完全落在一条直线上或一条平滑的曲线上。然而，基于物理定律，你坚信其潜在轨迹是简洁而优雅的。你的任务是在这片分散的数据云中画出最合理的轨迹。你如何找到“最佳”的那一条？

这正是最小二乘法旨在回答的根本问题。这不仅是一个关于画线的故事，更是一个关于在噪声中寻找信号、建立世界模型的故事，以及一个单一、优美的数学思想如何成长为现代科学技术基石的故事。

“最佳”的标准

让我们从最简单的情况开始：我们有一组数据点 $(x_i, y_i)$ ，并且我们怀疑它们之间存在线性关系，即一条形如 $y = mx + b$ 的直线。对于我们绘制的任何一条直线，大多数点都不会恰好落在其上。观测数据点 $(x_i, y_i)$ 与直线之间的垂直距离被称为残差或误差。对于给定的 $x_i$ ，直线预测的值为 $y_{\text{predicted}} = mx_i + b$ ，因此残差为 $e_i = y_i - y_{\textpredicted} = y_i - (mx_i + b)$ 。

其中一些残差将是正的（点在线的上方），另一些将是负的（点在线的下方）。我们如何将它们组合成一个单一的数值来衡量整体的“拟合优度”呢？我们不能简单地将它们相加，因为正误差和负误差会相互抵消，一条糟糕的直线最终可能得到总误差为零的结果。

我们需要让所有误差都变为正值。我们可以取它们的绝对值之和，即 $\sum |e_i|$ 。这是一个完全合理的方法。然而，伟大的数学家 Adrien-Marie Legendre（以及独立地，Carl Friedrich Gauss）提出了另一种方法：为什么不将误差平方后相加呢？这样我们就得到了平方误差和 (SSE)：

$E(m, b) = \sum_{i=1}^{N} e_i^2 = \sum_{i=1}^{N} (y_i - (mx_i + b))^2$

这个选择可能看起来有些随意，但它带来了绝佳的后果。对误差进行平方有两个作用：它使所有的贡献都为正，并且它对大误差的惩罚远重于小误差。一个远离直线的点会对总误差产生不成比例的贡献，从而将“最佳”直线拉向它。更重要的是，这个 SSE 函数在所有可能的斜率和截距构成的空间中，原来是一个平滑的碗状曲面。而寻找一个光滑碗底是微积分中的一个标准问题。

最小二乘原理指出，最佳拟合直线是使这个平方误差和最小化的那一条。对于任何两条相互竞争的直线，我们只需计算它们各自的 SSE；SSE 较小的那条就是更好的拟合。那条具有绝对最小可能 SSE 的唯一一条直线，就是我们所说的最小二乘回归线。

拟合的隐藏几何学

最小化 SSE 的过程会导出一组关于最优斜率 $m$ 和截距 $b$ 的方程，称为正规方程。虽然其推导需要微积分，但结果揭示了一种优美而隐藏的几何学。

首先，一个显著的特性出现了：最小二乘直线保证穿过数据的“质心”，即点 $(\bar{x}, \bar{y})$ ，其中 $\bar{x}$ 是所有 $x$ 值的平均值， $\bar{y}$ 是所有 $y$ 值的平均值。就好像整个数据点云完美地平衡在回归线上，并以其均值点为支点。这意味着通过平移原点来改变坐标系并不会改变关系的基本斜率。

第二个，甚至更令人惊讶的特性是，最小二乘直线的残差之和恰好为零。线上方的正误差与线下方的负误差完美抵消。这不是我们做出的假设；这是最小化过程的直接结果。这个特性是如此基本，以至于如果我们知道回归线和除一个数据点之外的所有数据点，我们就可以利用这个事实来推断出缺失的值。

这些特性暗示了回归与相关性概念之间存在更深的联系。如果我们拟合一条直线来从 $x$ 预测 $y$ ，我们是在最小化垂直误差。如果我们尝试从 $y$ 预测 $x$ 呢？那时我们将最小化水平误差，并且我们会得到一条不同的直线！这起初似乎令人费解。然而，如果我们首先对数据进行标准化（使得 $x$ 和 $y$ 的均值都为 0，标准差都为 1），情况就会变得豁然开朗。预测 $y$ 关于 $x$ 的直线的斜率恰好就是皮尔逊相关系数 $r$ 。而预测 $x$ 关于 $y$ 的直线斜率为 $1/r$ （在标准的 y-vs-x 图中）。只有当相关性完美时（ $r=1$ 或 $r=-1$ ），这两条线才是相同的，它们之间的夹角为关系中的“模糊性”或不确定性提供了一个优美的几何度量。

应对充满噪声的世界

在现实世界中，数据从不完美。测量值会被噪声污染。为什么在面对这种噪声时，最小二乘法是如此好的策略？为什么不直接使用一个更灵活的模型，比如一个高次多项式，画一条恰好穿过每一个数据点的曲线呢？这种完美的拟合被称为插值。

答案在于拟合数据和建模潜在真实情况之间的关键区别。当数据含有噪声时，插值曲线会勤勉地追踪每一个颠簸和摆动，不仅拟合了潜在的信号，也拟合了随机噪声。这种现象被称为过拟合，它产生的模型在其见过的数据上看起来完美，但对新数据的预测却极其不准确。它的预测具有非常高的方差，因为它们对训练集中的特定噪声过于敏感。

相比之下，最小二乘回归起到了平滑器的作用。它不坚持穿过每一个点。它承认噪声的存在，并寻求更简单、潜在的趋势。这引入了微量的“偏差”（直线不完美匹配观测数据），但它显著降低了其预测的方差。这就是著名的偏差-方差权衡。对于像生物医学实验那样充满噪声的数据，一个复杂度受控的回归模型在推广到新情况时，几乎总是比一个“记住”了噪声的完美插值器表现得更好。

基本的最小二乘法假设所有数据点的噪声是一致的。但如果不是呢？在许多现实世界的情境中，误差的大小取决于测量本身。例如，在分析化学中，测量高浓度时的误差通常远大于测量低浓度时的误差。这被称为异方差性，它在残差图中通常表现为“扇形”或“锥形”，即残差的垂直散布随着预测值的增加而增加。

最小二乘原理对此有一个优雅的解决方案：加权最小二乘法 (WLS)。其思想简单而直观：如果某些点比其他点更可靠（方差更小），那么它们在决定直线时应该有更大的发言权。我们通过给每个平方误差一个权重来修改 SSE，权重通常是其方差的倒数，即 $w_i = 1/\sigma_i^2$ 。然后我们最小化这个加权和。这样一来，那些充满噪声、不太可靠的点被降低了权重，对最终直线的影响力也减小了。

原理的力量

最小化平方和的原理并不仅限于直线。我们可以用它来拟合抛物线 ( $y = ax^2 + bx + c$ )、三次曲线或任何多项式。其数学是自然的延伸；我们仍然只是在最小化一个平方误差和来找到最佳的系数。

然而，这种能力也伴随着危险。一个高次多项式极其灵活，可以剧烈地摆动以拟合数据点。这可能导致严重的过拟合，曲线在数据点之间疯狂振荡。即使对于完全无噪声的数据也是如此，这是一个著名的问题，称为龙格现象 (Runge's phenomenon)。我们如何利用多项式的灵活性而不让它们失控呢？

答案是现代机器学习中最重要的思想之一：正则化。我们在最小二乘目标函数中增加一个“惩罚项”。我们不再仅仅最小化 SSE，而是最小化 $\text{SSE} + \lambda \times (\text{对系数的惩罚})$ 。例如，在岭回归中，惩罚是多项式系数的平方和。这个新目标强制进行一种权衡：模型必须仍然很好地拟合数据（小的 SSE），但同时不鼓励使用导致剧烈振荡的大系数。这个简单而优雅的补充驯服了多项式，从而得到一个更平滑、更合理的拟合。

最小二乘思想的力量是如此深远，以至于它构成了许多更高级方法的计算核心。例如，广义线性模型 (GLMs) 允许我们建模那些非连续且非正态分布的数据——比如二元的“是/否”结果或计数数据。这些模型通过一个称为迭代重加权最小二乘法 (IRLS) 的过程来拟合。在算法的每一步，问题都被巧妙地转化为一个等价的加权最小二乘问题，然后解决该问题以更新参数。

从通过几个散点画一条线，到现代统计建模的核心，最小二乘原理经久不衰。它证明了一个单一、优美的数学思想所拥有的力量，能够为混乱带来秩序，并从一个复杂而充满噪声的世界中找到隐藏的简单真理。

应用与跨学科联系

在掌握了最小化平方误差这一优雅原理之后，我们可能会倾向于认为它只是一个简单工具，用于完成一项简单的任务：在点云中画出最佳的直线。在其最纯粹的形式中，它确实如此——一个美妙而简单的思想。但最小二乘原理真正的天才之处不在于其简单性，而在于其深刻的适应性。就像一首宏大交响乐中一个单一而有力的主旋律，这个核心思想以无数种变体反复出现，每一种都为解决远离简单或直线的复杂现实世界问题而量身定制。

这段应用之旅是一次科学创造力的巡礼。我们将看到这一个概念如何成为经济学家、生物学家、医生和工程师们的可靠伙伴，帮助他们在现实的噪声中找到隐藏的信号。

从直线到自然曲线

最小二乘法最直接的用途是寻找线性趋势，这项任务在商业和科学中如此普遍，几乎已成为第二天性。分析师可能会绘制冰淇淋销量与温度的关系图，最小二乘法提供了描述这种关系的权威性直线，使他们能够预测温度每升高一度，预计能多卖出一定数量的单位。它甚至可以提供一些有趣（尽管有时是推测性的）的预测，比如销量降至零的理论温度——这虽然是一个简单的外推，但仍然展示了模型的预测能力。

但自然界很少如此线性。通常，科学理论预测的是曲线，而非直线。想象一位生物化学家正在监测像肝素这样的药物的有效性。该药物通过抑制一种酶来发挥作用，而随着药物浓度的增加，该酶的反应速率预计会呈指数衰减。强行用一条直线来拟合这些数据，就等同于忽视了其底层的生物化学原理；拟合效果会很差，预测也会变得毫无意义。

在这里，我们看到了适应性的第一束火花。“线性”最小二乘法中的“线性”指的是参数，而不一定是变量。通过对反应速率取自然对数，指数曲线被奇迹般地拉直了！在这个新的、变换后的空间里，问题变得线性化，我们又可以应用可靠的最小二乘法来找到最佳拟合的指数模型。这个简单的变换技巧为分析广阔的“曲线”关系领域打开了大门，让我们的模型能够尊重系统的基础科学。

然而，有时一种关系本质上是非线性的，无法通过简单的数学技巧拉直。想象一下为一项新能源技术（如太阳能电池板或风力涡轮机）的成本建模。数十年的证据表明，随着我们生产更多某项技术，其成本会因“边做边学”而下降。一个常见的模型表明，成本会下降，但最终会趋近一个渐近底线——一个永远不会跌破的最低成本。这个模型在其参数上是内在地非线性的。我们不能简单地将其变换成一条直线。

这需要我们工具的演进：非线性最小二乘法 (NLS)。其指导原则完全相同——最小化平方误差和——但执行起来更具挑战性。没有简单的一步到位公式。相反，我们必须使用迭代计算机算法来“搜索”参数的最佳组合。这引入了新的复杂性，例如需要好的初始猜测值，以及可能陷入并非真正最佳拟合的“局部最小值”的危险。此外，它迫使我们面对一个更深层次的问题：我们的模型是否“可识别”？也就是说，根据我们的数据，我们能否唯一地确定参数的值？如果我们关于技术成本的数据只覆盖了早期阶段，那么可能无法区分高学习率与低底线成本和低学习率与高底线成本。NLS 是一个强大的工具，但它对我们提出了更高的要求，提醒我们更大的模型灵活性伴随着更大的责任。

驯服现实世界数据的混乱

教科书中干净数据和简单模型的有序世界是一个安静的地方。而科学测量的现实世界则是一个熙熙攘攘、充满噪声的集市。最小二乘框架以其高级形式，为驾驭这种混乱提供了工具。

群体的证言：加权最小二乘法

并非所有数据点都是生而平等的。一位研究 50 个不同县的空气污染与死亡率之间联系的流行病学家就直接面临这个问题。从一个拥有 1000 万居民的县计算出的死亡率，远比从一个只有 1 万居民的农村县计算出的死亡率要精确。后者受到更多的随机波动影响。我们应该同等地信任这两个数据点吗？

常识告诉我们不应该，而加权最小二乘法 (WLS) 则为这种直觉提供了数学上的体现。它允许我们为每个数据点分配一个“权重”，告诉算法应该多大程度上关注其误差。通过给人口更多县的数据赋予更大权重，我们实际上是在告诉模型“更仔细地倾听”更可靠的证据。最终得到的回归线更加稳健，被我们最信任的数据所吸引，从而为我们提供了对污染对健康真实影响的更准确估计。

当两边都不可靠时：变量含误差问题

当我们的任何测量值都无法完全信任时，一个微妙而深刻的挑战便出现了。普通最小二乘法 (OLS) 的运作基于一个关键假设：预测变量（ $x$ 轴）是完全已知的，所有误差都在响应变量（ $y$ 轴）中。但如果这并非事实呢？

考虑一下现代校准新型可穿戴健康追踪器与医院级金标准（如心电图机）的挑战。可穿戴设备和心电图机都不完美；两者都受到来自运动、电干扰和其他因素的随机测量误差的影响。如果我们天真地使用 OLS 将金标准的读数对可穿戴设备的读数进行回归，我们就会掉入“变量含误差”的陷阱。可穿戴设备数据中的误差会系统性地使我们的斜率估计产生偏差，将其“衰减”至零。我们会错误地得出结论，认为该可穿戴设备的响应性比实际要差。

这是一个关键的洞见：当两个测量值都含有噪声时，OLS 是错误的工具。这促进了其他方法的发展，如 Passing-Bablok 回归，这些方法旨在处理两个变量中的误差，并提供对关系的无偏估计。这是一个强有力的提醒，要时刻质疑我们的假设，因为一个看似微小的违背就可能导致我们得出根本错误的结论。

数据洪流：偏最小二乘法

在许多现代领域——基因组学、放射组学、化学计量学——我们面临的不是数据短缺，而是数据泛滥。一位系统生物学家可能拥有数千个基因和蛋白质的表达水平，所有这些都是为了预测一个单一的结果，比如癌细胞对药物的敏感性。一位放射科医生可能从肿瘤图像中提取数千个纹理特征来预测其侵袭性。

在这里，我们的变量数量远多于样本数量 ( $p \gg n$ )，并且许多变量彼此高度相关。这种“多重共线性”使得 OLS 在数学上无法实现；该系统是严重欠定的。这就像试图用五十个方程解一千个未知数。

偏最小二乘法 (PLS) 是解决这种“维度灾难”的绝妙方案。PLS 并不试图一次性将所有一千个预测变量与结果关联起来，而是采用一种更具战略性的两步法。首先，它将预测变量的海洋提炼成少数几个新的“潜变量”。但——这是关键部分——它不只是创建任何摘要。它特别构建这些新变量，使其与我们试图预测的结果具有最大可能的协方差。它在预测变量数据中寻找与响应最相关的模式。

一旦这些强大的潜变量被构建出来，PLS 就执行一个简单的第二步：它将结果对这小组新的、不相关的变量进行回归。多重共线性问题消失了，而 $p \gg n$ 的问题也完全被规避了。PLS 是降维和回归的巧妙结合，证明了核心的最小二乘思想如何能够适应现代“大数据”的高维世界并茁壮成长。

因果发现的引擎

或许，最小二乘原理最令人惊叹的应用是它在推断因果关系的复杂方法中扮演核心引擎的角色。例如，在人工育种计划中估计选择响应，让数量遗传学家能够计算实现遗传力——衡量后代在被选择性状上与亲本相似程度的指标。这通常被估计为累积进化响应对累积选择强度的回归斜率，这是直接而有力地使用最小二乘法来估计生物系统基本参数的一个例子。

一个更深刻的例子来自现代流行病学。想象一下，试图确定一种长期给药的治疗方法的因果效应，其中每一步继续治疗的决定都取决于患者不断变化的健康状况。这就产生了一个被称为“时变混杂”的复杂反馈循环网络。患者对第一剂药物的反应可能会影响其健康状况，而该健康状况又反过来影响医生给予第二剂药物的决定。仅仅在标准回归中对健康状况进行调整可能会引入偏差并导致错误的答案。

一个强大的解决方案是使用逆概率处理加权 (IPTW) 来创建一个“伪群体”，在这个群体中混杂被打破。在这个假设的群体中，每个时间点的治疗与患者之前的健康状况是独立的。那么我们如何分析这个精心构建、重新加权的伪群体呢？最后一步通常是一个简单的加权最小二乘回归。谦逊的最小二乘法，在因果推断的深刻逻辑指导下，最终成为我们估计治疗的无偏因果效应的工具。

从图表上的一条简单直线到因果推断和高维数据分析的核心，最小二乘法的旅程是一个科学进步的故事。其持久的力量来自于它将一个简单、直观的核心与变色龙般的适应能力相结合，为我们向周围世界提出问题提供了一种统一且出人意料强大的语言。