
在几乎所有定量领域,从工程学到经济学,我们都面临着一个根本性挑战:如何理解不完美的数据。我们创建模型来描述世界,但我们的测量不可避免地受到噪声的污染,导致数据点的数量多于模型中的参数数量。这导致了一个没有精确解的超定方程组。那么,我们该如何找到能够最好地代表隐藏在含噪声观测数据中潜在现实的模型呢?一个模型是“最佳拟合”又意味着什么?
本文通过探索最小二乘法的理论和应用来解决这个基础性问题。它为理解这一数据分析的基石提供了全面的指南。第一章 “原理与机制” 深入探讨了最小化平方误差的核心思想,将这一概念转化为几何学和线性代数的强大语言,并探索了寻找解决方案的稳健方法。随后的 “应用与跨学科联系” 章节揭示了最小二乘原理非凡的多功能性,展示了它如何支撑从基本曲线拟合和信号处理到高级机器学习算法的方方面面。读完本文,您将了解这个优雅的数学概念如何为从充满不完美信息的世界中提取真理提供一个统一的框架。
想象一下,你是一名工程师,正在追踪一个发射物体的轨迹。你心中有一个模型,比如一个关于高度随时间变化的简单二次方程 。你的任务是找到系数 和 。如果你恰好有三个数据点,你就可以精确地解出这三个未知数。但在现实世界中,你不会只进行三次测量;为了确保准确性,你会进行很多次。假设你有四个、十个或一百个数据点。
当你试图将所有这些测量值代入你的模型时,你很快就会碰壁。每个数据点 都会生成一个方程:。由于数据点的数量多于未知系数的数量,你就得到了一个超定线性方程组。因为不可避免的测量噪声——一阵风、传感器的一个小故障——你的点不会完美地落在任何一条抛物线上。这个方程组,我们可以用矩阵形式优雅地写成 ,是没有解的。数据,以其美丽而混乱的现实,与你模型的纯净世界相矛盾。
那么,我们该怎么办?放弃吗?宣布模型无用?当然不。我们要做科学家和工程师一直在做的事情:我们寻找最佳的折衷方案。我们寻求一组系数,它不一定能完美满足任何一个方程,但能产生一个在整体上最接近所有数据点的模型。但这引出了一个关键问题:“最接近”是什么意思?
这个问题的答案,是由 Carl Friedrich Gauss 和 Adrien-Marie Legendre 在 19 世纪初独立构想出的天才之举,即最小二乘原理。这个想法既简单又强大。对于任何一组提议的系数,我们的模型都会在每个时间点 预测一个值 。这个预测值与我们实际测量值之间的差异 就是误差,或称残差。我们希望使这些残差尽可能小。
我们如何将所有这些单个残差组合成一个总误差的度量呢?我们可以对它们的绝对值求和。但 Gauss 和 Legendre 提出了一个更为优雅的方法:我们对它们的平方求和。我们寻求最小化量 。
为什么要用平方?有几个深刻的原因。首先,平方使所有误差都为正,这样它们就不会相互抵消。其次,它对较大误差的惩罚远重于较小误差——一次大的失误比几次小的失误代价更高,这通常是一个理想的特性。但最重要的原因是数学上的奇妙之处:这个选择导致了一个性质极好的问题。目标函数 变成了一个光滑的凸碗形,意味着它有唯一一个最小值。我们可以用微积分找到这个碗的底部,而如果使用绝对值,这项任务会复杂得多。用线性代数的语言来说,我们正在最小化残差向量 的长度平方。这正是它的欧几里得范数平方,即 。
为了真正领会最小二乘法的美妙之处,让我们暂时离开代数,踏上一段几何之旅。想象一下,我们的数据存在于一个高维空间中。我们的测量向量 是 维空间(其中 是数据点的数量)中的一个点。现在,考虑矩阵 。它的列由我们模型的结构决定(例如,由 1、时间、时间平方组成的向量),它们在这个更大的空间内定义了一个较小的子空间。 我们称之为 的列空间,或 。这个子空间代表了我们的模型能够产生的所有可能结果的“宇宙”。根据定义,任何向量 都必须位于这个子空间内。
我们问题的症结在于:我们的测量向量 “离群索居”,位于这个模型子空间之外。这就是为什么 无解。我们找不到一组指令 使我们的模型正好落在点 上。那么,我们能做的最好的事情是什么?我们找到模型子空间 中距离 最近的点。这个“最近点”就是 在子空间 上的正交投影。我们称这个投影为 。我们的最小二乘解 将是产生这个投影的系数向量:。
关键的洞见在于,连接我们的数据点 与其投影 的线——这正是残差向量 ——必须与整个模型子空间垂直,即正交。这是一点到平面的最短路径。
这种正交性的几何图像为我们提供了用代数方法解决问题的工具。如果残差向量 与整个子空间 正交,那么它必须与构成该子空间的每个向量——即 的每一列——都正交。用点积的语言来说, 的每一列与向量 的点积都必须为零。我们可以用惊人简洁的方式写出这个条件: 稍作整理,我们就得到了著名的正规方程: 这是一个了不起的结果。我们从一个无解的系统 出发,通过几何直觉的飞跃,将其转化为一个针对最佳拟合向量 的新的、可解的系统。矩阵 现在是一个方阵(大小为 ,其中 是未知系数的数量),所以我们的方程数量和未知数数量相同。
这个公式有一些巧妙的推论。对于任何包含常数偏移项(截距)的模型, 的其中一列是全为 1 的向量。那么正规方程中对应的行就强制要求所有残差之和恰好为零,即 。正负误差完美抵消,如果最终的回归线已知,这个性质甚至可以用来推断缺失的数据点。
我们有了正规方程,但我们总能解出唯一解吗?几乎可以,但并非总是如此。一个线性方程组有唯一解当且仅当其矩阵可逆。在我们的情况下,这意味着解 唯一的条件是当且仅当矩阵 可逆。
那么,我们原始模型矩阵 的什么性质能保证 可逆呢?答案是根本性的:A 的列必须是线性无关的。 这在直觉上完全说得通。 的列代表我们模型的基函数。如果它们线性相关,就意味着我们的某个基函数是多余的——它可以由其他基函数构造出来。例如,如果我们愚蠢地选择了模型 ,我们就有两个不同的系数 和 乘以完全相同的函数。数据是不可能区分它们的!任何满足 为常数的组合都会得到相同的拟合效果,从而导致无穷多个解。 从几何上看,我们的模型子空间的维度比我们想象的要小,我们的问题是病态的。解集不是一个点,而是一条线或一个更高维的平面。
这就把我们带到了一个常见的困惑点。线性最小二乘问题不一定意味着我们正在拟合一条直线。我们可以拟合一个高次多项式、正弦和余弦波的组合,或任何其他奇特的曲线。“线性”指的不是模型关于自变量 的形状,而是指未知参数在模型中出现的方式。
如果模型函数是其系数的线性组合,如 ,那么这个问题就是一个线性最小二乘问题。函数 可以是任何东西——、、——只要它们不涉及未知系数。像 这样的模型会导致一个线性问题。
然而,像 这样的模型则是一个非线性最小二乘问题,因为参数 在指数函数内部。这种非线性意味着,当我们试图推导正规方程时,最终会得到一个关于系数的非线性方程组,它不能被直接求解,需要更复杂的迭代方法。
正规方程是理论基石,但在有限精度的计算机世界里,它们可能很危险。构造矩阵 的行为在数值上可能不稳定,特别是对于像拟合高次多项式到聚集数据这样的棘手问题。原因在于一个叫做条件数的量,即 ,它衡量矩阵对数值误差的敏感度。构造乘积 有一个不幸的后果,即它会平方条件数:。 如果 本身已经有些敏感(病态),那么 可能会变得极其敏感,计算过程中的微小浮点误差可能会被放大成最终解中的灾难性误差。
幸运的是,有一种更稳健的方法:QR 分解。这项技术将我们的原始矩阵 分解为两个特殊矩阵的乘积,。在这里, 是一个列向量标准正交的矩阵(它们相互垂直且长度为单位 1),并且它们张成的模型子空间与 的列完全相同,即 。 是一个上三角矩阵。
可以把这看作是为我们模型的宇宙找到了一个更好、完全对齐的坐标系。由于像 这样的正交矩阵能保持长度和角度,我们的最小化问题 等价于 。代入 并利用 (单位矩阵)这一事实,问题可以漂亮地简化为: 现在,通过求解简单的上三角系统 就可以找到最优解,这通过回代法很容易完成。 真正的优势在于 的条件数与 的相同,因此我们避免了灾难性的平方效应。新向量 的几何意义也很优雅:它表示投影向量 在由 的列定义的新的、便利的标准正交基中的坐标。
最小二乘框架的美妙之处在于其灵活性。如果我们的一些数据点比其他数据点更可靠该怎么办?例如,在 GPS 定位中,来自头顶正上方卫星的信号通常比来自地平线附近卫星的信号更准确。我们不应该同等信任所有的测量值。
这就引出了广义最小二乘法 (GLS)。我们不再是最小化简单的平方和,而是最小化一个加权和,,其中 是一个描述我们测量中不确定性和相关性的协方差矩阵。 这看起来像是一个全新的问题,但实际上不是。通过简单的变量替换——一种“白化”变换——我们可以将任何 GLS 问题转化回一个等价的普通最小二乘 (OLS) 问题。我们讨论过的所有原理和方法,从几何解释到 QR 分解的数值稳定性,都同样适用。这证明了这个基本概念深刻的统一性和力量,它使我们能够在一个不完美数据的世界中找到隐藏的最可信的真理。
既然我们已经掌握了最小二乘问题的数学核心,你可能会想:“它有什么用?” 你会欣喜地发现,答案是……几乎无所不能。最小化平方误差和的原理不仅仅是微积分和线性代数中的一个枯燥练习。它是一种基本的哲学,一个强大而通用的透镜,通过它我们可以理解和模拟世界。一旦你学会识别它,你就会开始在任何地方看到它的印记,从实验室仪器的安静嗡鸣到太空望远镜的炫目图像。那么,让我们踏上征程,看看这个非凡的想法会带我们去向何方。
最小二乘法最自然和常见的用途是在含噪声数据中发现一个简单的趋势。想象你是一位材料科学家,正在拉伸一种新型纤维,测量其伸长量随施加力的增加而变化的情况。你绘制出数据点,它们并不会完美地落在一条直线上——它们从来都不会!总会有一些小的测量误差、振动或材料中的微小缺陷。然而,你的眼睛可以看到一个清晰的线性趋势。最小二乘法所做的,正是你的直觉所做的:它找到那条在一种非常具体和民主的意义上,与所有数据点“最接近”的线。它不偏袒任何一个点,而是寻求一个能使总的垂直距离平方和最小化的折衷方案。这种将一条线拟合到散点数据的简单思想是实验科学、工程学和经济学的基石。它使我们能够从现实世界测量的混乱中提炼出一个简单的预测模型——比如弹簧的胡克定律,。
但世界并不总是一条直线。如果我们的数据描绘出一条曲线怎么办?一个自然的扩展是拟合一个多项式。我们可以尝试二次函数 ,或者三次函数,甚至更复杂的函数,而不是 。数学上这是一个直接的扩展;我们仍然只是在求解一个关于系数 的线性系统。然而,这里需要一个警告,这在我们这个“大数据”时代是至关重要的一课。如果你有,比如说,十个数据点,你总能找到一个唯一的九次多项式,它完美地穿过每一个点。在这种情况下,最小二乘误差将恰好为零!我们是找到了自然的真正法则吗?几乎可以肯定不是。我们创建了一个过于灵活的模型,它不仅拟合了潜在的趋势,还拟合了我们数据集特有的随机噪声。这被称为过拟合,就像一个裁缝做了一件完全贴合某人某天所有隆起和皱褶的西装;明天这件西装就根本不合身了。最小二乘法的妙处通常在于选择一个更简单的模型(如一条直线或一个低次多项式),它不是一个完美的拟合。那个微小的残差误差不是失败的标志;它是一个迹象,表明我们很可能捕捉到了信号而忽略了噪声。
处理非线性关系有一种更为优雅的方法,那就是看看这种关系是否只是伪装的线性关系。自然界中的许多过程是乘法性的。例如,蛋白质荧光的衰减可能遵循指数曲线 ,或者数控机床刀具的磨损可能与切削速度、进给率和材料硬度遵循幂律关系,如 。直接拟合这些是复杂的非线性问题。但如果我们戴上一副“对数眼镜”,观察变量的对数,这些复杂的关系就会神奇地变成直线!
这些只是标准的线性模型,我们可以用我们已经知道的最小二乘机制来解决。通过转换我们对问题的看法,我们使一项困难的任务变得简单。这种强大的线性化技巧是生物学、物理学和工程学中数据分析的基石。
到目前为止,我们一直将所有数据点视为同等有效。但如果我们知道我们的一些测量值比其他测量值更值得信赖呢?想象一下,一个数据点是用一台全新的高精度仪器收集的,而其他数据点则来自一台老旧、不稳定的仪器。它们在确定最佳拟合线时应该有同等的投票权吗?当然不!我们可以在平方误差和中给予更可靠的点更大的“权重”,迫使直线更靠近它们。这被称为加权最小二乘法,这是一个简单而深刻的修改,它允许我们将关于数据质量的先验知识直接构建到模型中。
我们甚至可以更加自信。有时,我们的模型必须遵守不可侵犯的物理定律或特定的设计约束。一个工程师在为一个组件拟合模型时,可能从第一性原理就知道,在特定输入下,响应必须精确地是某个值。或者,也许模型中的两个参数由于对称性原因已知是相等的。我们可以将这些条件作为优化问题的严格约束来施加。这种约束最小二乘问题确保我们在所有物理上合理的模型中找到最佳拟合。这使我们从纯粹的数据拟合转向了真正的、知识驱动的建模。
最小二乘法的影响力远远延伸到了数字领域。你拍过的每一张模糊的照片都可以被看作一个巨大的最小二乘问题。例如,运动模糊的过程可以被建模为卷积,其中模糊图像中每个像素的值是原始清晰图像中相应像素及其邻居的加权平均值。这种关系可以写成一个庞大的线性系统,,其中 是模糊图像向量, 是未知的清晰图像向量, 是“模糊矩阵”。要对图像进行去模糊处理,我们只需解出这个系统中的 !由于噪声总是存在的,我们在最小二乘的意义上求解它。像 QR 分解这样的技术对于高效求解这些巨大的、结构化的系统变得至关重要。
信号的世界通常要求我们离开舒适的实数领域。分析交流电路的电气工程师、描述量子波函数的物理学家以及使用傅里叶变换的信号处理工程师都使用复数作为他们的原生语言。我们的原理还成立吗?绝对成立。最小二乘问题可以为复向量和复矩阵制定,我们最小化残差的范数平方。核心思想是相同的,但其机制涉及共轭转置而不是简单的转置。它在复数域中同样优雅地工作,这证明了该思想的普适性。
你可能认为这一切只适用于误差简单且呈良好钟形(高斯)分布的情况。但最小二乘法的幽灵远比这更强大和持久。它构成了被称为广义线性模型 (GLMs) 的一大类现代统计方法的计算骨干。
假设你想建模一些非连续测量的数据,比如一个人点击广告的概率(是/否结果)或一小时内通过一个十字路口的汽车数量(计数)。标准最小二乘法的假设不适用。然而,用来拟合这些模型的方法,如逻辑回归或泊松回归,通常依赖于一种名为迭代重加权最小二乘法 (IRLS) 的算法。本质上,该算法解决一系列巧妙构造的加权最小二乘问题。在每一步,它都会创建一个临时的“伪响应”变量,并根据当前对模型参数的猜测计算权重,然后解决这个新的加权最小二乘问题以获得更好的猜测。它重复这个过程,直到估计值收敛。所以,即使我们远离了拟合直线的简单世界,我们发现自己还是回到了不起眼的最小二乘问题,用它作为一个稳健可靠的引擎来驱动更复杂的统计机器。
我们一直以来都在一个最后的、默然的、方便的假设下操作:我们的“输入”变量——我们在实验中设定的量,如力 或切削速度 ——是完全已知的。我们假设所有的误差都在“输出”测量值 中。但如果我们的尺子也不稳呢?在许多现实场景中,从天文学到经济学,自变量和因变量都存在测量误差。
为了处理这个问题,我们必须在建模中提升到更高层次的诚实度:总体最小二乘法 (TLS)。TLS 不再仅仅最小化点到直线的垂直距离,而是寻求最小化总的正交(垂直)距离。它含蓄地假设“真实”的点位于一条直线上,但我们的测量使它们在水平和垂直方向上都发生了散射。TLS 公式不仅寻求找到最佳拟合模型,还寻求对输入和输出进行最小可能的扰动,以使数据完全一致。这是一个极具挑战性的问题,其解决方案与线性代数中另一个优美的概念——奇异值分解 (SVD)——紧密相连。TLS 是对实验现实更完整、更诚实的评估,承认我们与世界的互动总是一场双方都可能包含不确定性的对话。
从穿过几个散点的简单直线出发,我们穿越了曲线、约束和复数,进入了图像处理和现代机器学习的核心。最小二乘原理不仅仅是一个数学工具;它是一条统一的线索,贯穿于几乎所有定量学科,为从一个不完美、充满噪声的世界中提取知识提供了一种清晰而强大的哲学。