
当面对离散的数据点时,我们直觉上会寻找一条能够捕捉其潜在趋势的唯一“最佳拟合”直线。完成这项任务最常用的工具是普通最小二乘法(OLS)回归,其原理是最小化每个数据点到直线的垂直距离。然而,这个无处不在的方法依赖于一个关键但往往存在缺陷的假设:所有测量误差仅存在于垂直(y)变量中,而水平(x)变量是完全已知的。当这个假设不成立时会发生什么呢?在无数真实世界的场景中,从比较两个不完美的温度计到追踪一颗小行星的位置,两个变量都存在不确定性,而 OLS 会提供一个有偏且不尽人意的答案。
本文将介绍一种更具原则性且在几何上更稳健的替代方法:正交回归。它通过对称地处理 x 和 y,解决了“变量误差”问题,从而为隐藏在含噪数据中的真实关系提供了更稳健的估计。在接下来的章节中,您将发现这项强大技术的基础概念。“原理与机制”一章将剖析正交回归的工作原理,揭示其与主成分分析(PCA)和奇异值分解(SVD)等强大的统计学和线性代数概念之间的深刻联系。随后,“应用与跨学科联系”一章将带领读者穿梭于物理学、工程学到生物学等不同科学领域,展示该方法不仅仅是一个统计学上的奇特方法,而是实现精确测量和科学发现的关键工具。
当我们观察图上的一簇散点时,我们的大脑非常善于发现趋势。我们可以毫不费力地想象一条线穿过数据,这条线以某种方式代表了两个变量之间关系的“最佳”总结。但“最佳”到底意味着什么?我们如何指导一台缺乏我们直觉的机器来找到这条线?
在入门科学和统计学课程中,教得最多的方法是普通最小二乘法(OLS)。其思想简单而优雅:对于任何给定的直线,你测量每个数据点到该直线的垂直距离。你将所有这些距离平方(使其为正,并对较大的误差施加更重的惩罚),然后将它们相加。那条使这个垂直误差平方和尽可能小的直线就是“最佳”直线。这种方法是数据分析的主力,原因很充分:它计算简单且在统计上很强大。然而,它在一个隐藏的、且常常未经声明的假设下运行——一种无声的暴政。
OLS 假设所有测量误差都存在于垂直()变量中。它将水平()变量视为完全已知的、不可动摇的真理来源。对于某些实验来说,这是一个合理的近似。如果我们正在测试一种新肥料,我们可能会非常精确地控制施用量(),而最终的作物产量()则受到各种生物和环境噪声的影响。在这种情况下,将所有偏离直线的误差归咎于 的误差是合理的。
但如果我们正在比较两个不同的温度计,看看它们的读数如何关联呢?两种仪器都有其自身的缺陷;没有一个是完美的标准。或者,如果我们是一位追踪小行星的天文学家呢?我们在望远镜图像的 和 坐标上对其位置的测量都具有内在的不确定性。
在这些情况下,OLS 变成了一个有偏见的法官。它武断地将所有离散的责任都归咎于我们放在垂直轴上的变量。如果你交换坐标轴,对 进行 的回归,你会得到一条不同的最佳拟合直线!这是非常不尽人意的。量之间的真实潜在关系不应该依赖于我们决定将哪个量称为“”。当应用于两个变量都有误差的数据时,OLS 方法会系统性地低估斜率的大小,这种现象被称为衰减偏误或回归稀释。我们需要一种更民主的方法,一种能公平对待两个变量的方法。
如果我们想公平对待 和 ,我们就不应该偏爱垂直方向。相反,让我们将误差定义为每个数据点到直线的最短可能距离。这当然就是垂直距离,也称为正交距离。这个简单、直观的想法是正交回归的基础,在线性代数领域,它更广为人知的名字是总体最小二乘法(TLS)。
我们的目标是找到一条直线(我们可以用隐式形式 书写)的参数,该直线能最小化每个数据点 到该直线的正交距离的平方和。一个点到直线的正交距离 由以下公式给出:
要找到最佳直线,我们需要最小化这些距离的平方和 。这个表达式看起来有点复杂,但我们可以简化它。参数 并非唯一;我们可以将它们全部乘以一个常数,得到的是同一条直线。让我们利用这种自由度施加一个约束:我们将要求直线的法向量 是一个单位向量。也就是说,。有了这个约束,我们距离公式中的分母就变成了 1,我们的问题也大大简化了。我们现在寻求最小化:
这是 TLS 的标准优化问题。在我们尝试求解斜率之前,我们可以问一个更简单的问题:这条线位于哪里?如果我们固定 并询问哪个 值可以最小化误差,我们可以使用微积分。将 对 求导并令其为零,会揭示一个优美的结果:该直线必须穿过数据点的质心 ,其中 和 分别是 和 坐标的简单平均值。这非常直观;最佳拟合线必须锚定在数据云的质心上。
知道直线穿过质心极大地简化了我们的问题。我们可以想象将整个坐标系平移,使质心位于新的原点。现在,我们只需要确定直线的方向,或者说斜率。
在这里,我们偶然发现了科学中那些深刻统一的时刻之一。让我们暂时从拟合直线的问题中抽身,只看我们的(现在已中心化的)数据点云。这个点云有一个形状,通常是一个类似椭圆的斑点。这个斑点最重要或最具特征性的方向是什么?当然是数据分布最分散的方向——即方差最大的方向。
找到这些特征方向,是一种强大的统计技术——主成分分析(PCA)——的目标。PCA 找到一组有序的正交轴(主成分),这些轴与数据中方差递减的方向对齐。根据定义,第一主成分(PC1)是指向数据投影方差最大化方向的单位向量 。也就是说,它最大化了 。
这和我们拟合直线的问题有什么关系呢?一切都有关系。对于任何中心化的数据点 和任何穿过原点、方向为 的直线,我们可以构成一个直角三角形。斜边是向量 本身。两条直角边分别是 在直线上的投影,以及从 到直线的垂直向量。根据毕达哥拉斯定理:
如果我们将所有数据点的这个关系加总,到原点的距离平方和就是数据的总方差,这是一个固定量。这意味着最大化投影距离的平方和(PCA的目标)在数学上等同于最小化垂直距离的平方和(TLS的目标)。
这是一个惊人的等价性。找到最近直线的几何问题和找到最大方差方向的统计问题是同一个问题。TLS 的最佳拟合线就是由数据的第一主成分所定义的直线。
这一洞见为我们提供了一种直接计算解的方法。主成分是数据协方差矩阵(或散布矩阵 )的特征向量。沿每个主成分的方差大小由相应的特征值给出。因此,TLS 直线的方向由协方差矩阵与其最大特征值相关联的特征向量给出。
还有另一种同样优美的方式来看待这个问题,它来自数值线性代数的世界。假设我们正在尝试求解一个超定方程组 。OLS 假设所有误差都在 中,并试图最小化 。其解由著名的 Moore-Penrose 伪逆给出,,它通过将 投影到由 的列定义的固定子空间上起作用。
然而,TLS 承认 中也可能存在误差。它完全重新定义了问题:要使方程组完全相容,对 和 进行的最小可能扰动(我们称之为 和 )是什么?也就是说,我们希望求解 ,同时最小化扰动的总大小,用 Frobenius 范数 来衡量。
这可以重写为 。这意味着我们正在寻找增广矩阵 的“最接近”的秩亏(即列线性相关)版本。
著名的 Eckart-Young-Mirsky 定理告诉我们如何使用奇异值分解(SVD)来找到这个最接近的矩阵。SVD 将任何矩阵 分解为一个旋转、一个缩放和另一个旋转的乘积。缩放因子是奇异值 。使 秩亏的最小扰动的大小等于最小奇异值 。解的关键在于与这个最小奇异值相关联的右奇异向量 。该向量张成了被扰动矩阵的零空间,而 TLS 解 可以直接从其分量中提取出来。
乍一看,这似乎与 PCA 方法大相径庭。一种方法使用协方差矩阵 的最大特征值来找到直线的方向。另一种方法使用中心化数据矩阵 的最小奇异值来找到解。但它们是紧密相关的。 的特征值是 的奇异值的平方。与最大特征值对应的 的特征向量给出了最大方差的方向——即直线的方向。而与最小特征值对应的特征向量则给出了最小方差的方向——即与直线垂直的方向。因此,关注零空间和最小误差的 SVD 方法自然地找到了法向量,而关注方差的 PCA 方法则自然地找到了方向向量。它们是对同一底层结构的两个完美互补的视角。
那么,每当我们怀疑两个变量都有误差时,是否就应该总是使用 TLS 呢?不一定。这个框架的美妙之处在于它可以被推广。标准的 TLS 通过最小化简单的欧几里得距离,隐含地假设 x 和 y 中的测量误差是相等且不相关的。从统计学的角度来看,仅在误差是独立同分布的高斯分布(即 )的假设下,它才是最大似然估计。
如果误差不相等怎么办?如果我们知道 的测量噪声远大于 的测量噪声怎么办?在这种情况下,最小化简单的垂直距离就不再合适了。 方向的偏差比 方向的偏差“代价更小”。我们需要在一个扭曲的坐标系中测量距离,一个能解释不同误差尺度的坐标系。
这就引出了更通用的正交距离回归(ODR),这是一个可以处理每个变量已知、不同的误差方差,甚至它们之间相关性的框架。在误差独立但方差不同( 和 )的常见情况下,目标变成了最小化加权距离的平方和:
这个非凡的公式提供了一幅统一的图景。注意在极限情况下会发生什么。如果我们认为 x 中没有误差(即 ),该公式会优雅地简化为加权最小二乘法的目标函数,即最小化 。如果我们假设误差相等(),分母就变成 ,最小化这个就等价于 TLS 问题。
我们从简单但有缺陷的普通最小二乘法到广义正交距离回归的旅程,揭示了一个深刻而统一的结构。方法的选择不仅仅是一个技术细节,它宣告了我们对误差性质的信念。通过超越垂直线的暴政,我们拥抱了一种更诚实、几何上更稳健的方式来寻找隐藏在我们测量散点中的真理。这条路带领我们穿越了几何学、统计学和线性代数的交叉世界,揭示了最佳拟合不仅仅是画一条线,更是理解我们数据中变异和不确定性本身的结构。
我们花了一些时间来理解正交回归的机制,把它看作是在我们的两个坐标——x 和 y——都不完美的情况下画一条线的原则性方法。这似乎只是一个微小的统计修正,一个为严谨者准备的次要细节。但大自然很少会仁慈地为我们提供一把完美稳定的尺子。事实是,世界充满了“变量误差”问题,而忽略这一事实不仅会导致结果略有不准,甚至可能导致根本性的错误结论。
现在,让我们开启一段跨越科学学科的旅程,看看这个优雅思想的实际应用。我们将看到,正交回归以其各种形式,不仅是一种技术修复,更是一个揭示从亚原子粒子到宏伟生命标度等万物背后真实关系的关键工具。
从本质上讲,科学的大部分内容都与测量有关。我们建造精密的仪器来探询自然,但这些仪器,无论多么精良,本身也受制于噪声和不确定性。正交回归是物理学家和化学家用来穿透这层仪器迷雾的工具。
想象一下,你正在实验室里使用一台最先进的质谱仪,这是一种能够以惊人精度称量分子的设备。要做到这一点,你必须首先校准它。你向它输入一系列已知质量(y)的标准分子,并记录仪器的响应,比如说,飞行时间测量值(x)。理论上,真实质量与真实飞行时间的平方之间应该存在简单的线性关系。但是你对飞行时间的测量有微小的抖动,即误差,甚至连“已知”质量也不是一个完美的抽象概念。两个坐标轴都存在噪声。
如果你使用普通最小二乘法(OLS)来绘制你的校准线,你就会犯下一个微妙但关键的错误。OLS 假设 x 轴(飞行时间的平方)是完美的,并将任何偏离直线的责任都归咎于 y 轴(质量)。这会导致一个有偏的斜率,这种现象称为衰减。这条线会比它应有的更“平”。当你再用这条怯懦的线来预测未知物质的质量时,你的预测将会系统性地出错。在高分辨率质谱分析中,其精度以百万分率(ppm)来衡量,这是一个不可接受的误差。总体最小二乘法(TLS)通过公平对待两个变量,提供了一个一致且更准确的校准,让你能够相信你对未知物的测量。正如一项分析所示,从 OLS 转换到 TLS 可以将预测准确度从大约 180 ppm 提高到 30 ppm 以下——这是一个巨大的确定性飞跃,而这一切都源于选择了正确的画线方式。
当我们不仅是在校准仪器,而是试图发现一个基本定律时,同样的原理也适用。在电化学中,Tafel 图关联了电化学反应的速率(由电流 测量)与电驱动力(过电位 )。在半对数图上,这种关系是线性的: 对 。这条线的斜率揭示了反应机理的深层秘密,比如电荷转移系数。但是 和 都是实验测量的,各自都有其不确定性。一个 OLS 拟合会系统性地低估斜率,导致对反应动力学的错误结论。正交距离回归(ODR),在这种情况下是最大似然估计量,它考虑了两个变量中的误差并提取了真实的、无偏的斜率,为我们提供了一扇更清晰的窗口,以观察电极表面发生的分子之舞。
在工程学中,把数字搞对不仅仅是一个学术练习;它关乎安全和可靠性。当我们设计一座桥梁、一个飞机机翼或一个医疗植入物时,我们依赖于通过实验确定的材料性能。
考虑金属疲劳问题。一个回形针在断裂前可以弯曲多少次?对于工程部件来说,这个问题由一条 S-N 曲线来回答,该曲线绘制了循环应力()的大小与失效循环次数()之间的关系。在对数-对数坐标上,这种关系通常是线性的。为了确定这条线,工程师们进行测试,施加一定的应力,并计算样品失效前的循环次数。施加的应力和测量的寿命都受到实验误差和材料固有变异性的影响。
如果我们使用 OLS 来拟合对数-对数数据,衰减偏误将导致我们低估直线的陡峭程度。这是极其危险的。更平缓的斜率意味着应力的微小降低会导致疲劳寿命的增量大于实际值。使用这个有缺陷模型的工程师可能会设计出一个预期能持续数百万次循环的部件,而实际上,它注定会更早失效。正交回归通过提供真实斜率的一致估计,导向了更现实和更安全的设计。这里的原则是深刻的:承认我们“受控”变量中的不确定性对于稳健的工程设计至关重要。
如果说变量误差在物理和工程这样受控的世界里是一个值得关注的问题,那么在生物学中,它就是不可否认的现实。当一位生物学家研究不同物种间两种性状的关系时——比如说,新陈代谢率()和体重()——没有哪个变量在经典意义上是“自变量”或“因变量”。两者都是复杂进化过程的结果,而且两者的测量都存在误差。
这是异速生长标度的领域,它假设存在一个幂律关系 。当我们绘制 对 的图时,我们不是要用一个预测另一个,而是要找到潜在的结构关系,即标度指数 。OLS 根本就不是合适的工具。生物学家们很早就认识到了这一点,并经常使用与 ODR 同属一类的方法,比如简约主轴(RMA)回归,它对称地处理两个变量。
故事变得更加丰富。如果我们对每个物种有多个测量值怎么办?如果我们知道亲缘关系密切的物种(如黑猩猩和大猩猩)由于其共同的祖先而并非独立的数据点怎么办?一个简单的 ODR 就不再足够了。在这里,核心思想发展成为一个成熟的贝叶斯分层变量误差模型。这种复杂的方法建立了一个全面的统计结构,同时考虑了两个变量的测量误差、每个物种内部的变异性,以及由于进化树而产生的非独立性。这是一个美丽的例子,说明了 ODR 简单、直观的修正如何能够扩展成一个强大的框架,用以理解复杂、相互关联的生命之网。
即使在生物化学实验室这样更受控的环境中,同样的问题也会出现。例如,在线性化酶动力学数据时,比如使用 Eadie-Hofstee 图,转换后的变量会变成原始测量值的复杂函数。这不仅会在两个轴上引入误差,还可能在这些误差之间引入相关性。一个恰当的分析需要一种广义形式的 ODR,它最小化的不是简单的欧几里得距离,而是一个考虑了完整误差协方差结构的统计(马氏)距离。
然而,一个优秀的科学家也是一个实用主义者。在一项关于 DNA 熔解的研究中,我们可能测量吸光度与温度的关系,以确定热力学参数。我们的温度探头有一些噪声,我们的吸光度读数也有一些噪声。所以,理论上,我们面临一个变量误差问题。但仔细的分析可能会显示,温度读数的不确定性在传播到 x 轴变量()上时,与 y 轴变量()的不确定性相比完全可以忽略不计。使用 OLS 引入的偏误可能比实验中的整体统计噪声小一百倍。在这种情况下,使用更简单的 OLS 方法是完全合理的。这是一个至关重要的教训:我们不仅必须认识到误差的存在,还必须理解它们的大小。
正交回归的原理本质上是几何学的。它是关于找到最能拟合一团噪声数据点的“最佳”几何对象。虽然我们一直专注于直线,但这个思想远比这更通用。
在高能物理实验中,一个带电粒子在均匀磁场中运动会形成螺旋线,其在平面上的投影是一个完美的圆。我们的粒子探测器记录下一系列“击中点”——这些点靠近这个圆,但因测量误差而有所偏离。任务是重建粒子的轨迹,这意味着要找到最佳拟合圆。什么叫“最佳”?假设为高斯误差,最大似然解是找到一个能使数据点到圆周的正交距离平方和最小的圆。这就是针对圆的 ODR!它提供了圆半径的最准确估计,而半径与粒子的动量——一个至关重要的量——直接相关。这与那些计算上便宜但可能产生有偏结果的、更快的“代数”拟合形成对比,尤其是在轨迹较短的情况下。
这个思想的终极抽象将我们带入了现代信号处理的领域。像 TLS-ESPRIT 这样的高级算法被用来检测埋藏在噪声中的信号频率,这是雷达、声纳和无线通信中的核心任务。该方法通过利用数据的“移位不变性”属性,导出一个形如 的抽象矩阵方程。在这里,“变量” 和 不是简单的数字,而是从噪声数据中估算出的整个矩阵。目标是找到变换矩阵 ,其性质揭示了隐藏的频率。这是一个宏大尺度上的变量误差问题,其解是使用总体最小二乘法找到的。同样的基本原理——承认并纠正我们数据所有部分中的误差——使我们能够从一片随机噪声的海洋中提取出微弱的、结构化的信号。
从化学家的校准线到生物学家的标度律,从工程师的疲劳曲线到物理学家的粒子轨迹和信号处理器的频谱,传达的信息都是相同的。我们所测量的世界是不确定的。通过用正交回归的对称、几何逻辑来拥抱这种不确定性,我们更接近于我们试图发现的那些定律的真实、潜在的简洁与美。