try ai
科普
编辑
分享
反馈
  • 迭代重加权最小二乘法

迭代重加权最小二乘法

SciencePedia玻尔百科
核心要点
  • IRLS 是一种迭代算法,它为数据点分配权重,系统地减少离群值的影响,以获得稳健的统计估计。
  • 该方法在数学上等同于求解被称为广义线性模型 (GLM) 的一大类问题的牛顿法,这解释了其高效性。
  • 除了稳健性,IRLS 还是寻找稀疏模型的一项关键技术,它通过迭代求解加权问题来促进产生具有多个零系数的解。
  • IRLS 提供了一个统一的框架来解决大规模反问题,它能同时确保对数据误差的稳健性并促进模型的简约性。

引言

在数据分析领域,普通最小二乘法 (OLS) 是拟合数据模型的基本工具。其原理简单而优雅:找到使误差平方和最小化的模型。然而,这种方法有一个致命的弱点——它对离群值极其敏感,单个不良数据点就可能不成比例地扭曲整个结果。本文旨在填补这一空白,探讨迭代重加权最小二乘法 (IRLS),这是一种功能强大且用途广泛的算法,旨在克服离群值的专横影响并解决许多其他复杂问题。

本文将引导您了解 IRLS 的理论与实践。第一章 ​​“原理与机制”​​ 将解构该算法的核心思想——模型与数据之间的一种动态对话,其中可疑的数据点被系统地降低权重。我们将探讨其与稳健统计理论的深层联系,其作为一种强大的“伪装”优化算法的身份,以及使用中的实际考虑。接下来的 ​​“应用与跨学科联系”​​ 一章将展示 IRLS 的实际应用,揭示这种单一方法如何为两个基本的科学探索提供统一的途径:在面对有缺陷的数据时实现稳健性,以及为地球物理学、生物学和气候科学等领域的复杂现象寻找简约(或简单)的解释。

原理与机制

想象一下,您正试图找到一条“最佳”直线来拟合一组数据点。一种经典的方法,您可能在初级统计学课程中学过,就是​​普通最小二乘法 (OLS)​​。它的思想非常简单:画一条线,测量每个点到这条线的垂直距离(“误差”或“残差”),将这些距离平方后全部相加。使这个误差平方和尽可能小的直线就是“最佳”直线。OLS 是数据分析的主力,这有其充分的理由。它易于理解,并且其解可以通过一次简洁的计算得到。

但 OLS 有一个阿喀琉斯之踵。通过对误差进行平方,它给予了远离趋势线的点巨大的影响力。一个单一的、离谱的数据点——​​离群值​​——就像一个恶霸,将整条线拉向自己,从而破坏了所有其他表现良好的点的拟合效果。这就是离群值的暴政。如果您的数据来自一个纯净、控制良好的实验,其中每次测量都同样可信,那么 OLS 是您的朋友。但在现实世界中——在地球物理学、天文学、经济学或生物学中——数据是混乱的。它受到故障传感器、转录错误或仅仅是异常事件的困扰。我们需要一种更民主的方式来拟合我们的模型,一种能听取大多数数据意见并对极端离群值持怀疑态度的模型。

重加权技巧:数据与模型间的对话

这就是​​迭代重加权最小二乘法 (IRLS)​​ 这一优雅思想登场的地方。这个名称本身就说明了一切。我们仍然在做“最小二乘”,但我们是“迭代地”并带有“重加权”地进行。其核心洞见在于,将一个单一的、静态的决策转变为我们的模型与数据之间的动态对话。

我们不再将所有数据点视为平等的公民,而是为每个点分配一个​​权重​​。一个与我们当前模型拟合良好(残差小)的点将获得高权重——我们信任它。一个远离我们模型(残差大)的点将获得低权重——我们怀疑它。现在,我们不再最小化残差平方和 ∑ri2\sum r_i^2∑ri2​,而是最小化一个加权和 ∑wiri2\sum w_i r_i^2∑wi​ri2​。

但是等等——是先有模型还是先有权重?如果权重依赖于残差,而残差又依赖于模型,我们就遇到了一个鸡生蛋还是蛋生鸡的问题。“迭代”部分巧妙地解决了这个问题。我们打破这个循环,将其转变为一个分步过程:

  1. ​​开始​​:为我们的模型设定一个初始猜测。(我们甚至可以从给所有点赋予相等的权重 1 开始,这其实就是 OLS)。
  2. ​​计算​​:基于当前模型计算残差。
  3. ​​更新权重​​:使用残差计算一组新的权重。残差大的数据点获得较小的权重,残差小的数据点获得较大的权重。
  4. ​​求解​​:使用这些新权重,求解加权最小二乘问题,以获得一个更新的、更好的模型。
  5. ​​重复​​:使用新模型回到第 2 步。

这个循环持续进行,模型和权重在优美的舞蹈中相互完善。模型得到改进,从而能更好地评估哪些点是离群值,这反过来又产生更好的权重,帮助我们找到一个更优的模型。

一个经典的例子是使用 ​​Huber 损失​​函数 进行稳健估计。对于小残差,这种惩罚函数表现得像平方误差(ℓ2\ell_2ℓ2​ 范数),而对于大残差,则表现得像绝对误差(ℓ1\ell_1ℓ1​ 范数)。Huber 损失的 IRLS 算法优雅地体现了这一点:它为“内点”(小残差)分配权重 1,用标准的最小二乘法处理它们,同时为“离群值”(大残差)分配一个逐渐减小的权重(wi=δ/∣ri∣w_i = \delta/|r_i|wi​=δ/∣ri​∣)。该算法自动学会忽略那些“恶霸”点,而专注于数据的一致性。这使其区别于 OLS(权重始终为 1)和固定的加权最小二乘法 (WLS)(权重是预先确定的,例如根据已知的测量误差,并且在拟合过程中不发生变化)。对于一个具有 1≤p≤21 \le p \le 21≤p≤2 的通用 ℓp\ell_pℓp​ 惩罚,权重与 ∣ri∣p−2|r_i|^{p-2}∣ri​∣p−2 成正比,这清楚地表明当 p2p2p2 时,较大的残差会获得较小的权重。

统计学的视角:驯服重尾分布

这种重加权方案看似一个巧妙的工程技巧,但其根源深植于统计学的基础。选择使用最小二乘法在数学上等同于假设您的数据误差遵循高斯分布或“正态”分布——即我们熟悉的钟形曲线。钟形曲线的尾部非常“轻”,这意味着它为极端事件分配的概率极小。

但如果我们的噪声并非如此表现良好呢?在许多现实世界的系统中,噪声遵循​​重尾分布​​,其中离群值更为常见。处理地震数据的地球物理学家可能会看到来自局部、非地质噪声源的大尖峰;天文学家可能会有宇宙射线击中他们的探测器。高斯模型在这种情况下根本就是对现实的错误描述。

如果我们假设一个更现实的重尾噪声模型,如​​柯西分布​​,并提问:“在给定数据的情况下,什么样的模型参数是最有可能的?”,我们就会被引向一个称为​​最大似然估计​​的原则。当我们为这些分布写下负对数似然时,我们得到的不再是一个简单的平方和。我们得到一个更复杂的函数——一个稳健的惩罚函数 ρ(r)\rho(r)ρ(r)。对于柯西分布,这个惩罚是 ρ(r)=c22ln⁡(1+(r/c)2)\rho(r) = \frac{c^2}{2} \ln(1 + (r/c)^2)ρ(r)=2c2​ln(1+(r/c)2)。

而这里就是美妙的联系:带有特定重加权方案的 IRLS 算法,正是最小化这个负对数似然的算法!权重函数 w(r)w(r)w(r) 并非任意的;它直接从假定的噪声概率分布中导出。对于柯西惩罚,权重是 w(r)=1/(1+(r/c)2)w(r) = 1 / (1+(r/c)^2)w(r)=1/(1+(r/c)2)。这个权重自动地以一种对于被柯西类噪声污染的数据在统计上最优的方式,来降低大残差的权重。IRLS 不仅仅是一种启发式方法;它是为一大类非高斯噪声模型执行最大似然估计的一种有原则的方法。

优化的视角:伪装成牛顿法的 IRLS

当我们从数值优化的角度审视 IRLS 时,故事变得更加深刻。统计学中许多最重要的问题,从机器学习中的逻辑回归到物理学中的泊松回归,都属于​​广义线性模型 (GLM)​​ 的范畴。在 GLM 中,我们同样试图通过最大化一个对数似然函数来找到最佳参数。这个函数通常是复杂和非线性的,找到其最大值并非易事。

找到一个函数的最小值(或最大值)的最强大工具之一是​​牛顿法​​。它的工作原理是用一个简单的二次碗型(抛物线)在局部逼近该函数,然后跳到该碗的底部。它重复这个过程,利用函数的曲率(二阶导数,或海森矩阵)来指导其步骤。当接近解时,牛顿法的收敛速度极快。

关键在于:对于整个 GLM 类别,IRLS 算法在代数上与牛顿法(或其近亲 Fisher 评分法)是等价的。IRLS 中的“权重”不仅仅关乎稳健性;它们巧妙地包装了函数的曲率信息(海森矩阵)。IRLS 在每一步使用的伪数据点,即“工作响应”变量,其构造方式恰好能够解释函数的斜率(梯度)。

让我们看一个具体的例子。在一个具有平方根链接函数的泊松光子计数模型中,每一步的工作响应结果是 zi=12(ηi+yi/ηi)z_i = \frac{1}{2}(\eta_i + y_i/\eta_i)zi​=21​(ηi​+yi​/ηi​),其中 ηi\eta_iηi​ 是当前模型的预测值,而 yiy_iyi​ 是观测数据。这看起来像一种几何平均数,但它恰好是使加权最小二乘更新等价于牛顿步骤所需的项。权重本身也直接从模型的结构中导出,特别是数据的方差和连接预测变量与均值的链接函数的导数。这种深层联系解释了为什么 IRLS 如此有效和被广泛使用:它继承了牛顿法的强大功能和快速的局部收敛性,同时保留了加权最小二乘问题的直观结构。它将一个复杂、抽象的优化步骤转变为一系列具体、熟悉的回归问题。

当然,使用错误的组件可能会破坏这台优雅的机器。如果分析师错误地使用了一个链接函数,其定义域与数据的可能范围不匹配(例如,使用用于 0 到 1 之间值的 logit 链接来建模可以取任何非负整数的泊松计数),算法可能会被输入无意义的值而无法收敛。

地图的边缘:非凸世界与起始的艺术

到目前为止,我们一直生活在舒适的凸问题世界里,那里只有一个山谷需要寻找。但是,当我们要使用 p1p 1p1 的 ℓp\ell_pℓp​ 惩罚来寻找稀疏解时,IRLS 也可以成为探索更险恶、非凸领域的强大工具。这些惩罚在促进稀疏性方面甚至比 ℓ1\ell_1ℓ1​ 范数更好,但代价是一个具有许多局部最小值的崎岖目标函数。

在这个世界里,你最终到达的位置关键取决于你从哪里开始。IRLS 是一种局部搜索方法;它会愉快地向山下走到最近的山谷底部,但它无法知道别处是否存在更深的山谷。初始化的选择不仅仅是一个技术细节;它是艺术的一部分。

考虑在压缩感知中重构稀疏信号的问题。

  • 从​​零​​开始是一个中性但信息量不足的选择。从零起点开始的 IRLS 的第一步等同于寻找发散的、非稀疏的普通最小二乘解。然后,算法将面临从这个密集的初始猜测中刻画出稀疏解的漫长而艰巨的任务。
  • 从 ​​ℓ1\ell_1ℓ1​ 解​​开始则是一个更聪明的策略。ℓ1\ell_1ℓ1​ 问题是凸的,可以高效求解,并且其解通常已经非常接近所需的稀疏答案,特别是在识别正确的非零分量方面。用这个高质量的猜测来初始化 IRLS,将其置于一个有利的“吸引盆”中,使其能够快速收敛到一个好的局部(并且通常是全局)最小值。这种两步策略——使用稳健的凸方法获得一个好的初始猜测,然后用像 IRLS 这样的非凸方法进行精化——是现代数据科学中的一个强大范式。

实践智慧:知道何时到达

当 IRLS 算法不断运行时,我们应该在什么时候告诉它停止呢?人们可能倾向于观察标准的残差平方和 ∑ri2\sum r_i^2∑ri2​。这是一个错误。当算法正确识别出一个离群值并降低其权重时,它将较少关注于拟合该点。该点的残差实际上可能增加,导致总的平方和上升,即使我们真正关心的稳健目标函数正在稳步下降。观察 ℓ2\ell_2ℓ2​ 残差范数就像观察一家公司的股价来判断整个经济的健康状况一样——具有误导性。

正确的方法是监控定义算法状态及其目标的量:

  1. ​​稳健目标 ϕ(m)\phi(\mathbf{m})ϕ(m)​​:我们正试图最小化这个函数,所以当它不再有意义地减小时,我们应该停止。
  2. ​​权重​​:该算法是关于权重的不动点迭代。当权重从一次迭代到下一次迭代不再变化时,意味着数据与模型之间的对话已经稳定下来。算法已经确定了它对哪些点值得信任以及信任程度的看法。

当目标和权重都稳定下来时,我们就可以确信我们已经到达了目的地。最终的迭代结果,即这个过程的不动点,保证是我们最初要解决的那个困难优化问题的一个驻点。这一系列简单的加权最小二乘问题,一步一步地引导我们找到了一个远为深刻的问题的答案。

应用与跨学科联系

在理解了迭代重加权最小二乘法的内部工作原理之后,我们现在可以踏上一段旅程,看看这个优雅的思想在何处焕发生机。科学或数学中一个基本原则的真正美妙之处,不在于其抽象的表述,而在于其解决实际问题、连接看似无关的领域、并为我们提供一个看待世界的新视角的力量。IRLS 正是这样一个原则。它不仅仅是一个数值配方;它是一种处理不完美和复杂性的计算哲学。

我们将看到这个单一的思想如何为科学和工程中两个最基本的挑战提供统一的方法:​​稳健性​​,即在面对有缺陷数据时进行推理的艺术,以及​​简约性​​,即寻求最简单可能解释的探索。从估计一个单一的物理常数到预测整个地球的天气,IRLS 作为一个反复出现且强大的主题而存在。

稳健性的艺术:驯服离群值

自然是宏伟的,但我们对它的测量常常是混乱的。一个突然的电压尖峰、一个受污染的化学样本,或者一个击中探测器的宇宙射线,都可能产生一个“离群值”——一个与其他数据点相距甚远,看起来像个错误的数据点。将所有数据点都视为同等神圣的最小二乘法的幼稚做法,对这类错误极其敏感。一个单一的离谱数据点就能抓住解的衣领,将其拖得远离真相。我们如何能更有辨别力?我们如何告诉我们的算法要对看起来可疑的数据持怀疑态度?

这就是 IRLS 开始其工作的地方。想象一下,你是一位物理学家,试图通过多次测量来确定一个基本常数。你的数据集是 {10.1,10.3,9.9,10.2,15.8}\{10.1, 10.3, 9.9, 10.2, 15.8\}{10.1,10.3,9.9,10.2,15.8}。粗略一看,真实值似乎在 10.110.110.1 左右,但最后一个测量值 15.815.815.8 是一个显著的离群值。取一个简单的平均值(这是标准最小二乘法对这个问题所做的)得到 11.2611.2611.26,这个结果明显受到离群值的偏倚,感觉不对。

IRLS 提供了一条通往自动化怀疑的道路。它从简单的平均值开始,但接着它会评估情况。它计算残差——每个数据点与当前平均值之间的差异。15.815.815.8 的残差与其他值相比巨大。然后 IRLS 算法会说:“这个数据点非常可疑。我们不要那么信任它。”它为这个离群值分配一个非常小的权重,而为那些“表现良好”的点分配大得多的权重。在下一步中,它计算一个加权平均值。那个离群值,由于其微小的权重,现在几乎没有影响,新的估计值被拉回到可信数据的集群中。仅仅一步之后,估计值就从 11.2611.2611.26 移动到了一个更合理的 10.4710.4710.47。通过迭代这个过程——计算残差、更新权重、重新计算加权平均值——算法优雅而自动地忽略了离群值,最终收敛到一个反映数据真实共识的答案。

这个原理可以漂亮地扩展。它不仅仅是关于找到一个单一的数字;它是关于发现关系。假设我们试图确定一个数据集中的线性趋势,但其中一个测量值被严重污染。这是数据同化中的常见情景,我们可能试图将一个简单的模型拟合到包含传输错误的卫星数据上。标准的最小二乘拟合会被这个坏点显著地扭曲。使用像 Huber 损失这样的稳健成本函数的 IRLS,也表现出同样的魔力。它迭代地识别出产生最大误差的点,降低其权重,然后重新拟合直线。结果是一个能够拟合大部分数据,而忽略离群值所带来的误导性谎言的模型。

这个思想甚至更具普适性。“模型”不一定是一条直线。在工程学中,我们构建复杂的非线性模型来描述动态系统——电路的行为、桥梁的振动或化学反应器的响应。预测误差法 (PEM) 是一种将这些模型拟合到时间序列数据的强大技术。当这些数据被零星的噪声破坏时,使用 IRLS 的稳健版 PEM 可能是一个救星。该算法自动地降低模型预测与观测值差异巨大的时间点的权重,从而实现对这些瞬时误差稳健的系统辨识。在所有这些案例中,从一个单一的平均值到一个复杂的动态模型,IRLS 提供了一个单一、连贯的策略:根据证据的可信度来权衡证据。

简约性的追求:寻找关键的少数

IRLS 的第二个伟大领域是寻求简约性,或科学家所说的简约。14 世纪的哲学家奥卡姆的 William 曾有句名言:“如无必要,勿增实体。” 在现代科学中,这就是奥卡姆剃刀:在相互竞争的假设中,应选择假设最少的那个。一个更简单的模型不仅更优雅,而且通常泛化能力更好,并提供更深刻的洞见。

我们如何让计算机找到最简单的模型?假设我们有上百个可能解释一种现象的因素,但我们怀疑只有少数几个是真正重要的。我们想找到那几个关键因素,并丢弃那些无关紧要的。这就是“稀疏性”问题。

令人惊讶的是,对稳健性的追求直接导致了一种实现稀疏性的方法。人们发现,最小化残差的*绝对值*之和(L1L_1L1​ 范数),而不是平方和,不仅对离群值稳健,而且还有一个显著的倾向,即产生稀疏解——模型中许多系数恰好为零。这项技术,被称为 L1L_1L1​ 回归或 LASSO(最小绝对收缩和选择算子),是现代统计学和机器学习的基石。那么我们如何解决 L1L_1L1​ 回归问题呢?最优雅的方法之一就是使用迭代重加权最小二乘法。该算法可以通过用加权二次函数逼近绝对值函数来推导,从而将问题转化为一系列熟悉的最小二乘求解过程。

IRLS 和稀疏性之间的这种联系开辟了激动人心的新前沿。考虑一下逆向工程生物系统的挑战。一位生物学家测量蛋白质浓度随时间的变化,并希望发现支配其行为的数学定律——微分方程。这个方程中可能有无数个可能的项:恒定产生、线性降解、二次自促进等。在非线性动力学的稀疏辨识 (SINDy) 算法中,我们可以创建这些候选函数的庞大库,然后使用寻求稀疏性的方法来找到实际描述数据的少数几个项。通过将其与 IRLS 的稳健性相结合,我们甚至可以从充满噪声和离群值的实验数据中发现简单、潜在的动力学。

同样的原理正在彻底改变物理科学。在材料化学中,科学家开发“原子间势”来模拟原子和分子的行为。这些势通常被构建为许多数学基函数的线性组合。为了创建一个简单、高效且物理上可解释的模型,我们希望使用尽可能少的基函数。IRLS 为此提供了一个强大的引擎,它迭代地解决一个加权正则化问题,以剔除不必要的项,并揭示原子力的基本组成部分。

重加权的力量甚至不止于此。虽然 L1L_1L1​ 促进稀疏性,但其他惩罚,如 p<1p \lt 1p<1 的 ℓp\ell_pℓp​ 范数,能更积极地做到这一点。这些目标函数是非凸的,并且众所周知难以优化。然而,IRLS 框架以惊人的优雅扩展到这些问题上。通过用一系列加权的二次函数对非凸惩罚进行上界化(majorizing),我们可以再次用一系列简单的问题来解决一个难题。这具有深远的实际意义。在信号处理中,这允许“超分辨率”——从模糊的测量中恢复清晰的细节。例如,人们可以从信号的少数低频分量中重构出一个由尖锐“脉冲”组成的稀疏信号。基于 ℓ0.5\ell_{0.5}ℓ0.5​ 惩罚的 IRLS 算法可以成功地分离两个比简单方法的理论分辨率极限更近的脉冲,取得了以前认为不可能的结果。重加权过程在每次迭代中有效地“锐化其视觉”,专注于其他方法所遗漏的稀疏结构。

宏大的综合:驾驭大规模反问题

当稳健性和简约性的原则被结合起来以解决现代科学中的宏大反问题时,IRLS 的真正威力就显现出来了。反问题是从观测到的效应推断隐藏原因的挑战。我们看到影子,必须推断出投下影子的物体的形状。这些问题无处不在,从医学成像到天体物理学。

在计算地球物理学中,科学家根据在地表进行的测量(如地震波或重力异常)来推断地球内部的结构。地球的模型是大量的数字集合(例如,网格中每个点的密度或速度),而预测数据的正演算子极其复杂。为了使问题可解,我们必须施加奥卡姆剃刀:模型应该是简单或平滑的。这是通过一个正则化项来实现的。此外,观测数据不可避免地含有噪声,并可能包含离群值。因此,理想的目标函数结合了对数据失配的稳健惩罚和对模型本身的稳健(或促进稀疏性)惩罚。IRLS 框架以非凡的优雅处理这种复合结构,导出一个增广系统,其中数据和模型项被分别加权但同时求解。

也许这种综合最令人印象深刻的应用是在天气预报和气候科学中。数据同化是将大气的物理模型与真实世界的观测相结合,以产生对当前天气状况的最佳估计的科学。这个“分析”随后成为下一次预报的起点。

挑战是巨大的。大气的模型是不完美的。来自卫星、气象气球和地面站的观测是有噪声的,并且可能包含严重错误。在三维变分 (3D-Var) 同化框架中,IRLS 使我们能够稳健地将模型的预测与传入的数据流相结合。该算法自动计算新息——观测值与模型预测之间的差异——并用它来分配权重。与模型一致的观测获得高权重。报告一个奇异、离群值的传感器获得非常低的权重,有效地将其隔离,防止其污染整个分析。

这在最先进的弱约束 4D-Var 系统中达到顶峰。在这里,我们优化大气在一段时间内的整个轨迹。我们承认我们的物理模型本身可能有错误(“弱约束”)。成本函数变成了一个微妙的平衡:一个表示轨迹与观测匹配程度的项(当然是稳健的),一个表示我们在每个时间步长需要“推动”我们的物理模型以使其拟合的程度的项,以及一个表示起点偏离我们先验最佳猜测程度的项。这个涉及数百万或数十亿变量的巨大优化问题,可以通过嵌入 IRLS 循环的方法来解决。该算法在动态调整其对每个观测的信任度的同时,协商其对模型物理定律的信任度,找到尊重所有可用信息的最可能的大气演变。

迭代的哲学

从一个单一的受污染的测量到全球大气的动力学,迭代重加权最小二乘法展现出它远不止是一个聪明的算法。它是科学方法本身的一种计算体现。它从一个假设(当前估计)开始,用数据来面对它,并识别出冲突最大的点(大残差)。然后,它不是惊慌失措,而是修正其对该数据可信度的信念(权重),并形成一个新的、改进的假设。这是理论与证据之间的对话,一个从错误中学习的纪律严明的过程。它是一个工具,用于构建不仅具有预测性,而且稳健、简约,并最终更具洞察力的模型。