迭代重加权最小二乘法 (IRLS)

玻尔百科

定义

迭代重加权最小二乘法 (IRLS) 是一种通过重复解决加权最小二乘问题来处理复杂回归问题的优化算法。该方法在广义线性模型（GLM）中被视为标准的拟合程序，能够通过为具有较大残差的离群点分配较低权重来提供稳健的估计。迭代重加权最小二乘法 (IRLS) 广泛应用于统计学、生物信息学、压缩感知以及自动化科学发现等前沿领域。

核心要点

IRLS 是一种迭代算法，它通过重复解决更简单的加权最小二乘问题来解决复杂的回归问题。
它通过系统性地为具有大残差的数据点分配较低的权重，提供了一种处理异常值的稳健方法。
IRLS 是广义线性模型 (GLM)（包括逻辑斯谛回归和泊松回归）的标准拟合程序。
该算法本质上是一种强大的优化技术，通常等价于牛顿法或费雪评分法。
其应用范围从统计学和生物信息学，延伸到压缩感知和自动化科学发现等前沿领域。

引言

将模型与数据进行拟合是科学研究中的一项基本任务，但像普通最小二乘法 (OLS) 这样的标准方法存在一个致命的弱点：它们很容易被异常值误导。单个坏数据点就可能扭曲整个分析，损害科学结论。这就提出了一个关键问题：我们如何才能构建既能抵抗此类不完美之处，又足够灵活以描述真实世界数据中发现的复杂关系（例如二元结果或事件计数）的模型？

本文介绍的迭代重加权最小二乘法 (IRLS) 是一种优雅而强大的算法，能够应对这些挑战。IRLS 提供的解决方案不是忽略问题，而是通过一个巧妙的迭代过程——拟合、评估和重新加权数据点——来接纳问题。读者将会发现，这个直观的想法不仅仅是一种启发式方法，它更是一个驱动了大量现代统计建模的复杂优化引擎。

接下来的章节将引导您了解这种多功能方法。第一章“原理与机制”将解析 IRLS 的核心机制，从降低异常值权重的直观想法入手，揭示其与牛顿法等强大优化算法的深层联系。然后，它将探讨该方法在广义线性模型 (GLM) 框架内的天然应用。第二章“应用与跨学科联系”将展示 IRLS 惊人的广泛性，演示其在医学研究、神经科学、稳健估计乃至稀疏恢复前沿等领域中的应用，阐明一个单一的原理如何统一了数据分析问题的广阔图景。

原理与机制

想象一下，你是一位试图绘制一颗新彗星轨迹的天文学家。你对其位置进行了一系列测量，但你知道你的望远镜并非完美无瑕。有些测量值可能会有些偏差。最简单的做法是找到一条平滑的曲线——为简单起见，假设是一条直线——使其尽可能“接近”你所有的数据点。这就是经典的最小二乘问题。你找到一条直线，使每个点到该直线的垂直距离（即“残差”）的平方和最小。这种方法是数据拟合的基石，几个世纪以来一直是科学家们信赖的伙伴。

但这个值得信赖的伙伴有一个致命的弱点。如果某天晚上，设备出现故障，或是一束杂散的宇宙射线，产生了一个与所有其他点相去甚远的、严重不准确的数据点，即异常值，那该怎么办？普通最小二乘法 (OLS) 会竭尽全力去迁就这个离群点。在其平等对待每个点的民主热情中，它会将整条线向异常值弯曲，从而可能毁掉你对彗星真实路径的估计。这就是异常值的暴政。我们如何才能建立一个更稳健的系统呢？

异常值的暴政：超越简单最小二乘法

OLS 的根本问题在于它将每个数据点都视为同等有效。一种更复杂的方法是为每个观测值分配一个“可信度”或权重。我们更信任的点获得更高的权重；我们怀疑是异常值的点获得较低的权重。这就引出了加权最小二乘法 (WLS)，在这种方法中，我们最小化的不再仅仅是残差的平方和，而是一个加权和。

但这立即带来了一个悖论。我们如何在拟合曲线之前就知道哪些点是异常值呢？根据定义，异常值是远离真实曲线的点。但我们并不知道真实曲线；这正是我们试图寻找的！这是一个经典的鸡生蛋、蛋生鸡的问题。

鸡与蛋问题：一种迭代解决方案

迭代重加权最小二乘法 (IRLS) 的高明之处在于，它不是通过打破这个循环来解决这个谜题，而是通过拥抱它。它的思路是：让我们从某个地方开始，然后逐步改进。这个过程是一个极其简单的反馈循环：

从一个猜测开始： 对最佳拟合线做出初始猜测。一个完全合理的起点是 OLS 解，这等同于假设所有权重都等于 1。
评估拟合效果： 利用你当前的线，计算每个数据点的残差。较大的残差表明该点可能是异常值。
重新加权数据点： 现在，根据残差调整权重。这是算法的核心。我们定义一个规则，为具有较大残差的点分配较低的权重。例如，我们可能将权重 $w_i$ 设置为与其残差大小 $|r_i|$ 成反比。
重新拟合直线： 使用这些更新后的权重解决一个新的 WLS 问题。权重较小的点（即疑似异常值）现在对直线的影响力会减小，从而得到一个受“表现良好”的点影响更大的新拟合。
重复： 现在，有了这条新的线，你又回到了第 2 步。你可以计算新的残差、新的权重，并得到一条新的线。你重复这个循环——迭代地重新加权和重新拟合——直到直线和权重不再发生显著变化。

算法已经收敛到一个自洽的状态。最终的直线主要由它拟合得很好的那些点决定，而这些点反过来又定义了这条直线。异常值被客气而坚定地告知要保持安静。

这不仅仅是一种启发式方法。我们可以使其更加精确。我们不只是最小化平方和 $\sum r_i^2$ ，而是选择最小化一个更一般的成本函数 $\sum \rho(r_i)$ ，其中 $\rho$ 是一个惩罚函数，对于大的残差，其增长速度比二次函数慢。例如，如果我们选择 $L_p$ 惩罚 $\rho(r) = \frac{1}{p}|r|^p$ ，其中 $1 \leq p \lt 2$ ，IRLS 就提供了一种解决该问题的方法。从数学推导中，权重自然地表现为 $w_i \propto |r_i|^{p-2}$ 。当 $p=2$ 时，我们恢复了具有恒定权重的 OLS。但是当 $p \lt 2$ 时，指数为负，这意味着当残差 $|r_i|$ 变大时，其权重会变小，自动实现了我们降低异常值权重的目标。

更深层的联系：优化引擎

到目前为止，IRLS 似乎只是一个用于稳健回归的巧妙技巧。但其真实身份远比这深刻。在许多最重要的应用场景中，它是牛顿法——数值优化中最强大的算法之一——的一种伪装巧妙的优雅实现。

想象一下，你正试图找到一个山谷的最低点（最小化一个函数）。牛顿法是一种激进的策略。在你当前的位置，你不仅看坡度，还看谷底的曲率。你用一个简单的抛物线（二次函数）来近似这个山谷，该抛物线在你脚下的真实地形处具有相同的坡度和曲率。然后，你直接一大步跳到那个抛物线的底部。如果你的函数表现良好，这些跳跃将以惊人的速度带你到达真正的最小值——这一性质被称为二次收敛。

事实证明，对于许多关键问题，包括广泛使用的逻辑斯谛回归，IRLS 的更新在代数上与 Newton-Raphson 更新是相同的。“权重”并非某些临时设定的值；它们直接衡量了函数的曲率（其二阶导数，即海森矩阵）。对于逻辑斯谛回归，负对数似然的海森矩阵恰好是 $X^T W X$ ，其中 $W$ 是 IRLS 权重的对角矩阵。IRLS 在每一步解决的“加权最小二乘”问题，无非是牛顿法所使用的局部二次近似的最小化的一种巧妙方法。这一美妙的联系揭示了 IRLS 并非一个简单的启发式方法，而是一种复杂的二阶优化算法。

统计学的宇宙：广义线性模型

IRLS 的天然栖息地是广义线性模型 (GLM) 的世界。GLM 是一个宏大的框架，它将许多不同类型的回归统一在一个理论体系之下。它们将我们从 OLS 的严格假设中解放出来。有了 GLM，响应变量不必是正态分布的；它可以是二元的（0 或 1）、一个计数或其他数据类型。

一个 GLM 有三个组成部分：

随机部分，指定响应变量的概率分布（例如，二元数据用伯努利分布，计数数据用泊松分布）。
系统部分或线性预测器， $\eta = X\beta$ ，这是我们熟悉的预测变量的线性组合。
联结函数， $g(\mu) = \eta$ ，它将响应的均值 $\mu = E[Y]$ 与线性预测器联系起来。

在 GLM 中估计参数 $\beta$ 通常涉及最大似然估计 (MLE)。这意味着找到使我们观测到的数据最可能出现的 $\beta$ 。不幸的是，这通常会导致无法直接求解的复杂方程。这正是 IRLS 登场的时刻。用于寻找 MLE 的标准算法，即费雪评分法（牛顿法的近亲），可以完美地表示为一个 IRLS 过程。

在每次迭代中，我们构建两个关键量：

工作响应 ( $z_i$ )：我们不能简单地将原始数据 $y_i$ 对预测变量进行回归，因为它们之间的关系不是线性的。相反，我们计算一个称为工作响应的“伪观测值”。它是通过在当前均值估计值附近对联结函数进行线性化得到的。其公式为 $z_i = \eta_i + (y_i - \mu_i) g'(\mu_i)$ ，其中 $g'(\mu_i)$ 是联结函数的导数。这个 $z_i$ 在每一步的 WLS 问题中充当响应变量。例如，对于具有平方根联结的泊松模型，这个通用公式可以漂亮地简化为 $z_i = \frac{1}{2}(\eta_i + y_i/\eta_i)$ 。
权重 ( $w_i$ )：就像在我们的稳健回归例子中一样，我们需要权重。在 GLM 的背景下，权重有一个优美的统计学解释：它们是工作响应方差的倒数。公式为 $w_i = [V(\mu_i)(g'(\mu_i))^2]^{-1}$ ，其中 $V(\mu_i)$ 是描述数据方差如何依赖于其均值的方差函数。这完全合乎情理：我们给更可靠（方差更小）的工作观测值赋予更大的权重。

GLM 动物园一瞥：权重的作用

让我们看看这套机制如何应用于一些最常见的 GLM，正如在生物信息学和其他领域中所探讨的那样。

逻辑斯谛回归（伯努利数据，logit 联结）： 用于建模二元结果（例如，患病/未患病）。方差函数为 $V(\mu) = \mu(1-\mu)$ 。logit 联结的导数为 $g'(\mu) = 1/[\mu(1-\mu)]$ 。将这些代入权重公式，会得到一个非常简单的结果： $w_i = \mu_i(1-\mu_i)$ 。当 $\mu_i=0.5$ （不确定性最大）时，该权重最大；当模型非常确定（ $\mu_i$ 接近 0 或 1）时，该权重最小。这意味着算法将其注意力集中在最模棱两可的情况上。这也提供了一种内置机制，用于抑制“垂直异常值”（即模型确信但判断错误，例如当真实结果为 1 时预测 $\mu=0.02$ ）的影响。
泊松回归（计数数据，对数联结）： 用于建模计数（例如，击中探测器的光子数量）。在这里，方差等于均值， $V(\mu) = \mu$ 。对数联结是正则联结，权重简化为 $w_i = \mu_i$ 。具有更高期望计数的观测值被赋予更大的权重。这很直观：在相对尺度上，100 和 101 个计数之间的差异比 1 和 2 个计数之间的差异噪声更小。
伽玛回归（偏态正值数据，对数联结）： 用于正值的、右偏的数据，如反应时间或金融索赔。方差与均值的平方成正比， $V(\mu) = \mu^2$ 。使用对数联结（ $g'(\mu)=1/\mu$ ）时，一个小小的奇迹发生了：方差函数中的 $\mu^2$ 恰好被来自联结导数的 $(1/\mu)^2$ 所抵消。权重 $w_i$ 变为常数！IRLS 过程变成了一个权重在迭代之间不发生变化的重加权最小二乘问题（尽管工作响应确实会变）。

引擎失灵时：收敛与注意事项

IRLS 是一个强大的引擎，但像任何引擎一样，它需要合适的条件才能平稳运行。与牛顿法的联系意味着，当它起作用时，效果非常好，通常只需几次迭代就能收敛。对于具有正则联结的 GLM，对数似然函数通常是凹的，这保证了算法会朝着一个唯一的全局最大值攀升。

然而，也存在一些失效模式：

模型设定不当： 如果模型不合逻辑，算法可能会崩溃。例如，试图用 logit 联结（要求其输入 $\mu$ 介于 0 和 1 之间）来拟合泊松模型（其中均值 $\mu$ 可以是任何正数），这注定会失败。在某次迭代中，算法可能会尝试计算一个不可能的值，导致其失败。
杠杆点： 虽然用于逻辑斯谛回归的 IRLS 可以处理垂直异常值，但它本质上不能防范高杠杆点——即在预测变量中具有极端值的观测值。一个点的影响力是其残差和杠杆率的乘积。如果一个高杠杆点的拟合值恰好接近 0.5，它将获得最大权重，并且仍然可能对最终拟合产生不成比例的影响。来自 OLS 的杠杆概念通过“工作尺度上的帽子矩阵” $H = W^{1/2}X(X^T W X)^{-1}X^T W^{1/2}$ 推广到 GLM，其对角线元素可以诊断这些有影响力的点。
数据病态： 在某些数据集中，MLE 可能不存在。逻辑斯谛回归中的一个经典例子是完全分离，即某个预测变量可以完美地将 0 和 1 分开。在这种情况下，最优参数将是无穷大，而 IRLS 算法将因参数估计值趋向无穷而无法收敛。

尽管存在这些注意事项，迭代重加权最小二乘法的原理仍然是统计学与数值优化优雅与统一的证明。它始于一个解决简单问题——异常值的暴政——的直观想法，最终揭示了自己是一个深刻、强大且广泛应用的算法，驱动着现代统计建模的许多方面。

应用与跨学科联系

在体验了迭代重加权最小二乘法精巧的机制之后，我们可能会感到某种满足。我们已经看到，一个聪明的想法——将一个困难的优化问题转化为一系列熟悉的加权最小二乘问题——如何能被形式化为一个强大的算法。但在物理学以及广义的科学领域，真正的乐趣不仅在于理解一个工具的工作原理，更在于看到它能打开的锁是何其多样。IRLS 不仅仅是一个统计学上的奇珍；它是一把万能钥匙，一个以或熟悉或令人惊奇的伪装出现在广阔科学探究领域的多功能原理。它教给我们一个深刻的教训：一个单一、直观的想法可以为解决看似毫无关联的问题提供一个统一的框架。

现在，让我们开始一场应用之旅，看看这个原理在实践中是如何运作的。

通过新镜头看世界：广义线性模型

IRLS 最自然的栖息地是广义线性模型 (GLM) 的世界。这些模型是现代统计学的“主力军”，让我们能够超越经典线性回归的严格假设。生活很少像一条带有均匀噪声的直线那样简单，而 GLM 为我们提供了描述更复杂关系的语言。但这种复杂性是有代价的：寻找最佳模型参数的方程通常错综复杂、非线性，并且没有直接的解决方案。这正是 IRLS 大放异彩的地方。

想象一下，你是一名研究术后感染的医学研究人员。你的目标是根据年龄和手术时长等多种因素来预测患者发生感染的概率。你正在建模一个概率，一个介于 0 和 1 之间的数字，而不是一个无界的值。简单的最小二乘法注定会失败；它不尊重这些边界，可能会预测出 1.5 或 -0.2 这样毫无意义的概率。逻辑斯谛回归，一个经典的 GLM，是正确的工具。为了拟合这个模型，IRLS 是其底层的引擎,。在每一步，它都会为每个患者的数据点分配一个权重。这个权重由 $w_i = \hat{p}_i(1-\hat{p}_i)$ 给出，其中 $\hat{p}_i$ 是该患者当前估计的感染概率。

这个简单的公式中蕴含着深刻的美感。当 $\hat{p}_i$ 接近 0.5 时权重最大，当它接近 0 或 1 时权重最小。该算法实质上是在说：“最能教给我东西的数据点是那些结果最不确定的点。如果我已经非常确定一个病人会或不会感染，那么该观测值所携带的新信息就较少。” IRLS 就像一位明智的法官，通过密切关注信息最丰富、最模棱两可的案例来迭代地完善其理解。同样的原理也完美地应用于计算神经科学，在其中我们可能需要对神经元响应刺激而放电的概率进行建模。其逻辑是相同的：算法从神经元反应最难预测的试验中学到的最多。

现在，假设我们建模的不是概率，而是计数——一个月内急诊室的就诊次数，或基因表达实验中检测到的 mRNA 片段数量,。对于这类数据，泊松回归模型是一个自然的起点。在这里，IRLS 同样提供了拟合程序，但使用了不同的加权方案： $w_i = \hat{\mu}_i$ ，其中 $\hat{\mu}_i$ 是估计的平均计数。其直觉不同，但同样令人信服。对于计数数据，方差倾向于随均值增长。对于一个期望值为 10 的过程，观测到 10 个计数，要比对于一个期望值为 1 的过程观测到 10 个计数更不令人意外。该算法更信任期望计数更高时的观测值，有效地为具有更强“信号”的数据点赋予了更大的权重。

然而，真实世界的数据往往比我们理想化的模型更混乱。在生物学中，我们经常发现计数的方差增长速度甚至比均值还快——这种现象被称为“过离散”。我们优雅的框架会因此失效吗？完全不会。它会适应。对于明确考虑了过离散的负二项回归模型，IRLS 权重只是简单地变为 $w_i = \hat{\mu}_i / (1 + \alpha \hat{\mu}_i)$ ，其中 $\alpha$ 是过离散参数。该算法优雅地调整其加权方案以适应这种额外的变异性。重加权原理足够灵活，可以处理这些现实世界中的复杂情况。

这种灵活性甚至进一步延伸到处理相关数据的情况，例如对同一患者随时间重复测量的纵向研究。标准回归假设独立性，这在这里显然不成立。广义估计方程 (GEE) 框架通过在模型中引入“工作相关矩阵”来解决这个问题。那么这个更复杂的模型是如何拟合的呢？答案是再次通过 IRLS 程序，其中权重现在是矩阵，既考虑了每次测量的方差，也考虑了它们之间的相关性。

驯服“野性”：稳健性与异常值剔除

重加权原理的力量并不仅限于 GLM 的有序世界。它还有更狂野、更具冒险精神的一面：驯服被异常值污染的数据。标准的最小二乘回归对异常值极其敏感。一个严重错误的测量值就可能将整条回归线拉离轨道，因为对大误差进行平方会使其产生巨大的影响。我们需要一种更稳健的方法，一个能够识别并降低可疑数据点权重的“持怀疑态度的侦探”。

这就是稳健 M-估计的领域，而 IRLS 是解决它的主要方法之一。我们不再是最小化平方误差之和，而是最小化一系列增长不那么剧烈的损失函数之和。一个著名的例子是 Huber 损失，它对小误差表现为二次方（如最小二乘法），但对大误差仅呈线性增长。这可以防止异常值主导目标函数。

为 Huber 损失求解最小化问题会导出一组非线性方程。但是通过定义一套巧妙的权重，我们可以用 IRLS 来解决它。在每一步，我们都考察残差——观测数据与模型预测之间的差异。下一次迭代的权重由 $w_i = \min(1, \delta/|r_i|)$ 给出，其中 $\delta$ 是一个调整阈值。逻辑非常简单。如果残差 $|r_i|$ 很小（小于 $\delta$ ），则该数据点被视为“内点”，并获得完整的权重 1。如果残差很大，该点则被怀疑是“异常值”，其权重会根据其偏离程度按比例降低。算法自动学会了不信任异常值！这个简单而强大的想法在各处都有应用，从分析基本的物理测量，到在遥感中反演复杂模型以利用卫星数据构建地球表面反射率地图。

与此密切相关的是 $L_1$ 回归，它旨在最小化残差的绝对值之和。这种方法以其稳健性而闻名，但绝对值函数在零点处有一个棘手的不可微点，这长期以来一直是优化算法的难题。IRLS 提供了一个绝妙的变通方法。我们可以将目标 $|r_i|$ 视为等同于 $r_i^2 / |r_i|$ 。通过用上一次迭代的值来近似分母中的 $|r_i|$ ，我们把问题转化为了一个权重为 $w_i \approx 1/|r_i|$ 的加权最小二乘问题。这是一个了不起的技巧，将一个非光滑问题转化为一系列光滑、易于求解的问题。

科学前沿：稀疏性与发现

重加权原理不仅是拟合模型或清洗数据的工具；它还是科学发现前沿的积极参与者。现代数据科学中两个最激动人心的领域是从数据中发现物理定律和从不完整信息中重建信号（压缩感知）。IRLS 是这两项技术中的关键技术。

考虑一下发现复杂系统（如细胞中的基因调控网络）控制方程的挑战。非线性动力学的稀疏辨识 (SINDy) 方法试图通过创建一个包含大量可能数学项（例如，常数项、线性项、二次项）的库，然后找到这些项中能最好地描述数据的稀疏组合来实现这一目标。挑战是双重的：实验数据通常是含噪的，并且可能包含显著的异常值；而真正的控制定律预计是简单的（稀疏的）。IRLS 为解决方案提供了一个完美的框架。人们可以将稳健 M-估计方法（例如，使用 Huber 损失）与一个促进稀疏性的步骤结合在单个循环中。IRLS 部分通过重新加权数据来处理异常值，而每次迭代结束时的阈值化步骤则会剔除不重要的项，从而强制实现稀疏性。这种混合算法是自动化科学发现的强大引擎。

本着同样的精神，IRLS 也被用来解决稀疏恢复和压缩感知中那些臭名昭著的难题。这些领域的一个核心目标是找到一个稀疏向量 $x$ 来解释一组测量值 $y=Ax$ 。这通常被表述为最小化一个类似 $\|Ax-y\|_2^2 + \lambda \sum_i |x_i|^p$ 的目标函数，其中 $p$ 是一个介于 0 和 1 之间的数字。 $|x_i|^p$ 这一项强有力地促进了稀疏性，但它使整个优化问题变得非凸——这是一个充满许多局部最小值的险恶地带。重加权原理再次提供了一条前进的道路。非凸项 $|x_i|^p$ 可以通过一系列简单的、加权的二次项 $u_i x_i^2$ 来近似。权重 $u_i$ 在每一步都会更新，例如更新为 $u_i \propto (|x_i^{(k-1)}|)^{p-2}$ 。这将一个困难的非凸问题转化为一系列我们知道如何解决的凸的加权最小二乘问题。这也许是该原理最深刻的应用：将一类根本上“困难”的问题转化为一系列“简单”的问题。

一条统一的线索

从预测疾病到发现生物学定律，从剔除卫星图像中的异常值到解决信号处理中的非凸难题，迭代重加权原理已被证明是一个异常强大且具有统一性的思想。它不仅仅是一种算法，更是一种思维方式。它告诉我们，许多复杂的问题都可以通过将它们近似为一系列更简单的、加权的问题来解决，只要我们足够聪明地选择正确的权重。这单一的线索连接了广阔而多样的科学领域，揭示了我们在从数据中理解世界的探索中所蕴含的内在统一性。