Welford 算法

玻尔百科

核心要点

用于计算方差的朴素“快捷”公式在数值上不稳定，在处理均值大而方差小的数据时，会因灾难性抵消而失败。
Welford 算法提供了一种单遍、在线的方法来计算方差，它通过增量更新运行均值和离差平方和来保持数值稳定性。
该算法的常数内存使用和鲁棒性使其成为分析流式数据的理想选择，因为在这种情况下存储整个数据集是不可行的。
其应用在现代技术中至关重要，包括实时监控、金融分析以及通过批量归一化等技术稳定人工智能模型。

引言

计算数据集的方差或“离散度”是统计学和数据分析中的一项基本任务。虽然在数学上很简单，但标准的计算公式隐藏着一个危险的数值陷阱，即所谓的灾难性抵消，它可能导致结果严重不准确甚至不可能。在现代流式数据时代，这个问题尤为关键，因为内存有限，计算必须实时进行。本文旨在揭开这一计算挑战的神秘面纱，并提出一个优雅的解决方案：Welford 算法。在第一部分“原理与机制”中，我们将探讨数值不稳定的根本原因，并剖析 Welford 算法如何巧妙地避免这些陷阱，提供一种稳健的单遍方法。随后，在“应用与跨学科联系”中，我们将看到这一强大方法的实际应用，追溯其从实时金融监控、科学模拟到现代人工智能核心的影响。

原理与机制

要真正领会 Welford 算法的精妙之处，我们必须首先踏上一段旅程，这段旅程始于一个看似合理却导致了巨大失败的想法。这条探索之路不仅会揭示一种巧妙的算法，还会带来一个关于计算本质以及计算机芯片核心中隐藏戏剧的深刻教训。

诱人的捷径及其隐藏的陷阱

假设我们有一串数据流——来自物理实验的测量值、股票价格、传感器读数——我们希望计算其方差。你会记得，方差衡量的是数据的“离散度”。对于一组数 $\{x_1, x_2, \dots, x_n\}$ ，其定义非常直观：与均值 $\mu$ 的距离平方的平均值。

$s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \mu)^2$

直接计算这个似乎有点繁琐。首先，你必须对所有数据进行一遍遍历来计算均值 $\mu$ 。然后，你需要进行第二遍遍历，从每个数据点中减去这个均值，将结果平方，然后求和。这种双遍算法是有效的，而且正如我们将看到的，它效果很好。但它有一个实际的缺点：你需要存储所有数据才能进行第二遍遍历。如果数据流非常庞大，大到无法存入内存怎么办？

在这里，数学家的聪明才智似乎提供了一个绝妙的捷径。通过展开定义中的平方，可以推导出一个数学上等价的公式：

$s^2 = \frac{1}{n-1} \left[ \left(\sum_{i=1}^n x_i^2\right) - \frac{1}{n}\left(\sum_{i=1}^n x_i\right)^2 \right]$

这看起来太棒了！这个“计算公式”提出了一种单遍算法：每当一个数据点到达时，我们只需将其加到一个运行总和（ $\sum x_i$ ）中，并将其平方加到一个运行平方和（ $\sum x_i^2$ ）中。我们只需要存储这两个和以及一个计数器。最后，我们将它们代入公式即可。它速度快，内存效率高，似乎解决了我们所有的问题。到底能出什么问题呢？

两个数的故事：灾难性抵消剖析

事实证明，在纯粹的数学世界中为真的东西，在计算机的有限世界中并不总是为真。计算机以浮点格式存储数字，这本质上是一种有效数字（尾数）位数有限的科学记数法。这个限制正是我们麻烦的根源。

想象一下，你想测量一根羽毛的重量。你可以把它放在一个高精度天平上直接测量。或者，你可以尝试另一种方法：先称量一辆上面放着羽毛的重型卡车，然后再称量卡车本身，最后将两个数值相减。即使你的卡车秤非常精确，比如说精确到磅，每次测量中的微小舍入误差也会远大于羽毛的实际重量。你最终得到的结果将是完全无意义的。

方差的“快捷”公式恰恰迫使我们这样做。当数据的均值 $\mu$ 很大但标准差 $\sigma$ 很小（意味着数据点紧密聚集在远离零的位置）时， $\frac{1}{n}\sum x_i^2$ 这一项大约是 $\mu^2 + \sigma^2$ ，而 $(\frac{1}{n}\sum x_i)^2$ 这一项大约是 $\mu^2$ 。我们正在减去两个巨大且几乎相等的数，以寻找一个微小的差异，也就是我们的“羽毛” $\sigma^2$ 。这是一个典型的导致数值灾难的配方，即灾难性抵消。

让我们来看看实际情况。考虑一台使用 7 位十进制尾数存储数字的玩具计算机。我们给它输入数据 $\{100001, 99999, 100001, 99999\}$ 。真实的样本方差约为 $1.33$ 。当我们的玩具计算机计算平方和 $\sum x_i^2$ 时，它得到一个大数，如 $4.000000 \times 10^{10}$ 。当它计算 $(\sum x_i)^2/n$ 时，它也得到 $4.000000 \times 10^{10}$ 。关于微小方差的信息，本存在于第 7 位之后的小数位中，已经被舍去并完全丢失。计算机将两个相同的数相减，得到方差恰好为 $0$ 。这是一次灾难性的失败！

这不仅仅是玩具计算机的怪癖。使用标准的双精度算术，同样的事情也会发生，只是数字更大。误差的量级是毁灭性的。正如详细分析所示，最终结果的相对误差被放大了大约 $(\mu/\sigma)^2$ 倍。对于均值为 $10^8$ 、标准差为 $1$ 的数据，这个放大因子是 $(10^8/1)^2 = 10^{16}$ 。计算机微小的内在舍入误差（对于双精度约为 $10^{-16}$ ）被放大成一个量级为 $1$ 的误差，完全淹没了真实答案。在许多现实世界的场景中，这种朴素算法会产生垃圾结果，常常得出物理上不可能的负方差。

一条更具耐心的路径：稳定的双遍算法

所以，那个诱人的捷径是一个陷阱。让我们重新考虑那个“繁琐”的双遍算法。它的步骤是先计算均值 $\mu$ ，然后再计算离差平方和 $\sum(x_i - \mu)^2$ 。

为什么这个方法好得多？因为它“直接称量羽毛的重量”。减法 $x_i - \mu$ 在平方和求和之前执行。由于数据点都聚集在均值周围，差值 $(x_i - \mu)$ 都是小数。我们随后对这些小数的平方求和，这是一个在数值上更稳定的操作。我们完全避开了减去巨大且几乎相等的值这一过程。

这种双遍方法是计算方差的可靠且准确的主力军。它唯一真正的缺点是需要存储数据以进行第二遍遍历，这使其不适用于内存有限的真正流式应用。这就引出了一个问题：我们能否在拥有单遍效率的同时，达到双遍方法的稳定性？

两全其美：Welford 的巧妙在线算法

答案是肯定的，而且是一个漂亮的“是”，解决方案是一种通常归功于 B. P. Welford 的算法。它是算法思维的杰作，满足了我们所有的期望：单遍处理、常数内存使用和数值稳定性。

其核心思想是持续跟踪运行均值和运行离差平方和，并推导出更新规则，使我们能够合并新的数据点而无需回顾任何旧数据。

假设在处理完 $k-1$ 个点后，我们有均值 $M_{k-1}$ 和离差平方和 $S_{k-1} = \sum_{i=1}^{k-1} (x_i - M_{k-1})^2$ 。现在，一个新的点 $x_k$ 到达了。

首先，我们更新均值。这非常直观。新的均值 $M_k$ 只是旧均值加上一个小的修正量。这个修正量是新数据点的“意外”（ $x_k - M_{k-1}$ ）除以新的计数 $k$ 。

$M_k = M_{k-1} + \frac{x_k - M_{k-1}}{k}$

接下来是神奇的部分。我们如何更新平方和 $S_k$ ？一点代数运算揭示了一个非常优雅的更新规则：

$S_k = S_{k-1} + (x_k - M_{k-1})(x_k - M_k)$

仔细看这个公式。它仅使用旧的和、新数据点、旧均值和新均值来更新平方和。我们再也不需要看到 $x_1, \dots, x_{k-1}$ 了！我们添加的项 $(x_k - M_{k-1})(x_k - M_k)$ 是两个与新点偏离均值相关的小数的乘积。我们总是在向运行和 $S_k$ 中添加小的量，完全避免了灾难性抵消。

以前面的玩具计算机为例，Welford 算法细致地跟踪微小偏差，并正确计算出方差为 $1.325$ ，非常接近真实值。它优雅地将单遍、在线算法的内存效率与双遍方法的数值鲁棒性结合起来，使其成为流式数据分析的理想选择。

追求完美：补偿求和

Welford 算法是故事的结局吗？对于几乎所有目的来说，是的。它在鲁棒性上是一个巨大的飞跃。但在数值计算的世界里，对完美的追求是无止境的。我们还可以解决最后一个微妙的误差来源。

$S_k$ 的更新涉及一个加法： $S_k = S_{k-1} + \text{update_term}$ 。在处理了数百万个数据点后，运行和 $S_{k-1}$ 可能变得非常大。如果下一个更新项相比之下非常小，在浮点运算中将其加到 $S_{k-1}$ 上可能会导致其部分精度丢失。

为了解决这个问题，我们可以采用一种惊人聪明的技术，称为补偿求和，通常与 William Kahan 联系在一起。其思想是跟踪每次加法中丢失的“舍入尘埃”。可以把它想象成拥有第二个累加器，一个微小的误差变量 c。当我们计算 sum = sum + term 时，我们可以从数学上确定由舍入引入的确切误差。我们将这个误差存储在 c 中。下一次执行加法时，我们首先将这个修正项 c 加回来，从而有效地将上一步丢失的精度带到下一步。

通过将补偿求和整合到 Welford 算法中 $S_k$ 的更新步骤中，我们创建了一种补偿 Welford 算法。这种混合方法提供了几乎无与伦比的准确性和鲁棒性，从浮点数的有限世界中榨取了最后一滴精度。它证明了数学与计算实践现实之间美丽而复杂的舞蹈。

应用与跨学科联系

在探索了一个算法的机制之后，很自然地会问：“它有什么用？”欣赏一个数学技巧的巧妙是一回事，但看到它在实际行动中以具体方式塑造我们的世界，则是另一回事。一个基本思想（如 Welford 算法所体现的）的真正魅力不仅在于其内在的优雅，还在于其在科学和技术领域中的广泛影响。我们从一个简单的问题——计算一列数字的方差——开始，发现在看似直接的算术中隐藏着一个微妙而深刻的陷阱。现在，有了一个稳健的解决方案，我们可以去看看这个工具能带我们走向何方。这段旅程比你想象的更令人惊讶，它将我们从工厂车间引向人工智能的前沿和金融市场的核心。

流媒体世界的脉搏

想象一下试图了解一条河流。你不能只拍一张照片；河流是一个过程，一个持续的流动。要描述它，你需要知道它的平均速度，还要知道它的湍急程度——即它的方差。而且你需要立即知道这些，而不是在收集完所有将要流过的水滴之后。这就是流式数据的本质。我们的世界充满了这种数据：喷气发动机的传感器读数、网络流量日志、金融市场行情、ICU 病人的生命体征。

在所有这些情况下，我们需要计算一个“移动”或“运行”标准差。我们感兴趣的不是自时间开始以来所有数据的统计数据，而是过去几秒钟或过去一千个数据点的统计数据。这为我们提供了一个系统当前状态的实时仪表盘。朴素的方法，即在每一步都对最近的数据窗口从头开始重新计算，计算上非常浪费。一种更聪明的方法是使用“快捷”公式 $\sigma^2 = \frac{1}{N}\sum x_i^2 - (\frac{1}{N}\sum x_i)^2$ ，这个公式可以高效更新。

但在这里，我们遇到了我们之前讨论过的机器中的幽灵。正如我们在探索数值精度时所见，这个公式可能会遭受灾难性抵消的影响。如果我们正在监控一个报告值非常稳定的传感器，比如 $1,000,000.001$ ， $1,000,000.002$ 等，那么均值巨大，但方差极小。快捷公式中的两项变成了巨大且几乎相等的数字。当计算机将它们相减时，那些微小但有意义的差异被浮点舍入误差吞噬，有时甚至会产生荒谬的负方差。

Welford 算法，由于其设计，恰好避开了这个陷阱。它专注于与均值的偏差，从不减去两个大数。它成为实时仪表盘内可靠的引擎，使我们能够准确地跟踪任何流式系统的脉搏和波动，而无需担心数值幽灵。

从监控到智能：检测变化

观察仪表盘上的数字是一回事。让机器为你观察它们，并在发生根本性变化时提醒你，则是另一回事，这是一种更强大的能力。这是从监控到智能的飞跃，而 Welford 算法是实现这一飞跃的关键推动者，尤其是当我们将它从单个流推广到同时处理多个变量时。

想象一下，你正在管理一个金融资产组合。它们各自的波动性很重要，但它们的协方差——即它们如何共同变动——同样重要。这种关系可以用一个协方差矩阵来捕捉。在正常时期，股票和债券可能朝相反方向变动。在危机期间，它们可能全部一起下跌。协方差结构的这种变化是一种“范式转移”，是市场行为的根本改变。我们如何实时检测到它？

Welford 算法的原理可以从单个方差扩展到一个完整的协方差矩阵。我们不再跟踪运行离差平方和，而是跟踪一个运行的离差向量外积矩阵。这为我们提供了一种在线、内存高效的方式，来逐笔更新多资产流的协方差矩阵。

有了运行协方差矩阵，我们可以在每一刻执行主成分分析（PCA）。PCA 是一种用于在高维数据中寻找主要变化模式的数学技术。你可以把数据想象成一个交响乐团产生的复杂声音；PCA 在其中找到主要的“旋律”。每段旋律的强度由其特征值衡量。“解释方差比”（EVR）告诉我们主要旋律占据了总声音的多少。

现在，如果市场结构发生变化——如果小提琴声渐弱，而铜管乐器突然占据主导——主旋律就会改变。先前占主导地位的主成分的 EVR 将会下降。通过使用由 Welford 式更新驱动的增量 PCA，我们可以实时跟踪这个 EVR。我们可以编写一个系统，当 EVR 持续一段时间低于某个阈值时自动标记结构性断裂。这个简单的想法有着深远的应用，从检测复杂工业过程中的故障到发现对计算机网络的协同攻击。

机器之脑：Welford 算法在人工智能中的应用

也许这个经典算法最激动人心的应用是在人工智能的前沿。现代深度学习模型是庞大、复杂的网络，在巨大的数据集上进行训练。要让这个复杂的机器平稳运行，需要对数值稳定性有深刻的理解。

一个典型的例子是批量归一化 (Batch Normalization)，这是许多现代神经网络的基石。当数据通过网络层时，激活值的分布可能会剧烈变化，这个问题被称为“内部协变量偏移”。这会减慢甚至完全停止学习过程。批量归一化通过对每一小批数据的层输出进行标准化来应对这个问题——也就是说，强制它们的均值为 0，方差为 1。要做到这一点，它必须首先计算当前批次的均值和方差。

在现代硬件（如 GPU）上训练这些模型时，从业者通常使用混合精度算术，将数据存储在快速但低精度的 16 位浮点格式（FP16）中，以节省内存并加速计算。但这又把我们带回了灾难性抵消的问题！在 FP16 中天真地计算方差是灾难的根源。解决方案是什么？执行 Welford 更新。即使数据是 FP16 格式，运行均值和离差平方和也维持在更高精度的 32 位累加器中。这种数值稳定算法与明智使用更高精度的结合，正是让大规模模型能够稳定训练的原因。

Welford 算法也扮演着一个更主动、更具指导性的角色。训练模型常被比作在浓雾中下山；梯度告诉你最陡的下降方向，而“学习率”是你迈出步伐的大小。梯度的方差告诉你地形有多“颠簸”。如果方差低，路径平坦，你可以自信地迈出一大步。如果方差高，路径险恶，你应该迈出小而谨慎的一步。一种方差自适应学习率方案使用 Welford 算法来实时估计这个梯度方差，动态调整步长，以便更智能地在迷雾笼罩的地形中导航。

科学、模拟与知识前沿

最后，该算法在科学方法的核心找到了归宿：模拟与实验。在从物理到金融的许多领域，我们使用蒙特卡洛模拟——一种基于重复随机抽样的计算实验——来估计复杂的量。一个基本问题总是：“我需要多少样本？”

我们无法提前知道答案。但我们可以边进行边跟踪我们估计的不确定性。均值标准误依赖于样本方差，它告诉我们对当前答案的信心有多大。通过使用 Welford 算法计算运行方差，我们可以创建自适应模拟，让模拟运行直到达到期望的精度水平，然后自动停止。这节省了巨大的计算资源，让科学家能够专注于他们的问题，而不是手动调整模拟参数。

这个应用也引出了最后一个深刻的见解。如果我们将我们的工具用于一个方差为无限的系统，比如来自重尾柯西分布的数据，会发生什么？我们的算法，试图计算运行方差，将永远不会收敛。估计值会剧烈且不可预测地摆动。这不是算法的失败。这是一个发现。这个工具在告诉我们，我们试图测量的“方差”这个概念本身，并不是我们所观察世界的一个稳定属性。工具未能产生一个合理的答案，揭示了关于系统本身性质的更深层次的真相。

从一个避免数值错误的小技巧，我们构建了一个引擎，它驱动着实时监控，为智能系统提供动力，稳定人工智能的大脑，并帮助我们探索我们试图理解的系统本质。这是一个美丽的证明，说明了对计算微妙机制的深刻尊重可以产生具有非凡力量和洞察力的工具。