未定义的均值：当平均数失效时

玻尔百科

核心要点

对于某些分布（如柯西分布），均值是未定义的，因为它们的“重尾”包含了具有足够概率的极端值，使得定义均值的积分发散。
对于均值未定义的分布，包括大数定律和中心极限定理在内的基本统计学原理完全失效。
对柯西分布的数据进行更多采样并取平均，并不会减少不确定性；样本均值与单个数据点一样不可预测。
在金融和物理学等重尾数据常见的领域，必须使用像中位数这样的稳健统计量，而不是脆弱的样本均值。

引言

“平均数”或均值的概念是数学中最直观的思想之一，是我们寻找典型值的首选工具。我们本能地相信，更多的数据会带来更准确的平均值。但如果这个基本假设崩溃了，会发生什么？自然界中发现的某些概率分布是如此不羁，以至于均值的概念本身变得毫无意义，产生了一种数学上形如“无穷大减无穷大”且无解的情况。本文将探讨未定义均值这一悖论，探索其发生的原因，以及它揭示了我们统计直觉的哪些局限性。

本次探索分为两部分。在“原理与机制”中，我们将深入问题的数学核心，利用著名的柯西分布来理解为何其均值是未定义的，以及这一特性如何引发一系列主要统计定律的连锁失效。随后，“应用与跨学科联系”将展示这不仅是一个理论上的奇特现象，更是物理学、金融学和工程学等现实世界系统中的一个关键特征，迫使我们采用更具弹性的统计工具。

原理与机制

在日常思维中，我们对“平均数”这个概念有着极佳的直观感受。如果你想知道一群人的平均身高，你会将他们所有人的身高加起来，然后除以人数。在概率论和统计学的语言中，这个思想被形式化为均值或期望值。我们可以将一个概率分布想象成沿着数轴铺开的一片“物质”。均值就是它的质心——那个可以放置支点并使整个分布完美平衡的点。这感觉像是一个基本且不可动摇的属性。当然，每个分布都必须有一个平衡点，对吧？

然而，大自然有其戏剧性的一面，并且乐于颠覆我们最珍视的直觉。事实证明，一些分布的行为是如此狂野，以至于质心的概念本身就失效了。

不存在的质心

让我们进入这个奇怪的领域，见识一位特别有名的“居民”：柯西分布。乍一看，它可能没什么特别。如果你绘制它的概率密度函数（PDF），你会看到一条完全对称的钟形曲线，与我们熟悉的常态分布惊人地相似。其标准形式的公式简单而优雅：

f(x) = \frac{1}{\pi(1+x^2)}

这个分布比你想象的更常见；它恰好是分析只有一个自由度的学生t分布时得到的结果。因为曲线围绕零点对称，我们可能会本能地猜测它的均值必定为零。支点似乎应该正好放在原点。

但我们不要草率。连续分布均值的正式定义是一个积分，它将每个可能的值 $x$ 按其概率密度 $f(x)$ 加权求和：

E[X] = \int_{-\infty}^{\infty} x f(x) \, dx = \int_{-\infty}^{\infty} \frac{x}{\pi(1+x^2)} \, dx

要正确计算这种向两个方向延伸至无穷的积分，我们必须确保其正半部分和负半部分都是有限的。让我们看看正半部分会发生什么。从 $0$ 到某个大数 $R$ 的积分是：

\int_{0}^{R} \frac{x}{\pi(1+x^2)} \, dx = \frac{1}{2\pi} [\ln(1+x^2)]_{0}^{R} = \frac{1}{2\pi} \ln(1+R^2)

当我们让 $R$ 趋向无穷大时，自然对数 $\ln(1+R^2)$ 也趋向无穷大。我们分布的正半部分有一个无穷的“矩”。根据对称性，负半部分（从 $-\infty$ 到 $0$ ）贡献了一个大小相等、方向相反的量，即一个朝向负无穷的无穷拉力。

因此，当我们试图计算均值时，我们得到的是一种 $\infty - \infty$ 的形式。这不等于零！这是一个数学上的不定式。它意味着“平衡点在哪里？”这个问题没有答案。柯西分布的均值是未定义的。这并非说均值是无穷大；而是这个概念本身不适用。分布两侧之间的拉锯战以无穷大的僵局告终。

尾部的暴政

这种怪异行为背后的秘密是什么？罪魁祸首是分布尾部的“重度”（heaviness）。分布的尾部告诉我们遇到远离中心的值的可能性有多大。

让我们将柯西分布与行为良好的常态（或高斯）分布进行比较。对于非常大的 $x$ 值，柯西分布的PDF， $f(x) \approx 1/(\pi x^2)$ ，呈二次衰减。而常态分布的PDF则以 $\exp(-x^2/2)$ 的速率衰减，这是一个惊人地更快的速率。

这个差异就是一切。对于常态分布，一个偏离均值十个标准差的观测值几乎是个奇迹。它对总均值的贡献微乎其微，因为它被一个接近零的概率所加权。尾部是如此之“轻”，以至于它们没有足够的杠杆作用来拉动均值。

对于柯西分布，情况则完全不同。尾部是“重”的——它们衰减得如此之慢，以至于极端离群值不仅是可能的，而且是该分布景观中的一个预期特征。一个远离中心数千或数百万单位的观测值，可能以足够的概率出现，从而对样本均值产生巨大的拉力。事实上，这些罕见、极端事件的杠杆作用如此之大，以至于它压倒了整个系统，使得均值永远无法稳定下来。这就是为什么均值的积分会发散：尾部承载了太多的权重。

被颠覆的平均法则

我们对平均数的直觉建立在统计学最基本的支柱之一：大数定律之上。该定律向我们保证，当我们从一个行为良好的分布中收集越来越多的数据时，样本均值将不可避免地逼近真实的总体均值。如果你抛一枚公平的硬币一千次，你期望得到非常接近500次正面。如果你抛一百万次，比例上你会更接近。

那么，如果我们试图将这个逻辑应用于柯西分布，会发生什么？让我们进行一个计算实验。我们从柯西分布中抽取一个大样本，比如 $n=100$ 个数，并计算它们的均值。然后我们重复这个过程，成千上万次，并绘制出我们收集到的所有样本均值的直方图。

大数定律会让我们预期，样本均值的直方图会比原始数据的直方图更窄，更尖锐地集中在中心（中位数，0）周围。毕竟，求平均被认为是用来平滑随机性的。

但对于柯西分布，结果是惊人的。样本均值 $\bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i$ 的分布与单个观测值的分布完全相同。

\text{If } X_i \sim \text{Cauchy}(x_0, \gamma), \text{ then } \bar{X}_n \sim \text{Cauchy}(x_0, \gamma)

这个令人难以置信的特性是柯西分布作为一种“稳定”分布的结果，它意味着对100个、1000个甚至一百万个柯西分布的数求平均，你得到的结果与最初只挑选一个数一样狂野和不可预测。我们实验的样本均值直方图在统计上将与原始数据的直方图完全相同。求平均完全没有任何好处。平均法则被推翻了。

连锁失效

这个单一、奇特的属性——未定义的均值——引发了多米诺骨牌效应，推倒了统计学中许多最重要的定理。

大数定律（WLLN & SLLN）： 弱大数定律和强大数定律都失效了。样本均值不会收敛于任何常数值。样本均值远离中心的概率不会随着样本量的增加而缩小；它顽固地保持不变。这些定律最基本的前提——存在有限均值——根本没有得到满足。
中心极限定理（CLT）： 这是统计学的皇冠上的明珠，它指出大量独立同分布（i.i.d.）随机变量的和或均值将近似服从常态分布，无论原始分布是什么（只要它有有限方差）。CLT是常态分布在自然界中如此普遍的原因。对于柯西分布，CLT戏剧性地失效了。样本均值不会向常态分布靠拢；它顽固地永远保持为柯西分布。像Berry-Esseen定理这样为收敛到常态分布的速度提供上限的定理，甚至无法被表述，因为它们需要柯西分布根本不具备的有限矩（均值、方差和三阶矩）。
重对数律（LIL）： 这个更精细的定律描述了随机游动波动的确切幅度。它也需要有限方差才能成立。由于柯西分布的方差是无穷大的，重对数律不适用。

未定义的均值不仅仅是一个数学上的奇闻。它是一个信号，表明某个分布是如此不羁，以至于它破坏了我们赖以在噪声中寻找信号的整套机制。

从不同角度的更深层审视

还有另一种优美的方式可以看出为什么均值是未定义的，这涉及到从不同的角度看待分布。每个概率分布都有一个称为其特征函数的“对偶”表示，它本质上是其傅里叶变换。这个函数用一种不同的语言——频率的语言——编码了关于分布的所有信息。

分布的矩，如均值，与它的特征函数在原点的导数有关。一个在原点处平滑、行为良好的特征函数意味着存在有限的矩。

对于柯西分布所属的对称 $\alpha$ -稳定分布族，其特征函数是 $\phi(t) = \exp(-\gamma |t|^{\alpha})$ 。柯西分布对应于 $\alpha=1$ 。如果你观察函数 $\phi(t) = \exp(-\gamma |t|)$ ，你会注意到它在 $t=0$ 处有一个尖锐的“尖点”。它在那里是不可微的。左导数和右导数不匹配。在原点处的这种不可微性，正是未定义均值在傅里叶空间中的直接标志。特征函数中的这个粗糙点对应于原始分布中尾部的狂野行为。

超越均值：一堂谦逊的课

这次进入未定义均值的奇异世界的旅程，给我们带来了什么重要的启示？主要的教训是谦逊。样本均值是一个强大、简单且通常非常出色的工具，但它并非万能灵药。它的有效性建立在假设之上——即底层数据并非来自具有病态重尾的分布。

在金融（股票市场回报）、物理学（某些系统中的能量分布）或网络科学（互联网流量模式）等此类分布常见的领域，盲目使用样本均值可能会产生误导，甚至是灾难性的。一个单一的极端事件就可以将平均值拉到一个毫无意义的数值。

这就是为什么统计学家发展了稳健统计学，这是一套旨在即使在假设被违反时也能表现良好的工具。人们可能会使用中位数（第50百分位数值），而不是均值，因为它对离群值的极端程度完全不敏感。

此外，样本均值对柯西分布的失效甚至更深一层。在统计推断中，充分统计量是数据的一个函数，它捕获了样本中关于未知参数的所有信息。对于柯西分布的位置参数，样本均值不是一个充分统计量。它实际上丢弃了信息！要真正确定柯西样本的中心，你需要查看整个数据集，而不仅仅是它的平均值。

柯西分布是一个鲜明而优美的提醒，我们必须始终质疑我们的假设，并了解我们工具的局限性。它教会我们超越平均值，去欣赏概率可能包含的丰富且有时狂野的复杂性。

应用与跨学科联系

我们花了一些时间来探讨一个相当奇特的数学思想：一组数可能没有一个行为良好的平均值。乍一看，这似乎是一个病态案例，是数学中一个与“现实世界”关系不大的奇怪角落。但事实证明，大自然的想象力远超我们通常的认知。简单、熟悉的均值的失效不是一个缺陷；它是宇宙的一个特征，一旦被理解，就能在众多学科中解锁对现象更深刻、更稳健的见解。它迫使我们提出一个更好的问题：不仅仅是“平均值是多少？”，而是“典型值是什么，以及我能在多大程度上信任它？”

让我们踏上一段旅程，看看这个看似抽象的想法在何处留下了它的印记，从原子的核心到全球金融的波动，再到生命本身的代码。

失效的定律：当更多数据并非更好时

我们的直觉，由多年与行为良好现象打交道的经验所塑造，告诉我们，要获得更精确的测量结果，只需采集更多数据。如果你测量一张桌子的长度十次，这十次测量的平均值几乎肯定比任何单次测量都更准确。这个原理在统计学中被编纂为大数定律。它是科学方法的支柱。

但如果这根支柱会崩塌呢？想象一个高精度光谱学实验，我们试图测量一个不稳定原子发射的光子的能量。由于量子不确定性，能量不是一个单一的固定值，而是分布在一个范围内的。在许多情况下，这个分布遵循一种称为柯西-洛伦兹分布的形状。现在，假设一位实验者勤奋地收集了数千个能量测量值并计算它们的平均值，期望结果会收敛到真实的中心能量。他们将会大失所望。

对于柯西分布，会出现一个数学上的奇特现象： $N$ 次测量的平均值遵循与单次测量完全相同的分布。获取更多数据丝毫不会减少不确定性。这就像试图通过朝随机方向走步来确定自己的位置，却发现你的平均位置和你走第一步后一样不确定。大数定律在这里壮观地失效了。因此，我们习以为常的常用统计工具，如用于比较组间的t检验，变得完全无效，因为它们建立在平均值最终会稳定下来的假设之上。在这种情况下，世界拒绝被平均所驯服。

在狂野、未驯服空间中的旅程

这种对平均的违抗与统计学的另一块基石——中心极限定理（CLT）——密切相关。CLT是钟形的常态分布在自然界中无处不在的原因。它告诉我们，许多小的、独立的随机效应的总和倾向于变成常态分布，而不管单个效应的分布如何，只要它们具有有限方差。这个定理是无数现象背后的无声指挥家，从人口身高的分布到电子信号中的噪声。

随机游走收敛到布朗运动——花粉粒在水中的抖动之舞——是CLT的一个优美的物理体现。每次与水分子的碰撞都是一个小的、随机的步伐。当在更大尺度上观察时，无数这样步伐的总和创造了Einstein著名分析过的那种平滑、连续但随机的路径。

但要实现这种优雅的收敛，步伐的方差必须是有限的。如果它不是呢？让我们考虑一个“流氓”粒子，它的随机步伐不是从行为良好的分布中抽取的，而是来自我们在光谱学实验中遇到的同一个柯си分布。这个粒子的旅程与布朗运动完全不同。它的路径不是密集的、局部的抖动，而是被突然的、巨大的空间跳跃所打断。这些被称为列维飞行（Lévy flights）。粒子可以在原点附近徘徊很长时间，然后，在一步之内，跳跃到天文数字般的距离之外。这样一个粒子的“平均”位置是一个无意义的概念，其路径也不会平滑成一个连续的过程。

这不仅仅是物理学家的思想实验。这种“重尾”分布，其方差为无穷大，且极端事件的发生概率远高于常态分布所预示的，在经济学和金融学的世界中十分普遍。股票价格的波动、财富的分配或保险索赔的规模，都不能很好地用温和的钟形曲线来描述。它们更适合用幂律分布或帕累托分布来描述，这些分布像柯西分布一样，可能具有未定义的均值或方差。一个计算模拟显示，对于尾部指数 $\alpha \le 2$ 的帕累托分布，标准化的样本均值无法收敛到常态分布；而对于 $\alpha \le 1$ （此时均值为无穷大），随着数据的增加，样本均值本身表现出爆炸性的、不稳定的行为。一个建立在常态回报假设上的金融模型，就像一个物理学家假设粒子会进行布朗运动，而实际上它正在进行狂野的列维飞行。这不仅是错误的；它对定义系统行为的突然“跳跃”（如市场崩盘）毫无准备，是危险的。

为充满离群值的世界进行工程设计：稳健性的智慧

如果均值如此脆弱，如此容易被重尾和离群值所破坏，我们该怎么办？答案不是放弃统计学，而是拥抱一类更具弹性的工具：稳健统计学。

考虑为火箭或自动驾驶汽车设计控制系统所面临的挑战。该系统依赖传感器来测量其状态——位置、速度、方向。这些测量值被输入到一个估计器中，如卡尔曼滤波器，它平滑噪声并预测未来状态。标准的卡尔曼滤波器，在其优雅的设计中，隐含地假设噪声是高斯分布的（即“行为良好”）。但如果一个传感器在瞬间失灵，或被太阳暂时晃瞎，报告了一个完全错误的值呢？这是一个离群值，一个来自自分布极端尾部的单个数据点。

如果系统计算近期测量的简单平均值，这个单一的离群值就可能将平均值拉得偏离轨道太远，以至于滤波器的状态估计完全被破坏。这可能导致灾难性的失败。样本均值具有统计学家所说的零崩溃点（breakdown point）。这实质上意味着，一个任意坏的数据点就足以使估计变得任意坏。它是一条强度仅取决于其最薄弱环节的链条。

在这里，另一种“平均”方式应运而生：中位数。中位数是位于已排序数据集中心的值。要破坏中位数，你不仅要破坏一个点；你必须破坏整个数据集的一半！它具有很高的崩溃点，使其对离群值具有稳健性。另一个稳健的选择是截尾均值（trimmed mean），即在计算平均值之前，丢弃一定百分比的最高和最低值。

工程师将这种智慧融入他们的系统中。通过在传感器数据到达卡尔曼滤波器之前，先通过中位数或截尾均值滤波器进行预处理，他们保护了系统免受离群值的暴政。他们学到了未定义均值的教训：当面对一个狂野和不可预测的世界时，必须建立不仅在理论上最优，而且在实践中具有弹性的系统。

来自生命密码的微妙教训

这一思想的重要性甚至延伸到均值在技术上是明确定义的，但仍然是一个糟糕且具有误导性的信使的情况。在计算生物学中，科学家通过模拟DNA序列随时间的变化来构建进化树。一个关键的见解是，基因中并非所有位点都以相同的速率进化；一些是突变的“热点”，而另一些则高度保守。

这种速率的变化通常使用伽马分布来建模。对于某些参数值，该分布变得极度倾斜呈L形：绝大多数位点进化得非常非常慢，而一小部分位点进化得异常快。当研究人员为了使模型在计算上易于处理而离散化这个分布时，他们必须为每一类位点选择一个代表性的速率。如果他们为一个包含这些超高速位点的类别选择了平均速率，那么这个平均值将被向上拉高，显著夸大该类别中一个“典型”位点的速率。它给予了罕见、极端成员过多的权重。

解决方案？再一次，是中位数。通过选择每个类别内的中位数速率，他们选择了一个更能代表概率质量中心的值，对极端尾部的拉动保持不敏感。这个看似微妙的统计选择可以对重建的生命之树的准确性产生重大影响。它表明，稳健性原则——即警惕极端值的影响——是构建更好世界模型的普遍而强大的指南，即使在均值技术上没有“失效”时也是如此。

从量子世界到我们自己的生物史，宇宙向我们展示了它并不总是“平均”的。它常常是断续的、倾斜的和重尾的。均值的失效是我们看到这个更丰富现实的邀请，也是我们装备自己以理解它的工具的契机。