随机变量函数的期望

玻尔百科

核心要点

随机变量函数 $g(X)$ 的期望值，是通过将 $g(x)$ 的值按 $x$ 的概率加权求和或积分来计算的。
期望是一个线性算子，即 $E[aX + b] = aE[X] + b$ ，这一性质简化了许多统计计算，如标准化。
矩，例如均值 $E[X]$ 和方差 $E[(X-\mu)^2]$ ，是 $X$ 的幂的期望，用于描述分布的中心趋势和离散程度。
矩生成函数 (MGF) 定义为 $E[\exp(tX)]$ ，它将一个分布的所有矩优雅地编码在一个单一函数中。
这个概念是一个统一的工具，用于定义信息论中的熵、分析工程中的噪声以及为物理系统的平均动态建模。

引言

在概率论的研究中，期望值或平均值的概念是一个基础的出发点。但是，当我们关心的结果不是随机事件本身，而是它的某种变换时，情况会怎样呢？例如，在金融领域，投资者的效用可能是其回报的对数函数，而不是回报本身。在物理学中，粒子的动能是其速度的函数。计算这些变换后结果的平均值需要一套超越简单均值的特定工具。这正是随机变量函数的期望所要解决的核心问题。

本文为这一基本概念提供了全面的指南。它弥合了平均值的基本思想与高级科学和工程中复杂应用之间的鸿沟。您将学习计算这些期望的基本规则，并了解它们如何构成定义方差和矩等关键统计属性的基石。本文的结构旨在从零开始建立您的理解，从核心原理出发，最终展示其广泛的应用。

我们的旅程始于“原理与机制”一章，在那里我们将揭示核心公式，通常称为“无意识统计学家定律”。我们将探讨线性性的超能力、矩的描述能力，以及矩生成函数优雅而包罗万象的特性。在这一理论基础之后，“应用与跨学科联系”一章将展示这一思想如何在工程学、信息论和物理学等不同领域中提供一条统一的线索，揭示其在随机世界中发现秩序的深刻能力。

原理与机制

想象一下你在玩一个游戏。不是像抛硬币赢一美元那样的简单游戏，而是一个收益以更复杂方式依赖于某个随机事件的游戏。也许你掷一个骰子，你的奖金是出现点数的平方。或者，你是一位物理学家，正在测量一个随机波动的粒子能量，而你想知道其速度的平均值，而速度与能量的平方根成正比。我们如何找到一个随机事件函数的平均结果呢？

这个问题是科学、金融和工程领域无数问题的核心。答案既优雅又出人意料地直接，并且它建立在一个非常有用、以至于人们经常不假思索地使用的原则之上。

直接方法：聪明的平均方式

让我们回到掷骰子的游戏。你掷一个标准的六面骰子，结果是一个随机变量 $X$ ，它可以是 1、2、3、4、5 或 6，每个的概率都是 $\frac{1}{6}$ 。你的收益是 $g(X) = X^2$ 。你的平均或*期望*收益是多少？

你可以尝试找出每种可能收益的概率。收益分别是 $1^2=1$ 、 $2^2=4$ 、 $3^2=9$ 等等。由于每种收益都与一次唯一的掷骰结果相关联，所以每种收益的概率都是 $\frac{1}{6}$ 。那么平均收益是：

$E[X^2] = 1 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 9 \cdot \frac{1}{6} + 16 \cdot \frac{1}{6} + 25 \cdot \frac{1}{6} + 36 \cdot \frac{1}{6} = \frac{91}{6} \approx 15.17$

但请注意我们做了什么。我们计算了每个收益 $g(x) = x^2$ ，并将其乘以原始掷骰结果的概率 $P(X=x)$ 。我们实际上并不需要为收益本身创建一个新的概率表。这揭示了一个美妙的捷径，有时被称为无意识统计学家定律（Law of the Unconscious Statistician），因为它非常自然。要找到随机变量函数 $g(X)$ 的期望值，你只需将 $g(x)$ 按 $x$ 的概率加权求和（或积分）。

对于离散随机变量 $X$ ，公式是： $E[g(X)] = \sum_x g(x) P(X=x)$

例如，如果一个变量 $X$ 可以等概率地取值 $\{1, 2, 3, 4\}$ ，那么求其倒数 $g(X) = \frac{1}{X}$ 的期望值就是这个规则的直接应用。你只需将每个可能的 $x$ 对应的 $\frac{1}{x}$ 的值，按其 $\frac{1}{4}$ 的概率加权求和即可。

同样的逻辑无缝地扩展到连续随机变量，其中求和变成积分，概率质量函数 (PMF) 被概率密度函数 (PDF) $f(x)$ 所取代： $E[g(X)] = \int_{-\infty}^{\infty} g(x) f(x) \, dx$

想象一个在 1 和 2 之间均匀分布的随机变量 $X$ 。它的 PDF 在该区间内为 $f(x)=1$ ，在其他地方为零。那么 $Y = \frac{1}{X}$ 的期望值是多少？我们只需将函数 $g(x)=\frac{1}{x}$ 与 $X$ 的 PDF 在其定义域上进行积分： $E\left[\frac{1}{X}\right] = \int_{1}^{2} \frac{1}{x} \cdot 1 \, dx = [\ln(x)]_1^2 = \ln(2) - \ln(1) = \ln(2)$

无论函数 $g(X)$ 或密度 $f(x)$ 是什么，这种直接方法都适用。无论我们是求一个具有三角分布的变量的平方根的期望，还是其他一些奇怪的组合，原理都保持不变：对函数的输出进行平均，并按其输入的概率加权。

线性性的超能力

期望有一个如此基本和强大的性质，感觉就像一种数学超能力：线性性。简单来说，对于任何随机变量 $X$ 和任何常数 $a$ 和 $b$ ，以下公式永远成立： $E[aX + b] = aE[X] + b$

这非常直观。如果你决定将游戏中所有可能的奖金翻倍（ $a=2$ ），并增加一个固定的 $5$ 美元奖金（ $b=5$ ），你自然会期望你的平均奖金也会翻倍并增加 $5$ 美元。数学严谨地证实了这一直觉。

这个简单的规则具有深远的影响。让我们用 $\mu = E[X]$ 表示随机变量 $X$ 的均值。均值是概率分布的“重心”或平衡点。现在，让我们创建一个新变量 $Y = X - \mu$ ，它表示每个结果与均值的偏差。平均偏差是多少？利用线性性： $E[Y] = E[X - \mu] = E[X] - E[\mu]$ 由于 $\mu$ 是一个常数（它是计算出的均值），它的期望值就是它本身， $E[\mu]=\mu$ 。所以， $E[X - \mu] = \mu - \mu = 0$ 与均值的期望偏差永远为零。这不是巧合；这正是均值作为分布质心的定义。

这个思想是标准化（standardization）的基础，这是统计学中一个至关重要的过程。一个标准化变量，通常用 $Z$ 表示，是通过将变量减去其均值并除以其标准差 $\sigma$ 来创建的： $Z = \frac{X - \mu}{\sigma}$ 。它的期望值是多少？我们可以将其看作一个线性变换 $Z = (\frac{1}{\sigma})X - \frac{\mu}{\sigma}$ 。应用线性规则： $E[Z] = \frac{1}{\sigma}E[X] - \frac{\mu}{\sigma} = \frac{1}{\sigma}\mu - \frac{\mu}{\sigma} = 0$ 任何随机变量，无论其原始分布（正态、指数等）如何，一旦被标准化，其均值都为零。这个过程将各种各样的分布转换到一个共同的参考框架中，这是一个用于比较它们的极其强大的工具。

从平均值到离散程度：矩的角色

只知道平均值并不能说明全部问题。两个城市可以有相同的年平均温度，但一个可能季节温和，而另一个则夏季酷热、冬季严寒。我们需要描述数据的离散程度或分散性。这就是矩（moments）发挥作用的地方。

随机变量的 $k$ 阶原点矩定义为 $\mu'_k = E[X^k]$ 。

一阶原点矩， $\mu'_1 = E[X]$ ，就是均值 $\mu$ 。
二阶原点矩是 $\mu'_2 = E[X^2]$ 。

这些矩是描述分布形状的基本构件。利用期望的线性性，我们只需知道 $X$ 的矩，就可以求出任何 $X$ 的多项式函数的期望值。

最重要的离散程度度量是方差（variance），记作 $\sigma^2$ 。它被定义为与均值的离差平方的期望： $\sigma^2 = \text{Var}(X) = E[(X-\mu)^2]$ 方差告诉我们，平均而言，数值与中心点的离散程度。但它还有更深的含义。让我们问一个问题：与任意点 $c$ 的平方距离的期望是多少？这将是 $E[(X-c)^2]$ 。一点代数运算揭示了一个优美的结果： $E[(X-c)^2] = E[((X-\mu) + (\mu-c))^2] = E[(X-\mu)^2] + 2(\mu-c)E[X-\mu] + (\mu-c)^2$ 因为我们知道 $E[X-\mu]=0$ ，所以上式简化为： $E[(X-c)^2] = \sigma^2 + (\mu-c)^2$ 这个非凡的公式本质上是物理学中的平行轴定理（Parallel Axis Theorem），被翻译成了统计学的语言。它表明，到任意点 $c$ 的平均平方距离是两部分之和：围绕均值的内在离散程度（ $\sigma^2$ ）和一个等于从 $c$ 到均值的平方距离的“惩罚项”。这个方程告诉我们一个深刻的道理：均值 $\mu$ 是最小化期望平方距离的唯一一个点。在非常真实的意义上，它是分布的真正中心。

终极工具箱：矩生成函数

我们已经看到，像均值和方差这样的矩对于描述一个分布至关重要。是否存在一个单一、紧凑的对象，包含了所有的矩？答案是肯定的，它被称为矩生成函数（Moment-Generating Function, MGF）。

随机变量 $X$ 的 MGF 定义为： $M_X(t) = E[\exp(tX)]$ 其中 $t$ 是一个实数参数。乍一看，这可能很奇怪。为什么是这个特定的函数？让我们考虑一个简单的伯努利随机变量，比如一次量子测量的结果，以概率 $p$ 得到 1，以概率 $1-p$ 得到 0。它的 MGF 是： $M_X(t) = E[\exp(tX)] = (1-p)\exp(t \cdot 0) + p\exp(t \cdot 1) = 1 - p + p\exp(t)$

神奇之处在于我们观察 $\exp(tX)$ 的泰勒级数展开： $\exp(tX) = 1 + tX + \frac{t^2X^2}{2!} + \frac{t^3X^3}{3!} + \cdots$ 现在，让我们利用线性性这一超能力，对整个级数取期望： $M_X(t) = E[\exp(tX)] = E[1] + tE[X] + \frac{t^2}{2!}E[X^2] + \frac{t^3}{3!}E[X^3] + \cdots$ $M_X(t) = 1 + \mu'_1 t + \frac{\mu'_2}{2!} t^2 + \frac{\mu'_3}{3!} t^3 + \cdots$ MGF 是一个关于 $t$ 的幂级数，其系数恰好是随机变量的各阶矩！通过对 MGF 关于 $t$ 求导并在 $t=0$ 处取值，我们可以逐一提取出每一阶矩。MGF 是一个极其优雅的封装，它编码了一个分布的整个矩结构。

近似的艺术

在现实世界中，我们经常遇到一些极其复杂的函数，以至于计算精确的期望值是不可能的。想象一下，你是一位射电天文学家，正在测量一个波动的信号功率 $S$ ，你需要找到以分贝为单位的平均功率，这涉及到对数运算： $S_{dB} = 10 \log_{10}(S/S_{ref})$ 。计算 $E[S_{dB}]$ 的积分可能难以处理。我们能做什么呢？

这就是科学的艺术——近似——派上用场的时候。如果我们的随机变量 $X$ 的波动相对于其均值 $\mu$ 很小，那么 $X$ 不会偏离 $\mu$ 太远。在这个小范围内，几乎任何平滑函数 $g(X)$ 都可以被一个简单的抛物线——它在 $\mu$ 附近的二阶泰勒展开——精确地近似： $g(X) \approx g(\mu) + g'(\mu)(X-\mu) + \frac{g''(\mu)}{2}(X-\mu)^2$ 现在，让我们求这个近似值的期望。由于线性性，我们可以对每一项取期望： $E[g(X)] \approx E[g(\mu)] + g'(\mu)E[X-\mu] + \frac{g''(\mu)}{2}E[(X-\mu)^2]$ 我们知道 $E[g(\mu)] = g(\mu)$ （它是一个常数）， $E[X-\mu] = 0$ （平均偏差为零），以及 $E[(X-\mu)^2] = \sigma^2$ （方差的定义）。将这些代入，我们得到了一个强大而有用的近似： $E[g(X)] \approx g(\mu) + \frac{g''(\mu)}{2}\sigma^2$ 这告诉我们，一个函数的平均值约等于平均值的函数，外加一个取决于函数曲率（ $g''(\mu)$ ）和变量方差（ $\sigma^2$ ）的修正项。我们已经看到，均值和方差是如此基本，它们在这里再次出现，成为实际、真实世界估算所需的基本要素。从一个简单的骰子游戏到科学的前沿，期望的原理为理解一个充满不确定性的世界提供了一个稳健而优美的框架。

应用与跨学科联系

我们花了一些时间学习游戏的形式规则——如何计算随机变量函数的期望值。这些涉及积分和求和的机制本身就很优雅。但真正的乐趣，真正的魔力，在于我们将这个数学望远镜对准世界，看看它揭示了什么。一个函数的“加权平均”结果这一简单思想，原来是一把万能钥匙，解开了那些乍看之下毫无关联的领域中的秘密。我们即将踏上一段旅程，从一根断裂的木棍到信息的本质，再到复杂系统的动力学。

从断棍到基本性质

让我们从一个几乎具有欺骗性的简单谜题开始。想象你有一根长度为 $L$ 的木棍，你在一个完全随机的点上将它折断。较短那段的平均长度是多少？你的第一直觉可能会说是 $L/2$ ，但那将是断点本身的平均位置。我们感兴趣的量不是位置 $X$ ，而是它的一个函数： $\min(X, L-X)$ 。通过应用我们的工具，将这个函数在所有可能的断点上积分，我们得出了一个优美且可能令人惊讶的答案：较短那段的平均长度是 $L/4$ 。这个简单的例子告诉我们一个关键的教训：变量的函数的平均值不一定是平均值的函数。这种区别是无穷丰富性和实用性的源泉。

这个思想是定义概率分布最基本性质的基石。我们不仅关心平均值 $E[X]$ ，还关心数值的离散程度。衡量这种离散程度的方差，被定义为与均值的离差平方的期望值， $E[(X - E[X])^2]$ 。一个更方便的计算方法通常是 $E[X^2] - (E[X])^2$ 。我们又一次看到了它！为了理解离散程度，我们需要 $X$ 的两个不同函数的期望： $g(X) = X$ 和 $g(X) = X^2$ 。这两个最初的“矩”为我们勾勒出分布形状的粗略轮廓。

有时，巧妙地选择函数 $g(X)$ 可以使计算变得异常简单。对于像泊松分布这样的分布，它描述了在固定区间内事件发生的次数（比如你一小时内收到的邮件数量），直接从定义计算方差可能会陷入一堆棘手的无穷级数求和中。然而，如果我们转而计算“二阶阶乘矩” $E[X(X-1)]$ ，计算过程就会简化为几行优美的代数运算，揭示答案就是简单的 $\lambda^2$ ，其中 $\lambda$ 是平均速率。这是一个优美的数学洞见——视角的改变，对函数 $g(X)$ 的巧妙选择，将一个难题变成了易题。这是一个深刻的技巧，数学家和物理学家一直在使用。

构建一个随机世界

工程世界充满了噪声、抖动和不确定性。正是在这里，我们的工具不再仅仅是学术上的好奇心，而是成为设计和分析中不可或缺的仪器。

考虑一个电子电路中的噪声，通常用均值为零的正态分布来建模。这个随机电压剧烈波动，平均下来为零。但是，如果我们将这个噪声信号通过一个全波整流器会发生什么？整流器是一种将所有负电压翻转为正电压的设备，本质上是取信号的绝对值。输出信号的平均值不再是零；它现在有了一个正的直流分量。这个值是多少？这正是一个关于函数期望的问题：我们需要计算 $E[|X|]$ ，其中 $X$ 是我们的正态分布噪声电压。结果与噪声的标准差 $\sigma$ 成正比，这为我们提供了一种通过观察整流信号的直流输出来测量噪声强度的方法。

随机性的挑战远不止于简单的噪声。在网络控制系统或互联网通信中，从一点发送到另一点的信号不会瞬间到达。它会经历延迟，而这种延迟通常是随机的。如果你甚至不知道你的控制信号何时到达，你怎么能设计一个稳定的系统呢？这听起来像一个无望的任务。

然而，我们可以通过提问来在这种混乱中找到秩序：输出信号的平均行为是什么？信号的旅程可以用拉普拉斯域中的一个传递函数来描述。一个固定的延迟 $\tau$ 对应于将信号的变换乘以 $\exp(-s\tau)$ 。对于一个随机延迟 $\mathcal{T}$ ，传递函数本身变成了一个随机变量 $\exp(-s\mathcal{T})$ 。为了找到平均输出，我们可以定义一个“有效”传递函数，它原来就是期望值 $E[\exp(-s\mathcal{T})]$ ！这个量是一个众所周知的对象：它是延迟分布的矩生成函数 (MGF)，在 $-s$ 处求值。对于一种常见的随机延迟模型（指数分布），这个有效传递函数变成了一个简单的、确定性的表达式 $\frac{\lambda}{s+\lambda}$ 。突然之间，一个令人困惑的随机系统问题可以使用控制理论的标准、确定性工具来分析。我们已经将混乱平均化了。

统一的线索：信息、动力学及其他

一个科学概念的真正力量在于它连接不同领域的能力。随机变量函数的期望是我们拥有的最强大的统一线索之一。

让我们跳到由 Claude Shannon 创立的信息论世界。一个核心问题是：我们如何量化信息？Shannon 提出，我们从观察一个事件中得到的“惊奇”或信息量与其不可能性有关。一个非常不可能发生的事件，当它确实发生时，会非常令人惊讶。他将结果 $x$ 的自信息定义为 $-\log_2(P(x))$ 。那么，我们期望从一个随机源中获得的平均信息量是多少？它就是自信息的期望值， $E[-\log_2(P(X))]$ 。对于一个二元信源（比如一个硬币翻转，以概率 $p$ 得到 '1'，以概率 $1-p$ 得到 '0'），这个期望是 $-p\log_2(p) - (1-p)\log_2(1-p)$ 。这个著名的量就是信源的熵。它是消息可以被压缩的根本极限。我们数字世界的基石——数据压缩——就建立在这个简单的期望值思想之上。

在物理科学中，这种联系同样深刻。考虑一个阻尼振子系综，就像许多相同的摆，但每个摆的阻尼摩擦（系数 $P$ ）都略有不同，从某个随机分布中抽取。每个振子的动力学由一个微分方程描述。一个称为朗斯基行列式 (Wronskian) 的量 $W(t)$ ，衡量了这个方程的基本解如何演化。根据 Abel 定理，对于任何单个振子，朗斯基行列式按 $W(t) = W_0 \exp(-Pt)$ 衰减。现在，整个系综的*期望*朗斯基行列式是多少？它必然是 $E[W(t)] = W_0 E[\exp(-Pt)]$ 。我们再次看到了随机参数 $P$ 的矩生成函数的出现，这一次它决定了一个动力学系统的平均演化。物理组件的统计特性以一种精确、可预测的方式直接塑造了整个系统的平均动力学。

最后，这个概念为我们提供了强大的不等式，即使在无法精确计算时也能提供界限和洞见。詹森不等式指出，对于一个凸函数 $\phi$ （一个向上弯曲的函数，如 $x^2$ ），有 $E[\phi(X)] \ge \phi(E[X])$ 。对于一个凹函数 $\phi$ （一个向下弯曲的函数，如 $\ln(x)$ ），不等式方向相反： $E[\phi(X)] \le \phi(E[X])$ 。这不仅仅是一个数学上的好奇。在现代统计学和机器学习中，人们经常处理随机矩阵。对于一个随机正定矩阵 $\mathbf{X}$ （一种正数的多维推广），函数 $f(\mathbf{X}) = \ln \det(\mathbf{X})$ 已知是严格凹的。詹森不等式立即告诉我们 $E[\ln \det(\mathbf{X})] \ln \det(E[\mathbf{X}])$ 。对数行列式的平均值总是小于平均值的对数行列式。这一行结论是多元统计学、无线通信等领域的基础性结果，为优化算法和理论性能界限提供了依据。

从一根断裂的木棍到高维随机矩阵的几何学，原理始终如一。通过不仅问“平均值是多少？”而且问“平均效应是什么？”，我们找到了一把能打开我们从未想过相关联的锁的钥匙。这是对科学思想统一性的美妙证明。