try ai
科普
编辑
分享
反馈
  • 随机变量的函数

随机变量的函数

SciencePedia玻尔百科
核心要点
  • 变换后随机变量 Y=g(X)Y = g(X)Y=g(X) 的分布可以通过直接操作其累积分布函数(CDF)来找到,从而将问题转化回已知的 XXX 的分布。
  • 变换方法,如矩生成函数(MGF)和特征函数(CF),通过将困难的卷积运算转换为简单的乘法,从而简化了复杂问题。
  • 特征函数为任何概率分布提供了一个通用且唯一的“指纹”,并揭示了深层属性,例如分布对称性与实值特征函数之间的联系。
  • 理解随机变量的函数对于建模和模拟现实世界现象至关重要,包括信号处理、金融市场行为和统计回归。
  • 这些数学工具揭示了反直觉的真理,例如柯西分布在平均下的稳定性以及詹森不等式在风险评估中的意义。

引言

在许多科学和工程背景下,我们关心的量不是基本的随机变量本身,而是由它派生出的函数。物理学家测量的是动能,即速度的函数;工程师追踪的是错误总数,即单个比特翻转的总和。这在概率论中引出了一个核心问题:如果我们了解支配随机变量 XXX 的概率规则,我们如何确定支配新变量 Y=g(X)Y = g(X)Y=g(X) 的规则?在观察基础过程和理解派生结果之间的这种差距,是模拟现实世界时的一个根本挑战。

本文提供了回答这个问题的工具箱。它将引导您了解分析和理解随机变量函数的基本技术,阐释抽象规则如何生成我们在自然界和技术中看到的复杂模式。讨论的结构是从基本概念逐步深入到强大、统一的理论及其现实意义。

首先,在“原理与机制”部分,我们将探讨核心数学方法,从使用累积分布函数的直接方法开始。然后,我们将过渡到更优雅、更强大的变换方法,包括矩生成函数和普遍适用的特征函数,揭示它们如何简化复杂的计算。随后,在“应用与跨学科联系”部分,我们将看到这些工具的实际应用,展示它们如何被用于模拟复杂系统、揭示数据中的隐藏结构,以及在金融、物理和农学等不同领域进行预测。

原理与机制

想象一下,你是一位研究盒子中气体分子的物理学家。原则上,你可以将每个分子的速度视为一个随机变量。但你通常测量的不是速度本身,而是动能 E=12mv2E = \frac{1}{2}mv^2E=21​mv2。或者,你可能是一位监控通信线路的工程师,你关心的不是每个单独的比特翻转,而是消息中错误的总数。在这两种情况下,我们感兴趣的量都是某个(或某些)底层随机变量的函数。这就引出了概率论中的一个核心问题:如果我们知道支配随机变量 XXX 的规则,那么支配新变量 Y=g(X)Y = g(X)Y=g(X) 的规则是什么?

本章将带我们探索用于回答该问题的工具箱。我们将从最直接的“暴力”方法开始,然后,本着优秀物理学家的精神,我们将寻找更优雅、更强大的工具,这些工具不仅能解决问题,还能揭示数学世界中更深层次的结构和统一性。

直接方法:追踪概率

描述一个随机变量最基本的方式是通过其​​累积分布函数(CDF)​​,记为 FY(y)F_Y(y)FY​(y)。这个函数告诉我们变量 YYY 取值小于或等于 yyy 的概率。因此,“Y=g(X)Y = g(X)Y=g(X) 的分布是什么?”这个问题可以被改述为“FY(y)=Pr⁡(Y≤y)F_Y(y) = \Pr(Y \le y)FY​(y)=Pr(Y≤y) 是什么?”。

让我们思考一下。陈述 Y≤yY \le yY≤y 等同于 g(X)≤yg(X) \le yg(X)≤y。所以,我们所要做的就是对这个不等式 g(X)≤yg(X) \le yg(X)≤y 进行数学上的整理,以分离出 XXX。一旦我们得到了一个关于 XXX 的等价陈述(比如 X≤h(y)X \le h(y)X≤h(y) 或 X≥h(y)X \ge h(y)X≥h(y)),我们就可以计算它的概率,因为我们已经知道了 XXX 的分布。

让我们来看一个具体的例子。假设我们有一个随机数生成器,它产生的数 XXX 在 0 和 1 之间均匀分布。这是随机性的缩影——区间内的任何数都是等可能出现的。现在,我们使用变换 Y=−2ln⁡(X)Y = -2 \ln(X)Y=−2ln(X) 创建一个新的随机变量。YYY 的分布会是什么样子?

我们按照步骤来。我们想求 FY(y)=Pr⁡(Y≤y)F_Y(y) = \Pr(Y \le y)FY​(y)=Pr(Y≤y):

Pr⁡(Y≤y)=Pr⁡(−2ln⁡(X)≤y)\Pr(Y \le y) = \Pr(-2 \ln(X) \le y)Pr(Y≤y)=Pr(−2ln(X)≤y)

为了分离出 XXX,我们首先除以 -2。记住,不等式两边同乘或同除一个负数会改变不等号的方向!

Pr⁡(ln⁡(X)≥−y2)\Pr\left(\ln(X) \ge -\frac{y}{2}\right)Pr(ln(X)≥−2y​)

现在,我们对两边取指数。由于指数函数总是递增的,不等号方向保持不变。

Pr⁡(X≥exp⁡(−y2))\Pr\left(X \ge \exp\left(-\frac{y}{2}\right)\right)Pr(X≥exp(−2y​))

我们做到了!我们已经将一个关于 YYY 的问题转化为了一个关于 XXX 的问题。由于 XXX 在 (0, 1) 上均匀分布,概率 Pr⁡(X≥a)\Pr(X \ge a)Pr(X≥a) 就是 1−a1 - a1−a(对于 0 和 1 之间的任何 aaa)。在我们的例子中,a=exp⁡(−y2)a = \exp(-\frac{y}{2})a=exp(−2y​)。对于任何正的 yyy,这个值确实在 0 和 1 之间。所以,我们得到了答案:

FY(y)=1−exp⁡(−y2)for y>0F_Y(y) = 1 - \exp\left(-\frac{y}{2}\right) \quad \text{for } y > 0FY​(y)=1−exp(−2y​)for y>0

这是​​指数分布​​的CDF。这是一个了不起的结果。我们从最平凡的分布——均匀分布——开始,一个简单的对数变换就得到了指数分布,它是模拟放射性衰变等待时间、电话通话时长或地震间隔时间等现象的基石。我们看到简单的规则如何能生成我们在自然界中观察到的复杂模式。

通往新领域的旅程:变换方法

CDF 方法直接且直观,但它可能变得非常繁琐,特别是当函数 g(X)g(X)g(X) 很复杂,或者更糟的是,YYY 是多个随机变量的函数时,例如 Y=X1+X2+⋯+XnY = X_1 + X_2 + \dots + X_nY=X1​+X2​+⋯+Xn​。计算和的分布,这个过程称为​​卷积​​,涉及到计算一个相当棘手的积分。这就像试图用手计算两个非常大的数的乘积一样,既乏味又容易出错。

所以,我们借鉴了工程学和数学中的一个技巧:我们使用变换。其思想是将问题转移到一个计算更简单的新“域”中。一个熟悉的类比是使用对数。要计算两个大数 AAA 和 BBB 的乘积,你可以先求出它们的对数,然后将它们相加(这是一个容易得多的运算),最后对结果取反对数得到最终的乘积。

A×B=exp⁡(ln⁡(A)+ln⁡(B))A \times B = \exp(\ln(A) + \ln(B))A×B=exp(ln(A)+ln(B))

对于概率分布,我们有一个类似且更强大的工具。

矩生成函数 (MGF)

其中一个工具是​​矩生成函数 (MGF)​​。它的名字听起来有点吓人,但其定义相当直接。对于一个随机变量 XXX,其 MGF 是:

MX(t)=E[exp⁡(tX)]M_X(t) = E[\exp(tX)]MX​(t)=E[exp(tX)]

你取你的随机变量 XXX,乘以一个新参数 ttt,对其取指数,然后求结果的平均值。这个函数 MX(t)M_X(t)MX​(t) 对我们有什么用呢?它充当了概率分布的一个独特“指纹”或“签名”。就像一个人的指纹是独一无二的,MGF(如果存在)也唯一地标识了其分布。

让我们看看最简单的“随机”变量:一个​​退化​​变量,它根本不是随机的!假设变量 XXX 总是取常数值 ccc。它取值为 ccc 的概率是 1,取任何其他值的概率都是 0。它的 MGF 是什么?嗯,期望是微不足道的;因为 exp⁡(tX)\exp(tX)exp(tX) 只能取值 exp⁡(tc)\exp(tc)exp(tc),所以它的平均值就是这个值:

MX(t)=E[exp⁡(tc)]=exp⁡(tc)M_X(t) = E[\exp(t c)] = \exp(tc)MX​(t)=E[exp(tc)]=exp(tc)

现在,让我们看看为什么这个工具有用。还记得我们变换变量的问题吗?让我们考虑一个简单的线性变换 Y=aX+bY = aX + bY=aX+b。用 CDF 方法求新分布需要做一些工作。但用 MGF,则异常简单。

MY(t)=E[exp⁡(tY)]=E[exp⁡(t(aX+b))]=E[exp⁡(atX+bt)]M_Y(t) = E[\exp(tY)] = E[\exp(t(aX+b))] = E[\exp(atX + bt)]MY​(t)=E[exp(tY)]=E[exp(t(aX+b))]=E[exp(atX+bt)]

使用属性 exp⁡(A+B)=exp⁡(A)exp⁡(B)\exp(A+B) = \exp(A)\exp(B)exp(A+B)=exp(A)exp(B),我们可以拆分指数项:

MY(t)=E[exp⁡(atX)⋅exp⁡(bt)]M_Y(t) = E[\exp(atX) \cdot \exp(bt)]MY​(t)=E[exp(atX)⋅exp(bt)]

项 exp⁡(bt)\exp(bt)exp(bt) 只是一个常数;它不依赖于随机变量 XXX,所以我们可以将它从期望中提出来。

MY(t)=exp⁡(bt)E[exp⁡((at)X)]M_Y(t) = \exp(bt) E[\exp((at)X)]MY​(t)=exp(bt)E[exp((at)X)]

仔细看剩下的部分:E[exp⁡((at)X)]E[\exp((at)X)]E[exp((at)X)]。这正是 XXX 的 MGF,只是参数 ttt 被替换成了 atatat。所以我们得到了这个优美的规则:

MY(t)=exp⁡(bt)MX(at)M_Y(t) = \exp(bt) M_X(at)MY​(t)=exp(bt)MX​(at)

没有积分,没有不等式。只是一个简单的代换。如果有人给你 XXX 的 MGF,你可以在几秒钟内写出 XXX 的任何线性变换的 MGF。

全能的特征函数

MGF 是一个很棒的工具,但它有一个小缺陷:对于某些分布,期望 E[exp⁡(tX)]E[\exp(tX)]E[exp(tX)] 可能不存在(积分可能发散)。这就像一个指纹识别系统,对一小部分人不起作用。我们需要一个通用的工具,一个对任何分布都无一例外地适用的工具。

这个通用工具就是​​特征函数 (CF)​​,记为 ϕX(t)\phi_X(t)ϕX​(t)。它的定义与 MGF 几乎相同,但有一个微小而神奇的补充:虚数单位 i=−1i = \sqrt{-1}i=−1​。

ϕX(t)=E[exp⁡(itX)]\phi_X(t) = E[\exp(itX)]ϕX​(t)=E[exp(itX)]

为什么这个小小的 iii 会带来如此大的不同?因为欧拉著名的公式,exp⁡(iθ)=cos⁡(θ)+isin⁡(θ)\exp(i\theta) = \cos(\theta) + i \sin(\theta)exp(iθ)=cos(θ)+isin(θ)。这意味着 exp⁡(itX)\exp(itX)exp(itX) 是一个复数,它总是在复平面的单位圆上。无论 ttt 或 XXX 是什么,它的模长总是 1。由于我们求平均的函数总是有界的,它的期望就永远存在。特征函数是真正通用的。

它共享 MGF 的所有优良性质。对于退化变量 X=cX=cX=c,CF 是 ϕX(t)=exp⁡(itc)\phi_X(t) = \exp(itc)ϕX​(t)=exp(itc)。对于线性变换 Y=aX+bY=aX+bY=aX+b,规则是 ϕY(t)=exp⁡(itb)ϕX(at)\phi_Y(t) = \exp(itb) \phi_X(at)ϕY​(t)=exp(itb)ϕX​(at)。

但 CF 揭示了更深层次的真理。−X-X−X 的 CF 是什么?让我们看看:

ϕ−X(t)=E[exp⁡(it(−X))]=E[exp⁡(i(−t)X)]\phi_{-X}(t) = E[\exp(it(-X))] = E[\exp(i(-t)X)]ϕ−X​(t)=E[exp(it(−X))]=E[exp(i(−t)X)]

这就是原始 CF 但参数为 −t-t−t 的形式,所以 ϕ−X(t)=ϕX(−t)\phi_{-X}(t) = \phi_X(-t)ϕ−X​(t)=ϕX​(−t)。但还有另一种方式来看待它。原始 CF 的复共轭是:

ϕX(t)‾=E[exp⁡(itX)]‾=E[exp⁡(itX)‾]=E[exp⁡(−itX)]\overline{\phi_X(t)} = \overline{E[\exp(itX)]} = E[\overline{\exp(itX)}] = E[\exp(-itX)]ϕX​(t)​=E[exp(itX)]​=E[exp(itX)​]=E[exp(−itX)]

这和前面的表达式是一样的!所以我们得到了基本关系 ϕ−X(t)=ϕX(t)‾\phi_{-X}(t) = \overline{\phi_X(t)}ϕ−X​(t)=ϕX​(t)​。

这引出了一个关于对称性的优美洞见。如果一个随机变量 XXX 和 −X-X−X 遵循完全相同的概率规则,那么它被称为​​对称的​​(关于原点)。如果这样,它们的 CF 必须相同:ϕX(t)=ϕ−X(t)\phi_X(t) = \phi_{-X}(t)ϕX​(t)=ϕ−X​(t)。但我们刚刚证明了 ϕ−X(t)=ϕX(t)‾\phi_{-X}(t) = \overline{\phi_X(t)}ϕ−X​(t)=ϕX​(t)​。将这些放在一起,我们发现对于一个对称的随机变量:

ϕX(t)=ϕX(t)‾\phi_X(t) = \overline{\phi_X(t)}ϕX​(t)=ϕX​(t)​

一个等于其自身共轭的复数必须是​​实数​​。因此,我们得到了一个深刻的联系:如果一个分布是对称的,它的特征函数必须是纯实值的。例如,一个等可能取值为 -1 或 +1 的变量,其 CF 是 ϕ(t)=12exp⁡(it)+12exp⁡(−it)=cos⁡(t)\phi(t) = \frac{1}{2}\exp(it) + \frac{1}{2}\exp(-it) = \cos(t)ϕ(t)=21​exp(it)+21​exp(−it)=cos(t),这是一个实函数。在 [−a,a][-a, a][−a,a] 上的均匀分布,其 CF 是 ϕ(t)=sin⁡(at)at\phi(t) = \frac{\sin(at)}{at}ϕ(t)=atsin(at)​,也是一个实函数。

巨大回报:独立变量之和

现在我们来到了变换如此强大的主要原因。两个独立随机变量之和 S=X1+X2S = X_1 + X_2S=X1​+X2​ 的分布是什么?让我们看看它的 CF:

ϕS(t)=E[exp⁡(it(X1+X2))]=E[exp⁡(itX1)exp⁡(itX2)]\phi_S(t) = E[\exp(it(X_1 + X_2))] = E[\exp(itX_1)\exp(itX_2)]ϕS​(t)=E[exp(it(X1​+X2​))]=E[exp(itX1​)exp(itX2​)]

因为 X1X_1X1​ 和 X2X_2X2​ 是独立的,它们乘积的期望等于它们期望的乘积。这是独立性的一个关键性质!

ϕS(t)=E[exp⁡(itX1)]⋅E[exp⁡(itX2)]=ϕX1(t)⋅ϕX2(t)\phi_S(t) = E[\exp(itX_1)] \cdot E[\exp(itX_2)] = \phi_{X_1}(t) \cdot \phi_{X_2}(t)ϕS​(t)=E[exp(itX1​)]⋅E[exp(itX2​)]=ϕX1​​(t)⋅ϕX2​​(t)

就是这样。这就是魔力所在。在原始域中困难的卷积运算,在变换域中变成了简单的​​乘法​​。

考虑一个 nnn 比特的数字消息,其中每个比特因噪声而翻转的概率为 ppp。令 YiY_iYi​ 为 1 如果第 iii 个比特被翻转,否则为 0。这些是独立的伯努利试验。错误的总数是 X=∑i=1nYiX = \sum_{i=1}^n Y_iX=∑i=1n​Yi​。使用直接的概率论证来求 XXX 的分布(我们知道是二项分布)需要大量的组合计数。

用 CF 就轻而易举了。首先,求单个伯努利试验 YiY_iYi​ 的 CF:

ϕYi(t)=E[exp⁡(itYi)]=(1−p)exp⁡(it⋅0)+pexp⁡(it⋅1)=(1−p)+pexp⁡(it)\phi_{Y_i}(t) = E[\exp(itY_i)] = (1-p)\exp(it \cdot 0) + p\exp(it \cdot 1) = (1-p) + p\exp(it)ϕYi​​(t)=E[exp(itYi​)]=(1−p)exp(it⋅0)+pexp(it⋅1)=(1−p)+pexp(it)

由于所有的 YiY_iYi​ 都是独立的且同分布,它们的和 XXX 的 CF 就是这个简单函数求 nnn 次幂:

ϕX(t)=((1−p)+pexp⁡(it))n\phi_X(t) = \left( (1-p) + p\exp(it) \right)^nϕX​(t)=((1−p)+pexp(it))n

我们毫不费力地推导出了二项分布的 CF。我们可以反复应用这个原理。例如,要求两个独立变量的平均值 Y=X1+X22Y = \frac{X_1 + X_2}{2}Y=2X1​+X2​​ 的 CF,我们可以求出 X1X_1X1​ 的 CF,将其平方(表示求和),然后将 ttt 替换为 t/2t/2t/2(表示乘以 1/2 的缩放)。

从变换世界回到现实

我们已经进入了变换域,并发现那里的生活简单得多。但是我们的答案需要存在于现实世界中。如果我们有一个 CF,如何回到我们可以绘制和解释的概率密度函数 (PDF)?

原来有一个​​反演公式​​,它充当了“反变换”的角色。它利用 CF 来重构原始的 PDF,本质上是通过执行另一个积分变换(具体来说,是傅里叶变换)。

fX(x)=12π∫−∞∞exp⁡(−itx)ϕX(t)dtf_X(x) = \frac{1}{2\pi} \int_{-\infty}^{\infty} \exp(-itx) \phi_X(t) dtfX​(x)=2π1​∫−∞∞​exp(−itx)ϕX​(t)dt

这个公式保证了 CF 指纹是真正唯一的;有一条明确定义的方法可以从指纹回到本人。此外,这整套机制是线性的。如果你有一个 CF 是另外两个 CF 的混合,比如说 ϕX(t)=12ϕA(t)+12ϕB(t)\phi_X(t) = \frac{1}{2}\phi_A(t) + \frac{1}{2}\phi_B(t)ϕX​(t)=21​ϕA​(t)+21​ϕB​(t),那么得到的 PDF 将是相应 PDF 的完全相同的混合:fX(x)=12fA(x)+12fB(x)f_X(x) = \frac{1}{2}f_A(x) + \frac{1}{2}f_B(x)fX​(x)=21​fA​(x)+21​fB​(x)。这使得处理复杂的混合分布变得出人意料地易于管理。

最后的惊喜:来自宇宙的启示

这些工具不仅仅是数学上的奇珍异品。它们揭示了科学和自然的不同部分之间令人惊讶和美丽的相互联系。让我们考虑最后一个优雅的问题。想象一个点在圆上旋转。在某个随机时刻,我们让它停下来。它与水平轴形成的角 Θ\ThetaΘ 是一个随机变量,在 000 到 2π2\pi2π 之间均匀分布。现在,让我们看看它在 x 轴上的投影,X=cos⁡(Θ)X = \cos(\Theta)X=cos(Θ)。这个投影位置的特征函数是什么?

我们计算期望:

ϕX(t)=E[exp⁡(itX)]=E[exp⁡(itcos⁡(Θ))]\phi_X(t) = E[\exp(itX)] = E[\exp(it\cos(\Theta))]ϕX​(t)=E[exp(itX)]=E[exp(itcos(Θ))]

由于 Θ\ThetaΘ 是均匀分布的,这变成了一个积分:

ϕX(t)=12π∫02πexp⁡(itcos⁡(θ))dθ\phi_X(t) = \frac{1}{2\pi} \int_{0}^{2\pi} \exp(it\cos(\theta)) d\thetaϕX​(t)=2π1​∫02π​exp(itcos(θ))dθ

乍一看,这个积分似乎很晦涩。但物理学家或数学家会立刻认出它。这个积分是​​零阶第一类贝塞尔函数​​的定义,记为 J0(t)J_0(t)J0​(t)。这些不仅仅是普通的函数;贝塞尔函数在物理学中无处不在。它们描述了圆形鼓膜的振动模式、光通过圆形孔径的衍射,以及电磁波在圆柱形波导中的传播。

想想这意味着什么。一个纯粹的概率问题——一个旋转轮上点的影子的分布——其答案是一个也描述池塘涟漪和通过望远镜看到的星光模式的函数。这是一个惊人的提醒,我们为理解随机性而发展的数学结构,正是支配宇宙物理定律的那些结构。从一个简单的随机变量函数的旅程,我们得以一窥这种深刻的统一性。

应用与跨学科联系

至此,我们花时间拆解了引擎。我们研究了齿轮和杠杆——累积分布函数、雅可比行列式、矩生成函数——并且我们理解了将一个随机变量变换为另一个随机变量的形式化规则。你可能会说,这真是一次不错的智力锻炼,但这一切究竟是为了什么?我们为什么要费心于这些数学机制呢?

答案,也是这门学科真正令人激动之处在于,这不仅仅是一次练习。这是我们用来搭建从纯粹、抽象的数学世界到我们所生活的混乱、复杂而美丽的世界的桥梁的工具箱。通过学习操纵和变换随机变量,我们学会了说不确定性的语言,为不可预测的事物建模,并在混乱中找到隐藏的模式。这就是理论走向现实的地方,它连接着从你手机的可靠性,到股票市场的波动,再到田间作物的生长等一切事物。

创造的艺术:模拟世界

我们能做的最强大的事情之一就是创造。不是用砖块和灰泥,而是用数字。想象你是一位负责设计桥梁的工程师。你需要知道它的部件能用多久。钢梁的寿命不是一个固定的数字;它是一个随机变量。它可能因为一个微小的瑕疵而提早失效,也可能持续数百年。几十年的数据可能会告诉你,这些寿命遵循一个特定的、复杂的模式,比如Weibull分布。你如何在计算机模拟中根据这个现实来测试你的桥梁设计呢?你不能只是要求计算机“给你一个Weibull随机数”。

诀窍在于认识到,我们通常可以从最简单的分布——均匀分布——来构建这些复杂的分布,均匀分布就像一个完美的、无偏的随机数生成器,吐出 0 到 1 之间的小数。通过应用正确的数学函数——一种变换——我们可以将这种均匀的随机性扭曲成我们想要的几乎任何形状。例如,通过对一个均匀变量取自然对数,再进行幂运算和缩放,我们就能完美地生成一个遵循Weibull分布的随机变量。这种被称为逆变换采样 (inverse transform sampling) 的技术是现代模拟的基石。有了它,航空航天工程师可以模拟机翼上的应力,生物学家可以模拟疾病的传播,游戏开发者可以创造一个真实、不可预测的世界——所有这一切都通过巧妙地变换一串简单的、均匀分布的随机数来实现。

揭示隐藏结构:从物理到金融

变换不仅仅帮助我们创造;它们还帮助我们理解。它们揭示了表面上完全不明显的深刻联系和隐藏结构。

考虑一个在科学中常见的情景:我们认为一个过程遵循一个漂亮的、钟形的正态分布,但我们对其参数并不完全确定。例如,信号中的噪声可能是正态分布的,但其方差——钟形曲线的“宽度”——本身可能在随机波动,也许遵循一个简单的指数衰减模型。那么信号本身的最终分布是什么?这是一个分层模型,一个其自身参数也是随机的随机变量的函数。通过使用我们已经发展的工具,特别是全期望定律和特征函数,我们可以解开这个谜题。结果是惊人的:一个正态分布与一个指数分布的方差相结合,产生了一个完全不同的分布,即Laplace分布。这个新的分布有一个更尖的峰和“更重的尾部”,意味着极端事件比在简单的正态世界中更有可能发生。这一个洞见连接了贝叶斯统计、信号处理和金融,解释了为什么股市崩盘(极端事件)的发生频率比简单模型预测的要高。

随机过程的世界——随机性随时间演化——充满了这样美丽的启示。以布朗运动为例,即水中花粉粒的抖动、随机游走,它被用作从股价到热扩散等各种现象的模型。这个过程的一个关键特性是,增量 WtW_tWt​ 是正态分布的,其方差等于经过的时间 ttt。现在,如果我们通过用时间的平方根来缩放这个位置来定义一个新的随机变量,Z=Wt/tZ = W_t / \sqrt{t}Z=Wt​/t​?直接应用我们的变量变换规则会发现,ZZZ 服从标准正态分布,方差为 1,无论时间 t 是多少。这是关于扩散的自相似、分形性质的一个深刻陈述。无论你是在微秒还是一个世纪的尺度上观察这个过程,只要你正确地缩放它,它在统计上看起来都是相同的。

我们甚至可以将函数应用于整个过程的路径。如果我们不仅对随机粒子在时间 ttt 的位置感兴趣,还对其随机路径下的总面积 It=∫0tBsdsI_t = \int_0^t B_s dsIt​=∫0t​Bs​ds 感兴趣呢?这可能代表导航系统中的累积误差或复杂金融期权的收益。通过将积分视为高斯变量和的极限,我们可以找到这个新的、复杂对象的分布。结果表明,ItI_tIt​ 也是一个高斯随机变量,但其方差随时间的三次方 t3t^3t3 增长。这表明我们的工具如何能够驾驭看似无穷复杂的连续时间随机过程。

预测与解释的科学

从本质上讲,许多科学都与预测有关。如果我们知道一个变量的值,我们对另一个变量的最佳猜测是什么?回答这个问题的函数是条件期望 E[Y∣X]E[Y|X]E[Y∣X]。它本身也是一个随机变量,因为它的值取决于 XXX 的结果。

想象一位农学家研究作物产量 (YYY) 与季节性降雨量 (RRR) 的函数关系。这种关系不是固定的,但我们可以确定在任何给定降雨量下的*期望*产量,比如 E[Y∣R=r]E[Y|R=r]E[Y∣R=r]。这个函数可能是二次的,反映了适量降雨是好的,但过多则不好。现在,降雨量 RRR 也是一个随机变量。那么本季度的总体期望产量是多少?全期望定律给了我们答案:总体平均值是条件平均值的平均值,E[Y]=E[E[Y∣R]]E[Y] = E[E[Y|R]]E[Y]=E[E[Y∣R]]。这使我们能够通过将我们对产量-降雨关系的知识与天气的不确定性进行整合,从而做出一个单一、有力的预测。

这个思想是统计回归的基础。当我们在数据点云中找到“最佳拟合线”时,我们本质上是在尝试估计函数 E[Y∣X]E[Y|X]E[Y∣X]。这个函数的方差 Var(E[Y∣X])\text{Var}(E[Y|X])Var(E[Y∣X]) 告诉我们一些关键信息:YYY 的总变异中有多少可以被 XXX 的变异所“解释”?对于二元正态分布这个重要情况,这个被解释的方差有一个极其简单的形式:σXY2/σXX\sigma_{XY}^2 / \sigma_{XX}σXY2​/σXX​,其中 σXY\sigma_{XY}σXY​ 是协方差,σXX\sigma_{XX}σXX​ 是 XXX 的方差。这个单一的公式支撑了经济学、医学和社会科学中无数的分析,为衡量一个变量告诉我们关于另一个变量多少信息提供了一个定量的度量。

警示故事与惊人真相

最后,对随机变量函数的研究为我们提供了一些奇妙的、反直觉的结果,这些结果既是警示故事,也加深了我们对自然之微妙的欣赏。

其中最著名的一个涉及奇特的Cauchy分布。这种分布可以在物理学中出现,用以描述共振现象。假设一位科学家试图测量一个物理常数,但他们的仪器有一个缺陷,引入了服从Cauchy分布的误差。为了改进结果,他们进行了多次独立测量 X1,X2,…,XNX_1, X_2, \dots, X_NX1​,X2​,…,XN​,并计算了平均值 XˉN\bar{X}_NXˉN​。我们的直觉,以及大数定律的支持,都强烈地告诉我们,这个平均值应该是一个好得多的估计,其分布会紧密地聚集在真实值周围。

但一件非凡的事情发生了。当我们用特征函数找到样本均值 XˉN\bar{X}_NXˉN​ 的分布时,我们发现它与我们开始时的Cauchy分布完全相同。进行更多的测量根本没有帮助。一千次测量的平均值并不比单次测量更可靠。这是因为Cauchy分布的尾部太重,极端离群值出现的概率太高;这些离群值完全破坏了平均值的稳定性。这是一个深刻的教训:“平均”的“常识”只有在底层的随机性行为足够好,具有有限均值时才有效。

即使是简单的、离散的变换也可能带来惊喜。如果你有一个产生随机数量事件的过程(比如,Poisson过程),你可以问其奇偶性的分布——事件的数量是偶数还是奇数?这等同于研究函数 Y=(−1)XY = (-1)^XY=(−1)X。用特征函数分析这个问题揭示了原始速率参数 λ\lambdaλ 如何控制得到偶数或奇数计数的概率,这个问题与数字通信方案相关,在这些方案中,信息通过相位翻转来编码。

那么一般的非线性函数呢?如果一支股票的价格是一个随机变量 XXX,那么其对数的期望值 E[ln⁡(X)]E[\ln(X)]E[ln(X)] 是否与其期望价格的对数 ln⁡(E[X])\ln(E[X])ln(E[X]) 相同?Jensen不等式给出了一个明确的“不”。对于任何凸函数 ggg(一个向上弯曲的函数,如 x2x^2x2 或 −ln⁡(x)-\ln(x)−ln(x)),我们有 E[g(X)]≥g(E[X])E[g(X)] \ge g(E[X])E[g(X)]≥g(E[X])。这个小小的数学事实具有巨大的影响。它解释了经济学中的风险规避:金钱带来的“效用”或幸福感是一个凹函数,因此赌博的期望效用小于其期望收益的效用。这也是方差 Var(X)=E[X2]−(E[X])2\text{Var}(X) = E[X^2] - (E[X])^2Var(X)=E[X2]−(E[X])2 永远不可能是负数的原因。

从在计算机中模拟宇宙到预测收成,从理解随机游走的分形性质到被一个拒绝被平均的分布所折服,对随机变量函数的研究是我们与不确定世界打交道的主要工具。它是书写概率法则的语言,通过学习它,我们可以开始阅读随机性所讲述的故事。