try ai
科普
编辑
分享
反馈
  • 随机变量函数的分布

随机变量函数的分布

SciencePedia玻尔百科
核心要点
  • 一个变换后的变量 Y=h(X)Y=h(X)Y=h(X) 的分布,是通过将事件 {Y≤y}\{Y \le y\}{Y≤y} 用 XXX 来表示,并利用 XXX 的已知分布来找到的。
  • 概率积分变换表明,对于任何连续变量 XXX,变换后的变量 Y=FX(X)Y=F_X(X)Y=FX​(X) 总是在 [0,1][0, 1][0,1] 上均匀分布。
  • 逆变换法利用这一原理从复杂分布中生成随机数,构成了蒙特卡洛模拟的基础。
  • 物理定律和工程原理通常作为函数,将一个随机分布转换为另一个,从而模拟从股票价格到信号处理的各种现象。

引言

随机变量是概率论的基石,为量化不确定性提供了一个框架。但是,当这些变量不是静态的时候会发生什么呢?在几乎每一个科学和工程学科中,我们都会遇到这样的过程:一个随机量被一个函数所转换——一个信号通过一个滤波器,一项金融资产随时间增长,一个物理测量值被转换成不同的单位。这种转换创造了一个新的随机变量,它具有一个新的、派生的概率分布。本文的核心挑战和重点,就是理解和计算这个新变量基于原始变量的分布。本文将为您提供完成此任务的基本工具。第一章,“原理与机制”,将奠定理论基础,介绍核心方法,如 CDF 方法和变量替换公式。在此之后,“应用与跨学科联系”一章将展示这一数学机制如何成为一种强大的语言,用于在从物理学到金融学和计算机科学等领域中建模、模拟和理解复杂系统。

原理与机制

我们已经接触过随机变量的概念——一个其数值受机遇支配的数。我们学会了通过其分布来描述它,这是一种概率身份的证明。但是,当我们取这个数并改变它时会发生什么?如果我们对它进行平方、取其对数,或者让它通过某个能转换它的电子电路呢?我们会得到一个新的随机变量,具有新的身份。有趣的问题是,新的身份证明与旧的有什么关系?这个转换之旅不仅仅是数学上的好奇心;它是我们如何模拟世界的核心,从物理信号的能量到计算机模拟的逻辑。

万能钥匙:累积分布函数

在我们理解变换之前,我们必须牢牢掌握描述任何随机变量最重要的工具:​​累积分布函数 (CDF)​​,我们将其表示为 FX(x)F_X(x)FX​(x)。它的定义异常简单:FX(x)F_X(x)FX​(x) 是随机变量 XXX 取一个小于或等于 xxx 的值的概率。

FX(x)=P(X≤x)F_X(x) = \mathbb{P}(X \le x)FX​(x)=P(X≤x)

可以把它想象成一个概率的会计师。当你沿着数轴从左到右移动(增加 xxx)时,这个函数会记录你累积的所有概率的总和。它总是从 0 开始(在遥远的左边,你还没有累积任何概率)并在 1 结束(在遥远的右边,你已经累积了全部概率)。

对于一个简单的离散变量,CDF 是一个阶梯函数。想象一个可以处于状态 0 或 1 的数字存储单元。如果它处于状态 0 的概率为 ppp,那么它的 CDF 在你到达 x=0x=0x=0 之前一直是 0。在那个确切的点上,函数会突然跳升一个量 ppp,因为你刚刚包含了位于 0 的那“一团”概率。然后它会保持在这个新的水平上,直到你到达 x=1x=1x=1,在那里它会再次跳升剩余的概率 1−p1-p1−p,达到最终的高度 1。我们可以在一个随机输出四种电压之一的简单数模转换器 (DAC) 的输出中看到相同的阶梯结构。CDF 在每个可能的电压值处跳跃,每个台阶的高度对应于该特定结果的概率。这种阶梯图形是离散随机变量的标志。

一次简单的拉伸:第一次变换

现在,让我们开始进行变换。假设我们有一个只能取 0 或 1 的随机变量 XXX(一个伯努利变量),我们通过一个简单的线性变换创建一个新变量 YYY,比如 Y=2XY = 2XY=2X。那么 YYY 的分布是什么?

这非常直接。XXX 的可能结果是 0 和 1。YYY 的新结果就是 2×0=02 \times 0 = 02×0=0 和 2×1=22 \times 1 = 22×1=2。概率本身不改变;它们只是被带到了这些新值上。如果 P(X=0)=23\mathbb{P}(X=0) = \frac{2}{3}P(X=0)=32​,那么 P(Y=0)=23\mathbb{P}(Y=0) = \frac{2}{3}P(Y=0)=32​。如果 P(X=1)=13\mathbb{P}(X=1) = \frac{1}{3}P(X=1)=31​,那么 P(Y=2)=13\mathbb{P}(Y=2) = \frac{1}{3}P(Y=2)=31​。分布被“拉伸”了。

要找到 YYY 的 CDF,FY(y)=P(Y≤y)F_Y(y) = \mathbb{P}(Y \le y)FY​(y)=P(Y≤y),我们只需将问题转换回 XXX 的语言:

P(Y≤y)=P(2X≤y)=P(X≤y2)=FX(y2)\mathbb{P}(Y \le y) = \mathbb{P}(2X \le y) = \mathbb{P}(X \le \frac{y}{2}) = F_X(\frac{y}{2})P(Y≤y)=P(2X≤y)=P(X≤2y​)=FX​(2y​)

这个简单的方程包含了所有变换的精髓。要找到新变量 YYY 的一个概率,你必须找到原始变量 XXX 对应的取值集合,然后使用已知的 XXX 的分布。

连续世界:拉伸概率密度

对于连续变量,其概率不是以团块形式存在,而是像黄油涂在面包上一样平滑分布,我们使用​​概率密度函数 (PDF)​​,fX(x)f_X(x)fX​(x)。PDF 曲线下两点之间的面积给出了 XXX 落在该区间内的概率。现在,当我们用一个函数 Y=h(X)Y=h(X)Y=h(X) 变换一个连续变量时,我们本质上是在拉伸和压缩这个概率“黄油”所在的数轴。

想象一下在一张橡胶片上画画,然后拉伸它。在橡胶片被拉伸的地方,墨水会变薄。在它被压缩的地方,墨水会变得更浓。PDF 的行为就像这种墨水密度。其数学规则是​​变量替换公式​​。对于一个单调(总是增加或总是减少)的变换 Y=h(X)Y=h(X)Y=h(X),新的密度 fY(y)f_Y(y)fY​(y) 与旧的密度 fX(x)f_X(x)fX​(x) 通过以下方式关联:

fY(y)=fX(x)∣dxdy∣f_Y(y) = f_X(x) \left| \frac{dx}{dy} \right|fY​(y)=fX​(x)​dydx​​

这里,xxx 是产生 yyy 的值(即 x=h−1(y)x = h^{-1}(y)x=h−1(y)),而项 ∣dxdy∣\left| \frac{dx}{dy} \right|​dydx​​ 是“拉伸因子”。它告诉我们 xxx 周围的一个无穷小区间在映射到 yyy 周围的一个区间时被拉伸或压缩了多少。

让我们在实践中看看这个。在物理学中,信号的能量通常与其振幅的平方成正比。假设一个随机能量 XXX 服从卡方分布,我们对振幅 Y=XY = \sqrt{X}Y=X​ 感兴趣。对于正能量,这个变换是单调的。应用变量替换公式,我们发现振幅 YYY 的 PDF 由 gY(y)=2πexp⁡(−y22)g_Y(y) = \sqrt{\frac{2}{\pi}} \exp\left(-\frac{y^{2}}{2}\right)gY​(y)=π2​​exp(−2y2​) 给出,对于 y>0y > 0y>0。这是一个美丽的结果:卡方变量的平方根是一个“半正态”变量。能量和振幅有着这种深刻的概率联系。

同样的原理适用于任何单调变换,比如一个简单的线性平移和缩放,Y=5X−2Y = 5X - 2Y=5X−2。即使对于像柯西分布这样奇特的分布,这个方法也完美适用,展示了新的密度是如何成为旧密度的一个缩放和平移版本。

一个普适真理:概率积分变换

现在来看一个纯粹的数学魔法。我们已经用各种函数来变换变量。如果我们选择一个非常特殊的函数:变量自身的 CDF,FX(x)F_X(x)FX​(x) 呢?让我们定义一个新变量 Y=FX(X)Y = F_X(X)Y=FX​(X)。

让这个概念沉淀一下。我们将每个值 xxx 映射到截至该点累积的总概率。那么 YYY 是什么样的变量呢?惊人的答案是,对于任何连续随机变量 XXX,新变量 YYY 总是在区间 [0,1][0, 1][0,1] 上均匀分布。

这就是​​概率积分变换​​,它是概率论的一条普适定律。证明过程和其结果本身一样优雅。我们想找到 YYY 的 CDF,即 G(y)=P(Y≤y)G(y) = \mathbb{P}(Y \le y)G(y)=P(Y≤y)。

G(y)=P(Y≤y)=P(FX(X)≤y)G(y) = \mathbb{P}(Y \le y) = \mathbb{P}(F_X(X) \le y)G(y)=P(Y≤y)=P(FX​(X)≤y)

因为 CDF FXF_XFX​ 是一个增函数,我们可以将其逆函数 FX−1F_X^{-1}FX−1​ 应用于概率内部不等式的两边:

G(y)=P(X≤FX−1(y))G(y) = \mathbb{P}(X \le F_X^{-1}(y))G(y)=P(X≤FX−1​(y))

但是,根据 CDF 的定义,XXX 小于或等于某个值的概率,就是 CDF 在该值处的取值!所以,

G(y)=FX(FX−1(y))=yG(y) = F_X(F_X^{-1}(y)) = yG(y)=FX​(FX−1​(y))=y

我们新变量 YYY 的 CDF 就是 G(y)=yG(y)=yG(y)=y,对于 y∈[0,1]y \in [0,1]y∈[0,1]。这恰好是 [0,1][0,1][0,1] 上均匀分布的 CDF。就好像 FXF_XFX​ 这个变换“抹平”了原始分布的所有峰谷,使概率完美地均匀散开。

这绝非简单的派对戏法。它是科学计算中使用的大多数随机数背后的引擎。计算机擅长生成均匀随机数。如果我们想要一个来自,比如说,指数分布的数,我们可以反向使用这个原理。我们从一个均匀随机数 UUU 开始,并对其应用指数 CDF 的逆函数。对于速率为 1 的指数分布,CDF 是 F(y)=1−exp⁡(−y)F(y) = 1 - \exp(-y)F(y)=1−exp(−y)。变换 Y=−ln⁡(1−U)Y = -\ln(1-U)Y=−ln(1−U),其中 UUU 是均匀的,将产生一个完全服从指数分布的变量 YYY。

超越单调性:当函数折返时

我们简单的变量替换规则适用于单调函数。但是像 Y=cos⁡(X)Y = \cos(X)Y=cos(X) 或 Y=X2Y = X^2Y=X2 这样的函数呢?这些函数会“折返”;多个 XXX 的值可以导致相同的 YYY 值。例如,cos⁡(π3)=cos⁡(5π3)=0.5\cos(\frac{\pi}{3}) = \cos(\frac{5\pi}{3}) = 0.5cos(3π​)=cos(35π​)=0.5。

在这些情况下,我们必须回到 CDF 的基本定义。让我们考虑一个信号的相位 XXX 在 [0,2π][0, 2\pi][0,2π] 上均匀随机,我们测量其振幅 Y=cos⁡(X)Y = \cos(X)Y=cos(X)。为了找到 FY(y)=P(Y≤y)F_Y(y) = \mathbb{P}(Y \le y)FY​(y)=P(Y≤y),我们必须解不等式 cos⁡(X)≤y\cos(X) \le ycos(X)≤y。我们观察余弦函数的图形,并找出在 [0,2π][0, 2\pi][0,2π] 中满足此条件的所有 xxx 的区域。对于 [−1,1][-1,1][−1,1] 中的任何 yyy,这个区域由一个区间 [arccos⁡(y),2π−arccos⁡(y)][\arccos(y), 2\pi - \arccos(y)][arccos(y),2π−arccos(y)] 组成。总概率是这个区间的长度除以总空间 2π2\pi2π 的长度。这种仔细、直接的方法使我们即使在变换复杂且非单调时也能找到 CDF。

有时,一个变换甚至可以把一个连续变量变成一个含有离散分量的变量。一个函数可能将 XXX 的整个区间映射到 YYY 的一个单点上,在该点产生一“团”概率,从而使 YYY 成为一个混合离散-连续变量。关键始终是耐心地问:对于我期望的 YYY 值范围,所有对应的 XXX 值是什么?

另一个角度:分位数函数

最后,让我们从一个完全不同的方向来看待这个问题。我们有 CDF,F(x)F(x)F(x),它接受一个值 xxx 并给出一个概率 ppp。它的逆函数,​​分位数函数​​ Q(p)=F−1(p)Q(p) = F^{-1}(p)Q(p)=F−1(p),做的恰好相反:它接受一个概率 ppp 并给出那个累积了那么多概率的值 xxx。

事实证明,PDF 和分位数函数之间存在深刻的联系。PDF f(x)f(x)f(x) 与分位数函数的导数有关:

f(x)=1Q′(p) 其中 p=F(x)f(x) = \frac{1}{Q'(p)} \text{ 其中 } p = F(x)f(x)=Q′(p)1​ 其中 p=F(x)

这在直观上很有意义。如果 Q(p)Q(p)Q(p) 变化很快(一个大的 Q′(p)Q'(p)Q′(p)),这意味着你必须在 x 轴上走很远才能累积一点点更多的概率。这意味着概率密度 f(x)f(x)f(x) 在那个区域必须很低。相反,如果 Q(p)Q(p)Q(p) 很平坦(一个小的 Q′(p)Q'(p)Q′(p)),你在一个很小的 xxx 范围内就累积了大量的概率,这意味着密度 f(x)f(x)f(x) 必须很高。了解分位数函数为我们提供了一条优雅的、替代性的路径来寻找我们随机变量的密度。

从简单的拉伸到普适的真理,再回到第一性原理,变换随机变量的研究是概率论中统一性的一个美丽展示。它归结为一个思想:仔细追踪概率区域如何从一个空间映射、拉伸、压缩或折叠到另一个空间。

应用与跨学科联系

现在我们已经探索了变换随机变量的机制,我们可能会问:“这一切有什么用?”这是一个合理的问题。这些只是优雅的数学练习,还是它们与世界有意义地联系在一起?你会很高兴地发现,答案是,这个机制不仅仅是与世界有联系;它是描述世界的一种基本语言。事实证明,宇宙是一位将函数应用于随机变量的宗师。从亚原子粒子的衰变到股票市场的波动,自然界在不断地变换概率分布。通过理解这个过程,我们获得了一个强大的视角来观察、建模,甚至预测跨越惊人学科范围的复杂系统的行为。

创造的艺术:在计算机中锻造现实

我们主题最直接和强大的应用之一是在模拟世界中。通常,我们需要研究一个过于复杂、过于昂贵或过于危险而无法直接进行实验的系统。解决方案是在计算机内部建立一个复制品——一次蒙特卡洛模拟。但要做到这一点,我们需要一种方法来生成随机数,使其行为与真实系统中的随机过程完全相同。

美妙的技巧在于,我们不需要为每种类型的随机性都配备一台特殊的机器。我们可以从最简单、最“无聊”的随机性开始:一个从区间 [0,1][0, 1][0,1] 中均匀选取的数,我们表示为 U∼U(0,1)U \sim U(0, 1)U∼U(0,1)。可以把它看作我们的原始黏土。从这单一、简单的成分中,我们可以雕塑出几乎任何我们想要的分布。用于这种雕塑的工具是​​逆变换法​​。

假设我们想模拟一个放射性原子衰变前的等待时间,这个过程遵循指数分布。我们该怎么做呢?我们从一个均匀随机数 uuu 开始,并应用一个特定的“配方”——一个变换函数。在这样的一个案例中,变换 Y=−2ln⁡(X)Y = -2 \ln(X)Y=−2ln(X),其中 X∼U(0,1)X \sim U(0,1)X∼U(0,1),被证明能产生一个服从指数分布的随机变量 YYY。通过简单地取一个均匀随机数的自然对数并对其进行缩放,我们就“创造”了一个虚拟的粒子衰变时间。通用方法涉及找到我们希望模拟的累积分布函数 (CDF) 的逆函数。例如,要从一个特定的贝塔分布中生成一个变量,可以推导出变换 X=1−(1−u)1/βX = 1 - (1 - u)^{1/\beta}X=1−(1−u)1/β,将一个均匀变量 uuu 转换为所需贝塔变量 XXX 的一个实现。

这种技术用途极其广泛。想要从奇特而美妙的柯西分布中生成一个数吗?它以其重尾和未定义的均值而闻名。同样有对应的配方。一个涉及正切函数的巧妙变换,X=tan⁡(π(U−1/2))X = \tan(\pi(U - 1/2))X=tan(π(U−1/2)),将把一个均匀变量 UUU 塑造成一个完美的柯西变量样本。这种按需生成任意形式随机性的能力是计算统计学、机器学习和量化金融的基石。

宇宙作为一个宏大的变换

除了我们的计算机模拟,我们讨论的原理在我们周围无处不在。物理定律和自然过程通常作为函数,将一种类型的随机性转换为另一种。

考虑一个粒子物理实验,其中粒子在离源头随机距离处衰变。如果衰变距离 XXX 遵循一个简单的指数定律,我们能对我们测量的能量脉冲强度 III 说些什么呢?强度的随机性与距离不同;它受一个物理定律支配——平方反比定律,I=α/X2I = \alpha/X^2I=α/X2。在这里,物理定律本身就是那个函数 g(X)g(X)g(X),它将距离的分布转换为一个新的强度分布。通过应用我们的变量替换公式,物理学家可以预测观察到任何给定信号强度的概率,这是设计探测器和解释实验结果的关键一步。

同样的想法是现代金融数学的基石。股票的价格是出了名的不可预测,但其运动并非完全没有结构。一个广泛使用的模型,几何布朗运动,提出在时间 ttt 的股价 Y(t)Y(t)Y(t) 是一个指数函数应用于一个随机游走或布朗运动 W(t)W(t)W(t) 的结果。也就是说,Y(t)=exp⁡(W(t))Y(t) = \exp(W(t))Y(t)=exp(W(t))。底层的随机性 W(t)W(t)W(t) 代表了无数小的、不可预测的市场冲击的累积效应。指数函数将这种随机性转化为一个复合增长模型,从而产生了著名的股价对数正态分布。理解这种变换是为金融衍生品定价和在动荡的世界中管理风险的第一步。

有时,这些变换会揭示出令人惊讶和深刻的联系。在信号处理中,一个关键指标是信噪比 (SNR),通常建模为两个随机变量的比率,Z=X1/X2Z = X_1/X_2Z=X1​/X2​。如果信号 X1X_1X1​ 和噪声 X2X_2X2​ 都由行为良好、呈钟形的标准正态分布建模,那么它们的比率会是什么样子?人们可能会直观地猜测它也会是“好的”。然而,数学揭示了一个令人震惊的结果:比率 ZZZ 服从柯西分布。这正是我们之前学会模拟的那个“狂野”分布,其重尾解释了为何会出现意想不到的大值。这个结果意义深远。它告诉工程师,即使在处理行为良好的噪声和信号源时,其比率也可能出现极端峰值,这一事实对设计稳健的通信系统具有关键意义。

极端的逻辑:从混沌中寻秩序

自然界常常从一组随机结果中进行选择。一根链条的强度取决于其最薄弱的一环。一支船队的航行速度取决于其最慢的船只。这些简单的真理,实际上是关于随机变量函数分布的陈述——具体来说,是最小值或最大值的分布。

在可靠性工程中,一个系统可能由两个串联工作的组件组成。系统在第一个组件失效时即告失效。如果两个组件的寿命 X1X_1X1​ 和 X2X_2X2​ 是独立的随机变量,那么系统的寿命是 Y=min⁡(X1,X2)Y = \min(X_1, X_2)Y=min(X1​,X2​)。如果组件具有指数寿命,一个非凡的现象发生了:系统的寿命,即两者的最小值,也呈指数分布,但失效率更高。这个优雅的结果是生存分析的基石,并帮助工程师设计更稳健的系统。

与此相对的是最大值。想象一个多核处理器正在运行 NNN 个并行任务。整个工作直到最后一个任务完成才算结束。如果每个任务的时间 XiX_iXi​ 是一个随机变量,那么作业的总时间是 Y=max⁡(X1,X2,…,XN)Y = \max(X_1, X_2, \ldots, X_N)Y=max(X1​,X2​,…,XN​)。即使每个单独的任务时间是均匀分布的(意味着达到最大值之前的任何时间都是等可能的),总作业时间 YYY 的分布也绝非均匀。概率会严重偏向最大可能时间,因为只需要一个“掉队”的任务就能延迟整个计算。这个简单的模型帮助计算机科学家理解和缓解并行计算中的瓶颈,这是大数据时代的一个关键挑战。

前沿:用概率引导发现

也许我们这个概念最激动人心的应用,不仅仅在于描述世界,而在于主动做出决策以更多地了解世界。这就是贝叶斯优化的领域,一项用于从药物发现到材料科学和蛋白质工程等领域的前沿技术。

想象你是一位工程师,试图设计一种具有最高可能活性的新酶。测试每一种可能的蛋白质序列是不可能的。取而代之的是,你测试少数几个,并利用结果建立一个“序列到功能”景观的统计模型(一个高斯过程)。对于任何你未测试过的新序列,你的模型不会给你一个单一的预测适应度值;它会给你一个关于其适应度的完整*概率分布*,比如 Y(x)∼N(μ(x),σ2(x))Y(x) \sim \mathcal{N}(\mu(x), \sigma^2(x))Y(x)∼N(μ(x),σ2(x))。

现在关键问题来了:接下来你应该测试哪个序列?你希望选择那个最有可能比你目前发现的最佳值 y⋆y^{\star}y⋆ 更好的序列。这就引出了“改进量 (Improvement)”的概念,定义为 I(x)=max⁡{0,Y(x)−y⋆}I(x) = \max\{0, Y(x) - y^{\star}\}I(x)=max{0,Y(x)−y⋆}。请注意,因为 Y(x)Y(x)Y(x) 是一个随机变量,改进量 I(x)I(x)I(x) 也是一个随机变量。我们不知道改进会是多少,但我们可以计算它的*期望值*,称为期望改进量 (Expected Improvement),EI(x)=E[I(x)]\text{EI}(x) = \mathbb{E}[I(x)]EI(x)=E[I(x)]。这个计算正是我们核心主题的直接应用:求一个随机变量函数的期望。最终的公式,EI(x)=(μ(x)−y⋆)Φ(μ(x)−y⋆σ(x))+σ(x)ϕ(μ(x)−y⋆σ(x))\text{EI}(x) = (\mu(x) - y^{\star}) \Phi\left(\frac{\mu(x) - y^{\star}}{\sigma(x)}\right) + \sigma(x) \phi\left(\frac{\mu(x) - y^{\star}}{\sigma(x)}\right)EI(x)=(μ(x)−y⋆)Φ(σ(x)μ(x)−y⋆​)+σ(x)ϕ(σ(x)μ(x)−y⋆​),漂亮地平衡了利用已知的高性能区域(高 μ(x)\mu(x)μ(x))和探索不确定区域(高 σ(x)\sigma(x)σ(x))。通过为所有候选序列计算 EI 并选择值最高的那个,科学家可以智能地在广阔的搜索空间中导航,极大地加快了发现的步伐。

从计算机的核心到恒星的核心,从股票的价格到救生蛋白质的设计,随机变量的变换是一条统一的线索。它证明了一个单一、优雅的数学思想如何能提供一个强大而通用的工具包,用以理解、模拟和与一个充满随机性与不确定性的世界互动。