随机变量的变换

玻尔百科

核心要点

变换后随机变量 $Y = g(X)$ 的分布，可以通过系统地将原始变量 $X$ 的概率映射到新变量 $Y$ 上来确定。
寻找新分布的关键方法包括：离散情况下的概率求和，以及连续情况下的CDF方法或变量替换公式。
矩生成函数 (MGF) 提供了另一种途径，将线性变换简化为变换空间中直接的代数操作。
像对数和logit这样的实用变换在数据科学和统计学中至关重要，用于稳定方差、正态化数据以及建模有界概率。

引言

从物理学到金融学，我们收集的原始数据通常只是起点。我们常常更关心一个依赖于我们原始测量值的新量——例如从速度计算动能，或者从误差测量本身确定误差的大小。这个过程产生了一个“变换后的随机变量”。但这引出了一个根本性问题：如果我们知道原始变量的概率分布，我们如何确定这个新的、变换后的变量的分布？回答这个问题不仅仅是一个数学练习；它是解锁更深层次见解和构建更强大模型的关键。

本文为理解和应用随机变量的变换提供了一个全面的指南。第一章，“原理与机制”，将为离散和连续变量的变换奠定核心逻辑基础。我们将探索强大的技术，如变量替换公式、普适的CDF方法，以及优雅的矩生成函数方法。第二章，“应用与跨学科联系”，将连接理论与实践。我们将看到这些变换如何被用于缩放数据、构建新的分布，并解决数据科学、物理学、信息论等领域的实际问题，揭示统一科学世界的隐藏联系。

原理与机制

变换的艺术：从旧数据到新故事

想象你是一位研究某种现象的科学家。你收集了海量数据，并用一个随机变量（我们称之为 $X$ ）来建模。这个变量有其特定的“个性”，即一个概率分布，告诉你哪些结果可能发生，哪些结果罕见。但通常，原始数据并非故事的结局。你可能对一个依赖于你原始测量的不同量更感兴趣。例如，如果 $X$ 是一个粒子的速度，你可能更关心它的动能，动能与 $X^2$ 成正比。或者，如果 $X$ 是一次测量中的误差，你可能只关心误差的大小，即 $|X|$ 。

在每种情况下，你都在通过对原始变量应用一个数学函数 $g$ 来创建一个新的随机变量（我们称之为 $Y$ ）： $Y = g(X)$ 。一个直接而有趣的问题是：如果我们知道了 $X$ 的生命故事——它的概率分布——我们能否推断出 $Y$ 的生命故事？答案是肯定的，而实现这一点的过程是一场穿越概率逻辑的美妙旅程。我们不仅仅是在操纵符号，更是在将一个概率故事翻译成另一个。

离散世界：计数与汇集的游戏

让我们从最简单的场景开始：离散随机变量的世界，其中结果是可数的，就像一对骰子的点数。假设我们的原始变量 $X$ 只能取一组特定的值。现在，我们对其应用一个函数，比如 $Y = g(X)$ 。我们如何找到 $Y$ 的某个特定结果的概率，比如说 $Y=y$ ？

逻辑非常简单。我们只需玩一个“寻找并收集”的游戏。我们回顾原始变量 $X$ 的所有可能结果。其中哪些结果，当代入函数 $g(X)$ 时，会产生值 $y$ ？假设我们找到了几个： $x_1, x_2, \dots, x_k$ 。由于这些是 $X$ 的不同结果，它们是互斥事件。因此，得到 $Y=y$ 的总概率就是所有这些“原像”结果的概率之和。用数学语言来说， $Y$ 的概率质量函数 (PMF) 是： $p_Y(y) = P(Y=y) = \sum_{x \text{ such that } g(x)=y} P(X=x)$

考虑一个简单的传感器，其输出 $X$ 是整数 $\{-2, -1, 0, 1, 2\}$ 中的一个，每个整数出现的概率均为 $\frac{1}{5}$ 。一个后处理单元计算一个新信号 $Y = X^2+1$ 以放大其幅值。 $Y$ 的PMF是什么？

让我们遵循这个流程。 $Y$ 的可能取值是：

如果 $X=0$ ，那么 $Y = 0^2+1=1$ 。
如果 $X=1$ 或 $X=-1$ ，那么 $Y = (\pm 1)^2+1=2$ 。
如果 $X=2$ 或 $X=-2$ ，那么 $Y = (\pm 2)^2+1=5$ 。

现在我们收集概率。

得到 $Y=1$ 的唯一方式是 $X=0$ 。所以， $p_Y(1) = p_X(0) = \frac{1}{5}$ 。
要得到 $Y=2$ ， $X$ 可能是 $-1$ 或 $1$ 。所以，我们把它们的概率相加： $p_Y(2) = p_X(-1) + p_X(1) = \frac{1}{5} + \frac{1}{5} = \frac{2}{5}$ 。
类似地，要得到 $Y=5$ ， $X$ 可能是 $-2$ 或 $2$ 。所以， $p_Y(5) = p_X(-2) + p_X(2) = \frac{1}{5} + \frac{1}{5} = \frac{2}{5}$ 。

注意发生了什么。这个变换不是一对一的；多个 $X$ 的值被映射到同一个 $Y$ 的值。这导致概率“聚集”起来，使得 $Y=2$ 和 $Y=5$ 的可能性是 $Y=1$ 的两倍。这个识别原像并对其概率求和的简单原则，是所有离散变换的基本机制。

连续世界：从求和到密度

当我们进入连续世界时会发生什么？在这里， $X$ 可以在一个范围内取任何值，任何单点的概率都为零。我们不能再对概率求和了。相反，我们必须考虑*概率密度*，你可以将其想象为不同点上概率的“重量”或“浓度”。

指导原则是概率守恒。想象在点 $x$ 周围一个宽度为 $dx$ 的微小区间。我们的变量 $X$ 落入这个区间的概率大约是 $f_X(x)dx$ ，其中 $f_X(x)$ 是 $X$ 的概率密度函数 (PDF)。我们的变换 $y = g(x)$ 将这个微小区间 $dx$ 映射到一个新的微小区间 $dy$ 。概率必须守恒：原本在 $dx$ 中的概率质量现在必须在 $dy$ 中。 $f_Y(y)|dy| = f_X(x)|dx|$ 我们使用绝对值，因为面积和密度必须是正的。一个简单的重新排列给了我们著名的变量替换公式： $f_Y(y) = f_X(x) \left| \frac{dx}{dy} \right|$ 其中 $x$ 必须用 $y$ 来表示（即 $x = g^{-1}(y)$ ）。这个公式告诉我们，新的密度 $f_Y(y)$ 是旧的密度 $f_X(x)$ 乘以一个缩放因子 $|\frac{dx}{dy}|$ 。这个因子表示变换对空间拉伸或压缩了多少。如果一个区间被拉伸，其密度必须减小以保持概率不变。如果它被压缩，其密度必须增加。

让我们看一个实例。一个自由度为1的卡方分布， $X \sim \chi^2(1)$ ，模拟了一个随机信号的能量。其PDF为 $f_X(x) = \frac{1}{\sqrt{2\pi x}} \exp(-\frac{x}{2})$ ，其中 $x \gt 0$ 。假设我们想找到信号振幅的分布，即 $Y = \sqrt{X}$ 。

这里，我们的变换是 $g(x) = \sqrt{x}$ 。其反函数是 $x = y^2$ 。缩放因子是反函数的导数： $\frac{dx}{dy} = 2y$ 。因为 $Y$ 代表振幅，我们关心的是 $y \gt 0$ ，所以 $|\frac{dx}{dy}| = 2y$ 。把所有东西代入我们的公式： $f_Y(y) = f_X(y^2) \cdot |2y| = \frac{1}{\sqrt{2\pi y^2}} \exp\left(-\frac{(y^2)}{2}\right) \cdot (2y)$ $f_Y(y) = \frac{1}{\sqrt{2\pi} \cdot y} \exp\left(-\frac{y^2}{2}\right) \cdot (2y) = \sqrt{\frac{2}{\pi}} \exp\left(-\frac{y^2}{2}\right), \text{ for } y \gt 0$ 这个结果分布被称为半正态分布。这个变换将能量分布转换成了相应的振幅分布，完全通过一个简单的密度缩放规则。

更根本的路径：累积的故事

变量替换公式很巧妙，但它依赖于函数 $g(x)$ 是一对一的（单调的），这样其反函数 $g^{-1}(y)$ 才有明确定义。如果不是呢？对于像 $y=x^2$ 这样的函数，其中 $x$ 可以是正数或负数，该怎么办？

我们需要一个更稳健、更根本的方法。确实有这样一种方法：累积分布函数(CDF)法。它万无一失，适用于任何变换。其逻辑始终是从CDF的基本定义出发： $F_Y(y) = P(Y \le y)$ 然后，代入 $Y=g(X)$ 并操作不等式以分离出 $X$ 。 $F_Y(y) = P(g(X) \le y)$ 一旦我们得到了一个关于 $X$ 的表达式，我们就可以使用已知的 $X$ 的CDF或PDF来计算概率。如果我们需要 $Y$ 的PDF，我们只需对我们找到的CDF求导： $f_Y(y) = \frac{d}{dy} F_Y(y)$ 。

让我们来看一个测量位置误差大小的问题， $Y=|X|$ ，其中误差 $X$ 在 $[-A, A]$ 上均匀分布。变换 $g(x)=|x|$ 不是一对一的。让我们找到 $Y$ 在 $0$ 到 $A$ 之间的某个值 $y$ 处的CDF： $F_Y(y) = P(Y \le y) = P(|X| \le y) = P(-y \le X \le y)$ 由于 $X$ 在 $[-A, A]$ 上均匀分布，其PDF是 $f_X(x) = \frac{1}{2A}$ 。落入区间 $[-y, y]$ 的概率是其长度 $2y$ 乘以密度： $F_Y(y) = \int_{-y}^{y} \frac{1}{2A} dx = \frac{2y}{2A} = \frac{y}{A}$ 因此，对于 $y \in [0, A]$ ，CDF 就是 $F_Y(y)=\frac{y}{A}$ 。对此求导得到PDF： $f_Y(y) = \frac{1}{A}$ ，对于 $y \in [0, A]$ 。来自负半轴的概率密度被“折叠”过来并加到了正半轴上，使得一半区间上的密度加倍了（从 $\frac{1}{2A}$ 变为 $\frac{1}{A}$ ）。

这种方法在处理更复杂的函数时更显其威力。想象一下，将一个随机信号的相位 $X$ 建模为在 $[0, 2\pi]$ 上的均匀变量。其测量振幅 $Y=\cos(X)$ 的分布是什么？直观上，一个在圆上以恒定角速度运动的点，其水平投影（余弦）在通过中心时移动最快，而在端点附近逗留时间较长。所以我们预计 $Y$ 的概率密度在 $-1$ 和 $1$ 附近最高。让我们用CDF方法来验证一下，对于 $y \in [-1, 1]$ ： $F_Y(y) = P(\cos(X) \le y)$ 在区间 $[0, 2\pi]$ 上，不等式 $\cos(x) \le y$ 对 $x$ 在 $[\arccos(y), 2\pi - \arccos(y)]$ 范围内的值都成立。由于 $X$ 在 $[0, 2\pi]$ 上是均匀的，概率就是这个区间的长度除以 $2\pi$ ： $F_Y(y) = \frac{(2\pi - \arccos(y)) - \arccos(y)}{2\pi} = 1 - \frac{\arccos(y)}{\pi}$ 求导得到PDF： $f_Y(y) = \frac{1}{\pi\sqrt{1-y^2}}$ ，对于 $y \in (-1,1)$ 。这个函数在 $y=-1$ 和 $y=1$ 处趋于无穷，正如我们的直觉所预测的那样！在转折点的逗留时间确实是最长的。

通用转换器：概率的奥秘

在所有可能的变换中，有一个是如此特殊和深刻，以至于感觉像个魔术。它被称为概率积分变换。它指出，对于任何具有CDF $F_X(x)$ 的连续随机变量 $X$ ，由变换 $Y = F_X(X)$ 定义的新随机变量将在区间 $[0, 1]$ 上服从均匀分布。让我们用我们刚学到的CDF方法来证明这一点。让我们找到 $Y=F_X(X)$ 的CDF。对于0和1之间的任何 $y$ ： $F_Y(y) = P(Y \le y) = P(F_X(X) \le y)$ 由于CDF $F_X$ 是一个非递减函数，我们可以对其反函数 $F_X^{-1}$ 应用于不等式两边： $F_Y(y) = P(X \le F_X^{-1}(y))$ 但这正是CDF的定义！ $P(X \le z) = F_X(z)$ 。所以，我们有： $F_Y(y) = F_X(F_X^{-1}(y)) = y$ $Y$ 的CDF是 $F_Y(y) = y$ ，对于 $y \in [0, 1]$ 。这正是在 $[0, 1]$ 上均匀分布的CDF！这个结果具有惊人的普适性。无论 $X$ 的原始分布多么奇怪或复杂，当通过其自身CDF的“镜头”观察时，它看起来都是完全平坦和均匀的。这个原理是仿真的理论基础和现代统计学的基石，因为它给了我们一种方法，可以将标准的均匀随机数（计算机可以轻松生成）转换成我们想要的任何分布的随机数。它也可能以伪装的形式出现，例如对于一个变量 $X \sim \chi^2(2)$ ，变换 $Y=\exp(-X/2)$ 也出人意料地产生一个均匀分布。

间接途径：矩的力量

到目前为止，我们都是正面解决问题，直接处理PMF和PDF。但有时在科学中，最优雅的路径是间接的。矩生成函数(MGF) 应运而生。随机变量 $X$ 的MGF，记为 $M_X(t)$ ，定义为 $M_X(t) = \mathbb{E}[\exp(tX)]$ 。它是分布的一种“变换”，很像傅里叶变换或拉普拉斯变换。它的威力来自于两个事实：

MGF如果存在，就唯一地确定了分布。如果两个变量有相同的MGF，它们就有相同的分布。
MGF具有一些奇妙的性质，使得某些问题变得异常简单。

这些性质中最著名的是与线性变换相关的。如果我们有一个新变量 $Y = aX + b$ ，直接找到它的PDF可能很繁琐。但找到它的MGF却非常简单： $M_Y(t) = \mathbb{E}[\exp(t(aX+b))] = \mathbb{E}[\exp(atX) \exp(bt)] = \exp(bt) \mathbb{E}[\exp((at)X)]$ 这给出了一个优美的规则： $M_Y(t) = \exp(bt) M_X(at)$ 例如，如果一个LED的寿命 $X$ 的MGF为 $M_X(t) = (1 - \frac{t}{4})^{-2}$ ，我们定义一个新变量 $Y = 5X - 3$ ，我们不需要知道关于 $X$ 分布的任何其他信息就能找到 $Y$ 的MGF。我们只需应用 $a=5$ 和 $b=-3$ 的规则： $M_Y(t) = \exp(-3t) M_X(5t) = \exp(-3t) \left(1 - \frac{5t}{4}\right)^{-2}$ 我们一行就找到了 $Y$ 的MGF。如果我们能认出这个新的MGF属于某个已知分布，那么我们就在没有接触过PDF或CDF的情况下找到了 $Y$ 的分布。这种方法允许我们在一个不同的数学空间中操作，在这个空间里，变换变成了简单的乘法和移位。

超越单线：编织多重概率

我们的旅程一直聚焦于变换单个随机变量。但如果我们的新变量是多个随机变量的函数呢？例如， $Z = \max(X, Y)$ 或 $Z = X+Y$ 。同样的核心原则适用，但现在我们必须在一个多维空间中导航。

在离散情况下，如果我们想找到 $P(Z=z)$ ，我们必须搜索所有可能的 $(x, y)$ 对的整个网格，并对所有满足条件 $g(x, y) = z$ 的对的联合概率 $p(x, y)$ 求和。对于连续情况下的 $Z=g(X,Y)$ ，找到CDF $F_Z(z) = P(Z \le z)$ 需要在 $xy$ -平面上对满足不等式 $g(x,y) \le z$ 的整个区域积分联合PDF $f(x, y)$ 。

这一步进入多维空间开启了一个广阔而丰富的研究领域，引出了诸如独立变量之和的分布和著名的中心极限定理等核心概念。逻辑工具保持不变：在源空间中识别事件并计算其总概率。其艺术和美感在于看到这些基本原则如何扩展，使我们能够理解支配我们复杂世界的错综复杂的概率网络。

应用与跨学科联系

在经历了变换随机变量基本机制的旅程之后，你可能会问：“这一切都是为了什么？”这是一个合理的问题。能够转动数学公式的曲柄是一回事，但看到为什么有人想要这样做则完全是另一回事。这个学科的美妙之处，就像物理学和数学中的许多内容一样，不仅在于“如何做”，还在于“为什么做”。它关乎学会用不同的镜头看世界。

有时，你需要一个放大镜；其他时候，你需要一个望远镜。有时，你需要一副能把一切都颠倒过来的眼镜。随机变量的变换正是这样：一个新镜头。我们没有改变潜在的现象，但我们正在改变我们对它的描述，以揭示一些新的东西，使隐藏的模式变得可见，或者将其与科学领域的另一部分联系起来。在本章中，我们将探索这种“重塑现实”的艺术，看看这些变换如何跨越从金融学、物理学到数据科学和信息论的各个学科。

最简单的工具：拉伸、平移和缩放

最直接的变换是线性变换：对一个变量进行拉伸、平移和缩放，就像将温度从摄氏度转换为华氏度。如果你知道摄氏度的每日温度不确定性（方差），你可以立即找到华氏度的方差，而无需重新分析多年的测量数据。关系式 $Var(a + bX) = b^2 Var(X)$ 正是这一直觉的精确数学表述。平移 $a$ 完全不改变离散程度（将所有数据点移动5个单位并不会使它们更分散），但缩放因子 $b$ 会拉伸或收缩数轴，并且由于方差是以平方单位度量的，其影响是 $b^2$ 。

大多数概率分布，当你拉伸或平移它们时，会变成它们自身的一个缩放版本。但有些是特殊的。奇特的柯西分布，作为概率动物园里的一头野兽，具有“稳定”的非凡特性。如果你取一个柯西分布的变量，然后对其进行拉伸和平移，你得到的还是另一个柯西分布。就好像一张猫的照片，在放大和裁剪后，露出了另一只长相不同的猫。这种稳定性是罕见的，并指向柯西分布所居住的一种自成一体的世界。

当我们观察随时间展开的随机过程时，这种缩放的思想揭示了一些真正深刻的东西。考虑一个水中花粉粒的随机、抖动的路径——布朗运动，在数学上由维纳过程 $W_t$ 描述。在任何时刻 $t$ ，粒子的位置服从一个正态分布，其方差随时间线性增长，为 $t$ 。现在，如果我们通过将位置按 $\frac{1}{\sqrt{t}}$ 缩放来“归一化”我们的视角会发生什么？我们定义一个新变量 $Z = W_t / \sqrt{t}$ 。我们发现，无论我们选择什么时间 $t$ ， $Z$ 始终具有完全相同的标准正态分布。这是一个深刻物理原理的体现：自相似性。一个随机游走，无论你观察一秒还是一小时，只要你适当地调整你的观察窗口，它在统计上看起来都是一样的。这一个变换揭示了隐藏在随机性核心的分形般的对称性。

炼金术士的食谱：锻造新分布

现在我们超越了简单的缩放，进入了真正的炼金术领域，在这里我们可以从旧的分布中锻造出全新的分布。这些非线性变换可以极大地改变变量的形状和意义。

想象一下，你正在为一种产品的市场份额建模，这个比例 $P$ 必须在0和1之间。贝塔分布是一个非常灵活的工具。但如果你对一个相关问题感兴趣：公司的财富可以增长到巨大的规模，它们是如何分布的？事实证明，一个简单的变换可以连接这两个世界。如果 $X$ 服从一个特定的贝塔分布（模拟一个接近1的比例），新变量 $Y = (1-X)^{-1}$ 就服从帕累托分布。帕累托分布因描述少数事件占结果大部分的现象而闻名——即“80-20法则”。这个变换向我们展示了一座隐藏的数学桥梁，连接了有界比例的世界和极端事件的“重尾”世界。这是概率论统一性的一个惊人例子。

在现代数据科学中，也许没有比logit变换更重要的了。许多模型，如线性回归，被构建用来预测在整个数轴上，从 $-\infty$ 到 $+\infty$ 的结果。但如果你想预测一个概率，比如一个病人对治疗有反应的可能性怎么办？这样的概率 $P$ 顽固地被困在区间 $(0,1)$ 中。你如何将线性模型的无界世界与概率的有限世界联系起来？logit变换就是那座神奇的桥梁： $L = \ln\left(\frac{P}{1-P}\right)$ 。这个函数将任何从 $(0,1)$ 的数字拉伸到整个实数线上。量 $\frac{P}{1-P}$ 是“几率”，所以logit是“对数几率”。通过让模型预测 $L$ 而不是 $P$ ，我们可以使用线性建模的强大工具，然后将结果转换回概率。这个思想正是逻辑斯蒂回归的基础，它是从流行病学到金融学等领域的主力工具。

罗塞塔石碑：用对数解锁数据

在数据变换的故事中，对数是一个反复出现的英雄。为什么？因为自然界中的许多过程是乘性的。人口增长、投资回报、放射性衰变——这些事物都是复利式的。通过取对数，我们将这些乘性过程变成了加性过程，而加性过程通常更容易分析。对数就像一块罗塞塔石碑，将一门难懂的语言翻译成一门更简单的语言。

考虑伽马分布，它通常用于模拟等待时间或随机事件的累积。来自伽马分布的数据可能高度偏斜，有一个长长的右尾。这种偏度会给许多统计方法带来问题。对伽马分布的变量取自然对数， $Y = \ln(X)$ ，你会得到一个被称为对数伽马分布的新分布。这种变换可以“驯服”偏度，使数据更加对称，使潜在的模式更加明显。这就像戴上了一副合适的处方眼镜。

同样，F分布是用于比较不同组的方差分析(ANOVA)的基石，它也是偏斜的。它代表了方差之比。通过用对数变换它， $Y = \ln(X)$ ，我们再次创建了一个更对称的分布，通常更适合建模。在无数领域，科学家和工程师对他们的数据取对数，不是作为一种无意识的仪式，而是作为一种有目的的变换，以更好地揭示潜在的结构。

超越数字：信息与抽象

变换不一定是一个平滑的数学公式。它可以是任何将输入映射到输出的明确定义的规则。例如，一个公共卫生机构可能会将详细的空气质量数据（‘优’、‘中’、‘不健康’）转化为一个更简单的公共警报系统（‘良好’、‘警示’）。这是一个函数： $Y = g(X)$ ，其中 $g(\text{'中'}) = \text{'警示'}$ 并且 $g(\text{'不健康'}) = \text{'警示'}$ 。

这种变换的效果是什么？我们简化了信息，但我们丢失了信息。我们可以用香农熵的概念来量化这一点。通过对结果进行分组，可能性的数量减少了，系统的总不确定性或熵也减少了。这说明了所有科学和通信中的一个基本权衡：简单性与细节之间的平衡。每当我们创建一个模型或总结数据时，我们都在进行一种变换，这种变换的本质就是为了突出某一方面而丢弃一些信息。

最后，我们来到了最强大和最抽象的变换：傅里叶变换。在概率论中，这被称为特征函数。它将一个概率密度函数从其自然的“值空间”转换到“频率空间”。我们为什么要这样做？因为有时一个在一个空间中极其复杂的问题，在另一个空间中会变得惊人地简单。

考虑寻找 $Y=X^2$ 分布的任务。直接的方法可能很麻烦。但如果我们进入傅里叶世界，我们可以找到一个优雅的解决方案。 $Y$ 的最终PDF可以表示为一个涉及 $X$ 的特征函数和一个余弦项 $\cos(k\sqrt{y})$ 的积分。余弦的出现并非偶然。变换 $Y=X^2$ 是对称的（ $x$ 和 $-x$ 都映射到同一个 $y$ ），而余弦是一个对称（偶）函数。原始变换中的对称性在其傅里叶表示中得到了反映。这是一个深刻而优美的原则。这项技术让物理学家和工程师能够通过跳入这个抽象空间，执行简单的乘法或移位，然后带着解决方案跳回“现实世界”，从而解决波动力学、信号处理和量子力学中的问题。

从改变单位到揭示随机性的分形本质，从锻造新的统计工具到量化信息本身，随机变量的变换不仅仅是教科书中的一章。它是一种基本的思维方式，一个多功能且强大的工具包，用以洞察统一科学世界的隐藏联系。