try ai
科普
编辑
分享
反馈
  • 随机变量乘积的期望值

随机变量乘积的期望值

SciencePedia玻尔百科
核心要点
  • 对于独立随机变量 XXX 和 YYY,其乘积的期望值等于各自期望值的乘积:E[XY]=E[X]E[Y]E[XY] = E[X]E[Y]E[XY]=E[X]E[Y]。
  • 对于相关变量,其乘积的期望值由协方差进行修正,协方差衡量它们协同变化的程度:E[XY]=E[X]E[Y]+Cov(X,Y)E[XY] = E[X]E[Y] + \text{Cov}(X, Y)E[XY]=E[X]E[Y]+Cov(X,Y)。
  • E[XY]E[XY]E[XY] 可以使用联合概率分布直接计算,也可以通过指示变量等巧妙工具简化,或者通过将变量转换为更简单的分量来求解。
  • E[XY]E[XY]E[XY] 的概念是相关性的基础,对于在金融、物理和工程等不同领域中建模变量之间的关系至关重要。

引言

在概率论和统计学中,理解多个不确定量如何相互作用是一个核心挑战。期望值的乘积是实现这一目标的关键工具,这个概念初看起来很直观,但却蕴含着惊人的深度。虽然我们可能会凭直觉猜测,乘积的平均值就是平均值的乘积,但这个简单的规则只在特定情况下适用。本文旨在解决一个关键问题:当两个或多个随机变量通过乘法结合在一起时,尤其是在它们相互影响的情况下,我们如何正确计算和解释其期望结果?

我们的探索始于第一章“原理与机制”,在这一章中,我们将构建数学基础,从简单的独立事件开始,逐步推进到涉及协方差这一关键概念的一般情况。随后的第二章“应用与跨学科联系”将展示这一强大思想如何在广阔的科学技术领域中得到应用,揭示支配我们世界的隐藏关系。

原理与机制

想象你正在一个嘉年华。那里有两个独立的有奖游戏。第一个是一个简单的幸运转盘,会停在一个数字上,我们称之为XXX。第二个是一台力量测试机,会给你一个分数,我们称之为YYY。你猜测转盘的平均结果大约是 5,而你在力量测试机上的平均得分是 100。那么,你会猜测它们的乘积,XXX乘以YYY的平均值是多少?很自然地会猜想,乘积的平均值就是平均值的乘积:5×100=5005 \times 100 = 5005×100=500。

在这个简单的例子中,你的直觉完全正确。这个想法触及了概率论中最基本的原则之一:乘积的期望值。但是,如同科学中所有有趣的事物一样,完整的故事要丰富和优美得多。如果这两个游戏不是独立的呢?如果力量测试机的得分以某种方式影响了幸运转盘停在哪个位置,那情况就会变得有趣得多。让我们深入这个世界,从最简单的情况开始,逐步走向更复杂、更贴近现实的场景。

独立事件的世界

在概率论中,当我们说两个事件是​​独立​​的,我们指的是一个事件的结果对另一个事件的结果完全没有影响。嘉年华的游戏是独立的。你第一次掷硬币的结果对第二次没有影响。当随机变量XXX和YYY独立时,我们直觉所想的规则是成立的:它们乘积的期望值等于它们各自期望值的乘积。

E[XY]=E[X]E[Y]E[XY] = E[X] E[Y]E[XY]=E[X]E[Y]

这是一个非常有用的结果。让我们来看一个实例。想象一下,连续掷两个公正的四面骰子。设X1X_1X1​是第一次掷骰的结果,X2X_2X2​是第二次掷骰的结果。单次掷骰的平均值,或称期望值,是E[X1]=E[X2]=(1+2+3+4)/4=2.5E[X_1] = E[X_2] = (1+2+3+4)/4 = 2.5E[X1​]=E[X2​]=(1+2+3+4)/4=2.5。由于两次掷骰是独立的,它们乘积的期望值就是E[X1X2]=E[X1]E[X2]=(2.5)×(2.5)=6.25E[X_1 X_2] = E[X_1]E[X_2] = (2.5) \times (2.5) = 6.25E[X1​X2​]=E[X1​]E[X2​]=(2.5)×(2.5)=6.25。我们不需要列出所有 16 种可能的结果对并计算它们乘积的平均值;独立性为我们提供了一个强大的捷径。

这个原则适用于任何类型的独立随机变量,不仅限于离散型。考虑一个简化的数据处理系统,其中一个数据单元首先通过一个滤波器(我们将其结果称为XXX),然后进入一个计算阶段(处理时间为YYY)。如果滤波器是否通过一个单元的决定与计算工作量无关,我们可以通过分别计算E[X]E[X]E[X]和E[Y]E[Y]E[Y]然后将它们相乘来分析系统的性能指标E[XY]E[XY]E[XY]。同样的逻辑也适用于我们有两个独立的电压信号,一个在[0,1][0, 1][0,1]上均匀分布,另一个在[0,2][0, 2][0,2]上均匀分布;它们电压的期望乘积可以通过将它们各自的平均电压相乘得到。

这个规则是基石。它清晰、简单且强大。但世界往往是一个充满依赖关系的网络,而这才是真正冒险的开始。

当命运交织:协方差的角色

当XXX和YYY不独立时会发生什么?如果身高和体重,或者股票价格,或者生态系统中捕食者和猎物的数量是相互关联的,情况又会如何?简单的规则E[XY]=E[X]E[Y]E[XY] = E[X]E[Y]E[XY]=E[X]E[Y]就不再成立了。

为了修正它,我们需要引入一个新的角色:​​协方差​​。协方差,记为Cov(X,Y)\text{Cov}(X, Y)Cov(X,Y),是衡量两个随机变量联合变异性的指标。它告诉我们它们协同变化的程度。

让我们深入了解一下。协方差的定义是: Cov(X,Y)=E[(X−E[X])(Y−E[Y])]\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])]Cov(X,Y)=E[(X−E[X])(Y−E[Y])]

我们记E[X]=μXE[X] = \mu_XE[X]=μX​和E[Y]=μYE[Y] = \mu_YE[Y]=μY​。展开期望内的乘积,我们会得到一个精彩的洞见: Cov(X,Y)=E[XY−XμY−YμX+μXμY]\text{Cov}(X, Y) = E[XY - X\mu_Y - Y\mu_X + \mu_X\mu_Y]Cov(X,Y)=E[XY−XμY​−YμX​+μX​μY​]

由于一个优美的性质,即​​期望的线性性​​(和的期望等于期望的和),我们可以将其分解: Cov(X,Y)=E[XY]−E[XμY]−E[YμX]+E[μXμY]\text{Cov}(X, Y) = E[XY] - E[X\mu_Y] - E[Y\mu_X] + E[\mu_X\mu_Y]Cov(X,Y)=E[XY]−E[XμY​]−E[YμX​]+E[μX​μY​]

由于μX\mu_XμX​和μY\mu_YμY​只是常数(平均值),我们可以将它们提出来: Cov(X,Y)=E[XY]−μYE[X]−μXE[Y]+μXμY\text{Cov}(X, Y) = E[XY] - \mu_Y E[X] - \mu_X E[Y] + \mu_X\mu_YCov(X,Y)=E[XY]−μY​E[X]−μX​E[Y]+μX​μY​ Cov(X,Y)=E[XY]−μXμY−μXμY+μXμY\text{Cov}(X, Y) = E[XY] - \mu_X\mu_Y - \mu_X\mu_Y + \mu_X\mu_YCov(X,Y)=E[XY]−μX​μY​−μX​μY​+μX​μY​ Cov(X,Y)=E[XY]−μXμY\text{Cov}(X, Y) = E[XY] - \mu_X\mu_YCov(X,Y)=E[XY]−μX​μY​

看看我们发现了什么!通过重新整理这个方程,我们得到了乘积期望的完整、通用公式:

E[XY]=μXμY+Cov(X,Y)E[XY] = \mu_X \mu_Y + \text{Cov}(X, Y)E[XY]=μX​μY​+Cov(X,Y)

这是一个深刻的陈述。它告诉我们,两个随机变量的期望乘积是它们平均值的乘积,外加一个修正项。这个修正项就是协方差。

  • 如果XXX和YYY是独立的,它们没有“协同运动”,所以它们的协方差为零,我们就回到了旧的规则:E[XY]=μXμYE[XY] = \mu_X \mu_YE[XY]=μX​μY​。
  • 如果Cov(X,Y)\text{Cov}(X, Y)Cov(X,Y)是正的,这意味着当XXX高于其平均值时,YYY也倾向于高于其平均值。可以想象日温度和冰淇淋销量。
  • 如果Cov(X,Y)\text{Cov}(X, Y)Cov(X,Y)是负的,这意味着当XXX高于其平均值时,YYY倾向于低于其平均值。可以想象你学习的小时数和你花在看电视上的小时数。

这个单一的方程优雅地统一了独立和相关两种情况。例如,在金融领域,两只股票的收益率X1X_1X1​和X2X_2X2​很少是独立的。它们的关系由相关系数ρ\rhoρ捕捉,这只是协方差的一个缩放版本。它们收益率的期望乘积恰好由这个公式给出:E[X1X2]=μ1μ2+ρσ1σ2E[X_1 X_2] = \mu_1 \mu_2 + \rho \sigma_1 \sigma_2E[X1​X2​]=μ1​μ2​+ρσ1​σ2​,其中Cov(X1,X2)=ρσ1σ2\text{Cov}(X_1, X_2) = \rho \sigma_1 \sigma_2Cov(X1​,X2​)=ρσ1​σ2​。

科学家的工具箱:计算期望值

知道通用公式是一回事;计算其组成部分是另一回事。当面对一个相关系统时,我们如何找到E[XY]E[XY]E[XY]?幸运的是,我们有一个多功能的工具箱。

基础蓝图:使用联合分布

计算E[XY]E[XY]E[XY]最直接的方法是回到期望的原始定义。我们必须考虑所有可能的结果对(x,y)(x, y)(x,y),将它们相乘,然后将结果乘以该特定对发生的概率p(x,y)p(x,y)p(x,y),最后将所有结果相加。

对于离散变量,这看起来像: E[XY]=∑x∑yxy⋅p(x,y)E[XY] = \sum_{x} \sum_{y} xy \cdot p(x,y)E[XY]=∑x​∑y​xy⋅p(x,y) 例如,如果我们从集合{1,2,3}\{1, 2, 3\}{1,2,3}中不放回地抽取两个数字,第一次抽取会影响第二次可抽取的数字。为了找到E[XY]E[XY]E[XY],我们必须列出所有可能的对,如(1,2), (1,3), (2,1)等,找到它们的概率(每对都是16\frac{1}{6}61​),计算每对的乘积,然后求平均值。

对于连续变量,求和变成对​​联合概率密度函数​​f(x,y)f(x,y)f(x,y)的双重积分: E[XY]=∫∫xy⋅f(x,y) dxdyE[XY] = \int \int xy \cdot f(x,y) \,dx dyE[XY]=∫∫xy⋅f(x,y)dxdy 想象一下扫描一个半导体晶圆寻找缺陷,其中缺陷位置(X,Y)(X, Y)(X,Y)更可能出现在某些区域。如果有效区域是一个由0<y<x<10 \lt y \lt x \lt 10<y<x<1定义的三角形,依赖关系就嵌入在积分的极限中。我们无法将xxx和yyy的积分分开,所以我们必须逐步求解积分以找到坐标的期望乘积。

这种直接方法是基础性的,并且总是有效,但如果结果数量庞大或积分复杂,计算量可能会非常大。

优雅的捷径:指示变量的力量

在这里,一点点聪明才智可以产生魔术般的效果。通常,一个复杂的随机变量可以表示为许多更简单的变量之和。来认识一下​​指示变量​​。一个事件AAA的指示变量,比如说IAI_AIA​,就像一个小机器,如果事件AAA发生就输出1,如果不发生就输出0。它的期望值非常简单:E[IA]=1⋅P(A)+0⋅P(not A)=P(A)E[I_A] = 1 \cdot P(A) + 0 \cdot P(\text{not } A) = P(A)E[IA​]=1⋅P(A)+0⋅P(not A)=P(A)。

让我们在一个真实场景中看看这个技巧。假设我们从一批12个微芯片中抽取3个,这批芯片中有5个来自供应商A,4个来自供应商B。我们想找到E[XY]E[XY]E[XY],其中XXX是抽中A芯片的数量,YYY是抽中B芯片的数量。这两个变量是相关的,因为抽中一个A芯片会减少抽中B芯片的位置。与其去寻找极其复杂的联合概率p(x,y)p(x,y)p(x,y),不如我们来定义指示变量。

设AiA_iAi​是一个指示变量,如果第iii个A芯片(对于i=1,…,5i=1, \dots, 5i=1,…,5)被选中,则为1。 设BjB_jBj​是一个指示变量,如果第jjj个B芯片(对于j=1,…,4j=1, \dots, 4j=1,…,4)被选中,则为1。 那么总数就是这些指示变量的和:X=∑i=15AiX = \sum_{i=1}^{5} A_iX=∑i=15​Ai​和Y=∑j=14BjY = \sum_{j=1}^{4} B_jY=∑j=14​Bj​。 乘积变为XY=(∑Ai)(∑Bj)=∑i∑jAiBjXY = (\sum A_i)(\sum B_j) = \sum_{i} \sum_{j} A_i B_jXY=(∑Ai​)(∑Bj​)=∑i​∑j​Ai​Bj​。

利用期望的线性性,我们得到E[XY]=∑i∑jE[AiBj]E[XY] = \sum_{i} \sum_{j} E[A_i B_j]E[XY]=∑i​∑j​E[Ai​Bj​]。项AiBjA_i B_jAi​Bj​仅在特定的A芯片iii和特定的B芯片jjj都被选中时才为1。E[AiBj]E[A_i B_j]E[Ai​Bj​]就是这件事发生的概率。对于任何一对特定的芯片,这个概率很容易计算。通过对所有5×4=205 \times 4 = 205×4=20对求和,我们可以非常轻松地找到答案,完全绕过了联合分布,。这是一种最精妙的“分而治之”策略。

变换的艺术:线性性来救场

有时我们的相关变量本身是其他更简单的独立变量的函数。在信号处理模型中,我们可能会从两个独立的输入信号UUU和VVV生成一个和信号X=U+VX=U+VX=U+V和一个差信号Y=U−VY=U-VY=U−V。显然,XXX和YYY是相关的!

如果我们试图用它们的联合分布来求E[XY]E[XY]E[XY],我们将不得不进行复杂的变量替换。但让我们尝试别的方法。我们直接代入并展开: E[XY]=E[(U+V)(U−V)]=E[U2−V2]E[XY] = E[(U+V)(U-V)] = E[U^2 - V^2]E[XY]=E[(U+V)(U−V)]=E[U2−V2] 现在,期望的线性性的魔力再次显现! E[U2−V2]=E[U2]−E[V2]E[U^2 - V^2] = E[U^2] - E[V^2]E[U2−V2]=E[U2]−E[V2] 我们将一个关于相关变量(X,YX, YX,Y)乘积的难题,转换成了一个关于原始独立变量(U,VU, VU,V)性质的简单问题。计算E[U2]E[U^2]E[U2]和E[V2]E[V^2]E[V2]是直接的。我们通过在更基础的层面上工作,完全避开了依赖关系。

所以,我们看到了一个美丽的景象。一个适用于独立事件的直观规则,一个涉及协方差、支配所有相互作用的更深层次、更普遍的定律,以及一套强大的工具——直接积分、巧妙的指示变量和精湛的变换——让我们能够驾驭这片景象,并预测组合不确定现象的平均结果。这就是发现的本质。

变量之舞:应用与跨学科联系

在上一章中,我们剖析了乘积期望值E[XY]E[XY]E[XY]背后的数学机制。我们看到,它不仅仅是一个数字;它是一个深入探索两个随机量之间关系——即它们秘密对话——的探针。如果两个随机变量是宏大舞台上的舞者,E[XY]E[XY]E[XY]就是我们提问的方式:它们是在完美同步地移动吗?还是在编排好的对立中舞动?或者它们彼此浑然不知,各自随着自己的节奏起舞?

现在,让我们离开抽象的舞台,看看这个概念在现实世界中的表现。你会被它的多功能性所震惊。乘积的期望值不是概率论家的某种深奥工具;它是一个在学科之间架起桥梁的基本概念,从生物物理学的微观世界到天体的宇宙之舞,从数据科学的基础到信息本身的哲学基础。

独舞之美:独立的舞者

最简单也许也是最深刻的情况是,当我们的两位舞者完全独立时。一个的结果对另一个的结果没有任何影响。想象一下拉斯维加斯的一次掷骰子结果和南极的温度。直观上,它们彼此毫无关系。在这种情况下,数学变得异常简单。正如我们所见,如果XXX和YYY是独立的,那么它们乘积的期望值就是它们各自期望值的乘积:

E[XY]=E[X]E[Y]E[XY] = E[X] E[Y]E[XY]=E[X]E[Y]

这不仅仅是数学上的便利;这是关于宇宙两部分之间清晰分离的深刻陈述。这个原则通常是科学家在建模复杂系统时所做的第一个也是最强大的假设。

考虑一下我们细胞内部的繁忙世界。一个微小的分子马达,一种蛋白质,可能会沿着细胞的纤维丝移动,就像轨道上的火车。它保持附着的时间,我们称之为TTT,以及它在那一步中行进的净距离,我们称之为DDD,通常可以被建模为独立的随机变量。一位试图理解马达整体效率的生物物理学家可能对乘积的期望值E[TD]E[TD]E[TD]感兴趣。如果假设独立是合理的,问题就变得异常易于处理:他们可以分别研究平均附着时间和平均位移,然后简单地将结果相乘得到答案。这种独立性假设让科学家能够将一个极其复杂的系统分解成可管理的部分。

但要小心!缺乏“明显的”联系并不能保证独立性,而且我们可以用更巧妙的方式使用这个规则。想象一个雷达系统正在扫描一个区域。它可能会通过测量物体的距离RRR和角度Θ\ThetaΘ作为两个独立的随机变量来确定其位置。但在许多应用中,我们需要笛卡尔坐标,X=Rcos⁡(Θ)X = R\cos(\Theta)X=Rcos(Θ)和Y=Rsin⁡(Θ)Y = R\sin(\Theta)Y=Rsin(Θ)。现在,XXX和YYY肯定不是独立的——如果RRR很小,那么XXX和YYY也必须很小。我们不能简单地说E[XY]=E[X]E[Y]E[XY] = E[X]E[Y]E[XY]=E[X]E[Y]。然而,我们可以利用RRR和Θ\ThetaΘ的原始独立性。我们感兴趣的乘积是XY=R2cos⁡(Θ)sin⁡(Θ)XY = R^2 \cos(\Theta)\sin(\Theta)XY=R2cos(Θ)sin(Θ)。由于独立变量的任何函数本身也是独立的,我们可以将问题分开:

E[XY]=E[R2cos⁡(Θ)sin⁡(Θ)]=E[R2]E[cos⁡(Θ)sin⁡(Θ)]E[XY] = E[R^2 \cos(\Theta)\sin(\Theta)] = E[R^2] E[\cos(\Theta)\sin(\Theta)]E[XY]=E[R2cos(Θ)sin(Θ)]=E[R2]E[cos(Θ)sin(Θ)]

我们将一个复杂乘积的期望分解为两个更简单期望的乘积,这两个期望可以从半径和角度的各自分布中计算出来。这是物理学和工程学中一个反复出现的主题:如果你能识别出一个系统的真正独立组成部分,你往往可以解决一个起初看起来棘手的问题。

复杂的双人舞:相关变量与相关性的诞生

现在到了真正有趣的部分。当我们的舞者意识到彼此的存在时会发生什么?如果他们是双人舞的搭档呢?这在自然界中是更为常见的情况。一个人的身高和体重,今天某支股票的价格和明天的价格,气体中的温度和压力——这些都是相关变量。当XXX和YYY相关时,E[XY]=E[X]E[Y]E[XY] = E[X]E[Y]E[XY]=E[X]E[Y]的规则不再成立。但是,它失效的程度本身就是最重要的信息!

这个“误差项”非常重要,我们给它一个专门的名字:​​协方差​​。

Cov(X,Y)=E[XY]−E[X]E[Y]\text{Cov}(X,Y) = E[XY] - E[X]E[Y]Cov(X,Y)=E[XY]−E[X]E[Y]

这个看似简单的公式 是所有现代统计学的基石之一。如果协方差为正,意味着当XXX大于其平均值时,YYY也倾向于大于其平均值。它们同向变动。如果为负,它们倾向于反向变动。如果为零,它们是“不相关”的(这是一个比独立性弱的条件,但很有用)。

为了使这个度量具有普遍性,我们可以用变量各自的波动性(它们的标准差,σX\sigma_XσX​和σY\sigma_YσY​)来对其进行缩放。这就得到了著名的​​Pearson相关系数​​,ρ\rhoρ,一个始终介于−1-1−1和111之间的数。乘积期望的公式可以被重写成一个极具洞察力的方式:

E[XY]=E[X]E[Y]+ρXYσXσYE[XY] = E[X]E[Y] + \rho_{XY} \sigma_X \sigma_YE[XY]=E[X]E[Y]+ρXY​σX​σY​

这个方程讲述了一个美丽的故事。两个变量的期望乘积是你在它们独立时所期望的值,加上一个取决于它们相关强度多大的修正项。实际上,如果我们首先对变量进行标准化(通过减去它们的均值并除以它们的标准差,以创建均值为0、标准差为1的新变量ZXZ_XZX​和ZYZ_YZY​),这种关系就变得更加清晰。在这种情况下,期望乘积就是相关系数:E[ZXZY]=ρE[Z_X Z_Y] = \rhoE[ZX​ZY​]=ρ。

这个想法的应用遍及所有科学领域。

  • ​​在材料科学中:​​ 想象一根长度为LLL的易碎光纤。它在一个随机位置XXX处断裂。这产生了长度为XXX和Y=L−XY=L-XY=L−X的两段。这两段的长度显然是相关的;它们是完全负相关的。为了理解这种断裂的力学原理,科学家可能想要计算长度的期望乘积E[XY]E[XY]E[XY]。这个计算需要知道断裂点的概率分布,并在所有可能性上对乘积x(L−x)x(L-x)x(L−x)进行积分。其结果为材料的属性提供了关键的洞察。

  • ​​在空间统计学和计算机图形学中:​​ 假设你正在设计一个游戏,其中一个资源在地图上的一个由顶点(0,0)(0,0)(0,0)、(1,0)(1,0)(1,0)和(0,1)(0,1)(0,1)定义的三角形区域内随机生成。生成点的坐标(X,Y)(X, Y)(X,Y)是随机变量。它们是独立的吗?绝对不是!如果X=0.9X=0.9X=0.9,那么YYY必须非常小(小于0.10.10.1)才能使该点保持在三角形内。计算像E[XY]E[XY]E[XY]这样的量需要在该三角形区域的几何形状上进行积分,明确考虑XXX和YYY之间的依赖关系。这样的计算对于从地理信息系统到物流中的资源配置优化等所有方面都至关重要。

  • ​​在物理学和金融学中:​​ 最优美的应用之一是在研究随时间演变的过程中,比如水中花粉粒的抖动(布朗运动)或股票价格的波动。设X(t)X(t)X(t)是我们的粒子在时间ttt的位置或我们的股票在时间ttt的价格。在时间t1t_1t1​的位置与稍后时间t2t_2t2​的位置不是独立的。量E[X(t1)X(t2)]E[X(t_1)X(t_2)]E[X(t1​)X(t2​)]是过程“记忆”的度量——即时间t1t_1t1​的状态在多大程度上影响时间t2t_2t2​的状态。对于标准的布朗运动,事实证明这个期望有一个非常简单的形式:它与两个时间中较早的一个成正比,即min⁡(t1,t2)\min(t_1, t_2)min(t1​,t2​)。这个“自协方差函数”是过程的心跳,理解它对于过滤信号、为金融衍生品定价以及模拟气候变化至关重要。

最小偏见原则:从一个数字到整个系统

到目前为止,我们一直假设我们了解系统,并用E[XY]E[XY]E[XY]来描述其属性。让我们通过一个如此强大以至于近乎哲学的想法来结束,把问题反过来问。如果我们对一个系统知之甚少,但恰好知道E[XY]E[XY]E[XY]的值,我们能反向推断出系统的性质吗?

答案在于​​最大熵原理​​。该原理指出,在给定某些约束(如已知的平均值)的情况下,对底层概率分布的最佳猜测是那个尽可能随机或“分散”的分布。这是最诚实的分布,因为它没有假设任何我们没有的信息。这是最小偏见原则。

想象一个简单的系统,有两个二进制组件,其状态为XXX和YYY(0表示“关”,1表示“开”)。有四种可能的联合状态:(0,0),(0,1),(1,0),(0,0), (0,1), (1,0),(0,0),(0,1),(1,0),和(1,1)(1,1)(1,1)。假设我们对这个系统唯一了解的是两个组件都为“开”的概率是一个特定值ccc。这等同于说我们知道E[XY]=cE[XY] = cE[XY]=c,因为乘积XYXYXY仅在X=1X=1X=1且Y=1Y=1Y=1时为1,否则为0。那么我们对其他三种状态的概率的最佳猜测是什么?

最大熵原理给出了一个惊人简单的答案:假设其他三种状态都是等可能发生的。任何其他选择都将是在我们的模型中注入我们没有证据支持的信息或结构。那一个数字,E[XY]E[XY]E[XY],作为一个约束,让我们能够为整个系统的行为构建最合理的模型。这不仅仅是一个数学上的奇趣;它是统计力学的概念基础,解释了像温度和压力这样的宏观属性是如何从微观相互作用的混乱中出现的。它也是现代机器学习的基石,我们用它从有限的、嘈杂的数据中构建预测模型。

从一个用于检查独立性的简单工具,到相关性的基石,再到描述时间过程的描述符,最后到从有限知识中建模宇宙的基础约束——乘积的期望值是一个具有深远影响和统一之美的概念。它真正让我们得以倾听支配我们世界的变量之间错综复杂的舞蹈。