期望最大化（EM）算法

玻尔百科

定义

期望最大化（EM）算法指一种在存在缺失数据或隐变量的情况下，通过交替执行期望（E）步和最大化（M）步来寻找模型参数的迭代算法。该算法保证在每次迭代中增加观测数据的似然值，直至收敛到局部最优解。期望最大化（EM）算法广泛应用于高斯混合模型聚类、生存分析中的删失数据处理以及基因组学中的基因表达估计。

核心要点

EM 算法是在存在缺失数据或潜变量的情况下，通过交替进行期望（E）步和最大化（M）步来寻找模型参数的迭代过程。
EM 算法的每一次迭代都保证会增加（或保持）观测数据的似然，从而确保收敛到局部最优解。
算法的收敛速度直接由数据中缺失信息的比例决定。
EM 算法有广泛的应用，包括使用高斯混合模型进行数据聚类、在生存研究中分析删失数据以及在基因组学中估计基因表达。

引言

在从遗传学到工程学的众多数据分析领域中，许多最具挑战性的问题都有一个共同的障碍：信息不完整。无论是处理缺失的测量值、隐藏的分组，还是不可观测的状态，寻找对我们数据最可能的解释的路径往往在数学上是难以处理的。当谜题的关键部分缺失时，我们如何做出有原则的推断？这正是期望最大化（EM）算法所要解决的根本问题，它是现代统计学和机器学习中最强大、最优雅的工具之一。

本文将揭开 EM 算法的神秘面纱，为其内部工作原理和广泛用途提供一份直观而全面的指南。在接下来的章节中，我们将首先探讨其基础的“原理与机制”，分解其期望和最大化这两步的迭代过程，并理解为何它能保证找到一个解。随后，我们将遍览其多样的“应用与跨学科联系”，揭示这一个想法如何统一了聚类、基因组学、医学等领域的问题，并成为现代科学机器中的幽灵。

原理与机制

想象一位侦探面对一桩棘手的案件。一些关键证据缺失了——一张模糊的监控照片、一枚不完整的指纹、一段混乱的录音。侦探无法仅凭手头的证据破案，前路受阻。这位聪明的侦探会怎么做呢？她没有放弃。相反，她开始了一个推理循环。基于她确实拥有的线索，她对案情提出了一个工作假设。这个假设接着让她能对缺失的证据做出有根据的猜测。例如，“如果我的理论是正确的，那么照片中那个模糊的身影可能就是 A。”现在，有了这些填补的证据，她重新评估自己的整个理论。这个新的、更强的理论可能反过来让她能更好地理解那些缺失的部分。这种在猜测缺失信息和完善整体理论之间优雅的迭代过程，正是期望最大化（EM）算法的灵魂。

EM 算法是统计学中最强大且应用最广泛的工具之一，是解开数据不完整问题的万能钥匙。这种“缺失的证据”可以有多种形式：删失的测量值、群体中未知的组别或动态系统中的隐藏状态。在所有这些情况下，直接计算用以解释观测数据的最可能参数在数学上是难以处理的。EM 算法为求解提供了一条优美而间接的途径。

两步迭代：期望与最大化

在其核心，EM 算法将一个单一、极其困难的问题分解为一系列两个更简单、可解的步骤，并重复这个过程直到达到一个解。我们称观测数据为 $X$ ，缺失或潜在数据为 $Z$ ，希望找到的模型参数为 $\theta$ 。

期望（E）步： 这是“有根据的猜测”步骤。我们从参数的一个初始猜测开始，称之为 $\theta^{(t)}$ 。我们无法知道真实的缺失数据 $Z$ 。但是，利用我们当前的理论 $\theta^{(t)}$ ，我们可以推断出 $Z$ 可能是什么样子。我们不只是为 $Z$ 挑选一个值；相反，我们计算其所有可能性的期望，并根据观测数据 $X$ 和当前参数 $\theta^{(t)}$ 下这些可能性的似然进行加权。技术上，这一步涉及计算完整数据对数似然的期望值，这个函数通常表示为 $Q(\theta | \theta^{(t)})$ 。这听起来很抽象，但它其实只是创建了一个新的、更易于处理的目标函数，来替代我们无法求解的那个。
最大化（M）步： 这是“优化理论”的步骤。在 E 步中创建了代理函数 $Q$ 之后，我们现在寻找使它最大化的参数值 $\theta$ 。因为我们将 $Q$ 设计为基于“完整”数据（其中缺失部分已通过平均值计入），所以这个最大化过程几乎总是比处理原始的不完整数据似然要容易得多。其结果就是我们新的、改进后的参数估计值 $\theta^{(t+1)}$ 。

然后，我们用这个崭新的 $\theta^{(t+1)}$ 回到 E 步，用它来对缺失数据做出更好的猜测。这个循环不断重复，每一次迭代都让我们更接近一组最优的参数。

具体化：EM 算法的实际应用

让我们从抽象走向具体。这个两步迭代过程在现实世界场景中是如何运作的？

不耐烦的心理学家和被删失的时钟

考虑一个测量反应时间的心理学实验，我们假设反应时间遵循具有某个均值 $\mu$ 和标准差 $\sigma$ 的钟形正态分布。然而，一个有故障的计时器无法记录任何超过 95 毫秒的时间；它只记录 95+。这被称为删失数据。缺失的信息是那些手速快的参与者的确切时间。

E 步： 我们从对 $\mu$ 和 $\sigma$ 的一个猜测开始。对于每一个 95+ 的记录，我们对其真实时间的最佳猜测是什么？绝不仅仅是 95！我们知道它必须大于 95。利用我们当前的 $\mu^{(t)}$ 和 $\sigma^{(t)}$ ，我们可以计算一个已知其时间在 95 以上的人的期望反应时间。这个条件期望 $\mathbb{E}[Y | Y \ge 95; \mu^{(t)}, \sigma^{(t)}]$ ，成为我们对缺失值的替代值。
M 步： 我们创建一个“伪完整”数据集，其中每个 95+ 都被我们刚刚计算的期望值所取代。现在，估计参数就变得微不足道了！新的均值 $\mu^{(t+1)}$ 就是这个填补后数据集的平均值。我们对标准差也做同样的操作。然后，我们重复这个过程。该算法优雅地利用我们拥有的部分信息（即值超过 95），迭代地逼近真实的潜在分布。

困惑的昆虫学家和隐藏的组别

现在想象一位昆虫学家用陷阱研究甲虫。有些陷阱一只甲虫也没捕到。这可能是因为陷阱有故障（一个“结构性零”），也可能是一个功能正常的陷阱，但纯属偶然没有甲虫逛进去（一个“抽样零”）。这是一个经典的混合模型问题。潜变量是陷阱的隐藏状态：它是有故障的还是功能正常的？

一个类似且可能更著名的例子是高斯混合模型（GMM），用于在数据中寻找聚类。想象一个身高数据集，它似乎有两个峰值，暗示着这是两个不同群体的混合。在这里，每个人的缺失数据是他们属于哪个群体。

E 步： 给定我们对每个群体属性（例如，它们的均值 $\mu_0, \mu_1$ 和方差 $\sigma_0^2, \sigma_1^2$ ）的当前估计，我们为每个数据点计算它属于群体 0 与群体 1 的概率。这个概率被称为责任（responsibility）。这是一种“软”分配。我们不是宣称一个数据点完全属于某个聚类，而是说它，例如，“有 80% 的可能性来自群体 1，20% 来自群体 0”。
M 步： 我们如何更新，比如说，群体 1 的参数呢？我们应该使用那些最可能属于它的数据点。EM 算法以一种极其优雅的方式做到这一点：群体 1 的新均值 $\mu_1^{(t+1)}$ 成为所有数据点的加权平均值，权重恰好是我们在 E 步中为群体 1 计算的责任。那些很可能在群体 1 中的数据点对其新均值的贡献很大；那些不太可能在其中的数据点贡献很小。同样的原则也适用于更复杂得多的场景，比如基因组学中使用的隐马尔可夫模型，其中 E 步计算的是沿着序列处于各种隐藏状态的概率。

攀升：为何这个过程是向上的

这个迭代过程看似神奇，但其成功是由一个优美的数学性质所保证的。在 EM 算法的每一次迭代中，我们观测数据的实际对数似然都保证会增加，或者在最坏的情况下保持不变。我们总是在向上攀登。

这其中的逻辑虽然微妙但很强大。根据其定义，M 步是在我们的代理函数 $Q$ 的山坡上攀登。而 $Q$ 与真实似然之间的数学联系确保了任何增加 $Q$ 的一步也会增加（或至少不减少）真实的似然。这就像在浓雾中登山，通过沿着一系列你刚在自己前方搭建的向上倾斜的坡道前进。每个坡道（ $Q$ 函数）都保证能将你带到实际山峰的更高处。

因为我们总是在一个通常有上界的景观上攀登，所以我们最终必然会到达一个无法再攀高的地方。此时，算法被称为已收敛。我们到达的位置将是似然函数的一个驻点——一个峰顶，或至少是一个平坦的高原 [@problem_-id:2393397]。

然而，这也伴随着一个至关重要的警告。EM 是一种爬山算法，而不是一个世界探险家。它会勤奋地找到它出发时所在山丘的顶峰，但不能保证找到整个山脉中的最高峰（全局最大值）。最终目的地完全取决于初始起点 $\theta^{(0)}$ 。此外，一些似然景观包含危险的、无限深的峡谷。例如，在高斯混合模型中，如果一个成分的均值恰好落在一个数据点上，且其方差收缩到零，似然函数可能会变得无穷大。一个初始化不佳的 EM 运行可能会被吸入这些病态解之一。

攀登的速度：收敛与无知的代价

那么，算法会攀升，但速度有多快？答案揭示了统计学和计算之间深刻的统一性。对于大多数问题，EM 的收敛是线性的。这意味着在每次迭代中，到解的剩余距离会减少一个常数因子，比如 $\lambda$ 。如果 $\lambda=0.5$ ，你每一步都走完剩余距离的一半。如果 $\lambda=0.99$ ，进展将极其缓慢。我们监控这个过程，当改进变得微不足道时停止，例如，当对数似然的相对变化低于一个很小的容忍度，例如 $10^{-5}$ 时。

是什么决定了这个速率 $\lambda$ 呢？在计算统计学中最优美的结果之一是，收敛速度由缺失信息的数量所决定。

更正式地说，收敛速率等于关于参数的信息中包含在缺失数据里的那一部分比例。让我们用一个简单的例子来清楚地说明这一点。假设我们正在抛硬币以估计其正面朝上的概率 $p$ 。我们观察到 $n_o$ 次抛掷，但另外 $m$ 次抛掷的结果丢失了。这个问题的 EM 算法的收敛速率恰好是： $\lambda = \frac{m}{n_o + m}$ 这正是缺失数据的比例！如果一半数据缺失（ $m=n_o$ ），速率是 $0.5$ 。如果 90% 的数据缺失，速率是 $0.9$ ，收敛会非常慢。如果没有数据缺失（ $m=0$ ），速率是 0，算法在一步之内收敛（理应如此，因为答案是直接可得的）。

这种联系是根本性的。问题的统计难度——我们因数据缺失而产生的“无知”——与解决它所需的算法计算成本完美对应。期望最大化算法不仅仅是一个聪明的技巧；它是一个深刻的原则，优雅地在不确定的景观中导航，一次一步，其步调由未知本身的性质所决定。

应用与跨学科联系：机器中的幽灵

既然我们已经掌握了期望最大化算法的机制，我们可以提出最重要的问题：它有何用途？它仅仅是一个巧妙的数学装置，一个统计学家的利基工具吗？你会很高兴地发现，答案是响亮的“不”。EM 算法不仅仅是一个工具；它是一种处理不完整信息的哲学。它是一种与你的数据进行结构化对话的方式，耐心地请求数据帮助填补其自身的空白。一旦你掌握了这个核心思想——迭代地猜测缺失的部分，然后完善你对全局的建模——你就会开始在几乎每个科学学科的机器中看到它的幽灵。它是一条统一的线索，将遗传学、社会学、医学和工程学中的问题联系在一起。让我们踏上旅程，穿越其中一些世界，看看这个卓越的算法如何工作。

分解与聚类的艺术

也许 EM 最直观的应用是解决统计学中的“鸡尾酒会问题”：理清混杂的群体。想象一下，你有一千个人的身高列表，但你没有被告知这个群体是职业篮球运动员和赛马骑师的混合体。你会得到一个奇怪的、双峰分布的身高数据，而简单的平均值将毫无意义。在不知道谁属于哪个群体的情况下，你如何分别估计骑师的平均身高和篮球运动员的平均身高？

这是一个经典的 EM 场景。“缺失的信息”是每个人的群体标签。算法从对两个群体平均身高的一个随意猜测开始。然后它进行迭代：

期望（E）步： 对于每个人，根据他们的身高和当前猜测的平均值，计算他们是骑师还是篮球运动员的概率。一个非常高的人将有很高的概率是篮球运动员；一个非常矮的人则是骑师。身高居中的人可能是 50/50。这些概率被称为“责任”。这是一种“软”分配，而不是一个硬性决定。
最大化（M）步： 然后重新计算平均身高。但它不是一个简单的平均，而是一个加权平均。每个人的身高都按其属于该群体的概率进行加权。“骑师”群体的平均身高是使用所有 1000 人的数据更新的，但高个子对这个新平均值的贡献很小，而矮个子的贡献很大。

你重复这个过程。从 M 步得到新的、改进的平均值，用于下一步的 E 步，以获得更好的概率分配。这些更好的分配又被用来获得更好的平均值。这个循环持续进行，每一步都为另一步提供信息，直到估计的平均值不再变化。算法已经收敛到一个自洽的解。

这种分解群体的简单思想远远超出了简单的平均值。例如，统计学家可能面临的数据是完全不同类型概率分布的混合，比如说，一个尖锐、对称的拉普拉斯分布和一个平坦的均匀分布。EM 算法同样可以轻松地将它们分离开，估计每个基础成分的独特参数。有趣的是，M 步中参数的更新规则总是针对特定的分布量身定制的；对于均匀分布，参数更新可能根本不是一个平均值，而是找到属于该群体的概率不为零的最大观测值。

我们聚类的“事物”不必是简单的数字。我们可以使用 EM 来聚类整个数据序列，比如来自不同传感器或金融行情指示器的流。在这里，潜变量是生成整个序列的“类型”。E 步计算一个给定的时间序列是由，例如，一个“平静”的自回归模型还是一个“动荡”的模型生成的概率，而 M 步则更新这些基础模型的参数。同样的原则甚至可以揭示社交网络中的隐藏社群。通过将每个个体的社群成员身份视为一个潜变量，EM 可以估计在社群内部与之间形成友谊的概率，从而揭示构建网络结构的无形社会结构。

处理不可见与未言明之事

当我们从“缺失的标签”推广到任何类型的“缺失数据”时，EM 算法的真正威力就显现出来了。有时，最重要的信息是那些从未被观察到的信息。

考虑一位生态学家试图估计一个国家公园里一种稀有龟类的总种群数量。一个常用的方法是捕获-再捕获：你捕捉、标记并释放一些乌龟。稍后，你返回并进行第二次捕捉。在你第二次样本中标记的乌龟比例为你提供了关于总种群大小的线索。但是那些你在两次捕捉中都从未见过的乌龟呢？它们的数量是关键的缺失数据。EM 提供了一个令人惊叹的优雅解决方案。它将从未见过的乌龟数量视为一个潜变量。从对总种群的一个猜测开始，它进行迭代：

E 步： 基于当前的种群估计和观察到的捕获概率，估计未见个体的期望数量。
M 步： 更新总种群估计，使其与观察到的个体数量加上未见个体的期望数量保持一致。

该算法使我们能够对一个我们根据定义没有任何直接测量值的数据进行有原则的估计。它从可见的阴影中拉出了对不可见之物的估计。

同样的逻辑是现代医学和可靠性工程的基石。在一项新药的临床试验中，一项研究可能会持续五年。结束时，一些患者会存活下来，而一些，不幸地，则不会。对于仍然在世的患者，他们的数据是“右删失”的——我们知道他们存活了至少五年，但我们不知道他们真实的、最终的生存时间。这是缺失的数据。一个忽略这些患者的幼稚分析将会有灾难性的偏误。EM 算法通过将真实的、未观察到的生存时间视为潜变量来解决这个问题。在 E 步中，它利用生存模型（比如，指数分布）的性质来计算每个删失患者的期望生存时间，前提是他们活过了一个特定的时间点。然后 M 步使用这些补全的“伪数据”来更新模型参数，例如治疗下疾病的风险率。

这种概率性地补全数据的想法是计算生物学中的一匹得力干将。在测序基因组时，现代机器将 DNA 切割成数百万个称为“读段”（reads）的微小片段。然后将这些读段映射回参考基因组。问题是，基因组的许多部分是重复的。一个短的读段可能完美地映射到五个不同的基因。它到底来自哪里？它的真实来源是一个潜变量。EM 算法是解决这个问题的标准工具。它迭代地将每个多重映射读段的概率性“功劳”分配给其可能的来源转录本，然后基于这些加权分配更新这些转录本的丰度估计。没有 EM，从序列数据中准确测量基因活动几乎是不可能的。

揭示隐藏的力量和特质

EM 算法可以走得更深。潜变量不必是离散的标签或缺失的事件；它们可以是连续的、不可观察的、支配系统行为的力量或特质。

在控制理论和机器人学中，工程师构建状态空间模型来描述像飞行中的无人机或化学反应器这样的系统。这些模型总是受到无形力量的冲击：随机的大气湍流（过程噪声）和传感器的不完美（测量噪声）。系统的真实状态——其确切的位置和速度——对我们是隐藏的，是一个潜变量轨迹。EM，在与卡尔曼平滑器等其他工具的强大结合下，可以分析观察到的、带噪声的测量值，并推断出隐藏噪声本身的统计特性。它可以估计表征这些随机力的协方差矩阵（ $Q$ 和 $R$ ），使工程师能够构建更鲁棒、更精确的滤波器和控制器。

同样的想法也适用于人类世界。在心理测量学中，即教育和心理测量的科学，一个人的“能力”或“智力”是一个无法直接观察的潜在特质。当你参加一个测试时，你正确和错误答案的模式是观察数据。EM 算法可以分析成千上万名应试者对一组问题的回答，并同时估计两组隐藏参数：每个项目的难度和每个人的潜在能力。这是现代自适应测试背后的引擎，测试会根据对你能力的持续估计实时调整其难度。

在现代机器学习中，这个概念被推向了极限。考虑一个有数千个潜在预测特征的问题。大多数可能都是无用的噪声。我们想要一个只使用最重要特征的“稀疏”模型。一种优美的贝叶斯方法，称为“尖峰厚板 (spike-and-slab)”模型，为每个特征的系数分配了两种可能的先验分布：一个以零为中心的窄“尖峰”，和一个允许其非零的宽“厚板”。每个系数的一个潜在二元变量决定了它是从尖峰还是厚板中抽取的。然后可以使用 EM 算法来推断每个特征“在厚板中”（即，是重要的）的后验概率。这使得算法能够执行自动特征选择，优雅地修剪掉不相关的变量，并发现隐藏在高维数据中的稀疏结构。

平均场的统一思想

所有这些多样化的应用——数乌龟的生态学家、找社群的社会学家、调滤波器的工程师、评能力的心理测量学家——它们有什么共同点？统一的原则是一个源自物理学的深刻而优美的概念：平均场思想。

在许多复杂系统中，从原子到社会，万物都与其他万物相互作用。一个部分的状态取决于所有其他部分的状态，而这些部分的状态又取决于第一个部分的状态。这造成了一个令人眩晕、难以处理的依赖循环。平均场近似是打破这个循环的强大策略。它不是跟踪每一个单独的相互作用，而是用一个单一的、平均的、有效的场——一个“平均场”——来近似所有其他粒子对单个粒子的影响。

这正是 EM 算法的哲学。参数 $\theta$ 和潜变量 $Z$ 在一个复杂的循环中耦合在一起。

E 步是平均场步骤。它冻结参数 $\theta$ 并将潜变量 $Z$ 的整个复杂、不确定的世界坍缩成一个平均表示：它们的后验概率分布 $q(Z) = p(Z|X, \theta)$ 。这个分布就是平均场。
M 步然后优化参数 $\theta$ ，就好像每个数据点不是与一个复杂的未知网络相互作用，而只是与这个简单的、固定的、平均的场相互作用一样。

这个过程被迭代，直到参数和它们生成的平均场达到和谐——一个自洽场。这与量子化学中的 Hartree-Fock 方法惊人地相似，在那种方法中，每个电子的波函数是在所有其他电子的平均静电场中计算的，然后重复这个过程，直到波函数和它们产生的场自洽。

这个视角揭示了 EM 是一种在称为证据下界（ELBO）的明确目标上的坐标上升算法。E 和 M 的每个循环都保证改善（或至少不降低）这个目标，确保了在似然景观上的单调爬升。就像它在物理学中的对应物一样，因为景观通常是崎岖不平、有许多山峰的，EM 保证能找到一个峰顶，但不一定是全局最高的那个。它是一个局部优化器，但却是一个极其有效的局部优化器。

所以，期望最大化算法不仅仅是一个统计工具。它是理解复杂性的基本科学策略的一种体现。它教导我们，要解决那些纠缠不清的难题，我们有时可以用一个平均场的庄严影响来取代各个部分之间错综复杂的舞蹈，并通过在部分与整体之间迭代，找到一个隐藏在众目睽睽之下的、优美的、自洽的真理。