似然方程

玻尔百科

核心要点

似然方程通过最大化对数似然函数来找到最合理的模型参数，这一原则被称为最大似然估计（MLE）。
这种通用方法被广泛应用于机器学习、生物学和天文学等多个领域，即使在数据不完整或存在间接数据的情况下，也能用于估计参数。
除了参数估计，似然框架还为假设检验（似然比检验）和揭示数据中的隐藏结构（期望最大化算法）提供了基础。
似然函数代表了“数据之声”，即使在更高级的框架（如贝叶斯推断）中，它也仍然是核心组成部分。

引言

我们如何将原始、不确定的数据转化为科学认知？从测量基因表达的生物学家，到估算星系距离的天文学家，他们面临的根本挑战是相同的：找到最能解释我们所观测到的证据的现实模型。这个过程需要的不仅仅是直觉；它要求一个严谨的数学框架来权衡各种可能性，并精确指出最合理的解释。最大似然原理提供了这个框架，为从数据中学习提供了一种统一的语言。

本文将深入探讨这一强大思想的核心：似然方程。我们将探索这一个方程如何成为无数个学科中统计推断的引擎。在第一章“原理与机制”中，我们将剖析核心概念，从似然性的直观思想到对数似然函数及其最大化的数学机制。我们将看到这一过程如何将复杂问题转化为可解的方程。随后，在“应用与跨学科联系”中，我们将见证这个引擎的实际运作，探索它如何在遗传学、生态学、机器学习和医学影像等领域中被用来估计参数、揭示隐藏结构以及检验假设。我们首先从那些使似然方程成为如此普适的发现工具的基本原理开始。

原理与机制

想象你是一位抵达犯罪现场的侦探。你在泥地里看到了一个脚印。你有两名嫌疑人：嫌疑人 A 穿 8 码鞋，嫌疑人 B 穿 12 码鞋。而脚印是 12 码的。虽然这并不能证明嫌疑人 B 有罪，但你肯定会说，在嫌疑人 B 在场的假设下，这个证据出现的可能性更大。你刚刚完成了一次直观的似然推断。

最大似然原理就是这个简单的想法，只不过是用精确而强大的数学语言进行了包装。它是一个对现实进行逆向工程的工具。我们观测到一些数据——“脚印”——然后我们问：在所有可能的世界解释或模型中，哪一个使得我们的观测结果最可能出现？似然方程就是我们用来寻找那个最佳拟合模型的主要引擎。

什么是似然？一个关于合理性的原则

让我们从侦探工作转向科学。一位鸟类学家记录鸟鸣，并将其分为几种类型。在听了 $N$ 次鸟鸣后，他们统计出类型 1 有 $n_1$ 次，类型 2 有 $n_2$ 次，依此类推。他们有一个模型，该模型认为听到每种鸟鸣类型的概率分别是 $p_1, p_2, \ldots$ 。问题是，这些概率的真实值是什么？

数据是计数集合 $(n_1, n_2, \ldots, n_k)$ 。模型是概率向量 $\mathbf{p} = (p_1, p_2, \ldots, p_k)$ 。在给定特定模型 $\mathbf{p}$ 的情况下，观测到这组特定计数的概率由多项式概率公式给出：

P(\text{data} | \mathbf{p}) = \frac{N!}{n_1! n_2! \cdots n_k!} p_1^{n_1} p_2^{n_2} \cdots p_k^{n_k}

当我们看这个公式时，我们可以固定数据，并改变参数 $\mathbf{p}$ 。我们可以问：“给定我们看到的数据，这组特定的概率 $\mathbf{p}$ 有多合理？” 当我们将数据的概率重新解释为模型参数的函数时，我们称之为似然函数，记为 $L(\mathbf{p} | \text{data})$ 。一组能够给出更高似然值的参数被认为更合理，与我们的观测结果更一致。

于是，我们的目标是找到使似然函数尽可能大的特定参数集 $\hat{\mathbf{p}}$ 。这就是最大似然估计（Maximum Likelihood Estimation, MLE）的原理。

最大化的艺术：从似然到对数似然

直接最大化似然函数在数学上可能有点头疼。它是一个由许多项组成的乘积，而处理乘积，尤其是在求导时，是相当麻烦的。幸运的是，有一个绝妙的技巧。因为对数函数 $\ln(x)$ 随 $x$ 的增加而单调增加，所以使 $L(\mathbf{p})$ 最大化的 $\mathbf{p}$ 值与使 $\ln(L(\mathbf{p}))$ 最大化的值是完全相同的。

这个新函数 $\ell(\mathbf{p}) = \ln(L(\mathbf{p}))$ 被称为对数似然函数。它的魔力在于将乘积转化为和。对于我们的鸟鸣例子，对数似然（忽略常数项组合部分）是：

\ell(\mathbf{p}) = n_1 \ln(p_1) + n_2 \ln(p_2) + \cdots + n_k \ln(p_k)

这是一个友好得多的表达式。

估计的引擎：似然方程

我们如何找到山峰的顶点？我们向上走，直到再也无法走高。在最高点，地面是平的。在微积分的世界里，函数的“陡峭度”是它的导数，“平坦”则意味着导数为零。

为了找到对数似然函数的最大值，我们对其关于每个参数求导，并令其为零。对数似然的导数在统计学中是一个特殊的量，称为得分函数，通常记为 $U(\theta)$ 。通过将得分函数设为零得到的方程 $U(\theta) = 0$ ，就是著名的似然方程。它的解给出了最大似然估计量（MLE），即那个使我们的数据最合理的参数值。

让我们看看这个引擎是如何运作的。

案例研究 1：失效的节奏

一位材料科学家正在测试一种新型聚合物。样品失效的时间是随机的，他们使用指数分布来建模，其概率密度函数为 $f(x; \lambda) = \lambda \exp(-\lambda x)$ 。这里， $\lambda$ 是“失效率”。高 $\lambda$ 意味着失效得快。他们测试了 $n$ 个样品，并记录了它们的失效时间： $x_1, x_2, \ldots, x_n$ 。那么 $\lambda$ 的最佳估计是什么？

写出似然函数：观测到所有这些独立失效时间的似然是它们各自概率的乘积： $L(\lambda) = \prod_{i=1}^{n} \lambda \exp(-\lambda x_i) = \lambda^n \exp\left(-\lambda \sum_{i=1}^{n} x_i\right)$
取对数似然： $\ell(\lambda) = \ln(L(\lambda)) = n \ln(\lambda) - \lambda \sum_{i=1}^{n} x_i$
求得分函数（求导）： $\frac{d\ell}{d\lambda} = \frac{n}{\lambda} - \sum_{i=1}^{n} x_i$
解似然方程：将得分设为零。 $\frac{n}{\hat{\lambda}} - \sum_{i=1}^{n} x_i = 0 \quad \implies \quad \hat{\lambda} = \frac{n}{\sum_{i=1}^{n} x_i}$

让我们审视这个优美的结果。 $\frac{1}{n}\sum_{i=1}^{n} x_i$ 这一项正是平均失效时间，即样本均值 $\bar{X}$ 。所以，我们的估计是 $\hat{\lambda} = 1/\bar{X}$ 。这非常直观！估计的失效速率就是平均失效时间的倒数。如果聚合物样品平均能持续很长时间，那么失效率就低。如果它们很快失效，那么失效率就高。似然方程不仅给了我们一个公式，它还给了我们一个具有完美物理意义的洞见。

同样的逻辑也同样适用于离散事件。如果我们用几何分布来模拟一个开关直到失效所需的试验次数，似然方程会导出失效概率的估计为 $\hat{p} = 1/\bar{X}$ ，其中 $\bar{X}$ 现在是平均失效试验次数。其基本原理是相同的。

通用工具箱：从生物学到机器学习

似然原理的真正力量在于其普适性。同样的“写出似然、取对数、求导、设为零”的流程在各种各样的情况下都适用。

不完整数据：想象一项研究，你无法区分两种结果。在一个蛋白质折叠实验中，构象 'A' 和 'B' 可能在你的探测器上看起来完全相同，所以你只能观测到它们的总数 $S$ 。我们就此放弃吗？不！我们只需根据我们能观测到的情况来调整模型。如果 $P(\text{A}) = \theta$ 且 $P(\text{B}) = 2\theta$ ，我们就定义一个新结果“A 或 B”，其概率为 $P(\text{A or B}) = 3\theta$ 。然后我们基于这个合并后的、更简单的模型来构建我们的似然函数。似然方法足够灵活，能够处理现实世界测量的混乱情况。
机器学习：当你训练一个逻辑回归模型来将邮件分类为垃圾邮件或非垃圾邮件时，你实际上是在使用最大似然。对于每封邮件，模型计算其为垃圾邮件的概率 $p_i$ 。该邮件对总对数似然的贡献是一个非常紧凑的表达式： $y_i \ln(p_i) + (1-y_i)\ln(1-p_i)$ ，其中如果邮件是垃圾邮件， $y_i$ 为 1，否则为 0。然后计算机求解一个复杂（但在概念上相同）的似然方程，以找到能够最好地将训练数据中的垃圾邮件与非垃圾邮件分开的模型参数。
奇异数据：如果你的数据不是简单的数字怎么办？如果你测量的是风向（圆上的角度）或微生物组构成（必须总和为 1 的比例）呢？即使在这里，原理依然成立。对于用 von Mises 分布建模的方向数据，似然方程将模型参数与数据向量的平均方向和长度联系起来。对于用狄利克雷分布建模的成分数据，我们得到一个涉及特殊数学函数的方程组，但它们同样源于完全相同的过程。数学细节可能会变得棘手，但指导原则仍然是一座清晰的灯塔。

一点提醒：当引擎失灵时

每个强大的工具都有其局限性，正是通过理解这些局限性，我们才能真正掌握它。基于微积分的似然方程方法依赖于一个关键假设：对数似然函数是一条光滑、连续的曲线，有一个优美的圆形峰顶。如果不是呢？

考虑一个简单的模型：你从整数集合 $\{1, 2, \ldots, \theta\}$ 上的均匀分布中抽样，其中 $\theta$ 是你想要估计的未知参数。你收集了一个样本 $X_1, \ldots, X_n$ ，发现你看到的最大值是 $m = \max(X_i)$ 。

你的数据的似然函数是 $L(\theta) = (1/\theta)^n$ ，但这仅在 $\theta$ 至少与 $m$ 一样大时才成立。如果 $\theta$ 小于 $m$ ，那么观测到 $m$ 的概率将为零！所以对于任何 $\theta m$ ，该函数会突然降至零。此外，参数 $\theta$ 必须是整数。谈论在 $\{1, 2, \ldots, 7.5\}$ 上的均匀分布是没有意义的。

参数空间是离散的，而非连续的。对数似然函数不是一条我们可以求导的光滑曲线。试图求解 $\frac{d}{d\theta}(-n \ln \theta) = -n/\theta = 0$ 是无稽之谈；这是用错了工具。

那么我们如何找到最大值呢？我们只需观察函数！函数 $L(\theta) = (1/\theta)^n$ 在其分母最小时最大。 $\theta$ 能取的最小可能整数值是多少？既然我们观测到了数字 $m$ ，那么 $\theta$ 必须至少是 $m$ 。因此，最大似然估计就是 $\hat{\theta} = m = \max(X_1, \ldots, X_n)$ 。无需微积分，只需纯粹的逻辑。这个例子精彩地提醒我们，最大化合理性的原则比微分这一具体技术更为根本。

结论：数据之声

似然方程不仅仅是一个数学程序，它是一种从数据中学习的哲学。它将“让数据引导我们找到最合理的世界模型”这一直观思想形式化。它提供了一个统一的框架，从简单的抛硬币问题延伸到机器学习的复杂引擎。

即使我们转向更高级的统计框架，如贝叶斯推断，似然函数仍然是主角。在那里，后验信念是通过将先验信念与似然相结合而形成的（后验 ∝ 似然 × 先验）。似然是代表证据的组成部分，是数据本身的声音。学会构建和求解似然方程，就是学会在数据所讲的语言。

应用与跨学科联系

在熟悉了似然函数的原理之后，我们现在踏上一段旅程，去见证它的实际应用。如果说上一章是学习一门新语言的语法，那么这一章就是品读它的诗歌。似然方程远不止一个枯燥的数学公式；它是一把万能钥匙，一个普适的透镜，让分属于迥然不同领域的科学家们得以窥探世界的复杂性。它是推理数据的通用语言，让我们能够提出复杂的问题，并从往往充满噪声、不完整或极其间接的证据中提取出微妙的答案。从星系的宏大舞蹈到我们自身细胞内的静默演化，似然为发现提供了逻辑引擎。

最佳猜测的艺术：精确定位自然参数

科学的核心往往是对数字的追求——恒星的距离、化学物质的浓度、某个过程的速率。但现实很少将这些数字银盘奉上。我们的测量总是不可避免地被误差和不确定性所模糊。那么，我们如何做出我们可能做出的最佳猜测呢？

想象你是一位试图测量一个星团距离的天文学家。因为星团中的恒星都聚集在一起，它们与我们的距离基本相同。然而，当你测量每颗恒星的视差——即其视位置上揭示距离的微小摆动——时，你对每颗恒星都得到了略有不同的答案。有些测量比其他测量更精确。你该相信哪一个？只是简单地取个平均值吗？最大似然原理给出了一个清晰而优美的答案：星团真实视差的最佳估计是你所有测量的*加权平均值*，其中每个测量的权重是其方差的倒数。换句话说，你对更精确的测量给予更多的信任。这不仅仅是一个直观的想法；似然方程证明了这是从一堆噪声数据中提炼出单一、精确估计的数学最优方法。

现在，让我们把望远镜换成显微镜，进入一个微生物学实验室。一位科学家想知道水样中活菌的浓度。一个一个地数是不可能的。于是，他们采用了一种巧妙的方法，称为稀释系列。他们取原始样本，将其稀释 10 倍，然后是 100 倍、1000 倍，依此类推。从每个稀释液中，他们取少量放入几管营养肉汤中。一天后，他们不计菌落数，只看试管是浑浊（生长阳性）还是澄清（阴性）。最后，他们得到一组计数，比如“在 $10^{-1}$ 稀释度下，3 管中有 3 管呈阳性，在 $10^{-2}$ 稀释度下 3 管中有 1 管，在 $10^{-3}$ 稀释度下 3 管中有 0 管”。从这些粗略的二元数据中，他们怎么可能推断出原始浓度？答案再次是似然方程。通过对过程建模——细菌随机分布到试管中的泊松分布以及生长与否的二项式结果——我们可以为未知浓度 $\lambda$ 写出一个似然函数。使观测到的浑浊和澄清试管模式最可能出现的 $\lambda$ 值就是我们的最佳估计，即“最可能数”（Most Probable Number）。这是一个从离散、间接证据推断连续量的惊人例子。

揭示隐藏结构：表象之下的世界

通常，我们观测到的数据是来自多个潜在来源的混合信号，或者是一个由我们永远无法直接看到的隐藏状态驱动的过程。似然提供了一种强大的方法来“解混”这些信号，并推断隐藏世界的属性。

考虑一个似乎有两个明显聚类的数据集，比如一个你怀疑同时有儿童和成人的房间里人们的身高。这通常用高斯混合模型来建模，其中整体分布是两个或多个钟形曲线的总和。当我们不知道哪个数据点属于哪个组时，我们如何找到每个潜在组的均值和离差？最大化似然提供了一种优雅的迭代解决方案，称为期望最大化（EM）算法。在“期望”步骤中，我们使用当前对组参数的猜测来计算每个数据点属于每个组的概率或“责任”。在“最大化”步骤中，我们通过计算每个组的新均值和离差来更新参数，但现在每个数据点对其所属组的平均值的贡献与其责任成比例。例如，一个组的均值的 MLE 结果是所有数据点的责任加权平均值。这种在分配概率和更新估计之间的优美、自洽的舞蹈，让似然能够梳理出数据内部的隐藏结构。

这个原理延伸到随时间展开、由一系列隐藏状态控制的过程。在一个隐马尔可夫模型（HMM）中，我们可能观察到一个输出序列，但并不知道产生它们的底层状态。这是语音识别（隐藏的音素产生可观察的声音）和计算基因发现（隐藏的状态如‘编码区’或‘内含子’产生可观察的 DNA 序列）背后的数学抽象。观察到特定输出序列的似然是这些模型的基石。正如一个问题所展示的，总似然是从每个可能的隐藏状态开始的似然的优雅线性组合，揭示了一种基本的模块性。通过找到最大化此似然的模型参数，我们可以学习到隐藏过程的“规则”，从语言的句法到基因组的语法。

科学的最高陪审团：权衡证据

除了估计，科学的一个中心任务是在相互竞争的假说之间做出裁决。似然框架为此提供了一种普适且有原则的方法，像一个“最高陪审团”一样权衡数据所呈现的证据。

其最纯粹的形式是似然比检验（LRT）。假设我们有一个原假设——一个关于世界的具体理论，比如一个衰变粒子的寿命服从具有特定速率参数 $\lambda_0$ 的指数分布。我们收集了一些数据。LRT 提供了一个检验我们假设的通用流程：我们计算数据在我们特定假设下的似然，然后将其除以数据在最佳可能参数值下（即 MLE）的似然。这个比率 $\Lambda$ 总是在 0 和 1 之间。如果它接近 1，说明我们的假设解释数据几乎和任何其他替代方案一样好，我们没有理由抛弃它。但如果 $\Lambda$ 非常小，这意味着与另一种解释相比，我们的假设使得数据看起来极不可能。数据在“尖叫”着说我们的理论是错的。LRT 将这种直觉形式化为一个强大、通用的假设检验。

这种逻辑可以扩展到更复杂、更现实的场景中。在遗传学中，我们可能想知道导致某种疾病的基因是否与我们能轻易检测到的遗传标记物理上连锁。证据是复杂的。疾病可能具有不完全外显性，意味着不是每个拥有致病基因的人都会生病。似然函数允许我们建立一个模型，将所有这些不确定性层级都包含进去——基因与标记之间未知的重组率 $r$ ，以及已知的外显率 $\phi$ 。通过最大化这个函数，我们可以找到 $r$ 的最可能值，更重要的是，可以检验连锁假设（ $r 0.5$ ）与无连锁的原假设（ $r=0.5$ ）。

同样，在生态学中，我们可能检验一种新的伪装模式是否有助于猎物在捕食者面前存活更长时间。数据是混乱的：一些猎物模型在特定时间被“捕食”，而对于另一些，实验在任何事情发生前就结束了。后一组是“右删失”的——我们只知道它们存活了至少一定的时间。一个幼稚的分析可能会丢弃这些不完整的数据，但这将是对信息的巨大浪费。然而，似然函数却能优雅地处理它。对于被捕食的动物，它使用在时间 $t$ 发生事件的概率密度；对于幸存者，它使用持续时间超过 $t$ 的生存概率。通过组合这些部分，我们可以为所有数据（完整的和不完整的）构建一个总似然，从而使我们能够估计风险比，并严格检验伪装是否具有保护作用。

重构世界：从图像到祖先

或许，似然最令人惊叹的应用是在那些从零散、间接的测量中重构整个复杂“世界”的算法中。在这里，似然不仅仅是一个估计器，而是创造的引擎。

考虑医学奇迹——正电子发射断层扫描（PET）。患者被给予一种放射性示踪剂，它会积聚在新陈代谢活跃的组织中，如肿瘤。扫描仪不直接拍照。相反，它检测数百万对从正电子湮灭事件中向相反方向飞行的伽马射线。原始数据仅仅是沿着数千条不同“响应线”的计数列表。“图像”是关于示踪剂在身体每个微小体素 $j$ 中分布 $\lambda_j$ 的一个假设。最大似然期望最大化（MLEM）算法从一个图像的猜测开始，并迭代地精细化它。在每一步中，它使用当前图像来预测探测器中的预期计数，然后更新图像，使得在放射性衰变的泊松模型下，实际观测到的计数变得更可能。它实际上是在所有可能图像的广阔空间中攀登山峰，以似然函数为向导，直到达到顶峰——与探测到的光子最一致的图像。

在演化生物学中也发生了同样深刻的重构。我们拥有来自少数现存物种的 DNA 序列。它们是如何相关的？生命之树的分支模式对我们是隐藏的。一个特定的系统发育树是一个假设。对于任何给定的树，凭借其分支模式和分支长度，我们可以使用分子演化模型来计算在树梢观察到现有序列的概率。这个计算涉及对树中所有未观察到的祖先节点处所有可能的序列进行求和——这是一个计算量巨大的任务，但通过巧妙的算法变得可行，而这些算法本身就植根于似然计算的结构中。通过在可能树的广阔空间中搜索使此似然最大化的那棵树，科学家们可以重构连接这些物种的最可能的演化历史。这是一种时间旅行，利用似然来聆听我们深层祖先过去的微弱回响。

更深层次的统一：似然、信息与物理

似然原理的影响如此深远，以至于它将统计推断与信息论和统计物理的基本概念联系起来。一个前沿的例子来自免疫学，关于我们庞大的免疫受体库的研究 [@problem-id:2886857]。V(D)J 重组过程产生了惊人的 T 细胞和 B 细胞受体多样性，我们可以用一个背景概率分布 $P_0$ 来模拟这个“生成”过程。然而，我们在成年人身上观察到的受体库是经过一生选择塑造的——只有那些对抵抗病原体有用的细胞才被鼓励增殖。

我们如何量化那些将初始分布扭曲成我们今天所见分布的“选择力”？最大似然原理，与最大熵原理优美地对偶，提供了答案。对于观测数据 $P(\sigma)$ 的最佳模型，是那个在受限于匹配数据观测统计量（例如，特定氨基酸基序的观测频率）的同时，与原始 $P_0$ “最接近”的模型。解决方案的形式是吉布斯-玻尔兹曼分布，这在统计力学中很常见： $P(\sigma) \propto P_0(\sigma) \exp(\boldsymbol{s} \cdot \boldsymbol{f}(\sigma))$ ，其中 $\boldsymbol{f}(\sigma)$ 是序列的特征， $\boldsymbol{s}$ 是我们想要推断的“选择系数”。结果表明，最大化数据的似然等价于找到使模型的期望特征值与经验值相匹配的选择系数。在最简单的单一特征情况下，推断出的选择强度 $s^{\star}$ 优雅地解析为经验优势比与背景优势比的对数。这揭示了一个深刻的联系：通过最大似然推断选择，类似于测量从先验模型到后验模型所获得的信息，这个概念在热力学和信息论中都有回响。

从一个简单的猜测到一个哲学原理，似然方程的历程证明了一个单一、连贯思想的力量。它是统一的逻辑，让我们能够权衡证据、揭示隐藏的模式、重构世界，将现实中嘈杂、混乱的数据转化为科学的理解。