最大似然估计

玻尔百科

定义

最大似然估计是一种统计学框架，通过寻找能够使观测数据出现概率最大化的值，来确定最合理的模型参数。该过程涉及选择概率模型并优化似然函数，似然函数峰值的曲率可用于衡量参数估计的精确度。作为遗传学、金融学和人工智能等领域的基石，最大似然估计为从简单拟合到鲁棒估计的各类任务提供了灵活且原则性的方法。

核心要点

最大似然估计（MLE）通过找到使观测到实际数据的概率最大化的值，来确定最合理的模型参数。
MLE 过程是一个通用框架：选择一个概率模型，为数据写出似然函数，然后找到使该函数最大化的参数。
似然函数在其峰值附近的曲率提供了参数不确定性的度量，更尖锐的峰值表示更精确的估计。
通过允许对数据生成（例如，噪声模型）做出不同的假设，MLE 为从简单拟合到稳健估计等任务提供了一个灵活且有原则的框架。
MLE 作为一个基础概念，具有广泛的跨学科应用，连接了遗传学、金融学、化学和现代人工智能等领域。

引言

我们如何从一个充满噪声和不完整观测的世界中提炼出真理？这个基本问题是科学探索的核心。从推断一枚硬币的偏倚到为复杂的股票市场动态建模，我们不断地寻找支配着我们周围世界的隐藏参数。最大似然估计（MLE）为这一挑战提供了一个强大而统一的答案，它是现代统计学和数据科学的基石。它提供了一个单一、直观的原则，用于从系统产生的数据中估计该系统的属性。本文旨在揭开这一基本方法的神秘面纱，探讨其优雅的概念基础和广泛的实际效用。

本次探索分为两个主要章节。在“原理与机制”中，我们将深入探讨 MLE 的核心思想，从为我们的数据寻找“最可能的原因”这一简单直觉入手。我们将揭示使这一原则能够应用于从简单计算到需要数值优化和著名的期望最大化（EM）算法的复杂模型的通用机制。我们还将看到似然框架如何为量化我们估计中的不确定性提供一种自然的方式。之后，“应用与跨学科联系”一章将带领我们游览各个科学领域。我们将见证 MLE 如何为遗传学家、金融分析师、化学家和生态学家提供一种通用语言，以及其原理如何构成现代机器学习和人工智能的基石。

原理与机制

最可能原因原则

想象一下，你在街上发现了一枚硬币。你直觉它可能不均匀，于是你抛了 $N=100$ 次，观察到 $k=60$ 次正面。对于这枚硬币固有的正面朝上概率，我们称之为参数 $\epsilon$ ，最合理的猜测是什么？如果你和大多数人一样，你的直觉会告诉你：“很可能是 $\frac{60}{100}$ ，即 $0.6$ ！” 事实证明，这种直觉正是现代科学中所有强大而统一的思想之一的核心：最大似然估计（MLE）。

其核心思想惊人地简单。我们不去问一个哲学上既深刻又模糊的问题：“参数取某个特定值的概率是多少？”，而是问一个具体得多的问题：“假设参数取某个特定值，我们观测到刚刚收集到的确切数据的概率是多少？”这个概率，当被看作是参数的函数时，就是我们所说的似然函数。

让我们把这个概念具体化。对于我们的硬币，如果正面朝上的真实概率是 $\epsilon$ ，那么得到一个包含60次正面和40次反面的特定序列的概率是 $\epsilon^{60}(1-\epsilon)^{40}$ 。实际上，这样的序列有很多，共有 $\binom{100}{60}$ 种。因此，得到恰好60次正面的概率是 $P(\text{data} | \epsilon) = \binom{100}{60} \epsilon^{60} (1-\epsilon)^{40}$ 。这就是我们的似然函数 $L(\epsilon)$ 。

最大似然原则随之指出： $\epsilon$ 的最佳估计值是使我们观测到的数据最有可能发生的那个值。我们只需找到使 $L(\epsilon)$ 最大化的 $\epsilon$ 值。为了简化数学计算，我们几乎总是使用似然函数的自然对数，称为对数似然， $\ell(\epsilon) = \ln L(\epsilon)$ 。由于对数是严格递增函数，最大化 $\ell(\epsilon)$ 与最大化 $L(\epsilon)$ 是等价的。

对于我们的抛硬币场景，对数似然是：

\ell(\epsilon) = \ln\binom{100}{60} + 60\ln(\epsilon) + 40\ln(1-\epsilon)

为了找到最大值，我们采用微积分中一贯的做法：对 $\epsilon$ 求导并令其为零。

\frac{d\ell}{d\epsilon} = \frac{60}{\epsilon} - \frac{40}{1-\epsilon} = 0

解这个小方程得到 $\hat{\epsilon} = \frac{60}{100} = 0.6$ 。我们的直觉一直都是对的！最大似然估计值就是观测到的频率。这个估计值与样本统计量相匹配的美妙结果并非巧合。对于许多简单模型，比如估计正态分布的均值或指数过程的速率，MLE 结果就是我们熟悉的样本平均值。例如，在使用伽马分布为激光二极管的寿命建模时，最可能的速率参数 $\hat{\beta}$ 与被测二极管平均寿命的倒数成正比。该原则为我们通常认为是常识的东西提供了形式化的论证。

通用的拟合机制

MLE 的真正力量在于，这个简单的“写下似然函数并最大化它”的方案是解决极其广泛问题类别的通用方法。数据是离散计数、连续测量还是来自复杂过程的寿命，都无关紧要。其流程总是一样的：

选择一个模型：这是最具创造性的一步。你写下一个概率故事，一个生成模型，来描述你的数据是如何产生的。这个故事里有未知的角色，即参数 $\theta = (\theta_1, \theta_2, \dots)$ 。
写出似然函数：针对你具体观测到的数据，写出看到这些数据作为参数 $\theta$ 的函数的联合概率。这就是 $L(\theta) = P(\text{data} | \theta)$ 。
最大化：找到使（对数）似然函数最大化的参数值 $\hat{\theta}$ 。

在简单情况下，我们可以用纸笔解出 $\hat{\theta}$ 。但当我们无法做到时会发生什么呢？考虑逻辑斯蒂回归，这是机器学习和统计学中用于从一组特征预测二元结果（如通过/失败或生病/健康）的主力模型。该模型非常简洁，但当我们写下对数似然函数并将其导数设为零时，会得到一个非线性方程组。这里没有像线性回归中那样的优雅闭式解，如 $\hat{\theta} = (X^T X)^{-1}X^T y$ 。

这是否意味着该原则失败了？完全不是！这只说明我们无法直接走到似然函数这座“山”的顶峰。相反，我们必须聘请一个向导——数值优化算法。这些算法，如牛顿法或梯度下降法，是计算上的“爬山者”。它们从参数的某个初始猜测开始，在似然曲面上采取一系列智能的上坡步骤，直到无法再升高为止。对于更复杂的模型，比如将多参数的威布尔分布拟合到失效时间数据，这种数值方法不是例外，而是常规。原则告诉我们去哪里（峰顶）；计算机帮助我们到达那里。

MLE 的优雅之处在于，即使我们故事的某些部分是隐藏的，它仍然有效。想象一下，我们是遗传学家，试图寻找一个数量性状位点（QTL）——一个影响可测量性状（如身高或作物产量）的基因。我们可以测量性状，也可以对附近的一些遗传标记进行基因分型，但我们无法看到 QTL 本身的确切基因型。它是一个潜在变量，或缺失数据。试图只为我们看到的数据写一个似然函数会变得一团糟。

在这里，似然原则催生了一种称为期望最大化（EM）算法的迭代过程。这是统计推理的一项奇迹：

E-步（期望）：我们采用当前对模型参数的最佳猜测。然后我们问：“给定这些参数和我们确实拥有的数据，缺失数据的每种可能值的概率是多少？”我们实际上是用一种软性的、概率性的赋值来“填补”缺失的基因型，而不是用单一的猜测。
M-步（最大化）：现在我们有了一个“完整”的数据集（缺失部分由我们的期望填补），我们执行一个简单的 MLE 计算来更新我们的参数估计。
我们重复这个两步过程。每个循环都保证在似然函数的山峰上爬得更高，最终收敛到一个峰值。EM 算法通过将一个带有缺失数据的难题分解为一系列更简单的、数据完整的问题来解决它。

似然的形状：不确定性的样貌

找到最佳拟合参数 $\hat{\theta}$ 只是第一步。一个真正的科学家总会问：“我对这个估计有多确定？” 似然框架的美妙之处在于，答案就在我们眼前，编码在似然函数峰值附近的形状之中。

把对数似然函数想象成一座山。一个尖锐的峰顶意味着即使稍微偏离最大估计值 $\hat{\theta}$ ，似然值也会急剧下降。这表明数据强烈支持这个特定的参数值。我们的估计是精确的；我们的不确定性很低。相反，一个宽阔平坦的峰顶意味着我们可以远离最大值很远而似然值不会有太大损失。数据与广泛的参数值范围都是一致的。我们的估计是不精确的；我们的不确定性很高。

这种曲率的概念由费雪信息矩阵来形式化，它本质上是对数似然函数在其峰值处的二阶导数（海森矩阵）的负值。作为统计学基石的克拉默-拉奥定理告诉我们一个深刻的道理：任何无偏[估计量的方差](@entry_id:200758)永远不能小于费雪信息的倒数。换句话说，似然函数山峰的曲率为我们能知道多少信息设定了一个基本限制。对于性质良好的问题，MLE 的方差会渐近地达到这个极限，使其具有渐近有效性。它从数据中榨取了每一滴信息。对于我们简单的抛硬币案例，这个机制告诉我们估计的方差是 $\mathrm{Var}(\hat{\epsilon}) = \frac{\epsilon(1-\epsilon)}{N}$ ，这是一个熟悉且令人安心的结果。

当我们遇到复杂模型时，这种几何观点变得异常强大。在从系统生物学到理论化学的许多领域中，我们构建的模型都包含许多参数。我们常常发现数据无法唯一确定所有这些参数。这被称为不可辨识性。在似然函数的景观中，这表现为长而平坦的山脊或山谷，而不是单一的山峰。例如，在拟合 Lennard-Jones 势的参数时，如果我们的实验只测量了长距离下的相互作用，我们可以很好地确定组合 $C = 4\epsilon\sigma^6$ ，但我们无法将势阱深度 $\epsilon$ 与距离参数 $\sigma$ 分开。无数对参数可以产生相同的拟合效果，形成一个高似然值的山脊。任何试图单独估计 $\epsilon$ 的尝试都会导致巨大的不确定性，这反映在一个平坦的剖面似然中。

这种现象通常被称为邋遢性 (sloppiness)，在复杂系统中普遍存在。这些模型的费雪信息矩阵的特征值通常跨越多个数量级。这对应于一个像超维薄饼一样的似然曲面：在少数几个“刚性”方向上曲率极大，但在许多“邋遢”方向上几乎完全平坦。这看起来像是一场灾难——我们的大多数参数都毫无约束！但这里蕴含着一个美丽而微妙的洞见。即使单个参数是邋遢的，模型仍然可以具有强大的预测能力。当我们在乎的预测只依赖于那些刚性的、被良好确定的参数组合时，这种情况就会发生。我们可能不知道机器中任何一个螺丝的数值，但如果我们的问题只关心机器的整体输出，并且该输出由那些运转良好的部件控制，我们仍然可以得到一个非常精确的答案。

一切在于你讲述的故事

整个最大似然框架建立在你最初选择的概率模型之上——也就是你讲述的关于数据如何生成的故事。这包括噪声模型。最常见的选择是假设误差是高斯分布的。在这种情况下，最大化似然在数学上等同于最小化误差平方和，即我们熟悉的最小二乘法。

但是，如果你的数据被离群值污染了——即那些与模式不符的极端不正确测量值，该怎么办？在高斯噪声模型下，MLE 会尽力去容纳这些离群值，这可能会严重扭曲结果。单个离群值的影响是无界的。然而，似然框架为我们提供了一条出路。我们可以改变我们的故事。我们可以不假设高斯噪声，而是假设一个具有更重尾部的噪声分布，比如学生 t 分布。

当我们为学生 t 噪声模型写下似然函数并找到 MLE 时，我们会发现一个非凡的现象。得到的估计量是稳健的。具有大误差的观测值的影响被自动降低了。极端的离群值几乎被完全忽略。通过为噪声选择一个更现实的模型，我们构建了一个更稳健的估计过程。似然原则为我们提供了系统地做到这一点的语言和机制。

这把我们引向了最后一个统一的观点。在机器学习世界中，人们常说要选择一个模型和一个要最小化的“损失函数”。分类问题的一个常见选择是负对数损失。事实证明，最小化这个损失在数学上完全等同于在像逻辑斯蒂回归这样的条件概率模型上执行最大似然估计。这两个用不同语言发展的领域，从不同侧面发现了同一座山峰。

这揭示了似然方法的最终效用。它不仅仅是给我们一个单一的最佳拟合参数，而是给我们一个完整的概率模型。它不仅提供一个预测，还提供了对该预测的置信度度量。在任何现实世界的决策中，从医疗诊断到金融，理解概率就是一切。似然框架提供了一种有原则、灵活且极为直观的方法，不仅可以估计“是什么”，还可以估计“可能是什么”。

应用与跨学科联系

既然我们已经熟悉了最大似然的机制，让我们漫步于宏伟的科学博物馆，看看这个卓越的思想在何处留下了它的印记。你可能会感到惊讶。就像一根金线，最大似然原则贯穿了那些表面上看起来毫无关联的学科。它出现在生物学家的实验室、金融家的模型、化学家的烧杯，甚至人工智能发光的核心中。它的无处不在证明了其力量，证明了“让数据尽可能大声地为自己说话”这一简单而优雅的指令，是理解世界的一个普遍而深刻的指南。

自然学家与金融家：计数和测量世界

我们从科学中最基本的行为之一：计数开始。想象一位研究染色体异常的遗传学家。减数分裂中的一个特定错误，称为不分离，可能导致配子染色体数目错误。生物学家想知道：这种错误发生的潜在概率 $p$ 是多少？他们收集了数千个配子并对每一个进行测试，计算出“非整倍体”（异常）细胞的数量。

$p$ 的最佳猜测是什么？它应该是其观测值的复杂函数吗？最大似然给出了一个既深刻简单又令人满意的答案。它告诉我们， $p$ 的最可能值就是我们在样本中观察到的比例。如果 10000 个配子中有 147 个是异常的，那么我们对潜在概率的最佳估计就是 $\hat{p} = \frac{147}{10000} = 0.0147$ 。似然原则直接引导我们得出最直观的答案！这感觉像是常识，但它是一个严谨数学原则的结果。这是对数据告诉我们什么的最诚实的报告。

现在，让我们从细胞的微观世界跳到混乱的金融世界。股票价格似乎在随机波动，但金融分析师相信这种疯狂背后有其结构。一个广泛使用的模型，几何布朗运动，将价格变动描述为两个因素的组合：一个稳定的“漂移”（ $\mu$ ），代表平均回报；和一个“波动率”（ $\sigma$ ），代表随机波动的幅度。我们如何能从一系列收盘价中估计这些隐藏的参数呢？

这个问题似乎难以解决。但通过一个巧妙的数学技巧——物理学许多领域也使用同样的技巧——我们可以观察价格的对数。事实证明，对数价格的变化是正态分布的，就像人群的身高一样。突然间，我们回到了熟悉的领域。我们观测到的价格历史的似然是一个我们可以写出的函数，通过找到使该函数最大化的 $\mu$ 和 $\sigma$ 值，我们可以从股票看似不稳定的行为中提取出其隐藏的“个性”。最大似然为我们在混乱中寻找秩序提供了一把放大镜。

化学家的食谱与物理学家的光谱

科学往往是确定性理论与充满噪声的数据之间的对话。一位化学家可能有一套描述化学反应中反应物和产物浓度随时间变化的优美微分方程。但当他们进行实验时，测量结果从来都不是完美的。总会有一些测量误差。他们如何找到最能描述潜在过程的反应速率（即方程中的参数 $\theta$ ）呢？

这里出现了另一个美丽的统一。如果我们假设测量误差是随机的，并遵循熟悉的钟形高斯曲线，一件奇妙的事情发生了。最大化观测数据的似然被证明与另一个著名的方法——最小化误差平方和，或“最小二乘法”——完全等价。在给定数据的情况下，“最可能”的化学反应路径是那条尽可能靠近所有测量点的路径。这将抽象的似然原则与寻找“最佳拟合”曲线的直观几何思想联系起来，后者几个世纪以来一直是科学和工程的支柱。

但如果噪声不是高斯分布呢？最大似然原则毫不动摇。它只是问：“好吧，那噪声的性质是什么？”考虑一位材料科学家使用 X 射线光谱法来确定样品的元素组成。光谱仪计算在不同能量通道中到达的 X 射线光子数量。这是一个计数过程，就像用桶接雨滴一样。这里的随机性不是高斯噪声的钟形曲线，而是泊松分布的独特统计模式。

为了找到真实的谱图——它可能是几个元素峰叠加在一个背景信号之上——科学家再次写下似然函数。但这一次，它是基于泊松概率定律构建的。原则保持不变：找到使观测到的计数最有可能发生的峰形和峰高。这种灵活性是 MLE 的一个标志。它不是一个单一的食谱；它是一个为你的测量特定性质创造正确食谱的大师原则。

模型的议会：选择最佳理论

到目前为止，我们已经使用似然来估计给定模型内的参数。但科学的一个重要部分是在相互竞争的模型之间做出选择。理论 A 比理论 B 更好吗？最大似然为这场宏大的辩论提供了强大的工具。

想象一位流行病学家正在研究某个事件随时间发生的风险，比如疾病的发作。他们有一个基线模型，但他们想知道一个新因素，比如说一个特定的遗传标记，是否增加了任何真正的预测能力。他们可以对数据拟合两个模型：一个不含该标记的“简化”模型，和一个包含该标记的“完整”模型。两个模型都将有关联的最大似然值。完整模型因为更复杂，几乎总能稍微更好地拟合数据，获得更高的似然值。但它是否显著更好？

似然比检验为我们提供了一种形式化的回答方式。通过观察两个似然的比率（或者更容易地，它们的对数似然之差），我们可以计算一个检验统计量。令人惊讶的是，最大似然理论告诉我们，这个统计量遵循一个通用分布（卡方分布），使我们能够确定拟合的改进是否超出了偶然的预期。这是一种有原则的方式来问：“这个新参数是否物有所值？”

另一种不同且或许更微妙的方法来自信息论领域，它在生态学等领域找到了深刻的共鸣。当生态学家研究森林中物种丰度的分布时，他们有几个相互竞争的数学模型（对数级数、对数正态等），每个模型代表一种不同的生态理论。他们可以不宣布一个模型为“赢家”，其他模型为“输家”，而是使用像赤池信息准则（AIC）这样基于似然的度量。

AIC 取最大化的对数似然，并对模型中的参数数量施加惩罚。它形式化了奥卡姆剃刀原理：模型应尽可能简单，但不能更简单。具有最佳 AIC 分数的模型代表了拟合度和复杂性之间的最佳权衡。更美妙的是，我们可以使用这些分数来计算每个模型的“赤池权重”，这可以解释为每个模型是该集合中最佳模型的概率。这将模型选择从一场决斗转变为一场更细致的讨论，承认多种理论可能都有其价值，并允许我们权衡每种理论的证据。

窥视幕后：揭示不可见之物

一些科学中最强大的模型涉及我们永远无法直接观察的变量——它们是“潜在的”或隐藏的。想想跟踪一颗在轨卫星的真实位置。我们看不到它的实际位置（ $x_k$ ）；我们只能看到充满噪声的雷达或 GPS 测量值（ $y_k$ ）。状态本身是隐藏的。我们如何可能估计其运动的参数，比如随机大气阻力的强度（过程噪声， $Q$ ）或我们雷达的精度（测量噪声， $R$ ）？

这是状态空间模型和著名的卡尔曼滤波器的领域。而这些模型参数估计的核心，正是最大似然的一个壮观应用。该方法被称为“预测误差分解”。卡尔曼滤波器在每个时间点，根据所有过去的测量，对下一个测量值做出预测。然后它将这个预测与实际到达的测量值进行比较。差异就是“新息”或预测误差。

奇妙之处在于：如果模型参数（ $Q$ 和 $R$ ）是正确的，这个新息序列应该是完全随机和不可预测的。通过写下所有这些新息的联合似然，我们得到了观测数据的总似然。然后我们可以调整 $Q$ 和 $R$ 直到这个似然最大化——也就是说，直到新息尽可能小且尽可能随机。这是一个极其优美的思想：我们调整隐藏世界的模型，直到可观察的世界变得最大程度地不足为奇。

新前沿：人工智能与大数据时代的似然

这个诞生于计算尺时代的古老思想，在深度学习和人工智能的时代是否仍有一席之地？绝对有。它比以往任何时候都更具现实意义。

当你听说一个神经网络通过最小化“损失函数”进行“训练”时，你常常见证的是伪装下的最大似然估计。对于大量的问题，损失函数就是训练数据的负对数似然。网络调整其数百万个内部权重，以使其所见的数据尽可能地可能发生。这一认识揭开了现代人工智能的许多神秘面纱，将其与一个清晰的、有百年历史的统计原则联系起来。这个框架还允许我们超越仅仅做出预测。通过让神经网络预测一个概率分布的参数（如高斯分布的均值 $\mu$ 和标准差 $\sigma$ ，甚至是更稳健的学生 t 分布的参数），我们可以构建不仅能给出答案，还能量化其自身不确定性的人工智能——这是迈向可信赖人工智能的关键一步。

这个故事在统计学的最前沿达到了高潮，例如目标最大似然估计（TMLE）等方法。想象一下，试图从公民科学数据中估计物种的流行率。数据是混乱的；一些地点被访问的次数比其他地点多，而专家观鸟者比新手更有可能提交清单。这造成了偏差。TMLE 是一种革命性的“两阶段”方法。首先，它利用灵活的机器学习算法的原始力量，对数据中的关系得到一个良好的初始估计。然后，在第二个精细的步骤中，它使用一个有针对性的、基于似然的更新来消除任何残余偏差，从而创建一个具有卓越稳健性和效率特性的估计量。它是一种将现代算法的强大能力与经典似然理论的有原则的精确性相结合的混合体。

从一次简单的抛硬币到指导我们数字世界的算法，最大似然原则提供了一种一致而统一的语言。它是一种倾听数据的工具，一种裁决对立理论的工具，一种窥探不可见事物的工具，以及一种构建智能系统的工具。它是科学中最美丽、最通用的思想之一。