try ai
科普
编辑
分享
反馈
  • 最大似然估计

最大似然估计

SciencePedia玻尔百科
核心要点
  • 最大似然估计(MLE)是一种为模型寻找参数值的方法,这些参数值能使观测到的数据出现的可能性最大。
  • 最大化似然函数在数学上等同于最小化模型与经验数据分布之间的库尔贝克-莱布勒(KL)散度,从而找到最接近现实的模型近似。
  • 对于大样本,MLE估计量是一致的(收敛于真实参数值)且渐近正态的,这使得计算标准误和置信区间成为可能。
  • MLE是一个基础性工具,被广泛应用于众多科学和技术领域,用以估计物理学、遗传学、神经科学、金融学等领域的模型参数。
  • 该框架可以适用于处理复杂的现实世界情景,例如数据不完整或“删失”的情况(例如低于检测限的测量值)。

引言

我们如何将自然界中嘈杂、分散的观测结果,转化为对产生这些现象的过程的连贯理解?当我们收集数据时——无论是来自科学实验、金融市场还是生物系统——我们都面临着推断的根本挑战:从特定的结果中推导出普遍的规律。最大似然估计(MLE)原则为此问题提供了一个强大而直观的框架,它为我们提供了一种统一的方法来调整理论模型,以最好地解释我们所观测到的现实。

本文对最大似然估计进行了全面的探讨,致力于解决如何以一种有统计学原则的方式为模型选择最佳参数这一核心问题。我们将开启一段始于基本概念、终于实际应用的旅程。在第一章“原理与机制”中,我们将剖析MLE的核心逻辑,探索其与信息论的深层联系,并检验使其如此可靠的优良统计特性。我们也将正视其局限性以及每位实践者都必须了解的实际注意事项。随后的“应用与跨学科联系”章节将展示MLE非凡的通用性,展示其在解读从物理定律、生命密码到复杂的金融市场动态等一切事物中的应用。

原理与机制

我们从自然界得到了一丝讯息——一组观测值,一堆数据点。它可能是一批新生产的电子元件的寿命,一系列抛硬币的结果,或是不同物种的遗传密码。这些数据在向我们诉说,告诉我们一些关于生成它们的潜在过程的信息。但它们说的是一种概率的语言,而我们的工作就是进行翻译。我们如何从我们拥有的特定数据,走向一个我们能使用的普遍规则?我们如何调整我们的世界模型,以最好地解释我们所看到的?这是估计的核心问题,而最大似然原则提供了一个既简洁又深刻的答案。

核心思想:最大化似然

让我们从一个简单的思想实验开始。假设你有一枚硬币,你怀疑它可能不均匀。你不知道得到正面的概率 ppp 是多少。于是你抛了10次,观察到7次正面和3次反面。现在,如果有人强迫你只押一个 ppp 的值,你会选择什么?你会猜 p=0.5p=0.5p=0.5 吗?考虑到你的数据,这似乎不太可能。你会猜 p=0.1p=0.1p=0.1 吗?可能性更小。你的直觉,而且这是一个非常好的直觉,很可能会告诉你最合理的猜测是 p=0.7p=0.7p=0.7。

你的大脑正在做的,也许是在无意识的情况下,是一次初步的最大似然估计。你在问:“哪个 ppp 的值使得我实际看到的结果(7次正面,3次反面)最有可能发生?” 对于一个给定的 ppp,这个特定序列的概率是 p7(1−p)3p^7(1-p)^3p7(1−p)3。最大似然原则告诉我们,应该选择使这个表达式最大化的 ppp 值。一点微积分知识就能表明,最大值确实出现在 p=0.7p=0.7p=0.7。

这就是该方法的精髓。我们写下一个函数,称为​​似然函数​​(likelihood function),L(θ∣data)L(\theta | \text{data})L(θ∣data),它是观测到我们特定数据的概率,并被视为未知参数 θ\thetaθ 的函数。然后我们找到使这个函数最大化的 θ\thetaθ 值。这个值就是我们的​​最大似然估计​​(Maximum Likelihood Estimate, MLE),记作 θ^\hat{\theta}θ^。

让我们把这变得更具体些。想象一位工程师正在测试新电子元件的寿命,已知这些元件的失效遵循指数分布。单个元件寿命 xxx 的概率密度是 f(x;λ)=λexp⁡(−λx)f(x; \lambda) = \lambda \exp(-\lambda x)f(x;λ)=λexp(−λx),其中 λ\lambdaλ 是未知的失效率。如果我们测试了 nnn 个元件并观察到它们的寿命为 x1,x2,…,xnx_1, x_2, \dots, x_nx1​,x2​,…,xn​,我们对 λ\lambdaλ 的最佳猜测是什么?

由于失效是独立事件,看到这组特定寿命的总概率是它们各自概率的乘积:

L(λ)=f(x1;λ)×f(x2;λ)×⋯×f(xn;λ)=∏i=1nλexp⁡(−λxi)=λnexp⁡(−λ∑i=1nxi)L(\lambda) = f(x_1; \lambda) \times f(x_2; \lambda) \times \dots \times f(x_n; \lambda) = \prod_{i=1}^{n} \lambda \exp(-\lambda x_i) = \lambda^n \exp\left(-\lambda \sum_{i=1}^{n} x_i\right)L(λ)=f(x1​;λ)×f(x2​;λ)×⋯×f(xn​;λ)=i=1∏n​λexp(−λxi​)=λnexp(−λi=1∑n​xi​)

这就是我们的似然函数。由于乘积和指数的存在,找到使这个函数最大化的 λ\lambdaλ 看起来有点麻烦。这里,我们使用一个标准的数学技巧:最大化一个正函数等同于最大化它的对数。这将难以处理的乘积变成了易于管理的和。这个新函数称为​​对数似然​​(log-likelihood),ℓ(λ)=ln⁡(L(λ))\ell(\lambda) = \ln(L(\lambda))ℓ(λ)=ln(L(λ))。

ℓ(λ)=nln⁡(λ)−λ∑i=1nxi\ell(\lambda) = n \ln(\lambda) - \lambda \sum_{i=1}^{n} x_iℓ(λ)=nln(λ)−λi=1∑n​xi​

这是一个友好得多的函数!为了找到它的最大值,我们像在微积分中常做的那样:对参数 λ\lambdaλ 求导并令其等于零。

dℓdλ=nλ−∑i=1nxi=0\frac{d\ell}{d\lambda} = \frac{n}{\lambda} - \sum_{i=1}^{n} x_i = 0dλdℓ​=λn​−i=1∑n​xi​=0

解出 λ\lambdaλ 就得到了我们的MLE:

λ^MLE=n∑i=1nxi=1xˉ\hat{\lambda}_{\text{MLE}} = \frac{n}{\sum_{i=1}^{n} x_i} = \frac{1}{\bar{x}}λ^MLE​=∑i=1n​xi​n​=xˉ1​

结果非常直观!失效率的最佳估计是平均失效时间(xˉ\bar{x}xˉ)的倒数。如果元件平均持续时间很长,那么失效率就低,反之亦然。这个原则给我们的答案具有完美的物理意义。同样的处理过程也适用于各种各样的问题,从简单的分布 到更复杂的分布,例如用于模拟激光二极管寿命的伽马分布。

更深层的视角:最小化意外

这仅仅是一个计算配方吗?还是有更深刻的东西在其中?事实证明,确实如此。最大似然估计与信息论中的一个概念——​​库尔贝克-莱布勒(KL)散度​​(Kullback-Leibler (KL) divergence)——紧密相连。

想象你有两个分布。一个是生成你数据的“真实”分布——或者在实践中,是你从数据中构建的*经验分布*(例如,正面概率恰好是观测频率7/10的分布)。另一个是你试图拟合的理论模型(例如,带有某个参数 θ\thetaθ 的伯努利试验)。KL散度本质上衡量了这两个分布之间的“距离”或“意外程度”。它量化了当你使用模型来近似真实数据时所丢失的信息量。KL散度为零意味着你的模型与数据完美匹配。散度越大,拟合效果越差。

美妙之处在于:可以证明,找到​​最大化似然​​的模型参数,在数学上等同于找到​​最小化从经验分布到模型分布的KL散度​​的参数。

让我们停下来体会一下。这重新定义了我们的整个目标。我们不再只是“寻找使数据最可能出现的参数”,我们现在是“寻找使我们的理论模型成为我们所观察到的现实的最接近的近似的参数”。我们试图最小化当我们用模型描述世界时的“意外”。这种联系揭示了MLE不仅仅是一种随意的统计技巧;它是一个关于信息和学习的基本原则。我们正在调整我们模型的旋钮,直到它与数据本身呈现的模式尽可能地对齐。

回报:一个好估计量的性质

我们现在有了一个有原则的方法。但它有效吗?它产生的估计值得我们信赖吗?答案是肯定的,尤其是当我们有相当数量的数据时。MLE拥有几个非常有用的性质,这些都是统计学的定理。

首先,它们是​​一致的​​(consistent)。这是一种专业的说法,意思是如果你给估计量喂入越来越多的数据,估计值保证会收敛到生成数据的参数的真实值。想象一下生物学家试图从DNA序列中重建生命进化树。一致性意味着,随着他们测序越来越多的DNA,他们的最大似然方法识别出正确树形结构的概率会趋近于100%。在无限数据的极限下,MLE能找到真相。

其次,它们是​​渐近正态的​​(asymptotically normal)。这意味着对于大样本,MLE的分布在真实参数值周围近似于一条钟形曲线(正态分布)。这非常有用。它告诉我们,虽然任何来自有限样本的单个估计都会略有偏差,但这些误差会以一种可预测的方式分布。

更妙的是,理论精确地告诉我们这条钟形曲线的宽度如何变化。估计的标准误——衡量其精度的指标——与 1/n1/\sqrt{n}1/n​ 成比例缩小,其中 nnn 是样本量。这是数据收集的一个基本定律。如果你想将不确定性减半(将标准误减少2倍),你需要的不是两倍的数据,而是四倍的数据。要将不确定性减少4倍,你需要16倍的数据。这量化了数据收集的“边际效益递减”,并使我们能够规划实验以达到期望的精度水平。曲线的具体宽度由所谓的​​费雪信息​​(Fisher Information)决定,它衡量单个观测值携带的关于未知参数的信息量。它与似然函数峰值的尖锐程度有关:一个非常尖锐的峰意味着数据信息量很大,我们的估计也会非常精确。这个机制使我们能够为像逻辑回归这样的复杂模型计算置信区间和标准误。

一点现实:复杂性与注意事项

现在,如果将MLE描绘成一种每次都完美有效的神奇万能药,那将是一种误导。现实世界总是比那更有趣。我们刚才讨论的美好性质——一致性和渐近正态性——是渐近的。它们保证的是当样本量 nnn 变得非常大时会发生什么。对于小样本,情况可能会变得有点奇怪。

考虑一个物理学家观察单个稀有粒子衰变的情况。衰变率 λ\lambdaλ 的MLE结果是 1/t11/t_11/t1​,其中 t1t_1t1​ 是单次衰变的时间。这看起来很合理。但是,如果我们计算这个估计量在多次假设性的单粒子实验中的*期望*(或平均)值,我们会发现它的期望值是无穷大!这意味着这个估计量有无限的​​偏差​​(bias)——平均而言,它不仅是错误的,而且与真实值相差无限远。这是一个惊人的结果!它有力地提醒我们,一个对大样本来说极好的估计量,对于小样本可能会有非常奇怪的行为。

此外,找到似然函数最大值的过程并不总是那么直接。对于我们简单的指数例子,我们可以用笔和纸解出 λ^\hat{\lambda}λ^。这被称为​​闭式解​​(closed-form solution)。但对于许多重要的模型,比如在从医学到金融等无数领域使用的逻辑回归,这是不可能的。当我们把对数似然的导数设为零时,我们最终得到一个无法代数求解的非线性方程组。取而代之的是,我们必须使用计算机,通过迭代的数值方法来找到“似然山”的顶峰,就像一个蒙着眼睛的登山者,朝着最陡峭的上坡方向迈步,直到再也无法升高为止。

有时,“似然山”甚至没有顶峰!考虑一个例子,你试图根据一个“威胁分数”来预测一个软件是否是恶意的。如果结果发现所有恶意程序的得分都高于4.0,而所有干净的程序的得分都低于4.0,那么数据就是“完全分离”的。逻辑回归模型会变得无限自信。它发现可以通过将其参数推向无穷大来使似然函数越来越大,实质上是在分离点画出一条无限陡峭的预测曲线。在这种情况下,有限的MLE根本不存在。计算机的迭代算法将无法收敛,这是一个信号,表明我们的模型和数据之间存在问题。

这些注意事项并没有削弱最大似然估计的力量,反而丰富了我们对它的理解。它们教导我们,它是一个强大的工具,但终究是一个工具,需要用智慧和批判的眼光来使用。它为从数据中学习提供了一个统一、直观且有深刻原则的框架,引导我们从观测的零散讯息走向对世界潜在机制更清晰的理解。

应用与跨学科联系

现在我们已经掌握了最大似然估计的原理,我们可能会问:“它有什么用?”这是一个合理的问题。一个原则,无论多么优雅,都要通过它在世界上的作用来证明其价值。在这里,我们将看到MLE是科学家工具箱中最强大和通用的工具之一。它不仅仅是一个统计程序;它是一种将理论模型与实验数据连接起来的通用语言。它的应用范围从原子间微乎其微的力,延伸到经济和生态系统的宏大模式。

让我们踏上一场穿越各学科的旅程,观察MLE的实际应用。我们将看到这同一个原则如何让我们解码神经元的喋喋不休,描绘我们自己DNA的结构,甚至在看似混乱的股票市场中找到秩序。

物理学家的透镜:从力到动力学

物理学是测量的科学,而每一次测量都被某种程度的不确定性或“噪声”所笼罩。想象你是一位使用原子力显微镜(AFM)的物理学家,这是一种灵敏到可以感知单个分子推拉的仪器。你的目标是测量一个恒定的、微小的力 fff。然而,仪器并不直接输出力;它给你一个电压 yyy,这个电压与力成正比。这种比例关系由一个校准因子 ccc 控制。但麻烦就从这里开始。电压读数是抖动的,被热噪声所干扰。更糟糕的是,你对校准因子 ccc 的了解本身也是不确定的,它来自另一个充满噪声的测量。

你如何能从这一团糟的数据中推断出真实的力 fff 呢?你有两个噪声源需要应对。这正是MLE优雅之处的体现。我们构建一个似然函数,它同时考虑了电压读数上的高斯噪声和校准因子中的高斯不确定性。通过询问真实力 fff 和校准因子 ccc 的什么值使我们的观测最有可能发生,我们得出了一个惊人简单的结果。力的最大似然估计结果是平均测量电压除以测量的校准常数:f^=yˉ/z\hat{f} = \bar{y}/zf^​=yˉ​/z。这个原则严谨地证实了我们的直觉,并在恰当地权衡了所有信息来源后,提供了最可能的力值。

从静态力,我们可以转向动力学——分子随时间的舞蹈。在计算化学中,我们模拟蛋白质的复杂折叠或药物与其靶点的结合。这些模拟产生了巨大的原子坐标轨迹。为了理解这些,我们可以将系统粗粒化为几个有意义的状态(例如,“未折叠”、“部分折叠”、“折叠”)。然后,我们将系统在这些状态之间的跳跃建模为一个马尔可夫链。这场舞蹈的“规则”被一个转移矩阵 TTT 捕捉,其中每个元素 TijT_{ij}Tij​ 是在小时间步内从状态 iii 跳到状态 jjj 的概率。

我们如何从模拟中学习这些概率?我们只需计算观察到每种跃迁的次数,记为 CijC_{ij}Cij​。然后,我们应用MLE。得到的转移概率估计量恰好是你的直觉所暗示的:观察到的从 iii 到 jjj 的跃迁次数,除以系统处于状态 iii 的总次数。即 T^ij=Cij/∑kCik\hat{T}_{ij} = C_{ij} / \sum_k C_{ik}T^ij​=Cij​/∑k​Cik​。MLE为这个直观的比率提供了形式化的证明,证明它确实是最可能产生我们所观察到的分子构型轨迹的比率。

生物学家的工具箱:解码生命密码

当转向生命世界时,MLE的逻辑同样强大。考虑遗传学的基础过程:重组。当亲本传递其基因时,染色体可以“交换”,从而洗牌遗传牌组。两个特定基因之间发生交换的概率称为重组率 rrr。为了估计它,遗传学家进行一次测交,并计算具有亲本基因组合的后代数量(nPn_{\mathrm{P}}nP​)与重组组合的后代数量(nRn_{\mathrm{R}}nR​)。

观察到这些计数的似然是 rrr 的一个简单二项函数。最大化它得到的估计量再次美妙地直观:重组率的最佳估计就是观察到的重组后代的比例,r^=nR/(nP+nR)\hat{r} = n_{\mathrm{R}} / (n_{\mathrm{P}} + n_{\mathrm{R}})r^=nR​/(nP​+nR​)。该方法甚至能优雅地处理 rrr 不能超过0.5的生物学约束(这表示基因是独立分配的)。

让我们从单个基因扩展到大脑。一个神经元通过发放电“脉冲”(即动作电位)来通信。这些脉冲之间的时间间隔可以告诉我们很多关于神经元状态的信息。一个简单而强大的模型将这些脉冲间期视为来自指数分布的随机抽样,该分布由单个参数 λ\lambdaλ(神经元的平均发放率)表征。给定一串记录到的脉冲,我们对 λ\lambdaλ 的最佳猜测是什么?MLE给出了答案:估计的发放率 λ^\hat{\lambda}λ^ 就是脉冲间平均时间的倒数,λ^=1/tˉ\hat{\lambda} = 1/\bar{t}λ^=1/tˉ。这个优雅的结果构成了计算神经科学分析的基石之一。

现代生物学日益成为一门大数据的科学,而MLE不可或缺。例如,在“混合测序”(pooled sequencing)中,我们可能一次性对来自数千个个体的混合DNA进行测序,以廉价地估计群体中某个特定等位基因的频率 ppp。但我们的测序机器并非完美;它们以已知的概率 ϵ\epsilonϵ 出错。一个真正的“A”可能被误读为“G”,反之亦然。MLE允许我们建立一个明确包含这个错误过程的模型。最终得到的真实等位基因频率的估计量是对朴素的观测频率的修正,在数学上“撤销”了机器错误引入的偏差。公式 p^=((nA/N)−ϵ)/(1−2ϵ)\hat{p} = ((n_A/N) - \epsilon) / (1 - 2\epsilon)p^​=((nA​/N)−ϵ)/(1−2ϵ) 精确地显示了如何调整原始数据,以找到隐藏在噪声之下的最可能的真相。

也许最激动人心的前沿之一是理解基因组的三维结构。我们的DNA不仅仅是一条线性链条;它在细胞核内被精心折叠。像Hi-C这样的技术测量基因组不同部分物理上紧密接触的频率。一个关键发现是,两个DNA片段之间的接触概率 P(s)P(s)P(s) 随着它们沿染色体的线性距离 sss 的增加而呈幂律衰减:P(s)∝s−αP(s) \propto s^{-\alpha}P(s)∝s−α。指数 α\alphaα 是描述染色体折叠物理学的一个关键参数。通过将接触计数建模为泊松过程并使用MLE(通常借助一种称为剖面似然的技巧来处理讨厌的参数),我们可以从实验数据中估计 α\alphaα。这使我们能够将庞大的计数数据表转化为一个单一的、具有物理意义的数字,来表征基因组的结构。

复杂系统中的普适模式

MLE的影响力超越了物理学和生物学,延伸到任何研究具有统计规律性的复杂系统的领域。自然界中的许多现象,从地震的规模到个人的财富,都遵循幂律分布。同样的模式也出现在像互联网或蛋白质相互作用网络这样的“无标度”网络的度分布中。这些分布的形式为 p(k)∝k−γp(k) \propto k^{-\gamma}p(k)∝k−γ,其中 γ\gammaγ 是关键指数。

正确估计 γ\gammaγ 至关重要。MLE提供了最准确和最稳健的方法。对于一组高于某个阈值 kmink_{\text{min}}kmin​ 的观测数据点 {ki}\{k_i\}{ki​},指数的最大似然估计量由Hill估计量给出:γ^=1+n/∑i=1nln⁡(ki/kmin)\hat{\gamma} = 1 + n / \sum_{i=1}^{n} \ln(k_i / k_{\text{min}})γ^​=1+n/∑i=1n​ln(ki​/kmin​)。这个公式并非凭空捏造;它直接来自于在幂律假设下最大化观测到我们数据的似然。这使我们能够为这些复杂系统的结构赋予一个精确的数值。此外,先进技术将MLE与拟合优度检验相结合,以同时确定最可能的指数和幂律开始的阈值 kmink_{\text{min}}kmin​,这是进行严谨科学论断的关键一步。

即使是看似不可预测的金融世界也屈服于这种方法。彻底改变了金融工程的著名Black-Scholes模型,假设股票价格遵循一种称为几何布朗运动的过程。这个过程由两个关键参数描述:代表股票平均长期趋势的漂移 μ\muμ,和代表其随机波动幅度的波动率 σ\sigmaσ。给定一支股票的价格历史,我们可以对其对数回报率序列使用MLE,以找到最可能产生该历史的 μ\muμ 和 σ\sigmaσ 值。这为量化金融资产的风险和回报特征提供了一种有原则的方法,这是现代经济学的核心任务之一。

拥抱不完美:处理缺失数据

最后,MLE一个真正非凡的特点是它能够处理不完整或“删失”的数据。在分析化学中,我们可能使用仪器测量污染物的浓度。但仪器有检测限;如果浓度太低,它只会报告“低于检测限”。天真的分析可能会丢弃这些数据点,或给它们赋一个任意值,如零或检测限的一半。这两种做法都是错误的。

MLE提供了一个更为优雅的解决方案。“低于检测限”的读数并非没有答案;它是一条信息。它告诉我们,真实值,无论它是什么,都落在一个特定的范围内。我们可以将这个信息直接整合到我们的似然函数中。该函数将有一部分用于精确测量的值,另一部分用于删失的值,代表测量值低于检测限的概率。通过最大化这个组合的似然函数,我们可以提取出对测量真实潜在变异性更准确的估计。这反过来又使得对方法真实检测限的计算更加诚实和统计上稳健,而检测限是环境科学和公共卫生中的一个关键参数。

从原子到经济,从完整数据到删失数据,最大似然估计原则提供了一个统一而强大的框架。它证明了这样一个理念:在世界嘈杂、复杂的表象之下,常常隐藏着更简单的真理。MLE为我们提供了一种有原则且出人意料地直观的方式来猜测它们是什么。