似然函数

玻尔百科

定义

似然函数是统计学中用于根据已观测到的固定数据来评估模型不同参数值合理性的函数。该函数是极大似然估计（MLE）的核心，通过寻找使似然函数最大化的参数值来确定最可能的模型参数。似然函数为跨学科领域的参数估计、假设检验以及不完整数据处理提供了一个统一的理论框架。

核心要点

似然函数基于已观测到的固定数据，评估模型不同参数值的合理性。
最大似然估计（MLE）通过寻找使似然函数最大化的值来确定最合理的参数。
似然原理主张，实验的所有证据意义都包含在似然函数中，与实验设计的停止规则无关。
似然函数为跨不同科学领域的参数估计、假设检验和处理不完整数据提供了一个统一的框架。

引言

科学家是如何从零散的真实世界观测走向关于宇宙的基本真理的？从少数几个病人的治疗结果，到对一种药物疗效的估计？这个推断过程——即从数据中学习世界底层机制的过程——是科学的引擎。而在这个引擎的核心，是一个强大而优雅的概念：似然函数。它提供了一个严谨的框架来提问：“鉴于我所看到的证据，最合理的解释是什么？”本文旨在解决一个根本性挑战：颠倒概率的逻辑，从结果推断原因。

我们将踏上一段理解这一关键思想的旅程。在第一章“原理与机制”中，我们将探索核心概念，将视角从概率转向似然，学习如何使用最大似然估计（MLE）找到“最可能”的参数，并领会似然原理这一深刻的哲学指导。随后，“应用与跨学科联系”一章将带我们游历多个科学学科——从遗传学、流行病学到演化生物学——见证这同一个思想如何为我们提供一种通用语言，来解读数据、权衡证据和重构历史。

原理与机制

想象你是一位在犯罪现场的侦探。你发现了一个脚印。你不知道是谁留下的，但你有一排嫌疑人，他们各自穿着不同尺寸的鞋子。你的任务不是计算一个随机的人会留下这样一个脚印的概率。你的任务是利用证据——这个单一、固定的脚印——然后问：“这个脚印与我的每个嫌疑人匹配得如何？”嫌疑人A穿着12码的鞋？不太可能。嫌疑人B穿着9码的鞋？那就合理多了。

这种思维上的转变，即从根据已知模型预测数据，转变为根据已知数据评估模型，正是似然函数的核心所在。这是所有科学中最基本、最美妙的思想之一，它是一面棱镜，通过它，我们看到的不再是一个上演着随机事件的舞台，而是一系列关于其底层机制的线索集合。

视角的转变：概率与似然

让我们把侦探故事说得更精确一些。假设你是一名质量控制工程师，正在测试一种新的生物传感器。你知道生产过程有一定的概率 $p$ 会生产出一个“成功”的传感器。但你不知道 $p$ 的值。你测试了一个传感器，它失败了。

如果你知道 $p$ 的值，比如说 $p=0.9$ ，你就能计算出这个事件的概率：它就是 $P(\text{failure} | p=0.9) = 1 - 0.9 = 0.1$ 。这是一个概率计算。但你并不知道 $p$ 。你的问题是不同的：“鉴于我观察到一次失败，我能对 $p$ 的可能取值推断出什么？”

为了回答这个问题，我们写下同样的公式， $P(\text{failure} | p) = 1-p$ ，但我们以一种全新的方式来对待它。现在，“失败”这个结果是一条固定的证据。参数 $p$ 是我们想要研究的变量。我们把这个新函数称为似然函数，记作 $L(p | \text{failure})$ ：

L(p | \text{failure}) = 1-p

这个函数告诉我们什么？如果我们猜测这个过程是完美的（ $p=1$ ），那么看到一次失败的似然是 $L(1) = 1-1 = 0$ 。这很合理；如果过程是完美的，失败是不可能发生的。如果我们猜测这个过程是完全无用的（ $p=0$ ），那么似然是 $L(0) = 1-0 = 1$ 。根据我们拥有的这单条证据，这是 $p$ 最“可能”的值。似然函数根据所有可能的 $p$ 值对我们实际看到的数据的解释程度，对它们进行了排序。

理解似然函数不是什么，是绝对至关重要的。它不是参数取某个值的概率。似然函数在所有可能参数值上的积分或求和不一定等于1。在我们这个简单的例子中， $L(p) = 1-p$ 在 $p=0$ 到 $p=1$ 上的积分是 $\frac{1}{2}$ ，而不是1。似然函数不是 $\theta$ 的一个概率分布；它是给定证据下 $\theta$ 的一种合理性度量。它是一种比较假设的工具，而不是为假设赋予概率的工具（那是贝叶斯推断的工作，而贝叶斯推断正是建立在似然函数之上的）。

群体的智慧：样本的似然

一个脚印是条微弱的线索。一打同样尺寸的脚印则是强有力的证据。同样，在科学中，我们通过重复实验来获得信心。似然函数如何处理多个观测值呢？

假设我们收集了 $n$ 个独立的观测值， $x_1, x_2, \dots, x_n$ ，每个都来自一个由参数 $\theta$ 描述的分布。如果观测是独立的，那么观测到该特定序列的概率就是它们各自概率的乘积。因此，整个样本的似然函数就是各个似然函数的乘积：

L(\theta | x_1, \dots, x_n) = \prod_{i=1}^{n} f(x_i | \theta)

其中 $f(x_i | \theta)$ 是在给定参数 $\theta$ 的情况下观测到 $x_i$ 的概率（或概率密度）。

这个乘法法则揭示了一些奇妙的东西。假设我们抛一枚硬币20次，观察到序列 H, T, T, H, ...，其中包含6次正面（成功）和14次反面（失败）。似然函数将是20个项的乘积： $\theta \times (1-\theta) \times (1-\theta) \times \theta \times \dots$ 。但由于乘法是可交换的，我们可以将其重新排列成一个更简单的形式：

L(\theta | \text{sequence}) = \theta^6 (1-\theta)^{14}

注意到，正面和反面的具体顺序消失了！似然函数只依赖于正面的总数（ $s=6$ ）和抛硬币的总次数（ $n=20$ ）。这是一个被称为充分性的深刻概念的例子。成功的总次数 $S = \sum X_i$ 是参数 $\theta$ 的一个充分统计量。这意味着，这个单一的数字包含了整个样本能提供的关于 $\theta$ 的所有信息。大自然允许我们在不损失任何推断能力的情况下对数据进行总结。个体观测的混乱被提炼成一个或几个有意义的数字。

寻找峰值：最大似然估计

如果似然函数给出了我们参数的每个可能值的合理性，那么最自然的问题就是：哪个值是最合理的？哪个参数值使我们观测到的数据“最可能”？这个简单而强大的思想就是最大似然估计（MLE）原理。我们找到那个位于似然函数景观顶峰的参数值 $\hat{\theta}$ 。

寻找这个峰值通常需要用到微积分。然而，对一长串项的乘积求导简直是一场噩梦。在这里，一个美妙的数学技巧应运而生：对数。因为自然对数函数 $\ln(y)$ 是严格递增的，所以最大化一个函数 $L(\theta)$ 等同于最大化它的对数 $\ln(L(\theta))$ 。峰值将在同一个位置。对数巧妙地将我们难以处理的乘积转化为了一个易于管理的和：

\ell(\theta) = \ln(L(\theta)) = \ln\left(\prod_{i=1}^{n} f(x_i | \theta)\right) = \sum_{i=1}^{n} \ln(f(x_i | \theta))

这就是对数似然函数。对于我们抛硬币的例子，对数似然是 $\ell(\theta) = 6\ln(\theta) + 14\ln(1-\theta)$ 。对其关于 $\theta$ 求导并令其为零，得到直观的结果 $\hat{\theta} = \frac{6}{20} = 0.3$ 。对于这枚硬币的偏倚，最合理的值就是我们观测到的正面比例。

但是我们必须小心，不要把这个数学上的便利变成一个盲目的套路。大自然是微妙的。考虑为一个科学仪器的饱和极限 $\theta$ 建模。我们可能会将我们的测量值建模为在 0 和 $\theta$ 之间均匀分布。如果我们收集了测量值 $x_1, \dots, x_n$ ，那么对于任何小于我们最大观测值 $x_{(n)} = \max\{x_i\}$ 的 $\theta$ ，似然函数都为零。对于任何 $\theta \ge x_{(n)}$ ，似然函数是 $L(\theta) = \theta^{-n}$ 。这个函数总是递减的！没有导数为零的峰值。那么最大值在哪里？似然的逻辑迫使我们去思考。为了最大化这个递减函数，我们必须选择逻辑上仍然可能的最小 $\theta$ 值——而这恰恰是 $\hat{\theta} = x_{(n)}$ ，即我们最大的观测值。这是一个美妙的提醒：最大化合理性的原理比我们通常用来实现它的微积分工具更为根本。

似然原理：什么才是真正重要的

在这里，我们触及了似然函数的哲学灵魂，一个如此简单却又如此激进的思想，以至于一个世纪以来科学家和哲学家们一直在争论它。

想象两位生物统计学家，Alice 和 Bob，正在研究一种生物标记物的流行率 $\theta$ 。

Alice 决定采用固定样本设计：她将精确测试 $n=20$ 名患者。碰巧，她观察到 $s=6$ 例阳性病例。
Bob 选择贯序设计：他将持续测试患者，直到他找到恰好 $k=6$ 例阳性病例。碰巧，他也是在测试到第 $T=20$ 名患者时停止。

Alice 和 Bob 最终都得到了相同的原始数据：6例阳性和14例阴性。他们关于流行率 $\theta$ 的结论应该完全相同吗？

你的直觉可能会大喊“当然！”数据是相同的。但经典的统计方法可能会有不同意见，因为研究人员的意图不同。对于 Alice 来说，“可能发生的情况”集合是不同的（阳性病例数可以是0到20之间的任何数），而对于 Bob 来说也是不同的（测试次数可以是6到无穷大之间的任何数）。

让我们看看似然。正如我们所见，对于 Alice 的数据，似然核是 $\theta^6 (1-\theta)^{14}$ 。对于 Bob 的实验（一个负二项模型），似然是 $L(\theta) = \binom{19}{5}\theta^6(1-\theta)^{14}$ 。关键的洞见是，这两个似然函数是成比例的。它们作为 $\theta$ 的函数具有完全相同的形状；它们仅相差一个不涉及 $\theta$ 的常数乘数。

这就引出了似然原理：如果两个不同的实验产生了成比例的似然函数，那么它们提供了关于参数 $\theta$ 的完全相同的证据。证据在于数据之中，而不在于实验者的脑海里。重要的是你看到了什么，而不是你计划做什么或者你本可能看到什么。

这个原理是统计学中一个鲜明的分界线。贝叶斯推断和最大似然估计自然地遵守它，因为它们的结果仅依赖于似然函数的形状。相比之下，许多传统的频率学派方法，如p值和置信区间，违反了它，因为它们的计算依赖于停止规则和未观测结果的空间。似然函数告诉我们，要基于我们已知的东西进行条件推断，而忽略我们未知的东西。

超越峰值：比较假设

找到单一的“最佳”参数值是一个很好的开始，但似然函数蕴含着更多的宝藏。它的整个形状都是信息丰富的。一个尖锐、狭窄的峰表明我们对参数的值非常确定。一个宽阔、平坦的峰则表示存在很大的不确定性。

此外，我们可以用似然来对相互竞争的科学假设进行直接的较量。这就是似然比检验背后的思想。假设我们想检验我们的硬币是否是公平的（ $H_0: \theta = 0.5$ ），相对于它是有偏的（ $H_a: \theta \neq 0.5$ ）这一备择假设。

这个逻辑既优雅又强大。我们计算在最佳备择假设下（即在 MLE 处）我们数据的似然 $L(\hat{\theta})$ 。然后我们计算在原假设约束下我们数据的似然 $L(\theta_0 = 0.5)$ 。这两个合理性的比值就是似然比统计量：

\lambda = \frac{L(\theta_0)}{L(\hat{\theta})}

这个比值总是在0和1之间。如果它接近1，意味着原假设解释数据的能力几乎和我们能找到的最佳备择假设一样好。没有理由拒绝它。但如果 $\lambda$ 非常小，这就是一个确凿的证据。它告诉我们，与备择假设相比，我们观察到的数据在原假设下是极其不可能的。这为拒绝原假设提供了强有力的、可量化的证据。

从一个简单的视角转变开始，似然函数已经发展成为一个用于估计、数据总结和假设检验的统一框架，并由深刻的似然原理所引导。它是一种数学工具，使我们作为自然世界的侦探，能够仔细倾听证据告诉我们什么，并将其与我们自己意图的噪音区分开来。虽然它并非没有自身的微妙之处和潜在陷阱，比如存在多个具有欺骗性的峰值的景观，但它所描绘的从数据到洞见的旅程，是科学最伟大的智力成就之一。

应用与跨学科联系

在我们完成了对似然原理的探索之旅后，你可能会留有一种抽象的满足感。诚然，这是一个简洁的数学思想。但它有什么用处呢？它真正的力量是什么？这才是真正有趣的地方。似然函数不仅仅是一个理论上的好奇之物；它是一个通用翻译器，一座连接抽象模型空灵世界与现实数据纷繁杂乱世界的概念桥梁。它是试图理解从亚原子粒子的闪烁到演化历史宏大画卷的科学家们所说的共同语言。

现在，让我们参观一下科学的工坊，看看这个非凡的工具是如何被使用的。你会发现，同一个基本思想——量化给定证据下模型的合理性——以各种巧妙的新伪装形式反复出现。

计数的世界：从基因到病菌

许多科学始于简单的计数。我们计算生病的患者，我们计算星系中的恒星，我们计算突变的基因。让我们想象你是一位生物学家，拥有一台高级的新基因测序仪。你从同一组织中准备了几个样本，对于某个特定的基因，机器报告了它发现的RNA分子数量： $x_1, x_2, \dots, x_n$ 。你相信底层的生物过程是随机的，就像雨滴落在人行道上，有一个特定的平均速率 $\lambda$ ，但每个具体的结果都是偶然的。泊松分布是对此最完美的模型。

那么，你如何估计这个基本的生物速率 $\lambda$ 呢？似然函数为你提供了一条直接的路径。对于每个观测值 $x_i$ ，看到这个确切计数的概率是 $\frac{e^{-\lambda} \lambda^{x_i}}{x_i!}$ 。由于样本是独立的，观察到整个数据集的似然就是这些单个概率的乘积：

$L(\lambda \mid x_1, \dots, x_n) = \prod_{i=1}^{n} \frac{e^{-\lambda} \lambda^{x_i}}{x_i!}$

为了找到“最佳”的 $\lambda$ ，我们问：哪个 $\lambda$ 值使我们观察到的数据最合理？最大化这个函数（或者更简单地，最大化它的对数）揭示了一个极其简单的答案：最大似然估计 $\hat{\lambda}$ 就是样本均值 $\frac{1}{n}\sum x_i$ 。这是一个美妙的结果。我们复杂的统计机器给出的答案完全符合直觉：我们对底层平均速率的最佳猜测就是我们实际观察到的平均值。同样的逻辑直接适用于一位流行病学家，他每天跟踪医院里新感染的人数，以估计潜在的感染率。

但实验设计至关重要。想象一个不同的情景。你是一位测试电路的质量控制工程师。你不是测试固定数量的电路；相反，你一直测试直到找到恰好 $r$ 个功能正常的电路，而你恰好在第 $k$ 次测试时停止。底层的过程仍然是一系列简单的试验（功能正常或有缺陷），但停止规则改变了。这改变了我们所问的问题，因此，它必须改变似然函数。似然不再是伯努利试验的简单乘积；它变成了一个负二项似然。这是一个至关重要的教训：似然函数不仅关乎数据，还关乎数据是如何产生的故事。

时间的流逝：生存、风险与不完整数据

除了计算离散事件，我们还经常测量连续量，比如时间。考虑一位毒理学家研究生物体在接触化学品后出现不良反应所需的时间。一个常见的初步猜测是，事件发生的“风险”随时间恒定。这导致了指数分布，其中一组观测到的寿命 $x_1, \dots, x_n$ 的似然是失效率 $\lambda$ 的函数。再次，最大化这个似然会产生一个优雅的结果：对速率的最佳估计 $\hat{\lambda}$ 是平均寿命的倒数， $1/\bar{x}$ 。如果生物体平均存活时间长，则失效率低；如果它们迅速死亡，则速率高。似然函数证实了我们的直觉。

现在，现实给我们带来了麻烦。在许多研究中，实验在每个受试者都经历事件之前就结束了。当你必须撰写报告时，你的一些生物体可能仍然健康。这被称为“右删失”。我们是否应该丢弃这些部分信息？绝对不行！这正是似然函数真正大放异彩的地方。对于在时间 $t_i$ 发生事件的生物体，其对似然的贡献是时间点 $t_i$ 的概率密度。对于一个在研究结束时（时间 $t_i$ ）仍然存活的生物体，其贡献是至少存活到时间 $t_i$ 的概率。整个实验的似然函数是这两种不同类型项的乘积。

这个强大的思想让生态学家可以比较两组猎物模型——一组伪装，一组没有——看看哪一组在被捕食下存活得更久。通过构建一个能处理捕食事件和删失观测的似然函数，我们可以估计一个“风险比”，这是一个单一的数字，精确地告诉我们身处一个组相对于另一个组的风险高出（或低于）多少。

数据也可能以其他方式不完整。想象流行病学家正在研究一种新疾病在国际旅行者中的潜伏期。他们只了解到那些在旅行者随访期结束前出现症状的病例。潜伏期非常长的人被系统性地遗漏了。这被称为“截断”。对观察到的潜伏期进行朴素的分析会产生偏倚，低估真实的平均值。似然原理迫使我们直面这个问题。对于一个观察到的潜伏期 $t_i$ ，其正确的似然是其概率密度，条件是它小于观测上限 $c_i$ 。通过将标准概率密度 $f_T(t_i | \theta)$ 除以被观察到的总概率 $F_T(c_i | \theta)$ ，我们校正了抽样偏差。似然提供了一种严谨的方式，让我们看到世界真实呈现给我们的样子，而不是我们希望的样子。

权衡证据：从基因编辑到人类选择

到目前为止，我们主要使用似然来估计参数。但它的另一个重要作用是权衡相互竞争的理论之间的证据。假设你使用CRISPR编辑了一个基因，将一个参考碱基“G”改为一个备选碱基“A”。你对结果进行测序，看到了，比如说，95个“A”的读数和5个“G”的读数。这五个“G”可能是由于测序错误，或者可能是你的编辑失败了。你有两个相互竞争的假设： $H_1$ （真实碱基是“A”）和 $H_0$ （真实碱基是“G”）。

似然函数让我们能够扮演侦探的角色。我们写下在每个假设下数据的似然。在 $H_1$ 下，观察到“A”是正确的结果（概率为 $1-p$ ，其中 $p$ 是错误率），观察到“G”是错误（概率为 $p$ ）。在 $H_0$ 下，情况则相反。这两个似然的比值，即似然比，告诉你证据的权重。如果这个比值是一百万，那么数据在“成功”假设下比在“失败”假设下要合理一百万倍。这个比值的对数， $(a-r) \ln\left(\frac{1-p}{p}\right)$ ，给出了一个惊人简单而强大的证据总结，其中 $a$ 是备选碱基读数的计数， $r$ 是参考碱基读数的计数。

这种使用似然来为选择建模的思想甚至延伸到了人类领域。我们如何为成千上万个农民的决策建模，他们决定是否为了农业而砍伐森林？一个基于主体的模型可能会假设每个农民都根据潜在利润做出选择，但其中夹杂着一些随机性或未观察到的偏好——一个“随机效用模型”。这个微观层面的行为理论直接导出了任何给定农民会转换其土地的逻辑斯蒂概率。观察到 $N$ 个农民中有 $K$ 个做出了转换的似然就是一个二项似然，其参数是利润动机的函数。最大化这个似然使我们能够利用聚合的土地使用数据来估计农民决策中经济激励的强度。似然已经弥合了从认知理论到卫星图像的鸿沟。

重构历史：一棵树的似然

也许似然最令人惊叹的应用是在演化生物学中，它被用来重构遥远的过去。我们拥有来自少数现存物种的DNA序列——比如说，人类、黑猩猩和大猩猩。我们想构建连接它们的系统发育树，并估计它们DNA在数百万年间突变的速率。这个问题是巨大的：树的结构未知，分支的长度未知，树内部节点上早已灭绝的祖先的序列也未知。

由 Joseph Felsenstein 首创的似然方法是一个突破。它计算了给定在树尖端观察到的DNA序列下，树和替换模型参数的似然。如何计算呢？对于DNA比对中的单一一列，该方法巧妙地对树中每一个祖先节点的所有可能状态（'A', 'C', 'G', 'T'）求和。计算每个完整演化场景的概率，然后将它们全部加起来。这看起来像一个不可能的计算，但一个优美的递归算法（“剪枝算法”）使其变得可行。总似然是这些似然在比对中所有位点上的乘积。

通过寻找最大化该函数的树和分支长度，我们找到了使我们观察到的数据最可能的演化历史。这是一个惊人的成就——一个用于窥探深层时间的计算显微镜。也正是在这里，与贝叶斯推断的区别变得最为清晰。似然 $p(\text{Data} | \text{Model})$ 是引擎。最大似然推断旨在找到最大化它的Model。贝叶斯推断则将这个似然与关于模型的先验信念 $p(\text{Model})$ 结合起来，以计算后验概率 $p(\text{Model} | \text{Data})$ 。在这两种哲学中，似然函数都是不可或缺的核心，它让数据说话。

从一个RNA分子的短暂存在到生命之树的广袤延伸，似然函数为科学推理提供了一个单一、连贯且极其强大的框架。它是“鉴于我所见，我应何所信？”这个问题的数学化身。以各种形式回答这个问题，正是科学的灵魂所在。