
在探索世界的过程中,科学总是在与不确定性作斗争。概率使我们能够基于已知模型预测未来结果的几率,但研究人员常常面临相反的问题:利用观测到的数据来推断世界背后的模型。这种从证据中学习的挑战属于统计推断的范畴,其核心是一个强大而优雅的概念:似然。基于似然的推断为量化证据支持、估计未知参数以及比较科学假说提供了一个统一而通用的框架。它解决了从观察现象到理解产生该现象的过程之间的根本鸿沟。
本文将通过两个全面的章节深入探讨基于似然的推断的理论与应用。在第一章原理与机制中,我们将探索从概率到似然性的哲学转变,定义最大似然估计(MLE),并审视深刻而富有争议的似然原理。我们将看到似然如何充当频率学派和贝叶斯范式之间的桥梁,并为处理讨厌参数和缺失数据等复杂问题提供原则性的方法。在这一理论基础之后,第二章应用与跨学科联系将展示似然在实践中的应用。我们将遍览其在生物统计学、生态学和系统发育学等不同领域的应用,看它如何驾驭相依数据,克服不完整数据集的挑战,并作为现代因果推断探索中的关键引擎。
让我们从一个简单的问题开始我们的旅程,这类问题是赌博和机会游戏的基础。如果你有一枚均匀的硬币,连续抛掷十次,恰好得到七次正面的概率是多少?这是一个关于概率的问题。给定一个已知的世界模型(一枚均匀的硬币,其出现正面的概率 为 ),我们预测未来数据的几率。计算过程简单明了,最终会得到一个单一的数值。
但科学常常面临相反的问题。我们并不知道世界的真实模型;我们试图去揭示它。想象一下,我们抛掷一枚神秘的硬币十次,并观察到七次正面。我们无法事先保证这枚硬币是均匀的。我们的问题不再是“这个结果的概率是多少?”,而是“这个结果告诉了我们关于这枚硬币的什么信息?”这是一个关于推断的问题。
这就是似然概念的用武之地,它代表了一种深刻的、近乎哲学的视角转变。为了构建似然函数,我们采用与计算概率完全相同的公式,但我们将其反向应用。现在,数据——我们观察到的七次正面和三次反面——被视为固定的。而参数——硬币固有的正面概率 ——现在是变量。
似然函数写作 ,它所问的是:“对于任何关于硬币的给定假说(例如,对于 的某个特定值),我们实际看到的数据的概率是多少?”
对于我们的硬币,在 次抛掷中得到 次正面的概率由二项分布公式给出:。当把这个公式看作 的函数时,它就是我们的似然函数。让我们尝试几个 的值:
比较这些值, 的假说比 的假说使得我们观察到的数据更为合理(plausible)。事实上,如果我们画出这个函数在 从0到1的所有可能值上的图像,我们会看到它有一个峰值。这个峰值处的 值就是使我们的数据最合理的那个值。这就是著名的最大似然估计(MLE)。对于我们的硬币,MLE恰好是 。它是最能解释我们所拥有数据的参数值。
至关重要的是要理解似然不是概率。似然函数并没有告诉我们 是 的概率。它是一种证据支持的度量。在任何一点 处,曲线的高度衡量了该特定参数值对数据的解释程度。绝对高度本身意义不大,但相对高度才是一切。我们可以自信地说,数据为 提供的支持比为 提供的支持更多,因为似然比 大于一。
这种对比例的关注带来了一个显著的简化。注意我们公式中的 这一项。这个数字告诉我们10次抛掷中得到7次正面有多少种方式,但它的值不依赖于 。当我们比较两个不同 值的似然时,这个常数项同时出现在比率的分子和分母中,因此它被消掉了。为了对 进行推断,它是无关紧要的。这揭示了一个深刻的真理:所有关于 的信息都包含在函数的形状中,特别是在依赖于 的那部分。这就是为什么我们经常使用正比符号来写似然函数,,从而捕捉函数的核心部分。将似然函数乘以任何不依赖于参数的常数,并不会改变峰值的位置或任何似然比,因此,它不会改变我们的推断。
只有似然函数的形状才重要的这一观点,引出了一个强大而富有争议的原则:似然原理(Likelihood Principle, LP)。它指出,一次实验中关于参数 的所有证据都包含在实际观察到的数据的似然函数中。实验的任何其他方面,例如可能发生但未发生的其他结果,或者实验者的意图,都是无关的。
这听起来可能像是常识,但它与传统统计学中一些最常见的方法形成了鲜明对比。让我们用一个源自医学研究的经典场景来探讨这一点。
想象一下,两个研究团队正在评估一种新的抗病毒疗法。患者对该疗法产生反应的概率是 。
两种情况下的原始数据完全相同:一个包含8个反应和12个无反应的20名患者序列。但是实验计划——即停止规则——完全不同。这种意图上的差异是否应该影响我们对药物有效性 的结论呢?
让我们看看似然函数。
注意到奇妙之处了吗?两个似然函数都与同一个核心表达式成正比:。它们仅在一个不涉及 的常数因子( vs. )上有所不同。
根据似然原理,既然似然函数成正比,那么关于 的证据就是相同的。两个团队应该得出完全相同的结论。停止规则是无关紧要的。
这是一个激进的观点,因为它直接挑战了像p值和显著性检验这样的频率学派方法。p值是在原假设下观察到你的数据或更极端情况的概率。而“更极端”的定义取决于样本空间——所有可能结果的集合。由于两个团队有不同的抽样计划,他们的样本空间是不同的,他们计算出的p值也会不同!频率学派可能会得出证据不同的结论,而似然原理的实践者则会坚称证据是相同的。
这一点延伸到了臭名昭著的“选择性停止”问题。如果一个研究者在数据累积过程中反复分析,仅当p值降到像 这样的阈值以下时才停止,频率学派理论认为这会极大地增加假阳性的机会。对频率学派来说,停止规则至关重要。而对于遵循似然原理的人来说,停止的原因是无关的;唯一重要的是最终数据的似然函数,无论它是如何获得的。
似然函数不仅仅是某个统计学派的工具;它位于两大主要推断范式的核心,充当它们之间的桥梁。让我们看看它在频率推断和贝叶斯推断中是如何运作的。
想象一位生物统计学家正在为每病人月的药物不良事件数量建模,该数量服从一个未知速率参数为 的泊松分布。
在频率推断中, 被视为一个固定的、未知的常数。目标是利用数据来精确定位这个值。主要工具是似然函数 。对 的最佳猜测是最大似然估计 ,即该函数的峰值。所有其他的频率学派工具——置信区间、假设检验——都是围绕这个估计量在假设性重复实验中的性质而构建的。似然函数告诉我们数据要说什么,然后我们用它来构建具有理想长期性质的程序。
在贝叶斯推断中,哲学则不同。我们将未知参数 视为一个随机变量。在看到任何数据之前,我们对 有一些预先存在的信念,这些信念被一个先验分布 所捕捉。当我们收集数据时,我们使用贝叶斯定理来更新我们的信念。结果是一个后验分布 ,它代表了我们更新后的知识状态。驱动这次更新的引擎就是似然函数。其关系异常简单:
后验分布正比于似然乘以先验分布。
似然函数就像一个过滤器,它接收我们的先验信念,并根据每个可能的 值解释观测数据的程度来重新加权它们。参数空间中似然高的区域,其先验信念被放大;似然低的区域则被抑制。
这个公式表明,贝叶斯推断自然地遵循了似然原理。由于数据仅通过似然函数进入计算,两个具有成比例似然的实验,在给定相同先验的情况下,将产生完全相同的后验分布。不改变似然的停止规则,同样也不会改变贝叶斯的结论。
现实世界的科学模型很少像单次抛硬币那么简单。它们通常涉及许多参数,而并非所有参数都是我们感兴趣的。例如,在研究一个生物标志物时,我们可能对其平均水平 感兴趣,但为了正确地建模数据,我们还需要考虑其变异性或方差 。在这里, 是我们感兴趣的参数,而 是一个讨厌参数。它之所以讨厌,是因为我们不直接关心它的值,但如果想对 做出正确的推断,我们就不能忽略它。
似然理论如何处理这个问题?一个优雅的解决方案是剖面似然。这个想法既巧妙又直观。我们为感兴趣的参数 创建一个新的、简化的似然函数。对于我们正在考虑的每一个可能的 值,我们问:“给定这个 值,讨厌参数 的什么值能让数据最可能出现?” 我们将这个最佳情况下的 值代回完整的似然函数。结果是一个仅关于 的函数 ,它已经“剖析掉”了讨厌参数。这个新函数可以像一个常规的单参数似然函数一样,用于对 进行推断。
当我们面对数据分析中最持久的挑战之一:缺失数据时,这种处理复杂性的能力就更加引人注目。当数据点缺失时,简单地忽略它们可能导致严重的偏误结论。似然理论为理解何时以及如何正确处理缺失数据提供了一个原则性的框架。
关键在于缺失机制,即决定数据为何缺失的过程。一个有缺失值的数据集的完整似然必须同时考虑数据生成过程(由 参数化)和缺失机制(由讨厌参数 参数化)。然后,通过对缺失值的所有可能性进行积分,可以找到观测数据的似然。
如果数据是随机缺失(Missing At Random, MAR),就会发生一个神奇的简化。这个技术术语有一个简单的含义:一个值缺失的概率仅取决于我们已经观察到的信息,而不取决于缺失值本身。例如,在一项纵向研究中,如果患者之前观察到的血压较高,他可能更容易错过一次随访。在MAR(以及一个称为参数独立性的额外技术条件)下,观测数据的似然会奇迹般地分解为两个独立的部分:一部分只涉及 和观测数据,另一部分只涉及 和缺失模式。因为它们是分开的,我们可以简单地最大化第一部分来对 进行推断,而完全忽略缺失机制。该机制被称为是可忽略的。这为多重插补等强大技术提供了理论基础。
如果数据是非随机缺失(Missing Not At Random, MNAR),情况会发生巨大变化。这种情况发生在缺失的概率取决于未观察到的值本身时。例如,如果病毒载量极高(且未测量)的患者病得太重而无法参加门诊预约,那么缺失就取决于缺失的信息本身。在这种情况下,似然函数无法分解。我们的科学模型的参数 与缺失模型的参数 在对缺失数据进行积分时纠缠在一起。该机制是不可忽略的。我们不能简单地忽略它;我们必须明确且正确地对缺失过程建模才能得到有效答案。因此,似然理论提供了一个清晰明确的警示信号,区分了我们可以相对轻松地进行处理的情况和需要极其谨慎处理的情况。
最大似然原理是绝对可靠的吗?不尽然。有时,数据对于模型来说可能在某种意义上太好了,导致MLE表现异常。一个经典的例子发生在逻辑斯谛回归中,这是一种用于建模二元结果(如疾病存在与否)的常用工具。
假设我们发现一个生物标志物能够完美地区分健康个体和患病个体:每个病人的生物标志物值都高于某个阈值,而每个健康人的值都低于该阈值。这是研究者的梦想!但如果你试图用标准的逻辑斯谛回归模型来拟合这些数据,你会发现生物标志物效应的最大似然估计是无穷大。当你提出越来越强的效应时,似然函数会持续攀升,永远达不到一个有限的峰值。MLE不存在。
这正是似然框架灵活性的闪光之处。当原始似然导致荒谬的结论时,我们可以对其进行增强。这就是惩罚似然背后的思想。我们通过添加一个惩罚项来修改对数似然函数,该惩罚项表达了对更“合理”参数值的偏好。
这些惩罚方法并非临时抱佛脚的修补。它们是似然框架的原则性扩展,展示了其适应挑战性情况的能力。它们表明,似然不是僵硬的教条,而是一种强大而通用的、用数据进行推理的语言,这种语言不仅让我们能够表达数据所说的内容,还能表达什么构成了一个合理的答案。从其简单直观的核心,到其深刻的哲学意涵,再到其在复杂现代问题中的强大应用,似然原理为科学推断的艺术提供了一个统一而优美的视角。
在上一章中,我们熟悉了似然的形式化机制。我们视其为一种估计参数的数学工具,一个逆向工程过程,我们提问:“根据我们收集到的数据,按照我们的模型,世界最合理的版本是什么?”但如果止步于此,就好比学会了国际象棋的规则却从未下过一盘棋。似然原理真正的力量和美感不在于其定义,而在于其应用。它是解决大量科学问题的万能溶剂,是那些在其他方面可能看似毫无关联的领域研究人员所共用的一种语言。
在本章中,我们将踏上一段旅程,亲眼见证这一原理的实际应用。我们将看到这个单一而优雅的思想如何让我们能够构建更丰富、更真实的模型——这些模型能够处理真实数据的杂乱、复杂和不完整的特性。我们将看到它不仅提供答案,而且为科学推理提供了一个完整的框架,从比较相互竞争的思想到跨越从相关性到因果关系的巨大鸿沟。
许多统计学入门课程中的一个简化假设是,我们的数据点是*独立同分布*的——就像一系列的硬币抛掷,一个结果对下一个没有任何影响。当然,现实世界很少如此整洁。观测数据常常纠缠在复杂的依赖网络中,忽略这些联系不仅是草率的,更可能导致大错特错的结论。基于似然的推断提供了一种强大而原则性的方法来模拟这种相互依赖性,并将其写入我们模型所讲述的故事中。
考虑一项针对新药的现代临床试验。我们不只对患者进行一次测量;我们会在数周或数月内跟踪他们的反应。对同一个人进行的这些重复测量显然不是独立的。第一周反应良好的患者在第二周很可能也比平均水平要好。他们的测量值是相关的。如果一个幼稚的分析将每次测量都视为一个独立的数据点,那将是愚蠢的——它会高估我们拥有的信息量,并产生具有误导性的小误差范围。
一种更复杂的方法,由似然框架所实现,是使用所谓的线性混合模型(LMM)。我们不只是对平均反应随时间的变化进行建模,而是写下一个更丰富的、由两部分组成的故事。一部分描述了所有患者的平均趋势,另一部分则描述了每个患者的轨迹如何围绕该平均值变化。这些个体差异被建模为“随机效应”。通过写下这个两部分故事的完整似然函数,我们可以同时估计总体治疗效果和受试者内部相关性的性质。这种方法尊重了数据的真实结构,为我们提供了对药物效果最精确和准确的估计。这是广义高斯-马尔可夫定理的直接应用,确保了我们的估计量在一大类估计量中是最佳的。
同样的原理从时间上的依赖关系延伸到空间上的依赖关系。想象一位生态学家正在研究一条新路对整个景观中鸟类丰度的影响。一个地点的丰度很少与其邻近地点无关。有利的条件可能会延伸到整片森林,从而产生正向的空间自相关。同样,一个简单的回归分析将是无效的。但是我们可以使用似然来指定一个模型,其中一个位置的未观测误差明确地是其邻近位置误差的函数。像空间自回归(SAR)或条件自回归(CAR)模型正是这样做的。它们使用一个空间权重矩阵()来定义哪些地点是邻居,并且似然函数包含一个量化这种空间依赖强度的参数。在拟合这个模型时,我们不仅可以对道路的影响进行有效检验,还能了解到生态过程的空间尺度。
依赖关系甚至可以更加抽象。想一想最宏大的依赖关系:生命之树。物种不是独立的实体;它们通过共同的进化历史联系在一起。现代系统发育学使用似然来重建这段历史。在这种情况下,最大似然方法涉及计算观察到当今物种DNA序列的概率,给定一个提议的进化树和一个关于DNA如何随时间变异的随机模型。似然是在整个树上计算的,对所有可能的、未观察到的祖先序列的概率进行求和。最大化这个似然的树拓扑和分支长度代表了我们关于这些物种如何进化和相互关联的最佳假说。从微生物学 到动物学,似然使我们能够将序列数据转化为关于深层时间的故事,这一切都通过明确地模拟进化中固有的依赖关系来实现。
现实世界的科学是一场与不完美的斗争,而最常见的不完美之一就是缺失数据。患者退出研究,设备发生故障,调查对象跳过问题。一种幼稚的反应是简单地分析“完全案例”,即扔掉任何哪怕只有一个缺失值的受试者。这不仅是浪费,而且可能导致灾难性的偏误。
在这里,基于似然的推断再次提供了一个异常优雅的解决方案。关键在于数据为何缺失的原因。在许多情况下,缺失是我们所说的随机缺失(MAR)。这并不意味着数据是无缘无故缺失的;它意味着一个值缺失的概率可能依赖于我们已经观察到的其他信息,但不是依赖于未观察到的值本身。例如,在临床试验中,如果患者先前测量的健康状况较差,他可能更容易错过一次随访。
在MAR假设下,基于似然的方法如同魔法般有效。因为似然函数是从受试者数据的完整联合分布模型中推导出来的,我们可以只为我们观察到的部分写下似然函数,而这个“观测数据似然”就足够了。最大化它能为我们的参数提供有效、无偏且一致的估计,而无需明确地对缺失机制本身建模。该模型有效地利用了它从完整数据者身上学到的关系,在存在退出者的情况下做出了统计上有效的推断。
这一特性是现代生物统计学的基石,它允许对有退出者的纵向研究进行有效分析。这是对指定一个完整概率模型力量的深刻展示。当然,MAR假设本身可能是错误的。如果患者因为那一刻感觉非常糟糕(一个我们未能记录的值)而退出研究怎么办?这被称为非随机缺失(MNAR)。即使在这里,似然框架也提供了一条前进的道路。它成为敏感性分析的基础,我们可以构建包含MNAR效应的显式参数(一个 -调整)的模型,并观察当改变我们关于偏离MAR程度的假设时,我们的结论会如何变化。
似然的力量远不止是简单地找到参数的最佳值。它为科学探究提供了一套全面的工具包。
首先,它以似然比检验(LRT)的形式为我们提供了一种比较相互竞争的科学假说的通用方法。假设我们有一个简单的世界模型和一个更复杂的模型,后者将前者作为特例包含在内。增加的复杂性是否合理?LRT提供了一个直接的答案。我们计算两个模型的最大似然。这两个似然的比值告诉我们,在更复杂的模型下,数据变得多么更合理。这个比值可以转化为一个检验统计量,在简单模型为真的原假设下,该统计量服从一个已知的 分布。这使我们能够做出一个有原则的决定。例如,生态学家可以利用此方法检验两个区域的物种更替率(多样性)是否不同,通过比较一个强制两区域相同的模型与一个允许它们不同的模型。
其次,似然框架包含了自我批判的种子。任何模型都建立在假设之上——例如,一种环境毒素的效应随其浓度线性增加。但如果效应是U形的呢?一个好的统计框架应该给我们提供检查假设的工具。似然正是这样做的。得分函数,即对数似然的导数,可用于构建强大的模型诊断。这些检验可以检测到模型假设的细微偏差,例如协变量的函数形式不正确,从而使我们能够构建更好、更准确的模型。在流行病学领域分析来自巢式病例对照研究的匹配数据时,这是一种至关重要的实践。
最后,也许是最深刻的,基于似然的模型是追求从纯粹关联走向因果推断的不可或缺的引擎。一个估计给定处理 和协变量 下结果 的概率(即 )的模型,其本身纯粹是关联性的。它不能也无法告诉我们 导致了 。然而,在一个建立在因果假设(如条件可交换性和正定性)之上的更大逻辑框架内,这类模型成为至关重要的工具。在现代流行病学和医学数据科学中,似然模型被用来估计倾向得分——即给定患者特征下接受治疗的概率。然后,这些得分被用于诸如逆概率加权等方法,以创建一个已消除混杂的伪人群,从而可以从观测数据中估计因果效应,就像边际结构模型所做的那样。在直接建立在似然之上的贝叶斯范式中,先验分布可用于正式编码因果知识——例如,通过强制将一个已知是治疗后碰撞因子的变量系数设为零,从而以有原则的方式将其从模型中排除。
当数据中的依赖网络如此错综复杂,以至于写下完整、正确的似然函数在计算上不可能或理论上难以处理时,该怎么办?这是高维空间数据或遗传数据面临的常见挑战。此时,似然原理一个卓越而务实的扩展向我们伸出了援手:复合似然。
其思想是通过将数据中更小、重叠且更易于处理的部分的似然相乘,来构建一个伪似然函数。例如,我们可能不使用一个受试者身上所有1000个测量值的联合似然,而是将所有可能的测量对的二元似然相乘。这个乘积不是一个真正的似然,因为这些配对不是独立的。然而,最大化这个复合似然仍然可以得到一致的估计量。与完整(但不可用)的最大似然估计量相比,我们损失了一些统计效率,但获得了可处理性。复合似然为广义估计方程(GEE)等方法提供了一个稳健的替代方案,当人们希望“自动”处理MAR数据(这是似然方法的特点),但又不想承担指定完整、复杂联合分布的负担时,它可能更受欢迎。
我们的旅程即将结束。我们从似然作为一个简单的参数估计工具开始。我们见证了它发展成为一种建模哲学。我们目睹了它驾驭了在我们身体内、跨越景观、贯穿浩瀚进化时间中发现的复杂依赖关系。我们看到了它从不完整数据中提供有效推断的近乎神奇的能力。我们看到它作为检验假说、诊断我们自己模型的严谨框架,以及作为探索因果理解的关键组成部分。从病床边到生物圈,似然原理为从数据中学习提供了一种统一、强大且极富美感的语言。它让我们能够讲述关于世界日益真实和细致入微的故事,并知道应该在多大程度上相信它们。