
在追求知识的过程中,科学家很少依赖单一的观察。相反,他们收集海量的数据,每一条数据都是关于底层现实的一个片面且不完美的线索。因此,根本的挑战就变成了如何将这些零散的线索组合成一个单一、稳健的结论。我们如何优化地权衡来自不同实验的证据?我们如何综合粒子加速器的测量数据和望远镜的数据来检验同一个理论?这正是联合似然 (joint likelihood) 原理所要解决的核心问题,它为证据组合提供了一种强大而通用的数学语言。
本文将深入探讨统计推断中的这一基本概念。我们将首先探索联合似然的核心原理和机制,解释乘以概率如何让我们能够锐化推断并融合来自不同来源的信息。我们还将审视现实世界数据相关性带来的挑战,并引入如复合似然 (composite likelihood) 等实用解决方案。在此之后,讨论范围将扩大,展示其广泛的应用和跨学科联系,说明联合似然如何成为物理学、遗传学到工程学和人工智能等领域重大发现背后无形的引擎。通过这段旅程,您将对科学家如何在面对不确定性时进行形式化推理获得深刻的理解。
想象一下,你正试图理解一个庞大管弦乐队演奏的复杂和弦。聆听一把小提琴,你得到一个音符,一条线索。聆听一把大提琴,你得到另一条。任何一个都无法让你了解全貌。要理解和弦丰富的和谐之美,你必须将所有独立乐器的声音结合起来。神奇之处不在于将声音相加,而在于同时聆听它们,它们的声波在空气中交相叠加,创造出一个统一的整体。
在科学中,证据的运作方式非常相似。单次测量就是一个音符。为了揭示潜在的现实——自然法则的“和弦”——我们必须结合多条证据。联合似然正是为此目的而设的数学形式体系。它或许是科学推断中最基本、最强大的概念之一。其指导原则简单得惊人:如果你的各项证据在统计上是独立的,你就可以通过将它们各自的概率相乘来组合它们。
为什么科学家会痴迷地重复他们的测量?每个实验者都知道,单次测量是脆弱的,容易受到随机波动的影响。通过进行多次测量,我们可以平均掉噪声,从而更清晰地聚焦于我们试图了解的真实值。联合似然精确地告诉我们如何组合这些重复的测量。
考虑一位实验物理学家试图测量一种新粒子的质量。每一次粒子碰撞都是一次测量这个质量的新的、独立的机会。假设她收集了一组测量值:。由于探测器的性质,她知道这些测量值应遵循以真实质量 为中心、不确定性由方差 描述的正态分布(或高斯分布)。在给定假设质量 和方差 的情况下,观测到任何单次测量值 的概率由著名的钟形曲线公式给出:
这个函数,当我们将其视为我们固定的数据点 的参数 和 的函数时,就是似然。现在,观测到她整个数据集的概率是多少?由于每次测量都是一个独立事件,总概率是各个概率的乘积。这个乘积就是联合似然函数:
这个单一的函数美妙绝伦。它包含了整个数据集提供的关于未知参数 和 的所有信息。为了得到我们的最佳估计,我们不再需要查看单个数据点;我们只需要找到使我们观测到的数据最可能出现的 和 的值——也就是最大化这个联合似然函数的值。
这种“乘法法则”不仅仅是物理学家的技巧。它是一种贯穿所有科学领域的通用语言。让我们从亚原子粒子的世界跃迁到生命本身的宏伟画卷。一位进化生物学家希望根据不同物种的 DNA 重建“生命之树”。他们对齐 DNA 序列,并对于一棵候选树,计算在序列的每个位置(或“位点”)观测到特定核苷酸(A、C、G、T)的概率。
许多系统发育方法的一个核心假设是,DNA 中的每个位点都独立于其他位点进化。在此假设下,逻辑变得与我们的粒子物理实验相同。对于给定的树,观测到整个 DNA 排列的总似然,就是为每个独立位点计算的似然的乘积:
然后,生物学家将比较不同的可能树,最大化这个联合似然的树被宣布为真实进化历史的最佳估计。无论我们是组合质量的测量值还是核苷酸的列,组合独立证据的原则保持不变:相乘。
当我们的线索不仅仅是重复,而是来自完全不同的来源时,会发生什么?想象一艘自主水下航行器 (AUV) 在黑暗的深渊中航行。两个独立的声纳系统报告其位置。传感器 1 给出一个读数 ,其方差为 ;而传感器 2 给出一个读数 ,其方差为 。每个传感器的读数都可以用一个似然函数表示,即一个以其读数为中心的钟形曲线。为了得到 AUV 真实位置的最佳估计,我们通过将它们的似然相乘来组合这两条证据。
这个操作的结果非常直观。新的、组合后的似然也是一条钟形曲线,其峰值——最可能的位置——是两个传感器读数的加权平均值:
注意权重:每个传感器的读数都按其方差的倒数加权。方差较小(确定性较高)的传感器获得较大的权重,将最终估计值拉近其读数。似然框架不仅组合证据;它以一种优化加权的方式进行,给予更可靠的来源更多的信任。
这种综合能力不仅限于相似类型的数据。想象一位工程师正在研究一个系统,其中单个参数 控制着两个截然不同的过程:数据包中发现的异常数量(离散计数,由泊松分布建模)和电子元件的失效时间(连续时长,由指数分布建模)。为了得到 的最佳估计,她可以结合两个实验的数据。联合似然就是异常计数似然与失效时间似然的乘积。该框架无缝地将来自不同来源的信息融合成关于底层参数的单一、连贯的推断陈述。
到目前为止,我们故事中的神奇要素一直是独立性。但在现实世界中,事物常常纠缠在一起。周二的温度并非独立于周一的温度。在金融领域,一只股票的价格与其他股票相关。在遗传学中,不同基因家族的进化历史可能通过共享事件联系在一起,比如一次全基因组复制 (WGD),它同时复制了所有基因。
当观测值是相关的时,我们不能再简单地将它们的个体概率相乘,仿佛它们是分开的一样。这样做就像是多次计算同一条信息,会导致我们对结论过于自信。例如,一个共享的 WGD 事件会在不同基因家族的基因数量之间引起正相关;在一个家族中观察到大量复制品,使得其他家族也更有可能拥有许多复制品。一个有效的统计模型必须承认并解释这种协方差。
那么,当真实的联合似然,带着其所有复杂的依赖关系,在计算上过于庞大以至于无法处理时,我们该怎么办?这是现代数据科学中常见的困境,其数据集庞大且维度高。我们是放弃吗?
幸运的是,不必。统计学家开发了一种非常实用且强大的工具:复合似然 (composite likelihood)。其思想是创建一个更容易处理的替代似然。我们不是对整个复杂的依赖网络进行建模,而是对数据中较小、可管理的块——例如,所有观测对——的依赖关系进行建模。然后,我们将这些小的、重叠部分的似然相乘,好像它们是独立的一样 [@problemid:3402174]。
我们知道这不是真实的似然。我们有意忽略了更高阶的相互作用。但神奇之处在于:它通常效果非常好。因为每个似然分量都包含了一些关于参数的有效信息,将它们组合起来可以得到一个一致的估计量——也就是说,随着我们收集更多数据,它会收敛到真实的参数值。我们做出了一个妥协:我们用一些统计精度换取了巨大的计算节省。这是为科学发现服务的工程解决方案。
当我们使用近似方法时,必须坦诚面对其后果。由于复合似然忽略了数据中的部分依赖结构,标准的教科书公式计算出的估计不确定性将是错误的。它们通常会低估真实的不确定性,使我们过于自信。
我们这部分故事中的英雄是 Godambe 信息矩阵,它被亲切地称为三明治估计量 (sandwich estimator)。它提供了一种稳健的方法来计算从复合似然派生的估计的不确定性。它的工作原理是比较我们简化的似然的预期曲率(三明治的“面包”)与数据中实际观测到的变异性(“肉”)。这两者之间的不匹配精确地告诉我们如何修正我们的不确定性估计,以解释我们忽略的依赖关系。同样的逻辑也允许我们开发用于模型选择的工具的校正版本,如赤池信息准则 (Akaike Information Criterion, AIC),确保即使我们从一个近似开始,整个推断流程仍然是健全的。
最后,让我们触及科学推理核心的一个深刻区别。在大型复杂实验中,如大型强子对撞机的实验,我们感兴趣的主模型依赖于许多“讨厌参数 (nuisance parameters)”——比如探测器校准效率或背景噪声水平,我们对这些量本身不主要感兴趣,但必须加以考虑。
我们通常会进行单独的、较小的辅助测量 (auxiliary measurements)来约束这些讨厌参数。一个校准实验可能会确定能量尺度;一个在“控制区域”的测量可能会估计背景。我们如何整合这些关键的旁证信息?答案再次是联合似然。我们写下每个辅助测量的似然函数,并将其与我们主测量的似然相乘。
在这里, 项通常被称为“约束项”。理解它们的认识论地位至关重要:它们是似然,是从观测到的辅助数据中派生出的函数。它们与贝叶斯先验 (priors)不同,后者代表在观测数据之前持有的信念状态。似然是数据告诉我们关于参数的信息的总结。先验是我们做出的假设。联合似然框架提供了 principled、透明的机制,将每一份经验证据组合成单一、统一的分析,构成了客观推断的根基。
如果说科学是一场宏大的交响乐,那么数据就是独立的音符。一个音符只是一个声音;一串音符则成为旋律、和声、故事。联合似然原理是这首音乐的通用语法,是一种形式化语言,让我们能够将零散、嘈杂和复杂的信息片段组合成一个单一、连贯的乐章,揭示更深层次的真理。它是我们这个时代一些最深刻发现的驱动引擎,静静地运行在宇宙学、遗传学和人工智能等不同领域的表面之下。它不仅仅是一个数学工具;它是一种在不确定性面前进行推理的哲学。
想象一位侦探正在询问一起事件的多个目击者。每个人看到的角度略有不同,每个人的记忆都有些模糊。没有哪一份证词是决定性的。侦探真正的技巧在于将这些片面、嘈杂的陈述编织成一个单一、稳健的事件重构。联合似然是科学家完成这项任务的形式化工具箱。
考虑一位化学家正在研究温度如何影响化学反应速度。指导理论是优美的阿伦尼乌斯方程 (Arrhenius equation),,它通过两个基本参数——活化能 和指前因子 ——将速率常数 与温度 联系起来。实验者可能会在不同温度下对 进行多次测量,每次测量都有一些不可避免的实验误差。联合似然函数将所有这些分散的数据点 纳入一个统一的框架。它提出了一个有力的问题:“什么样的 和 值能使我们观测到的整个数据集合,在所有温度下,共同看起来最合理?”通过最大化这个函数,我们可以滤掉单次测量中的随机噪声,并提取出潜在物理常数的估计值,其精度是任何单个实验都无法企及的。
同样的原理也适用于最宏大的舞台。以寻找暗物质为例,这是物理学中最引人入胜的谜团之一。数十个耗资数十亿美元的实验深埋地下,以屏蔽宇宙射线,每个实验都试图捕捉暗物质粒子与原子核碰撞的瞬间。这些实验各不相同:有些使用巨大的液氙容器,有些使用超纯锗晶体。它们有不同的灵敏度、不同的背景噪声来源和不同的操作挑战。我们如何将在意大利的未探测结果与在南达科他州的少数模糊事件结合起来?答案是全局联合似然。这个宏大的函数为每个实验都设有一个项, meticulously地模拟其独特的探测器物理和背景特征。但所有这些项都由一组共同的参数联系在一起,这些参数描述了我们正在寻找的物理现象:暗物质粒子的质量 、其相互作用截面 以及我们太阳系正在穿越的暗物质晕的性质。通过优化这一个函数,全球科学界可以整合每一份证据,得出一个单一、有力的结论,从而收紧对这种难以捉摸的物质的包围网。
联合似然的力量超越了组合相似类型的测量;当它将本质上不同类型的数据编织在一起来描绘同一幅画面时,它才真正大放异彩。
在粒子物理学领域,一项分析可能会产生能量的粗粒度直方图——就像一张模糊的照片——而另一项更灵敏的分析则产生一份精确的单个事件测量列表。联合似然框架以惊人的简洁性将它们结合起来。总似然仅仅是直方图的似然(每个仓中计数的泊松概率的乘积)乘以事件列表的似然(每个独立事件的概率密度的乘积)。数学上是直接的,但结果是深刻的。我们实现了两种完全不同的数据结构的统计优化融合,利用两者的优势来约束一个共同的物理现实,例如一种新的基本力的强度。
同样的数据融合逻辑正在推动生物学的一场革命。现代技术如 CITE-seq 允许科学家从单个活细胞中同时测量数千种信使 RNA 分子的丰度(其“转录组”)和其表面数百种不同蛋白质的数量(其“蛋白质组”的一部分)。这是描述细胞身份和状态的两种不同语言。单独来看,每一种都只讲述了部分故事。联合似然使我们能够创建一个统一的模型,其中 RNA 计数 和蛋白质计数 都被视为细胞单一、隐藏的“潜变量状态 (latent state)” 的带有噪声的表现。通过写出一个通过这个共享变量 联系起来的观测计数的联合似然,我们可以比单独观察 RNA 或蛋白质更清晰地推断出细胞的真实状态。实际上,我们是通过从其不同的影子中三角定位其位置来发现一个隐藏的现实。
现实世界是混乱的。误差来源并不总是随机和独立的;它们常常以微妙而复杂的方式联系在一起。一个真正强大的框架必须不仅能模拟信号,还要能模拟我们自身无知的结构。
假设两个实验正在寻找相同的现象。它们可能依赖于相同的底层理论计算来预测背景噪声的来源。如果这个理论稍有不正确,它将以相关的方式影响两个实验——它们都会被误导到相似的方向。一个将它们的误差视为独立的朴素分析会产生过于自信和脆弱的结果。然而,一个复杂的联合似然分析则拥抱这种复杂性。它引入“讨厌参数”来代表我们对共享理论的不确定性。它不是为每个实验独立处理这些参数,而是将它们建模为来自一个相关分布,如二元高斯分布。似然函数变成了一个巨大的、高维的景观,其坐标不仅代表我们寻求的物理参数,还代表我们测量设备和理论理解的已知和未知。通过探索这个完整的景观,我们获得了对我们真正知道的东西的诚实而稳健的度量。
这种“分而治之,再连接”的策略对于拼接生命之树至关重要。当我们从 DNA 构建进化树时,我们认识到不同基因的进化速度不同。一个对新陈代谢至关重要的基因可能在十亿年里高度保守,而一个与免疫有关的基因可能变化迅速。“一刀切”的进化模型会大错特错。解决方案是分区似然分析。我们将基因组分成逻辑块或分区——也许每个基因一个分区。然后,我们允许每个分区有自己独特的进化模型和参数。整个数据集的总对数似然就是每个分区的对数似然之和。这个绝妙的策略使得每个基因的数据,無論進化快慢,都能對它們共同擁有的一樣東西——底層的物種樹拓撲結構——进行“投票”。
到目前为止,我们一直假设我们至少在原则上可以写出我们观测值的真实联合概率。但是,当系统如此复杂,相互依赖关系如此之多,以至于计算上不可能时,该怎么办?这在群体遗传学中是一种常见情况,染色体上所有位点的进化历史在一个不可能解开的共享祖先关系网络中交织在一起。
在这里,统计学家和科学家发明了一种大胆而强大的变通方法:复合似然。如果整体的真实似然太难计算,我们就计算小的、可管理的重叠部分的似然——例如,所有成对的遗传标记——然后简单地将它们相乘,好像它们是独立的一样。
这当然是一个“有原则的谎言”。这些部分并非独立。然而,奇迹般地,我们从最大化这个伪似然得到的估计通常仍然是一致的——随着我们收集更多数据,它会收敛到正确的答案。我们为这种便利的虚构付出的代价是,我们计算置信区间的标准方法会失效;我们在似然构建中选择忽略的依赖关系反过来困扰了我们的不确定性估计。但是,通过使用更复杂的、考虑真实方差的“三明治”估计量,我们可以对此进行校正。这是一个关于统计实用主义的美丽故事,展示了一个“错误”的模型如何仍然能得出正确的答案,前提是我们对其局限性保持诚实。
正是这个思想推动了进化生物学中一些最激动人心的发现。像 SweepFinder 这样的方法扫描基因组以寻找近期自然选择的标志性特征。一个有利的突变在群体中席卷而过时,会拖动邻近的遗传变异,留下一个特征性的足迹:局部遗传多样性的减少和突变频率的偏斜。为了找到这种模式,我们将一个扫描足迹模型滑过基因组。在每个位置,我们通过将观测到的遗传模式的各位点概率相乘来计算一个复合似然,将这些位点视为独立的。通过将这个扫描似然与中性似然进行比较,我们可以精确定位基因组中承受着强烈选择压力的区域。我们使用一个简化的模型来寻找一个真实而复杂的生物学模式,这证明了似然框架的力量和灵活性。
我们以一个揭示了应用科学中看似 disparate 的领域之间深刻统一性的视角来结束。在许多学科中,从工程学到地球物理学,问题通常被框定为优化问题:找到一个解 ,它既能拟合观测数据 ,又满足某些物理约束或简约原则。例如,我们可能寻求最小化一个目标函数,如 ,其中第一项衡量数据失配度,第二项(称为“正则化项”)惩罚违反已知物理定律 的解。权重 通常看起来像一个需要调整的任意“旋钮”。
联合似然框架揭示了一个更深层次的真理。那个正则化项 不仅仅是一个临时的惩罚项。它可以被严谨地解释为一个合成测量的负对数似然。这就好像我们拥有第二台完美的仪器,直接测量“物理定律残差” 并得到结果 0,其已知测量噪声的方差与 成正比。因此,组合的目标函数只不过是一个完整的贝叶斯后验分布的负对数,它正确地结合了来自我们真实数据 的证据和来自我们物理学知识的“证据”。看似数值技巧的东西被揭示为贝叶斯推断的原则性应用。这一洞见在确定性的约束优化世界和概率性的统计推断世界之间建立了深刻而美丽的联系,表明它们是同一枚硬币的两面,被联合似然这个深刻而深远的概念优雅地统一起来。