
在探索世界的过程中,科学家们构建模型——这些模型是现实的数学表示,从星系的舞蹈到生命的演化,无所不包。验证这些模型的基石是似然函数,它是一个强大的工具,用以量化一个模型的给定参数对观测数据的解释程度。几十年来,这一原则一直指引着科学发现。然而,随着我们的模型变得日益复杂,以反映自然的真实复杂性,我们常常会遇到一个巨大的障碍:似然函数在计算上变得无法实现,这个问题被称为“难解似然”。在我们最宏大的理论与数据之间的这道鸿沟,可能会让那些由复杂性主导的领域的科学进展停滞不前。
本文直面这一挑战,并探讨了那些巧妙的变通方法和革命性的计算技术,它们使得科学家即使在似然函数未知的情况下,也能够进行稳健的统计推断。在第一章 “原理与机制” 中,我们将深入探讨似然函数变得难解的原因,并探索诸如近似贝叶斯计算(ABC)等完全绕开此问题的方法的基本原理。随后,在 “应用与跨学科联系” 中,我们将见证这些强大的方法在实践中的应用,它们在遗传学、细胞生物学和经济学中揭示秘密,展示了一种基于模拟的发现的普适逻辑。
想象你是一位建筑师,刚刚在图纸上设计了一座宏伟而复杂的教堂。这个设计就是你对世界的模型,其中包含了所有优美的规则和关系。你的参数,我们称之为 ,是你蓝图中的关键尺寸——塔尖的高度、墙壁的厚度、拱门的曲率。现在,你走向世界,发现了一座真实的古老教堂。这就是你的数据。关键问题是:你的设计能否产生这座特定的建筑?
要回答这个问题,我们需要一种方法将蓝图与建筑联系起来。在科学中,这种联系是通过一个强大的概念——似然函数——来建立的,通常写作 。它回答了一个非常具体的问题:“假设你的蓝图(即参数设置为 的模型)是正确的,那么你最终得到我们眼前这座确切建筑(即数据)的概率是多少?”通过找到使该似然最大化的参数 ,我们就能找到最能解释所观测到的现实的蓝图。这是现代统计推断的基石。
对于许多简单问题,这种方法非常有效。但当我们的模型变得像它们试图描述的现实一样复杂和优美时,会发生什么呢?当我们的蓝图不再是纸上的几条线,而是一个新兴恒星、一个演化中的生态系统或一个细胞内繁忙分子城市的动态模拟时,又会发生什么?在这里,我们常常会遇到一个巨大的障碍:难解似然。
对于我们最宏大的科学模型,似然函数会变成一个巨大而不可知的实体。我们无法写下它,也无法计算它。我们有蓝图,也有建筑,但它们之间的数学桥梁已经坍塌。为什么会这样呢?
这是一个复杂性超乎想象的问题,一个组合学的怪物。考虑一下试图根据DNA样本来理解一个群体的遗传史。我们数据中特定遗传模式的似然,取决于连接样本中每个人的确切祖先家族树。为了得到真实的似然,我们必须为每一个可能的家族树计算我们数据的概率,然后将它们全部平均。即使对于一个中等规模的人群样本,可能的谱系树数量也比已知宇宙中的原子数量还要多。这不仅仅是计算困难,而是根本不可能。
或者,想象一下观察一个化学反应,一场分子的微观舞蹈。我们系统的状态——每种分子的数量——随着每一次随机的分子碰撞而改变。一分钟后达到某个化学浓度的似然,取决于反应可能采取的无数条路径——在每个可能的时间点上,每一个可能的碰撞序列。对所有这些路径求和,相当于一个维度高到可怕的无限维积分。
在这些情况,以及宇宙学、经济学等许多其他领域中,我们都矗立在一堵巨大的墙前。我们可以用我们的模型来模拟现实,就像一台能吐出新的、虚假数据的引擎一样。但我们无法反向运行这台引擎,来询问我们的真实数据出现的可能性有多大。那么我们该怎么办?是放弃并退回到更简单、不那么现实的模型吗?不!这正是现代科学天才闪耀的地方。如果我们无法翻越这堵墙,我们就巧妙地绕过去。
有时,这堵墙上有一扇暗门。当我们的似然只是部分难解时,这种情况就会发生。在许多贝叶斯推断问题中,我们真正想要的是后验分布 ,它告诉我们在给定我们所看到的数据的情况下,我们参数的概率。贝叶斯定理告诉我们,它与似然乘以我们对参数的先验信念成正比:
为了使其成为一个总和为一的合规概率分布,我们必须除以一个归一化常数,通常称为边际似然或证据,。这个 是在所有可能参数上的平均似然,,它本身也常常是一个难解的积分。因此,虽然我们可以计算后验分布的形状,但我们不知道其绝对的高度。
在这里,一类名为马尔可夫链蒙特卡洛(MCMC)的巧妙算法应运而生。其中最著名的一种是Metropolis-Hastings 算法。它不试图绘制整个后验分布的全貌,而是规定了一种在参数空间中“行走”的巧妙方式。在每一步,你都提议移动到一个新位置。然后,你以一定的概率决定是否接受这次移动。
奇妙之处在于:接受概率仅取决于新旧位置后验密度的比率。当你构建这个比率时,那个难解的常数 同时出现在分子和分母中,并奇迹般地被抵消了!
这意义深远。这意味着我们可以完全按照一个概率分布的密度比例来探索它,而根本不需要计算密度本身!这就像在浓雾中探索一个山脉。你可能不知道自己的绝对海拔,也不知道最高峰有多高,但通过检查每一步是上坡还是下坡,你就可以制定策略来绘制整个山脉的地图。MCMC 让我们能对参数做同样的事情,当难解性仅限于那个恼人的常数 时,它提供了一个强大的解决方案。
但如果问题更严重呢?如果像在我们的遗传学和化学例子中那样,我们甚至无法计算似然项 本身呢?现在我们甚至无法判断一步是上坡还是下坡。MCMC 的技巧行不通了。我们需要一种完全不同的哲学。
这种新哲学被称为近似贝叶斯计算(ABC),其核心思想简单直观得令人惊叹:
如果你的模型能很好地描述现实,那么从你的模型中进行的模拟,其结果应该看起来与你观测到的真实数据相似。
这将整个问题从计算概率转向了比较模式。最简单的 ABC 算法,即拒绝抽样,其工作方式如下:
从你的先验分布(你的初始信念)中抽取一个样本,作为对参数 的猜测。
将这些参数输入到你的模型中并进行一次完整模拟,生成一个合成的(或“假的”)数据集 。
将你的假数据 与你的真实世界数据 进行比较。
如果假数据与真实数据“足够接近”,你就保留你猜测的参数 。否则,就丢弃它。
重复这个过程数百万次。
你保留下来的参数值的集合就构成了对后验分布的一个近似!我们完全绕开了编写似然函数的需求。我们只是让模型通过模拟自己说话。在一个简单的理想情况下,如果我们要求模拟的某个关键方面与我们的数据完全匹配,那么 ABC 过程就等同于用数据的刀切割我们的先验分布,只留下与我们所见兼容的参数。
当然,魔鬼在细节中。ABC 的实际成功取决于我们如何定义“足够接近”,这个过程既是一门艺术,也是一门科学。这个挑战可以分解为三个关键问题。
第一:我们如何比较数据集? 比较整个高维数据集,比如完整的基因组或股票价格的时间序列,是不切实际的。模拟与真实数据完全匹配的概率为零。解决方案不是比较数据本身,而是比较少数几个摘要统计量。这些是精心挑选的数字,将复杂的数据提炼为其基本特征——例如,一个群体中的平均遗传多样性,或一种金融资产的波动性。
第二:我们选择哪些摘要统计量? 这个选择至关重要。一组糟糕的摘要统计量会让你误入歧途。理想的摘要统计量是高度信息丰富的——当你改变你关心的参数时,它会敏感地变化。你想把比较的焦点放在数据中真正持有信息的特征上,而忽略那些只是随机噪声的特征。这关乎于找到信号并忽略噪音。
第三:我们如何测量距离并设定阈值? 一旦我们有了摘要统计量,比如来自真实数据的 和来自模拟的 ,我们就需要一个距离度量 来量化它们之间的差距。如果摘要统计量处于完全不同的尺度上,或者有不同的自然变异量,一个简单的欧几里得距离可能会产生误导。更复杂的度量,如马氏距离,可以考虑这些差异,就像一把经过适当校准的尺子。
然后我们必须选择一个容忍度 。如果一个模拟的距离小于 ,我们就接受它。这就建立了一个根本性的妥协,这是所有科学中最优美和普遍的权衡之一:偏差-方差权衡。
驾驭这种权衡是应用 ABC 的艺术和科学的核心。
ABC 是一个强大的工具,但它不是唯一的。同样本着有原则的近似精神,人们也提出了其他创造性的解决方案来绕过难解之墙。
一个优雅的想法是合成似然。它像 ABC 一样开始:对于给定的参数 ,我们运行许多模拟,并从每个模拟中收集摘要统计量。但我们不只是比较距离,而是观察模拟摘要统计量的整个云团,并为其拟合一个简单的、可解的概率分布——通常是多元正态分布(多维度的钟形曲线)。这个拟合的分布就成了我们新的似然函数。这是一个“合成的”似然,从模拟中构建而来,然后我们可以将其插入到像 MCMC 这样的标准、强大的方法中。这是一个美丽的混合体,它将模拟与似然推断的正式机制结合起来。
另一种方法,用于模型有许多相互作用的部分时,是复合似然。其思想是通过将数据的更小、可管理块(如数据点对)的似然相乘,来构建一个可解但“不正确”的似然,并故意忽略这些块并非真正独立的事实。这看起来像作弊!但值得注意的是,由此产生的估计量通常是一致的——当你获得更多数据时,它会收敛到正确的答案。问题在于,因为你忽略了相关性,你的不确定性估计(你的误差棒)将会是错误的。它们通常过于乐观。但即使是这个问题,也可以通过更高级的统计工具(如“三明治估计量”)来修正,这些工具可以校正被忽略的依赖性。
我们的旅程始于对完美似然函数的理想,那座连接我们模型与现实的唯一真桥。我们撞上了难解之墙,这是由我们希望理解的系统本身的深刻复杂性所筑起的一道屏障。但是,我们没有承认失败,而是找到了一系列巧妙的绕行方法。
无论是 MCMC 的常数抵消技巧,ABC 的“模拟-比较”精神,还是合成似然和复合似然的“建新桥”策略,其潜在主题都是创造性和有原则的近似。它反映了科学过程的一个深刻真理。科学并非总是关乎寻找精确、完美的答案。它关乎理解我们的模型,理解我们的数据,以及最重要的是,理解我们连接这两者的能力的局限。在那片诚实的近似空间中,蕴含着科学的大量优美、创造力和进步。
在我们之前的讨论中,我们探讨了一种奇特的情况:我们能够以完美的清晰度描述一个游戏的规则,却发现自己完全无法计算任何特定结果的概率。似然函数,这座连接我们模型参数与数据的数学桥梁,变成了一道无法逾越的鸿沟——它是“难解的”。这似乎是一个令人瘫痪的挫折,是科学探究道路上的一个句号。但是,正如科学中常有的情况,需求是发明之母。当直接计算失败时,我们学会了模拟。
这个核心思想既简单又强大。如果你无法从证据倒推出原因,那么就从一个猜测的原因正向推导出其结果,然后看看它们是否与证据相符。把科学家想象成一个试图识别嫌疑人的侦探。指纹证据模糊不清,无法辨认(一个难解的似然)。你能做什么呢?你建立一个“嫌疑人模拟器”。你给它输入一个潜在嫌疑人的特征(模型参数),机器就会生成一个模拟的指纹。然后你将这个伪造品与模糊的证据进行比较。如果匹配度差,你就调整嫌疑人的特征再试一次。如果匹配度高,你就找到了一个有希望的线索。通过成千上万次的重复,你就能建立起最可能罪犯的画像。这种“模拟-比较”的策略是一系列革命性技术的核心,这些技术为遗传学、经济学和细胞生物学等截然不同的领域中的难题开辟了道路。
或许没有任何地方比生命本身的研究更能体现难解性的挑战。演化是一场宏大而随机的戏剧,由机遇和必然性作用于亿万年间无数个体的累积效应驱动。写下一个现代群体的基因构成所源自的确切概率,是一项宇宙级的荒诞任务。然而,我们可以模拟它。
想象我们想要测量演化的力量——自然选择。我们可能有一个群体的数据,显示某个基因变异在50代内变得更加普遍。这是由于选择,还是仅仅是随机运气(遗传学家称之为遗传漂变)?传统的似然函数是一团纠缠不清的分支概率。相反,我们可以创建一个数字生态箱,一个基于经典 Wright–Fisher 模型的模拟,它能演示繁殖、选择和漂变的过程。我们可以将“选择强度”的旋钮,比如说参数 ,设置到一个特定的值并运行模拟。最后,我们看看我们模拟群体中的变化是否像真实群体中的变化。通过对许多不同的 值重复此过程,我们可以生成选择系数的整个 plausibile 值分布,从而有效地对演化进行一次测量。
这种“模拟-比较”的逻辑可以用来解开更复杂的演化之谜。例如,我们如何确定一种蝴蝶的关键基因是从古老祖先那里继承的,还是最近通过与其他物种杂交获得的?这个过程被称为适应性渐渗,它在基因组中留下了微妙的指纹。完整的似然函数同样是遥不可及的。但我们可以定义一套巧妙的线索,或称“摘要统计量”:比如与供体物种共享的DNA片段的平均长度,或者共享遗传变异的不平衡性。然后我们可以模拟不同的历史情景——一个没有杂交,一个有中性杂交,还有一个是杂交基因受到选择强烈青睐的情景。每种情景都会产生一种独特的线索模式。通过找出哪种模拟的线索与我们真实蝴蝶基因组中的线索最匹配,我们就可以进行一种基因组取证,从一系列嫌疑犯中选择最可能的演化历史。这使我们的方法成为一种强大的模型选择工具。
当我们处理真正微妙的问题时,这种方法真正的美感就显现出来了。考虑一个面临新环境压力(如长期干旱)的群体。如果群体适应了,这是因为其成员天生具有灵活性——一种称为可塑性的现象——还是最初的灵活性仅仅为更慢的基因变化“固化”适应过程赢得了时间,这个过程被称为遗传同化?原始数据,一个简单的关于表现出耐旱性状的个体数量的时间序列,可能是模棱两可的。神奇的技巧在于设计能够捕捉过程动态特征的摘要统计量。例如,我们可以测量环境(干旱)和性状之间的相关性如何随时间变化。纯粹的可塑性会保持强烈的相关性,而遗传同化则会显示随着性状变得遗传渠道化,相关性减弱。通过模拟这两种假说并比较这些动态特征,我们可以解开两个深度交织的演化过程。这揭示了这些方法的艺术不仅在于模拟本身,还在于创造性地选择测量什么。
如果我们从群体的尺度放大到单个细胞内分子的微观舞蹈,这个世界就更加被随机性所主导。在这里,难解似然不是例外,而是常态。
考虑一个单个细胞响应化学引诱剂迁移的旅程。它的路径是一个“随机游走”,一系列抖动、不可预测的步子。询问观察到确切路径的概率是无意义的;对于任何连续路径,其概率在技术上都是零。但我们可以问一个更有意义的问题。我们可以通过“持久性”()和“方向偏好”()等参数来描述细胞的运动,前者控制其运动的直线倾向,后者衡量引诱剂的拉力。要估计这些参数,我们不需要确切的路径。我们可以对其进行总结,例如,通过它朝向信号的净位移与它行进的总路径长度的比率。然后我们可以用不同的 和 值模拟成千上万个虚拟细胞,并发现哪些参数设置产生的轨迹与我们真实细胞具有相同的摘要度量。
这种逻辑在合成生物学中具有变革性意义,工程师们旨在设计和构建新的生物电路。一个经典的例子是“基因拨动开关”,一对相互抑制的基因,创造出一个可以存在于两种状态之一的双稳态系统。基因表达的根本过程是“脉冲式”和随机的。这意味着一群遗传上相同的细胞会显示出广泛的,并且常常是双峰的蛋白质水平分布。如果天真地尝试拟合一个假设钟形(高斯)分布的简单统计模型,结果不仅不准确,而且毫无意义。该模型对数据最重要的特征——其双峰性——视而不见。
然而,近似贝叶斯计算(ABC)在这方面表现出色。它不依赖于诸如均值和方差之类的几个简单矩,而是可以比较我们模拟中分布的整个形状与我们实验数据中的分布。使用复杂的距离度量,如“推土机距离”(Earth Mover's Distance),它衡量将一个分布转换为另一个分布所需的“功”,ABC可以“看到”像双峰性这样的特征。它会偏好那些能再现拨动开关两种不同状态的参数值,从而提供远为真实的推断。这表明,基于模拟的方法不仅仅是在似然函数难以处理时的拐杖;当现实比我们简单的统计公式更复杂时,它们是更优越的工具。通过周到的统计设计,例如使用马氏距离等度量来适当地加权和组合来自多个相关摘要统计量的信息,可以进一步增强该方法的威力。
连接这些例子的哲学主线——即模拟可以替代难解的计算——并不仅限于生物学。它在一个看似遥远的领域——经济学——中被独立发现并得到强有力的应用。
经济学家经常构建“结构模型”来解释个人或公司做出的复杂、动态的选择。例如,哪些因素影响一个人每年进入劳动力市场的决定?真实的模型可能涉及未被观察到的个人特质和对收入潜力的序列相关冲击,使得计算一个人整个工作历史的确切似然变得不可能。
为了解决这个问题,经济学家们发展出了像模拟矩估计法(SMM)和间接推断(II)这样的技术。这些是ABC的深层哲学表亲。例如,在间接推断中,研究人员可能会采取一个巧妙的两步法。首先,他们将一个简单的、可解的(即使技术上是“错误”的)辅助模型——比如说,一个标准的逻辑回归——拟合到真实世界的数据上。这给了他们一组辅助参数。然后,他们转向他们复杂的结构模型。他们使用对真实结构参数的猜测来从中模拟数据,然后将同一个简单的辅助模型拟合到这个模拟数据上。目标是调整复杂模型的旋钮,直到简单模型在真实和模拟数据上产生相同的参数估计。我们使用简单模型作为共同的标尺。这种方法不仅提供了一条绕过难解似然的路径,而且通常还具有平滑优化问题的美妙副作用,使其在计算上更容易解决。这种思想的平行演化突显了其底层逻辑的普适力量。
旅程并未在此结束。“模拟-比较”范式正被推向更高、更令人惊叹的复杂程度。如果我们试图追踪一个系统,不仅其状态是未知的,而且支配其动态的参数本身也是未知且可能变化的,那该怎么办?
考虑追踪一颗卫星,其运动由一个复杂的随机微分方程描述,但该方程中的一些物理常数本身是不确定的。这是一个状态与参数的联合估计问题。基于模拟的推断的前沿技术提供了一个极其优雅的解决方案:序贯蒙特卡洛平方(SMC)算法。
该方法采用了一种嵌套的、分层的模拟——一个粒子滤波器套着另一个粒子滤波器。想象一个“外层”的计算粒子,每个粒子代表一套完整的可能物理定律(一个参数向量 )。现在,对于每一个这样的参数粒子,我们运行一个独立的“内层”粒子滤波器,它使用那些特定的定律来追踪卫星的可观测状态。当来自真实卫星的新观测数据传来时,我们检查每个内层滤波器预测得有多好。那些内层滤波器做出最佳预测的外层参数粒子将被赋予更大的权重。整个系统在运行中学习,同时提炼其对卫星位置的估计以及对其运动规律的理解。这是一场宏大的、由平行宇宙组成的计算锦标赛,那些最能匹配现实的宇宙将不断得到奖励和复制。像这样的算法,依赖于“伪边际原理”等深刻结果来确保其有效性,代表了该领域的前沿。
从一个物种的漫长历史,到一个分子的狂乱抖动,从一个个体的晦涩选择,到一个金融市场的隐藏动态,一个统一的原则已经浮现。当从观察回到理论的路径在数学上无法通行时,我们用计算能力武装自己,开辟一条新的道路:我们模拟,我们比较,我们学习。
这不仅仅代表一套新工具;它反映了科学过程中的一个范式转变。我们不再受限于构建那些足够简单以至于可以解析求解的模型。我们现在可以自由地想象和构建那些与我们试图理解的现象一样丰富、复杂和随机的模型。计算已经成为一座桥梁,连接我们最宏大的理论与可观测世界的纷繁、优美的现实,开启了直到最近还遥不可及的探究前沿。