
在理解世界的探索中,贝叶斯推断是一块基石,它允许科学家根据新数据更新他们对模型参数的信念。这一过程的核心在于似然函数——一个量化在给定一组特定模型参数的情况下,我们观测到的数据有多大概率出现的数学表达式。对于简单的系统,这个函数很容易定义。然而,当我们的模型为了反映自然的真实复杂性而变得越来越复杂时,从一个物种的遗传历史到宇宙的演化,似然函数常常变成一个数学怪物,复杂到无法计算。这种“似然的暴政”构成了一个巨大的障碍,似乎使得许多最有趣的科学问题无法进行贝叶斯分析。
那么,当贝叶斯定理的核心组成部分我们无法掌握时,我们如何进行推断呢?本文将介绍近似贝叶斯计算(ABC),一类优雅地回避了这一问题的革命性方法。ABC代表了一种哲学上的转变:如果你无法解析地计算出你的数据的概率,但你可以模拟产生数据的过程,那么你仍然可以进行推断。这是一种强大的、基于模拟的方法,开辟了新的发现前沿。
本文将引导您进入无似然推断的世界。在第一章“原理与机制”中,我们将剖析ABC的核心逻辑,探索它如何通过巧妙的近似,将一个难以处理的数学问题转变为一个可通过计算解决的挑战。随后的“应用与跨学科联系”一章将带您游览各个科学学科,展示ABC如何被用作一个强大的透镜,以重构过去并理解当今的复杂系统。
科学家的目标常常是扮演侦探的角色。我们手头有数据——即“线索”——以及一系列嫌疑对象,也就是我们的科学模型可能产生这些线索的不同方式。在贝叶斯推断中,我们的“模型”是一个由一组参数定义的数学机器,我们称之为。这些参数是我们机器上的旋钮和刻度盘——可以想象成宇宙学模型中的引力强度,或遗传模型中的突变率。我们的工作是利用观测到的数据,我们称之为,来判断哪些值是合理的,哪些不是。贝叶斯定理是我们解决这个问题的万能钥匙,它优雅地指出,在看到数据之后我们参数的合理性(即后验分布,)与它们在看到数据之前的合理性(即先验分布,)成正比,再乘以一个关键项:似然,。
似然是问题的核心。它提出了一个简单的问题:“如果宇宙的真实参数是,那么观测到我们实际得到的数据的概率会是多少?”对于简单的模型,我们可以写下一个漂亮、简洁的似然公式。但当我们的模型变得和现实本身一样复杂和混乱时,会发生什么呢?
想象一下,试图写出一个鸟类种群中数百万个DNA字母特定排列的精确概率,同时要考虑到它们的迁徙模式、历史上的种群瓶颈、自然选择以及数千代基因的随机重组。这个似然的公式将是一个数学怪物,一个在令人难以置信的浩瀚可能祖先历史空间上的积分。这就是数学家所说的难以处理(intractable)——一个表示“无法计算”的委婉说法。在科学前沿的一大类问题中,从流行病学到天体物理学,我们能够写下我们模型的规则,但却无法写出其似然函数。我们似乎陷入了僵局。如果贝叶斯定理的核心部分我们无法掌握,我们又怎么可能进行贝叶斯推断呢?
正是在这里,一个极其简单、近乎哲学的视角转变为我们提供了解决方案。这个想法是:如果我们根本不需要计算似然函数呢?我们有一个模型,一台我们完全理解其规则的机器。我们或许无法写出它产出的公式,但我们可以运行它。我们可以模拟它。这就是近似贝叶斯计算(ABC)的核心洞见。
让我们用一个类比来说明。假设你是一家烘焙比赛的评委。一位参赛者给了你一个蛋糕(),但你弄丢了食谱()。你无法“反向烘焙”这个蛋糕来找出食谱(这就是我们难以处理的似然)。但面包师还在厨房。你可以让他们用各种尝试的食谱()来烘焙新的蛋糕()。你的策略很简单:
你最终保留下来的食谱集合构成了后验分布的一个近似。你没有写下任何烘焙的物理和化学原理,就推断出了可能的食谱。这就是为什么ABC常被称为无似然(likelihood-free)方法。它用计算上的暴力模拟取代了困难的解析计算。
举一个科学上的例子,考虑推断一个种群中某个基因受到的自然选择强度。我们可以创建一个计算机模拟,模拟一个根据一套规则(Wright-Fisher模型)生存、繁殖和死亡的生物种群。我们可以设置选择强度参数,并观察一个基因的频率如何随世代变化。为了进行ABC,我们会反复猜测一个值,运行模拟,然后看我们模拟种群的最终遗传构成是否与我们在野外观察到的相似。
当然,凡事皆有代价。上面描述的简单程序有一个致命的缺陷。模拟出一个与观测蛋糕完全相同,连最后一粒面包屑都一样的蛋糕的概率几乎为零。我们将在厨房里永远等待,拒绝每一个蛋糕。为了使这个想法变得可行,ABC依赖于三个巧妙的近似。
我们不比较整个、极其复杂的数据集,而是比较少数几个精心挑选的特征,即摘要统计量。我们不逐个面包屑地比较蛋糕,而是比较它们的重量、高度、含糖量。在遗传学中,我们可能不比较整个基因组,而是比较一些统计数据,比如个体间的平均遗传差异数,或者种群间的遗传分化程度。
这是第一个近似来源。通过对数据进行摘要,我们不可避免地会丢弃一些信息。关键在于选择能够捕捉到与我们关心的参数最相关信息的统计量。如果一个统计量捕捉到了所有相关信息,它就被称为充分的(sufficient)。有了充分统计量,我们就不会损失任何东西。在现实世界中,为一个复杂模型找到一个低维度的充分统计量集合是极其罕见的。因此,我们ABC推断的质量从根本上受到我们选择摘要统计量的智慧的限制。如果我们试图推断一个主要影响基因间连锁模式的参数,但我们只使用一个忽略连锁的摘要统计量(比如位点频率谱),那么无论我们投入多少计算能力,我们的推断都会很差。
第二个近似是,即使对于摘要统计量,我们也不要求完全匹配。我们引入一个距离度量,来衡量模拟摘要与观测摘要之间的差距。然后我们定义一个容忍度,如果距离在这个容忍度之内,我们就接受这个参数提议:。
这个容忍度是控制准确性与速度之间权衡的旋钮。如果很大,我们会接受很多提议,计算速度很快,但我们对后验分布的近似就很粗糙。如果我们将缩小到零,我们的近似会越来越好。在的理论极限下,ABC给出了基于我们摘要统计量的精确后验。但随着的缩小,我们的接受率会骤降,所需的模拟次数可能变得天文数字般巨大。
我们可以非常直观地看到这个容忍度的效果。在一个真实似然是高斯分布(钟形曲线)的简单案例中,使用高斯形状的接受规则和容忍度进行ABC,在数学上等同于进行精确的贝叶斯推断,但作用于一个“模糊化”的似然上。ABC似然的方差变成了真实方差与一个和相关的额外项之和。容忍度实际上模糊了似然,而模糊的程度则由我们控制。好消息是,由此引入的误差通常与成比例地缩小,这意味着随着我们收紧标准,近似会相当快地变好。
第三个关键选择是距离度量本身。我们应该如何衡量摘要之间的“距离”?如果我们的摘要向量有多个分量——比如说,一个统计量在0到1之间变化,另一个在100到1,000,000之间变化——一个简单的欧几里得距离将完全被后者主导。算法会将其所有精力集中在匹配那个数值大、噪声也大的统计量上,而忽略了来自较小统计量的可能更有信息量的信号。
距离的选择定义了我们接受区域的几何形状,并直接塑造了我们最终的后验分布。一种更复杂的方法是,用每个摘要统计量的标准差来对其进行缩放,或者更好的方法是,使用马氏距离(Mahalanobis distance)。这种高级度量方法会自动考虑统计量的不同尺度以及它们之间的任何相关性。这就像戴上了一副定制的眼镜,让算法能够恰当地权衡来自每一条信息的证据,从而得到更高效、更准确的结果。
有了这些原理,ABC就变成了一场在权衡中进行的强大而精妙的舞蹈。最大的挑战之一是维度灾难。人们很容易认为,添加越来越多的摘要统计量总会通过让我们更接近充分性来改善我们的推断。但每个新的统计量都为我们测量距离的空间增加了一个维度。高维空间的体积是出了名的反直觉;随着维度数量的增长,“接受区域”(一个半径为的超球面)在总体积中所占的比例变得无限小。这意味着我们的接受率会崩溃,计算成本会爆炸式增长。ABC的艺术在于选择少量但信息量极高的统计量。
为了应对巨大的计算成本,研究人员已经开发出了一些巧妙的策略。例如,序贯ABC(sequential ABC)使用一个多阶段的过滤过程。它首先使用一个计算成本低、较粗略的摘要来快速拒绝最离谱的参数提议,只对更有希望的候选者进行昂贵的、完整的模拟和比较。这可以显著提高效率。其他技术则将ABC近似嵌入到更复杂的采样算法中,如马尔可夫链蒙特卡洛(MCMC),创造出强大的混合方法。
尽管有所有这些近似,ABC仍然建立在坚实的理论基础之上。其最强大的特性之一是一致性(consistency)。即使我们的摘要统计量对于有限的数据量不是充分的,但如果选择的统计量使得随着数据量增长到无穷大,它们会为每个可能的参数收敛到一个唯一的值,那么ABC后验将集中在真实的参数值上。这给了我们信心,对于现代科学的海量数据集,ABC正在引导我们走向正确的方向。通过让我们能够拟合以前无法触及的模型,近似贝叶斯计算开辟了全新的发现途径,将难以处理的数学问题转变为可通过模拟和计算解决的挑战。这是人类智慧在面对自然复杂性时的一个美丽典范。
掌握了近似贝叶斯计算的优雅机制后,我们现在就像装备了新型强大透镜的探险家。借助这个透镜,我们可以窥探那些因其数学描述极其繁琐而无法分析的复杂系统。ABC的真正美妙之处不在于其巧妙的算法,而在于其惊人的普适性。对于任何一个我们可以讲述其来龙去脉——即一个生成模型——但却无法轻易地从观察反推原因的学科,它都是一个有用的工具。让我们踏上一段跨越科学领域的旅程,见证这个工具包的实际应用。
一些最深刻的科学问题是历史性的。我们只有一个当下,一个关于宇宙、生命多样性、我们自身遗传遗产的单一快照。然而,我们希望从这一帧画面中,重构出过去的宏大影片。正是在这里,ABC作为一台名副其实的时间机器大放异彩。其逻辑简单而深刻:我们通过将不同的历史“剧本”(模型)向前模拟来测试它们。那个能产生与我们自己最相似的模拟当下的剧本,就是我们所青睐的。
想象一下,试图拼凑出人类迁徙的宏大叙事。来自一个新发现人群的遗传数据提供了线索,但我们如何解读它们?也许这个群体是从非洲一个单一、庞大的祖先群体中分支出来的(“单一来源”模型)。又或者,它是由两个古老、长期分离的非洲群体混合而成的(“混合来源”模型)。我们无法为每种故事下看到他们基因组的概率写下一个简单的方程式。但我们可以模拟这两种故事。我们可以在每种情景下,模拟遗传漂变、突变和混合成千上万次。通过将我们模拟出的遗传摘要统计量与真实数据进行比较,ABC让我们能够计算每个模型的后验概率。然后,我们甚至可以考虑先前的考古学知识来权衡证据,以决定关于我们起源的哪个故事更可信。
同样的逻辑可以从我们物种的历史扩展到所有物种的历史。考虑两个鼠兔种群,这是一种可爱的哺乳动物,现在被隔离在不同的山脉上。它们是在一个大的单一群体被冰川等地质事件分割时产生的(地理隔离)吗?还是它们分离后,在数千年中继续交换少量迁移者(带迁移的隔离)?或者是一个种群最近由另一个种群的少数冒险奠基者形成的(近期扩张)?每一个都是一个独特的历史叙事。通过模拟每个故事的遗传后果,ABC可以计算贝叶斯因子,这是一个量化观测到的遗传数据在多大程度上更支持一个故事而不是另一个故事的指标。它甚至可以帮助揭示“环形物种”的迷人动态,其中环绕障碍物的一系列种群导致新物种的出现,让我们能够检验关于环是如何最初形成的假说。
这台“时间机器”的触角从生物学延伸到宇宙学。最终极的历史问题之一是确定我们宇宙的基本参数,如总物质密度和宇宙结构的团块性。我们的宇宙模型并非简单的公式;它是一个庞大的计算机模拟,将一个虚拟宇宙从大爆炸演化至今。我们无法反向运行这个模拟。但我们可以用不同的和设置多次正向运行它。然后,我们可以让我们的模拟宇宙被一个虚拟望远镜“观测”,以产生,例如,弱引力透镜峰值的直方图——一种质量集中度的度量。ABC将这些模拟直方图与我们真实天空中的直方图进行比较。通过找出哪些参数值能生成看起来像我们宇宙的宇宙,我们就能推断出自然界的基本常数。在这个宏大的舞台上,ABC帮助我们解读宇宙自身的起源故事。
除了重构过去,ABC还是一个剖析当下复杂机制不可或缺的工具。从单个细胞内错综复杂的相互作用网络到整个生态系统的涌现特性,自然界充满了我们可以模拟但无法解析其行为的系统。
考虑构成生命主干的网络,例如细胞中的蛋白质-蛋白质相互作用网络。这些网络通常通过“偏好连接”生长,即新节点更可能连接到已经很受欢迎的节点。这个过程由Barabási-Albert模型等模型描述,其关键参数为,即每个新节点建立的连接数。给定一个最终的静态网络,我们如何推断出创造它的生长规则,即的值?观测到特定网络拓扑的完整似然是极其复杂的。然而,我们可以轻松地模拟不同值的生长过程。ABC通过生成许多模拟网络,并找出哪个值产生的网络具有与真实网络相匹配的摘要结构(如度分布的基尼系数),从而让我们能够推断。
ABC的透镜可以进一步放大,观察单个细胞内基因的随机舞蹈。想象一个设计有正反馈回路的合成基因电路。我们观察到包含该电路的细胞群体显示出双峰的荧光分布——一些细胞处于“关闭”状态(低荧光),一些处于“开启”状态(高荧光)。这种双峰性是源于真正的多稳态,即单个细胞可以在开启和关闭状态之间随机翻转吗?还是源于外在噪声,即每个细胞本身是稳定单峰的,但细胞间的细胞机器差异造成了群体的双峰平均值?两种模型都可以产生相似的静态快照。关键在于动态。ABC的一个绝妙应用,利用来自延时显微镜的摘要统计量,可以区分这两种情景。通过包含捕捉动态的摘要统计量——比如在一段时间内实际转换状态的细胞比例——ABC可以辨别出真正的潜在机制,这是仅凭快照数据无法完成的壮举。
这种推断隐藏过程参数的能力也延伸到跨代表观现象,如表观遗传。生物体的性状可以受到表观遗传标记的影响,这些标记本身可以由环境(如干旱)诱导,并不完美地传递给后代。我们可以建立一个具有潜变量或隐藏状态来表示表观遗传标记的模型。该模型具有环境诱导参数和代际重置参数。我们无法直接看到标记,只能看到它影响的一个数量性状。通过在波动的环境中跟踪这个性状跨越多代,我们可以使用ABC,并精心选择摘要统计量——一些捕捉对环境的平均响应(用于),另一些捕捉性状的时间自相关(用于)——来解开并估计这些非遗传性继承的基本参数。
ABC的力量如此普遍,以至于它可以与其他先进的计算方法相连接并增强它们。考虑一个根据嘈杂的传感器数据实时跟踪移动物体的问题——这是一个由“粒子滤波器”解决的经典问题。粒子滤波器通过维护一团关于物体当前状态的“假设”(粒子)来工作。在每个时间步,它根据新的传感器数据更新每个假设的合理性。这个更新需要一个似然函数。如果似然函数难以处理怎么办?我们可以将ABC直接插入到更新步骤中。对于每个假设的状态,我们模拟一个“伪观测值”,并根据它与真实观测值的接近程度来分配权重。这就创建了一个“ABC粒子滤波器”,一种用于在具有难以处理的似然的系统中跟踪隐藏状态的强大混合算法,展示了ABC概念令人难以置信的模块化特性。
至此,人们可能会想,ABC是不是某种统计魔法。仅仅通过模拟和比较怎么能给我们一个有效的答案呢?当我们看一个简单的例子,比如抛硬币来估计其偏差时,这种魔法就被揭开了。在这里,教科书上的答案是已知的。事实证明,如果我们使用一个“充分统计量”——一个捕捉了数据中关于参数所有信息的摘要(在这种情况下,样本均值是充分的)——来运行ABC,那么当我们的接受容忍度趋于零时,ABC后验分布会收敛到精确、正确的贝叶斯后验。
这就是这台机器的灵魂。ABC不是魔法;它是对精确贝叶斯推断的一种近似。在宇宙学或遗传学的复杂问题中,我们很少有完全充分的统计量。但ABC的艺术和科学在于选择“足够好”的摘要统计量——即能捕捉到大部分相关信息的统计量。这一基本洞见——选择摘要统计量就是选择我们向数据提出的问题——统一了所有这些多样化的应用。从抛硬币到宇宙的诞生,近似贝叶斯计算为我们通过模拟世界来学习世界提供了一个单一、直观且强大的框架。