首页近似贝叶斯计算 (ABC)

近似贝叶斯计算 (ABC)

玻尔百科

定义

近似贝叶斯计算 (ABC) 是贝叶斯统计学中一种重要的计算方法，主要用于处理似然函数难以计算的复杂模拟模型。该方法通过从模型中模拟数据，并接受那些产生的汇总统计量与观测数据足够接近的参数，从而实现参数推断。近似贝叶斯计算 (ABC) 被广泛应用于群体遗传学、工程学和宇宙学等多个领域，是研究复杂系统参数推断和模型比较的多功能工具。

核心要点

近似贝叶斯计算（ABC）使得在似然函数难以处理的复杂、基于仿真的模型中进行贝叶斯推断成为可能。
该方法通过从模型中模拟数据，并接受那些能够生成与观测数据总结统计量“足够接近”的参数来运作。
ABC的准确性涉及一个关键的权衡，即控制精度的接受容忍度（ε）与计算成本之间的权衡。
ABC是一种多功能工具，被广泛应用于群体遗传学、工程学和宇宙学等不同领域，用于推断参数、比较模型和理解复杂系统。

引言

在追求科学理解的过程中，Bayes 定理提供了一个强大的框架，用以根据新证据更新我们的信念。这一过程依赖于似然函数——一座连接理论模型与观测数据的数学桥梁。然而，随着科学模型变得日益复杂，从模拟星系形成到基因的复杂互动，这座桥梁常常会崩塌。对于许多现代的、基于模拟器的模型而言，似然函数根本无法写出，这在我们最前沿的理论与我们用现实检验它们的能力之间留下了一道鸿沟。

这正是近似贝叶斯计算（ABC）所要解决的挑战。它是一种革命性的、概念上优雅的方法，重新建立了这种联系。ABC通过采用一种由仿真驱动的“猜测与检验”哲学，绕过了对似然函数的需求。它主张，如果一个模型能够很好地描述现实，那么它应该能够生成与我们实际观测到的数据相似的数据。本文将揭开这一强大技术的神秘面纱。

首先，在 原理与机制 部分，我们将探讨ABC的工作原理，从其简单的核心思想到使其可行的涉及总结统计量和容忍度阈值的实际近似方法。我们还将审视对于稳健推断至关重要的挑战和验证方法。随后，应用与跨学科联系 部分将带您领略ABC在科学领域的影响，展示它如何被用于揭示生物学中的进化历史、表征工程学中的材料特性，以及探索宇宙学中我们宇宙的基本参数。

原理与机制

想象你是一名试图侦破一桩复杂案件的侦探。你有一组线索——即数据——和一众嫌疑人，每个人都有自己的故事——即一个可能发生事件的模型，其中包含可调整的细节，称为参数。你的工作是找出哪个嫌疑人的故事最能解释这些线索。在科学中，这个过程被一个名为 Bayes 定理的优美逻辑形式化了。它告诉我们如何根据证据来更新我们对嫌疑人的信念（先验概率），从而得出最终的判断（后验概率）。

这个过程的核心，也就是连接你的模型和数据的桥梁，是一个被称为似然函数的概念。对于任何给定的嫌疑人（一组参数 $\theta$ ），似然 $p(\text{data} \mid \theta)$ 告诉你观测到你实际发现的线索的概率。高似然意味着嫌疑人的故事让线索显得合情合理；低似然则意味着这个故事让线索看起来像一个离奇的巧合。整个现代统计学和科学推断的引擎都构建在这座桥梁之上。

但如果这座桥梁崩塌了呢？

当桥梁崩塌时：难以处理的似然函数

在许多科学前沿领域，我们对世界的模型已经变得惊人地复杂。我们可能在模拟宇宙学中星系的形成，或一个种群中基因在数千年间的复杂互动，或化学反应中分子的混沌嘶嘶声。这些模型不再是你可以写在黑板上的简单方程。它们是精密的计算机程序，是生成模型，一步步地模拟一个过程。我们可以给模拟器一组参数（比如宇宙中暗物质的数量），它就会为我们生成一个可供观察的合成宇宙。我们可以做到这一点。我们可以从我们的模型中生成数据。

但问题在于：对于许多这样的模拟器，我们无法写出似然函数。我们可以让故事向前发展，但我们无法计算某个特定结局的概率。为什么？原因很深奥，但直觉却出奇地简单。想象一台机器，设计用来将一粒沙子滴落在一块大画布上。如果这台机器非常复杂，它的输出可能会受到一些微妙的约束。例如，它可能只能沿着一条错综复杂、无限细的线滴下沙子。这条线在画布上的总面积为零。沙粒落在任何不在线上的点的概率都是零。但是，它落在该线上某个特定点的概率密度是多少呢？是无限大！一个行为良好的概率密度函数，即似然函数的概念，就这样失效了。这就是数学家所说的奇异测度，它是复杂模拟器的一个共同特征，这些模拟器的输出具有隐藏的、刚性的结构。

当似然函数难以处理时，理论与数据之间的经典桥梁便不复存在。我们只剩下一个强大但沉默的神谕：一个能够向我们展示我们理论预测结果的模拟器，却无法告诉我们任何特定结果的可能性有多大。我们该如何进行科学研究呢？

一个带有深刻转折的儿童游戏

这正是近似贝叶斯计算（ABC）登场之处，其想法如此简单而优雅，近乎儿戏。如果你无法计算你的理论与数据匹配的似然，为什么不直接试试看呢？

想象一下这个想法的最基本版本。这是一个简单的“猜测与检验”游戏：

从你的先验信念中，为你的模型随机挑选一组参数，比如一个突变率和一个种群大小。
使用这些参数运行你的复杂计算机模拟，生成一个合成数据集。
将你的合成数据与真实的、观测到的数据进行比较。如果它们完全匹配，你就保留你猜测的参数。如果不匹配，你就丢弃它们。
将这个过程重复数百万次。

你最终保留下来的参数集合，惊人地，是来自真实贝叶斯后验分布的完美样本！你没有碰触似然函数就完成了贝叶斯推断。你建造了一座新的桥梁。

当然，这里有一个障碍。对于任何现实的科学问题——从DNA序列到天文图像——数据都非常复杂，以至于模拟结果与其完全匹配的概率实际上为零。你就算把计算机运行到宇宙终结，也可能永远不会接受任何一个参数。这个优美而简单的想法，在其纯粹形式下，是完全不切实际的。

使其可行的两个近似

为了把这个不可能的游戏变成一个革命性的工具，我们需要放宽规则。我们引入了两个“近似”，这赋予了ABC它的名字和力量。

近似1：不比较所有内容，只比较关键部分

我们不再要求整个庞大的模拟数据集与真实数据集完全匹配，而是比较几个关键特征。这些特征被称为总结统计量。对于遗传学家来说，他们可能不会逐个碱基比较两个基因组，而是比较遗传差异的总数，或者一个显示种群中不同突变出现频率的图表（位点频率谱）。

这是第一个近似。通过将一个丰富的数据集简化为少数几个数字，我们不可避免地会丢弃一些信息。ABC的艺术与科学在于选择能够捕捉到我们所关心参数的最相关信息的总结统计量。如果一个参数的主要影响体现在DNA的长程结构上，而我们的总结统计量只测量局部属性，那么无论我们其余的分析多么巧妙，我们的推断都将对该参数视而不见。理想的情况，即充分统计量，是一种不丢失任何信息的总结。虽然这是一个优美的理论概念，但对于那些最需要ABC的复杂模型来说，充分统计量几乎是无法获得的。

近似2：不要求完全匹配，只要“足够接近”

第二个近似是放宽“匹配”的定义。我们不再要求总结统计量完全相同，而是当模拟的总结量 $S_{sim}$ 与观测的总结量 $S_{obs}$ “足够接近”时，就接受它。我们用两个要素来定义“足够接近”：一个用于衡量总结量之间差距的距离函数 $\rho(S_{sim}, S_{obs})$ ，以及一个容忍度 $\epsilon$ 。如果距离小于我们的容忍度，我们就接受该参数。

因此，实用的ABC拒绝算法如下所示：

从先验分布中抽取参数 $\theta$ 。
从模型 $p(x \mid \theta)$ 中模拟数据 $x'$ 。
计算总结统计量 $S(x')$ 。
如果 $\rho(S(x'), S_{obs}) \le \epsilon$ ，则接受 $\theta$ 。否则，拒绝它。
返回第1步并重复。

被接受的 $\theta$ 值集合构成了我们的近似后验分布。我们用一个可以计算的东西取代了难以处理的似然 $p(S_{obs} \mid \theta)$ ：即生成一个落在我们观测总结量周围小气泡内的模拟的概率。

细节决定成败：校准你的ABC机器

这个简单的算法功能极其强大，但它不是一个神奇的黑匣子。这两个近似引入了我们必须掌握的微妙之处。

首先，存在一个涉及容忍度 $\epsilon$ 的根本性权衡。如果你选择一个非常大的 $\epsilon$ ，你的接受气泡就会很大，你会很快接受参数。但你的近似会很粗糙，模糊了后验分布的特征。当你将 $\epsilon$ 缩小至零时，你的近似会越来越精确，收敛到基于你所选总结统计量的精确后验。然而，你的接受率——即落入气泡内的模拟比例——会急剧下降。

随着你增加更多的总结统计量，这个问题会变得更加严重。这就是臭名昭著的维度灾难。想象你的总结统计量只是一个数字。你的接受区域是一条线上的一个小区间。现在想象它是两个数字。接受区域是平面上的一个小圆。如果是三个，它就是空间中的一个小球。这个接受区域的“体积”随着你增加维度而呈指数级缩小。为了在高维总结空间中获得任何接受的样本，你被迫使用一个大的 $\epsilon$ ，但这又违背了近似的目的。因此，ABC的艺术在于一个精妙的平衡：选择一小组信息量极大的总结统计量。

其次，距离函数 $\rho$ 的选择至关重要。它定义了你的接受气泡的形状，并决定了你最关心哪些差异。假设你的一个总结统计量天然就有很大的噪声和方差，而另一个则非常精确。一个简单的欧几里得（“直线”）距离将完全被那个带噪声的统计量所主导。你最终会接受那些匹配噪声但忽略信号的模拟。一个更好的方法是对总结量进行缩放，给予更精确的统计量更大的权重。一个更复杂的方法是使用马氏距离（Mahalanobis distance），它同时考虑了总结量之间的方差和相关性，从而有效地学习接受气泡的最佳形状。

我们如何知道我们不是在自欺欺人？

鉴于所有这些近似——总结量、容忍度——我们如何能相信ABC分析得出的最终后验分布？我们是否只是在拟合噪声？这就是科学方法向内反思的地方，我们测试我们自己的工具。

验证像ABC这样的贝叶斯方法的黄金标准是一个称为基于仿真的校准 (SBC) 的程序。其逻辑简单而深刻：如果我们的推断机器工作正常，它在平均意义上应该是无偏的。如果我们用它来分析我们已经知道正确答案的数据，它应该能恢复那个答案。

SBC循环的工作方式如下：

想象你是“自然之神”。通过从先验分布中抽样，为你的模型挑选一组“真实”参数。这是你隐藏的基准真相。
使用这些真实参数运行你的完整模拟，生成一个合成的“观测”数据集。
现在，戴上你的“侦探”帽子。假装你不知道真实参数，并使用你完整的ABC流程来分析你刚刚创建的合成数据集。这将给你一个近似的后验分布。
检查“真实”参数（你在第1步中知道的）在你刚刚计算出的后验分布中的位置。它是在最低的10%？最高的5%？还是中间？计算它的秩次。
将整个过程重复数千次，每次都使用一个新的“真实”参数和一个新的合成数据集。

如果你的ABC流程校准良好，“真实”参数应该以相等的频率落在它们各自后验分布的每个分位数中。所有模拟的秩次图应该是一条平坦的线，就像一个均匀分布。如果图是U形的，说明你的后验分布太窄（过于自信）。如果它是驼峰形的，说明它们太宽（不够自信）。如果它是偏斜的，说明你的估计有偏差。SBC是一个强大的诊断工具，它让我们在将推断机器应用于真实数据之前对其进行调试，确保我们实际上没有在自欺欺人。

最终，近似贝叶斯计算不仅仅是一种巧妙的算法。它是一种哲学宣言。它断言，如果你能写下一个关于数据如何产生的生成性故事，即使你无法在数学上对其进行逆向推导，你仍然可以进行严谨、有原则的贝叶斯推断。它将统计推理的力量带到了现代科学中复杂的、基于模拟的前沿，让我们能够用数据的判断来面对我们最宏大的理论。

应用与跨学科联系

既然我们已经探讨了近似贝叶斯计算的“如何做”，现在让我们踏上一段旅程，去探索“为什么”。为什么这种思维方式变得如此不可或缺？ABC的美妙之处不在于某些深奥的数学复杂性——实际上，其核心思想极其简单——而在于其惊人的普适性。它是一把万能钥匙，能够解开那些乍看之下似乎风马牛不相及的科学领域的秘密。

把ABC想象成一位全能侦探。这位侦探被召集到一个场景——我们宇宙的观测数据——但主要嫌疑人，即产生这个场景的复杂自然机制，拒绝被直接审问。描述该场景概率的数学方程，即我们的似然函数，根本无法处理。我们的侦探能做什么呢？他们做了一件非常聪明的事。他们不试图强行逼供，而是建立了一个“嫌疑人模拟器”军团。每个模拟器都是一个关于可能发生了什么的模型，由不同的动机、不同的参数集驱动。每个模拟器都会创建一个犯罪现场的复制品。侦探的工作就是在这个赝品陈列馆中穿行，只保留那些与真实场景几乎无法区分的复制品。从这些被接受的复制品中收集到的动机——即参数——就构成了我们可能的元凶列表。

正是这一单一、优雅的策略，让我们能够应对一些可以想象到的最复杂的系统。让我们来一次巡游，看看这位侦探是如何工作的。

揭开生命之线的奥秘

我们的第一站是充满活力而又混乱的生物学世界，在这里，生命的过程往往过于复杂，难以用简洁的方程来描述。思考一下进化本身的引擎：自然选择。我们随处可见其结果，但我们如何衡量其强度？想象一个生物种群，用经典的 Wright-Fisher 框架建模，其中某个特定的基因变异可能带来微弱的优势。我们可以很容易地写下模拟的规则——选择、交配和遗传漂变的随机性。但是，要计算在给定选择强度 $s$ 的情况下，达到我们今天在种群中看到的基因频率的确切概率？那简直是一场噩梦。

在这里，ABC前来救援。我们不需要那个方程。我们只需一遍又一遍地转动我们模拟器的曲柄。我们用一个非常强的选择强度进行一次模拟，用一个较弱的强度进行另一次，再用一个实际上是不利的强度进行一次。我们生成了数千种可能的进化历史。然后，我们只需观察。哪个模拟种群最终的基因频率与我们采样的真实种群相匹配？通过收集所有“成功”模拟中的选择系数 $s$ 的值，我们得到了这个基本进化参数的后验分布。我们实际上已经衡量了自然选择之手的力量。

这种“从数据中解读历史”是ABC的超能力之一。生物学家们对物种的分布感到困惑，比如在两个不相连的山脉中发现的红腹鼠兔，他们可以使用ABC来上演相互竞争的历史剧。一种假说可能是一个单一的祖先种群，在山谷形成时被一分为二——一个隔离事件。另一种假说可能是这两个种群一直都是独立的，但有少量的个体迁徙——带迁移的隔离。第三种可能假设是最近从一个山脉向另一个山脉的殖民。我们无法让时间倒流去看看哪个是真实的。但是我们可以模拟每种情景的遗传后果。通过将我们模拟种群中的遗传差异与真实的鼠兔进行比较，ABC可以告诉我们哪种历史叙事最可信，用贝叶斯因子量化我们对一个故事相对于另一个故事的信念。它将遗传学转变为一种历史科学。

同样的逻辑不仅适用于整个生物体的历史，也适用于它们内部机器的结构。细胞是由相互作用的蛋白质构成的复杂网络编织而成的。这些网络是如何生长的？一个流行的想法是 Barabási-Albert 模型，其中新蛋白质倾向于连接到已经很受欢迎、高度连接的蛋白质上——一种“富者愈富”的现象。为了检验这一点，我们无法观察一个蛋白质网络在数千年间的形成过程。但我们可以观察一个已经完成的网络，并测量它的一些属性，例如用基尼系数这样的总结统计量来衡量其连接的不平等性。然后，我们使用ABC模拟数千个网络，每个网络都用略有不同的“富者愈富”规则生成。通过找出哪种规则创建的网络与真实生物网络具有相同的基尼系数，我们可以推断出塑造我们细胞内部结构的生长法则。

也许生物学中最深刻的问题是区分幻觉与现实。想象一下，在显微镜下观察一群细胞，看到两个不同的群体：一组发光明亮，一组昏暗。这是因为每个细胞都含有一个可以处于“开”或“关”状态的生物“开关”，这种特性被称为多稳态吗？或者，这只是一个由不同个体组成的多样化种群，每个个体都有自己稳定的亮度“设定点”，根本没有开关切换？基于单个快照，这两种情景可以产生相同的双峰分布。它们是简并的。

为了打破这种僵局，我们需要随时间观察这些细胞。“开关”模型预测我们应该会看到一些细胞自发地从暗变亮，或者反之亦然。“异质性”模型预测它们不会。这正是ABC的精妙之处大放异彩的地方。我们可以设计专门捕捉这些动态的总结统计量——比如表现出切换行为的轨迹比例，或者细胞处于明亮状态的平均时间。通过运行我们两种模型的模拟器，并要求它们与真实延时显微镜下的这些动态统计数据相匹配，ABC可以区分出真正的底层机制。它使我们能够超越静态模式，推断出创造它的动态过程。

从沙粒到宇宙

现在让我们离开生命世界，将注意力转向物理科学。你可能会认为，在这里，在物理学和工程学的土地上，我们的方程会是完美的，我们的似然总是可以计算的。你会感到惊讶。

考虑一个具有巨大实际重要性的问题：一堆沙子有多坚固？如果你正在建造一座桥、一座大坝或一座摩天大楼，这不是一个微不足道的问题。工程师们使用极其复杂的计算机程序，通常基于有限元法（FEM），来模拟沙子或土壤等材料在应力下的行为。这些模型有描述材料属性的参数——它的内聚力 $c$ ，它的摩擦角 $\varphi$ ，等等。但是FEM模拟是一个复杂的、路径依赖的算法；没有一个简洁的公式可以用来计算从实验室实验中观察到特定应力-应变曲线的似然。

于是，我们请来了我们的侦探。我们将沙子样本带到实验室并压缩它，记录其响应。这是我们的“犯罪现场”。然后，我们运行数千次FEM模拟，每次都使用不同的材料参数组合。我们从产生的模拟曲线中提取几个关键特征——峰值应力、刚度、剪切带的角度——并将它们与我们真实实验的特征进行比较。通过使用ABC找到能产生与真实行为相匹配的模拟行为的参数集，我们可以表征我们物理材料的属性 [@problem_searcheval:3502897]。从设计更安全的建筑到理解山体滑坡，ABC的这种应用是现代计算工程学的基石。

从沙子的强度，让我们跃升到可能的最大尺度：整个宇宙。宇宙学中两个最基本的参数是 $\Omega_m$ ，即宇宙中物质的总量，和 $\sigma_8$ ，一个衡量物质“团块”程度的指标。我们关于宇宙演化的理论，即标准宇宙学模型，就是一个模拟器。给定 $\Omega_m$ 和 $\sigma_8$ 的值，我们可以模拟宇宙网状结构的星系和暗物质的形成。但我们无法为看到今晚我们所见的确切天空的概率写出一个简单的方程。

方法是相同的。宇宙学家们生成了大量具有不同宇宙学参数的模拟宇宙。然后他们从这些模拟中计算总结统计量——例如，通过被称为弱引力透镜的光的微妙扭曲生成的暗物质图中“峰值”的数量。他们将这些模拟的统计数据与真实天空的统计数据进行比较。ABC使他们能够逼近那些支配我们宇宙命运的基本数字。这个领域是如此先进，以至于研究人员甚至使用ABC来研究微妙的方法论问题，例如，模拟天空与真实天空之间的哪种数学“距离”定义能给出最准确可靠的结果。

最后，我们深入到最小的尺度，进入大型强子对撞机中粒子碰撞的漩涡。在这里，物理学家在预测他们应该看到什么的理论指导下，寻找新的粒子和力。高能物理学中使用的模拟器是迄今为止编写的最复杂的模拟器之一，模拟了基本粒子的相互作用以及它们随后穿过巨大的、价值数十亿美元的探测器的过程。其似然是无可救药地、根本上难以处理的。

最大的挑战之一是，新物理的罕见信号常常被埋没在大量的背景事件或“堆积事件”中。更糟糕的是，这种背景噪声在实验过程中可能会变化。在这里，ABC实现了一种真正革命性的方法。人们可以建立一个层级模型来一次性推断所有东西，而不是先尝试估计和减去背景。使用ABC，可以联合推断新物理理论的参数 $\theta$ 和背景噪声的整个时变轨迹 $\mu(t)$ 。这种不仅能推断几个数字，还能推断描述一个滋扰过程的整个函数的能力，证明了基于模拟的推断的力量和灵活性。这是在人类知识最前沿寻找发现的关键工具。

一种统一的思维方式

从一个基因到一个星系团，从一只鼠兔到一个质子，故事都是一样的。我们有关于世界如何运作的理论，但这些理论已经变得如此丰富和复杂，以至于它们表现为计算机模拟器，而不是简单的方程。ABC提供了缺失的环节，即连接这些宏伟理论模拟器的输出与真实世界中杂乱而美丽的数据的桥梁。它将所有科学核心的一个原则形式化了：一个好的模型是能够再现我们所观察到的现象的模型。通过将这一原则转变为一个实用的计算算法，近似贝叶斯计算为我们提供了一种统一而强大的方式，来从一个无限复杂的宇宙中学习。