
现代科学越来越依赖复杂的模型来描述世界,从信息的混沌传播到细胞内分子的复杂舞蹈。科学中的一个核心挑战是逆向工程这些系统的规则——即从观测数据中推断出模型的基本参数。传统上,这是通过似然函数实现的,该函数量化了在给定一组参数的情况下我们观测结果的概率。然而,对于许多前沿模型而言,这个函数是一个数学黑箱,一个复杂到难以处理的庞然大物。这就造成了一个根本性的知识鸿沟:当连接理论与数据的经典桥梁崩塌时,我们如何进行推断?本文介绍了基于模拟的推断(Simulation-Based Inference, SBI),这是一个为解决此问题而设计的强大框架。我们将首先深入探讨 SBI 的原理与机制,探索它如何通过正向的建模过程——使用模拟器生成数据——来解决推断的逆问题。我们将揭示可识别性的挑战以及校准结果以确保其可信度的关键技术。然后,在应用与跨学科联系部分,我们将看到 SBI 的实际应用,穿越从粒子物理学到生态学的不同领域,了解它如何解码隐藏的过程,甚至帮助设计更好的实验,从而巩固其作为 21 世纪科学基石的地位。
科学的核心在于一场宏大的逆向工程游戏。我们观察宇宙,并从这些观察中尝试推断出支配它的基本规则。用统计学的语言来说,我们有数据 ,还有一个带有可调节旋钮(或称参数)的世界模型,我们可以将其标记为 。推断的目标是找到旋钮的设置 ,使其能最好地解释数据 。
几个世纪以来,连接我们模型与数据的桥梁一直是似然函数,写作 。这是一个极其简单的概念:它告诉我们,如果宇宙的旋钮被设置为 ,我们观察到特定数据 的概率是多少。有了这个函数,我们就可以系统地找到使我们的观察最可能出现的参数。但当这座桥梁崩塌时会发生什么?如果我们的世界模型如此复杂,充满了级联的随机事件,以至于我们再也无法为似然写下一个简洁的公式时,该怎么办?
想象一下,试图模拟大型强子对撞机内部的一次粒子碰撞。我们的理论,也许是粒子物理学的标准模型,提供了基本参数 ——粒子质量、耦合强度等等。但是从这些参数到探测器中最终的电子信号 的过程,是一段极其复杂的旅程。最初的高能相互作用产生了一簇次级粒子,它们接着衰变、相互作用,并穿过层层探测器材料。每一步都是一次量子骰子的投掷。
这些未被观察到的中间步骤就是我们所说的潜变量,用 表示。最终的数据 是一个漫长随机链的结果:参数 设定了舞台,一个特定的随机历史 展开,而这个历史产生了观察结果 。真正的似然是所有可能的秘密历史的总和或积分:。这个积分是一个庞然大物,跨越了一个难以想象的巨大可能性空间。在所有实际应用中,它都是难以处理的。
我们剩下的就是科学家们所说的模拟器或生成模型。我们可以设置旋钮 ,按下一个按钮,模拟器就会上演这些复杂的随机历史中的一个,从而产生一个合成的观察结果 。我们可以随心所欲地正向运行模拟,从参数到数据。但是我们无法写出似然函数。我们处于一个只有正向过程的宇宙中,似乎与传统的推断路径隔绝了。那么,我们究竟如何才能逆转时间的箭头,从我们观察到的 中学习关于 的知识呢?
基于模拟的推断(SBI)的核心思想既优雅又强大:如果你无法写出一个世界的方程,那就造一个。然后再造一个,再造一个,直到你找到一个看起来和真实世界一模一样的。
这个过程变成了一个匹配游戏。我们拿到真实世界的数据 。然后,我们选择一组候选参数 ,运行我们的模拟器生成一个合成数据集 ,然后问:“ 和 有多相似?”接着我们调整旋钮 并重复此过程,寻找能使模拟世界与真实世界最相似的设置。
但“相似”意味着什么?比较两个高维数据集的每一个微小细节,其难度不亚于计算似然。诀窍不在于比较完整的数据,而在于比较一组精心挑选的摘要统计量。这就像试图识别一位作曲家,不是通过逐个音符地比较他的交响乐与另一首(一项不可能完成的任务),而是通过比较提炼出的特征:节奏、配器、和声的复杂性。这些摘要,如果选择得当,就能捕捉到数据的精髓,而不会迷失在细节中。
选择这些摘要有两种主要的哲学。一种是手动挑选具有物理意义的量,比如粒子的平均能量或种群大小的方差。这种方法通常被称为模拟矩法(SMM)。另一种更巧妙且通常更强大的方法是间接推断(II),我们为此发明了第二个更简单的“辅助”模型,其似然是可处理的。我们将这个简单模型拟合到真实数据和模拟数据上。然后我们比较的摘要统计量就是这个辅助模型的估计参数。这是一个绝妙的技巧,可以自动为我们复杂的数据生成信息丰富的摘要。
这个宏大的匹配游戏依赖于一个关键假设:转动我们模拟器上的旋钮,确实会以我们的摘要统计量能够检测到的方式改变模拟世界的外观。如果一个旋钮与我们选择的摘要统计量仪表盘断开了连接,那么无论我们怎么转动它,读数都不会改变。与那个旋钮相关的参数就是不可识别的。
让我们来看一个来自粒子物理学的优美而具体的例子。想象一个参数,我们称之为 ,它代表一个物理过程中微妙的不对称性。这种不对称性只体现在散射粒子的方位角()上——也就是围绕束流线的角度。现在,假设我们的摘要统计量只包含与极角()相关的量——即粒子偏离束流线的距离。在这种情况下,我们的摘要统计量完全对方位角“视而不见”。我们可以随意改变 ,但因为它只影响 ,我们选择的摘要统计量不会改变。参数 是不可识别的。
在数学上,这由雅可比矩阵捕捉,它衡量当我们微调每个参数时,每个摘要统计量会改变多少。如果这个矩阵的秩小于参数的数量,就意味着参数空间中存在“死”方向——我们可以转动某些旋钮组合,但我们的摘要统计量不会产生任何变化,这使得它们无法被区分。
我们如何解决这个问题?答案既简单又深刻:我们需要观察正确的东西。在我们的物理学例子中,如果我们增加一个新的、确实依赖于方位角的摘要统计量,比如 ,我们的仪表盘突然就亮了起来。转动 旋钮现在会在我们的摘要统计量中产生变化,雅可比矩阵的秩增加,参数变得可识别了。这揭示了一个深刻的真理:推断不是一个被动的行为。它是我们的模型、我们的数据以及我们选择测量什么之间的主动互动。有时,一个参数并非“丢失”了;我们只是没有在正确的地方寻找它。
我们现在已经组装了一台复杂的机器——一个 SBI 算法,它接收真实数据,运行无数次模拟,然后输出一个后验分布 ,这个分布代表了我们在看到数据后对参数的认知状态。但这台机器有很多活动部件。我们如何确定它工作正常?我们怎么知道它给出的某个参数的 95% 可信区间真的有 95% 的机会包含真实值?这就是校准的问题。
于是,基于模拟的校准(SBC)应运而生,这是一个极其优雅的程序,用于检查任何贝叶斯推断引擎的自洽性。这是另一场游戏,但这次,我们是和自己玩,看自己是否值得信赖。
SBC 游戏的流程如下:
奇妙之处在于:如果你的推断机器是完美校准的,并且你多次重复这个游戏,这些秩次的分布应该是完全均匀的。真实值应该等可能地落在其自身后验分布的任何部分。这就像检查一个声称“30% 降雨概率”的天气预报员。你可以通过查看他们做出该预报的所有日子来测试他们的校准情况;如果在那些日子里大约有 30% 的天数下雨了,那么他们就是良好校准的。
当秩次直方图不平坦时,它就是一个诊断性的危险信号。例如,一个 U 形的直方图意味着真实值太常出现在后验分布的极端尾部。这是过度自信的症状:后验分布太窄,算法对自己的判断过于肯定。这直接导致可信区间的覆盖率不佳。如果你发现你的 95% 可信区间只有 84% 的时间包含真实参数,你就有了覆盖不足,这是校准不良的明确迹象。
校准检查的是我们的算法是否正确地解决了给定模型的推断问题。但是,如果模型本身——我们的模拟器——是对真实世界的不正确描述呢?这就是模型设定错误的问题。
也许我们的生态系统模型假设森林的所有斑块都有相同的灭绝率,而实际上每个斑块都是独一无二的。或者,我们的流行病模型假设病毒基因组的抽样率是恒定的,而实际上监控力度随着时间的推移而加强。
当我们的模拟器世界与真实世界存在根本性差异时,我们的推断可能会变得自信地犯错。SBI 机器会尽职尽责地找到那些使其简化世界看起来最像真实世界的参数。但在一个错误模型中的这个“最佳拟合”可能与真相相去甚远。更糟糕的是,这个过程可能会产生狭窄、看起来很自信的后验分布,但它们却集中在错误的数值上。这是我们可以用 SBC 检测到的校准不良的主要原因。U 形的秩次直方图和差劲的覆盖率通常不仅仅是我们代码中的错误,而是我们的模型与现实之间深层不匹配的症状。
我们也可以使用后验预测检验(PPC)来寻找这种不匹配。在拟合我们的模型后,我们使用推断出的后验分布来模拟许多新的数据集。然后我们问:“这些模拟世界在总体上看起来像我们实际观察到的那个吗?”如果存在系统性差异——例如,如果我们的模型始终无法重现流行病早期的病例数 或我们数据云的整体形状——我们就找到了另一个强有力的线索,表明我们的模型设定有误。
因此,基于模拟的推断不仅仅是一套算法。它是一种面向复杂建模新时代的完整科学哲学。它在似然函数丢失时提供了一条进行推断的路径,但它也为我们配备了质疑我们假设的工具。它迫使我们直面可识别性——我们的问题是否甚至可以回答?——并要求我们通过严格的校准纪律来验证我们自己的结论。它是一个建立在美丽、递归思想之上的框架:利用模拟不仅来模拟世界,而且来测试和验证我们自己对世界的理解。
我们花了一些时间探索基于模拟的推断的内部工作原理,这套机制让我们能够将科学模型与现实联系起来。它是一个强大的引擎,但一个引擎的趣味性取决于它能带我们开启怎样的旅程。现在,让我们离开车间,看看这个引擎能带我们去向何方。我想,你会发现这不仅仅是统计学家的专用工具。它是一种新的镜头,一种新的思维方式,正在消融学科之间的界限,让我们能够提出——并回答——那些曾经遥不可及的问题。这是一门在我们的计算机中构建“玩具宇宙”的科学,其目的不是为了玩乐,而是为了理解真实的宇宙。
基于模拟的推断最直接的用途是扮演侦探。我们有一个复杂的现象,一个“犯罪现场”,以及一个关于可能发生了什么的 模型,但罪魁祸首——我们模型的基本参数——没有留下直接的指纹。数据的似然,即观察到我们所见的确切事物的概率,是一个我们无法穿越的数学迷宫。我们该怎么办?我们进行模拟。我们自己成为罪魁祸首。我们用不同的动机(参数)一遍又一遍地重演犯罪过程,直到模拟的犯罪现场在统计上与真实的无法区分。
想象一下,试图理解一条新闻——或一个模因——如何在像 Twitter 这样的社交网络上传播。这个过程是个人决策的混沌级联。我们不可能写下一个特定的、大规模的推文和转推历史的确切概率。但我们可以提出了一个简单、合理的模型:也许任何时刻新推文的数量是由一些基线噪音,加上一个与近期推文数量成正比的“病毒式”分量所驱动的。这是一个生成模型,一个虚拟 Twitter 的配方。我们无法解出直接连接我们模型参数(基线率和“病毒式”扩散率)与观察到的推文量时间序列的方程。但我们不需要这样做。我们可以简单地用试验参数来模拟我们的模型,看看模拟数据的特征——它的平均水平、它的波动性或自相关性——是否与真实数据相匹配。通过找到能产生最佳匹配的参数,我们就能推断出信息扩散的隐藏动态。
同样的原理将我们从数字世界带入活细胞的核心。思考基因表达的过程。一个基因的启动子可以在“开启”和“关闭”状态之间闪烁,这是一个我们看不见的过程。当它“开启”时,它会以随机爆发的方式大量产生信使 RNA (mRNA) 分子。我们既看不到启动子的转换,也无法计算每一个 mRNA 分子。我们看到的是附着在 mRNA 上的荧光标签发出的微弱、充满噪声的光芒。潜在的动力学速率——基因开启和关闭的速度 (, )、它制造 mRNA 的速度 ()——与我们收集到的嘈杂荧光数据之间的联系,被层层随机性所掩盖。然而,模拟再次伸出援手。通过构建一个状态空间模型来模拟这整个事件链——从隐藏的启动子状态到 mRNA 数量,再到最终的噪声测量——我们可以使用粒子滤波(一种序贯模拟形式)等技术,从细胞发出的光中推断其内部的新陈代谢节律。
推断的线索延伸至宏大的演化剧场。适应度,作为自然选择的引擎,由出生率和死亡率定义。对于微生物,我们现在可以构建谱系树,追踪每一次细胞分裂和死亡。从这个本身就是复杂分支结构的数据中,我们如何推断潜在的适应度?我们可以将种群的增长建模为一个分支过程。对于这个模型的简单版本,我们或许能够直接计算出生死率。但随着我们增加真实性,直接路径就关闭了。然而,基于模拟的方法仍然可行。我们用不同的出生率和死亡率模拟分支过程,并找到那些能最好地解释观察到的树结构的参数,这使我们能够估计选择系数 ,其中 是马尔萨斯适应度(出生率减去死亡率)。这使我们能够量化一个突变的演化优势或劣势,并开始描绘生命演化的“适应度景观”的轮廓。在每一个案例中,从 Twitter 到基因再到演化,故事都是一样的:当从因到果的路径过于复杂而无法写下时,我们通过模拟原因并匹配结果来开辟一条新路。
也许比解释过去更深刻的能力是明智地规划未来。科学不仅仅是分析我们已有的数据;它还关乎决定要收集什么数据。一个侦探不会擦拭整个城市的所有表面;她会仔细思考哪里最有可能找到信息最丰富的线索。基于模拟的思维让我们能够成为那样有策略的侦探。在踏入田野或实验室之前,我们可以在计算机中预演数千种可能的未来,以设计出最强大、最高效的实验。这就是*功效分析*的科学。
想象你是一位生态学家,通过寻找环境 DNA (eDNA)——散落到水中的微量遗传物质——在一条河里寻找一种稀有、难以捉摸的鱼。河水的水流将 eDNA 带到下游,它通过扩散散开,并慢慢衰减。如果你在下游的一座桥上取样,你应该多久收集一次水样?一小时一次?还是每十分钟一次?如果取样频率太低,你可能完全错过短暂的 DNA 羽流。如果取样频率太高,则会浪费时间和资源。这是一个非常适合用模拟来解决的问题。我们可以基于平流、扩散和衰变的物理原理建立一个河流的计算模型。我们可以模拟一个来自上游鱼类的假设性 eDNA“脉冲”,并观察模拟的羽流漂过我们的取样点。通过加入取样本身的随机性——我们是否碰巧能在我们的 1 升瓶子里捕获到足够的分子?——我们可以对每个潜在的取样方案运行数千次这个虚拟实验。这使我们能够找到所需的最低取样频率,以便在鱼确实存在的情况下,有比如说 90% 的机会检测到它。这不是推断;这是由模拟驱动的理性实验设计。
这种范式是普适的。演化生物学家面临着同样类型的问题。假设我们想检验一个关于“跨物种多态性”的假说,即相同的遗传变异在两个物种间通过平衡选择维持了数百万年,甚至在物种形成事件中幸存下来。为了找到证据,我们需要从两个物种中取样并进行测序。但是需要多少个呢?每个物种十个?还是一百个?我们可以通过模拟整个演化故事来回答这个问题:祖先种群、物种形成事件,以及随后每个后代谱系中的遗传漂变和选择。通过对不同样本量运行这个模拟,我们可以确定需要收集的最小个体数量,以便有很高的概率(统计功效)检测到共享的多态性,如果它真的存在的话。无论我们是研究果蝇适应性的地理模式 还是近期分化的鸟类的遗传学,这种预先进行“计算机模拟”实验的能力正在改变我们做科学的方式,使其更高效、更有针对性,也更有可能成功。
现在,我们必须面对一个深刻而重要的问题。如果我们要如此信任这些模拟世界,我们如何确保我们没有在自欺欺人?正如物理学家 Richard Feynman 的名言:“首要原则是,你决不能欺骗自己——而你自己是最容易被欺骗的人。” 基于模拟方法的创造者们深刻地意识到了这一点。随着我们构建的模型变得越来越复杂,我们确保其可靠性和我们自身学术诚信的方法也必须随之进步。
首先,我们如何知道我们的推断机器甚至是否工作正常?如果我给你一把尺子,你可能会用一个已知的标准米尺来检查它,看看它是否校准过。我们必须为我们的推断流程做同样的事情。这就是基于模拟的校准(SBC)背后的思想。在我们对真实数据使用我们的流程之前,我们先测试它。我们从其先验分布(我们对参数的初始信念)中生成一个“基准真相”参数值。然后,我们用那个参数来模拟一个虚假的数据集。这个数据集是“完美的”,因为我们知道它来自的确切真相。然后,我们将这个虚假数据输入我们的推断机器,看看它是否能平均地恢复真相。一个优美的数学性质告诉我们,如果我们的算法工作正常,那么“真实”参数在我们获得的后验样本中的秩次应该是均匀分布的。如果我们这样做数千次,而秩次在两端或中间堆积起来,我们就知道我们的机器是有偏的——它是一把有问题的尺子,我们在用它测量真实世界之前必须修复它。
其次,我们必须对我们的假设保持诚实。每个模型都有假设,编码在先验中。贝叶斯模拟的一个强大特性是,我们可以不带数据运行模拟。这会从先验预测分布中抽样,它向我们展示了仅基于其假设,在看到任何证据之前,我们的模型认为世界是什么样子。在像系统发育定年这样的领域,我们用化石来校准分子钟,这一点至关重要。我们对植物和动物分化时间的估计,是由遗传数据驱动的,还是几乎完全由我们的化石先验决定的?将先验分布与后验分布进行比较,给了我们一个透明的答案,揭示了我们实际上从数据中学到了多少。
最后,在这个复杂的计算科学新世界里,“发表”的定义本身必须演进。表格中的最终数字不是真正的结果。科学贡献是整个知识大厦:数据、模型以及连接它们的代码。为了使我们的工作可信,它必须是可复现的。这意味着分享完整的流程——确切的脚本、软件版本和随机数生成器种子——这样其他人不仅可以得到相同的数值答案,还可以“踢踢轮胎”。他们可以进行自己的敏感性分析,改变先验或隐藏状态的数量,看看我们的结论是稳健的,还是我们选择的脆弱产物。这种对透明度和稳健性的承诺,是防止我们自欺欺人的最终保障。
因此,基于模拟的推断远不止是一系列算法。它是 21 世纪的一种科学哲学。它提供了一个统一的框架,让理论模型和混乱的真实世界数据可以相遇。它给了我们一个望远镜来窥探隐藏的世界,一个绘图板来设计更智能的实验,以及一套原则来确保我们所学到的是真实的。通过拥抱模拟的力量,我们并没有脱离现实。事实上,我们比以往任何时候都更接近它。