神经后验估计

玻尔百科

核心要点

神经后验估计通过训练神经网络直接逼近贝叶斯后验分布，解决了具有难解似然的推断问题。
摊销原理允许 NPE 模型在模拟数据上一次性训练完成，然后能够为许多真实观测快速推断参数，从而节省巨大的计算成本。
NPE 在拥有复杂模拟器的领域中有广泛应用，包括推断宇宙学参数、建模生物系统以及在工程学中开发数字孪生。
诸如“基于模拟的校准”等方法对于验证神经网络推断出的后验分布在统计上是否准确并能可靠地表示不确定性至关重要。

引言

几个世纪以来，贝叶斯定理一直是科学推断的基石，为我们根据新证据更新信念提供了一个严谨的数学框架。这种从观测数据追溯到模型底层参数的推理过程是科学发现的基础。然而，随着我们对世界的模型日趋复杂——从简单的方程式演变为庞大而复杂的计算机模拟——一个关键的障碍出现了。对于从宇宙学到流行病学等领域的许多前沿模型而言，连接参数与数据的似然函数已不可能写出，这使得传统的贝叶斯方法无法使用。

本文旨在介绍神经后验估计 (NPE) 来解决这种“难解似然”问题。NPE 是一种处于贝叶斯统计与深度学习交叉领域的革命性方法。它利用神经网络的强大能力，直接从模拟中学习所期望的后验分布，将一个不可能完成的解析计算转变为一个可处理的学习问题。读者将了解到这种方法的工作原理、其强大之处，以及它正被应用于哪些领域以推动科学前沿的发展。

以下章节将首先深入探讨 NPE 的“原理与机制”，解释摊销、模型可辨识性以及校准的重要性等概念。然后，我们将探索其“应用与跨学科联系”，穿梭于不同的科学领域，看看 NPE 如何帮助科学家们从他们最复杂的模型中得出可靠的结论。

原理与机制

想象一下，你是一位试图测量遥远星系质量的天文学家。你的理论被编码在一个复杂的计算机模拟中，它告诉你该星系发出的可见光会因其总质量的不同而呈现何种面貌。你的任务是逆向工作：你有一张望远镜图像（数据），并且想要推断其质量（参数）。几个世纪以来，这种推理的指导原则一直是贝叶斯定理，这是一个关于从证据中学习的简单而深刻的陈述：

p(\text{parameters} \,|\, \text{data}) \propto p(\text{data} \,|\, \text{parameters}) \times p(\text{parameters})

这个方程读起来就像一个句子。给定数据下参数的后验概率——也就是我们想知道的——与两项的乘积成正比：一项是在特定参数集下观测到该数据的似然，另一项是这些参数的先验概率——即我们在看到任何数据之前的信念。后验概率代表了我们更新后的知识状态。

这就是科学推断的引擎。但当这个引擎熄火时会发生什么呢？

科学家的困境：当数学计算变得不可能

在从宇宙学到流行病学等许多现代科学的前沿领域，我们的模型不再是简单的方程。它们是庞大而复杂的计算机模拟，运行一次可能需要数小时甚至数天。我们可以正向运行：选择一个参数（比如星系的质量），运行模拟，然后生成一条合成数据（一张伪造的望远镜图像）。但我们无法逆向推导。作为从参数到数据的数学纽带，似然函数 $p(\text{data} \,|\, \text{parameters})$ 通常极其复杂，以至于无法写出。它是难解的。

这带来了一个深刻的困境。我们拥有贝叶斯定理这个正确的逻辑框架，但却缺少一个关键要素。那些试图探索后验分布的传统方法，如马尔可夫链蒙特卡洛 (MCMC)，通常依赖于能够计算似然函数，或者至少是其梯度。

考虑从一系列温度读数中推断一个混沌天气系统的参数。即使对于像 Lorenz-96 系统这样方程看似简单的模型，“蝴蝶效应”也会显现。在一个长观测窗口内，输入参数的微小变化会导致结果发生指数级放大且截然不同的变化。由此产生的似然曲面变成了一个极其崎岖、如同山脉般的地形，充满了无数的山峰和山谷。那些依赖于沿梯度寻找最高峰（最可能的参数）的方法，就像一个在喜马拉雅山脉中被蒙住眼睛的徒步者；他们会彻底迷失方向，要么迈出微小而无效的步伐，要么不受控制地跳入峡谷。

一个激进的想法：直接学习答案

当一项计算变得不可能时，或许我们可以改变问题。与其问“对于这一个观测，后验分布是什么？”，不如设想我们能否构建一台机器，在给定任何观测的情况下，直接告诉我们后验分布？

这就是“基于模拟的推断”(SBI) 背后的革命性思想。既然我们无法写出似然函数，我们就利用我们确实拥有的东西：模拟器本身。我们可以用它来生成一个庞大的示例库。对于我们选择的每一组参数 $\theta$ ，我们运行模拟以获得相应的数据集 $x$ 。我们可以创建数百万个这样的 $(\theta, x)$ 对，每一对都是关于我们模型的一个独立课程。

这正是神经后验估计 (NPE) 登场的地方。我们使用一个神经网络——一种强大而灵活的函数逼近器——并赋予它学习从数据到答案的映射的任务。我们训练一个条件密度估计器，我们称之为 $q_{\phi}(\theta \,|\, x)$ ，来模仿真实的后验分布 $p(\theta \,|\, x)$ 。目标是创建一个神经网络，它能接收任何数据 $x$ ，并为可能产生该数据的参数 $\theta$ 输出一个完整的概率分布。

这种方法引入了摊销 (amortization) 这一强大概念。我们付出一次性的巨大计算成本，在数百万次模拟上训练网络。但一旦训练完成，这个“推断机器”就变得异常迅速。我们可以将我们单个的真实世界观测输入给它，几乎瞬间就能得到后验分布。我们可以给它输入一千个不同的观测，得到一千个后验分布，所有这些都无需再次运行昂贵的模拟器。推断的成本被摊销到了许多潜在的用途上。

如何教会网络关于不确定性

你如何教会一个神经网络去生成一个概率分布？你需要一个规则，一个损失函数，当它更接近真实的后验分布时给予奖励。衡量两个分布——我们网络的猜测 $q_{\phi}(\theta \,|\, x)$ 和真实分布 $p(\theta \,|\, x)$ ——之间“距离”的最自然方法是 Kullback-Leibler (KL) 散度。

事实证明，在我们模拟示例库上最小化这个 KL 散度，在数学上等同于一个非常直观的目标：对于每一个模拟对 $(\theta_i, x_i)$ ，我们希望我们的网络能为生成数据 $x_i$ 的真实参数 $\theta_i$ 赋予尽可能高的概率密度。我们正在训练网络去识别它所产生数据中的参数特征。

NPE 中的“神经”部分通常采用标准化流 (normalizing flow) 的形式。可以把它想象成一块数学黏土。它从一个简单的、已知的分布（如标准高斯钟形曲线）开始，然后神经网络学习一系列复杂的、可逆的变换，来拉伸、弯曲和塑造这块黏土，使其变成真实后验分布可能具有的奇特且多峰的形状。

这整套哲学建立在机器学习与贝叶斯统计学之间深刻而优美的统一性之上。即使是训练神经网络中的一种标准技术，比如添加权重衰减以防止过拟合，也具有贝叶斯解释。它在数学上等同于对网络权重施加一个高斯先验，并找到唯一的最佳参数设置，这个过程被称为最大后验 (MAP) 估计。NPE 在此基础上更进了一大步：它不是寻找一个单一的“最佳”网络，而是捕捉了所有可能网络的完整分布，从而学习到参数的完整后验分布。

首先，了解你的模型：简并性的危险

在我们释放强大的 NPE 机器之前，我们必须怀着科学的谦逊暂停片刻，并提出一个根本性问题：我们的模型是否真的允许我们回答我们正在提出的问题？这就是可辨识性 (identifiability) 的问题。

如果两组不同的参数 $\theta_1$ 和 $\theta_2$ 导致了完全相同的可观测数据统计分布，那么再多的数据或再巧妙的分析也无法将它们区分开来。模型本身存在一种内在的模糊性，一个“盲点”。

一个经典的例子来自宇宙学。一个用于描述星系成团的简单模型预测，观测到的功率谱 $P_g$ 仅通过底层物质密度振幅 $A$ 和星系“偏置”参数 $b$ 的乘积 $A b^2$ 来决定。这意味着一个 $A=2$ 且 $b=1$ 的宇宙在观测上与一个 $A=0.5$ 且 $b=2$ 的宇宙是完全相同的。它们位于一条简并曲线上。如果我们要求 NPE 推断 $A$ 和 $b$ 两者，它不会失败。相反，它会正确地报告其不确定性，返回一个沿着这条曲线（一个高概率“山脊”）展宽的后验分布。这不是一个缺陷，而是一个特性。后验分布如实地报告了从数据和模型中可以知道的信息的极限。

信任，但要验证：校准后验

我们已经训练好了网络，它为我们的真实世界观测生成了一个后验分布。它看起来很完美，但我们能信任它吗？它报告的不确定性是真实的吗？这就是校准 (calibration) 这一关键的最后一步。

理解贝叶斯后验告诉我们什么至关重要。一个 90% 的可信区间 (credible interval) 是这样一个范围，在给定我们的数据和模型下，我们相信真实参数有 90% 的概率落于其中。这与频率学派的置信区间不同，后者是关于一个程序长期成功率的陈述。一个贝叶斯可信区间在频率学派的意义上并不自动具有 90% 的成功率。

那么我们如何检查 NPE 生成的后验分布是否经过了良好校准呢？我们使用一种极其简单而强大的技术，称为基于模拟的校准 (SBC)。我们生成一组全新的测试模拟 $(\theta_{\text{test}}, x_{\text{test}})$ 。对于每一组，我们使用训练好的网络来计算后验分布 $q_{\phi}(\theta \,|\, x_{\text{test}})$ 。然后我们问一个简单的问题：对于每个测试案例，已知的“真实”参数 $\theta_{\text{test}}$ 落在我们为它推断出的后验分布的哪个位置？

如果我们的后验分布在统计上是诚实的，那么真实参数的行为应该像是从这些后验中进行的一次随机抽取。它有时会落在分布的低尾部，有时在中间，有时在高尾部。经过多次测试模拟，这些排序的分布应该是完全均匀的。如果排序直方图不是平的，那么我们的网络就在其不确定性上撒了谎。一个常见的失败模式是 U 形直方图，这意味着真实参数值过于频繁地落在后验分布的尾部。这揭示了我们的后验分布过于狭窄且过于自信——这是一个危险的缺陷，而 SBC 能帮助我们检测和纠正它。

驯服猛兽：处理真实世界的复杂性

真实的科学是混乱的。除了我们关心的参数（感兴趣的参数）之外，每个实验都会受到数十个甚至数百个讨厌参数 (nuisance parameters) 的影响：探测器效率、背景噪声水平、校准常数等等。传统的贝叶斯处理方式是边缘化 (marginalize) 它们——即根据它们自身的先验不确定性将其影响平均掉。这涉及到计算一个极其高维的积分。

在这里，NPE 展现了其真正的力量和优雅。为了处理讨厌参数，我们只需将它们视为模拟的一部分。对于我们生成的每一个训练样本，我们不仅从其先验中选取感兴趣的参数，也从它们各自的先验中选取讨厌参数。然后我们将产生的数据输入网络。仅此而已。通过在已经包含了这些变化的讨厌参数影响的数据上进行训练，网络自动地为我们感兴趣的参数学习到一个后验分布，该分布已经正确并隐式地对所有讨厌参数的不确定性进行了平均。一个计算上望而却步的积分，作为训练过程的副产品被“免费”解决了。

从其深植于贝叶斯逻辑的根基，到对现代深度学习的巧妙运用，神经后验估计为解决科学中一些最具挑战性的推断问题提供了一个强大而优雅的框架。它将不可能的计算转化为可处理的学习问题，使我们能够提出更宏大的问题，并从我们复杂的现实世界模型中获得更诚实的答案。

应用与跨学科联系

既然我们已经探讨了神经后验估计的原理和机制，你可能会问：“这个强大的工具究竟用在何处？”这是一个很合理的问题。科学中一个基本思想的真正魅力不仅在于其内在的优雅，还在于其应用的广度——它出现的那些令人惊讶的地方以及它帮助解决的那些难题。

神经后验估计的故事就是复杂系统的故事。在任何我们能够模拟但无法轻易写出解析似然函数的地方，都可能是这些方法的用武之地。它就像一个通用翻译器，在我们模拟的语言和我们数据的语言之间架起桥梁。让我们穿越几个截然不同的科学领域，看看这个思想在实践中的应用，从宏大的宇宙尺度，到复杂的生命机制，再到精密的工程世界。

宇宙侍酒师：品味宇宙的成分

科学中最宏大的挑战之一是确定我们宇宙的基本配方。它的成分是什么？宇宙学家用少数几个参数来描述这个配方，例如物质总量 $\Omega_m$ 和衡量物质“成团”程度的 $\sigma_8$ 。这些参数决定了宇宙如何从其平滑、炎热的早期演化成我们今天所见的由星系和空洞构成的广阔宇宙网。

我们的数据来自于观测遥远星系的光。当这些光在数十亿年的时间里传播到我们这里时，它的路径会被所经过物质的引力弯曲，这种现象被称为弱引力透镜效应。这导致观测到的星系形状出现微小而精细的畸变。这些畸变的统计模式包含了关于宇宙成分的丰富信息。

问题在于：配方（ $\Omega_m, \sigma_8$ ）与最终的菜肴（观测到的星系畸变模式）之间的联系异常复杂。它涉及到模拟暗物质的引力坍缩、晕的形成，以及光在非均匀宇宙中传播的复杂物理过程。我们可以编写强大的计算机程序——模拟器——来正向建模这个过程，但我们无法为似然函数 $p(\text{观测到的星系形状} | \Omega_m, \sigma_8)$ 写出一个简单的方程。似然是难解的。

这正是神经后验估计的完美应用场景。这种方法既直观又强大。首先，我们扮演“宇宙厨师”的角色，在计算机上生成成千上万个“玩具宇宙”。每次模拟都使用从先验分布中抽取的不同宇宙学参数组合 $(\Omega_m, \sigma_8)$ 来运行。对于每个模拟的宇宙，我们计算望远镜会看到什么，包括引力、噪声和巡天几何的所有复杂效应。然后，我们训练一个神经网络充当“宇宙侍酒师”。网络会看到一个模拟宇宙的摘要统计量——可以说是它的“风味”——并学会将其与制造它的成分联系起来。

一旦网络在这个庞大的模拟宇宙库上训练完成，我们就将来自我们天空的真实数据呈现给它。然后网络会做一件非凡的事情。它不仅仅为我们提供对参数的单一最佳猜测。相反，它输出完整的后验分布 $p(\Omega_m, \sigma_8 | \text{真实数据})$ 。它为我们的宇宙提供了一份完整的“品鉴笔记”，告诉我们哪些成分组合是合理的，哪些不是，以及我们不确定性的精确程度。这是一个深刻的飞跃，使我们能够对直到最近在计算上还令人望而却步的问题进行严谨的贝叶斯推断。

聆听生命的嗡鸣

生物系统与寂静的宇宙相去甚远，但它们给科学家带来了类似的挑战。它们通常是随机的，由随机事件控制，而且我们通常只能部分地观察它们。

想象一下研究一个细胞、分子甚至动物的种群。它们的动态通常可以用几个基本规则来描述：出生率 $\lambda$ 、死亡率 $\mu$ 和迁入率 $\nu$ 。我们可以轻松地为这样一个生灭过程编写模拟器。然而，如果我们只有随时间变化的稀疏种群规模测量值，要推断出控制该系统的根本速率可能很困难。过程的随机性使似然函数变得复杂。

在这里，基于模拟的推断再次提供了一条前进的道路。我们可以用不同的合理速率 $(\lambda, \mu, \nu)$ 多次模拟该过程。然后我们从观测中计算简单的摘要统计量，比如平均种群规模及其方差。可以训练一个神经网络来学习从这些简单的统计量回到速率后验分布的映射。这使我们能够聆听生物系统嘈杂的“嗡鸣”，并推断出其运行的基本规则。

神经网络在生物学中的力量甚至更深。通常，我们关于生物过程的“教科书式”模型都是简化版本。考虑一个基因表达模型，其中一个 mRNA 分子产生一个蛋白质。我们可能会写一个简单的常微分方程 (ODE) 来描述这个过程。但如果真实过程存在隐藏的复杂性，比如 mRNA 转录和蛋白质翻译之间存在时间延迟怎么办？一个基于错误的、简化模型的传统估计方法将被系统性地误导，产生有偏见的结果。

一种更先进的方法是用一个灵活的神经常微分方程 (Neural ODE) 来替代死板的、由人编写的常微分方程。在这里，神经网络不仅学习后验分布，它还在学习系统本身的运动定律。通过在时间序列数据上训练，网络可以发现初始假设中未包含的复杂动态，例如未建模的时间延迟。这种寻找能够解释数据的最可能轨迹的方法，是函数空间上的一种贝叶斯推断。它表明，这些方法不仅能帮助我们为给定模型找到参数，还能帮助我们找到模型本身。

用数字孪生构建未来

现在让我们转向工程和物理世界。现代工程学中的一个宏伟抱负是“数字孪生”的概念——一个真实世界物理对象（如桥梁、喷气发动机或电池）的高保真虚拟模拟。为了发挥作用，这个虚拟孪生必须与其物理对应物完美同步。这需要从稀疏且带噪声的传感器数据中推断出真实物体的精确物理属性（如其材料刚度或导热系数）。

这是一个经典的反问题，它在所谓的物理信息神经网络 (PINNs) 中找到了一个优美的解决方案。它与贝叶斯推断的联系惊人地直接。在 PINN 中，我们用一个神经网络 $\mathbf{u}_\theta(\mathbf{x})$ 来表示一个连续的物理场——比如一个机械部件在负载下的位移。为了训练这个网络，我们构建一个损失函数，该函数逐项对应于负对数后验概率。它通常包含三个部分：

数据失配项：如果网络的预测与真实世界的传感器测量值不匹配，该项会对其进行惩罚。这恰好是数据的负对数似然。
物理残差项：如果网络的解违反了已知的物理定律（例如，线性弹性或流体动力学方程），该项会对其进行惩罚，这些定律是用自动微分计算的。这在可能的函数空间上充当了一个强大的、基于物理的先验。
参数先验项：这些项编码了我们对试图推断的物理参数的先验知识，例如描述材料弹性的拉梅参数 $(\lambda, \mu)$ 。这是参数的负对数先验。

通过最小化这个复合损失函数，网络同时学习一个连续的物理场并推断出控制它的参数。得到的解是最大后验 (MAP) 估计——在给定数据、物理定律和我们先验信念的情况下，系统最可能的状态。这种微分方程与深度学习的优雅融合是同一个核心思想的另一个侧面：利用神经网络解决植根于物理世界的复杂推断问题。

从宇宙的最大尺度到细胞的最小尺度，再到人造机器的世界，一个统一的主题浮现出来。自然界充满了复杂的生成过程，我们可以用模拟器来描述它们，但无法用简单的方程来描述。神经后验估计及其概念上的近亲们提供了一个灵活而强大的框架来逆转这些过程——即观察世界并向后推理，找出产生它的隐藏原因。它们代表了一种新的科学方法，其中编码在模拟中的人类物理直觉与深度学习卓越的模式发现能力相结合，以解锁对我们周围世界更深刻的理解。