后验分布近似

玻尔百科

核心要点

在贝叶斯统计中，由于计算边缘似然需要进行高维积分，后验分布通常难以直接计算。
拉普拉斯近似提供了一种快速的确定性方法，它通过将一个简单的高斯分布拟合到后验分布的峰值（最大后验估计）来进行近似。
变分推断（VI）将问题重构为一个优化问题，旨在寻找一个与真实后验尽可能接近的易于处理的分布。
马尔可夫链蒙特卡洛（MCMC）方法被认为是黄金标准，因为它们生成的一系列样本能够描绘出后验分布的完整形状。
近似贝叶斯计算（ABC）使得对那些似然函数本身无法写出的复杂、基于仿真的模型进行推断成为可能。

引言

在现代统计学领域，贝叶斯推断为我们根据新证据更新信念提供了一个强大的框架。其目标是计算后验分布，这是我们在观测到数据后对模型参数所知信息的完整总结。然而，一个重大的障碍常常挡在面前：一个被称为边缘似然的归一化常数的计算，它涉及一个高维且通常难以处理的积分。这个计算瓶颈使我们无法直接处理后验分布，从而在贝叶斯理论及其实际应用之间造成了关键的知识鸿沟。

本文旨在直面这一挑战，全面概述为近似后验分布而发展出的主要策略。第一章“原理与机制”将深入探讨四类主要近似方法背后的核心思想：拉普拉斯近似、变分推断（VI）、马尔可夫链蒙特卡洛（MCMC）和近似贝叶斯计算（ABC）。随后的“应用与跨学科联系”一章将展示这些强大的技术如何应用于物理学、生物学和机器学习等不同领域，以解锁新的科学见解。

原理与机制

贝叶斯推断的核心是一个简洁而优美的公式：贝叶斯定理。它告诉我们如何根据新证据（似然）来更新我们的信念（先验分布），从而形成一个新的、更完备的信念（后验分布）。后验分布包含了我们在观测数据后可能知道的关于未知参数的一切。在某种意义上，它是我们推断问题的完整答案。

那么，问题出在哪里？为什么我们需要一个完整的领域来近似这个答案？困难并不潜藏在贝叶斯定理的分子中（它只是似然和先验的乘积），而是在分母中。这个被称为边缘似然或证据的项，涉及一个特别棘手的计算：分子对所有可能的参数值进行积分。在任何现实的复杂问题中，我们的参数并非存在于一条简单的数轴上，而是位于一个高维空间中，这使得该计算成为一个艰巨的、往往不可能完成的高维积分。

没有这个归一化常数，我们只知道后验分布的形状，但不知道其绝对尺度。想象一下，你精确地知道一个山脉的地形，却不知道海平面在哪里。你可以找到最高峰，但你无法说出它的绝对海拔，也无法计算出山脉在某一高度以上的总体积。同样，没有证据项，我们就无法为参数空间的某些区域赋予确切的概率，也无法计算有意义的平均值。我们被迫寻找巧妙的方法来处理这个未归一化的后验分布，而这种必要性催生了三种巧妙的发明：确定性近似、变分方法和随机模拟。

山之巅峰：拉普拉斯近似

最简单、最直接的方法是找到唯一最可信的一组参数，并围绕它建立我们的近似。这个最可信的点就是我们后验概率山峰的顶峰，即后验概率密度最高的地方。我们称之为最大后验（MAP）估计。

拉普拉斯近似正是基于这一思想。它做出了一个大胆但通常有效的假设：在其峰值附近，后验分布看起来很像一个高斯分布，或称“钟形曲线”。我们如何找到合适的那个高斯分布呢？我们求助于数学家工具库中最强大的工具之一：泰勒级数。通过分析后验密度的对数并在MAP估计点附近进行展开，我们可以为局部地形创建一个简化的蓝图。根据定义，一阶导数在峰值处为零。神奇之处在于二阶导数，即Hessian矩阵，它描述了峰值的曲率。一个急剧弯曲的峰意味着后验非常集中，对应于一个方差较小的高斯分布。一个平缓圆润、宽阔的峰则意味着我们的信念更为分散，对应于一个方差较大的高斯分布。

例如，假设我们试图估计一枚硬币的偏差 $\theta$ 。我们从一个先验信念（比如一个Beta分布）开始，然后抛硬币200次，观察到120次正面。拉普拉斯近似允许我们找到 $\theta$ 的MAP估计以及该点对数后验的曲率。这为我们提供了一个高斯分布的均值和方差，该分布近似于我们更新后的信念，然后我们可以用它来计算概率，比如真实偏差 $\theta$ 大于0.5的几率。

拉普拉斯近似的优点在于其速度和简单性。它将一个棘手的积分问题转化为一个容易得多的优化问题（寻找峰值），然后再计算局部曲率。然而，其优点也正是其弱点。它本质上是一种局部近似。如果真实的后验分布不是对称的——如果它是偏斜的或呈香蕉状（这在非线性模型中很常见）——那么对称的高斯分布将是对事实的拙劣描摹。由拉普拉斯方法生成的椭球形“可信区域”将与真实的、弯曲且不对称的最高后验密度（HPD）区域不匹配，而后者包含了最可能的参数值，并代表了我们信念的真实几何形状。

雕刻复制品：变分推断

如果我们不只是近似峰值，而是尝试创建一个更简单、更易于管理的分布，并将其塑造得尽可能接近整个复杂的后验分布，那会怎样？这就是变分推断（VI）背后的哲学。

其策略是选择一个易于处理的分布族，比如高斯分布，我们称之为变分族，记作 $q(\theta)$ 。然后我们试图在该族中找到一个成员，使其成为对我们真实的、难以处理的后验 $p(\theta | y)$ 的“最佳”近似。我们的近似 $q$ 与真实后验 $p$ 之间的“距离”或不相似性由库尔贝克-莱布勒（KL）散度来衡量。我们的目标是调整 $q$ 的参数以最小化此散度。

直接最小化KL散度是不可能的，因为它需要知道我们正试图近似的那个后验分布！VI的天才之处在于它通过优化一个替代目标来回避这个问题：证据下界（ELBO）。事实证明，最大化ELBO完全等同于最小化KL散度。真实的对数边缘似然与ELBO之间的差值恰好是KL散度，而KL散度总是一个非负值。这个差值通常被称为变分间隙。

通过最大化ELBO，我们同时在推动我们的近似 $q$ 更接近真实后验，并为证据本身找到了一个下界。这将原始的积分问题重构为了一个优化问题：我们搜索变分族的最优参数，使我们的复制品尽可能忠实。一个常见的简化假设，被称为平均场近似，是假设在我们的近似后验中参数是独立的，即使它们在真实后验中并非如此。

VI通常比其他方法快得多，尤其是在大数据和深度学习时代，使用共享的“推断网络”进行摊销推断可以为新数据点提供闪电般快速的后验近似。然而，就像一个使用有限工具的雕塑家一样，VI近似的质量从根本上受到所选变分族灵活性的限制。如果真实的后验是一个复杂的多峰形状，而我们试图用一个简单的高斯分布来近似它，那么无论我们如何优化，都不可避免地会存在差距。

在山上随机游走：马尔可夫链蒙特卡洛

第三种截然不同的哲学是放弃寻找一个简洁的解析公式来表示后验分布。相反，我们可以尝试去探索它。这就是马尔可夫链蒙特卡洛（MCMC）方法的世界。

其直觉引人入胜：想象一个徒步者在我们的后验分布山脉的表面上进行随机游走。如果我们巧妙地设计徒步者的移动规则，我们就能确保他们在任何给定区域花费的时间与该区域的海拔（后验概率）成正比。通过定期记录徒步者的位置，我们可以收集到一个参数值列表，即样本。一旦徒步者有足够的时间忘记其起点（一个“预烧期”），这个样本集合就构成了整个后验分布的忠实表示。

这不仅仅是一个比喻，它是一个数学上严谨的过程。“随机游走”是一个马尔可夫链，而“巧妙的规则”是一个转移核，其设计具有一个关键属性：它的平稳分布必须与我们的目标后验分布完全相同。这保证了从长远来看，该链将产生如同直接从后验分布中抽取的样本。

这从根本上将MCMC与基于优化的方法区分开来。像期望最大化（Expectation-Maximization）这样的算法可能会找到MAP估计——山脉的唯一峰值——但像吉布斯采样（Gibbs sampler）这样的MCMC采样器提供了一整片点云，描绘出山脉的整个形状，包括其山谷、山脊和次级峰。从这些样本中，我们不仅可以计算出单一的最佳猜测，还可以计算后验均值、可信区间以及任何其他关于我们不确定性的总结。

MCMC方法通常被认为是“黄金标准”，因为只要有足够的时间，它们可以以任何期望的精度近似后验分布。当然，这里的关键是“足够的时间”。运行这些链条在计算上可能非常昂贵，而且诊断链条是否真正收敛到其平稳分布是一门微妙的艺术。

当你连山都看不见时：近似贝叶斯计算

最后，我们考虑最富挑战性的情景：如果我们甚至无法写出似然函数，该怎么办？这种情况出现在许多领域，从生态学到宇宙学，在这些领域中，我们的模型是复杂的计算机模拟，充当“黑箱”：我们可以输入参数并得到模拟数据，但我们无法写出定义此过程的数学函数 $p(\text{data} | \text{parameters})$ 。

在这里，一种名为近似贝叶斯计算（ABC）的非凡技术应运而生。其思想非常简单，近乎幼稚。如果我们无法计算出哪些参数使我们观测到的数据具有高可能性，我们可以转而尝试大量来自先验分布的参数值，为每一个参数值生成一个“伪”数据集，然后看看哪些参数值产生的数据集与我们的真实数据看起来相似。那些成功的参数值的集合就是我们对后验分布的近似。

这引入了两层近似。首先，比较整个高维数据集通常是不切实际的。取而代之，我们比较少数几个摘要统计量（如均值和方差）。其次，即使在这些摘要统计量上要求完全匹配也过于严格。因此，如果模拟统计量与观测统计量之间的距离小于某个微小的容差 $\epsilon$ ，我们就接受该参数抽样。

ABC是一种“双重近似”方法，但它也是一个不可或缺的工具，使我们能够对那些其他所有方法都束手无策的最复杂的生成模型进行贝叶斯推断。它证明了驱动现代统计学的实用主义和创造力，即使在山脉本身被迷雾笼罩时，也能找到前进的道路。

应用与跨学科联系

在遍历了后验近似的巧妙机制——拉普拉斯近似的优雅曲率、变分推断的精巧优化以及马尔可夫链蒙特卡洛的耐心探索之后，人们可能会问：“这一切都是为了什么？”这是一个合理的问题。对于物理学家来说，一个理论的美丽程度取决于它所描述的宇宙。对于统计学家来说，一种方法的强大程度取决于它能揭示的真相。这些近似方法的真正魔力不在于其数学本身，而在于它们如何让我们在科学的各个领域进行推理、学习并窥探未知。它们是将浸染着真实世界噪声和不确定性的数据转化为真正知识的通用工具。

统计学中最大的错觉是存在唯一的、确定的答案。世界并非如此简单。贝叶斯分析的真正奖赏不是一个单一的数字，而是一个完整的可能性分布——后验分布。它不仅告诉我们应该相信什么，还告诉我们应该多么强烈地相信它，以及还有哪些其他可能性是合理的。想象一下试图重建生命演化树。一个算法可以给出一棵“最佳”树，即最大化某个分数的树。但这是真相吗？几乎可以肯定不是。数据是嘈杂的；演化是一个混乱、偶然的过程。我们用MCMC探索的后验分布可能会揭示，虽然树的某个分支几乎是确定的，但另一个分支在两种不同排列之间的可能性几乎是五五开。单一的最大后验（MAP）树的后验概率可能只有十亿分之一，这使得它完全无法代表由其他几乎同样好的树组成的广阔森林。只报告MAP树，就是将一个单一的、可能具有误导性的故事当作整个演化历史的文库来呈现。诚实的方法是总结整个后验分布，报告哪些关系是确定的，哪些是模糊的——这是一项MCMC不可或缺的任务。

物理学家的视角：用数据验证理论

让我们从物理学家熟悉的领域开始：基本力和粒子的世界。考虑原子核的中心，那里的质子和中子被核力束缚在一起。我们的理论，如Hartree-Fock-Bogoliubov（HFB）方程，以惊人的准确性描述了这种行为。然而，这些理论包含参数，即自然界的基本常数，其数值并非由理论本身给出。其中一个参数是配对强度 $V_0$ ，它控制着核子如何配对。我们如何确定它的值？我们求助于实验。我们测量物理可观测量，比如具有偶数和奇数个核子的原子核之间的微小质量差异，这与配对现象直接相关。

这就构成了一个经典的逆问题。我们的HFB理论是一个“正向模型”：你给它一个 $V_0$ ，它就能预测质量差异。我们想反过来：给定测量值， $V_0$ 是多少？贝叶斯框架对此非常适用。我们写出 $V_0$ 的后验分布。这个分布的峰值（MAP估计）将是我们对该参数的最佳猜测，其宽度将告诉我们我们的不确定性。但HFB方程极其复杂！我们无法简单地写出后验的简单公式。此时，拉普拉斯近似就派上用场了。通过将其峰值周围的对数后验近似为一个简单的抛物线，我们免费得到了一个高斯后验。找到这个峰值是一个优化问题，类似于寻找势能面的最小值，而我们使用的机制——牛顿法和高斯-牛顿近似——与物理学家用来寻找稳定平衡点的方法相同。其结果不仅仅是 $V_0$ 的一个值，而是一个带有误差棒的值，这是通过让优美的理论与冰冷的、确凿的数据对质而锻造出来的、关于我们所知和所不知的诚实陈述。

生物学家的工具箱：从基因到生态系统

生物学是一门复杂到令人难以置信的科学，是一幅由无数相互作用部分编织而成的织锦。在这里，我们的近似方法不仅有帮助，而且对于理解现代实验产生的令人眼花缭乱的数据量至关重要。

考虑基因调控的复杂舞蹈。一个基因的表达——无论它是被“开启”还是“关闭”——都不是一个简单的开关。它由多种因素共同决定，包括其DNA的可及性（染色质可及性）以及哪些蛋白质正在与之结合（转录因子）。借助ATAC-seq、ChIP-seq和RNA-seq等现代测序技术，我们可以同时测量成千上万个基因的所有这些指标。我们如何综合这股信息的洪流？我们可以构建一个层级贝叶斯模型。我们可以假设存在潜在的、未观测到的“可及性”和“结合”量，它们影响着观测到的基因表达。它们之间的关系由系数决定——一些用于可及性的直接效应，一些用于结合，还有一些用于它们的相互作用。使用一系列高斯近似，很像变分推断中的做法，我们可以推断出这些系数的后验分布。然后我们就可以提出复杂的科学问题，例如通过比较这两个域之间相互作用系数的后验分布，来回答“在真核生物中，可及性与结合之间的相互作用是否比在原核生物中更重要？”这些方法使我们能够从海量的原始数据转向对细胞基本逻辑的机理性理解。

同样的逻辑可以从分子尺度扩展到整个生态系统。想象一下在森林边缘研究动物行为。我们遇到某个物种的频率可能取决于边缘的类型——是与田野的急剧过渡，还是向年轻森林的逐渐过渡？我们可以在不同区域收集计数数据（例如，每天的目击次数）。这些计数自然地遵循泊松分布。将泊松似然与物种遭遇率的先验相结合，会得到一个在数学上不方便处理的后验。但是，拉普拉斯近似，即对对数后验进行简单的高斯拟合，使问题变得易于处理。通过构建一个层级模型，我们可以让所有边缘类型的数据共同为我们对每种特定类型的估计提供信息，这是一个被称为“部分池化”的强大思想。这使我们能够更有效地学习，得出关于边缘效应的一般性结论，同时仍然尊重每个栖息地的独特性。

工程师的工艺：构建智能机器

构建智能机器的探索，在许多方面，是构建能够对不确定性进行推理的机器的探索。一辆自动驾驶汽车不仅必须识别行人，还必须知道它在不确定一个物体是否是行人时该怎么办。这正是贝叶斯机器学习大放异彩的地方。

让我们看一个简单的分类器，比如一个用于区分两个类别的逻辑回归模型。标准方法会得出一组权重，仅此而已。而贝叶斯方法则为我们提供了这些权重的后验分布。为了对新数据点进行预测，我们不应该只使用单一的“最佳”权重（MAP估计）。原则上，我们应该对所有可能的权重进行预测平均，并按其后验概率加权。这个积分通常是难以处理的。但拉普拉斯近似为我们提供了一种简便的方法来近似它。结果非常有趣：通过对不确定性进行平均而引入的校正与S形函数的曲率有关。在函数是凹的地方，不确定性将预测向下拉；在函数是凸的地方，则将其向上推。这是詹森不等式（Jensen's inequality）这一深刻数学原理的体现，在这里表现为一条使预测更诚实的实用规则。

这种稳健性的思想可以进一步延伸。真实世界的数据是混乱的，它包含异常值。如果我们假设数据来自一个纯净的高斯分布来训练模型，一个离群的数据点就可能将我们的估计值拉得远离真相。一种更稳健的方法是假设数据来自一个具有更重尾部的分布，比如学生t分布（Student's t-distribution）。这使得模型能够以更“怀疑”的态度对待令人意外的数据点。由此产生的后验不再是一个简单的高斯分布，但我们可以再次使用拉普拉斯近似来找到其峰值和宽度。我们发现，模型对均值的估计受异常值的影响要小得多，并且其报告的不确定性也适当地增加了。这台机器学会了成为一名优秀的科学家：对看起来太奇怪的数据保持警惕。即使对于像神经网络这样的复杂模型，这些相同的原则也适用。我们可以使用拉普拉斯或变分方法来近似网络权重的后验，这不仅给我们一个预测，还给我们一个可信区间，告诉我们应该在多大程度上信任这台“机器的心智”。

统计学家的秘密：一条普适的推断法则

我们已经看到，近似是强大的计算工具。但有时，它们揭示了关于推断本质的更深层次的东西。其中一个最美的例子是所谓的贝叶斯信息准则（BIC）的起源。当我们比较不同模型时，我们希望平衡两件事：它们对数据的拟合程度，以及它们的复杂程度。一个有一百万个参数的模型总是比一个只有两个参数的模型拟合得更好，但我们知道这是过拟合。我们需要一种方法来惩罚复杂性。

事实证明，这种惩罚并非我们必须发明的东西。它直接从拉普拉斯近似中得出。一个模型的“证据”是给定模型下数据的概率，这涉及对所有可能的参数值上的似然进行积分。如果我们将拉普拉斯近似应用于这个积分，对数证据中的主导项是最佳拟合参数下的对数似然，以及第二项： $-\frac{d}{2} \ln N$ ，其中 $d$ 是参数数量， $N$ 是数据点数量。

这是引人注目的。对复杂性的惩罚——每增加一个参数 $d$ ——是从一个简单的积分高斯近似中自然而然地产生的。它告诉我们，贝叶斯推断的逻辑本身就包含了一种形式的奥卡姆剃刀：偏爱更简单的解释。这不是我们强加的哲学选择，而是对不确定性进行积分的数学结果。这是一个统一的原则，表明同样一个简单的想法——用抛物线近似一个复杂函数——可以带我们从物理学和生物学中拟合数据的实践，走向科学推理的基本原则本身。