首页变分推断

变分推断

玻尔百科

定义

变分推断是一种将难以处理的贝叶斯积分问题转化为优化问题的统计方法，通过寻找一个简单的分布来近似真实的后验分布。该方法通过最大化证据下界（ELBO）来同时提高近似质量并评估模型性能。虽然平均场假设使变分推断具有良好的扩展性，但它被广泛应用于机器学习和神经科学领域，用以量化认识不确定性并解释贝叶斯大脑假说。

核心要点

变分推断（VI）将棘手的贝叶斯积分问题转化为更易于处理的优化问题，通过寻找一个更简单的分布来近似真实的后验分布。
该方法通过最大化证据下界（ELBO）来运作，这既能促使近似分布更接近真实后验，又为模型质量提供了一个度量标准。
平均场假设是一种常见的简化方法，它使变分推断具有可扩展性，但会系统性地低估模型参数的不确定性，从而导致过度自信。
变分推断使机器能够量化自身的“认知不确定性”，并为贝叶斯大脑假说提供了一个统一的框架，在该假说中，认知被视为一个最小化自由能的过程。

引言

在科学和学习中，我们常常扮演侦探的角色，利用数据来推断我们周围世界背后隐藏的成因。贝叶斯推断为此过程提供了一个强大的数学框架，使我们能够根据新的证据更新我们的信念。然而，对于神经科学或人工智能等领域的许多复杂模型而言，此过程中的一个关键步骤——计算我们数据的总概率（即模型证据）——涉及一个极其复杂的积分，以至于几乎无法求解。这个“棘手的积分”是我们将贝叶斯推理应用于最有趣问题时的一个根本障碍。

本文探讨了解决这一困境的强大方案：变分推断（Variational Inference, VI）。变分推断并不直接解决那个不可能的积分问题，而是将其重构为一个更易于处理的优化问题。您将学习到这种巧妙的折衷方案如何让我们能够近似求解我们所寻求的答案，为现代统计学和机器学习提供了一个实用的工具包。在“原理与机制”一章中，我们将深入探讨变分推断的数学机制，探索 KL 散度和证据下界（ELBO）等概念如何让我们将一个不可能的计算转变为一场攀向更优近似的征途。然后，在“应用与跨学科联系”一章中，我们将看到这个工具不仅是一种计算技巧，更是一种变革性的思想，它使人工智能能够表达不确定性，并为大脑本身如何感知、学习和行动提供了深刻的理论基础。

原理与机制

贝叶斯困境：如山般庞大的积分

为了理解世界，科学家——或者说大脑——必须扮演侦探的角色。我们收集线索（数据）来构建一个关于真实情况（潜在的、隐藏的成因）的案例。在统计学中，这种从结果反推原因的推理过程由尊敬的 Thomas Bayes 发现的一条极为优雅的规则形式化。它告诉我们如何根据新证据更新我们的信念。其现代形式大致如下：

p(\theta \mid D) = \frac{p(D \mid \theta) \, p(\theta)}{p(D)}

我们不必被这些符号吓倒。可以这样理解。假设我们是神经科学家，试图根据某种刺激来理解一个神经元如何放电。量 $\theta$ 代表我们神经模型的隐藏参数——比如，决定神经元对刺激不同特征敏感程度的权重。数据 $D$ 是我们实际记录到的发放序列。

$p(\theta)$ ，即先验，是我们看到任何数据之前对参数的初始信念。这是我们的起始假设，是我们对这片领域的初始地图。
$p(D \mid \theta)$ ，即似然，告诉我们如果真实参数是 $\theta$ ，我们观察到的数据有多大的可能性。它是我们模型的引擎，将隐藏的成因与可见的结果联系起来。
$p(\theta \mid D)$ ，即后验，是侦探的最终报告。这是我们在考虑证据之后对参数的更新信念。这才是我们真正想知道的。

但这个故事里有一个反派：分母中的项 $p(D)$ 。这就是边缘似然，或称模型证据。它代表观察到我们数据的总概率，是在所有可能的参数设置上，根据我们的先验信念加权平均得到的结果：

p(D) = \int p(D \mid \theta) \, p(\theta) \, d\theta

这个量不仅仅是一个使后验成为真正概率分布的归一化常数。它体现了奥卡姆剃刀的一种形式。通过对所有参数进行平均，它告诉我们我们的模型在整体上对数据的解释程度如何，而不仅仅是针对某一组精心挑选的参数。一个能很好地拟合数据的简单模型会有很高的证据值，而一个过于复杂、能够拟合任何东西（因此不能预测任何具体事物）的模型，其概率会被摊薄，导致证据值很低。这使得边缘似然成为比较不同科学假说的最终仲裁者。

不幸的是，这个积分常常是我们的症结所在。对于神经科学、金融学或遗传学中的许多有趣模型——那些具有非线性或许多相互作用部分模型——这个积分涉及在一个拥有成千上万甚至数百万维度的空间上求和。从计算角度来说，这样的积分极其困难。这就像试图用一个量杯走遍整个喜马拉雅山脉来测量其精确体积一样。它根本是棘手的。这种棘手性是现代贝叶斯推断的核心挑战。

近似的艺术：如果无法计算，那就去猜测

当一个问题难以精确求解时，物理学家的本能是改变问题。如果我们无法找到复杂、崎岖的后验分布 $p(\theta \mid D)$ 的确切形式，或许我们可以找到一个更简单、更温和的分布 $q(\theta)$ 来近似它。这就是变分推断（VI）的核心思想。

我们选择一个更简单的分布族——例如，所有行为良好的高斯（钟形曲线）分布族。然后，我们在这个族中寻找一个特定的成员 $q(\theta)$ ，使其成为对真实后验 $p(\theta \mid D)$ “最接近”的近似。

但“最接近”意味着什么？我们需要一种方法来衡量两个分布之间的差异或“散度”。一个强大的工具是Kullback–Leibler (KL) 散度。KL 散度 $\mathrm{KL}(q \mid\mid p)$ 衡量了当我们用 $q$ 来近似 $p$ 时损失了多少信息。当且仅当两个分布完全相同时，它为零；否则它总是正数。因此，我们的目标变成了一个优化问题：在我们选择的简单分布族中，找到使 $\mathrm{KL}(q \mid\mid p)$ 最小化的 $q$ 。我们已经将一个噩梦般的积分问题转化为了一个更易于处理的优化问题。

ELBO：攀登后验分布的向导

奇迹就发生在这里。通过对定义进行简单的重新排列，我们可以揭示我们想要最小化的 KL 散度与我们放弃的棘手模型证据之间深刻而优美的联系。这个恒等式是：

\ln p(D) = \mathcal{L}(q) + \mathrm{KL}(q \mid\mid p)

在这里， $\ln p(D)$ 是我们所寻求的模型证据的对数。 $\mathrm{KL}(q \mid\mid p)$ 是我们近似的误差。而 $\mathcal{L}(q)$ 是一个新量，称为证据下界，或 ELBO。

这个方程意义深远。由于 KL 散度总是非负的， $\mathcal{L}(q)$ 必定总是小于或等于 $\ln p(D)$ 。它是对数证据的一个下界。看看这意味着什么！通过使我们的近似 $q$ 变得更好（最小化 KL 散度），我们必然会推动 ELBO $\mathcal{L}(q)$ 越来越高，越来越接近对数证据的真实值。

所以，最大化 ELBO 能一举两得：

它迫使我们的近似 $q$ 尽可能地接近真实后验 $p(\theta \mid D)$ 。
它为我们提供了一个对模型证据的越来越好的估计（一个下界），我们可以用它来比较模型。

这种双重目标使得变分推断如此强大。在计算神经科学等领域，这个量通常被称为负变分自由能。这个名字暗示了与统计物理学的深刻联系，将感知和学习构建为一个最小化意外或最大化生物体对其世界模型的证据的过程。

ELBO 本身有一个优美的解释。它可以写成：

\mathcal{L}(q) = \mathbb{E}_q[\ln p(D \mid \theta)] - \mathrm{KL}(q \mid\mid p(\theta))

这是一种权衡。第一项，即期望对数似然，代表准确性：我们的近似信念 $q$ 在多大程度上解释了观测到的数据。第二项是我们的近似与先验之间的 KL 散度，代表复杂性：为了解释数据，我们的信念需要偏离我们初始假设多远。最大化 ELBO 意味着找到一种既能很好地解释数据又不会变得不必要复杂的信念——这是奥卡姆剃刀的另一种体现。

分而治之：平均场假设

我们已经将积分问题转化为了优化问题，但在一个分布空间上进行优化仍然很困难。我们需要使我们的近似族，即 $q$ 的族，变得更简单。最常见的简化假设被称为平均场近似。

想象一下试图理解一个拥挤房间里复杂的社交动态。精确的方法需要同时追踪每一次对话和互动。而平均场方法则是假设每个人的行为可以通过考虑他与房间平均行为的互动来理解，而忽略具体的、成对的交谈。

用统计学术语来说，我们假设所有潜在变量的联合后验分布可以分解为各自独立的分布的乘积，每个变量（或变量组）一个：

q(\theta_1, \theta_2, \dots, \theta_d) = q_1(\theta_1) q_2(\theta_2) \cdots q_d(\theta_d)

这种“分而治之”的策略极大地简化了优化过程。我们现在可以一次优化一个因子 $q_i(\theta_i)$ ，同时保持其他因子固定，这个迭代过程称为坐标上升法。这将一个庞大的高维优化问题转变为一系列易于处理的低维优化问题。这种可扩展性是 VI 广受欢迎的一个关键原因。例如，在模拟整个基因组的表观遗传时，这允许我们使用随机变分推断（SVI），通过小批量随机的遗传位点而不是整个数据集来更新我们的全局信念。我们甚至可以训练一个神经网络来学习推断过程本身（摊销推断），使得对新位点的预测变得极其快速。

独立的代价：为何 VI 会过度自信

平均场假设是一个强大的技巧，但它是一个“谎言”，尽管是一个有用的谎言。而这个谎言是有后果的。通过强迫我们的近似忽略变量之间的相关性，我们引入了一种系统性偏差。

考虑两个参数 $\theta_1$ 和 $\theta_2$ 的真实后验。如果它们是相关的，后验的高概率区域可能看起来像一个倾斜的椭圆。我们的平均场近似 $q(\theta_1)q(\theta_2)$ ，根据其定义，必须具有轴对齐的形状。为了最小化 KL 散度 $\mathrm{KL}(q \mid\mid p)$ ，近似分布会因将概率质量置于真实后验为零的区域而受到严厉惩罚。一个轴对齐的椭圆要能容纳在一个倾斜的椭圆内，唯一的办法就是变得更窄。

这导致了平均场变分推断一个著名且至关重要的特性：它会持续低估后验方差。它产生的可信区间通常过窄；模型对其结论变得过度自信。对于一个相关的高斯后验，可以证明，一个变量的平均场近似的方差不是其真实的边缘方差，而是其小得多的条件方差——即如果我们已经知道另一个变量的值，剩余的不确定性。这不是代码中的一个 bug；而是我们所选择的数学目标的一个根本性后果。

更智能的近似：修正与情境

理解这一局限性使我们能够明智地使用 VI，甚至纠正其缺陷。

首先，平均场假设在什么时候“足够好”？直观上，当真实后验本身没有强相关性时，它应该是可以接受的。我们可以精确地表述这一点：由分解引入的误差恰好等于真实后验中潜在变量之间的互信息。如果这个值很小，我们的简化假设就没有造成太大损害。

其次，我们能纠正方差的低估吗？像线性响应变分贝叶斯（LRVB）这样的巧妙技术就是为此而开发的。通过分析当模型被轻微扰动时平均场解如何变化，人们可以恢复出原始近似所遗漏的后验协方差的估计。这提供了一个“重新膨胀”的、校准得更好的不确定性估计，而无需放弃变分框架的效率。

最后，值得记住的是，VI 只是众多工具中的一种。拉普拉斯近似将后验建模为以其峰值为中心的高斯分布，它甚至更简单，但可能因为纯粹是局部的而更加过度自信。像期望传播（EP）这样的方法通常以更高的计算成本提供校准得更好的不确定性估计。

从本质上讲，变分推断是一个关于有原则的妥协的美丽故事。它向我们展示了，通过将一个不可能的积分问题重构成一个可行的优化问题，并通过做出我们理解其后果的简化假设，我们能够构建出能从数据中学习的模型，其规模在几十年前是无法想象的。从破译神经回路的逻辑到模拟单个智能体的思想，它为描述发现过程本身提供了一种强大而实用的语言。

应用与跨学科联系

我们已经走过了变分推断的原理之旅，窥探了那些使我们能够近似不可能的数学机制。但是，一个工具的好坏取决于它能解决的问题。正是在应用领域，变分推断的真正美丽和力量才得以展现。它不仅仅是一个巧妙的计算捷径；它是一种统一的语言，连接了从人工智能的硅电路到人类大脑复杂的生物网络等不同学科。现在，让我们来探索这片广阔的思想版图。

谦逊的机器：量化“我不知道”

变分推断最深刻和最实际的应用之一，是教我们的机器拥有一份谦逊。一个标准的人工智能模型在面对问题时，总是会以坚定不移且往往不合理的自信给出答案。但如果问题是模棱两可的呢？或者，如果这是模型从未见过的问题类型呢？我们希望机器能够表达它的不确定性——能够说，“我不知道”。

这正是变分推断让我们能够做到的。我们可以区分两种基本类型的不确定性。第一种是偶然不确定性（aleatoric uncertainty），它内在于数据本身。想象一张模糊的照片或一段充满静电的录音；无论你的模型多聪明，能推断出的信息都有一个根本的限制。第二种，也许更重要的是认知不确定性（epistemic uncertainty），它反映了模型自身的知识匮乏。当模型在有限的数据上训练，或被呈现远超其训练经验的内容时，就会出现这种情况。

变分推断提供了一种有原则的方法来捕捉这种认知不确定性。我们不是为神经网络中的每个权重学习一个单一的、固定的值，而是使用 VI 为每个权重推断一个完整的概率分布。一个后验权重分布宽泛而不确定的网络，就是一个告诉我们它缺乏信心的网络。对于一个新的输入，我们不是得到一个单一的预测，而是可以从我们的变分后验中采样多组权重，通过网络运行它们，并观察结果的分布。分布范围广，就表示认知不确定性高。

这一能力正在改变医学等高风险领域。想象一个计算机辅助诊断系统正在分析一张医学扫描图。如果系统报告恶性肿瘤的概率很高，临床医生需要知道为什么。模型是不确定是因为扫描本身模棱两可（偶然不确定性），还是因为这是一个模型不熟悉的罕见病例（认知不确定性）？通过分解总预测不确定性，一个用 VI 训练的贝叶斯神经网络可以提供这一关键背景信息。其输出的方差可以分解为数据噪声项和模型参数不确定性项，从而为临床医生提供更丰富、更值得信赖的画面。这不仅适用于基于图像的模型，如卷积神经网络（CNNs），也适用于分析序列数据的模型，例如从电子健康记录中预测患者结局的贝叶斯 LSTM，尽管这些模型的循环性质给推断过程带来了独特的计算挑战。

值得注意的是，深度学习中一种名为蒙特卡洛 dropout 的流行技术，已被证明是一种巧妙的近似变分推断形式。通过在预测时保持 dropout 开启，并将同一样本多次输入网络，我们可以生成一个输出分布，其方差可以很好地作为认知不确定性的代理。这使得贝叶斯深度学习变得易于使用和实用，将一个曾经深奥的理论变成了构建更安全、更可靠人工智能的强大工具。

一种科学仪器：解混世界与比较思想

除了工程设计更好的工具，变分推断还作为一种强大的科学发现仪器。科学往往是一个“解混”的过程——即从复杂、混乱的观察中，梳理出产生它们的隐藏原因。

考虑大型强子对撞机的物理学家们面临的挑战。当粒子以巨大能量碰撞时，它们会产生一个我们感兴趣的主要“硬散射”事件，但这个事件叠加在较柔和的“基础事件”背景以及数十个同时发生的、称为“堆积效应”的无关碰撞之上。VI 可用于构建一个概率模型，将量能器单元中观察到的能量视为这三个隐藏分量的总和。通过应用变分算法，物理学家可以推断每个分量对总信号的最可能贡献，从而有效地清洗数据并分离出感兴趣的事件。同样的原理也适用于其他领域，例如在材料科学中为昂贵的量子模拟构建快速的代理模型，其中 VI 可以提供关键的不确定性估计，告诉科学家何时可以信任这个快速模型。

也许更深刻的是，VI 提供了一个比较相互竞争的科学假说的框架。在贝叶斯世界观中，我们使用一个称为模型证据的量来比较模型，它代表了在给定整个模型的情况下观察到数据的概率。一个具有高证据值的模型是既能很好地拟合数据又不过于复杂的模型。贝叶斯因子，即两个模型证据的比值，告诉我们哪个模型更受数据支持。

计算模型证据需要一个棘手的积分，但在这里 VI 提供了一个优雅的解决方案。我们在变分推断过程中最大化的那个量——证据下界，或称自由能——正是模型证据对数的一个紧密近似。这意味着，用 VI 训练模型的过程本身也为模型质量打出了一个分数！

神经科学家利用这一思想来裁决关于大脑功能的不同理论。使用一种称为动态因果模型（DCM）的技术，他们可以构建几个合理的“布线图”，代表不同大脑区域之间可能如何相互影响。通过使用变分推断将这些模型中的每一个拟合到 fMRI 数据上，他们可以比较产生的自由能。具有较高自由能的模型就是更受数据支持的模型，这使得研究人员能够对大脑的有效连接做出有原则的推断。通过这种方式，变分推断成为一个虚拟的裁判，权衡着相互竞争的科学思想的证据。

大一统理论：贝叶斯大脑

我们已经看到 VI 作为我们用来构建机器和理解数据的工具。但最诱人的想法是，变分推断不仅仅是我们对大脑所做的事情，而是大脑本身正在做的事情。这就是贝叶斯大脑假说的精髓。

该假说认为，大脑已经建立了一个内部的、概率性的生成模型来模拟世界——一个关于环境中隐藏的成因如何产生它所接收到的感官信号的模型。在这种观点下，感知是一个近似贝叶斯推断的过程：大脑反转其生成模型，以推断其感觉的最可能成因。当你看到一个影子移动时，你的大脑正在含蓄地计算各种原因——一只猫、风、一个捕食者——的后验概率，这是基于感官输入和你的先验知识。

这听起来像是一项极其复杂的任务，确实，精确推断是棘手的。这就是自由能原理作为一种宏大的、统一的理论登场的地方。它提出，所有自组织系统，从单细胞到人类大脑，都在采取行动以最小化其变分自由能。正如我们所见，最小化自由能在数学上等同于执行近似贝叶斯推断。因此，大脑是一个推断引擎，不断努力最小化其对世界的预测与接收到的感官证据之间的不匹配。这个单一而强大的思想将感知（更新信念以更好地解释感觉）和学习（更新模型本身以做出更好的长期预测）联系在一起。关于大脑的层级回路中如何实现这一点，一个流行的算法理论是预测编码，其中自上而下的预测与自下而上的感官信号进行比较，目标是在层级的每一级都最小化预测误差。

该理论甚至延伸到了行动。主动推断将规划重塑为另一种形式的推断。策略，即行动序列，被视为待推断的潜在变量。大脑选择它预测将导致未来具有低自由能的行动。这意味着我们的行动既是为了实现我们的目标（体验我们有强烈先验偏好的状态），也是为了收集信息（减少关于世界的不确定性）。规划、感知、学习和行动都成为同一基本过程的不同方面：通过变分推断最小化自由能。

从构建可信赖人工智能的实际挑战，到解混信号的科学探索，再到关于生命和认知本身的深刻理论，变分推断提供了一条共同的数学线索。它证明了一个单一、优美的思想在照亮我们的世界以及，或许，我们自身方面的强大力量。