
从观测到的效应中推断出隐藏的原因,是科学探究和智能的基石。从医生诊断疾病到天文学家发现行星,我们不断地从数据回溯到解释。贝叶斯框架为此过程提供了严谨的数学语言,使我们能够根据新证据更新我们的信念。然而,它的直接应用常常受阻于一个计算上难以处理的项,即边际似然,这为复杂、真实世界的模型设置了重大障碍。本文探讨了我们如何使用变分推断这一巧妙的技术来克服这一挑战,该技术将推断问题重构为一个优化问题。我们将深入探讨解决此问题的两条不同路径:细致但缓慢的逐实例优化,以及快速、可扩展的摊销推断方法。接下来的章节“原理与机制”和“应用与跨学科联系”将剖析摊销推断的机制,从其基础理论和内在权衡,到其在不同科学领域的革命性影响。
科学的核心——实际上也是智能本身的核心——是一种推断行为。我们观察世界,收集数据,并从这些效应中推断出隐藏的原因。医生看到一组症状(),推断出潜在的疾病()。天文学家观察到遥远恒星的微弱摆动(),推断出 orbiting 的行星()的存在。神经科学家记录下神经元复杂的放电模式(),并试图理解产生这些模式的潜在脑状态()。在每一种情况下,我们都是从观察回溯到解释。这就是推断的艺术。
我们如何将这门艺术形式化为一门科学?我们拥有的用于在不确定性下进行推理的最强大的框架是贝叶斯概率。
贝叶斯的观点提出,我们对世界有一个内在的或生成模型,这是一套关于原因如何产生效应的信念。该模型包括两个部分:
一个先验,,它代表了我们对原因的初始信念。在看到任何数据之前,任何特定原因 的可能性有多大?这种疾病是罕见还是常见?一颗行星可能是大质量还是小质量?
一个似然,,它描述了生成的过程。如果某个特定的原因 是真实的,我们观察到数据 的概率是多少?如果病人得了流感,他们出现发烧的可能性有多大?
我们的目标是反转这个过程。鉴于我们已经观察到数据 ,原因为 的概率是多少?这就是后验分布,。从我们的生成模型到后验分布的桥梁是两百多年前由 Reverend Thomas Bayes 发现的一个优美、简单而深刻的定理:
这个规则精确地告诉我们如何根据新证据更新我们的信念。后验概率与给定原因下证据的似然乘以我们对该原因的先验信念成正比。这是从经验中学习的数学基础。
如果实践中真有那么简单就好了。分母中那个看起来无害的项 ,隐藏着一个怪物。这个项被称为边际似然或证据,是观察到数据的概率,对所有可能的原因取平均:
除了最平凡的模型外,这个积分在计算上是难以处理的。它需要对无限多种可能性进行求和。要想知道某组特定症状有多么令人意外,你需要计算这些症状由流感、感冒、过敏、每一种已知疾病以及每一种尚未发现的疾病引起的概率。对于现代科学中使用的复杂、高维模型——从神经科学到宇宙学——这个积分是一堵坚硬的墙,阻碍了贝叶斯法则的直接应用。真实的后验 ,在所有实际目的上,都是不可知的。
当直路被堵死时,聪明的工程师会找到一条绕路。这就是变分推断(VI)的精神。其核心思想非常 pragmático:如果我们无法计算真实的后验 ,那就让我们从一个更简单、更易于管理的分布族中找到最好的近似,我们称之为 。把真实的后验想象成一个形状独特、复杂的物体,而我们的分布族 则是一组简单的形状,比如球体或立方体。我们无法锻造一个完美的复制品,但我们可以找到最能匹配该物体大致形态的球体。
这将一个不可能的积分问题重构成了一个可解的优化问题。我们的近似 和真实后验 之间的“接近度”由Kullback-Leibler (KL) 散度来衡量。通过一个基本恒等式,我们可以将这个散度与一个我们可以计算的量联系起来:证据下界(ELBO)。
其中 ELBO,,定义为:
让我们来解读这个宏伟的方程。对数证据,我们难以处理的目标,等于 ELBO 加上 KL 散度。由于 KL 散度总是非负的,ELBO 始终是 log 证据的一个下界——它永远不会更大。我们的界限与真实值之间的差距正是 KL 散度,它衡量了我们的近似有多差。因此,如果我们找到一个最大化ELBO 的近似 ,我们同时也就等价地最小化了 KL 散度,将我们的近似尽可能地挤压向真相。我们成功地转换了问题。
既然我们有了一个可处理的目标,我们如何执行优化呢?这个问题将我们引向一个关键的岔路口。
第一条路是工匠之路。对于我们遇到的每一条新数据,比如说一个特定病人的放射影像 ,我们都定义一组独特的变分参数 ,并运行一个完整的迭代优化过程,为那一个病人找到最佳的近似 。这种逐实例优化是细致的,可以找到一个非常高质量、定制的拟合。但它非常缓慢。在一个“大数据”的世界里,医学或基因组学的数据集可能包含数百万个样本,为每一个样本运行一个独立的、冗长的优化是根本不可行的。
这呼唤着一场工业革命。如果我们不是为每一个观察手工制作一个解释,而是能够建造一台机器来学习推断这个通用过程本身呢?
这就是摊销推断的核心思想。我们学习一个单一的函数,通常是一个强大的神经网络,称为推斷网络或编码器,它将任何观察 映射到其近似后验 的参数。这个网络的参数,用 表示,在所有数据点之间共享。
学习的成本在整个数据集上被“摊销”了。我们不是解决数百万个独立的、小型的优化问题,而是解决一个大型但单一的优化问题:找到最好的一组编码器参数 ,使其在所有数据上平均表现良好。
其好处是革命性的。
当然,在物理学或统计学中没有免费的午餐。摊销推断的速度和可扩展性伴随着一个权衡:潜在的精度损失。单一的、共享的推断网络必须学习一个“一体适用大多数”的映射。对于任何特定的、奇特的数据点,这种通用映射可能无法产生一个专注的、逐实例优化所能找到的绝对最佳的后验近似。
这种性能差异被称为摊销差距。它是定制工匠解决方案与量产解决方案之间在 ELBO 上的差距。这个差距的产生是因为任何现实世界中的推断网络都有有限的容量;它不能为每一种可以想象的观察完美地学习到最优的推断策略。这有时会导致系统性偏差,例如模型过于自信,低估了自身的不确定性。一个过拟合的推断网络甚至可能在其训练数据上表现出很小的摊销差距,但在新的、未见过的数据上表现出非常大的差距。
我们必须在缓慢、完美的工匠和快速但有时不完美的机器之间做出选择吗?幸运的是,不必。我们可以创建一个结合了它们优点的混合系统。
这种策略通常被称为半摊销推断。过程简单而优雅:
这种方法就像让一位大师艺术家提供一个快速、准确的草图,然后由一个初级学徒用一些最后的细节进行修饰。它可以在适度的额外计算成本下显著减少摊銷差距,让我们在获得定制方法的大部分精度的同时,也保留了摊销方法的大部分速度。这种务实的折衷代表了一种强大且广泛使用的技术,用于在推动科学前沿的复杂、具挑战性的概率模型中执行推断。
想象你是一名侦探,正在调查一桩复杂的案件。每当有新证据出现时,原则上,你可以重新检查之前的每一条线索、每一份证人陈述、每一份实验室报告,并从头开始重建你对整个罪行的理论。这将非常彻底,但缓慢得令人痛苦。相反,如果在解决了数千起案件之后,你培养出了一种直觉——一种快速、熟练的判断力呢?你看到一条新线索,几乎瞬间就有了一个强有力的、信息充分的假设。你已经学会了推断的模式。你在脑海中建立了一台可重用的“推断机器”。
这正是摊销推断的精髓。这是从为每个新问题寻找新解法到学习如何解决一般问题的深刻视角转变。我们不是为每一份新数据设计一个定制的推断程序,而是投入一次性的前期计算成本来训练一个单一、高效的推断机器——一个编码器——然后可以以极低的成本应用于无数新的观测。这种在许多数据点上“摊销”推断成本的做法,不仅仅是一个巧妙的计算技巧;它是一个统一的原则,为科学和工程领域一些最具挑战性的问题解锁了解决方案,从解码大脑的秘密到构建我们物理世界的数字复制品。
数据规模的挑战在生命系统的研究中表现得最为明显。现代生物学和神经科学被维度惊人的数据所淹没,而摊销推断已成为理解这些数据不可或缺的工具。
以基因组学的革命为例。通过单細胞 RNA 測序(scRNA-seq),我们可以测量数百万个单个细胞中成千上万个基因的活性。我们的梦想是绘制这片浩瀚的数据海洋,发现新的细胞类型,理解疾病,并描绘发育的进程。但我们如何才能在一个每个细胞都有 20,000 个维度的空间中导航呢?经典的统计方法,将每个细胞视为一个需要单独解决的难题,根本跟不上。
这就是像 Single-cell Variational Inference(scVI)这样的方法发挥作用的地方,它建立在摊销推断的原则之上。我们不是直接处理每个细胞的 20,000 维基因表达向量,而是假设一个细胞的状态可以用一组小得多的潜在——或隐藏——变量来描述。也许只需要 10 或 20 个数字就能捕捉到一个细胞生物学程序的核心。scVI 模型训练一个深度神经网络作为摊销编码器,学习从任何细胞的高维基因表达谱到其在这个低维潜在空间中对应点的直接映射。它还学习了一个解码器,可以从该潜在空间中的任何点生成一个可信的基因表达谱。关键是,该模型使用的似然函数,如负二项分布,是为基因表达数据的噪声、整数计数特性量身定制的。其结果是一种强大且可扩展的方法,可以从数百万个细胞中创建一个有意义的细胞景观“地图”。
当面临一个更大的挑战时,这种方法的真正美妙之处就显现出来了:整合多种类型的数据。想象一下,我们不仅有基因表达(scRNA-seq)数据,还有关于同一细胞中基因组哪些部分是可及的(scATAC-seq)信息。这是关于细胞身份的两种根本不同的“线索”。摊销推断提供了一个优雅的解决方案:我们为每种数据类型设计两个专门的编码器,但让它们都映射到同一个共享的潜在空间。对于一个我们同时拥有两种测量值的细胞,我们可以结合来自两个编码器的证据,使用“专家乘积”框架在潜在地图中找到一个更精确的位置。令人惊讶的是,这个框架也能优雅地处理我们只有一种数据类型的细胞。相应的编码器 просто 被单独使用。这使得所有可用的数据,无论配对与否,都能为一个统一的细胞生物学理解做出贡献。
类似的故事也发生在神经科学中。神经科学家同时记录来自数百或数千个神经元的电“脉冲”,希望理解这些活动模式如何代表思想、感觉或行动。一个配备了摊銷编码器的变分自编码器(VAE)可以学会将这些复杂、高维的模式提炼成一个低维的潜在轨迹,捕捉底层的神经计算。对于随时间展开的动态过程,这个想法扩展到像 Latent Factor Analysis via Dynamical Systems(LFADS)这样的序列模型。在这里,一个攤銷编码器,通常是一个复杂的循环神经网络,学会从单次记录的大脑活动中推断出神经状态随时间变化的整个潜在轨迹。这就像观看一部无声电影(脉冲序列),然后让编码器即时写出产生它的完整剧本(潜在动力学)。
这种学习推断机器的强大思想绝不仅限于生命科学。对于任何涉及从观察到的效应推断隐藏原因的领域,它都是一个通用的工具。
在现代工程学中,“数字孪生”——对喷气发动机或电网等物理资产的高保真、实时虚拟仿真——的概念正在成为现实。为了发挥作用,这个数字孪生必须与其物理对应物保持完美同步,根据传入的传感器数据流不断更新其内部潜在状态。在每一毫秒从头开始执行完整的贝叶斯更新在计算上是 prohibitive 的。摊销变分推断提供了一条前进的道路。可以训练一个编码器,它接收最近的传感器和控制历史摘要,并对孪生的潜在状态分布进行即时更新。这使得数字孪生概念如此强大的实时不确定性量化和控制成为可能。
那么,这个编码器,这个神奇的盒子,究竟在学习做什么呢?让我们从物理学家的角度来揭开层次,审视这个问题。考虑一个最简单的非平凡系统:一组隐藏原因 通过线性变换 产生观察到的效应 ,并带有一些附加噪声。也就是说,。这是科学和工程领域无数逆问题的抽象形式。如果我们为这个系统建立一个摊销推断模型,编码器学习近似的数学对象是什么?答案惊人地优雅。编码器学会了计算岭型伪逆:
这是线性代数中用于寻找逆问题稳定、正则化解的经典工具!神经网络通过其训练过程,独自重新发现了这个基础数学知识。正则化参数 并非任意的;它由我们测量中的噪声与我们对潜在原因的先验不确定性之间的平衡自动确定。编码器本质上是在学习“逆向运行系统”的最优、稳定化方法。
摊销推断兴起的最引人注目的原因是其纯粹的计算效率。想象一个医院系统想要分析一千万份临床笔记,以发现疾病进展模式,使用主题建模。像 Latent Dirichlet Allocation 這樣的經典推斷算法需要为那一千万份文档中的每一份都运行一个独立的、迭代的优化过程。计算成本将是天文数字。相比之下,一个摊销推断方法训练一个神经网络编码器,它可以读取任何文档并立即输出其主题混合。速度上的差异可以是数量级的——这是需要数周的计算与需要数小时的计算之间的差异,使得大规模数据科学变得可行。
但正如任何优秀的物理学家都知道的,没有免费的午餐。摊销是一种强大的捷径,而捷径伴随着权衡。第一个是近似偏差。一个使用摊销推断的 VAE,是一个真正的生成模型。我们可以从它的潜在空间中采样来生成新的、可信的数据,比如新的人脸图像或新的基因表达谱。一个更简单的确定性自编码器则无法做到这一点。这种生成能力是 VAE 目标函数中一个正则化项的直接结果,该项迫使编码器产生的后验分布接近一个简单的先验分布,从而以平滑、连续的方式组织潜在空间。然而,给定数据下潜在变量的真实后验分布可能非常复杂。例如,在一个简单的世界里,观测值 是潜在原因 的平方(加上一些噪声),那么真正的原因可能是 或 。真实的后验是双峰的——它有两个峰值。如果我们的编码器被迫产生一个简单的、单峰的高斯分布,它就永远无法完美地捕捉到这个现实。我们使用的简单分布族与复杂现实之间的这种不匹配是偏差的一个根本来源,它影响到任何使用该简单族的方法,无论是否摊销。
第二个独特的权衡是摊销差距。一个摊销编码器必须是一个万事通,能够为它可能看到的任何数据点提供一个好的推断。相比之下,迭代方法是一个专家,将其所有努力都集中在手头的单个数据点上。它总能找到所选族内绝对最拟合的近似。如果摊销编码器的容量有限(即网络不够复杂)或没有在完全代表性的数据集上训练,它可能无法为每个数据点复制出这种最优解。这种“平均良好”的摊销解与“针对此个案完美”的迭代解之间的性能差异就是摊销差距。此外,如果编码器在一种类型的数据(比如,白天拍摄的图像)上训练,然后用于另一种类型的数据(夜晚拍摄的图像),其性能将会下降。这种对分布偏移的脆弱性是学习模型的一个关键特征,而迭代的、逐案处理的方法则不具备这一特征。
值得庆幸的是,我们不必做出非此即彼的选择。我们可以两全其美。在许多实际应用中,我们可以使用一种半摊销方法:使用极其快速的摊销编码器获得一个非常好的初始猜测,然后应用几步迭代精炼来打磨结果并为该特定数据点弥合摊销差距。这是速度与准确性的一种务实而强大的综合。
最终,摊销推断不仅仅是一个计算工具。它是一个统一的概念,凸显了一个深刻的原则:学习可泛化知识的力量。通过支付一次性的、前期的成本来“学会如何推断”,我们解锁了以否则无法想象的规模和速度来理解世界的能力。这是一个将我们最先进的算法与经验丰富的侦探的直觉飞跃联系起来的原则——或许,也与我们自己思想的运作方式联系起来。