首页贝叶斯模型平均：一种有原则的不确定性处理...

贝叶斯模型平均：一种有原则的不确定性处理艺术

玻尔百科

定义

贝叶斯模型平均：一种有原则的不确定性处理艺术指的是一种通过对多个候选模型的预测进行加权平均，而非单一选择的统计方法。该方法根据数据的后验概率为每个模型分配权重，并利用贝叶斯奥卡姆剃刀原理自动惩罚不必要的复杂模型。它综合考虑了模型内部的参数不确定性和模型间的结构不确定性，被广泛应用于医学预测、因果推断以及人工智能安全等领域。

核心要点

BMA通过对多个模型的预测进行平均，而不是选择单一模型，为模型选择提供了一种有原则的替代方案。
每个模型的权重是其后验概率，由数据中的证据决定，该权重通过“贝叶斯奥卡姆剃刀”内在地惩罚了不必要的复杂性。
它通过同时纳入参数不确定性（模型内部）和结构不确定性（模型之间），产生更诚实的不确定性估计。
其应用横跨不同领域，改进了从医疗预测、因果推断到计算机模拟和人工智能安全的方方面面。

引言

所有学科的科学家都依赖模型来理解复杂现象。然而，正如统计学家 George Box 的著名论断：“所有模型都是错误的。” 这带来了一个根本性的挑战：当面对几个相互竞争的模型时，我们应该信任哪一个？通常的做法是选择一个“最佳”模型并舍弃其余模型，但这是一种危险的策略，它忽略了有价值的信息，并导致我们对结论过度自信。贝叶斯模型平均（BMA）为模型不确定性这一问题提供了一个强大且逻辑上连贯的解决方案。BMA并非挑选单一的胜利者，而是系统地结合来自一整套貌似合理的模型的见解，并根据每个模型的循证可信度对其进行加权。

本文将探讨BMA的框架。首先，在“原理与机制”一节中，我们将剖析BMA的工作原理，从其概率论基础到“贝叶斯奥卡姆剃刀”的概念。我们将探讨它如何更诚实地描述我们的总体不确定性。之后，“应用与跨学科联系”一节将展示BMA在实践中的多功能性，展示其在从医学诊断、因果推断到计算物理学和可信人工智能开发等各个方面的影响。

原理与机制

科学家的困境：所有模型都是错误的

在我们探索世界的过程中，我们建立模型。生态学家可能为森林的生长建模，药理学家可能为药物在体内的作用建模，气候学家可能为地球大气建模。这些模型是我们的科学故事，是我们对现实的数学描摹。但我们必须永远记住统计学家 George Box 的著名格言：“所有模型都是错误的，但有些是有用的。”

这就带来了一个两难的境地。如果我们有几个不同且相互竞争的模型——比如，一个气候模型强调云反馈，另一个则关注洋流——我们应该相信哪一个？一种常见的方法是模型选择：我们根据数据检验每个模型，并按照某个标准（如交叉验证或AIC、BIC等惩罚分数）挑选出表现“最佳”的模型。然后，我们抛弃其他模型，并假设我们选择的模型是绝对真理。

但请稍加思索。这真的是一个明智的策略吗？这就像组建一个专家委员会就一项关键决策提供建议，听取了所有专家的意见后，却决定只听从一位专家——那个听起来最自信的专家——的建议，而完全忽略其他人的意见。如果那位专家只是在几件事情上碰巧说对了呢？如果另一位几乎同样优秀的专家，在问题的其他方面有关键的见解呢？通过挑选唯一的赢家，我们正在丢弃信息，并假装比我们应有的程度更加确定。这是一个危险的游戏，因为当我们面对一个全新的、未知的未来时，它常常导致过度自信和糟糕的决策。一定有更好的方法。

群体的智慧：贝叶斯方式的平均

与其挑选一个赢家，不如让我们让所有貌似合理的模型都发表意见？这就是贝叶斯模型平均（BMA）背后的核心思想。这不仅仅是一个聪明的技巧；它是将概率论的基本规则应用于模型不确定性问题的直接、逻辑性的结果。

让我们想象一下，在给定观测数据 $D$ 的情况下，我们想要预测某个未来的量，称之为 $y$ 。全概率定律是逻辑学的基石，它告诉我们 $y$ 的总概率是 $y$ 与每个可能模型同时发生的概率之和。写出来，我们就得到了BMA的优雅主方程：

p(y \mid D) = \sum_{i=1}^{K} p(y \mid D, \mathcal{M}_i) \, p(\mathcal{M}_i \mid D)

这个方程乍一看可能很复杂，但它讲述了一个非常简单的故事。它表明，我们的总体预测 $p(y \mid D)$ 是一个加权平均值。它是我们 $K$ 个不同模型预测的“混合”。让我们把它分解成两个关键组成部分。

预测： $p(y \mid D, \mathcal{M}_i)$

这第一项是结果 $y$ 的预测分布，前提是假设模型 $\mathcal{M}_i$ 是正确的。重要的是，这不仅仅是一个单一的数字；它是一个完整的概率分布。它已经考虑了该单一模型内部参数的不确定性。例如，在一个气候模型中，我们可能不知道控制海洋热量吸收的参数的确切值。一个恰当的贝叶斯分析不仅仅是选择最佳拟合参数；它会对其所有貌似合理的参数值上的预测进行平均，并以其后验概率加权。因此，BMA实际上是一个两级平均过程：首先，我们对每个模型内的参数不确定性进行平均，然后我们对所有模型间的模型不确定性进行平均。

权重： $p(\mathcal{M}_i \mid D)$

这第二项是赋予模型 $\mathcal{M}_i$ 预测的权重。这个权重是什么呢？它是模型的后验概率——即在我们看到数据 $D$ 之后，我们对模型 $\mathcal{M}_i$ 的信任程度。这就是贝叶斯定理的魔力所在。这些权重不是凭空捏造或设置为相等的。它们是由数据本身决定的。

一个模型的后验概率与两件事成正比：我们对模型的先验信念 $p(\mathcal{M}_i)$ ，以及该模型对我们实际观测到的数据的解释程度，这个量被称为边际似然或模型证据 $p(D \mid \mathcal{M}_i)$ 。

\underbrace{p(\mathcal{M}_i \mid D)}_{\text{后验信念}} \propto \underbrace{p(D \mid \mathcal{M}_i)}_{\text{模型证据}} \times \underbrace{p(\mathcal{M}_i)}_{\text{先验信念}}

从先验信念到后验信念的更新是由证据决定的。通常，这通过贝叶斯因子来量化，即两个竞争模型的证据之比，例如 $B_{10} = p(D \mid \mathcal{M}_1) / p(D \mid \mathcal{M}_0)$ 。举个例子，贝叶斯因子为12意味着数据在模型 $\mathcal{M}_1$ 下的可能性是在模型 $\mathcal{M}_0$ 下的12倍。这一证据可以极大地改变我们的信念。如果我们的先验优势比是3比7，支持 $\mathcal{M}_0$ ，那么一个12的贝叶斯因子将会使后验优势比转变为36比7，支持 $\mathcal{M}_1$ 。正是这种数据驱动的权重使得BMA如此强大。能很好解释数据的模型在最终的平均预测中获得更大的投票权。

“贝叶斯奥卡姆剃刀”

但一个模型“很好地解释数据”意味着什么呢？边际似然 $p(D \mid \mathcal{M}_i)$ 并不仅仅是最佳拟合参数下的似然。它是似然在整个参数空间上，由先验加权的平均值。这带来了一个深远的结果，通常被称为贝叶斯奥卡姆剃刀。

想象一下有两个模型试图解释一个简单的数据集。模型A很简单，只有一个参数，且先验规定其必须在一个狭窄的范围内。模型B则复杂得多，有十个参数，其先验允许它们几乎可以是任何值。模型A将其预测能力集中在一小部分可能的结果上。模型B由于其灵活性，将其预测能力稀疏地分布在一个巨大的可能性宇宙中。如果数据恰好落在模型A预测的区域内，模型A就会得到很高的评价——其边际似然会很高。模型B，即使它可以通过某些特定的参数设置被扭曲以完美拟合数据，也会因其铺张浪费而受到惩罚。它必须承认，根据其先验，数据本可以出现在几乎任何地方。这种对不必要复杂性的自动惩罚是数学的自然结果；它不像AIC或BIC那样是基于计算参数数量的临时惩罚。这就是为什么BMA通常偏爱更简单、更优雅的解释，除非一个复杂模型通过对数据真正惊人的拟合证明了其价值。

回报：诚实与更优的预测

那么，我们从这种有原则的平均中获得了什么？主要是两样东西：更诚实的不确定性和通常更优的预测。

我们来谈谈不确定性。当我们做出预测时，我们的无知有两个来源。第一种是偶然不确定性（aleatoric uncertainty）：系统中固有的随机性或噪声，就像抛硬币一样。即使有无限的数据，这种不确定性也不会消失。第二种是认知不确定性（epistemic uncertainty）：我们对底层过程缺乏了解，例如哪个模型是正确的或其参数是什么。这是一种原则上可以通过收集更多数据来减少的不确定性。

模型选择忽略了关于模型结构的认知不确定性。BMA则拥抱它。BMA预测的总方差可以使用全方差定律进行分解：

\text{总方差} = \underbrace{\text{模型内方差的平均}}_{\text{参数不确定性}} + \underbrace{\text{模型间均值的方差}}_{\text{模型不确定性}}

这第二项，即不同模型预测之间的方差，是我们结构不确定性的直接度量。通过包含它，BMA提供的预测区间通常更宽，但更诚实。它们反映了我们知识的全部范围——以及我们的无知。

这种诚实也带来了更好的性能。通过在多个貌似合理的模型之间分散风险，BMA比单一、过度自信的模型在新数据上表现得更稳健，并做出校准得更好的预测。从决策理论的角度来看，如果我们想在常见的评分规则下最小化我们的预期预测误差，BMA是最佳策略。

实践中的BMA：从MCMC到深度学习

计算精确的BMA权重和预测可能在计算上非常困难，特别是对于当今科学中使用的复杂模型。但其原理如此强大，以至于科学家们已经开发出巧妙的方法来近似它。在许多领域，研究人员使用像马尔可夫链蒙特卡洛（MCMC）这样的方法在可能的模型空间中游走，以与其后验概率成正比的频率访问每个模型。通过计算MCMC链访问每个模型的次数，我们可以直接估计BMA权重。在其他情况下，使用一种称为变分贝叶斯（Variational Bayes）的近似方法，BMA权重结果与每个模型的证据下界（ELBO）有着优美的关系，而ELBO是在模型训练过程中常规优化的一个量。

也许最令人惊讶的是，这个百年历史的思想在现代人工智能的核心地带找到了新的生命。用于训练深度神经网络的流行技术“dropout”，即在训练过程中暂时忽略随机神经元，可以被重新解释。通过在预测时保持dropout激活状态，并使用不同的随机dropout掩码进行多次预测，我们实际上是在执行贝叶斯模型平均的近似。这种被称为MC Dropout的技术，使我们能够从即便是最大的神经网络中获得不确定性估计，揭示了网络方差（其认知不确定性的度量）如何随dropout率变化。

从其基于简单概率规则的基础，到其在尖端人工智能中的现代应用，贝叶斯模型平均为科学最根本的挑战之一——如何在不确定性面前进行推理和预测——提供了一个深刻而连贯的答案。它教导我们，真正的智慧不在于找到那个唯一的、“真实”的模型，而在于优雅地结合我们能讲述的关于世界的所有貌似合理的故事中的见解。

应用与跨学科联系

在了解了贝叶斯模型平均（BMA）的原理之后，我们可能感觉自己像是在工作坊里欣赏一件制作精美的工具。我们理解它的齿轮和杠杆——后验概率的逻辑、边际似然的优雅。但一个工具的真正价值只有在投入使用时才能显现。这个用于处理不确定性的精巧装置究竟在哪些地方发挥了作用？你可能会欣喜地发现，答案是：几乎无处不在。

科学中一个真正基本思想的美妙之处在于其普适性。如同最小作用量原理或热力学定律一样，BMA的逻辑超越了学科界限。它为应对不确定性提供了一种通用语言，无论这种不确定性存在于股票市场的波动、亚原子粒子的行为，还是疾病的诊断中。现在，让我们漫步于科学和工程的广阔领域，看看这个工具在实践中的应用。

诚实预测的艺术

也许BMA最直观的用途是在平凡的预测行为中。我们不断地试图预测未来，也常常预测错误。我们失败的一个常见原因是对单一“最佳”模型的错误信念。想象一个天气预报员委员会。一位是急流专家，另一位是海洋温度专家，第三位是历史模式专家。你会只听其中一人的意见吗？还是你会听取所有人的意见，或许更关注过去最准确的那位？

BMA正是这种“专家委员会”方法的严谨化和形式化。在医学领域，这可能事关生死。在创建一个预测病人患心脏病风险的模型时，研究人员可能会考虑几十个潜在因素：胆固醇、血压、年龄、遗传标记等等。这导致了大量的可能模型。传统方法通常涉及一个“逐步选择”程序来挑选一个单一的“最佳”模型，并丢弃所有其他模型。但这有点像宣布一位预报员是无可争议的王者，然后让其他人回家。如果那个被选中的模型有隐藏的缺陷，或者只是在它测试的数据集上运气好呢？它忽略了模型选择过程中真实存在的不确定性，常常导致危险的过度自信预测。

相比之下，BMA将整个貌似合理的模型委员会都留在会议室里。每个模型都做出自己的预测，然后这些预测被加权平均，权重由证据决定。那些很好地解释了数据的模型在最终的共识中拥有更大的发言权。结果是一个更诚实、更稳健的预测，一个承认自身不确定性的预测。如果最好的模型们意见分歧很大，最终的平均预测将具有更大的不确定性，正确地向我们发出应谨慎行事的信号。这种将预测从任何单一模型的极端值收缩到一个更保守共识的特性，是BMA提供稳健预测能力的一个标志。

同样的原则不仅适用于选择模型中包含哪些变量；它还可以帮助我们选择模型本身的形式。在生态毒理学中，科学家想要确定导致50%种群受害的污染物浓度（EC50）。他们可能有几个貌似合理的数学函数——logit、probit、互补log-log——来描述剂量-反应关系。这些不仅仅是不同的变量集；它们是关于自然法则形态的根本不同假说。BMA允许我们平均来自所有这些函数的EC50估计，而不是争论哪个连接函数是“正确的”。结果是一个单一、稳健的估计，它整合了我们对真实底层生物机制的不确定性。

探寻原因：从相关到因果

虽然预测能力强大，但科学最终追求的是解释。我们不只想知道行星为何以椭圆轨道运行；我们想知道为什么（引力！）。BMA在更深层次的因果探索中也是一个强大的工具。

考虑医学研究中多重共线性的挑战。研究人员可能想知道“肥胖度”对血压的影响。他们可能同时使用身体质量指数（BMI）和腰围来衡量这一点。问题在于，这两个测量值高度相关。如果将两者都放入一个标准回归模型中，模型会感到困惑。它无法分辨效应有多少来自BMI，有多少来自腰围，并给出不稳定、无意义的答案。这就像向两个总是意见一致的人征求独立意见一样。

BMA巧妙地回避了这个问题。它考虑三个模型：一个只有BMI，一个只有腰围，还有一个两者都有。它很快从数据中学习到，包含两个预测变量的模型是多余且不必要地复杂的；其边际似然很低。因此，BMA几乎将其所有信念都分配给了两个更简单的模型。最终的平均结果是对肥胖度影响的稳定而合理的估计，因为它自动识别并折减了冗余信息。

在孟德尔随机化这一前沿领域，BMA的作用变得更加深远。该技术用于从遗传数据中推断因果关系。假设我们想知道饮酒是否导致心脏病。从观察中很难判断，因为饮酒更多的人可能也更多地吸烟或有不同的饮食习惯。孟德尔随机化利用与饮酒相关的遗传变异作为一种巧妙的替代方法。然而，一个主要的陷阱是“多效性”，即一个基因可能通过其他途径影响心脏病，而不仅仅是通过饮酒，这使其成为一个无效的工具变量。

BMA提供了一个优美、自动化的解决方案。我们可以将每个遗传变异视为一个候选工具变量，并创建一个巨大的模型空间——每个“有效”工具变量的可能子集都对应一个模型。然后BMA在这个巨大的空间中进行筛选。对于一个显示出多效性迹象的变异，其数据将与其他更可靠的变异所估计的因果效应不一致。任何将这个“可疑”变异视为有效工具变量的模型的边际似然都会受到惩罚。因此，其作为有效工具变量的后验概率会急剧下降。BMA就像一个数据驱动的怀疑引擎，自动降低来自不可靠见证的证据权重，并给我们一个更值得信赖的真实因果效应估计。

与数字世界的对话

在许多现代科学中，我们的“实验室”是计算机模拟。从模拟宇宙到设计新材料，我们都依赖于复杂的计算模型。但这些模型总是现实的近似。BMA提供了一个框架，用于对这些近似进行推理并量化我们的不确定性。

想象你是一名计算物理学家，正在运行一个量子系统的模拟。为了使计算可行，你必须截断一个无限级数，这会引入一个小的误差。你可以在不同的截断级别上运行模拟，随着截断误差的减小，得到更精确（但昂贵得多）的结果。你如何外推到“完美的”、无限精确的结果？你可能有几种理论——几种模型——关于误差如何随着模拟的改进而减小。BMA允许你将所有这些误差模型拟合到你的模拟数据上并进行平均。这提供了一个最终的外推答案，其不确定性是有原则的，因为它考虑了你对真实误差行为的无知。

同样的想法正在彻底改变材料科学。发现具有理想性质的新材料，如用于喷气发动机的高熵合金，可以由密度泛函理论（DFT）模拟来指导。这些模拟中的一个关键选择是“交换相关泛函”，它是对电子复杂量子力学的近似。有数百种这样的泛函，每种都有其优缺点。对于一种新的、未合成的材料，你应该相信哪一个？

BMA再次告诉我们：按证据比例，相信它们所有。通过将这些泛函的集合与已知材料的数据进行校准，我们可以计算出每个泛函的后验权重。当我们想预测一种新合金的性质时，我们用每个泛函运行模拟，然后计算结果的加权平均值。这个BMA预测比选择任何单一泛函都更可靠，其不确定性诚实地反映了我们当前理论理解的局限。

一种哲学、行动指南和道德罗盘

在最深刻的层面上，BMA不仅仅是一种统计技术；它是一个科学推理的框架，一个智能行动的指南，甚至是一种伦理原则。

它可以充当相互竞争的科学哲学之间的调解者。在为经济或生态系统等复杂系统建模时，还原论方法（如模拟每个个体的基于主体的模型）和整体论方法（如只关注系统级约束的最大熵模型）之间存在着持续的张力。哪种更好？BMA允许我们将两者都纳入一个单一的框架中。我们可以将它们视为更大可能性空间中的不同模型。通过比较它们来自数据的证据，并可能加入对简单性的先验偏好，BMA可以告诉我们，对于一个给定的问题，哪种建模哲学或它们的何种混合是最合理的。

此外，BMA提供了从推断到行动的关键联系。一个智能体，无论是人类还是人工智能，都必须在不确定性下做出决策。考虑一个管理建筑暖通空调（HVAC）系统的“认知数字孪生”。它可能对建筑的热力学有几个不同的模型。为了决定是否开启制冷，它不应仅仅依赖于一个模型的预测。使用BMA，它可以计算一项行动的预期成本或收益，该预期值是在其所有关于世界的貌似合理的信念上平均得出的。这使其能够做出对模型不确定性具有稳健性的最优决策。

最后，也许在我们这个时代最重要的是，BMA为一种基本美德提供了数学基础：认知谦逊。过度自信是一个危险的缺陷，无论是在人类还是在我们构建的人工智能中。例如，一个用于心理健康的诊断聊天机器人，绝不能基于单一、易错的算法，以绝对的确定性给出高风险的诊断。通过将人工智能建立在BMA的基础上，开发者可以迫使其考虑一系列不同的模型。平均过程的本质决定了它会缓和极端的预测，并对任何单一组件的过度自信进行对冲。当模型意见不一时，最终的不确定性会增加，告诉系统——以及用户——要保持谨慎。从这个角度看，BMA不仅仅是一个用于更好预测的工具。它是一种构建更安全、更明智、更值得信赖的人工智能的方式，教导我们的机器学会“知道自己所不知道的”这一宝贵课程。

贝叶斯模型平均：一种有原则的不确定性处理艺术

引言

原理与机制

科学家的困境：所有模型都是错误的

群体的智慧：贝叶斯方式的平均

预测：p(y∣D,Mi)p(y \mid D, \mathcal{M}_i)p(y∣D,Mi​)

权重：p(Mi∣D)p(\mathcal{M}_i \mid D)p(Mi​∣D)

“贝叶斯奥卡姆剃刀”

回报：诚实与更优的预测

实践中的BMA：从MCMC到深度学习

应用与跨学科联系

诚实预测的艺术

探寻原因：从相关到因果

与数字世界的对话

一种哲学、行动指南和道德罗盘

贝叶斯模型平均：一种有原则的不确定性处理艺术

引言

原理与机制

科学家的困境：所有模型都是错误的

群体的智慧：贝叶斯方式的平均

预测：p(y∣D,Mi)p(y \mid D, \mathcal{M}_i)p(y∣D,Mi​)

权重：p(Mi∣D)p(\mathcal{M}_i \mid D)p(Mi​∣D)

“贝叶斯奥卡姆剃刀”

回报：诚实与更优的预测

实践中的BMA：从MCMC到深度学习

应用与跨学科联系

诚实预测的艺术

探寻原因：从相关到因果

与数字世界的对话

一种哲学、行动指南和道德罗盘

预测： $p(y \mid D, \mathcal{M}_i)$

权重： $p(\mathcal{M}_i \mid D)$

预测： $p(y \mid D, \mathcal{M}_i)$

权重： $p(\mathcal{M}_i \mid D)$