贝叶斯校准：一个科学推断的框架

玻尔百科

定义

贝叶斯校准：一个科学推断的框架是科学推断领域的一种统计方法，它利用贝叶斯定理将关于模型参数的先验信念根据新数据更新为后验概率分布。该框架正式考虑了包括测量噪声和模型差异在内的多种不确定性来源，并使用高斯过程仿真器来近似复杂的模拟过程。其分层和多尺度特性使其能够综合来自不同群体和跨越各种物理尺度的信息。

核心要点

贝叶斯校准使用贝叶斯定理，利用新数据将关于模型参数的先验信念更新为后验概率分布。
该框架正式地考虑了多种不确定性来源，包括测量噪声、模型差异和模拟器不确定性。
高斯过程模拟器等先进技术被用于近似计算成本高昂的模型，从而使复杂模拟的校准变得可行。
该方法的分层和多尺度能力使其能够综合来自不同群体和跨越各种物理尺度的信息。

引言

科学进步本质上是一个学习过程，其中最初的想法与证据相 Confrontation，迫使我们改进对世界的理解。这种信念、证据和更新的循环是发现的引擎。贝叶斯校准提供了一个正式的数学框架来驱动这个引擎，为在不确定性下从数据中学习提供了一套严谨的方案。它解决了如何系统地将现有知识与新的、通常不完美的实验数据相结合，从而对我们所学到的知识做出完整而诚实的陈述这一关键问题。

本文将引导您了解这种强大的方法论。第一章“原理与机制”将解析贝叶斯定理的核心组成部分，解释如何通过模型差异的概念处理不完美的模型，并介绍针对计算密集型模拟的实用解决方案。随后的“应用与跨学科联系”一章将展示这单一框架如何为物理学、工程学到生态学和考古学等广阔的科学领域提供统一的发现语言。

原理与机制

问题的核心：一台学习的机器

科学的核心是一个学习过程。我们从一个假设开始，一个关于世界如何运作的初步想法。然后，我们将这个想法与现实进行 Confrontation——我们收集数据，进行实验。我们收集到的证据迫使我们改进、更新，有时甚至完全抛弃我们最初的信念。这个信念、证据和更新的循环是科学进步的引擎。如果我们能制造一台运行这个引擎的机器，一个正式的逻辑部件，它能将我们的先验知识和新数据作为输入，并返回一个更新、更精炼的理解状态，那会怎样？

那台机器是存在的。它被称为贝叶斯定理。

它通常以一种看似简单的形式写成：

p(\theta | D) = \frac{p(D | \theta) \, p(\theta)}{p(D)}

不要被这种紧凑的表示法所迷惑。这个方程不仅仅是一个公式；它是关于理性推断的深刻陈述。它为从证据中学习提供了一套完整的方案。让我们来解析它的各个组成部分，因为每一部分都在我们的旅程中扮演着主角。

参数, $\theta$ ：这个符号代表我们想要学习的东西。它可能是一个单一的数字，比如一个电子的质量，也可能是一整组定义复杂模型的数字，比如控制核相互作用的常数。我们可以把 $\theta$ 想象成我们宇宙模型的“旋钮”。我们在校准中的目标是找出这些旋钮的正确设置。
先验, $p(\theta)$ ：这是我们的起点。先验分布是在我们看到新数据之前，对参数 $\theta$ 的信念的数学陈述。这常常被误解为一种“主观猜测”，但在科学中，它远非如此。先验是我们编码所有已知知识的机会。它可以来自限制参数的物理定律，来自以前的实验，或来自深刻的理论原理。例如，在现代物理学中，“自然性”原则表明，某些基本常数，当以正确的无量纲单位表示时，应该是“一的量级”，而不是天文数字般巨大或微小。这种物理预期可以转化为一个偏好于1左右数值的先验分布，为我们的推断提供一个强大的起点。同样，如果我们有来自辅助实验的数据，比如用激光轮廓仪测量地质断层的粗糙度，我们可以利用这些信息为“节理粗糙度系数”这样的参数构建一个严谨的、数据驱动的先验，这个参数将用于一个更大的地震动力学模型中。先验不是承认偏见，而是对现有知识的声明。
似然, $p(D | \theta)$ ：这是连接我们抽象模型与具体数据世界的桥梁。似然函数提出了一个简单的问题：“如果宇宙旋钮的真实设置是 $\theta$ ，那么我们观察到我们收集到的特定数据 $D$ 的概率会是多少？”它是一台机器，接收一个假设（ $\theta$ ），并告诉我们它对证据（ $D$ ）的解释程度。构建似然意味着要理解我们的测量过程，包括其不完美和噪声。这是数据想要讲述的故事。
后验, $p(\theta | D)$ ：这是最终的大奖。后验分布代表了我们在考虑了 $D$ 中的证据之后，关于 $\theta$ 的最终、更新的知识状态。它是我们先验信念和新数据信息的完美综合，是理论与实验的完美结合。请注意，结果不是 $\theta$ 的一个单一“正确”值，而是一个完整的概率分布。它描绘了一个可能性的景观，向我们展示了哪些参数值现在最可信，哪些已被排除。它不仅告诉我们该相信什么，还告诉我们该多大程度上相信它。
证据, $p(D)$ ：分母中的这一项，也称为边际似然，扮演着一个微妙但至关重要的角色。在数学上，它是一个归一化常数，确保后验分布的积分为一。但在概念上，它是模型的整体“成绩单”。它告诉我们，在我们先验所允许的所有可能参数设置下，看到我们所看到的数据的概率。一个能够持续预测观测数据的模型将获得高证据分数，使其成为比较完全不同的物理理论的有力工具。

一个具体例子：衡量材料的灵魂

让我们把这个抽象的方案变得具体。想象我们是工程师，我们有一种新的金属合金。我们想了解它的基本弹性特性。对于一个简单的弹性材料，这种特性由两个数字定义：杨氏模量 ( $E$ )，它告诉我们材料有多硬；以及泊松比 ( $\nu$ )，它告诉我们在拉伸时材料会变薄多少。这两个数字是我们的参数向量， $\theta = [E, \nu]^{\top}$ 。

我们如何测量它们？最简单的方法是进行拉伸试验：我们抓住一块材料样本，用已知的力拉它，仔细测量它伸长了多少（轴向应变）和变薄了多少（横向应变）。这就得到了我们的数据 $D$ 。现在，让我们像校准线性弹性材料的问题中那样，一步一步地应用贝叶斯校准框架。

首先，我们定义我们的先验， $p(E, \nu)$ 。我们从物理学的基本原理中知道，一个稳定的材料不能有负刚度，所以 $E$ 必须是正的。我们还知道热力学稳定性将泊松比限制在 $-1 \lt \nu \lt 0.5$ 的范围内。因此，我们的先验在这个物理上允许的区域之外为零。我们已经编码了现有的科学知识。

接下来，我们需要似然。这需要一个“正向模型”，该模型能预测在给定一组参数下我们应该测量到什么。在这里，我们的正向模型是来自入门物理学的古老胡克定律。它告诉我们，预测的轴向应力是 $\sigma^{\mathrm{ax}}_{\text{pred}} = E \cdot \varepsilon^{\mathrm{ax}}$ ，预测的横向应变是 $\varepsilon^{\mathrm{lat}}_{\text{pred}} = -\nu \cdot \varepsilon^{\mathrm{ax}}$ 。现在，我们将此与我们的数据联系起来。没有真实世界的测量是完美的。我们可以将我们的实际测量值建模为胡克定律的预测值加上一些小的、随机的测量误差，我们通常假设该误差服从高斯（钟形曲线）分布。似然 $p(D | E, \nu)$ 就是在给定“真实”值由 $E$ 和 $\nu$ 通过胡克定律决定的情况下，我们的测量应力和应变出现的概率。

最后，我们转动曲柄。我们将先验乘以似然。结果就是后验， $p(E, \nu | D)$ 。这不是一对单一的数字。它是一个二维概率图。我们可以将其想象为在可能的 $E$ 和 $\nu$ 值平面上的一片山脉景观。山峰代表最可信的参数值，而山脉的宽度告诉我们我们的不确定性有多大。

这与经典的“曲线拟合”有深刻的不同，后者可能只给我们一个单一的“最佳拟合”点。贝叶斯后验提供了更丰富的答案。我们可以向它提问。例如，我们可以在这张图上找到包含总概率95%的最小区域。这被称为95% 最高后验密度 (HPD) 可信区间（或区域）。它代表了我们认为最可信的参数值范围，是对我们不确定性的直接而直观的陈述。

机器中的幽灵：承认我们不完美的模型

到目前为止，我们的故事有一个隐藏的假设：我们的物理模型（如胡克定律）是现实的完美代表。我们假设我们模型的预测与数据之间的任何不匹配都纯粹是由于随机测量噪声。但如果模型本身是不完整的呢？如果胡克定律只是一个很好的近似，而现实却有细微的不同呢？

这就引出了计算科学中一个至关重要且美妙的区别：验证（verification）与确认（validation）。验证问的是：“我们是否正确地求解了模型的方程？”这是关于检查我们代码中的错误并确保我们的数值方法是准确的。确认问的是一个更深层次的问题：“我们是否在求解正确的方程？”它将模型与现实进行 Confrontation，并评估其保真度。

一个成熟的科学方法承认所有模型都是理想化的。地图不是领土。贝叶斯校准的强大之处在于它为我们提供了一种正式处理这个问题的方法。我们可以在我们的方程中引入一个新项：模型差异，通常用 $\delta$ 表示。我们假定现实不仅仅是模型 + 噪声，而是：

$\text{现实} = \text{模型预测} + \text{模型差异} + \text{测量噪声}$

差异项 $\delta$ 是我们对模型有局限性的量化承认。它是“机器中的幽灵”，是我们忽略的物理或所做简化假设所产生的结构化、系统性误差。例如，在模拟一个复杂的原子核时，我们可能知道我们的理论对于质子和中子数量相等的原子核效果很好，但随着我们偏离这条对称线，其准确性会降低。我们可以构建一个随着我们外推而增长的差异项，也许与远离建模良好区域的距离呈二次关系，这反映了我们相信模型的结构性错误会变得更加显著。

这是一种深刻的智识诚实行为。我们不是把模型的缺陷掩盖起来，而是明确地为我们自己的无知建模。这可以防止我们变得过于自信，并迫使我们的参数取物理上有意义的值，而不是扭曲自己以弥补一个糟糕的模型。

驯服巨兽：当模型太慢时

这里有一个实际的难题。为了绘制出后验景观，我们的贝叶斯机器需要评估似然函数成千上万次，甚至数百万次。但如果我们的“正向模型”不像胡克定律那么简单呢？如果它是一个全球气候的超级计算机模拟，或者一个核反应的量子力学计算，单次运行就需要几天或几周的时间呢？

我们无法承受在校准循环内运行这个庞然大物的模型。解决方案既优雅又强大：如果模型太昂贵，我们就为它建立一个廉价的统计近似。我们创建一个模拟器（emulator），或者说代理模型（surrogate model）。

一个流行且强大的工具是高斯过程 (GP)。不要把GP看作是物理模型，而是一个极其复杂和灵活的“插值器”。我们在一些精心选择的参数设置 $\theta$ 下运行我们昂贵的物理模型几十次或几百次。然后，我们将这些输入-输出对展示给GP。GP学习旋钮与模型预测之间的平滑关系。

GP真正的美妙之处在于它不只是给出一个单一的预测。对于任何新的参数设置 $\theta$ ，它都为模型的输出提供一个完整的概率分布。它实际上是在说：“根据我所学到的，我预测输出是 $y$ ，并且我有95%的把握它落在这个区间内。”这个区间的大小——即模拟器自身的不确定性——不是恒定的。在我们已经运行过昂贵模型的点附近，它很小；而当我们要求在远离我们训练数据的地方进行预测时，它会变大。GP知道它所知道的，也知道它所不知道的。

宏伟的综合：不确定性的分层视图

让我们退后一步，欣赏我们构建的完整结构。现代贝叶斯校准远不止一个单一的方程。它是一个用于在不确定性下进行推理的分层、多层次的框架。

想象一个洋葱。其最核心的是我们希望知道的物理参数 $\theta$ 。

第一层是我们的先验知识 $p(\theta)$ ，它基于理论和以前的实验来约束这些参数 [@problem_id:3544191, @problem_id:3537023]。
接下来是我们的物理模型 $f(\theta)$ ，一个复杂的计算机代码，代表了我们对系统物理的最佳理解。
因为这个模型太慢，我们用一个快速的模拟器 $g(\theta)$ 将其包裹起来，它带有自己的模拟器不确定性。
然后我们添加一个模型差异项 $\delta(\theta)$ ，承认我们的物理模型是现实的不完美表示。
最后，最外层是观测模型，它通过考虑测量噪声将我们的预测与实际数据联系起来。

当我们进行贝叶斯校准时，我们不仅仅是在寻找“最佳拟合”参数。我们是在所有这些层次上连贯地传播信息。最终的后验分布是这一宏伟综合的结果。这是我们能对我们的理论和数据结合起来教会我们关于世界的知识所做的最完整、最诚实的陈述。它是用概率语言重建的科学引擎。

应用与跨学科联系

我们花了一些时间讨论贝叶斯校准的原理和机制，研究了我们如何利用数据教导我们的模型关于真实世界的数学细节。这一切都很好，但真正的乐趣，真正的魔力，在于当我们释放这个工具并看到它能做什么时。这就像学习国际象棋的规则；规则本身很简单，但它们所允许的棋局却具有无限而美妙的复杂性。

在本章中，我们将进行一次科学之旅。我们将看到这单一、优雅的思想——在证据面前更新我们的信念——如何为解决表面上看起来毫无关联的问题提供一种通用语言。从为古代文物断代到设计现代材料，从理解一个活生生的生态系统的嗡嗡声到窥探原子核的中心，贝叶斯校准无处不在，静静地作为发现的引擎工作着。

校准我们的仪器，无论是物理的还是数字的

首先，让我们思考一下测量行为本身。当我们制造一个时钟时，我们必须设置它。当我们制造一台显微镜时，我们必须对焦。事实证明，我们许多最先进的科学“仪器”不再是由黄铜和玻璃制成，而是由计算机代码构成。这些数字仪器——我们的模拟——也需要校准。

考虑使用放射性碳为古代文物断代的问题。这是一个绝妙的想法：生物体吸收碳，包括放射性同位素碳-14；当它死亡时，这个过程停止，碳-14开始以已知的半衰期衰变。这是一个美丽的原子钟。但有一个问题！大气中的碳-14含量在历史上并非恒定。它会摆动和波动。因此，测量样本中剩余的碳-14会给你一个“放射性碳年龄”，但要获得真正的日历日期，你必须对照一个由我们已知年龄的东西（如树木年轮）构建的时间线进行校准。这条校准曲线不是一条简单的平滑线；它有颠簸和平台。如果一个放射性碳测量值落在一个摆动上，一个单一的放射性碳年龄可能对应几个可能的日历日期！

这是一个为贝叶斯推断量身定做的问题。我们可以将我们的测量值及其不确定性与不确定的校准曲线相结合。结果不是一个单一的数字，而是一个跨越可能日历日期的后验概率分布。这个分布可能有多个峰值，诚实地反映了自然界呈现给我们的模糊性。它允许考古学家不仅仅说“这件文物来自公元前3500年”，而是说“它有60%的可能性属于这个时期，有40%的可能性属于另一个时期。”这是一个远为诚实和有用的陈述，而这是通过在贝叶斯框架内系统地考虑所有不确定性来源而实现的。

同样的原理也适用于我们用硅制造的仪器。在计算化学中，我们使用像密度泛函理论（DFT）这样的强大工具来预测分子的性质，比如它们的核磁共振（NMR）波谱。这些模拟是我们的“数字光谱仪”。但它们是现实的近似；它们通常有系统性偏差。例如，一个计算值可能总是偏高10%。贝叶斯校准允许我们建立一个简单的统计模型——通常只是一条直线， $\delta^{\text{exp}} = a \cdot \delta^{\text{calc}} + b$ ——从一组已知的实验值中学习这种偏差。

但它所做的不仅仅是校正平均值。通过将校准参数 $a$ 和 $b$ 以及噪声水平 $\sigma$ 视为不确定量，贝叶斯方法为我们提供了对任何新预测的后验预测分布。这个分布通常呈学生 t 分布的形式，它不仅告诉我们最可能的值，还告诉我们所有可能值的完整范围。我们得到一个带有诚实误差棒的“校准”预测，这些误差棒告诉我们应该在多大程度上信任我们的数字仪器。这个想法可以从简单的校正扩展到量化反应力场参数本身的不确定性如何传播到预测的化学反应速率的不确定性中，这是计算化学中的关键一步。

这种校准需求在计算科学和工程中无处不在。当我们使用浸入边界法模拟机翼上的气流时，结果取决于没有直接物理意义的数值“惩罚”参数。我们如何选择它们？我们可以根据实验阻力测量来校准它们，贝叶斯分析甚至可以告诉我们实验数据何时不足以区分两个参数——这种现象被称为可识别性差或混淆。

也许从这种思路中得出的最重要的教训是，当我们的模型不仅有偏差，而且在结构上存在根本性缺陷时。想象一下使用一种简单、快速但不太准确的数值方案来求解热方程。如果我们有非常精确、低噪声的实验数据，我们的直觉可能会说：“太好了！这将为我们提供热扩散率的非常精确的答案。”但可能发生相反的情况！贝叶斯过程会尽力拟合数据，找到一个“错误”的参数值，但这个值恰好补偿了数值方案的固有误差。后验分布将在这个错误的值周围变得非常尖锐，让我们对一个有偏的结果产生强烈的信心。这是一个深刻的警告：我们的推断的好坏取决于我们使用的模型。承认并建模这种“模型差异”是现代校准的前沿领域。

揭示隐藏的自然法则

除了校准我们的工具，我们还可以使用同样的方法来窥探世界的隐藏运作方式，并推断出支配其行为的参数。

想一想一块金属。我们可以拉它，挤压它，并测量它的响应。我们可以写下优美的唯象定律，比如Johnson-Cook模型，它描述了金属强度如何随应变、应变率和温度而变化。这些模型有参数——A, B, n, C, m——它们是那种特定合金的“秘密设置”。贝叶斯校准提供了一条直接揭示这些设置的路径。通过结合来自不同类型测试（例如，拉伸和剪切）的数据，我们可以构建出材料特性的完整画面，而参数的后验分布则精确地告诉我们，我们从数据中确定其每个特性的程度。

同样的逻辑也适用于一个生命系统。考虑土壤中复杂的微生物世界。它们是我们星球上伟大的分解者，驱动着营养循环。两个基本但隐藏的参数支配着它们的生命：它们的碳利用效率（ $Y_C$ ），即它们将食物转化为新生物质的比例；以及它们自身的化学构成，即其身体的碳氮比（ $C\!:N_m$ ）。我们不能简单地向一个细菌询问这些数字！但我们可以设计一个巧妙的实验，也许使用同位素示踪剂，来测量进出微生物库的氮的总流量。然后我们可以基于化学计量质量平衡——一种简单的原子核算——建立一个机理模型。贝叶斯校准成为桥梁，让实验数据与模型“对话”，揭示 $Y_C$ 和 $C\!:N_m$ 最可能的值及其不确定性。这是一种科学侦探工作，从生态系统留下的线索中推断出其隐藏的规则。

也许这类工作最宏大的舞台是在基础物理学中。我们最深刻的自然理论，如描述质子和中子之间作用力的手性有效场论，包含称为低能常数（LEC）的基本参数。这些不仅仅是模型中的描述性参数；在某种意义上，它们是调整我们核现实结构的旋钮。我们如何设置这些旋钮？我们根据我们拥有的最精确的实验数据来校准它们——氘核的结合能，中子和质子相互散射的方式。利用贝叶斯推断，我们可以利用这些实验数据，为这些基本常数推导出后验概率分布。这个后验分布代表了我们关于这些深层参数的全部知识。然后我们可以用这些知识来预测原子核的其他性质，将我们的不确定性向前传播，以做出带有诚实的、具有物理意义的误差棒的预测。这就是现代科学如何将其最抽象的理论与具体的实验现实联系起来的方式。

宏伟的综合：分层与多尺度建模

贝叶斯框架的真正力量在于其以惊人优雅的方式综合信息的能力。其中最美的两个例子是分层和多尺度建模。

想象一下你正在测试来自一家工厂的几批钢材。由于制造过程中的微小变化，每批都略有不同。你应该如何建模？你可以假装所有批次都相同，并拟合一组Johnson-Cook参数（“完全池化”），但这忽略了现实世界的变异性。或者，你可以为每批拟合一套独立的参数（“无池化”），但这样你就失去了了解新批次的能力，并且对于数据很少的批次可能会得到较差的估计。

分层贝叶斯模型提供了第三种，远为优雅的解决方案。它将每批的参数视为从一个更高层次的“族”分布中抽取的。该模型同时学习整个族的特征（平均行为和批次之间的变异性）以及每个独立批次的特定怪癖。这是一种“部分池化”的方法，能自动地在各组之间借用统计强度。它不仅能告诉你第7批的属性，还能告诉你甚至在测试第23批之前对其的预期。这种结构对于理解具有内部结构的群体来说是一个非常强大和通用的思想，从材料科学到医学再到社会科学。

最后，我们可以更进一步。许多现代科学挑战涉及跨越巨大时空尺度的现象。想一想飞机机翼中的复合材料。其整体强度取决于毫米尺度上单个纤维束的行为，而这又取决于微米尺度上单个碳纤维与聚合物基体之间的粘合，最终由埃米尺度上原子的量子力学相互作用所支配。

我们怎么可能建立一个跨越这些巨大尺度的预测模型呢？答案是“多尺度模型”，一个模型链，其中更精细尺度模型的输出成为更粗糙尺度模型的输入。巨大的挑战是验证这整个链条。贝叶斯校准为这一宏伟综合提供了框架。我们可以设计一系列实验——原子模拟、微观力学测试和宏观试样拉伸。然后我们可以构建一个单一、连贯的贝叶斯模型，同时吸收所有这些来自各个尺度的数据。

更重要的是，我们可以在这个框架中诚实地承认，我们模型链中的每个环节都可能是不完美的近似。我们可以添加“模型差异”项，这些项本身也是不确定参数，模型会从数据中学习它们。这使我们能够量化每个子模型的误差或偏差。最终结果是基本参数的后验分布，该分布与所有可用证据、跨越所有尺度都一致，同时考虑了我们自身模型的局限性。这是预测科学的绝对前沿，使我们能够建立不仅强大，而且对其自身不确定性有着深刻而严谨诚实的模型。

从考古学家的探沟到模拟原子核的超级计算机核心，线索是相同的。贝叶斯校准是我们用来从数据中学习、量化我们的无知、并建立一个对世界日益精炼和诚实的理解的严谨、灵活和统一的语言。