模型输入不确定性：原理、传播与分析

玻尔百科

定义

模型输入不确定性：原理、传播与分析是建模与决策科学领域中处理固有随机性（偶然不确定性）和认知局限（认知不确定性）的框架。该方法通过蒙特卡罗模拟等手段将输入差异传播为结果分布，并利用 Sobol 指标等全局灵敏度分析技术量化各输入项对总不确定性的贡献。这些原理将模型从简单的预测工具转化为识别风险和知识缺口的正规决策工具。

核心要点

区分偶然不确定性（内在随机性）和认知不确定性（知识的缺乏）对于有效的建模和决策至关重要。
蒙特卡洛方法通过使用变化的输入运行模型数千次来传播输入不确定性，从而生成可能结果的分布。
全局敏感性分析使用Sobol指数等方法，量化每个输入的不确定性对输出总不确定性的贡献程度。
应用不确定性分析将模型从简单的预测工具转变为稳健决策的工具，通过识别关键的知识差距和风险。

引言

每一个计算模型，从简单的电子表格到复杂的气候模拟，都是对现实的一种近似。现代科学与工程中的一个关键挑战是，这些模型的输入——无论是物理常数、材料属性还是环境条件——我们永远无法以完美的确定性得知。这种我们输入中固有的不确定性会通过模型传播，使我们的最终预测不再是一个单一、精确的数字，而是一系列可能性。本文旨在解决如何理解、量化和管理这种不确定性的关键问题，以使我们的模型更加“诚实”，决策更加稳健。第一章“原理与机制”将通过剖析不同类型的不确定性（从内在随机性到我们知识的空白），并介绍蒙特卡洛模拟和敏感性分析等强大技术来追溯其影响，从而奠定基础。随后的“应用与跨学科联系”一章将展示这些工具如何在化学、工程和生态学等领域的真实场景中应用，将不确定性从一个问题转变为更深刻见解的来源。

原理与机制

想象一下，你是一位试图烘焙完美蛋糕的大厨。你有一份食谱——一个模型——告诉你使用什么配料和遵循哪些步骤。但在任何一天，事情都不可能完全完美。你量取的“一杯面粉”可能比昨天多一点或少一点。设定为 $175^{\circ}\mathrm{C}$ 的烤箱温度可能会有些许波动。你用的鸡蛋可能稍小一些。这些都是你输入中的微小不确定性。这些小偏差是如何通过食谱的连锁反应影响最终的蛋糕的？是质地上的微小变化，还是会导致一场烹饪灾难？

这就是不确定性量化的核心问题。它是一门科学，旨在理解我们知识的局限性和世界的内在随机性，以及它们如何共同作用，使我们模型的输出不是一个单一、精确的预测，而是一片模糊的可能性云。为了驾驭这片云，我们必须首先学会看清它的不同形状和纹理。

无知的两面：偶然不确定性与认知不确定性

我们讨论的核心在于一个关键的区别，这是不确定性之路上的一个岔路口。它区分了什么是内在随机的，以及什么是我们仅仅不知道的。

首先，考虑掷一个公平的骰子。你知道关于这个骰子的一切——它的形状、重量、以及每个面上的数字。然而，在你掷出它之前，你无法确定地预测它会是1还是6。这就是偶然不确定性（aleatoric uncertainty），源自拉丁语 alea，意为“骰子”。它是一个过程或系统中不可减少的、固有的变异性。它是风中树叶的混沌飘动，或是由湍流驱动的力的每次射击间的变化。我们可以用精确的概率语言来描述偶然不确定性——我们可以说掷出4的概率是 $\frac{1}{6}$ ——但我们永远无法消除它。它是我们所建模世界的一个基本特征。

现在，考虑一个不同的问题：木星的精确质量是多少？与掷骰子不同，这个问题有唯一、真实的答案。问题在于我们并不完美地知道它。我们的测量有局限性。这就是认知不确定性（epistemic uncertainty），源自希腊语 episteme，意为“知识”。它是由知识的缺乏所导致的不确定性。它可能源于数据稀疏、测量不准确或对系统的不完全理解。例如，如果一名工程师因为无法直接测量而使用手册中的材料刚度值，那么该值就具有认知不确定性。认知不确定性的关键特性在于，原则上，它是可以减少的。我们可以收集更多数据、进行更精确的实验或改进我们的测量技术，以缩小我们的不确定性范围，从而更接近那个唯一的真实值。

这种区分不仅仅是哲学上的吹毛求疵。它深刻地影响着我们如何为世界建模以及我们期望达到的目标。偶然不确定性是我们所建模系统的属性，而认知不确定性是我们关于该系统的知识的属性。为了做出稳健的决策，我们必须知道我们的不确定性是我们必须接受的（偶然的）还是我们可以花钱去减少的（认知的）。贝叶斯分层建模为此提供了一个强大的框架，它提供了一种形式化的数学语言，用以表示我们对认知量（如材料参数）的信念程度，以及它们如何支配我们在世界上观察到的偶然变异性（如单个样本的属性）。

地图并非疆域：模型形式不确定性

到目前为止，我们一直在讨论模型输入的不确定性——我们蛋糕的配料。但是，如果食谱本身就有缺陷呢？如果它要求使用泡打粉，而实际上应该用小苏打呢？

这就引出了第三种，也是更微妙的一种不确定性：模型形式不确定性（model form uncertainty），也称为结构不确定性或模型不足。这是因为我们的模型是——并且永远将是——对现实的简化而产生的误差。“地图并非疆域，” Alfred Korzybski 的这句名言说得好。我们的模型就是地图，它们必然是不完整的。

一个来自工程学界的美妙例证：一个简单而优雅的模型，欧拉-伯努利梁理论（Euler-Bernoulli beam theory），可以预测梁在荷载下的弯曲情况。对于细长的梁，它效果极佳。但如果你将它应用于短粗的梁，它的预测将出现系统性错误。它会持续低估梁的挠度。为什么？因为该模型的核心假设——它的“食谱”——忽略了剪切变形的影响，而这种影响在短梁中变得显著。这种偏差并非随机噪声。你无法通过更精确地测量梁的材料属性（减少参数不确定性）或使用更强大的计算机来求解模型方程（减少数值误差）来修正它。这个错误已经融入了模型本身的数学结构中。减少模型形式不确定性的唯一方法是选择一个更好的模型——一张更详细的地图，比如季莫申科梁理论（Timoshenko beam theory），它包含了剪切变形的物理学。认识到模型的不足是科学成熟的标志；这是一种谦逊，承认我们体现在模型中的理解永远是暂时性的。

伟大的传播：从输入到输出

一旦我们描述了输入中的不确定性——偶然的、认知的，甚至可能还有结构的——下一个合乎逻辑的问题是：它们如何影响最终答案？如果一种流体的粘度有 $5\%$ 的不确定性，这是否意味着传热率的不确定性是 $5\%$ 、 $50\%$ ，还是根本没有？输入不确定性通过模型的方程涟漪般传播，从而产生输出不确定性的过程，被称为不确定性传播（uncertainty propagation）。

传播不确定性最直观、最强大的方法或许是蒙特卡洛方法（Monte Carlo method）。这个想法既简单又深刻：你玩一个“如果……会怎样？”的游戏。想象一下，我们的计算模型是一个黑箱；我们给它输入一组数据，它就输出一个答案。为了看到不确定性的影响，我们只需一遍又一遍地运行模型，成千上万次。每次运行时，我们都从它们各自的概率分布中抽取一组新的输入值，代表一个不同的、看似合理的“世界状态”。一次运行可能有高粘度和低入口温度；另一次则可能有低粘度和高温度。

在运行了数千种这样的场景之后，我们不会得到一个单一的输出答案。取而代之的是，我们将得到一整个答案集合。这个结果集合构成了输出的概率分布，从中我们不仅可以计算出最可能的值（如均值），还可以计算出可能性的范围（方差或 $95\%$ 的置信区间）。这就像在数千个平行宇宙中烘焙数千个蛋糕，每个宇宙的配料都略有不同，然后观察最终得到的蛋糕的全貌。这种基于抽样的“暴力”方法具有极好的通用性——它几乎适用于任何模型，无论其多么复杂或非线性——而且它是“非侵入性的”，意味着我们不必去修改我们宝贵的模拟代码的内部工作方式。

当模型中结合了不同的随机干扰源时，它们对输出不确定性的影响通常会累积。在许多简单的线性系统中，输出的总方差是每个独立输入贡献的方差之和，并根据模型对该输入的敏感度进行缩放。这体现了一个更深层次的原理：不确定性很少会相互抵消。更多时候，它会复合。

提出正确的问题：敏感性分析

知道我们的预测是，比如说，“ $10 \pm 2$ ”，这比仅仅预测“10”已经是一个巨大的进步。但这自然引出了下一个问题：为什么不确定性是 $\pm 2$ ？是因为我们对输入A的测量不佳，还是因为输入B的内在随机性？要回答这个问题，我们需要进行敏感性分析（sensitivity analysis）。

敏感性分析是将模型输出的不确定性归因于其输入中不同不确定性来源的过程。这种分析主要有两种类型。

局部敏感性分析（Local Sensitivity Analysis, LSA）是较简单的方法。它就像一次只轻轻地“敲击”一个输入，同时将所有其他输入固定在一个“标称”值上，然后观察输出有多大的“摆动”。在数学上，这相当于在单一点计算输出相对于每个输入的偏导数。它计算成本低且易于理解，但它是局部的。它只告诉你输入空间中那一个特定点的敏感性，对于高度非线性或输入间存在复杂交互作用的模型可能会产生误导。

全局敏感性分析（Global Sensitivity Analysis, GSA）是更强大、更稳健的方法。GSA不是仅仅“敲击”输入，而是同时在它们整个不确定性范围内“摇动”所有输入。然后，它使用复杂的统计技术来解开总的输出变异，并将其归因于每个输入。这些技术中最著名的是基于方差的敏感性分析（variance-based sensitivity analysis），它分解了输出的总方差。结果通常以Sobol指数（Sobol indices）表示。

一个输入的一阶指数（ $S_i$ ）告诉你由该输入单独直接引起的输出方差的比例。这是对其“主效应”的度量。
总阶指数（ $S_{Ti}$ ）告诉你由该输入的主效应加上其与任何其他输入交互所引起的所有方差的比例。

$S_{Ti}$ 和 $S_i$ 之间的差异衡量了一个输入在产生输出不确定性方面参与“团队合作”的程度。对于一切似乎都相互依赖的复杂生态、经济或物理系统，GSA是不可或缺的。它告诉我们应该把精力集中在哪里。如果一个参数的Sobol指数很大，我们就知道减少其不确定性将对我们的预测能力产生重大影响。在实践中，这些指数是通过巧妙的蒙特卡洛方案计算的，例如Saltelli抽样计划（Saltelli sampling plan），它能有效地生成一次性估计所有Sobol指数所需的输入组合。

不确定性的交响曲

在任何现实世界的科学问题中，我们面对的从来不只是一种类型的不确定性。相反，我们面对的是一整场不确定性的交响曲，它们共同演奏。考虑一下评估沿海湿地防洪服务价值的任务——在我们气候变化的时代，这是一个极其重要的问题。评估过程将充满来自多个来源的不确定性：

输入不确定性：湿地的面积可能是根据卫星图像估算的，其中存在固有的分类错误。
参数不确定性：模型中的水力粗糙度系数可能是根据有限的先前研究校准的。
结构不确定性：团队可能有两种不同的、相互竞争的模型来描述湿地如何削减洪水——一种是线性的，另一种是基于阈值的。哪一种是正确的？
情景不确定性：未来本身就是不确定的。分析必须针对海平面上升和风暴频率的不同可能情景进行，而我们可能无法为这些情景分配概率。

处理这个复杂的不确定性组合的首要原则是：不要不恰当地将它们混为一谈。如果你没有依据来判断它们的相对可能性，你就不能简单地将“中等”气候情景和“严重”气候情景的结果平均化。这样做会掩盖预测中最重要的特征：未来可能会因我们所走的路径不同而截然不同。

正确的做法是诚实和透明。我们在非概率选择（模型结构和未来情景）的条件下，传播概率性不确定性（输入和参数）。最终向决策者传达的信息不应是一个单一的数字，而是一个细致入微的故事：“在模型A和严重气候情景下，估计的年效益为 $X \pm Y$ 美元。在模型B和相同情景下，估计值为 $Z \pm W$ 美元。”这突显了所有可能性的范围，并使得真正稳健的决策成为可能。

最终，目标是建立不仅能预测，而且能自我意识到自身局限性的模型。一个只产生单一数字的模型是在提出一个主张。一个产生带有经仔细量化的不确定性估计的数字的模型，则是在做出一个可验证的科学陈述。这就像说“蛋糕会是完美的”和说“根据我的食谱和我配料的变异性，蛋糕有 $95\%$ 的几率会很好，但我已经发现烤箱的温度稳定性是最大的风险因素”之间的区别。你会更信任哪位厨师？这是现代科学的举证责任，而不确定性量化工具让我们能够承担起这一责任[@problem_t:2434498]。

应用与跨学科联系

在前面的讨论中，我们已经熟悉了不确定性的语言和语法——处理我们对世界知识中固有模糊性的数学工具。但掌握语法并非目标；目标是写出诗篇。现在，我们将踏上一段旅程，去看看这种语法在广阔的科学与工程领域中写下的诗篇。我们将发现，承认不确定性并非软弱的标志，而是深刻力量和洞见的源泉。它将我们的模型从僵硬、无所不知的神谕转变为明智、诚实的顾问。

科学诚信的基础

让我们从一些基本的东西开始：测量行为本身。当化学家想要创造一种分析标准品，一种纯度和成分已知得极其精确的物质时，他们必须确定其摩尔质量。想象一下认证一批重铬酸钾（ $\text{K}_2\text{Cr}_2\text{O}_7$ ）。它的摩尔质量是其组成原子质量的总和。但钾、铬或氧的原子质量并非从神圣石板上摘下的单一、完美的数字；它是一个测量量，有其自己虽小但非零的不确定性，这源于同位素变异和测量本身的局限性。

一种天真的做法是将原子质量四舍五入，然后相加，就算大功告成。但这在计算中是首要大罪。正确的、符合计量学原理的程序是，将每个原子质量视为一个分布，一个具有已知“模糊性”的值。当我们将它们相加时，我们必须同时使用传播规则来组合它们的不确定性。最终的摩尔质量报告时会附带相应的不确定性，并且只在最后一步进行舍入。这一规程确保我们不会过早丢弃宝贵信息，或因舍入而引入系统性偏差。这是科学诚信的第一条诫命：不仅要报告我们所知道的，还要报告我们知道得有多好。

现在考虑问题的另一面。在蓬勃发展的生物信息学领域，研究人员可能会在庞大的基因序列数据库中搜索匹配项。结果会返回一个称为“期望值”（E-value）的统计分数，它代表了纯粹偶然情况下找到如此好的匹配的预期次数。假设E值是一个极小的数字，比如 $1.0 \times 10^{-25}$ 。一个1后面跟着25个零！这肯定是板上钉钉的事了吧？

别这么快下结论。这个E值是一个模型的输出，而模型本身建立在一系列假设的基础上——基因的构建块以特定频率出现，它们的分布遵循特定的数学形式。这些假设都是近似值，模型的参数是从有限数据中估计出来的，这赋予了它们自身的不确定性。一个关键模型参数中仅百分之几的微小不确定性，就可能呈指数级传播，使最终的E值改变一个两倍、五倍甚至更多的乘数因子。这里的关键教训是，你的计算机能显示的数字位数与科学真理毫无关系。一个数字的真正意义取决于潜伏在其推导过程中的不确定性幽灵。真正科学地报告这个结果的方式是，声明E值在 $10^{-25}$ 的数量级，并承认第一个数字之后的那些数字很可能是计算幻影，而非现实的反映。

从蓝图到丰收：构建一个我们能信赖的世界

让我们从实验室走向我们周围构建的世界。一位农业工程师开发了一个模型，根据季节性降雨这一臭名昭著的不可预测输入来预测作物产量。模型的标称预测是每英亩 $175.4$ 蒲式耳。但是最后一个数字“.4”真的有意义吗？或者它只是数值上的糠秕，在降雨的内在变异性面前毫无意义？

为了回答这个问题，我们可以运用蒙特卡洛模拟的魔力。我们无法在现实世界中让雨以一百万种不同的方式下，但在计算机上可以。我们生成了数千种可能的降雨情景的“虚拟天气”，每一种都与历史模式相符。对于每一种虚拟降雨，我们运行模型并得到一个预测产量。结果不是一个单一的数字，而是一整个可能产量的分布。然后我们可以提出一个精确的、概率性的问题：“在这些看似合理的未来中，预测产量四舍五入到175.4的比例是多少？”如果这个比例很高（比如，高于 $0.95$ ），我们就可以对最后一个数字有信心。如果不是，我们就必须诚实地以较低的精度报告我们的预测。在这里，不确定性分析定义了我们预测透镜的分辨率本身。

同样的想法可以在一个真实的工程警惕故事中成为英雄。一座桥梁因交通和风而振动。但它的振动变化只是日常的噪声，还是正在形成的裂缝的预警信号？两者都可以改变桥梁的固有频率。不确定性分析的绝妙应用使我们能够从噪声中区分出信号。我们建立一个模型，该模型包含两种变异来源：潜在损伤的不确定程度和来自我们传感器的随机噪声。通过使用多项式混沌展开（Polynomial Chaos Expansions）等强大技术，将这些不确定性在模型中传播，我们可以分解测量频率的总方差。我们可以定量地确定“摆动”中有多少可归因于损伤，有多少只是噪声。这使我们能够自信地说：“观察到的变化有70%与结构损伤一致，只有30%与传感器噪声一致。”我们已将不确定性从一个麻烦转变为一个复杂的诊断工具。

但是，如果我们的模型是一个计算巨兽，一个详细的新飞机机翼有限元模拟，需要在超级计算机上运行数小时或数天呢？我们无法承担运行数千次的成本。解决方案既聪明又强大：我们建立一个“模型的模型”。这个快速、近似的代理模型（或“模拟器”）从少量智能选择的训练运行中学习昂贵的高保真模型的行为。一旦代理模型训练完成，我们就可以以几乎零成本查询它数百万次，从而使我们能够进行全面的全局敏感性分析。这揭示了哪些不确定参数——无论是材料刚度还是层板厚度——对机翼性能影响最大，从而指导工程师创造出更稳健、更可靠的设计。

窥探自然的引擎室

运用不确定性思维的力量延伸至基础科学的深处，锐化了我们对自然内部运作的看法。让我们深入到一个生物细胞的微观世界，一个分子机器繁忙的城市。例如，一个酶的功能依赖于一种微妙的静电舞蹈。我们模拟这种舞蹈的计算模型对我们关于细胞环境的假设高度敏感——周围介质的“含水性”（介电常数）或原子的有效尺寸。

通过将这些参数视为不确定的输入，我们可以传播它们的影响，看看它们如何影响一个关键的预测属性，比如某个残基的 $pK_a$ 。这种敏感性分析揭示了我们的哪些假设最为关键。它指出了我们微观地图中最模糊的部分，为未来的研究指明了方向。这种分析甚至可以解开相关不确定性的影响，即一个假设的变化（如原子半径）与另一个假设的变化（如计算网格）在统计上相关联，这是一个常见且具有挑战性的现实世界场景。

这种方法在最抽象的理论科学领域也同样至关重要。考虑从量子力学的第一性原理预测化学反应的速度。过渡态理论提供了一个优美的方程，但这个方程的输入来自量子计算：分子必须攀越的能量山峰的高度（ $\Delta E^{\ddagger}$ ）和它们的原子振动频率。这些值永远无法被完美地知晓。当我们传播这些不确定性时，我们发现一个惊人的结果：因为能垒高度出现在一个指数项中（ $e^{-\beta \Delta E^{\ddagger}}$ ），即使其值有很小的不确定性，也会在预测的反应速率中造成巨大的不确定性。这表明不确定性分析不仅仅是实验科学家的工具；它也是理论科学家不可或缺的工具，揭示了我们在基础层面知识的已知局限如何转化为我们预测能力的实际局限。

在朦胧世界中学习与决策的艺术

我们已经看到了不确定性如何塑造我们的预测。但也许它最深刻的作用在于指导我们如何学习和如何行动。想象一下，我们正在观察一个化学反应器，试图确定内部发生的反应速率。我们的实验并不完美；我们输入反应器的化学品浓度会不可预测地波动。这种“输入噪声”模糊了我们对试图测量的过程的看法。这如何限制我们学习真实反应速率的能力？

统计理论以克拉默-拉奥下界（Cramér–Rao Lower Bound）的形式给出了一个惊人的答案。它告诉我们，考虑到我们输入的混乱和测量的噪声，我们能多精确地知道反应速率存在一个基本限制——一个“声障”。无论我们的分析多么巧妙，我们永远无法以小于这个界的误差来估计该参数。这是关于在嘈杂世界中知识极限的一个深刻陈述，它是输入不确定性通过我们估计框架传播的直接结果。

这种对最重要不确定性的关注，即使在国家政策层面，也是一个强有力的行动指南。假设一个政府正在计划一项数十亿美元的投资来创造就业机会，并有一个模型来预测结果。模型的参数——制造业与服务业中每一美元能创造多少工作岗位——都是不确定的。全局敏感性分析就像一盏聚光灯。它不仅告诉我们最终就业总数的不确定性；它还精确定位了哪个输入参数是造成该不确定性的主要原因。也许我们发现，我们对建筑行业就业创造系数的模糊认识是怀疑的主要来源。这为政策制定者提供了明确的指令：“如果你们想要一个更可靠的预测，就把研究精力集中在这里。不要浪费资源去完善那些无关紧要的参数。”这是智能探究的良方。

这把我们带到了终极问题：不仅仅是“会发生什么？”而是“我们应该做什么？”考虑一下我们河流中微塑料上传播的抗生素抗性基因所带来的严重环境威胁。我们有一个复杂的生态模型，可以预测这些基因的下游浓度。一个监管机构设定了一个安全阈值；如果浓度超过这个水平，就必须启动昂贵的缓解措施。我们模型的预测当然是不确定的。对于监管者来说，关键问题不仅仅是“最可能的浓度是多少？”而是“真实浓度超过阈值的概率是多少？”

此外，我们可以进行的敏感性分析，不是针对浓度值本身，而是针对那个简单的、二元的决策问题：“浓度是高于还是低于阈值？”这种视角的非凡转变使我们能够识别出哪些不确定的环境参数——水流量、塑料表面积、基因转移效率——是驱动我们决策不确定性的关键因素。它精确定位了那些使决策变得困难的特定知识差距。这是不确定性分析能提供的最高形式的智慧：它不仅给了我们量化我们胜算的工具，而且让我们精确地理解是什么让胜算如此难以判断，从而在我们知识不完整的情况下，指导我们做出最理性、最稳健的决策。

从化学家的天平到生态学家的模型，再到政策制定者的办公桌，传达的信息是相同的。承认和分析不确定性不是退回到怀疑之中。它正是科学严谨性和实践智慧的核心。它使我们能够更好地建设，更清晰地观察，更有效地学习，更明智地决策。它将我们的模型从脆弱的水晶球转变为在驾驭复杂和不确定世界时值得信赖的坚韧顾问。