不确定性分析

玻尔百科

定义

不确定性分析是一种用于识别、分类并量化计算模型中偶然随机性与认知不确定性的系统性方法。该学科通常采用贝叶斯推断以及验证、确认与不确定性量化（VVUQ）框架，旨在提升模型预测的置信度。不确定性分析在工程、医学、人工智能和气候科学等高风险决策领域中发挥着至关重要的作用。

核心要点

不确定性分为偶然不确定性（固有的随机性）和认知不确定性（知识的缺乏）。
认知不确定性源于不确定的参数、模型结构和数据质量，这些都可以进行系统性分析。
VVUQ（验证、确认和不确定性量化）框架是建立计算模型可信度的标准。
贝叶斯推断提供了一种统一的方法，用于从数据中学习并做出能充分考虑不确定性的预测。
在工程、医学、人工智能和气候科学等领域的负责任、高风险决策中，量化不确定性至关重要。

引言

模型是我们对复杂现实的简化地图，对于从天气预报到医疗设备设计的预测和理解至关重要。然而，由于模型是简化的，它们天生就不完美且充满不确定性。单一正确答案的幻觉可能很危险，尤其是在高风险情境下。这就产生了一个关键的知识鸿沟：当我们知道模型存在缺陷时，我们如何能信任模型以及基于模型做出的决策？不确定性分析这一学科为此提供了答案，它提供了一个严谨的框架，其目的不是消除不确定性，而是理解、量化和管理不确定性，将其从一种负累转变为一种可计算的风险。本文旨在为这一重要领域提供指引。在第一部分“原理与机制”中，我们将剖析不确定性的基本概念，探索其不同类型和来源，并介绍用于驾驭它的核心数学和程序工具。随后，在“应用与跨学科联系”中，我们将遍览从医学、工程学到气候科学和人工智能等不同领域，了解这些原理如何在一个知识不完备的世界中被应用于建立信任、做出稳健决策并确保合乎伦理的结果。

原理与机制

想象你有一张地图。它是一个极好的工具，将城市的令人眼花缭乱的复杂性简化为您手中可以掌握的线条和符号。但我们绝不能忘记：地图并非疆域。它有故意的省略、轻微的不准确，以及一个使繁华都市显得静止而扁平的比例尺。科学模型与那张地图非常相似。它是现实的简化表示，旨在用于特定目的，无论是预测天气、设计新的飞机机翼，还是理解疾病的进展。

因为模型是简化的，所以它们天生具有不确定性。它们不是完美的水晶球。整个不确定性分析（Uncertainty Analysis）学科就建立在这种谦逊而有力的承认之上。其目标并非消除不确定性，因为这就像创造一张与疆域本身一样大、一样详细的地图一样不可能。相反，其目的是理解、量化和管理不确定性，以便我们能利用不完美的模型在复杂的世界中做出稳健、可靠的决策。驾驭不确定性的旅程始于学会识别其不同形式。

不确定性的两大类别

在最高层面上，我们可以将不确定性分为两大类别，这一区分几乎阐明了我们面临的每一个问题。一方面，是世界固有的随机性。另一方面，是我们人类自身知识的缺乏。科学家分别称之为偶然不确定性（aleatory uncertainty）和认知不确定性（epistemic uncertainty）。

偶然不确定性源自拉丁词alea，意为“骰子”。即使我们拥有完美的模型和对其参数的完美知识，这种不确定性依然存在。它是物理世界中不可约减的、内在的变异性。想象一下空气中分子的随机碰撞，碰撞中汽车确切的角度和速度，或照射到太阳能电池板上太阳辐射的不可预测的波动。我们可以用概率工具来描述这种随机性——例如描述一枚公平骰子投掷结果的统计数据——但我们永远无法确定地预测单次投掷的结果。它是宇宙的“噪声”，我们只能描述其特征。

认知不确定性源自希腊词episteme，意为“知识”，它完全关乎我们所不知道的东西。这种不确定性源于我们自身的无知，并且原则上是可以减少的。如果我们不确定某个物理常数，我们可以进行更精确的实验来测量它。如果我们的模型过于简单，我们可以构建一个更复杂的模型。这正是我们可以通过收集更多数据和完善理论来积极减少的不确定性。

我们在不确定性分析中的大部分工作都涉及剖析这第二类不确定性——我们自身知识的缺乏——以更好地理解其来源并找到减少它的方法。

无知的分类学

当我们构建模型时，我们的认知不确定性——即我们的无知——可能来自几个方面。通过仔细对这些来源进行分类，我们便可以开始系统地解决它们。

参数不确定性

这或许是最直接的一种不确定性。当我们对模型的通用数学形式有信心，但不知道其方程中的常数或参数的确切值时，就会产生这种不确定性。想象一下为钟摆的运动建模。我们知道方程依赖于重力（ $g$ ）和钟摆的长度（ $L$ ）。但 $L$ 的确切值是多少？我们的测量值可能是0.5米，但它是0.501还是0.499？参数 $L$ 的这种不确定性就是一种认知不确定性。在更复杂的模型中，例如创伤性脑损伤的模拟，这可能表现为脑组织确切剪切模量的不确定性，这个值很难精确测量。或者在气候模型中，这可能是一个决定云滴转化为雨水速度的系数的不确定性。

结构不确定性

一种更深层次、更具挑战性的无知形式是结构不确定性，也称为模型形式不确定性。在这种情况下，我们不确定的不仅仅是参数，而是我们应该使用的方程本身。我们的“地图”可能不仅是略有偏差，它可能整个布局都是错误的。例如，在模拟降雨开始时，一位科学家可能会提出一个简单的“阈值”模型：只有当云水含量 $q_c$ 超过某个值 $q_c^*$ 时才形成降雨（方案 A）。另一位科学家可能主张一个更复杂的模型，其速率取决于云滴数量 $N_c$ （方案 B）。在这两种根本不同的数学结构——方案 A 与方案 B——之间做出选择，就是一个结构不确定性的问题。同样，决定是使用较简单的一阶动力学还是较复杂的二阶动力学来为电网中的电子设备建模，也是处理结构不确定性的另一个例子。

这是一个深刻的挑战，因为我们甚至可能不知道“真实”的模型结构。处理这个问题的一个有原则的方法是明确承认我们模型的潜在不足。一种先进的技术是扩展我们的模型方程，比如说 $y = \text{model}(x, \theta)$ ，通过添加一个特殊的差异项： $y = \text{model}(x, \theta) + \delta(t)$ 。这个项 $\delta(t)$ 代表了“未建模的物理过程”，通过将其视为一个未知的随机过程，我们可以利用数据来了解我们模型结构性缺陷的性质。

数据不确定性

最后，我们赖以构建模型和检验理论的数据本身也是不确定性的一个来源。我们的“地面实况”往往是摇摇欲坠的。这包括：

测量噪声：每一种仪器，从一把尺子到电网上的高科技相量测量单元，其精度都是有限的。它报告的值是真实信号和一些随机误差的组合。一个为完美、无噪声世界设计的控制器，在接收到真实的、带噪声的测量数据时，可能会表现得不稳定，因为控制逻辑可能会放大噪声并指令剧烈波动。
缺失数据：在许多现实世界的研究中，尤其是在医学领域，数据会丢失。关键问题是：为什么会丢失？如果数据是完全随机缺失（MCAR）——比如，试管意外掉落——那么剩余的数据仍然是具有代表性的样本。但如果数据是非随机缺失（MNAR）呢？例如，在临床试验中，感觉病情更重的患者可能更倾向于缺席随访。如果我们只对“完整病例”（即那些按时赴约的患者）进行分析，我们的样本就会偏向更健康的患者，我们关于药物有效性的结论可能会危险地过于乐观。理解缺失机制是不确定性分析的一个关键部分，因为忽视它可能导致严重错误的结果。

两大任务：预测与推断

一旦我们识别并分类了不确定性的来源，我们就可以将它们应用于两个基本任务之一：正向传播和逆向推断。

正向问题，或称预测，是关于将不确定性从模型的输入传播到其输出。它回答了这样一个问题：“在我对模型参数和输入的知识（和无知）状态下，我对模型预测的知识（和无知）状态又是什么？”我们通过模型的机制“前推”描述输入不确定性的概率分布，以观察它们产生何种结果分布。

逆向问题，或称推断，则流向相反的方向。它使用来自现实世界的观测数据来学习模型的内部参数。它回答了这样一个问题：“我观察到了这个特定的结果；这告诉我模型内部参数的可能值是什么？”在这里，信息从观测空间流回参数空间，使我们能够减少认知不确定性并完善我们的理解。

伟大的统一者：贝叶斯综合

几个世纪以来，将模型拟合到数据（“校准”）和用它来预测未来这两项任务，通常被当作是独立的、临时性的程序。研究人员可能会找到一个参数的“最佳拟合”值，将其代入模型，然后做出单一预测，却没有诚实地考虑到这个“最佳拟合”值本身也是不确定的。

基于贝叶斯推断的现代方法为推断和预测提供了一个单一、统一的框架，该框架在每一步都自然地处理不确定性。其直觉非常简单优美。我们从一个先验概率分布开始，它代表了我们在看到任何新数据之前对模型参数的初始信念。然后，我们收集数据并构建一个似然函数，该函数告诉我们对于任何给定的参数设置，我们观察到的数据有多大可能性。

贝叶斯定理是结合这两部分的引擎。它本质上陈述了：

后验信念 $\propto$ 数据的似然度 $\times$ 先验信念

其结果是后验概率分布。这不仅仅是一个单一的“最佳”值；它是关于参数知识的完整、更新的描述，表达了我们在考虑数据证据后剩余的不确定性。

有了这个后验分布，我们就可以做出诚实面对不确定性的预测。为了预测未来的结果，我们不只使用一组参数。我们要求由整个后验分布定义的我们模型的每一个可能的版本都做出预测。然后，我们根据它们的后验可信度对所有这些预测进行加权组合。其结果是后验预测分布，这是一个自然包含一系列可能结果的预测，它不仅反映了世界固有的随机性（偶然不确定性），也反映了我们对模型参数剩余的无知（认知不确定性）。

在不确定的世界中建立信任

这个强大的框架使我们能够以量化的置信度进行预测。但是，我们如何才能确信我们应该信任这个模型呢？我们旅程的最后一步是为我们模型的信誉建立一个严谨的论证，尤其是在高风险情境下。这是通过一个称为验证、确认和不确定性量化（VVUQ）的正式过程来完成的。

验证（Verification） 问：“我们是否正确地求解了方程？”这是一个数学和计算上的检查。它关乎于在代码中发现错误，并确保数值求解器是准确的。这是程序员与数学之间的对话，与现实世界无关。
确认（Validation） 问：“我们是否在求解正确的方程？”这是对现实的检验。在这里，我们将模型的预测——连同其从不确定性量化（UQ）中导出的不确定性范围——与未曾用于构建或校准模型的真实世界观测数据进行比对。如果模型的不确定预测与现实持续重合，我们就在该特定情境下对其有效性获得了信心。

我们应用于此VVUQ过程的严谨程度并非一刀切。它取决于模型风险——即基于模型的决策出错所带来的后果。一个用于推荐电影的模型风险很低。而一个用于为FDA批准设计心脏支架的计算模型，其缺陷可能导致血栓形成和患者伤害，则风险巨大。对于高风险应用，对严谨的验证、基于独立数据的广泛确认以及全面的不确定性量化的要求非常之高，而且必须如此。

不确定性不是失败的标志；它是对知识的诚实陈述。不确定性分析的原理为我们提供了一种强大的语言和一个严谨的工具包，以驾驭我们的模型与其试图描述的世界之间的鸿沟。通过拥抱不确定性，我们学会构建更可靠的工具并做出更明智的决策，将无知从一种负累转变为一种可量化、可管理的风险。

应用与跨学科联系

知晓自然法则是回事；用它们来预测未来则完全是另一回事。我们对世界做出的每一个预测、每一次计算，都是与不确定性的相遇。天气预报不只是“会下雨”，而是“有70%的降雨概率”。这个百分比不是承认失败，而是一种知识的陈述。它是智慧的开端。在科学与工程这些宏大且时常充满风险的舞台上，这种智慧不是奢侈品，而是负责任决策的硬通货。诚实、严谨地厘清我们不知道什么，与我们知道什么同样至关重要。这就是不确定性分析的艺术与科学，其印记遍布于所有出错后果严重的领域。

这门学科迫使我们保持谦卑，用可能性的景观取代单一完美答案的幻觉。现在，让我们一同穿越这片景观，看看量化不确定性这个简单而强大的理念，如何成为一条统一的线索，贯穿人类奋斗中最多样化、最具挑战性的领域。

可信度的三位一体：在虚拟世界中建立信任

在我们能信任模型对现实世界的预测之前，我们必须首先在模型本身中建立起一条信任链。这不是一个单一的行为，而是一套严谨的、由三部分组成的学科——一种我们称之为验证、确认和不确定性量化（VVUQ）的计算科学“三位一体”。

首先，我们必须问一个看似简单的问题：我们的计算机代码是否在求解我们认为它在求解的数学方程？程序有错误，数值方法有近似。确保代码在数学上正确的过程——将其与已知的解析解进行比较，或证明其误差随着我们精细化计算而可预测地缩小——被称为验证（Verification）。它关乎正确地求解方程。

接下来，我们必须面对一个更深层次的问题：我们是否在求解正确的方程？我们的数学模型是否真实地代表了我们所关心的那部分现实？为了回答这个问题，我们必须将模型的预测与严谨的、独立的实验进行比较。这就是确认（Validation）。它是模型的抽象世界与物理世界不容置辩的事实相遇的熔炉。

只有当一个模型经过了验证和确认，我们才能迈出最后一步。我们承认我们的知识是不完整的。我们模型的输入——材料属性、环境条件、边界力——永远无法被完美知晓。不确定性量化（UQ）就是将所有这些“已知的未知”用概率分布来表示，并通过我们的模型进行传播的过程。其结果不是一个单一的数字，而是一个带有概率光环的预测——一个可信区间，一个置信度的陈述。

这个由三部分组成的学科是可信度的基石。无论我们是在模拟喷气发动机中湍流火焰的混沌之舞，还是聚变反应堆中难以想象的高温等离子体，亦或是工厂“数字孪生”的复杂操作，都适用同样的基本过程。它是在复杂世界中做出可信预测的通用法则。

人体机器：为生命而工程

如果在工程设计机器时我们要求如此严谨，那么当“机器”是人体时，我们又该提出何等更高的要求呢？在这里，风险不仅是财务上的，更是关乎生存的，VVUQ的原则与伦理原则交织在一起。

考虑一个骨科植入物的设计，比如髋部螺钉。制造商可能会使用有限元分析模型来预测螺钉在行走压力下是否能保持稳定。像美国食品药品监督管理局（FDA）这样的监管机构不会只接受模型的表面预测。他们要求证据，而这正是VVUQ框架所能提供的。公司必须证明代码经过了验证。他们必须通过证明模型的挠度和应力预测与台架实验相匹配来确认模型。至关重要的是，这种确认必须考虑到所有不确定性来源：患者骨骼特性的变异性、实验中的测量误差以及模拟本身的残余数值误差。只有将这些不确定性结合起来，才能做出模型有效的统计学声明，这是获得监管批准的先决条件。

当我们从为群体设计设备转向为单个患者做决策时，伦理维度变得更加尖锐。想象一个病人的“数字孪生”，一个关于他们独特生理学的计算模型，旨在预测一种强效药物的最佳剂量。使用这样的模型来做临床决策，是一次深刻的伦理飞跃。一个机构审查委员会（IRB）会理所当然地要求知道：信任这个模型的依据是什么？答案同样是一个严谨的VVUQ过程。验证确保了生物模型的方程被正确求解。对照临床数据的确认确立了其相关性。而不确定性量化则将模型的输出从一个单一、危险地自信的数字转变为一个概率性预测。它允许临床医生说：“鉴于我们对该患者新陈代谢知识的不确定性，该模型预测此剂量有95%的概率既安全又有效。” 这种概率性陈述是知情同意和最小化伤害伦理原则的根本基础。

从患者到地球：为社会做决策

同样的逻辑可以从个体扩展到整个群体，乃至地球本身。不确定性分析的工具对于我们如何就公共卫生、环境政策和我们共同的全球未来做出集体决策至关重要。

当监管机构决定是否批准一种新药时，它正在为数百万人进行一项巨大的效益-风险评估。效益（如存活率提高）和风险（如副作用）都是不确定的。现代方法使用决策框架来权衡这些不确定的结果。它们甚至纳入了患者的偏好——患者自己最看重什么？——这些偏好同样也带有不确定性。作为不确定性量化的一个关键工具，敏感性分析随后被用来探索如果改变基本假设，最终的效益-风险结论可能会如何变化。这个过程为一个可能影响无数生命的决策提供了透明、理性的基础。[@problem_-id:5271562]

同样，当公共卫生机构为空气中的污染物设定“安全”限值时，它也开始了一长串的推理过程。他们可能从一项流行病学研究的基准浓度开始，该浓度本身就有一个置信区间。然后，他们应用一系列不确定性因子，以考虑一些人比其他人更敏感，以及科学数据库不完整的事实。他们还必须考虑环境空气浓度与个人实际暴露量之间关系的不确定性。每一步都是对不确定性的明确承认，最终的标准旨在尽管我们有未知之处，仍能提供保护。

也许，不确定性分析最宏大的舞台是气候科学。像“气候变化是导致这次热浪的原因吗？”这样的问题本身就不恰当。一个更科学、不确定性量化能帮助我们回答的问题是：“人为引起的气候变化使这次事件发生的可能性或强度增加了多少？”科学家们运行大量的气候模型集合，模拟两个世界：一个是存在人为温室气体的“事实”世界，另一个是从未存在的“反事实”世界，即没有这些气体的地球的幽灵孪生。通过比较这两个集合中极端事件的统计数据，并严谨地应用极值理论的技术，量化来自模型的所有不确定性，他们可以就变化的几率做出稳健的陈述。这就是事件归因，一个理解我们对地球影响的强大工具。

新前沿：不确定性、人工智能与正义

我们的旅程终点是技术的前沿：人工智能。随着我们开始部署人工智能系统来在医疗、金融和司法领域做出关键决策，我们发现不确定性分析比以往任何时候都更加重要——不仅是为了准确性，也是为了公平性。

想象一家医院使用一个人工智能模型来检测败血症，这是一种危及生命的疾病。该模型总体上看起来非常准确。但它对所有患者都同样准确吗？一个模型完全有可能在平均水平上表现良好，但由于训练数据中存在的偏见，对特定的人口群体却会危险地失效。因此，负责任的公平性审计不能依赖于单一数值的性能指标。它需要分层评估，计算不同种族、性别和年龄群体的模型错误率及其不确定性。通过传播不确定性，我们可以确定群体之间的性能差距是否具有统计显著性。这种严谨的、具有不确定性意识的方法对于维护正义的伦理原则至关重要，确保模型错误的负担不会不成比例地落在最脆弱的群体身上。它让我们从对“准确性”的幼稚追求，转向对“可信赖性”这一更深刻目标的追求。

从恒星的核心到算法的代码，不确定性的线索贯穿一切。它不是一个值得悲叹的知识不完美的标志，而是现实中一个需要被拥抱的基本特征。描述它、传播它，并据此做出决策的能力，是我们拥有的最强大的智力工具之一。它是科学进步和负责任创新的安静而严谨的引擎。