首页模型不确定性

模型不确定性

玻尔百科

定义

模型不确定性是概率分析中的一个概念，它将预测的不确定性分为源于内在随机性的偶然不确定性和由于知识缺乏引起的认知不确定性。认知不确定性进一步包含参数不确定性与结构不确定性，分别代表未知的常数项和不完整或不正确的模型结构。在工程、气候科学和医学等复杂领域，通过概率方法量化不确定性，可以将误差来源转化为制定稳健决策的重要指导。

核心要点

模型不确定性分为偶然不确定性（内在随机性）和认知不确定性（知识的缺乏），这是进行正确分析的关键区别。
认知不确定性本身包括参数不确定性（正确模型中的未知常数）和结构不确定性（不正确或不完整的模型结构）。
使用概率方法量化不确定性，可将其从误差源转变为宝贵的指南，以助做出在各种合理情景下均表现良好的稳健决策。
在工程、气候科学和医学等复杂领域，拥抱模型不确定性对于识别知识差距、构建值得信赖和可靠的系统至关重要。

引言

每个科学模型都是对现实的近似，是一幅复杂疆域的简化地图。这些模型虽然有用，但天生就不完美。若未能考虑到这些不完美之处——即模型与现实之间的差距——可能导致脆弱的预测和灾难性的失败。本文通过深入探讨模型不确定性的概念来应对这一根本性挑战。它提供了一个框架，不仅用于承认我们所不知道的，更用于严格地量化这些未知，并将其转化为洞察力的工具。在接下来的章节中，我们将首先探讨模型不确定性的核心“原理与机制”，将其分解为偶然不确定性和认知不确定性等基本类型。随后，“应用与跨学科联系”一节将展示，直面不确定性是如何成为一个中心主题，使得在从工程到公共政策等不同领域中都能做出稳健而明智的决策。

原理与机制

每个科学模型都是一个故事。它是我们为了理解宇宙而构建的一种叙事，是一幅描绘无限复杂疆域的简化地图。如同任何地图一样，它并非疆域本身。它会有遗漏、扭曲和近似。对模型不确定性的崇高追求不在于哀叹这些不完美，而在于拥抱它们。这是一门诚实记账的科学，一门严格量化我们知识边界和世界内在模糊性的科学。它将不确定性从恐惧的来源转变为做出稳健决策的指南。

不确定性的两面：无知与随机

在开始我们的旅程之前，我们必须认识到，并非所有的不确定性都是生而平等的。想象你在一个嘉年华游戏中，试图射击一个目标。你所面临的不确定性可以分为两个截然不同的类别。

首先，有软木塞枪固有的晃动、不可预测的阵风，以及你手上轻微的颤抖。即使瞄准完美，这些因素也意味着软木塞永远不会两次都落在完全相同的位置。这就是偶然不确定性（aleatoric uncertainty），源自拉丁语 alea，意为“骰子”。它是系统固有的、不可简化的随机性。就好像宇宙在掷骰子。我们可以描述它，比如通过说明射击落点的分布范围，但我们永远无法消除它。在科学建模的世界里，这可能是传感器中的随机噪声、湍流中不可预测的波动，或是分子层面化学反应的内在随机性。在一个动态系统的正式模型中，例如大脑控制手臂伸展的内部模型，这种偶然不确定性表现为扰动系统演化的过程噪声（ $w_t$ ）和干扰我们感官反馈的测量噪声（ $v_t$ ）。获取更多关于系统平均行为的数据，并不会使单个事件变得更可预测。

其次，想象一下你的软木塞枪的瞄准器没有校准，但你并不知道。你的射击可能非常集中，但都一致地偏离靶心左侧。这就是认知不确定性（epistemic uncertainty），源自希腊语 episteme，意为“知识”。这是一种源于我们自身知识欠缺的不确定性。原则上，它是可以减少的。如果有人告诉你瞄准器偏离了两度，你就可以校正你的瞄准。这就是我们模型本身的不确定性。在医学研究中，这可能是一种系统误差或偏倚，例如一个未测量的混杂因素，它使我们估计的效应偏离真实值。一个关键的洞见是，仅仅收集更多同类型的数据并不能修正认知不确定性。用未校准的枪射击一千次，只会让你更确定地打中错误的位置。要减少这种偏倚，你需要不同的、信息更丰富的数据——比如对枪的瞄准器进行校准测试。

无知的剖析：错误的常数还是错误的蓝图？

我们的认知不确定性——我们的无知——本身可以被剖析为两种主要类型。在构建和验证从气候科学到计算工程等复杂模型时，这种区分至关重要。

参数不确定性是两者中较简单的一种。它假设我们拥有正确的模型蓝图，但我们方程中常数的值并不精确。想象我们正在使用著名的 Arrhenius 方程 $k(T) = A \exp(-E_a / RT)$ 来模拟一个化学反应。我们相信这个方程形式是正确的，但是指前因子 $A$ 和活化能 $E_a$ 是通过实验确定的，其值存在一些不确定性。这就像知道收音机的设计是正确的，但不知道调到你最喜欢的电台所需的精确频率。我们不确定我们模型上旋钮的设置。这是控制系统中的一个常见挑战，其中传感器的增益可能只在 $\pm 10\%$ 的范围内可知，这是一个典型的参数不确定性案例。

结构不确定性是一个更深层次、更具挑战性的问题。它是对我们模型的蓝图本身——其数学结构——是错误或不完整的怀疑。我们可能遗漏了一个关键的物理过程，或者我们选择的方程可能是对现实的拙劣近似。例如，在模拟一场大流行病时，我们可能会选择一个经典的 SIR（易感-感染-移除）模型。但如果存在一个显著的潜伏期，即个体已被感染但尚未具有传染性，情况会怎样？一个更复杂的 SEIR（易感-暴露-感染-移除）模型将是另一种不同的“结构”。无论如何调整 SIR 模型的参数，都无法使其表现得像一个 SEIR 模型。这就像试图用悬索桥的蓝图来建造一座悬臂桥；无论你把螺栓（参数）造得多坚固，其基本设计对于任务来说是错误的。结构不确定性是承认现实可能存在几种合理的、相互竞争的蓝图，而我们不确定哪一个是正确的。

怀疑的语言：我们如何度量和建模不确定性

为了从哲学概念转向工程实践，我们需要一种数学语言来描述不确定性。

一个强大的思想是停止考虑单一模型，而是开始考虑一个模型族。例如，在稳健控制中，如果我们系统的标称模型是一个传递函数 $G(s)$ ，我们可以通过考虑所有形如 $P(s) = G(s)(1 + W_m(s)\Delta_m(s))$ 的可能对象来表示不确定性。在这里， $\Delta_m(s)$ 是一个未知但有界的“扰动”，而 $W_m(s)$ 是一个权重函数，充当我们在不同频率下的“不确定性预算”。我们可能声称，我们对模型在低频下的行为非常确定，但在高频下允许较大的不确定性，因为像共振这样的未建模动态常常潜伏在那里。这个框架使我们能够设计出保证对整个可能对象族都有效的控制器，而不仅仅是针对我们那个理想化的模型，从而确保在现实世界中的稳健性能。

对于偶然不确定性和参数不确定性，概率语言是不可或缺的。我们不把一个不确定的参数表示为单个值，而是表示为一个概率分布，它反映了我们的知识状态。一个狭窄的峰值意味着我们非常确定；一个宽而平坦的分布意味着我们非常不确定。

当我们运用概率定律将这些思想结合起来时，真正的魔力就发生了。全方差定律为分解预测中的总不确定性提供了一个优美的公式。在其最简单的形式中，它告诉我们：

$\operatorname{Var}(\text{Total Prediction}) = \text{Expected Aleatoric Variance} + \text{Epistemic Variance}$

或者，更正式地，使用贝叶斯分析的符号：

$\operatorname{Var}(y | \mathcal{D}) = \mathbb{E}_{\theta \sim p(\theta | \mathcal{D})}[\operatorname{Var}(y | \theta)] + \operatorname{Var}_{\theta \sim p(\theta | \mathcal{D})}(\mathbb{E}[y | \theta])$

这个方程意义深远。它表明我们预测的总方差（左侧）是两项之和。第一项是系统内在随机性（偶然部分）的平均值。这是我们无法消除的部分。第二项是当我们根据参数的不确定性来改变参数时，模型平均预测值的方差（认知部分）。这部分会随着我们收集更多数据和完善对参数 $\theta$ 的知识而缩小。

我们可以扩展这个思想以包括结构不确定性。当我们有多个竞争模型（ $M_1, M_2, \dots$ ）时，我们预测的总方差变为：

$\operatorname{Var}(\text{Total}) = (\text{模型内部方差的平均值}) + (\text{模型间预测值的方差})$

第二项，即不同模型预测值之间的方差，是对我们结构不确定性影响的直接、量化的度量。如果我们所有合理的模型都给出截然不同的答案，这一项就会很大，表明存在一个需要解决的主要认知不确定性来源。

从不确定性到智慧：做出稳健的决策

这就引出了量化不确定性的最终目的：做出更好、更明智、更稳健的决策。基于单一“最佳猜测”模型做出的决策是脆弱的；如果该模型正确，它可能表现出色，但如果模型不正确，则可能灾难性地失败。一个稳健的决策是在各种合理的未来情景下都表现良好的决策。

COVID-19 大流行为这一原则提供了一个鲜明而真实的教训。面对一种未知的病毒，决策者不得不在巨大的参数不确定性（传播率是多少？）和结构不确定性（SIR 模型还是 SEIR 模型更合适？）下选择政策。详细分析表明，像“不干预”这样的政策在乐观情景下可能看起来可以接受，但在悲观情景下会导致天文数字般的损失。相比之下，一个为求稳健而选择的政策，例如通过在所有可能情景中最小化“最大遗憾值”，可能在任何单一情景下都不是“最优”的，但它在所有情景中都避免了灾难。

通过明确地为我们的无知和世界的随机性建模，我们并非承认失败。我们是在用工具武装自己，以驾驭复杂的现实。我们学会区分世界固有的模糊性与我们自身理解的、可减少的迷雾。我们学会了将努力投向何处：如果认知不确定性占主导，我们需要更多数据和更好的模型；如果偶然不确定性占主导，我们需要设计能够抵御内在随机性的系统。这种对我们所不知之事物的诚实、量化的方法，是现代科学最深刻和最实用的成就之一。

应用与跨学科联系

我们花了一些时间来学习模型不确定性的原理和机制，将其作为一个正式的数学对象来对待。但它有什么用呢？它有什么好处？一个科学思想的真正美妙之处不在于其抽象的优雅，而在于其澄清我们对现实世界看法的能力——在于它的应用。事实证明，努力应对我们不知道的事情，并非只是统计学家面临的一个小众问题；它是贯穿科学、工程乃至公共政策整个领域的中心、反复出现的主题。拥抱不确定性，就是从漫画走向肖像，从一个脆弱、理想化的模型走向对现实稳健而诚实的理解。

构建一个稳健的世界

让我们从一些具体的东西开始：工程。工程师比任何人都更致力于制造出能够正常工作的东西，尽管世界充满了混乱。一个元件的值从来不会完全是其标签上印的数值，温度会波动，材料会磨损。当你使用的元件本身都不是完全精确时，你如何构建一个可靠的高频滤波器？

考虑一个简单的 RLC 电路。由于制造公差，电容可能会有轻微变化。我们可以尝试用不同的方式来描述这种不确定性。它是一种“加性”不确定性，即在我们标称模型之上增加的一个小的未知阻抗吗？或者它是“乘性”的，即一个缩放我们标称模型的未知因子？这似乎只是品味问题，但选择的意义却很深远。通过分析系统的物理特性，我们发现一种模型可能导致不确定性在特定频率下急剧增大，而另一种模型则能使其被整齐地约束。例如，乘性模型通常能正确地捕捉到不确定性的影响与系统自身响应成正比的特性，从而得到一个更稳定、更现实的描述，可用于设计保证能正常工作的控制器。选择正确的语言来谈论我们的无知，是驯服它的第一步。

但这不仅仅是为了确保稳定性。不确定性对性能施加了根本性的限制。想象一下，你正在为一种简单的过程设计一个控制系统，但存在你未能完美建模的高频动态——一种系统中的“嘎嘎声”，被你的简单模型忽略了。这种未建模的行为代表了结构不确定性。当你试图让你的控制器反应非常迅速（即给予它高带宽）时，你不可避免地会开始“激发”这些未建模的动态。结果是你的控制回路可能会变得不稳定。因此，这里存在一个权衡：不确定性越大，控制器就必须越慢才能保持稳健。大自然似乎对我们的无知征收了税；我们系统可达到的带宽从根本上受限于我们知识的精确度。

不确定性的性质也决定了应对它的整个策略。假设你正在设计一辆自动驾驶汽车的控制系统。某些不确定性就像一阵稳定但未知的逆风——一种“加性扰动”。你可以在你计划的轨迹周围设计一个固定的“安全裕度”或一个“管道”，以确保你保持在道路上。误差动态是可预测的，并且与你的主计划分离。但如果不确定性存在于汽车本身的动态中呢？如果轮胎抓地力随路面情况而不可预测地变化呢？这种“参数不确定性”意味着游戏规则在你玩的过程中就在改变。误差现在与汽车的状态耦合在一起；高速时的小误差比低速时的相同误差影响大得多。驯服这种不确定性需要一种复杂得多的策略，类似于一场与所有可能现实的极小化极大博弈，这在计算上要求高得多。我们不确定性的特性塑造了我们解决方案的整体架构。

从数据到决策：已知的未知

通常，我们对不确定性的模型来自数据。我们有一组观测数据，并希望建立一个模型来描述产生这些数据的过程。在这里，我们也面临一个根本性的选择。我们是假设不确定性遵循一个简单、熟悉的形式，比如经典的钟形正态分布吗？这是一种“参数化”方法。还是我们使用一种更灵活的“非参数化”方法，比如核密度估计，让数据自己勾勒出其潜在概率分布的、可能更奇特复杂的画像？这个选择很重要。当我们将这些不同的不确定性模型通过一个非线性系统进行传播——预测化学反应或金融资产的行为时——我们输入分布的尾部或形状的细微差异，可能会导致关于极端事件风险的截然不同的结论。

这引出了所有建模中最重要的区别之一：参数不确定性和结构不确定性之间的差异。可以把它想象成不确定地图上的数字和不确定你是否拥有正确地图之间的区别。

在公共政策和医学领域，这种区别变得尤为生动，因为在这些领域，模型被用来做出事关生死的决策。想象一下，建立一个模型来决定是否资助一项新的全国性疫苗接种计划。参数不确定性是我们对疫苗效力或治疗成本等输入值的知识不完善。我们可以通过运行模拟（“概率敏感性分析”）来处理这个问题，在模拟中让这些数值根据其估计的分布进行变化，从而得到一个可能结果的分布。但结构不确定性呢？我们可能对流感如何传播有两种相互竞争的理论：一种模型假设人们是均匀混合的，而另一种更复杂的模型则考虑了家庭内部的聚集。这是两种不同的模型结构， $M_1$ 和 $M_2$ 。事实证明，你相信哪个模型，可能会完全改变疫苗接种计划的预测结果。一个真正稳健的分析必须承认这一点。我们可以通过运行两种模型来进行“情景分析”，或者更好的是，进行贝叶斯模型平均，根据支持每个模型的证据量来加权其预测。承认结构不确定性可以揭示，一个在一组合理假设下看起来不错的政策，在另一组假设下可能看起来很糟糕，从而迫使人们提出更谨慎或更细致的建议。

窥探复杂系统的迷宫

系统越复杂，清晰地思考不确定性就越发重要。让我们来看几个科学前沿领域。

绘制大脑的线路图：神经科学家使用扩散磁共振成像（diffusion MRI）来追踪连接不同大脑区域的白质通路，这个过程称为纤维束成像（tractography）。大脑中每个点的数据都给出了一个关于纤维可能方向的模糊分布。我们如何在这片迷雾中追踪路径呢？“确定性”纤维束成像采用一种贪婪方法：在每一步，它都沿着最可能的一个方向前进。这就像试图在迷雾笼罩的景观中找到出路，总是选择眼前看起来最清晰的路径。你可能会找到一条路，但会错过任何岔路。“概率性”纤维束成像则相反，它拥抱不确定性。从一个起点开始，它发出数千个虚拟“探险家”，每个“探险家”都从潜在的方向概率分布中随机抽样一条路径。其结果不是一条单一的线，而是一张丰富的可能连接的密度图。这使得它能够绘制更复杂的结构，比如交叉纤维，但代价是可能生成解剖学上不合理的路径（假阳性）。算法的选择从根本上说就是如何处理模型不确定性的选择，它直接关系到在绘制大脑连接组（connectome）时灵敏度与特异性之间的权衡。

地球的化学与气候：在地球化学中，科学家建立模型来预测矿物在深地盐水中是溶解还是沉淀。预测依赖于一个基本的平衡常数 $K$ 和一个描述离子在浓盐溶液中如何相互作用的复杂“活度系数” $\gamma_i$ 模型。事实证明，虽然基本常数 $K$ 的不确定性很小，但对于高离子强度盐水，活度模型的不确定性可能巨大——大几个数量级。在这些条件下，我们对化学浓汤中复杂相互作用的无知完全主导了预测。这是一个很好的教训：不确定性分析告诉我们知识最薄弱的地方。它为未来的研究提供了有原则的指导，告诉我们不要浪费精力去精确化已经众所周知的常数 $K$ ，而应将实验重点放在更好地理解浓盐水的复杂物理特性上。

同样的原则也适用于行星尺度。在模拟地球气候以评估一项地球工程策略时，我们既面临参数不确定性（例如地球热容量或气候反馈参数的值），也面临巨大的结构不确定性（我们简单的能量平衡模型是否正确地捕捉了海洋热吸收？）。一种复杂的贝叶斯方法不仅仅是选择一个模型。它可能会考虑一系列相互竞争的模型，甚至包括一个特殊的“模型差异”项 $\delta(t)$ ，这是一种谦卑的承认，即我们的模型是不完整的，是试图对“错误”本身进行建模。在这些情况下，理性的决策要求最大化我们的期望效用，其中期望值是在所有这些不确定性来源——包括参数不确定性和结构不确定性——上平均得到的。任何忽视我们气候模型深刻的结构不确定性的政策选择，不仅是天真的，而且是不负责任的。

一个关乎智慧的问题

经过这一切，人们可能会感到绝望。如果一切都如此不确定，我们怎么能声称知道任何事情呢？但这恰恰是错误的结论。理解不确定性的目的不是为了让我们瘫痪，而是为了赋予我们做出更好、更诚实、更稳健决策的能力。

也许没有比在法庭上更清楚地体现这一点的了。在法医遗传学中，一个概率模型被用来计算一个似然比（Likelihood Ratio, LR）——一个数字，它表明如果嫌疑人是DNA来源，DNA证据出现的可能性，与如果是其他人是来源相比，要高出多少倍。这个数字可能非常巨大——数百万或数十亿。但这个单一的数字是脆弱的。它依赖于一系列假设：诸如等位基因脱落等参数，用于群体遗传学的结构模型，以及辩护方假设的确切表述（替代供体是一个无关的人，还是嫌疑人的兄弟？）。彻底的敏感性分析揭示了当这些假设变化时，似然比是如何变化的。在没有这种背景的情况下呈现一个单一的大数字是误导性的。而在不同合理情景下呈现结果的范围，才是诚实的科学。

归根结底，与模型不确定性作斗争，正是将科学从事实和方程的集合提升为明智判断框架的关键。它教会我们用一种细致入微的、概率性的理解所带来的谦逊和力量，来取代单一、确定性答案的傲慢。它使我们的模型不仅具有预测性，而且值得信赖。