模型形式不确定性

玻尔百科

定义

模型形式不确定性是指由于模型的基本假设和数学结构而产生的一种认知不确定性，这会导致仅靠参数调整无法修复的系统误差。这种不确定性涉及到等效性现象，即多个结构不同的模型可能产生相似的输出，使得确定最佳模型变得困难。在工程安全和气候变化预测等领域，科学家通常通过模型平均和集合预报等策略来评估并管理这种结构性不确定性。

核心要点

模型形式不确定性源于模型的基础假设和数学结构，它会产生系统性误差，而这些误差无法仅通过调整参数来修正。
这种不确定性是认知性的，意味着它源于知识的缺乏，并且与偶然不确定性（系统中固有的随机性）不同。
等效终局性现象解释了为何多个结构迥异的模型可以产生相似的输出，这使得从数据中识别出唯一的“最佳”模型变得困难。
科学家们采用模型平均和集成预报等策略来管理结构不确定性，这些策略结合了多个合理模型的见解，以产生更稳健的结果。
在工程安全、医疗政策和气候变化预测等高风险领域，承认并量化模型形式不确定性对于做出负责任的决策至关重要。

引言

“所有模型都是错的，但有些是有用的”这句著名的格言，揭示了科学中的一个基本真理：模型是有目的的简化，而非现实的完美复制品。我们的表征与其所描述的复杂世界之间固有的差距，是不确定性的一个主要来源。虽然科学家们擅长处理来自随机噪声或不精确测量的不确定性，但一个更深层次的挑战源于模型本身的设计。我们该如何考量我们所选择的基本方程和假设——即模型的“形式”——本身可能不足以描述系统这一可能性？

本文直面这一关键的知识鸿沟，深入探讨模型形式不确定性的概念。它将解释其含义、重要性以及管理方法。通过两个全面的章节，您将对这个普遍存在的问题获得深刻的理解。第一章“原则与机制”将阐释模型形式不确定性的理论基础，将其与其他类型的不确定性区分开来，并探讨其带来的挑战。随后的“应用与跨学科联系”一章将展示这种不确定性在工程、医学、气候科学和人工智能等不同领域的实际后果和管理策略。通过探索这一领域，我们可以从仅仅构建模型，转变为理解其局限性，从而引向更诚实、更稳健的科学。

原则与机制

著名统计学家 George Box 曾明智地指出：“所有模型都是错的，但有些是有用的。” 这句话并非对科学的愤世嫉俗的嘲讽，而是科学事业的核心所在。模型是一种简化，一种对现实的描摹，旨在捕捉世界的某些本质方面，而忽略其他方面。街道地图是城市的模型；它对导航非常有用，但对城市的建筑、文化或其中发生的对话却只字不提。地图不是疆域。两者之间的差距——我们简化的表征与现实完整而辉煌的复杂性之间不可避免的差异——正是我们开始理解模型不确定性之旅的起点。

“错误”的剖析：解构模型假设

当模型的预测与现实不符时，我们的第一反应可能是归咎于错误的数据或简单的计算失误。但通常，差异的来源要根本得多。它深埋于模型的基础之中：它的假设。这些假设的选择定义了模型的数学“形式”或“结构”，而由这些选择产生的不确定性就是我们所说的模型形式不确定性，或称结构不确定性。

考虑一个来自工程学的经典简单例子：预测一根悬臂梁在荷载作用下的弯曲程度。一个历史悠久的模型，即欧拉-伯努利梁理论，给出了一个直接的公式。该模型建立在一个关键假设之上：梁是细长的，因此其主要变形方式是弯曲，而横向剪切（一种内部滑动）的影响可以忽略不计。对于一根细长的鱼竿来说，这个假设非常出色，模型的预测也相当准确。

但是，如果我们将同一个模型应用于门楣上一根短粗的混凝土过梁呢？在这里，剪切变形就不能再忽略了。一个更精细的三维模拟（一个更复杂的模型）将始终预测出比简单的欧拉-伯努利理论更大的挠度。我们可以尝试通过调整其参数（如材料的刚度）来“修复”这个简单模型。但我们会发现，适用于一种梁长的参数值，在另一种梁长上则会失效。问题不在于参数，而在于模型的基因之中。该模型在结构上是不充分的，因为它的核心假设——无剪切——被违背了。这种无法通过参数调整或更精确计算来修正的持续性、系统性误差，正是模型形式不确定性的标志。

这并非工程学所独有。在流体动力学中，当我们模拟湍流时，我们会对控制方程进行平均化处理，这会引入一些项，代表了因太小而无法直接模拟的混沌涡流的影响。为了使方程可解，我们必须引入一个闭合模型——一个关于这些湍流效应如何表现的假设。不同的假设导致不同的闭合模型，例如 $k$ - $\epsilon$ 模型或 SST $k$ - $\omega$ 模型。在这些模型之间的选择就是模型形式的选择，它在许多模拟中是不确定性的主要来源。同样，一个模拟基因网络的生物学家必须决定包含哪些反应。一个蛋白质是否能够与自身结合发生二聚化反应？这个简单的“是/否”选择创造了两种截然不同的模型结构。

不确定性现场指南：已知的未知

为了驾驭这一领域，拥有一份不确定性本身的地图会有所帮助。我们可以将不确定性大致分为两个哲学类别，这一区分对于知道如何处理它至关重要。

首先是偶然不确定性 (aleatory uncertainty)。这是抛硬币或掷骰子的不确定性。它代表了系统中固有的、不可简化的随机性和变异性。例如，在一群心脏病患者中，由于自然的生物异质性，他们心肌细胞中特定离子通道的最大电导会因人而异。在制造业中，从装配线下线的任意两个电池单元都不会完全相同；它们的阴极厚度会有一些微小的随机变化。我们可以用概率分布来描述这种变异性——我们可以了解骰子的情况——但我们无法预测任何单次投掷的结果。这是“本体论”上的不确定性；它是现实本身的一个特征。

其次是认知不确定性 (epistemic uncertainty)。这是源于无知的不确定性。它代表了我们知识的缺乏——一层原则上可以通过更多数据、更好的实验或更深的理论来揭开的迷雾。这是“认识论”上的不确定性；它是我们知识状态的一个特征。

模型形式不确定性完全属于认知不确定性的范畴。我们不确定在梁模型中是否应包含剪切变形，或应使用哪种湍流闭合模型，这是因为我们对特定情况下的“完美”控制方程组缺乏完全的知识。参数不确定性也是如此，它是对模型参数值（例如，材料刚度或化学反应速率的精确值）的认知不确定性。

我们可以用一个简单的概念方程来总结这一点： $\text{观测值} = \text{真实过程} + \text{随机噪声}$ 我们用我们的模型来近似真实过程： $\text{真实过程} = \text{我们的模型}(\text{参数}) + \text{模型差异}$ 整合起来： $\text{观测值} = \text{我们的模型}(\text{参数}) + \text{模型差异} + \text{随机噪声}$ 在这里，“随机噪声”项代表偶然不确定性。“参数”中的不确定性是参数性认知不确定性。而“模型差异”项——即便是我们模型最好的版本所能预测的与现实实际情况之间的差异——就是结构性认知不确定性。这是我们的地图所遗漏的部分。

机器中的幽灵：为何不同模型看起来可以一样

如果一个模型的结构是错误的，为什么我们的观测结果不会立即揭示出来？这就引出了一个微妙而深刻的概念：等效终局性 (equifinality)，即多个不同的模型结构或参数集，在我们的数据限制下，可以产生统计上难以区分的输出的现象。

想象一下，我们正在模拟水流通过一个地貌（一个集水区）。我们提出了两种不同的概念模型。模型1是一个带有单个出口的大型水库。模型2是一个由两个串联水库组成的系统，第一个水库的水排入第二个，第二个再排出。我们能否仅通过每天测量一次最终的出水量来区分这两个系统？

事实证明，我们可能无法做到。让我们从水库响应速度的角度来思考。单个水库有一个特征响应时间。双水库系统有两个。如果第一个水库非常小且出口很宽，它可能会在几分钟或几小时内迅速注满和排空，以至于它的动态对于我们每天一次的测量来说是模糊不清的。从我们缓慢的每日采样角度看，这个超快的第一个水库实际上是不可见的。双水库系统的输出将看起来与单个较慢水库的输出几乎完全相同。

这两个结构上不同的模型变得等效终局了。我们收集的数据根本不足以分辨它们之间的差异。我们的观测过程就像一个过滤器，遮蔽了系统内部工作更快、更精细的细节。这是一个令人谦卑的认识：真相可能更为复杂，但我们观察世界的窗口可能太小，无法看到它。

拥抱未知：驾驭结构不确定性的策略

那么，如果我们的模型有缺陷，数据又可能具有误导性，科学该如何进步？我们不能被这种不确定性所麻痹；相反，我们已经发展出复杂的策略来管理和解释它。

其中一个最强大的思想是，停止寻找唯一的“真实”模型，转而拥抱多个合理模型的多样性。这便引出了模型平均 (model averaging) 的策略。

考虑一个公共卫生机构试图估算通过减少空气污染可以挽救的生命数量。研究人员已经开发了几种不同的暴露-反应函数（ERF）——即不同的模型形式——来关联 $\text{PM}_{2.5}$ 污染与死亡风险。一种可能是简单的线性关系，另一种可能是在高剂量时趋于平缓的曲线（二次或样条模型）。每种模型都可能得到现有流行病学数据的支持。哪一种是正确的？我们无法确定。

与其选择一个而忽略其他，我们可以做出一个组合预测。我们可以根据每个模型与现有证据的拟合优度为其分配一个“权重”——一种常用的方法是使用称为赤池信息准则（AIC）的统计指标。然后，我们从每个模型中计算出预测的挽救生命数量，并计算加权平均值。最终的估计不再依赖于单一的结构假设集，而是代表了跨越一系列合理模型结构的证据综合。这提供了一个更诚实、更稳健的评估，明确地包含了我们的结构不确定性。

在宏观尺度上，这正是气候科学领域正在发生的事情。耦合模型比对计划（CMIP）汇集了世界各地研究团队独立开发的数十个气候模型。每个模型都代表了一套关于如何表征云、海洋、冰和其他地球系统复杂组成部分的不同假设。这个“机会集合”是我们衡量气候预测中结构不确定性的最强大工具。当你看到一系列未来变暖的情景时，这个范围不仅仅是一个统计上的偶然；它很大一部分反映了关于构建我们星球模型的最佳方式的真实科学不确定性。这种多模型方法得到以下补充：

扰动物理集成，它采用单个模型，并使用不同的参数值多次运行，以探索参数不确定性。
初始条件集成，它采用具有固定参数的单个模型，并以略微不同的起点多次运行，以量化系统的混沌内禀变率（偶然不确定性）。

最后，对于喜欢数学冒险的人来说，还有一种策略是明确地将模型的不足之处形式化。正如我们之前看到的，我们可以写出 $\text{现实} = \text{模型} + \text{差异}$ 。建模者不仅仅是承认差异项的存在，而是可以将其视为一个待从数据中学习的未知函数，通常使用像高斯过程这样的灵活统计工具。这就像在说：“我将从我的基于物理的模型开始，但我会让数据教会我一个结构化的修正项，以解释我可能遗漏的物理过程。”

最终，承认模型形式不确定性不是弱点，而是科学方法的深层优势。它宣告了我们意识到自己知识的局限。它迫使我们质疑我们的假设，去寻找能够挑战我们模型的新数据，并开发出不仅提供单一答案，而且能诚实评估已知、可能和仍处于发现前沿的工具。这就是地图如何缓慢但坚定地接近疆域的方式。

应用与跨学科联系

在我们迄今的旅程中，我们已经深入探讨了我们模型的原则和机制，从内部了解了它的工作原理。但是，一个模型，无论多么优雅，其价值终究在于它与世界的联系。现在，我们将走出纯粹的理论领域，进入现实世界这个纷繁复杂而又引人入胜的竞技场。当我们精心构建的模型与真实世界相遇时会发生什么？当我们怀疑模型的基本蓝图本身可能有缺陷时，我们该怎么办？这就是模型形式不确定性带来的挑战，这个概念并非无足轻重的技术细节，而是一个深刻且实际的问题，触及现代科学与工程的几乎所有领域。

对参数不确定是一回事，比如说，钟摆的精确长度。我们可以再次测量，改进我们的估计，从而减少不确定性。这是参数不确定性。但对时钟的机制应基于钟摆还是螺旋弹簧感到不确定，则是另一回事。这是结构不确定性。如果真实的设计是使用弹簧，那么再多的钟摆测量也无济于事。科学的艺术不仅在于调整我们的模型，还在于知道何时该质疑设计本身。

两种不确定性的故事：偶然与无知

为了驾驭这一领域，我们必须首先学会使用不确定性的语言。科学家们对两种基本类型的不确定性做出了关键区分。

首先是偶然不确定性（aleatory uncertainty），其词根来自拉丁语中的骰子 alea。这是世界固有的随机性，如同掷骰子一样，无论我们知道多少，都无法确切预测。想象一下人群中人与人之间行走速度的自然变异。或者考虑天气的混沌特性；即便有一个假想中的完美模型，一只蝴蝶翅膀最微小、无法测量的扇动，也可能导致数周后风暴路径的改变。这种不确定性并非我们无知的结果；它是系统本身的特性。我们可以描述它，用概率来刻画它，但我们永远无法消除它。

其次是认知不确定性（epistemic uncertainty），其词根来自希腊语中的知识 episteme。这是源于我们自身知识匮乏的不确定性。原则上，它是可以减少的。如果我们不确定一个物理常数，我们可以进行更好的实验。如果我们的数据集很小，我们可以收集更多数据。对我们的故事最重要的是，如果我们不确定描述一个系统的正确数学定律或结构，我们所面临的就是认知不确定性。气候模型中方程的选择，电池模拟中定律的假定函数形式，药物代谢模型中隔室的数量——所有这些都是我们基于不完整知识做出的选择。因此，模型形式不确定性是认知不确定性的一个主要组成部分，并且常常是起主导作用的。

这两种不确定性是如何结合的？概率论中的一个优美思想——全方差定律——给了我们一个直观的图景。它告诉我们，我们预测中的总“摆动”或方差，可以看作是两部分之和：我们每个合理模型结构内部偶然摆动的平均值，加上不同结构平均预测之间的额外摆动。这一优雅的原则为理解不确定性如何传播提供了一个统一的框架，它是一条贯穿我们接下来将要探讨的各种应用的共同主线。

为构建稳健世界而工程

在工程领域，失败是不可接受的选项。桥梁必须屹立不倒，电池绝不能爆炸，发动机必须清洁。在这里，承认模型形式不确定性是构建安全可靠技术的基石。

思考一下设计下一代锂离子电池的挑战。一个关键部件是允让许离子流动的多孔隔膜。如果流动受阻过多，电池可能会过热并失效。工程师们通过建立模拟来进行预测。他们知道材料的孔隙率（空隙空间的数量）会有所变化，这是一种参数不确定性。但存在一个更深层次的不确定性：将孔隙率与“曲折度”（即离子必须行进的蜿蜒路径）联系起来的正确数学定律是什么？存在几种貌似合理的方程，即模型结构。一个稳健的设计不能基于最乐观的模型。相反，工程师必须进行最坏情况分析，将最悲观的参数值与最悲观的模型结构相结合，以确保电池在所有可能的情况下都保持安全。

同样的原则也适用于复杂的模拟，比如那些用于设计更清洁、更高效的喷气发动机或发电厂的模拟。这些模拟必须对烟尘的形成进行建模，这是一个涉及数十亿微小颗粒的复杂过程。为了使计算可行，必须将完整的物理过程简化为降阶模型。简化方案的选择——无论是将颗粒分组到不同尺寸箱中的“分段法”，还是追踪平均属性的“矩法”——都是一个深刻的结构性选择。一个模型可能在预测烟尘总质量方面表现出色，但在预测稀有的大颗粒数量方面却很糟糕，而后者可能对辐射传热最为重要。依赖单一模型结构的工程师可能会对关键的失效模式视而不见。这些不同但合理的模型之间的分歧，直接衡量了我们的结构不确定性。

健康与医疗：关乎生命、金钱和政策的决策

在健康与医疗领域，模型不确定性的风险无处其高，因为决策不仅影响金钱，更关乎人的生命。

想象一下你是一位药理学家，正在为一种新药确定正确的剂量。你的模型必须描述药物在体内的处理过程（药代动力学）以及它如何产生效果（药效学）。一个简单的模型可能假设药物处于一个单一、混合良好的“隔室”（血液）中。一个更复杂的模型可能会包含代表身体组织的第二个隔室。这是一个结构性选择。这两种模型可以预测出随时间变化的截然不同的浓度曲线，从而导致不同的给药频率建议。为了负责任，研究人员会进行“情景分析”，用一系列合理的模型结构来检验他们的建议，以确保其稳健性。

让我们把赌注提高。一种以患者基因图谱为指导的开创性癌症新疗法显示出前景。但它极其昂贵。它值得吗？卫生经济学家建立模型来预测长期的效益（以质量调整生命年或QALYs计）和成本。但是，如何从一个为期两年的临床试验来预测二十年后的生存状况？一种模型结构可能使用简单的曲线拟合，而另一种可能明确包含一个“治愈分数”，假设部分患者将被永久治愈。这两种合理的结构可能导致截然不同的结论。一种可能表明该药是一项突破，能挽救多年的生命，并且极具成本效益。另一种则可能表明其效益有限，不值其高昂的价格。面对这种结构不确定性，决策者不能简单地选择他们喜欢的模型。一种严谨的方法，如贝叶斯模型平均，会结合两种模型的预测，并根据支持每种模型的证据量对其进行加权，从而得出一个单一的、考虑了不确定性的决策。

再将视野扩大到公共卫生层面，一个机构必须决定是否资助一项新的全国性高血压筛查项目。这样一个项目的有效性关键取决于人类行为——患者会坚持服药吗？一个模型可能假设一个恒定的依从率。一个更复杂，也许更现实的模型，则可能假设依从性取决于患者的健康状况。同样，这个结构性选择可以颠覆最终的建议。这凸显了一个关键概念：决策不确定性。即使在对我们所有的模型和参数进行平均之后，我们所选择的政策实际上并非最佳选择的可能性依然存在。承认这一点并非软弱的标志，而是科学诚信的体现，它指导着我们是立即采取行动，还是首先投资于研究以减少我们的不确定性。

这整个过程在监管科学中被形式化。当一家公司提交一种新的医疗设备（如护膝）以供FDA批准时，它必须提供其有效性的证据。这通常涉及肌肉骨骼模拟。该公司不仅要证明其设备“平均而言”有效，还必须考虑到所有不确定性的来源。他们必须将患者变异性的不可简化的偶然不确定性，与他们模拟中的认知不确定性分离开来，后者包括参数、数值求解器以及至关重要的模型形式本身的不确定性。

为我们的星球建模：从野火到全球气候

当我们试图为地球这个巨大而复杂的系统建模时，模型形式不确定性的挑战显得尤为突出。

预测野火的路径和强度事关生死。火灾行为模型是结合了物理学、气象学和生态学的复杂构造。但是，我们用来表示火如何在景观中蔓延、余烬如何被风吹起、以及燃料湿度如何影响燃烧的方程，都受到结构不确定性的影响。世界各地不同的建模团队使用不同的结构假设，他们的模拟器可以对同一场火灾产生不同的预报。通过运行这些不同模型的“集成”，预报员可以了解结构不确定性的大小，并为应急响应人员提供一系列可能的情景，而不是一个单一的、看似精确的预测。

这把我们带到了或许是我们这个时代最重大的科学挑战：预测地球气候的未来。政府间气候变化专门委员会（IPCC）的预测著名地展示了未来可能变暖的“范围”或区间。这个范围来自三个来源：未来人类排放的不确定性、气候系统混沌内禀变率带来的偶然不确定性，以及模型本身的认知不确定性。这种认知不确定性的一个巨大组成部分是结构性的。虽然所有全球气候模型都基于基本的物理定律，但它们在表征那些太小或太复杂而无法直接模拟的过程（如云的形成、海洋涡流和植被动态）时，其结构选择各不相同。世界领先气候模型之间的分歧，是对我们模型形式不确定性的直接而诚实的量化。正是通过研究这种分歧，科学家们才对其预测建立了信心，并确定了需要更多研究的关键领域。

新前沿：人工智能时代的诚实

人们可能会认为，大数据和人工智能的时代将终结模型的不确定性。如果我们能构建一个基于数百万数据点训练的机器学习模型，它难道没有学到“真实”的结构吗？现实更为微妙和引人入胜。

考虑一个为根据患者电子健康记录预测其钾水平而构建的顶尖人工智能模型——这是一项关系生死的任务。我们可以使用一种名为保形预测的巧妙技术，让这个“黑箱”模型产生具有数学上保证的平均覆盖率的预测区间。我们似乎已经驯服了不确定性。但一个关键的测试揭示了这种幻象。该模型是在医院A的数据上训练的。当它被部署到医院B的患者身上时，对于该子群体，预测区间灾难性地未能提供所承诺的覆盖率。

发生了什么？该模型并未学习到真实的、潜在的生物学过程。它学习了医院A数据中存在的统计特性和模式。医院B的患者群体、数据收集实践，甚至实验室设备都不同，从而造成了“分布偏移”。当模型面对这一新现实时，其失败揭示了一个深层的结构性错配。它的蓝图不是关于人类生理学的一般问题，而是关于“作为医院A的病人”这一特定问题。这教给我们一个至关重要的教训：即使使用最强大的“模型无关”技术，模型形式不确定性的幽灵依然存在。它以泛化失败的形式重新出现，这是一个我们必须诊断和解决的关键漏洞，以便构建不仅强大而且值得信赖的人工智能。

结论：一门谦逊而诚实的科学

从电池中离子的微观舞蹈到地球大气的宏大环流，模型形式不确定性是一个普遍的主题。它是我们科学征途上一个永恒的伴侣。忽视它，就是生活在一个充满虚假信心的世界里，冒着设计缺陷、政策失误和预测不可靠的风险。

然而，直面它，则是实践一种更成熟、更诚实，并最终更有效的科学形式。它迫使我们同时考虑多种假设，根据证据对它们进行权衡，并做出对我们自身的无知具有稳健性的决策。它提醒我们，我们的模型并非现实的完美镜子，而是思维的工具——是一张地图，而疆域永远比我们能绘制的任何地图都更丰富、更复杂。科学的追求不在于找到那个唯一的、真实模型，而在于明智地在众多合理的模型空间中航行。