
在我们探索理解世界的过程中,我们构建模型——即简化现实的数学故事。然而,每个模型都是一种近似,承认模型与真相之间的差距是良好科学的基础。这个差距就是不确定性的范畴,但并非所有不确定性都是生而平等的。一个关键但常被忽视的误差来源是模型结构不确定性:即我们模型的方程和假设本身就是错误的风险。本文将深入探讨这一深刻的挑战。第一章,原理与机制,将剖析不确定性的不同方面,区分结构不确定性与其“近亲”参数不确定性和偶然不确定性,并介绍如贝叶斯模型平均等强大的框架来管理它。随后,应用与跨学科联系一章将展示为何这一概念不仅是理论上的考量,而且是工程学、气候科学、公共卫生和政策等高风险领域的决定性因素。
构建世界模型是人类最宏伟、最富人性的事业之一。从 Newton 的发条宇宙到细胞中蛋白质的复杂舞蹈,我们用数学语言讲述故事,以理解宇宙以及我们在其中的位置。但每个故事都是一种简化,每幅地图都是一种抽象。真实世界无限复杂,而我们的知识永远不完整。承认模型与现实之间的这种差距并非失败的标志;它正是科学诚信的灵魂所在。这就是不确定性的世界,理解其不同形式是构建不仅具有预测性而且诚实的模型的第一步。
让我们从一个简单的思想实验开始。想象你拿到一枚硬币。如果让你预测下一次抛掷的结果,你知道正面或反面的概率是50-50。结果由几率决定。这就是偶然不确定性(aleatory uncertainty),源自拉丁语alea,意为“骰子”。它是世界固有的、不可约减的随机性。无论多少关于过去抛掷的数据,都无法让你确切地知道下一次的结果。现在,想象你被问到另一个问题:这枚硬币是公平的吗?它可能完全平衡,也可能被加权以至于60%的时间出现正面。你不知道。这就是认知不确定性(epistemic uncertainty),源自希腊语episteme,意为“知识”。它是一种源于知识缺乏的不确定性。
这一区别至关重要。偶然不确定性是系统本身的属性;认知不确定性是我们理解能力的属性。关键区别在于,认知不确定性原则上是可约减的。你可以将硬币抛掷一千次,如果它出现了大约600次正面,你就可以更有信心地认为硬币的真实偏差是0.6。你因知识缺乏而产生的不确定性被数据减少了。
同样的剧情在科学和工程的每个角落上演。当为患者血液中的药物浓度建模时,来自传感器的每次测量的微小波动代表了偶然噪声——物理世界中不可避免的抖动。但是,决定患者身体清除药物速度的独特代谢率,这个参数是一个固定的数值。在进行任何测量之前,我们对这个数值的不确定性纯粹是认知上的。通过观察药物浓度随时间的变化,我们可以了解这个速率,从而减少我们的无知。
让我们聚焦于认知不确定性——我们知识的缺乏。事实证明,这种无知本身有两种截然不同的类型。
首先是参数不确定性。这就像使用一个略微失焦的镜头拍照。我们确信相机对准了正确的对象,也使用了正确的镜头,但图像模糊是因为我们没有调好确切的设置。在建模中,这意味着我们相信模型的方程是正确的,但我们不知道这些方程中参数的精确值。对于我们的药物模型,我们可能确信浓度遵循指数衰减,,但我们不知道衰减率 的确切值。通过收集数据,我们可以“对焦镜头”,缩小 的合理取值范围。
但是,存在一种更深、更根本的不确定性。如果我们讲述的故事完全是错误的呢?这就是模型结构不确定性。这并非镜头失焦的问题;而是我们可能将相机对准了错误的东西,或者无论我们如何对焦,镜头都会产生扭曲的图像。这是模型本身的形式、结构和机制的不确定性。
想象一下,科学家们试图为心脏细胞建模。一个小组可能认为细胞膜上的某个特定钙通道基于简单的协同机制开放,从而导出一组方程。另一个小组可能主张一个更复杂的非协同机制,从而得到一组完全不同的方程。这种关于细胞基本“接线图”的分歧就是结构不确定性。同样,在为合成基因电路建模时,生物学家可能不知道某个特定的代谢物是主动抑制一个基因还是根本没有影响。这些不是微调参数的问题,而是关于系统物理学或生物学基本原理的问题。
如果我们忽视结构不确定性,固执地坚持一个单一模型,并相信它是唯一真实的故事,会发生什么?其后果不仅是学术性的,还可能是危险的。我们会陷入过度自信和系统性误差的陷阱。
考虑使用计算燃烧模型设计喷气发动机的挑战。这些模型必然是对真实火焰极其复杂的物理过程的简化。如果工程师选择一个简化模型而忽略所有其他模型,他们可能会试图通过强行使其参数与实验数据匹配来“校准”它。但这就像试图通过拉伸和挤压纽约市的地图来匹配伦敦的地理一样。结果是一张扭曲的地图。模型的参数被扭曲成不符合物理现实的数值,仅仅是为了补偿模型固有的结构性缺陷。
更糟糕的是,模型的预测将受到一种无形的系统性误差的困扰——工程师称之为模型差异(model discrepancy)。该模型可能会以极小的不确定性条来预测火焰速度,给人以高精度的假象。然而,真实的火焰速度可能远远超出这些条的范围,因为模型的基本故事是错误的。在一个安全至上的领域,这种未被承认的误差和错误的自信是灾难的根源。
那么我们该如何应对呢?我们无法知道世界的真实模型。但我们可以诚实地面对我们的无知。现代方法是通过考虑不是一个,而是一整套——或称集成(ensemble)——不同的貌似合理的模型来拥抱这种不确定性。
实现这一目标最优雅的方式是通过一个名为贝叶斯模型平均 (BMA) 的框架。可以把它想象成一种科学民主。我们不是押注于单个“候选”模型,而是让一整批模型相互竞争。我们向它们提供证据——我们的实验数据。然后,根据每个模型解释该证据的能力来对其进行评判。
一个能很好地解释数据的模型会获得较高的“后验概率”——它获得了可信度。一个无法解释数据的模型,其可信度会急剧下降。最终的预测不是由单个“获胜”模型做出的,而是我们集成中所有模型预测的加权平均。每个模型的预测都按其可信度分数进行加权。结果是一个单一的、复合的预测,它更稳健、更可靠,而且——最重要的是——更诚实地反映了我们知识的真实状态。它是由许多声音组成的合唱,其丰富性和和谐性讲述了一个比任何独奏都可能更完整的故事。
这种方法的真正美妙之处就在于此。数学为我们提供了一个极其强大的工具来剖析和量化我们的不确定性:全方差定律。可以把它想象成一个棱镜,能将一束白光——我们的总不确定性——分解成其组成颜色。
该定律告诉我们,预测的总方差可以分解为两部分:总方差 = (每个模型内部方差的平均值) + (各模型平均预测值之间的方差)
用数学符号表示,对于一个预测 和一个模型选择 ,这可以写成:
第一项,,代表了来自参数不确定性(以及任何偶然噪声)的贡献。它是在我们对模型结构有了最佳猜测之后,仍然存在于每个模型内部的平均“模糊性”或不确定性。
第二项,,是点睛之笔。它衡量了不同模型的平均预测彼此之间的差异程度。这一项是对模型结构不确定性的直接、定量的度量。我们简直可以为我们科学分歧的程度赋予一个数字!这使我们能够执行一种“不确定性预算”,从而识别出我们无知的最大来源。我们的预测不确定是因为我们的参数草率,还是因为我们对底层机制存在根本性分歧?这种分解告诉我们答案,引导未来的研究投向最需要它的地方,无论是在系统生物学模型 中,还是在跨越多个物理尺度的复杂能源系统模型 中。
最后,我们必须问:如果我们的无知更加深重呢?如果我们如此不确定,以至于连放入我们集成中的貌似合理的模型列表都无法达成一致,那该怎么办?
这就是深度不确定性(deep uncertainty)的领域。它出现在面临长期、不可预测未来的复杂系统中。考虑为未来一个世纪某一流域的命运建模。其结果不仅取决于不确定的水文模型,还取决于未来人类关于土地利用、经济发展和气候政策的选择。这些都不是我们可以轻易分配概率的事件。不同的利益相关者对未来将有根本不同的看法,导致问题的构建本身——即模型和未来情景的选择——都存在争议。
深度不确定性标志着我们预测能力的前沿。它是一个从“已知的未知”世界(我们可以用概率工具来管理)到“未知的未知”世界的过渡,在后一个世界中,我们必须承认我们的地图不仅不完整,甚至可能连正确的大陆都没有显示出来。这是一个谦逊的提醒:知识的追求是一段没有终点的旅程,是一个不断完善我们故事的过程,同时始终敬畏我们所不知道的浩瀚无垠。
我们花了一些时间欣赏我们数学模型中错综复杂的机械结构,学习它们的部件和原理。但车间里的机器是一回事,在世界上运转工作的机器又是另一回事。现在我们必须提出这个关键问题:结构不确定性这个概念到底在哪些地方重要?它仅仅是建模者的一个哲学注脚,还是具有实际影响力的?
事实证明,答案是:它无处不在。从涡轮叶片的设计到公共卫生的生死抉择,模型架构的选择——其基本假设和数学形式——常常是我们面临的最大且最具挑战性的不确定性来源。忽视它,就像仅凭一张可能有缺陷的地图在险恶的海洋中航行。拥抱它,则是迈向科学诚信和稳健决策的第一步。让我们踏上一段旅程,探索这一概念在某些领域中不仅是学术上的好奇心,更是行动的指导原则。
工程师是实用主义者。他们建造能用的东西。在现代,大部分建造工作首先在计算机内部完成。考虑预测飞机机翼上或喷气发动机内空气流动的挑战。其控制方程,即著名的 Navier-Stokes 方程,是已知的。但它们异常复杂。为真实世界的设计精确求解这些方程在计算上是不可能的。因此,工程师们必须采取近似方法。他们创建简化模型,如雷诺平均 Navier–Stokes (RANS) 模型,来捕捉湍流的平均行为。
但问题在于:执行这种平均的方法有很多种。每种不同的方法都会导致模型的函数形式不同,即结构不同。一个模型可能非常适合预测光滑机翼上的流动,但在燃烧室内的混沌流动中却会惨败。这就是结构不确定性的本质。它与参数不确定性完全不同,后者是我们对某个选定模型中特定数值系数(比如 )的无知。即使一个物理学家团队能给我们某个 RANS 模型所有参数的精确值,我们仍然会面临一个根本的不确定性:这个模型的形式对于我们的特定问题是否足够?最优秀的工程师知道,他们模型的预测与现实之间的差异,通常不是来自调校不当的旋钮(参数),而是来自缺少关键物理部分的蓝图(结构)。
同样的故事在探索新材料的过程中也在上演。想象一下为航天器设计一种未来的高熵合金。科学家们使用“相场”模型来模拟不同金属的熔融混合物如何冷却并凝固成微观结构。这些模型建立在自由能泛函之上,这是一种描述系统趋向于形成不同模式的数学表达式。但是,这种能量的“正确”函数形式是什么?它是否应该包含弹性应力项?系数是否应取决于局部化学成分?这些都是结构性选择。
在这里,我们必须小心区分结构不确定性与另一个冒名顶替者:数值不确定性。数值不确定性是我们的计算机将连续方程切分成离散的小块时引入的误差。我们可以通过使用更精细的网格或更小的时间步长来减小这种误差。在一个思想实验中,我们可以想象将网格尺寸 和时间步长 减小到零。在这个极限下,我们消除了数值不确定性,得到了我们所选方程的完美解。但我们并未达到现实!我们只是得到了我们所选模型的纯粹、未经篡改的预测。那个“完美”模型解与真实世界实验之间剩下的差距就是结构不确定性。这是一个严酷的提醒:即使是无限强大的计算机也无法纠正底层理论中的缺陷。
当我们从工程部件放大到地球的尺度,结构不确定性的风险急剧增加。考虑每日天气预报。当你看到显示飓风潜在路径的“意面图”(spaghetti plot)时,你正在目睹结构不确定性的可视化。这些预报是由模型的集成生成的。这不仅仅是每个模型运行都从略有不同的初始条件开始(著名的“蝴蝶效应”)。关键在于,该集成通常包含由世界各地气象中心开发的基本不同的模型——一个模型可能与另一个模型以不同的方式表示云的形成,或者以独特的方式处理与海洋的热交换。
这凸显了两种不确定性之间的深刻区别。一种是来自我们知识缺乏的不确定性,原则上我们可以通过更多数据或更好的理论来减少它。这被称为认知不确定性(epistemic uncertainty),它包括我们对正确初始条件、正确参数值以及——对我们的讨论最重要的是——真实模型结构的不确定性。但还有一种系统中固有的、不可约减的随机性,就像产生龙卷风的不可预测的阵风。这就是偶然不确定性(aleatoric uncertainty)。现代集成预报是一种复杂的尝试,旨在同时捕捉两者:由初始条件和模型结构引起的离散度(认知),以及由代表未解析的随机过程的随机物理方案引起的离散度(偶然)。
在预测野火蔓延方面,弄错模型结构所带来的后果没有比这更可怕的了。要预测火灾的路径,我们必须对燃烧、热传递和风相互作用等过程进行建模。我们应该将火灾建模为在离散网格上从一个单元格蔓延到另一个单元格吗?还是应该将其建模为一个连续移动的前锋?我们的模型是否应该包含一个独立的子模型,用于描述燃烧的余烬如何被风带到主火场前方很远的地方引发新的火灾?这些都是关键的结构性选择。一个省略了强大余烬 spotting 机制的模型,可能会危险地低估火灾跳过高速公路或河流的速度。面对如此高的风险,依赖单一模型是鲁莽的。像贝叶斯模型平均 (BMA) 这样的先进策略提供了一种严谨的方法来组合多个模型的预测,根据每个模型过去的表现对其进行加权。这是一种谦逊的行为,能产生更诚实、更可靠的预测。
这个主题——结构不确定性可能主导一切——是环境科学中一个反复出现的教训。想象一下,试图预测一个地区 50 年后将有多少耕地。这取决于经济、人口增长和政策。建模者使用元胞自动机或基于主体的模型等框架来模拟这些复杂的动态。在一个有说服力的(尽管是假设的)数值研究中,人们可能会发现,由两种不同模型结构的选择所导致的预测耕地面积的方差是巨大的。例如,结构不确定性可能贡献了 (以某种单位计)的方差,而所有其他来源的不确定性总和——输入数据、经济驱动因素和模型参数的不确定性——贡献的还不到其一半。我们无知的最大来源不在于细节,而在于我们模型的宏伟设计。这对从土地利用到地球工程潜在影响等一切事物的建模都具有深远的影响,在这些领域,我们的模型是我们通往不确定和危险未来的唯一指南。
我们的旅程终结于模型后果最个人化的地方:关乎健康、政策和人类生命的事务。
当一种新的、昂贵的抗癌药物被开发出来时,政府和保险公司必须决定是否为其付费。这就是卫生技术评估领域。经济学家建立模型来预测新疗法的长期成本和效益(以质量调整生命年,即 QALYs 来衡量)。一种常见的方法是队列马尔可夫模型,它将患者的病程简化为在一系列健康状态之间的转换:“稳定”、“进展”、“死亡”。该模型的一个关键结构性假设是它是“无记忆的”——转换到新状态的概率仅取决于当前状态,而不取决于过去的历史。
但现实并非如此简单。患者未来事件的风险可能严重依赖于其病史。另一种模型,即患者层面微观模拟,可以捕捉这种复杂性。它模拟数千个独特的、个体化的患者轨迹,允许存在依赖于历史的风险、因副作用而中断治疗以及更现实的生命路径。这两种类型的模型代表了不同的结构选择。一个惊人的例子表明,它们可能导致完全相反的结论。对于一个假设的检测-治疗策略,较简单的模型可能预测出正的净货币效益,建议我们采纳新技术。而更复杂的模型,使用完全相同的基础数据,可能预测出负的净货币效益,建议我们拒绝它。患者能否获得新药的决定,实际上取决于所假定的模型结构。决策者该怎么办?理性的前进道路不是选择一个模型然后祈祷它是正确的。而是在所有模型中平均预期结果,并根据每个模型的可信度进行加权。这就是 BMA 的实际应用,它提供了一个单一的、有原则的建议,并考虑到了我们的结构不确定性 [@problem_body:4586525]。
同样的逻辑在最近的大流行期间被推向了世界舞台。为了就封锁、口罩强制令和疫苗接种运动做出决策,领导者们依赖于流行病学模型。但是用哪个模型呢?一个简单的 SIR(易感-感染-移除)模型,还是一个更细致的 SEIR 模型,后者在个体变得具有传染性之前包含一个潜伏的“暴露”期?这是一个根本性的结构选择,它会极大地改变预测的疫情爆发速度和规模。基于错误模型结构选择政策,可能导致毁灭性的不作为,也可能导致代价高昂且不必要的过度反应。
在这里,决策论为我们提供了强大的工具。我们不只是选择在某个模型下看起来最好的政策,而是可以分析哪个政策在所有貌似合理的模型中最为稳健。其中一个工具是“最小最大后悔值”(minimax regret)。对于每个可能的未来(模型结构和参数值的组合),我们可以为每个政策计算“后悔值”——即其结果与该特定未来的最佳可能政策结果之间的差异。然后我们选择那个能最小化最坏情况(即最大)后悔值的政策。这是一种增强韧性的策略。在一项分析中,一项激进的干预措施可能脱颖而出,不是因为它在每种情景下都是最优的,而是因为它是唯一能可靠地防止灾难性后果的政策,从而最小化我们可能的最大后悔值。这是一个承认我们所不知,并为我们准备应对更广泛未来的选择。
从最小的湍流涡旋到大流行病的宏大席卷,机器中的幽灵往往是机器本身的结构。认识到它的存在不是科学的失败,而是科学的胜利。这是一种智慧,即知道每个模型都是现实的漫画式描绘,而最深刻的见解并非来自爱上某一张漫画,而是来自比较多张漫画。