try ai
科普
编辑
分享
反馈
  • 模型形式不确定性

模型形式不确定性

SciencePedia玻尔百科
核心要点
  • 模型形式不确定性是源于模型简化假设的误差,代表了模型结构与现实之间的根本性错配。
  • 它是一种认知不确定性(基于知识),与偶然不确定性(随机)不同,原则上可以通过更好的模型来减小。
  • 当模型在其原始数据范围之外进行外推时无法做出准确预测,是模型形式不确定性的一个关键指标。
  • 管理这种不确定性的策略包括在方程中明确添加一个差异项,或使用多模型方法(如贝叶斯模型平均法)来量化结构性分歧。
  • 承认模型形式不确定性使决策从寻求最优解转向寻找在多种可能情景下都表现良好的稳健解。

引言

所有科学模型都是对复杂世界的简化,如同地图一样,凸显了重要的关系,而忽略了其他关系。在这种简化行为中,模型规则与现实世界的完整复杂性之间便产生了一种根本性的不匹配。这种差异被称为​​模型形式不确定性​​——它如同“机器中的幽灵”,并非计算或测量中的错误,而是模型本身结构的不确定性。本文旨在探讨如何识别、量化和管理这种深层的不确定性,因为它可能导致灾难性的预测失败,尤其是在涉足新的、未观测到的条件时。

在接下来的章节中,您将踏上一段理解这一难以捉摸概念的旅程。首先,在“原理与机制”部分,我们将剖析模型形式不确定性的本质,将其与其他类型的误差区分开来,并探讨识别和控制它的策略。随后,“应用与跨学科联系”部分将展示这种不确定性在物理学、工程学、生态学和合成生物学等不同领域中的表现,并揭示科学家们在面对它时为做出稳健决策所使用的复杂方法。

原理与机制

所有科学都是对真理的探索,但我们只能通过模型的透镜窥见真理。模型,就像地图一样,是对复杂现实的简化。一张完美详尽、与世界1:1复制的地图,将是世界本身——同样难以使用。地图以及科学模型的力量在于它所省略的内容。它抽象、简化并凸显我们认为最重要的关系。但就在这种简化行为中,一个幽灵诞生了:模型简化的规则与现实世界完整而混乱的复杂性之间的不匹配。这个幽灵就是我们所说的​​模型形式不确定性​​。它不是我们计算中的错误,也不是我们测量中的不确定性;它是模型本身形式的不确定性。

地图并非疆域

想象一位生态学家正在绘制一种稀有高山花卉的栖息地图。他们建立了一个精美的模型,将花卉的已知位置与温度、土壤湿度等环境因素关联起来。这个模型就是该物种“生态位”的地图。如果他们用这张地图来预测附近一个未经调查、条件相似的山谷中是否可能生长这种花,他们就是在进行​​内插​​——在地图的已知边界内进行预测。当然,预测会有一些不确定性,但相对来说是安全的。

现在,考虑一个更具挑战性的任务:预测在50年后一种全新的气候下,温度比该花卉目前经历的任何温度都要高,它可能会在哪里生存。这是​​外推​​——在地图的已知边界之外进行预测。在这里,我们面临着更深层、更根本的不确定性。我们的模型从花卉当前家园——其​​已实现的生态位​​——学到的统计规则可能不再适用。也许这种植物有一个严格的生理极限,一个在当前凉爽环境中从未经受考验的耐热极限。在这个新的、更热的世界里,一个全新的限制因素可能会出现。这张地图,无论绘制得多么优雅,都是为另一个世界制作的,其规则在这个新领域可能完全失效。模型的基本假设在新背景下的这种失效,正是模型形式不确定性的本质。

两种无知:偶然不确定性与认知不确定性

要真正掌握模型形式不确定性,我们必须首先学会区分两种基本的“不知情”。科学家们发现将不确定性分为两种类型非常有用。

首先是​​偶然不确定性​​(aleatoric uncertainty),源自拉丁语 alea,意为骰子。这是世界固有的、不可简化的随机性。想象一下风洞中的混沌波动;即使拥有完美的流体动力学模型,我们也永远无法预测每个瞬间每个涡流的确切速度。这种“掷骰子”般的不确定性是现实本身的一个特征。我们可以用概率来描述它,但无法消除它。

其次是​​认知不确定性​​(epistemic uncertainty),源自希腊语 episteme,意为知识。这是源于我们自身知识匮乏的不确定性。我们的测量可能不精确,我们的理论可能不完整,或者我们的模型可能是更复杂现实的简化近似。原则上,这种不确定性是可以减少的。通过更多的数据、更好的实验或更深入的理论,我们可以减少我们的无知。

模型形式不确定性是一种深刻而富有挑战性的认知不确定性。它是我们对支配一个系统的“真实”规律的无知。当我们使用雷诺平均纳维-斯托克斯(RANS)模型来模拟湍流时,我们知道我们使用的封闭模型是对真实湍流物理的近似。当我们使用 Drucker-Prager 塑性定律来模拟土壤行为时,我们知道这是对颗粒材料复杂行为的理想化表示。不确定性不在于自然的骰子投掷,而在于我们讲述自然故事的局限性。

识别伪装者:模型误差侦探指南

在任何实际应用中,各种不确定性都捆绑在一起,科学家的工作就像一名侦探,试图找出导致预测与现实不符的罪魁祸首。是模型的形式,还是其他捣蛋鬼在作祟?

当我们试图通过调整参数来“修复”一个简单模型时,一个关键线索便会出现。考虑预测一个悬臂梁的挠度。一个简单的 ​​Euler-Bernoulli 梁模型​​ 对于细长梁效果非常好。但对于短粗梁,它总是低估梁的弯曲程度。为什么?因为该模型的形式假设梁仅通过弯曲变形,忽略了​​横向剪切变形​​的影响。如果我们将这种差异仅仅视为参数误差,并试图通过人为调整材料的杨氏模量(EEE)来匹配一个实验,我们会发现这个“校准”过的模型对于其他形状和尺寸的梁则完全失败。无论如何摆弄参数,都无法神奇地插入一个以完全不同方式缩放的缺失物理部分。校准的失败是直指模型形式不确定性的确凿证据。

另一个伪装者是​​数值误差​​。这是由于使用计算机寻找模型方程的近似解而产生的误差。例如,有限元模型(FEM)用离散的网格来近似一个连续的结构。我们可以通过一个称为​​验证​​的过程来检查这种误差,通常是通过细化网格,看解是否收敛。如果无论我们的网格变得多细,模型与现实之间的差异仍然存在,那么罪魁祸首就不是我们的求解器,而是模型本身。对错误的方程得到一个精确的、数值上完美的解,结果仍然是错误的。在数据同化的背景下,试图通过简单地夸大我们观测中的假定噪声来解释系统性的模型偏差是徒劳的;它掩盖了问题,但并未修复根本上有偏差的预测。

驯服野兽:与不完美模型共存

一旦我们识别出模型形式不确定性,我们能做些什么呢?我们无法凭空希望它消失。相反,科学和工程学已经发展出强大的策略来驯服这头野兽。

最直接的方法是正式承认我们的无知,并将其直接写入我们的方程中。我们不再说 真值=模型\text{真值} = \text{模型}真值=模型,而是采取一种更谦逊、更诚实的立场:

Truth=Model+Discrepancy\text{Truth} = \text{Model} + \text{Discrepancy}Truth=Model+Discrepancy

这个​​差异项​​ δ\deltaδ,是模型不足之处的数学表示。如何规定这个项本身就是一门科学。如果我们认为模型误差是一个相对恒定的偏移量,我们可能会使用一个​​加性​​差异, Qtrue(θ)=Q(θ)+δ(θ)Q_{\text{true}}(\theta) = Q(\theta) + \delta(\theta)Qtrue​(θ)=Q(θ)+δ(θ)。但如果我们认为误差与我们预测的量的大小成比例(例如,5%的误差),那么一个​​乘性​​形式, Qtrue(θ)=Q(θ)⋅M(θ)Q_{\text{true}}(\theta) = Q(\theta) \cdot M(\theta)Qtrue​(θ)=Q(θ)⋅M(θ),则更为合适。这种选择受物理学指导:一个必须为正的量,如反应速率,通常最好用一个不能为负的乘性因子(例如,对数正态分布)来建模,以确保我们对现实的模型不会产生不符合物理的结果。

在许多工程领域,使用一种更务实的方法。考虑用于预测金属疲劳的 Miner 法则,它指出当累积损伤指数 DDD 达到1时,部件就会失效。这个“法则”是一个简单的模型,一个多世纪以来的实验表明它并非严格正确。失效时的实际损伤 DfD_fDf​ 是一个随机量,其均值甚至可能不是1。工程师们没有放弃这个简单而有用的模型,而是学会了接受它的不完美。他们将临界损伤阈值 DcritD_{\text{crit}}Dcrit​ 不视为一个固定的常数,而是一个随机变量,其分布通过实验数据进行校准。实际上,他们已将模型形式的不确定性捆绑到一个经过统计表征的“修正因子”中,将一个已知的缺陷转变为一个可量化的风险。

这就引出了终极问题:赌注是什么?当面临灾难性且不可逆转的损害(如生态系统崩溃)的可能性时,“缺乏充分的科学确定性”是一个令人恐惧的境地。在这里,​​认知谦逊​​的概念——坦率承认我们模型的局限性——不是学术上的好奇心,而是行动的呼吁。​​预防原则​​提供了一个指南。当模型对发生重大危害 HHH 的概率 ppp 不确定,但可以将其限定在一个合理的范围 [pmin⁡,pmax⁡][p_{\min}, p_{\max}][pmin​,pmax​] 内时,我们被迫考虑最坏的可能情况。决策规则变为:如果采取预防措施的成本 CdC_dCd​ 小于最坏情况下的潜在危害(pmax⁡Hp_{\max} Hpmax​H),那么我们必须采取行动。面对高风险时,认知谦逊并不会导致瘫痪,而是导致审慎。它将我们对模型不确定性的理解从一个智力问题转变为一个道德和社会责任。

应用与跨学科联系

在我们迄今为止的旅程中,我们已经探讨了模型形式不确定性的抽象原理。我们看到,它不仅仅是一个技术上的麻烦,而是科学过程本身的深刻反映——即我们简化的心智地图与现实世界辉煌复杂的疆域之间持续不断的对话。现在,我们将走出抽象,进入现实世界,看看这个“机器中的幽灵”如何在广阔的科学和工程领域中显现。您将看到,这不是一个关于失败的故事,而是一个关于知识诚实和创造力的故事,一个关于承认我们的无知如何成为迈向真正理解和稳健决策第一步的故事。

物质与机器的基石

让我们从看似坚实的物理学和工程学世界开始。想象一下将一束光照射到一块金属上。有多少光会反射回来?为了回答这个问题,物理学家必须选择一个模型来描述金属内部电子的行为。一个简单的图像,即 Drude 模型,将电子视为自由漫游的气体,就像四处弹跳的台球。而另一个不同的图像,即 Lorentz 模型,则将它们想象成被束缚在原子上,像弹簧上的球一样,能够振荡。

这两个模型都是合理的,植根于良好的物理直觉,但它们在结构上是不同的。它们代表了对材料内部生命的不同假设。因此,它们对材料的光学特性(如反射率)会产生不同的预测。Drude 模型的预测与 Lorentz 模型的预测之间的差异,是我们模型形式不确定性的一个直接、可量化的度量。我们的不确定性不仅仅是因为我们的测量有噪声,而是因为我们不完全确定关于电子的哪一个故事在这种情况下是正确的。

当我们从晶格的有序世界转向湍流流体的混沌之舞时,这一挑战变得更加突出。考虑预测通道内热传递的任务,这是一个从设计热交换器到冷却核反应堆都至关重要的问题。完整的流体动力学方程太过复杂,无法直接求解。工程师们依赖于称为雷诺平均纳维-斯托克斯(RANS)模型的近似方法。这些模型引入了新的项,如“湍流粘度”,它们没有基础理论,必须自身被建模。

在这里,我们遇到了一个关键的区别。这些湍流模型参数的不确定性——如根据实验调整的各种常数 CμC_{\mu}Cμ​ ——被称为​​参数不确定性​​。但更深层、更顽固的不确定性存在于模型本身的函数形式中。例如,许多模型使用 Boussinesq 假设,该假设假定湍流应力与平均流应变之间存在简单的线性关系。这是一个深刻的结构性假设,并且已知在许多复杂流动中是错误的。这种局限性,无法通过简单地调整参数来修复,是​​结构不确定性​​的一个来源。它是模型架构中固有的缺陷,无论我们如何完美地校准模型的参数,都可能导致对关键量(如壁面热传递)的预测产生系统性偏差。

错综复杂的生命之网

如果说模型形式不确定性存在于物理和工程等“硬”科学中,那么在生物学和生态学中,它就是赖以呼吸的空气。这些领域处理的是极为复杂的系统,其中基本原理常常被层层的偶然性和相互作用所掩盖。

考虑臭氧层耗竭对生命的影响。更多的紫外线(UV)辐射到达地球表面。这对海洋中浮游生物的生物量生产有何影响?为了对此建模,我们面临一系列结构不确定性。首先,我们需要一个模型来描述紫外线如何穿过大气层,考虑到臭氧、云层和太阳角度。然后,我们需要一个生物响应模型。一种理论可能提出一个简单的损伤-修复平衡。另一种可能假设一个更复杂的、饱和的“光抑制”机制,用不同的数学函数来描述。从大气到生物的每一个模型,都代表了一套不同的结构性假设。它们对生物量损失的最终预测之间的差异,鲜明地说明了结构不确定性如何跨学科复合。

这种不确定性并非学术上的注脚;它触及我们管理自然世界能力的核心。想象你是一位渔业管理者,负责为一个重要的鱼类种群设定年度捕捞限额。你的目标是实现最大可持续产量(MSY)。为此,你需要一个模型来描述逃过捕捞的成年鱼数量(“种群”)与它们产生的新幼鱼数量(“补充量”)之间的关系。两个经典且相互竞争的模型是 Beverton-Holt 模型(假设补充量趋于平稳)和 Ricker 模型(假设在非常高的种群密度下,由于过度拥挤,补充量会下降)。

这些不仅仅是参数设置不同;它们是关于种群调控的结构上不同的故事。对于给定的捕捞率,一个模型可能预测健康、可持续的产量,而另一个则预测种群崩溃。面对这种结构不确定性的管理者不能简单地选择他们最喜欢的模型。他们必须正视他们选择的模型可能是错误的可能性。这迫使他们从简单的最优化转向更复杂的决策,例如计算“模型平均”的预期产量,或采用一种在最坏情况模型预测下寻求最佳结果的“稳健”策略。模型形式的选择具有直接而具体的经济和生态后果。

有时,模型设定不当的来源更为微妙。在合成生物学的世界里,科学家们像工程师组装电子元件一样设计和组装遗传部件,如启动子和基因。梦想是模块化,即一个部件的行为在其上下文中是可预测的。但生物学是混乱的。不同组装标准留下的短 DNA 序列或“疤痕”可以改变一个部件的功能。忽略这种上下文是一种模型设定不当的形式。如果我们将来自“BioBrick”上下文和“BglBrick”上下文中使用的一个启动子的数据汇集起来,我们实际上是在使用一个单一的、汇集的模型,该模型假设上下文无关紧要。一个更复杂的模型,由来自部件注册库的来源数据提供信息,会将这些视为不同的上下文。通过这样做,它避免了系统性偏差,并对我们的知识提供了更诚实的评估,即使这意味着每个单独上下文的数据量更少 ([@problem_GEO-369])。这精美地说明了,减少模型形式不确定性可能既关乎良好的记录和信息科学,也关乎宏大的物理理论。

驯服九头蛇:管理不确定性的策略

见识了模型形式不确定性这头野兽在众多巢穴中的模样后,我们如何尝试驯服它呢?科学界已经开发出一套强大的工具包,超越了简单挑选一个“最佳”模型的行为。

现代方法是拥抱模型的多样性。例如,在生态预测中,科学家们不再依赖单一模型来预测未来的鲑鱼丰度,而是使用集成模型。一个​​单模型集成​​考虑了一个模型结构内部的不确定性(如参数不确定性)。但一个​​多模型集成​​则采用来自几个结构不同模型的预测,并将它们结合起来。这明确承认了我们不知道哪种模型结构是正确的,而模型预测之间的差异就成了该结构不确定性的一种体现。

实现这一目标的最有原则的方法是​​贝叶斯模型平均法(BMA)​​。BMA 通过形成所有竞争模型预测的加权平均值来形式化这一过程。每个模型的权重是其后验概率——衡量该模型在现有数据面前的合理性。

让我们看看这个优雅思想的实际应用。在量子化学中,预测一个分子溶解在溶剂中时的行为是一个艰巨的挑战。一种常用技术是簇-连续介质模型,其中少数显式溶剂分子被量子力学地处理,其余的则被建模为连续介质。但是应该包含多少个显式分子呢?又该如何定义将显式部分与连续介质分开的“空腔”?这些都是结构性选择。使用 BMA,化学家可以为几种合理的选择(例如,模型 M1,M2,M3M_1, M_2, M_3M1​,M2​,M3​)进行计算。每个模型都提供了一个溶剂化能的预测,以及其自身的内部不确定性。然后,BMA 根据每个模型与现有实验数据的拟合程度(通常使用贝叶斯信息准则,或 BIC 等度量标准)为每个模型分配一个权重。

最终的模型平均预测是一个优美的综合体。其总方差是两部分之和,这是全方差定律的结果: σˉ2=∑iwiσi2⏟模型内部不确定性+∑iwi(μi−μˉ)2⏟模型间(结构性)不确定性\bar{\sigma}^2 = \underbrace{\sum_{i} w_i \sigma_i^2}_{\text{模型内部不确定性}} + \underbrace{\sum_{i} w_i (\mu_i - \bar{\mu})^2}_{\text{模型间(结构性)不确定性}}σˉ2=模型内部不确定性i∑​wi​σi2​​​+模型间(结构性)不确定性i∑​wi​(μi​−μˉ​)2​​ 第一项是每个单独模型方差的加权平均值。至关重要的是,第二项是模型均值本身的方差。该项在数学上捕获了结构不确定性——即模型之间的分歧。因此,BMA 提供了一个单一、连贯的预测,诚实地反映了我们在每个模型内部的不确定性以及我们对模型本身的不确定性。

同样的概念框架现在正在彻底改变科学领域的机器学习。当我们训练一个神经网络来替代一个复杂的物理模拟时,我们同样在做出结构性选择(网络的架构)。在这里,不确定性通常分为两种类型。​​偶然不确定性​​是数据本身中不可简化的噪声。​​认知不确定性​​是我们对真实底层函数可简化的无知,其中包括模型形式不确定性。像贝叶斯神经网络或深度集成(用不同的随机初始化训练多个网络)这样的技术,本质上是探索可能模型结构的广阔空间并量化由此产生的认知不确定性的方法。即使是物理信息神经网络(PINNs),这种将物理定律直接嵌入学习过程的方法,也是为了缩小合理函数的空间,从而减少认知不确定性。

从实验室到社会:深度不确定性下的决策

我们的旅程以放大到最广阔的画布——社会对复杂、高风险技术的决策——来结束。当不确定性如此深刻,以至于专家们不仅在模型及其概率上意见不一,而且利益相关者在基本价值观和目标上也存在分歧时,会发生什么?这就是​​深度不确定性​​的领域。

考虑对一种旨在根除携带疾病的蚊子的合成基因驱动的治理。不同的生态模型对其长期生态系统影响给出了截然不同的预测。一些利益相关者优先考虑即时的公共卫生收益,而另一些则将生物多样性保护置于一切之上。在这种情况下,在单一、公认的概率模型下最大化预期效用的经典方法变得站不住脚,甚至危险。

在这里,对深度不确定性的承认迫使范式从最优性转向稳健性。我们不再寻找在最可能未来中给出最佳结果的单一行动,而是寻找在广泛的可能未来和价值体系中表现“足够好”的行动。这被称为​​稳健满意​​。我们牺牲了完美解决方案的梦想,以换取一个能抵御我们深刻无知的解决方案的安全性。这种方法源于对模型形式不确定性的谦卑承认,是负责任创新的基石,指引我们驾驭21世纪复杂而不确定的技术前沿。