模式相互比较计划

玻尔百科

定义

模式相互比较计划是气候科学领域的一项系统性框架，通过严格的通用实验方案比较不同的气候模型，旨在识别并理解结构不确定性。该计划将预测不确定性分解为内部变率、模型差异和未来社会经济情景，从而为全球变暖的人为归因提供关键证据。模式相互比较计划起到了桥梁作用，将全球气候预测转化为公共卫生、水资源管理和政策分析等领域的实用信息。

核心要点

模式相互比较计划 (MIPs) 使用严格的通用实验协议系统性地比较不同的气候模式，以区分和理解结构不确定性。
MIPs 提供了一个稳健的框架，可将预测不确定性量化并划分为三个关键来源：内部变率、模式差异和未来社会经济情景。
通过像DAMIP这样的受控实验，MIPs分离了自然和人为强迫，为将观测到的全球变暖归因于人类活动提供了关键的科学证据。
MIPs 作为一座至关重要的桥梁，将全球气候预测转化为公共卫生、水资源管理和政策分析等不同领域可操作的信息。

引言

我们如何对理解像地球气候这样复杂的事物建立信心？科学家依赖精密的计算机模式，但每个模式都是对地球物理学独特诠释，导致了一系列不同的预测结果。这种“结构不确定性”是气候科学中的一个根本性挑战。模式相互比较计划（MIPs）通过创建一个协作框架来系统性地比较这些模式，从而直面这一挑战。模式的多样性远非一个问题，反而成为了科学发现的强大工具。本文探讨了MIPs的世界，全面概述了它们的运作方式及其不可或缺的原因。在接下来的章节中，您将深入研究定义一个MIP的核心“原理和机制”——从实现受控实验的标准化协议到用于剖析不确定性的统计方法。随后，我们将探讨其广泛的“应用和跨学科联系”，展示这些计划如何为从重建古代气候到为现代公共卫生和政策决策提供信息等各个方面提供关键见解。

原理和机制

想象一下，你想理解一部宏大而复杂的交响曲。只听一个乐团的演奏会让你满意吗？大概不会。每个乐团都有其独特的指挥、音乐家和诠释，会揭示出音乐的不同侧面。通过聆听许多不同的演奏版本，你将对作曲家的作品有更深刻的理解，明白哪些部分是基础核心，哪些部分则有诠释的空间。

这正是模式相互比较计划 (MIP) 背后的理念。地球气候系统就是我们那部宏大而复杂的交响曲，而我们为理解它所构建的精密计算机模式就是我们的乐团。每个模式都由不同的科学家团队构建，虽然它们都基于相同的基本物理定律，但在细节上——即它们的“诠释”上——有所不同。它们可能使用不同的数学技巧，以不同的方式表征云等小尺度过程，或者用不同的策略耦合海洋和大气。这种多样性产生了我们所说的结构不确定性：源于我们没有一个单一、完美的地球模式这一事实的不确定性。MIP是一种系统性的方法，旨在拥抱这种多样性，将其从一个简单的混淆源头转变为一个强大的理解工具。

指挥的总谱：协议的力量

为了有意义地比较我们的乐团，我们不能让它们在不同的音乐厅演奏不同的乐曲。我们必须给它们相同的总谱，并让它们在相同的条件下演奏。在气候模拟领域，这个“总谱”就是一个精心设计的实验协议。这是任何MIP的绝对基石，将其与一堆杂乱无章的模式输出区分开来。

协议是一套严格的规则，全世界所有参与的模拟中心都同意遵守。这些规则明确了实验的关键要素：

共同强迫： 所有模式都由相同的“外部”影响历史驱动。对于20世纪的模拟而言，这意味着每个模式都使用相同的历史数据，包括温室气体浓度的变化、火山爆发、太阳输出的变化以及人为气溶胶的排放。这确保了每个模式都是“照着同一份乐谱演奏”。
标准化设置： 对于某些类型的实验，协议可能会指定共同的初始条件，或区域模式嵌套于全球模式中的确切方式。
共享诊断： 仅仅运行相同的实验是不够的；结果必须以相同的方式报告。协议定义了标准的变量名、数据格式（如气候与预报（CF）约定）和输出网格。这确保我们始终在比较同类事物，而非风马牛不相及。

这种严格结构的真正力量在于它能够实现因果推断。科学的核心就是找出因果关系。在一个MIP中，我们想了解模式结构的差异如何导致气候预测的差异。通过设计实验来保持其他一切不变——强迫、设置、我们测量输出的方式——我们将模式的结构孤立为关键变量。两个模式（比如 $M_1$ 和 $M_2$ ）的输出之间出现的任何系统性差异，都可以归因于它们内部“DNA”的差异。这将模拟从一系列孤立的验证练习转变为一个宏大的、协调的、行星尺度的受控实验。

游戏规则：在数字世界中建立信任

一个涉及数十个国际团队和PB级数据的项目，是一项巨大的后勤和科学任务。我们如何信任其结果？一个MIP的可信度建立在所有计算科学都应遵循的三大基本原则之上：

可复现性： 这是最基本的检验。如果另一位科学家使用与你完全相同的代码、输入和计算环境，他们能否产生完全相同的结果（在数值舍入差异的微小范围内）？如果答案是否定的，那么结果在科学上是不可信的。这就像一段录音，每次播放听起来都不一样。
可复制性： 这是一个更高的标准。如果一个独立的科学家团队阅读了描述你的模式和方法的科学论文，他们能否构建自己的代码，并通过遵循相同的科学思想，产生一个与你的结果在科学上一致的结果？这表明科学发现是稳健的，而不仅仅是某个特定软件的产物。这就像另一个乐团演奏相同的总谱，虽然演奏出来的效果并非音符对音符地完全相同，但捕捉到了相同的音乐本质特征。
数据溯源（Provenance）： 这是主日志。数据溯源是详细、不间断的信息链，追踪科学工作流程的每一个组成部分——模式代码的版本、输入数据的来源、分析的具体步骤、使用的计算环境。这种“数据血缘”，通常构成一个复杂的图，是使可复现性和可复制性成为可能的证据支柱。在一个MIP中，当我们看到两个模式给出不同答案时，数据溯源让我们能够扮演侦探的角色，追溯差异的源头，无论是一个不同的云参数化方案还是一个不同的编译器标志。

这些原则确保了MIP产生的庞大数字档案不仅仅是数字的集合，而是一个值得信赖且可审计的科学记录。

不确定性的交响乐

也许MIP最重要的贡献在于，它们没有给我们一个单一的、看似精确的未来预测。相反，它们提供了一幅关于所涉不确定性的丰富而细致的图景。通过运行一个探索不同模式、不同参数和不同未来路径的“大集合”，我们可以剖析我们自身的无知并量化其来源。未来气候预测的总不确定性可以分解为几个关键组成部分：

情景不确定性： 这源于我们无法预测人类社会的未来。我们会积极削减排放，还是会继续走化石燃料密集型的道路？由于我们不知道，我们针对一系列合理的未来（称为共享社会经济路径，SSPs）运行整个模式集合。对于遥远的未来预测（例如，到2100年），这通常是不确定性的最大单一来源。
结构不确定性： 这是我们在不同模式之间看到的差异范围，即使它们是针对完全相同的情景运行的。它是我们对气候系统物理过程不同合理解释方式所产生的不确定性的量化度量。
内部变率： 这是气候系统本身固有的混沌性。就像蝴蝶扇动翅膀理论上可以改变遥远风暴的路径一样，模拟起始条件的微小、难以察觉的差异可能导致多年后天气模式的不同。这就是为什么我们不仅为每个模式和情景运行一次模拟，而是用略微扰动的初始状态运行一个小集合。这个小集合内的差异范围量化了混沌的作用。

通过巧妙地构建这些嵌套集合，科学家可以运用统计学定律（特别是全方-差定律）将预测的总方差分解为这些不同的组成部分。这告诉我们，对于给定的变量和时间范围，最需要关注的不确定性是什么：是人类的选择、模式的物理过程，还是固有的混沌。

巧妙的实验：分离机器的部件

MIP远不止是将模式运行到未来。它们是为回答非常具体的科学问题而进行巧妙实验的框架。

分离大气：AMIP vs. CMIP

模式开发者一个常见的头痛问题是诊断误差的来源。如果一个模式模拟的气候过暖，是其大气分量的错，还是海洋分量的错，或者是它们相互作用的方式有问题？为了解开这个结，MIP采用了两种经典的实验设计：

在完全耦合的模拟中（耦合模式相互比较计划，CMIP的标准），大气和海洋模式被允许自由相互作用。海洋温度是预报性的，这意味着它根据与上方大气交换的热量、水分和动量动态演变。这是“完整乐团”的模拟。
在仅大气模拟中（如大气模式相互比较计划，AMIP），我们只想孤立地测试大气模式。为此，我们用真实观测到的海面温度（SSTs）和海冰的历史来强迫大气模式。海洋的状态是指定的。这有效地“静音”了海洋模式及其潜在误差，使我们能够干净地评估大气的性能。这就像在弦乐部分播放完美的预录音轨时，测试管乐部分的表现。

比较同一模式的AMIP和CMIP实验结果，可以揭示其偏差是源于大气，还是源于与海洋的有缺陷的相互作用。

寻找人类指纹：DAMIP

MIP帮助回答的最深刻的问题之一是：我们如何知道我们观测到的变暖是我们的错？检测与归因模式相互比较计划（DAMIP）正是为了直面这个问题而设计的。其逻辑简单而有力：

首先，用所有强迫——包括自然强迫（太阳周期、火山）和人为强迫（温室气体、气溶胶）——运行历史时期的模式。这些运行的集合平均值应能紧密追踪观测到的全球温度上升。
其次，再次运行模式，但这次仅使用自然强迫。在这些模拟中，模式在20世纪没有显示出显著的变暖。
第三，最后一次运行模式，仅使用人为强迫。这些模拟再现了观测到的大部分变暖。

通过使用一种称为最优指纹法的统计技术，将这三组实验与观测到的气候记录进行比较，科学家可以自信地指出，观测到的变暖无法仅用自然原因来解释，并且其模式与人类活动的“指纹”相匹配。

定义“推动力”：ERF

当我们向大气中增加CO₂时，会产生能量不平衡，一种“推动力”使地球变暖。但我们如何衡量这种推动力的大小？这并不像听起来那么简单。在你增加CO₂的那一刻，你会得到一个瞬时辐射强迫（IRF）。但几乎立刻，在几天到几周内，大气开始调整，远在海洋表面有时间变暖之前。云层移动，水汽浓度改变，大气温度重新排列。这些快速调整既可以放大也可以减弱最初的推动力。有效辐射强迫（ERF）是这些快速调整发生后对地球的净推动力。ERF比IRF更能预测最终的全球变暖，而巧妙的MIP实验（如辐射强迫MIP，或RFMIP）就是专门为计算不同强迫因子的ERF而设计的。

前沿的难题与悖论

伟大的科学工具不仅提供答案，它们还揭示更深层次的问题和意想不到的难题。MIPs也不例外，它们不断推动我们理解的边界。

漂移的幽灵

早期的耦合海-气模式有一个持续存在的幽灵般的问题。当它们在没有任何外部强迫变化的情况下自行运行时，它们的气候会缓慢但确定地“漂移”到一个明显不真实的状态——也许是一个没有北极冰的世界或一个严重扭曲的Gulf Stream。这种耦合模式漂移是由模式中微小但系统性的不完美引起的。独立的海洋和大气分量，各自带有其偏差，会在海洋表面交换热量和淡水时产生一个微小但持续的不平衡。

一度，唯一的解决方案是一个有争议的修复方法，称为通量调整——一种人为的、非物理的“修正因子”，科学家会手动在界面处增加或减少热量和水，以迫使模式保持在稳定、真实的气候状态。虽然它使得有用的实验成为可能，但这是一个掩盖了根本模式缺陷的拐杖。事实上，今天参与CMIP的几乎所有现代模式都不需要通量调整，这是几十年来在改进模式物理过程和确保更好的能量与质量守恒方面取得科学进展的无声证明。

然而，一个现代版的漂移问题仍然困扰着从事初始化预测（例如预测未来十年的气候）的科学家。为了做出这样的预测，一个模式会因被初始化为真实世界的观测海洋状态而受到“冲击”。由于这个观测状态不是模式自身偏好的气候，模式会立即开始从观测状态漂移，朝向其自身有偏差的气候态。校正这种可预测的漂移是从预测中提取有效信号的关键一步。

信噪比悖论

十年际预测MIPs中出现的最有趣的谜题之一是所谓的信噪比悖论。科学家们发现，模式通常可以对某些气候指数（如大尺度海洋温度模式）做出未来几年的有效预测。它们的预报优于随机猜测，显示出与实际情况的明确相关性。这意味着模式成功地捕捉到了一个真实的、可预测的“信号”。

悖论在于：当研究人员分析模式集合时，可预测的信号通常显得非常微弱，几乎被模式自身的内部混沌“噪音”所掩埋。模式自身的信噪比低得令人沮丧。那么，如果模式自己都认为信号太小而不足以信任，它们怎么还能如此有效呢？

主流的假说是，模式正确地捕捉了信号的相位（即，它们在正确的时间预测了波峰和波谷），但它们系统性地低估了其振幅。与真实世界相比，可预测的模式在模式世界中过于微弱。这个通过MIP中模式的系统性比较而发现和定义的悖论，现在正推动着一波研究，以理解为什么模式存在这种弱信号偏差，以及如何改进其物理过程来修复它。这是一个完美的例子，说明了模式相互比较计划不仅阐明了我们所知道的，也照亮了我们尚待发现的激动人心的边界。

应用与跨学科联系

既然我们已经窥探了模式相互比较计划的原理，我们可以退后一步，惊叹于这些宏伟的发现引擎的用途。MIP并不仅仅是约束计算机代码的技术性练习；它是一种强大的、协调的科学仪器——一种用于穿越时间的计算望远镜。它的目的是以一种有纪律、可重复且坦诚其局限性的方式，对我们的星球提出最宏大的“如果……会怎样？”的问题。其应用范围之广，变化之多，如同地球系统本身，将流体动力学和辐射传输的深奥世界与我们社会最紧迫的问题联系起来，从公共卫生到我们海岸线的命运。

锻造工具：一种应对复杂性的共同语言

在演奏交响乐之前，音乐家必须为乐器调音并练习音阶。在我们使用模式集合来预测21世纪气候之前，我们必须确保每个模式都在正确地求解基本物理方程。这就是验证性MIPs的作用所在。它们的设计目的不是模拟真实世界，而是创建高度理想化的“虚拟实验室”，以测试模式物理引擎的特定方面。

例如，想象一下试图验证冰盖模式的代码。我们可以使用高阶模式的冰盖模式相互比较计划（ISMIP-HOM）的实验套件。在这里，模式的任务是模拟等温冰川在完美正弦波形基岩上的流动。没有人认为Greenland的基岩是一个完美的正弦波。但这种人为的简单性正是关键所在！通过改变基岩的波长和振幅，科学家可以系统地调高“桥接应力”的重要性——即冰如何机械地跨越沟槽而不是坍塌进去的方式。这分离出了一个更简单的模式所忽略的关键物理过程，让我们能够看到复杂的、高阶的模式是否能出于正确的原因得到正确的答案。

除了确保物理过程正确之外，我们还需要就“好”的性能是什么样貌达成一致。回答这个问题引出了另一个有趣的应用：设计复杂的评估指标。例如，对于海冰来说，如果一个模式能正确模拟总冰面积，它就是“好”的吗？如果面积对了，但冰缘位置偏离了数百公里怎么办？或者如果面积对了，但冰层薄如纸，而它本应有几米厚怎么办？像海冰模式相互比较计划（SIMIP）这样的项目，已经促成了综合技能评分的开发，这些评分优雅地结合了这些不同方面——对冰缘位置、平均厚度以及季节性融化和冻结时间的误差进行惩罚——形成一个单一、稳健的性能度量，并根据观测本身的不确定性仔细权衡每个组成部分。这就是MIPs如何帮助建立一种通用的、严谨的语言来评估我们的工具。

望向过去的望远镜：从自然的实验中学习

当我们的工具得到验证，评估方法得到磨练后，我们就可以转向最终的试验场：地球自身的历史。我们无法在活生生的地球上进行受控实验，但自然已经为我们进行了一系列壮观的实验，从冰河时代的深度冻结到上新世温暖、高 $\text{CO}_2$ 的世界。

古气候模拟相互比较计划（PMIP）或许是跨学科科学最美的范例之一。它是地质学、化学和物理学之间的一场宏大对话。地质学家和地球化学家深入钻探冰芯和海洋沉积物，以重建过去世界的边界条件。他们告诉我们末次冰盛期（ $21,000$ 年前）巨大的Laurentide和Fennoscandian冰盖的范围；他们测量被困在冰中古老空气的微小气泡，告诉我们 $\text{CO}_2$ 的精确大气浓度；他们利用天体力学计算地球的轨道参数——我们星球的确切摆动和倾斜——这些参数改变了中全新世（ $6,000$ 年前）温暖时期入射阳光的模式。

然后，气候模式开发者将这些过去气候的“配方”输入他们的模式中。问题简单而深刻：我们从物理学第一性原理建立的模式，能否再现代用记录告诉我们曾经存在过的气候？当一个模式能够成功地模拟一个冰河时代的寒冷、干燥、多尘的世界，及其截然不同的海洋环流和巨大的冰盖时，我们对其模拟我们未来更温暖世界的能力就有了更大的信心。这是在建立对我们计算望远镜信任的关键一步。

窥探未来：一个分叉路径的花园

当我们对模式捕捉不同气候物理过程的能力充满信心后，我们终于可以将我们的望远镜转向未来。但未来并非一条单一的、预定的路径。它是一个“分叉路径的花园”，关键取决于人类在未来几十年做出的选择。MIPs为探索这些合理的未来提供了框架。

如耦合模式相互比较计划（CMIP）所示，现代气候预测的架构是社会科学和物理科学的巧妙融合。它始于共享社会经济路径（SSPs），这是关于全球社会未来的叙事性故事情节。我们将遵循一条可持续发展和全球合作的道路（SSP1）？还是一条地区竞争和民族主义复苏的道路（SSP3）？或者我们将推动快速、化石燃料密集型的经济增长（SSP5）？这些是“故事情节”。

然后，这些故事情节与不同的气候结果配对，这些结果由世纪末的辐射强迫水平定义（这是代表性浓度路径，或RCPs的遗产）。情景模式相互比较计划（ScenarioMIP）是将给定的故事情节和气候目标（例如，一个旨在实现温和气候变化的“中庸之道”社会，或SSP2-4.5）转化为地球系统模式所需的具体、定量输入的引擎：逐年、逐网格的温室气体浓度、气溶胶排放和土地利用变化的轨迹。这提供了一个从社会经济假设一直到物理气候变化的一致且可追溯的联系。

解构不确定性：知其所不知

也许MIP最强大的应用不是产生一个单一、清晰的预测，而是提供一幅关于我们不确定性的结构化、定量的地图。模式预测中的差异范围不仅仅是“误差”；它是信息。利用类似于方差分析的统计技术，科学家可以将预测中的总不确定性划分为其不同的来源。主要有三种类型：

内部变率： 这是天气固有的混沌性。即使在完全稳定的气候中，也没有两年是完全相同的。这是“蝴蝶效应”的不确定性。MIPs通过用略微不同的起始条件多次运行每个模式，创建一个“大集合”来量化这一点。
模式不确定性： 这反映了不同模拟中心对于如何表示云或海洋涡旋等复杂过程做出了不同但同样合理的选择。它是代表我们当前科学知识前沿的“结构性”不确定性。
情景不确定性： 这源于人类将选择哪条社会经济路径的根本不可知性。它是人类行动的不确定性。

通过追踪这三种方差来源随时间的变化，MIPs揭示了一个深刻的见解。对于近期（比如未来二十年）的预测，不确定性的最大来源是内部变率和模式不确定性。2030年代的气候在很大程度上已经是“板上钉钉”。但随着我们看得更远，一个交叉点出现了。到本世纪中叶，情景不确定性——我们的集体选择——成为气候预测中唯一占主导地位的不确定性来源。这是一个极其鼓舞人心的信息。科学告诉我们，长远的未来并非命中注定；它很大程度上掌握在我们手中。

从全球像素到人类影响：最后一公里

全球MIP的输出——那些代表粗略全球网格上温度、降雨和风的TB级数据——很少是故事的结局。更多时候，它是无数其他学科应用科学级联的关键第一输入。

公共卫生： 为了预测一个城市未来与热相关的疾病发病率，公共卫生专家会采用MIP的粗略气候预测，使用统计或动力学技术将其降尺度到城市尺度，并将此暴露信息与SSPs中关于人口增长、年龄结构和城市化的社会经济预测相结合。然后，这些综合信息被输入一个经过经验验证的流行病学模型，以预测未来的住院人数，为城市规划者和医疗系统提供具体、可操作的警告。
水、食物和海岸： 像海洋模式相互比较计划（OMIP）和冰盖MIP（ISMIP6）这样的专门MIPs的输出，提供了海洋变暖、海平面上升和冰盖融化的关键预测，这些是沿海工程师设计海堤、水资源管理者规划变化的河流流量以及农业科学家评估未来作物生存能力所必需的基本输入。
气候取证： 当像灾难性热浪或洪水这样的极端天气事件发生时，人们不可避免地会问：“这是气候变化造成的吗？”利用MIPs的逻辑，科学家现在可以越来越自信地回答这个问题。在一种称为“极端事件归因”的实践中，他们运行一个模拟真实世界的模型大集合，其中包含了所有人类引起的温室气体。然后，他们运行第二个“反事实”世界的集合，这个世界在各方面都相同，但人为的温室气体指纹被手术般地移除了。通过比较这两个集合中极端事件的频率，他们可以精确地说明我们的行为使该特定灾难变得或多或少地可能发生。
探索激进的“如果……会怎样？”： MIPs甚至提供了一个安全的虚拟实验室，来试行应对气候变化的激进想法。地球工程模式相互比较计划（GeoMIP）探索了假设情景的预期和非预期后果，例如向平流层注入气溶胶以反射阳光。通过让许多不同的模式模拟相同的扰动，科学家可以识别出稳健的响应（例如全球降温）和令人担忧的副作用（例如区域降雨模式的重大变化），为未来关于这些争议性话题的任何政策讨论提供关键信息。

归根结底，一个模式相互比较计划是科学合作力量的证明。它是一个乐团，汇集了来自世界各地的物理学家、化学家、生物学家、计算机科学家、统计学家和社会科学家的专业知识。他们产生的声音不是一个单一、完美的预测音符，而是一个丰富的可能性和弦——一种对已知、未知以及取决于我们的事物的细致入微的理解。在一个令人眼花缭乱的复杂世界里，这正是科学固有的美和统一性：为驾驭未来提供一个清晰、结构化的指南。