
在模拟地球气候或星系形成等复杂物理系统的探索中,科学家们不可避免地会面临一个根本性的限制:计算能力。建立一个能捕捉每个分子运动或每颗恒星诞生的模型是不可能的。因此,我们将世界划分为网格,并在每个单元格内求解物理定律。这个现实的选择造成了一个关键的知识鸿沟。比网格单元更小的过程——例如单个雷暴、海洋涡旋或恒星反馈——变得不可见,但它们对大尺度系统的集体影响却是巨大的。这些被称为亚网格尺度过程,解释其影响是现代计算科学面临的最大挑战之一。
本文深入探讨了模拟这个不可见世界的科学。它探讨了这些小尺度动力学如何影响我们模型能够解析的更大尺度的核心问题,以及为弥合这一鸿沟而发展的各种巧妙方法。以下章节将引导您了解这个复杂的主题。首先,在“原理与机制”部分,我们将探讨亚网格尺度问题的理论基础,从产生“闭合问题”的非线性动力学到参数化的艺术以及随机性的作用。随后,“应用与跨学科联系”将展示这些原理在实践中如何应用,考察它们在天气和气候预测、数据同化乃至计算天体物理学中的关键作用,揭示这一科学探索的普适性。
想象一下,你的任务是创建一个完全精确的地球大气数字复制品。这是一个惊人的想法!大气是一片湍流运动的海洋,是一场在各种尺度上上演的涡旋交响曲,从横跨大陆的天气系统到从咖啡杯中袅袅升起的蒸汽。要捕捉每一个分子的舞动,需要一台比地球还大的计算机。因此,我们必须做出选择。我们必须简化。
这是所有现代天气和气候模拟核心的基本挑战。我们选择的策略是在全球铺设一张网格,就像一张巨大的渔网,并在这张网的每个单元格内求解基本物理定律——质量、动量和能量守恒定律。
我们网格中单元格的大小定义了模型的网格分辨率。让我们将网格单元的特征尺寸称为。任何大于这个尺寸的东西,比如飓风或大型山脉,都会被模型“看到”或解析。它的形状和演变是直接计算出来的。但那些更小的东西呢?一个单独的雷暴、一股从城市升起的湍流热羽,或者海洋边界层中的混沌混合——所有这些都比典型的气候模型网格单元要小,后者可能宽达100公里。这些就是未解析或亚网格尺度过程。
你可能会想,“好吧,既然它们这么小,我们不能直接忽略它们吗?”这会是一个诱人但灾难性的错误。世界是深度关联的,小尺度并非被动的观察者;它们积极地塑造着大尺度。忽略它们就像试图仅通过查看联邦预算来理解国民经济,而完全忽略了个人和小企业每天进行的数万亿笔交易。这些小尺度过程的集体效应是巨大的。
小尺度之所以有如此强大的影响力,是因为流体运动定律的一个基本特性:它们是非线性的。这个听起来简单的词汇却有着深远的后果。它意味着整体并非各部分之和,交互作用的平均值也不同于平均值的交互作用。
让我们来看一个具体的例子。流体的运动由著名的纳维-斯托克斯方程控制。其中一个关键项描述了流体的速度如何被流场自身携带。这被称为平流,它涉及速度与自身的乘积,形式如。当我们对这个方程在一个网格单元上进行平均(这个操作我们可以用上划线表示)时,非线性给我们带来了麻烦。乘积的平均值,不等于平均值的乘积。
这两个量之间的差异涉及到诸如这样的项,其中是亚网格脉动——我们网格看不见的湍流涡旋。这个剩余项代表了未解析的湍流对已解析流场施加的应力。我们关于已解析变量的方程现在包含了一个“幽灵”项,它依赖于我们一无所知的未解析变量。我们的方程组不再是自洽的。这就是著名的闭合问题。物理定律中的每一个非线性项,从流体动力学到化学反应,在平均化时都会产生这样的问题。
那么,我们如何驯服这个幽灵呢?我们既不能忽略它,也不能直接解析它。解决方案是一种巧妙而必不可少的技术,称为参数化。参数化是一个“子模型”,旨在将未解析过程的净统计效应表示为我们确实知道的已解析变量的函数。
这是建模中的建模行为。我们无法模拟雷暴中的每一个云滴,但我们可以基于热力学和微物理学定律建立一个基于物理的参数化方案。这个方案可能会说:“对于一个具有此解析温度、湿度和上升速度的网格单元,未解析云的集体行为将产生这么多的降雨并释放这么多的热量” [@problem_-id:3892187]。这些通常被称为“整体方案”,因为它们处理的是总云水量等整体属性,而非单个云滴。
或者,我们也可以采取不同的方法。我们可以对一小块大气进行极高分辨率的模拟——其精细程度足以直接解析湍流和云——并用它来生成数据。然后,我们可以训练一个统计参数化方案,也许是一个深度神经网络,来学习从粗粒度状态到亚网格过程真实效应的复杂映射。这是一个充满活力的现代研究领域,将物理学与机器学习融为一体。
无论采用何种方法,目标都是相同的:为幽灵项提供一个闭合形式的表达式,让我们的已解析世界模型能够随时间向前推进。
随着计算机变得越来越强大,我们的模型网格越来越小。我们从的分辨率发展到,现在更是有了的前沿模型。随着我们的世界“地图”变得越来越详细,曾经完全属于亚网格领域的现象开始进入视野。这就产生了一个新的、微妙的问题。
一个为100公里粗网格设计的对流参数化方案假设所有对流效应都是亚网格的。如果我们在10公里的网格上使用同样的方案,而模型本身已经开始模拟最大的对流风暴,我们就会“双重计算”对流的影响——一次是通过已解析的动力学,另一次是通过参数化。模型将产生过多的降雨和热量。
这就引出了尺度感知参数化这一关键概念。一个真正复杂的参数化方案必须“知道”它所运行模型的的分辨率。它必须被设计成,当它所代表的现象逐渐被网格动力学解析时,能优雅地减少自身的贡献。
这不仅仅是一个模糊的想法;它有坚实的数学基础。通过分析大气运动的功率谱——衡量在不同空间尺度上存在多少能量的指标——我们可以推导出参数化的强度应如何随分辨率变化。对于一个能量谱随波数衰减为的过程,代表未解析部分的随机项的振幅应随网格尺寸缩放为。随着网格变得更精细(),参数化的贡献会正确地消失。
这个挑战在所谓的灰色地带最为尖锐。这是一个尴尬的分辨率范围,其中网格尺寸与物理过程(如对流羽)的特征尺寸相当。在这里,该过程既没有被完全解析,也不是完全的亚网格。作为经典参数化基础假设的尺度分离完全失效。设计能够从粗粒度极限无缝过渡到解析极限的“统一”参数化方案是现代地球系统模拟中的巨大挑战之一。
到目前为止,我们的讨论都集中在表示亚网格世界的平均效应上。但真实世界并不仅仅是一个平均值。它是湍流的、混沌的、间歇的。回想一下雷暴,它不是在一个100公里的网格单元上“平均”下雨;它是在几个特定地点猛烈降雨,而在其他地方则根本不下雨。一个只返回平均效应的确定性参数化方案忽略了这种至关重要的变率。
这就是随机参数化的动机。我们不是让参数化产生一个单一的、确定性的数值,而是让它产生一个从概率分布中抽取的倾向。它可能会向方程中添加一个结构化的、依赖于状态的随机强迫。这种方法承认,对于一个给定的已解析状态,并非只有一个单一的亚网格结果,而是存在一个完整的可能性谱。
这个框架让我们能够更诚实地面对模型中的不确定性。我们可以区分两种基本类型的不确定性:
认知不确定性:这是由于我们知识的缺乏所导致的不确定性。“我的参数化方案是否正确?它的参数,比如云模型中的夹卷率,是否设置了正确的值?”我们可以通过运行一个模拟集合来表示这一点,其中每个成员都使用一个略有不同但都合理的参数化版本。
偶然不确定性:这是由于内在随机性所导致的不确定性。“即使我的模型是完美的,亚网格湍流本质上也是混沌的。”这正是参数化的随机分量旨在捕捉的不确定性。
通过同时包含两者,集合预报系统不仅能提供一个单一的预测(“明天将是25°C”),还能提供一个概率性的预测(“明天温度在23°C到27°C之间的概率为80%”),后者远比前者更有价值。
故事并未就此结束。最后一个转折来自于具有“记忆”的过程。想象一下土壤中的水分。它不仅仅取决于今天的天气;它还记得上周的降雨和上个月的干旱。这是一个“慢”亚网格过程的例子。
当我们试图参数化这样一个过程时,我们发现它今天对大气的影响不仅取决于大气当前的状态,还取决于其整个近期的历史。由此产生的参数化被称为非马尔可夫的——它具有记忆性。一个将当前解析状态映射到一个倾向的简单函数已不再足够。
学习这些复杂的、依赖历史的关系是极其困难的。这正是科学前沿与人工智能相遇的地方。像循环神经网络(RNNs)或长短期记忆网络(LSTMs)这样的深度学习架构,它们被设计用于在数据序列中寻找模式,正被证明是从高分辨率数据集中发现非马尔可夫参数化的强大工具。
从将世界置于网格上的简单而实际的需求出发,我们踏上了一段穿越非线性动力学、湍流理论、统计力学甚至机器学习的旅程。参数化的艺术本身就是物理建模的一个缩影:一场在基本定律、计算约束和我们对自然世界美丽复杂性不断演进的理解之间持续进行的、创造性的对话。
在探索了我们模拟网格之下隐藏的原理之后,我们现在要问:这条路通向何方?仅仅指出我们的模型不完整在科学上是无法令人满意的。真正的冒险始于我们努力应对这种不完整性,因为在这场斗争中,我们找到了非凡的应用,并跨越科学领域建立了令人惊讶的联系。亚网格尺度过程的故事不是一个失败的故事,而是一部独创性的编年史,它弥合了我们优雅的方程与它们试图描述的混乱而壮丽的现实之间的鸿沟。这是一个从我们星球气候系统的核心到遥远星系形成都回响的故事。
在理解和预测地球气候与天气的探索中,亚网格世界的挑战无处不在。我们的全球气候模型是计算物理学的奇迹,但它们在根本上是短视的。想象一个网格间距为公里的天气模型。这听起来非常精细,但许多关键的天气现象更小。一个强大的对流上升气流,即雷暴的引擎,其直径可能只有两公里。模型能“看到”它吗?并不真正能。由于其数值方法的性质,模型的有效分辨率,即它能以任何物理保真度表示的最小尺度,通常是网格间距的几倍。这意味着一个特征可能需要跨越12公里才能被正确解析。因此,我们那个两公里宽的雷暴实际上是不可见的;它是机器中的一个幽灵,一个模型无法明确表示的亚网格过程。
如果没有一种方法来解释这些无数不可见的雷暴的集体效应,我们的模型将完全错误。它们将无法垂直输送热量和水分,我们的天气预报将沦为幻想。这就是参数化——表现不可见事物统计效应的艺术——发挥作用的地方。然而,这并非简单的修复。我们立即面临一个更深层次的问题:我们如何设计这些对未知的表述?
一种方法是确定性的:如果某个大气不稳定性的阈值(如对流有效位能,CAPE)被超过,参数化就开启。但现实并非如此清晰。对流是一个变化无常的过程。一种更复杂、目前处于该领域前沿的方法是使用随机参数化。模型不再是一个简单的开/关开关,而是计算对流发生的概率。在一个拥有许多并行模拟的集合预报中,这意味着一些模型成员会有对流,而另一些则没有,这反映了情况的真实不确定性。这不仅感觉更真实;它还能产生统计上更可靠的预报,并让我们更好地掌握可能结果的范围。
随着我们的计算机变得更强大,模型网格变得更精细,挑战也随之加深。我们进入了一个“灰色地带”,在这里,像雷暴这样的现象既没有被完全解析,也不是完全的亚网格过程。在这里,我们的参数化必须变得“更聪明”。一个真正先进的方案必须具备尺度感知能力。它应该能识别模型的分辨率,并相应地调整自己的贡献。在一个粗糙的全球模型中,云形成的参数化可能负责产生垂直运动的所有变率。但在一个高分辨率的对流解析模型中,已解析的动力学直接捕捉到了强烈的上升气流。一个具备尺度感知的方案会自动“后退”,让已解析的物理过程发挥作用,只参数化那些真正属于亚网格的部分,比如云边缘的微尺度湍流。这是一个美丽的概念:一个对其自身局限性有所感知的模型。
这引导我们对不确定性有更宏大的看法。当我们模拟过去的气候,比如21000年前的末次冰盛期时,我们的不确定性不仅仅在于模型的内部运作。我们面临着三重未知。有结构不确定性,源于我们对所选方程和参数化方案的选择——不同的建模中心会以不同的方式构建其GCM。有参数不确定性,源于我们为这些方案中的可调参数选择的具体数值,比如冰的反照率或云中的夹卷率。最后,还有强迫不确定性,来自我们对当时世界边界条件的不完美了解。我们不知道古代劳伦泰德冰盖的确切大小和地形,也不知道大气中温室气体的精确浓度。这些都是建模者必须努力应对的深刻不确定性来源。亚网格问题是前两者的主要贡献者,但 humbling to remember it is only one piece of a much larger puzzle.
一个孤立的模型是一场独白。当它通过观测与现实进行对话时,科学才真正开始。这就是数据同化的领域,即融合模型预报与真实世界数据,以产生系统状态的最佳估计——即启动下一次天气预报的“分析场”。
在这个框架中,未解析的亚网格过程的影响表现为模式误差。我们的模型,由于缺乏亚网格世界的物理过程,会逐渐偏离现实。但我们可以更聪明一些。通过比较模型的预测与卫星或气象气球实际看到的情况——这个差异被称为新息——我们可以“倾听”这种模式误差的特征。新息序列随时间的统计特性中蕴含着关于缺失物理过程特征的线索。这个误差在空间上是否相关?它在时间上是否有“记忆”?通过设计复杂的统计技术,科学家可以从新息反向推断,估计不可见模式误差的协方差结构,从而有效地为亚网格过程绘制出一幅统计画像。
这导致了纯理论与实践工程的迷人融合。在基于集合的数据同化系统(如集合卡尔曼滤波)中,建模者使用协方差膨胀等技术。这有点像承认模型预报的集合过于自信,并人为地“膨胀”其多样性,以更好地匹配真实世界的不确定性。这是一种务实的修正,但可以做得非常精细。人们可以设计膨胀因子,专门考虑未被显式模式误差项捕捉到的方差,从而避免“双重计算”不确定性,并确保模型和观测以统计上一致的方式结合。
几十年来,参数化方案都是由科学家手工打造的,融合了理论、观测和直觉。但如果我们能教机器为我们发现缺失的物理过程呢?这就是混合物理-机器学习建模的革命性前景。其思想是运行一个高分辨率的、“真实的”模拟(或使用真实观测),并训练一个神经网络来从已解析的状态变量预测亚网格倾向。然后,这个学到的参数化可以嵌入到一个更粗糙、更快的模型中。
然而,这种方法引发了深刻的认知论问题。当我们的混合模型表现更好时,机器学到了什么?它仅仅是在纠正我们对现有参数的粗略调整(参数误差),还是它真正发现了我们手工模型所缺失的新的物理关系(结构差异)?科学家们已经开发出强大的方法来回答这个问题。一种方法是看旧的纯物理模型的误差特征中,是否存在与通过参数调整可以修复的部分在数学上“正交”的成分。根据定义,这样的成分是结构性的,如果机器学习模型能消除它们,那么它就是在学习新的物理过程。另一种方法是通过贝叶斯视角:如果我们对参数值非常有信心,但模型仍然显示出对现实的系统性偏差,那么问题必定是结构性的。
这个新联盟要求更高层次的严谨性。当我们用一个黑箱机器学习模型替换物理模型的一个组件——一套可信的方程——时,我们正在进行一种“因果手术”。我们必须确保这种干预不会产生意想不到的后果。研究人员现在正转向结构因果模型(SCMs)的正式语言来推理这些混合系统。利用像Pearl的-演算这样的框架,他们可以精确定义用学到的参数化替换物理参数化意味着什么,确保基本守恒定律仍然得到尊重,并且干预是模块化的,只影响系统的预期部分。
亚网格的挑战是普遍的。我们用来模拟地球上一朵云的那些概念,在我们模拟整个星系形成时同样会出现。在计算天体物理学中,宇宙结构形成的模拟也必须应对那些小到无法解析的过程。巨分子云中单个恒星的诞生,或来自超大质量黑洞(活动星系核,AGN)的复杂、剧烈的反馈,都是经典的亚网格问题。天体物理学家,就像气候科学家一样,必须为这些过程开发基于物理的参数化方案,并将其与纯粹的数值伪影(如用于稳定其代码中冲击波的人工粘性)区分开来。语言不同,但根本的挑战是相同的。
我们的亚网格不确定性带来的后果也会向外扩散,级联到其他学科。一个试图预测气候变化下某种珍稀高山植物未来栖息地的生态学家,依赖于全球气候模型的输出。但是该用哪个模型呢?不同的GCM,带着它们不同的结构和参数DNA,即使在完全相同的未来温室气体排放情景下,也会产生一系列不同的未来气候。气候预测的这种差异,直接源于每个模型选择参数化其亚网格云和湍流的不同方式,成为生态学家的主要不确定性来源。表现一个仅几公里宽的云的挑战,回响在对一个物种生存数十年的预测之中。
这就是亚网格科学的终极教训。承认我们模型固有的不完整性并非承认失败。它是与自然世界进行更深入、更诚实、更具创造性互动的起点。通过寻求理解我们机器中的幽灵,我们不仅改进了我们的预测,而且揭示了从最小到最大尺度,跨越所有科学前沿的物理过程之间深刻而美丽的相互联系。