首页次网格尺度参数化

次网格尺度参数化

玻尔百科

定义

次网格尺度参数化是气候建模和流体动力学中的一种建模技术，用于近似模拟湍流或云形成等无法直接解析的小尺度过程对大尺度环境的影响。这些模型通过使用气候模型可解析的变量来表示次网格现象的影响，从而解决了控制方程中的闭合问题。现代参数化方案涵盖了从K理论到机器学习模型的多种方法，在遵循能量守恒等物理定律的同时，致力于解决不同空间分辨率下的尺度觉知挑战。

关键要点

“闭合问题”是气候模拟中的一个根本性挑战，其产生原因在于控制方程包含了代表未解析小尺度过程（如湍流）影响的未知项。
次网格尺度参数化是弥合这一差距的关键模型，它利用气候模型能够解析的变量来近似未见过程的影响。
参数化的范围从简单的“K-理论”到复杂的高阶闭合和数据驱动的机器学习模型，但所有参数化都必须遵守能量守恒等基本物理定律。
当今的一个关键挑战是开发能够在“灰色地带”（其中过程被部分解析）正确运行的“尺度感知”方案，并确保机器学习模型的稳定性。
这一概念是跨学科的，对于模拟从大气重力波和云形成到海洋沉积物中微尺度化学反应等各种现象都至关重要。

引言

模拟我们星球的气候带来了一个根本性的尺度挑战。地球系统模型将世界划分为计算网格单元，这些单元的宽度可达数十甚至数百公里，这使得它们对大量更小但至关重要的物理过程视而不见。湍流的混沌漩涡、单个云的生命周期以及形成降雨的微观相互作用都发生在“次网格尺度”，模型无法直接观察到它们。然而，这些过程对热量、水分和动量输运的集体影响是巨大的。忽略它们是不可行的。本文探讨了计算气候科学面临的核心问题：我们如何表示不可见过程的物理学？

本文深入探讨了次网格尺度参数化这门科学，即为这些未解析现象建立模型的复杂艺术。首先，在“原理与机制”部分，我们将探讨该问题的理论起源，即所谓的“闭合问题”，并考察为解决该问题而开发的参数化技术体系，从简单的类比到先进的统计方法。我们还将讨论这些方案必须遵守的不可动摇的物理定律，以及由模拟“灰色地带”和内在不确定性带来的关键挑战。随后，“应用与跨学科联系”部分将使这些概念变得生动，展示参数化如何被用于模拟从大气湍流和“幽灵山”拖曳到洋底复杂生物地球化学的各种事物，最后，我们将展望机器学习这一新前沿及其可能为该领域带来的革命性潜力。

原理与机制

要理解我们如何模拟地球气候，我们必须首先解决一个巨大的尺度问题。想象一下，你试图绘制一幅细节完美的广阔森林地图。然而，你的工具有限。你能在地图上画出的最小的点——你的“像素”——有整整一公里宽。你当然可以捕捉到森林的宏伟轮廓、其边界，或许还有大片的空地或湖泊。但是单个的树木、它们叶子的分枝模式、在树干上互相追逐的松鼠呢？它们完全丢失了。那个一公里宽的像素内的所有生命和复杂细节对你来说都是不可见的。

这正是地球系统模型所面临的困境。它们的“像素”是计算网格单元，其宽度可达数十甚至数百公里。虽然它们可以解析大陆尺度的天气系统的宏大运动，但它们对在这些单元内发生的众多更小但至关重要的现象却视而不见。湍流的旋转混沌之舞、单个对流云的猛烈上升气流、使雨滴落下的微观过程——所有这些都是次网格尺度过程。它们在模型的网格单元内生灭，不为模型的直接观察所见。然而，它们的集体影响是巨大的。它们是输运的引擎，通过大气和海洋输送大量的热量、水分和动量。如果不考虑它们，我们的模型将完全错误。核心挑战就在于此：我们如何表示不可见过程的物理学？

方程中的幽灵：闭合问题

支配流体运动和能量输运的物理定律是用微分方程这一优美的语言写成的。这些方程的核心是一个称为非线性的特性。这是一个数学术语，但其物理意义却非常直观：整体通常大于（或不同于）其各部分之和。相互作用至关重要。

当我们为气候模型构建方程时，我们会在一个网格单元的体积上对它们进行平均。这是我们“像素化”视图的数学形式化，一个称为滤波的过程。而当我们将此平均滤波器应用于方程中的非线性项——特别是描述物质如何随流运动的项，即平流项——机器中便出现了一个幽灵。

让我们举一个具体的例子。我们想预测一个网格单元内的平均温度 $\overline{\phi}$ 。温度的变化取决于它如何被风 $\mathbf{u}$ 携带。相关的物理项是乘积 $\mathbf{u}\phi$ 。当我们对它进行平均时，我们得到 $\overline{\mathbf{u}\phi}$ 。问题在于，由于非线性，这与平均值的乘积 $\overline{\mathbf{u}}\,\overline{\phi}$ 是不同的。这个差值 $\boldsymbol{\tau}_\Delta = \overline{\mathbf{u}\phi} - \overline{\mathbf{u}}\,\overline{\phi}$ ，是一个在我们的平均化方程中凭空出现的新项。

这个项被称为次网格尺度通量或次网格相关，它代表了网格单元内所有未解析的风和温度的摆动和涡旋所完成的净输运。它是次网格过程对我们模型能够看到的大尺度流影响的数学体现。

问题就在这里：这个关键项依赖于我们的模型所看不到的未解析脉动量 $\mathbf{u}'$ 和 $\phi'$ 。我们关于已解析场 $\overline{\phi}$ 的方程现在包含了一个我们无法计算的未知数。方程组不再是自洽的；它不是“闭合的”。这个根本性的困境被称为闭合问题。我们有一套优雅的方程，但其中存在一个巨大的漏洞，一个我们必须以某种方式解释的幽灵。

参数化：一门为不可见建模的科学

为了解决闭合问题，我们必须找到一种方法来表示未知的次网格尺度通量。我们需要在已知的、已解析的世界和我们未知的、次网格的世界之间架起一座桥梁。我们必须创建一个配方，一个函数关系，仅使用模型中可用的已解析尺度变量来近似次网格尺度的影响。这个配方就是次网格尺度参数化。

这不是一个随意的凑数因子。这是一门“有根据的猜测”的复杂科学，它将物理直觉、数学理论和观测数据相结合，为不可见的世界建立一个合理的模型。参数化提供了谜题中缺失的一块，从而“闭合”方程，使模拟得以进行。

闭合的层级：从简单类比到复杂物理

如何构建一个参数化方案？答案并非唯一；相反，存在一个方法的层级体系，每种方法都有其自身的理念和复杂程度。

一阶闭合：扩散类比

最简单也最古老的想法是，假设微小、混乱的次网格涡旋的行为与气体中的分子非常相似。它们相互碰撞，混合热量和动量等属性，并倾向于平滑尖锐的差异。这引出了顺梯度扩散的概念。通量被假设为与已解析量梯度的负值成正比。例如，湍流热通量 $\overline{w'\phi'}$ 可以被建模为 $\overline{w'\phi'} \approx -K \frac{\partial\overline{\phi}}{\partial z}$ ，其中 $K$ 是一个“涡动扩散系数”。这被称为K-理论或一阶闭合。它计算成本低，并且在许多情况下效果尚可，但它是一个纯粹的局地模型，在湍流更有组织性的情况下可能会严重失效。

高阶闭合：赋予湍流记忆

有时，简单的扩散类比是不够的。次网格湍流的状态可能取决于流动的近期历史。为了捕捉这一点，我们可以采用高阶闭合。我们可以在模型中增加一个新的预报方程来预测湍流动能 ( $e = \frac{1}{2}\overline{u_i'u_i'}$ ) 的量，而不是仅仅诊断涡动扩散系数 $K$ 。这赋予了湍流一种“记忆”，然后涡动扩散系数可以成为这个预报能量的函数，即 $K \propto l \sqrt{e}$ ，其中 $l$ 是一个特征长度尺度。更复杂的方案甚至为通量本身求解预报方程，或者尝试预测次网格变量的整个概率密度函数 (PDF)。

基于物理的哲学 vs. 统计哲学

除了复杂性，我们还可以根据其指导哲学来区分闭合方案。一个基于物理的参数化方案试图直接根据过程的机理定律建立一个简化模型。例如，一个云微物理方案可能会使用源自液滴碰撞和热力学相变实验室研究的方程，将总云水等宏观量与降雨形成速率联系起来。

相比之下，统计参数化方案则持不同观点。它承认我们真正需要的是许多次网格事件的平均效应。例如，它可能会假设次网格湿度和垂直速度遵循某个概率分布，然后将微物理定律在该分布上积分，以求得网格平均效应。这种方法的一个强大而现代的体现是使用机器学习，通过在超高分辨率模拟或观测数据上训练神经网络，来学习从已解析状态到次网格效应的复杂非线性映射。

游戏规则：物理定律不可协商

无论参数化方案如何设计——无论它是一个简单的公式还是一个深度神经网络——它都是一个真实物理过程的替代品。因此，它必须遵守不可协商的物理定律。一个违反这些基本原则的模型不仅是错误的，而且是危险的，能够产生极其不符合物理规律的结果。

守恒定律： 参数化方案绝不能凭空创造或销毁在真实世界中守恒的量，例如质量、能量和水。这通常通过将参数化倾向表述为散度形式来确保，这在数学上保证了该过程只是移动一个量，而不是在全局上创造或销毁它。
能量一致性： 在大多数湍流中，能量从大尺度级串到小尺度，最终以热的形式耗散。因此，对该过程的参数化应该是耗散的，即从模型的已解析尺度中移除能量。如果一个参数化方案自发地向已解析流中注入能量，模拟可能会变得剧烈不稳定。这并不禁止模拟“反向散射”——在某些地球物理流中发生的能量从小尺度到大尺度的逆向级串——但这意味着必须以一种受控的、物理上一致的方式进行。
对称性： 物理定律拥有基本的对称性，我们的参数化方案也必须如此。一个关键的例子是伽利略不变性：湍流的物理特性不应取决于观察它的参考系的恒定速度。一个违反此原则的参数化方案是在学习一种表面的相关性，而不是一个基本的物理定律，并且在应用于其特定训练条件之外时很可能会彻底失败。

未知之地：在“灰色地带”中航行

参数化的整个概念建立在一个基本假设之上：尺度分离。我们假设未解析的过程比模型所能看到的已解析流小得多也快得多。这使我们能够将次网格世界视为一个对缓慢变化的大尺度环境做出瞬时响应的统计背景。

但是，当我们的计算机变得更强大，我们的网格单元缩小时，会发生什么？我们最终会进入可怕的“灰色地带”或“未知之地”。这是一个分辨率范围，其中网格单元大小 $\Delta x$ 变得与我们试图参数化的过程本身的特征大小相当。对于深对流，这个“灰色地带”通常位于大约 $1$ 公里到 $10$ 公里的网格间距之间。

想象一个半径为几公里的对流上升气流 $r_u$ 。在 $\Delta x \gg r_u$ 的粗网格上，云完全是次网格的，参数化方案工作良好。在 $\Delta x \ll r_u$ 的非常精细的网格上，模型可以明确地解析云的动力学。但是在 $\Delta x \approx r_u$ 的灰色地带，模型看到的是一个模糊、块状且通常极其不真实的云版本。尺度分离的假设崩溃了。为微小云的统计集合而设计的参数化方案，被网格产生的单个、部分解析的庞然大物搞糊涂了。模型的已解析动力学和参数化方案开始相互冲突，导致“重复计算”和错误行为。

解决这个关键问题的方案是开发尺度感知参数化。这些是更智能的方案，它们被明确设计为知道模型的分辨率。随着网格间距 $\Delta$ 减小，模型开始解析某个过程，一个尺度感知方案会优雅地逐渐减弱自身的影响，将责任移交给模型的显式动力学。这确保了在广泛的分辨率范围内行为的平滑和物理一致性。

拥抱不确定性：随机前沿

还有一个最终的、优美的复杂性层次。一个传统的、确定性的参数化方案是一个一对一的映射：对于给定的已解析状态，它为次网格倾向提供一个单一、唯一的值。但现实并非如此简单。对于完全相同的大尺度天气模式，隐藏的次网格湍流可能有多种组织方式，从而导致对大尺度产生一系列可能的影响。

随机参数化方案拥抱了这种内在的随机性。它们不是提供单一答案，而是将次网格倾向建模为一个随机过程，其统计特性以已解析状态为条件。这不仅仅意味着添加白噪声。它涉及构建一个复杂的随机分量，以反映真实次网格过程已知的变率、间歇性和相关结构。

从概率论的角度来看，确定性方案试图模拟次网格效应的条件均值（ $\mathbb{E}[\text{subgrid tendency} | \text{resolved}]$ ）。而随机方案更进一步，试图同时捕捉条件方差和其他高阶矩。这种方法承认了一个基本事实：我们对次网格世界的知识是不完整的。通过在模型中直接表示这种不确定性，我们可以生成更可靠的概率预报和更真实的气候模拟，从而更好地捕捉所有可能的未来范围。

应用与跨学科联系

在掌握了我们为何必须参数化未解析过程的基本原理之后，我们现在可以踏上一段旅程，去看看这些思想在实践中的应用。在这里，数学和物理的抽象概念变得鲜活起来，塑造着从我们的日常天气预报到我们对远古气候的理解的一切。次网格尺度参数化不仅仅是一种技术修复；它是连接我们的计算模型与自然世界错综复杂、多尺度现实的桥梁。它是教计算机去解释它所看不到的东西的艺术。

无形之吼：大气和海洋中的湍流

让我们从空气与地球相遇的地方——大气边界层——开始。这是一个充满混乱、旋转湍流的领域。如果你曾看过烟囱里冒出的滚滚浓烟，或奶油在咖啡中旋转，你就目睹了湍流。造成这种混合的涡旋和漩涡，对于一个网格单元可能有数公里宽的天气模型来说，实在太小太快，无法捕捉。

一个只知道分子粘性的模型会错得离谱。它会预测风的动量会以蜗牛般的速度向下混合到地表。实际上，湍流涡旋就像巨大、无形的手，从高处更快的气流中攫取动量，并以惊人的效率将其拖拽到地表。参数化通过创造一个名为“涡动粘性”的概念来表示这一点。这不是空气本身的属性，而是流动的属性。计算表明，这种湍流涡动粘性可以比空气固有的分子粘性大一千万倍。如果不考虑这种强大的次网格输运，我们的模型甚至无法开始模拟我们感受到的风。

同样的故事也发生在海洋中，但有一个关键的转折。海洋因密度而强烈分层，并受到地球自转的影响。搅动一个水团水平移动要比克服重力将其向上或向下推容易得多。一个简单的、单一的“涡动扩散系数”数字是不够的。相反，海洋学家使用一个更复杂的数学对象——一个张量——来表示混合的各向异性 [@problem-id:3807222]。这个张量参数化就像一套规则：“在水平方向上剧烈混合，但在垂直方向上非常温和地混合。”此外，这些参数化必须遵守一个基本的物理定律：它们必须始终是耗散的。也就是说，次网格湍流必须总是起到平滑大尺度流中梯度的作用，绝不能自发地创造梯度，从而确保模型不违反热力学第二定律。

幽灵山之拖曳与重力波之低语

现在，考虑一个山脉。一个粗糙的气候模型，网格单元宽达50公里，可能会将崎岖的 Rocky Mountains 平滑成一系列平缓的、连绵起伏的山丘。然而，真实的大气感受到了那些尖锐、未被解析的山峰。在这里，我们遇到了两种不同类型的次网格拖曳力。

第一种是“表面摩擦”，即由树木、岩石和建筑物等小尺度粗糙度产生的拖曳力，它通过“粗糙度长度” $z_0$ 进行参数化。第二种，更具戏剧性的效应是“形状阻力”。这是一个未被解析的山脉或山脊的迎风面和背风面之间的压力差。模型的网格看不到这座山，但必须被告知这个“幽灵山”所施加的巨大拖曳力。

故事并未就此结束。未被解析的山脉不仅仅是减缓地表附近的风速。当稳定的空气流过它们时，它们会产生“重力波”——一种垂直传播的波动，很像池塘表面的涟漪水平扩散。这些波携带动量向上，悄无声息地穿过对流层进入平流层。在那里，随着空气变稀，波的振幅增大并最终破碎，就像海浪拍打在沙滩上一样。这种破碎沉积了大量的拖曳力，深刻地影响着中层大气的全球风型，包括平流层极地涡旋。我们的模型不仅必须参数化由次网格山脉产生的这些波，还必须参数化它们在数英里高空的传播和破碎。

这对理解过去的气候有着惊人的启示。在大约21000年前的末次冰盛期，数千米厚的巨大冰盖覆盖在 North America 和 Eurasia 的山脉之上。从大气的角度来看，这些山脉实际上更高更宽了。一个古气候模型必须认识到，这种改变了的次网格地形激发了更强的重力波谱。这些波反过来又驱动了与今天不同的平流层环流。冰河时代的气候，部分是由这些无形波浪的参数化低语所塑造的。

从无到有编织云朵

也许最著名的次网格过程是云的形成。一个典型的雷暴可能只有几公里宽，而一个全球气候模型的网格单元可以有一百公里宽。模型无法“看见”雷暴，因此必须参数化其集体效应：剧烈的热量和水汽向上输送、降水的形成，以及阻挡阳光的砧状云的扩展。

这导致了一个引人入胜的现代问题，即所谓的“灰色地带”。当我们的模型分辨率提高到，比如说3公里时，会发生什么？现在，网格单元的大小与雷暴差不多。这个过程不再完全是次网格的，但也没有被完全解析。旧的参数化方案会惨败，常常通过在一个部分解析的风暴之上添加一个参数化的倾向来“重复计算”风暴的影响。设计新的“尺度感知”参数化方案，使其知道如何随着网格解析过程而优雅地关闭自己，是大气科学的一个主要前沿领域。

其中的精妙之处甚至更深。想象一下，我们决定参数化干空气混入积云边缘的影响。这种混合在亚毫米尺度上是如何发生的？一种可能是“均匀混合”，即卷入的干空气均匀混合，导致每个云滴都略微收缩。另一种是“非均匀混合”，即干空气蒸发了云边缘的整团液滴，而云核心的液滴则未受影响。这两种次网格情景的选择会产生宏观后果：第一种情况，有许多更小的液滴，会抑制降雨的形成。第二种情况，液滴数量较少但较大（因为较小的液滴被消除了），则会加速降雨 [@problem_-id:4111383]。一个成功的参数化方案必须捕捉到次网格过程的本质，而不仅仅是其对水量收支的总体影响。

侦探故事：追踪模型偏差

我们如何知道我们的参数化方案是否好用？我们变成了气候侦探。想象一个气候模型在热带地区存在持续的“冷偏差”——它模拟出的温度总是比观测到的要冷。为了找到罪魁祸首，科学家们可以在一个小区域内运行一个极其精细的高分辨率模拟，该模拟能明确地解析对流。这可以作为我们的“地面实况”。

通过将这个实况模拟的数据粗粒化到与全球模型相同的分辨率，我们可以逐项直接比较它们的能量收支。在这样一个案例研究中，侦探工作可能会揭示，模型中的辐射冷却和来自大尺度环流的冷却大致正确。但是，来自对流参数化的加热却远远不够。参数化方案失败了。通过使用一种“尺度感知”诊断工具——一个可以测量对流加热中有多少比例真正发生在次网格尺度的工具——我们可以精确定位缺陷。也许该参数化方案是为一个更粗糙的模型设计的，错误地假设了网格会比物理上可能解析的更多对流。这种严谨的、基于收支的归因方法，使科学家能够系统地识别和修复他们模型中隐藏的缺陷。

超越天气：一个统一的原则

次网格尺度问题并非大气和海洋所独有。它是复杂系统建模中的一个普遍挑战。考虑湖泊或海洋底部沉积物的生物地球化学过程。一个模型的网格可能在厘米尺度上。但在该网格单元内，有数百万个微小的“微团聚体”——由粘土、有机物和矿物组成的团块——每个只有几分之一毫米大小。

这些团聚体是微小的、自成体系的生物反应器。来自上方的含氧水可能只能穿透团聚体的外壳，使其核心保持缺氧状态。这使得在充分混合的环境中不可能发生的耦合反应得以进行：硝化细菌可以在好氧的外壳中将铵转化为硝酸盐，然后这些硝酸盐可以扩散到缺氧的核心，在那里反硝化细菌将其转化为氮气。为了准确地模拟碳、氮和磷的宏大循环，科学家们必须参数化所有这些未解析的、次网格尺度的化工厂的净效应。

新前沿：教机器看见无形

如果从物理理论创建这些参数化方案如此困难，我们能否教计算机来为我们完成这项工作？这就是数据驱动参数化的激动人心的前沿，通常使用机器学习和神经网络。

这个想法在概念上很简单。我们运行一个超高精度的“真实”模拟，该模拟解析了感兴趣的过程，如湍流或对流。然后，我们训练一个神经网络，以找到粗粒化的、已解析的变量（气候模型能看到的东西）与缺失的次网格效应（它看不到的东西）之间的统计关系。

这种方法功能强大，但也充满风险。在设计训练过程时必须格外小心，以避免“目标泄漏”或循环推理。例如，你不能使用一个根据真实湍流通量计算出的湍流稳定性参数作为输入来预测这些通量，因为在推理时，模型不会预先知道通量。

然而，最深刻的挑战是反馈问题。一个神经网络在“离线”测试中可以被训练得惊人地准确，即给定一组固定的输入，其预测与真实值进行比较。但是，当您将这个“完美”的模拟器插入一个实时的气候模型（“在线”测试）时，它可能导致整个模拟变得剧烈不稳定并崩溃。原因是，即使是预测中微不足道的错误也可能推动模型的状态。这个新状态随后被反馈到模拟器中，模拟器可能会产生一个略有不同的错误，将模型进一步推离其训练时所依据的气候。这个反馈循环，即模拟器的错误改变其自身的未来输入，可能导致灾难性的漂移。驯服这些反馈以创建稳定可靠的机器学习参数化方案，是当今计算科学中尚未解决的重大问题之一——这证明了我们试图理解的世界的美丽和令人谦卑的复杂性。