科学建模中的次网格尺度过程

玻尔百科

定义

科学建模中的次网格尺度过程是指在计算模拟中尺度小于网格分辨率的物理现象，这在气候模拟等大规模模型中引发了闭合问题。为了处理这些无法直接解析的过程，科学家利用参数化技术根据已解析变量来表征其净效应，并要求其符合基本的物理守恒定律。目前的研究方向包括利用随机参数化来表现不确定性，以及结合机器学习与因果框架来开发更精确的尺度觉察参数化方法。

核心要点

像气候模型这样的大尺度模拟无法解析比其计算网格尺寸更小的物理过程，这导致了“闭合问题”。
参数化是利用模型的解析变量来表示这些不可见的次网格尺度过程净效应的关键技术。
确定性参数化假设尺度之间存在明显的分离，而随机参数化则用于表示固有的随机性和不确定性，尤其是在“灰色地带”中。
有效的参数化必须遵守基本的物理定律，如守恒原理和正定性，以保持物理上的一致性。
将机器学习与因果框架相结合，为开发更准确、更可靠的尺度感知参数化方案提供了一个有前景的新方向。

引言

在我们探索模拟全球气候或洋流等复杂系统的过程中，我们面临一个根本性的限制：计算模型只能“看到”一定的分辨率。它们将世界划分为一个个网格框，描述框内的平均物理状况，但对于发生在比单个网格框更小尺度上的纷繁活动却一无所知。这些就是次网格尺度过程——从单个雷暴到湍流海洋涡旋——尽管它们在模型的网格上不可见，但其集体影响却是巨大的。忽略它们会导致不准确和不切实际的预测，从而在科学建模中产生了一个被称为闭合问题的根本性挑战。本文将深入探讨科学家们如何应对这一挑战。

在接下来的章节中，我们将深入探讨这个建模困境的核心。关于原理与机制的章节将揭示闭合问题的数学根源，解释为何未解析的尺度在我们的方程中留下了“幽灵”，以及参数化的艺术如何试图表示其影响。我们将探讨这些技术从简单的确定性近似到拥抱自然界内在随机性的复杂随机方案的演变过程。随后，关于应用与跨学科联系的章节将揭示次网格尺度建模的普遍重要性，展示这一挑战如何将从海洋学、生物地球化学到数据同化和人工智能前沿的多个不同领域联合起来，证明理解无形之物是预测我们世界的关键。

原理与机制

盒子里的世界：为何我们无法看到一切

想象一下你想预测天气，不是整个地球的天气，而仅仅是一个巨大、空旷的教堂内部。你可能决定在一个网格上放置温度计和风速传感器，比如每十米一个。现在你可以描述从阳光普照的彩色玻璃窗流向凉爽石砌小礼拜堂的宏大、缓慢移动的气流。但你错过了什么？你错过了因有人走过而产生的微小湍流，蜡烛火焰升起的闪烁热量，以及门下的气流。你的网格太粗糙，无法“看到”它们。

这是任何大尺度模拟（无论是海洋、大气还是气候）的根本现实。我们铺设一个计算网格，即一组覆盖世界的方块。我们的模型只能明确描述这些方块内部和它们之间的平均变化。任何特征尺度小于网格框的过程——单个雷暴、小型海洋涡旋、边界层中的湍流混合——对网格来说都是不可见的。这些就是次网格尺度过程。

为了更精确地讨论这一点，物理学家使用一个优美的数学工具，称为滤波。想象任何一个场，比如海洋中水的速度 $\boldsymbol{u}$ 。我们可以认为它由两部分组成。一部分是我们的网格可以看到的平滑、大尺度的部分，我们称之为解析场 $\overline{\boldsymbol{u}}$ 。另一部分是其他的一切：剩下的那些小尺度的、湍流的、快速变化的部分，我们称之为未解析场或次网格场 $\boldsymbol{u}'$ 。因此，总速度就是两者的简单相加： $\boldsymbol{u} = \overline{\boldsymbol{u}} + \boldsymbol{u}'$ 。滤波是一种数学运算，当应用于真实场 $\boldsymbol{u}$ 时，能得到平滑的解析部分 $\overline{\boldsymbol{u}}$ 。

选择网格尺寸并非失败的标志，而是一个必要的选择。我们总是被迫决定我们想看清什么，以及我们愿意让什么保持模糊。墨西哥湾流的壮丽舞姿？我们想看到。鱼尾摆动产生的个别涟漪？我们必须放手。但正如我们即将看到的，我们看不见的东西并不会凭空消失。它们在我们的方程中留下了幽灵。

未偿之债：机器中的幽灵

物理定律，如动量或能量守恒，是我们模型的基础。它们以方程的形式表达，告诉我们各种量如何随时间变化。流体方程的一个关键特征是它们是非线性的。这个听起来无害的词是我们所有麻烦的根源，也是湍流丰富性的源泉。它的意思是变量会与自身相乘。例如，动量随流体流动的输运速率——一个称为平流的过程——涉及速度乘以速度这样的项，例如 $u_i u_j$ 。

让我们看看当我们将滤波器应用于这个非线性项时会发生什么。我们想要一个关于解析流 $\overline{\boldsymbol{u}}$ 的方程，所以我们对整个方程进行滤波。平流项的滤波结果是 $\overline{u_i u_j}$ 。现在，问题的关键，也是整个问题的数学核心在于：乘积的平均值不等于平均值的乘积。

$\overline{u_i u_j} \neq \overline{u_i} \, \overline{u_j}$

这是一个极其重要的不等式。如果你不相信，可以想一个简单的例子。假设街上的风有一个向东吹的 $1$ m/s 的大尺度分量 ( $\overline{u}=1$ )，以及一个在 $+2$ m/s 和 $-2$ m/s 之间波动的湍流阵风分量 ( $u'$ )。因此，总风速 $u$ 有时是 $3$ m/s，有时是 $-1$ m/s。速度的平均值是 $\overline{u}=1$ 。但速度平方的平均值 $\overline{u^2}$ 是多少？它是 $(3^2)$ 和 $(-1^2)$ 的平均值，即 $\frac{9+1}{2} = 5$ 。这与平均速度的平方 $(\overline{u})^2 = 1^2 = 1$ 是不一样的。这个差值 $5-1=4$ 来自于波动！

当我们写下解析流 $\overline{\boldsymbol{u}}$ 的方程时，这个不等式迫使我们引入一个新项，这是对未解析世界的一笔未偿还的债务。这个项通常被称为次网格尺度（SGS）应力，定义为 $\boldsymbol{\tau}_{ij} = \overline{u_i u_j} - \overline{u_i} \overline{u_j}$ 。它代表了那些我们试图预测的大尺度流所受到的，由微小的、未解析的涡旋施加的净推动力——即动量输运。我们关于解析流的方程现在包含了一个“幽灵”项，这个项依赖于我们明确决定忽略的未解析变量。这就是著名的闭合问题。我们的方程组是不闭合的；我们有比方程更多的未知数（如 $\boldsymbol{\tau}_{ij}$ ）。

参数化：偿还债务

我们不能简单地忽略这种次网格应力。对大气或海洋中能量的仔细分析表明，与这些次网格运动相关的能量是巨大的。它们对解析流施加的力并非微不足道的修正；其强度可以与我们确实解析的主要驱动力相媲美。忽略它就好比在做家庭预算时忽略了抵押贷款。结果将纯属幻想。

所以，我们必须找到一种方法来“偿还这笔债务”。这就是参数化的目标：一门艺术与科学，旨在用我们确实知道的解析变量来表示未解析的次网格尺度过程的净效应。开发这种方案以闭合方程的过程被称为闭合。

在现代气候或天气模型的机制中，这是通过优美的模块化方式处理的。模型的预报状态向量——定义模型世界的所有数字的列表， $\boldsymbol{X}$ （风、温度、压力、湿度等）——通过以下形式的方程向前演变：

$\frac{d\boldsymbol{X}}{dt} = \mathcal{M}(\boldsymbol{X}) + \mathcal{P}(\boldsymbol{X})$

在这里， $\mathcal{M}(\boldsymbol{X})$ 是动力核心，它计算由所有解析过程（如大尺度平流和科里奥利力）引起的倾向。第二项 $\mathcal{P}(\boldsymbol{X})$ 是“物理”包。这里包含了我们所有的参数化方案。它计算所有次网格过程（湍流、对流、云形成、辐射）引起的倾向。在每个时间步，模型首先计算来自动力核心的解析倾向，然后调用物理包，加上来自未解析世界的参数化倾向。这通常通过巧妙的时间分裂方案来完成，以确保数值的稳定性和准确性。

近似的艺术：从确定性到随机性

我们如何构建一个参数化方案 $\mathcal{P}(\boldsymbol{X})$ ？最早、最简单的想法基于一个关键假设：尺度分离。我们假设次网格涡旋非常小，并且相对于我们正在解析的大尺度流演变得非常非常快。想象一下咖啡杯中奶油缓慢而壮观的漩涡与水分子狂乱的微观抖动之间的关系。分子运动是如此之快，以至于它看起来只是奶油平滑、可预测的扩散。

这个时间尺度上存在巨大差距的假设，即 $\tau_{\mathrm{sg}} \ll T_{\mathrm{res}}$ ，为确定性参数化提供了依据。我们将快速、微小的涡旋的净效应建模为与缓慢、宏大的流场处于瞬时平衡状态。它们的影响被表示为解析状态的一个单一、确定的函数。例如，许多方案将SGS应力建模为一种摩擦形式，一种“涡粘性”，它耗散解析流的能量，就像分子粘性在更小尺度上耗散能量一样。

但自然界往往更为微妙。当尺度分离的假设不成立时会发生什么？这在现代高分辨率模型中经常发生。例如，如果我们的网格尺寸是几公里，它就与单个雷暴的大小相当。这就是可怕的对流“灰色地带”，模型的网格太粗糙以至于无法明确解析风暴，但又太精细以至于传统参数化的假设无法成立。模型试图创造一个笨拙的、网格大小的风暴，这通常会导致非常差的预报。

此外，次网格世界的影响可能不是一个简单的、平滑的平均值。它可能是间歇性的，充满了爆发性活动。单一的平均值会错过这种可变性。这引出了建模中最激动人心的前沿之一：随机参数化。参数化方案不再为次网格倾向提供单一的答案，而是从一个可能倾向的概率分布中进行随机抽取。这种方法承认了关于不确定性的两个更深层次的真理：

偶然不确定性：这是宇宙固有的、不可简化的随机性。次网格世界是混沌的。我们永远无法预测所有湍流涡旋的确切状态。一个向倾向中添加依赖于状态的随机噪声的随机方案，旨在表示这种基本的可变性。这就像中的设计（i）。例如，随机对流方案可能会在一个不稳定的网格单元中随机触发一场风暴，从而更好地模仿真实对流的偶发性。
认知不确定性：这是我们自身知识的缺乏。我们的参数化模型是不完美的，我们不知道其中参数的确切值。另一种随机方案通过运行具有从概率分布中抽取的略微不同参数的不同集合成员来表示这种不确定性。这就像中的设计（ii）。

一个优美的随机方案例子是随机扰动动能反向散射（SKEB）模型。简单的类摩擦参数化总是从解析流中移除能量。但在真实的湍流中，能量有时会“反向”流动，从小尺度流回大尺度。SKEB通过添加一个精心构造的随机强迫，将能量注入回解析流中，从而模拟了这一点，带来了更真实的可变性和风暴发展。

保持真实：物理约束

当我们构建这些日益复杂的参数化方案时，我们绝不能忘记一件事：它们是对现实的近似，并且它们绝不能违反基本的物理定律。它们不能仅仅是数学上方便，还必须是物理上一致的。

考虑一种被动示踪剂，比如大气中的一缕烟或海洋中的盐分。平流和混合的真实物理过程只能移动示踪剂并使其平滑。它们绝不可能凭空创造出一股新的烟雾，或者一片比其周围任何地方都咸的水域。示踪剂浓度的最大值和最小值只能减小（由于混合）或保持不变（由于纯平流）。

这对我们的参数化方案施加了强大的约束。任何数值方案，包括参数化的通量，都必须满足正定性（如果示踪剂是浓度，它不能变为负值）和单调性（方案不得创造新的、不符合物理的极大值或极小值）。这通常通过设计方案来实现，使得网格单元中的新值是其邻域在前一个时间步长值的加权平均——一个凸组合。这确保了新值被旧值所界定。

这不仅仅是一个数值上的技巧，它是热力学第二定律的反映。混合是一个增加熵的不可逆过程；它使事物变得平滑。一个创造新极值的参数化方案将是一个“反混合”过程，即熵的局部减少，这在物理上是被禁止的。因此，即使在计算建模的抽象世界里，最深刻的物理定律依然主导一切，指引着我们去捕捉构成我们世界的复杂尺度之舞。

应用与跨学科联系

我们为什么要为那些我们看不见的东西而烦恼？在我们模拟地球系统的探索中，从后院的天气到全球气候的宏伟画卷，我们的计算机将世界划分为一个个离散的方格。它们在这些方格内求解优美的物理方程，但对于在比单个方格更小尺度上发生的纷繁活动却视而不见。这就是“次网格”世界。这似乎只是一个技术细节，一个可以置之不理的麻烦。但事实远非如此。次网格世界并非一片空白；它充满了必要的物理、化学和生物过程，其集体声音之响亮，足以引导整个系统的行为。

忽略这个无形的领域，就是创造一个不存在的世界的模型。相反，科学家们已经学会了成为艺术家和侦探，利用物理原理和统计推理来描绘次网格世界的肖像，并推断其对我们能解析的尺度的影响。这项工作，即次网格尺度过程的参数化，并非一个狭窄的专业领域。它是一个统一的主题，回响在众多令人惊叹的科学学科中，推动着我们理解和预测能力的边界。让我们踏上旅程，探索其中一些联系，看看与无形之物作斗争是如何带来现代科学中一些最深刻的见解和最强大的技术的。

尺度的暴政：为何我们无法逃离次网格世界

我们被迫面对次网格世界的根本原因，是自然界运作所跨越的惊人尺度范围。思考大气或海洋中的湍流。流体流动的“狂野”程度由一个称为雷诺数 $Re$ 的无量纲数来捕捉。对于地球的气候系统，这个数字是天文数字般的高。这意味着能量从大陆尺度的天气系统，通过一个令人眼花缭乱的、由越来越小的涡流、漩涡和阵风组成的层级，一路级联向下，直到粘性最终在微观尺度上将其抹平。

我们能否建造一台足够强大的计算机来看到这一切？来自湍流理论的一个简单标度律告诉我们一个发人深省的真相。对于一个网格尺寸为 $\Delta$ 、区域大小为 $L$ 的模型，次网格过程变得显著的临界雷诺数遵循 $Re_{L, \mathrm{crit}} \propto (L/\Delta)^{4/3}$ 的标度关系。这告诉我们，要解析一个日益湍流的世界（增加 $Re_L$ ），我们所需的分辨率 $\Delta$ 必须急剧缩小。计算成本是如此巨大，以至于明确模拟地球大气中完整的运动范围，在所有实际目的上都是不可能的。我们注定对小尺度视而不见。

这个“尺度鸿沟”不仅仅是一个抽象概念；它是科学家们日常面临的实际问题。一个最先进的全球气候模型可能具有 $\Delta_G = 100 \text{ km}$ 的网格间距。根据基本的奈奎斯特采样定理，该模型可能表示的最小波长是 $\lambda_{\min} = 2\Delta_G = 200 \text{ km}$ 。现在，考虑一个决定局部降雨的过程：气流越过一个特征宽度仅为 $1 \text{ km}$ 的山脉。对全球模型而言，这个山脉及其相关天气是不存在的；它们完全是次网格的。为了获得与局部影响相关的信息，我们必须跨越这个百倍的尺度差距，这项任务落在了“降尺度”技术上。挑战是明确的：如果我们的模型要有价值，它们必须以某种方式解释其网格框内发生的世界的影响。

参数化的艺术：描绘无形

如果我们无法解析次网格过程，就必须对它们进行参数化。这不是随意的猜测；它是一种优美的艺术形式，其指导笔触来自于基本的物理原理。目标是构建一个“闭合”，一个“模型中的模型”，它用大尺度的、可解析的变量的函数来表示所有未解析的、次网格尺度活动的总效应。

一个经典的例子来自海洋学。如果你搅拌一杯咖啡，奶油或多或少会向所有方向均匀混合。然而，海洋不是一杯简单的咖啡。它是一种旋转的、层化的流体。行星的自转倾向于使流体运动组织成垂直的柱状（一种称为 Taylor-Proudman 定理的效应），而层化——即更冷、更咸、更密的水位于更暖、更淡、更轻的水之下——使得垂直混合在能量上非常困难。涡旋沿等密度面水平搅拌物质要比跨越这些面容易得多。

一个物理上忠实的参数化必须反映这种深刻的各向异性。因此，海洋模型采用一个“涡扩散张量”，用一个比垂直混合 ( $K_v$ ) 大得多的水平混合值 ( $K_h$ ) 来表示次网格涡旋的混合效应。在海洋的许多地方， $K_h/K_v$ 的比率可以达到一千万比一！这个数字不是凭空捏造的；它是一个旋转、层化流体物理学的直接结果。更先进的方案甚至将混合主要沿这些等密度面（isopycnals）进行，从而为次网格世界提供了更为物理真实的描绘。

同样的原理远远超出了流体动力学的范畴。在生物地球化学中，研究人员构建“反应输运”模型来理解养分如何在土壤和沉积物中循环。一个模型的网格间距可能是一厘米，但许多关键的微生物活动发生在仅为几分之一毫米的土壤“微团聚体”内。在这些微小的世界里，存在着陡峭的化学梯度。氧气可能存在于团聚体的外部，但在内部被微生物完全消耗，形成一个缺氧核心。这使得像硝化作用（需要氧气）这样的耦合过程可以在外壳发生，为核心的反硝化作用（需要无氧环境）提供硝酸盐。厘米尺度的模型无法看到这场亚毫米级的戏剧，因此必须构建一个参数化方案来表示其对碳、氮、硫和磷循环的净效应。在每个领域，情况都是一样的：我们参数化方案的结构，是我们对不可见世界物理理解的反映。

拥抱不确定性：随机革命

经典的参数化方法，尽管在物理上很优雅，但常常带有一个隐藏的确定性假设。它假定对于一个给定的大尺度状态，只有一个单一的、确定的次网格响应。但如果次网格世界本质上是不确定的或混沌的呢？现代科学越来越接受一种新的哲学：如果你不知道答案，就承认它，并量化你的不确定性。这导致了随机参数化的兴起。

考虑在天气模型中触发对流——产生雷暴的过程——这个难题。一个网格单元可能充满了适合对流的暖湿空气，但风暴是否真的会启动，可能取决于一个模型无法看到的微小随机扰动。随机方案不是采用僵化的确定性规则（例如，“如果不稳定度超过阈值，就产生一个风暴”），而是分配一个概率。它可能会说，“在这些条件下，有70%的几率会启动对流。”在一个包含多次模型运行的集合预报中，这意味着一些成员会发展出风暴，而另一些则不会，从而创造出更真实、更可靠的可能天气结果的分布。

对随机性的这种拥抱带来了更深刻的物理见解。当次网格随机“抖动”的强度本身依赖于大尺度状态时——即所谓的乘性噪声——非同寻常的事情就会发生。这就是 Itô 与 Stratonovich 随机微积分的世界。当一个物理系统用这种依赖状态的噪声建模时，仔细的分析揭示了一个隐藏的确定性倾向，一个在更简单模型中不存在的“噪声诱导漂移”。这个项的形式为 $\Delta a(x) = -\frac{1}{2} b(x) b'(x)$ ，代表了从快速、波动的次网格尺度到缓慢、解析的平均状态的系统性反馈。这是一种整流效应：随机性并不仅仅是平均为零，而是产生了一个净推动力。就好像一群在一条越来越窄的走廊里随机推搡的人，发现自己被推搡本身系统地赶向了一个方向。这揭示了尺度间的相互作用可能是极其违反直觉的，混沌的次网格世界能够在更大尺度上施加一种微妙的秩序。

数字孪生及其阴影：数据同化与人工智能

随着我们的地球系统模型变得越来越复杂，它们成为了我们星球的“数字孪生”。然而，这些数字孪生中的每一个都有一个阴影自我：其庞大、不确定的次网格参数化世界。我们如何将这些不完美的模型与来自卫星、气象站和海洋浮标的大量真实世界观测数据相协调？这就是数据同化的领域。

像卡尔曼滤波器这样的数据同化框架，通过统计的视角来看待这个问题。模型预报与现实之间的差异来自两个方面：观测误差和模型本身的误差。模型误差 $w_k$ 的一个巨大组成部分，源于我们对次网格过程的不完美表示。这个误差不是一个单一的数字，而是一个复杂的实体，有其自身的方差和相关性，被捕捉在一个协方差矩阵 $Q$ 中。它的统计特性通常通过援引中心极限定理来证明：总的次网格误差是大量微小的、异质的、弱相关的误差源（从湍流到云微物理）的总和，因此其总和分布可以近似为高斯分布。数据同化是一门高深的艺术，它利用我们模型“阴影自我”的这种统计特征，智能地利用传入的观测数据来修正模型的轨迹，从而产生对真实世界状态的最佳估计。

这将我们带到了科学的前沿：次网格建模与人工智能的交集。我们能否教机器直接从高分辨率数据或观测中学习次网格物理？前景是巨大的，但陷阱也同样巨大。一个天真的机器学习模型可能会学到虚假的关联，如果任其在气候模型中运行，可能会导致它违反质量或能量守恒等基本定律，从而导致灾难性的失败。

为了安全地探索这一前沿，科学家们正在转向因果关系的语言。结构因果模型（SCM）为表示一个混合物理-机器学习模型提供了严谨的框架。用数据驱动的机器学习代理替换基于物理的参数化方案，被构建为一个正式的因果干预，用 Pearl 的 $\operatorname{do}$ -算子表示。这种方法确保了当我们进行这种“模型手术”时，我们以一种模块化的方式进行，尊重物理学的不变定律并强制执行必要的约束。当模型进入分辨率的“灰色地带”时——例如，在对流允许模型中，雷暴既未被完全解析也非完全次网格——这种因果视角尤其重要。在这里，参数化方案必须是“尺度感知的”，随着网格变得足够精细以明确解析该过程时，平滑地减少自身的贡献。学习这种复杂的、依赖尺度的函数是一个挑战，而由物理学和因果关系原理指导的机器学习可能掌握着关键。

次网格尺度过程的故事是科学探索本身的缩影。这个故事始于对我们自身局限的谦卑认识，通过创造性地应用基本原理来阐明未知，发展到今天，我们正处在一个激动人心的前沿，在这里，我们对物理、不确定性和因果关系进行推理的能力正与人工智能的力量相结合。这是我们能看到的与我们只能推断的之间一场持续、演变的对话——这场对话不断丰富着我们对所居住的这个复杂而美丽世界的理解。