数据驱动的天气预报

玻尔百科

核心要点

数据驱动的天气预报将经验数据与机理模型相结合，以修正系统性偏差并提高预报准确性。
物理-机器学习混合模型将机器学习嵌入到物理模拟中，利用约束来强制执行能量守恒等基本定律。
现代预报生成能够量化不确定性的概率性输出，使预报更加可靠，对风险管理也更有用。
混合建模的原则具有普适性，适用于气象学之外的复杂系统，例如预测电池退化。

引言

数个世纪以来对天气预报的追求，在数据与物理定律融合的推动下，已进入一个革命性的新阶段。虽然基于物理学第一性原理建立的传统数值天气预报（NWP）模型是里程碑式的成就，但它们在处理次网格尺度过程和系统性偏差方面仍面临着持续的挑战。这造成了一个知识鸿沟，纯粹的机理方法在此显得力不从心。数据驱动方法提供了一个强有力的解决方案，它并非要取代物理学，而是要增强物理学。本文探讨了这种动态的综合方法。在第一章“原理与机制”中，我们将剖析混合建模背后的基本概念，从统计误差校正到将机器学习直接嵌入物理模拟中，同时尊重基本定律。随后的“应用与跨学科联系”一章将展示这些原理在实践中如何应用于创建可靠、具备不确定性意识的预报，以及这一新范式如何远远超出了大气的范畴。

原理与机制

要真正领会数据驱动天气预报的革命性，我们必须首先退后一步，问一个根本性问题：对世界进行“建模”意味着什么？在科学的宏大舞台上，两大传统长期以来占据主导地位。一方是机理模型，即由第一性原理构建的宏伟的钟表宇宙。另一方是经验模型，即从观测中直接学习模式的巧妙黑箱。

建模的两大支柱

想象一下建立一个行星轨道的模型。遵循 Newton 精神的机理方法是写下万有引力定律 $\mathbf{F} = G \frac{m_1 m_2}{r^2} \hat{\mathbf{r}}$ ，并求解由此产生的微分方程。这个模型的参数——引力常数 $G$ 、质量 $m_1$ 和 $m_2$ ——并非任意的拟合常数；它们是我们可以测量的、具有物理意义的量。这些模型之所以强大，是因为它们编码了我们对宇宙因果机制最深刻的理解。它们允许我们提出“如果……会怎样？”的问题，并模拟前所未见的场景。传统的数值天气预报（NWP）模型正是这一理念的巅峰之作，它们是流体动力学、热力学和辐射传输的复杂交响曲，全部植根于物理定律。

经验方法则根本不同。它对底层机制的假设要少得多。相反，它观察行星随时间变化的位置，并寻找一个能最佳拟合这些观测结果的数学函数。这个函数可以是一个简单的多项式，也可以是一个复杂的神经网络。模型的参数被调整的目的仅仅是为了最小化其预测与观测数据之间的误差。它擅长于内插——在其已经见过的数据范围内进行预测——但其外推到新情况的能力并无保证。它学习的是相关性，而不一定是因果关系。

几个世纪以来，天气预报一直是机理物理学家的专属领域。但是，当物理方程变得过于复杂，或者当某些过程太小、太快以至于我们的模型无法解析时，会发生什么？当我们宏伟的钟表模型存在一个微小但持续的误差时，又会发生什么？这正是经验传统隆重登场之处，它不是作为竞争对手，而是作为一个强大的合作伙伴。数据驱动的天气预报并非要抛弃物理学，而是要用数据让物理学变得更智能。

站在巨人的肩膀上：统计后处理

在天气预报中，数据驱动方法最直接、最广泛的应用是一种称为统计后处理的技术。想象一个在超级计算机上运行的、覆盖整个大陆的大规模 NWP 模型。它在捕捉大气大尺度环流方面做得非常出色，但它在你当地的气象站可能存在持续的偏差。也许是因为它没有完美地表征附近的山丘或城市热岛效应，其2米气温预报在冬季平均偏低半度。

我们是否需要重写整个数百万行的物理代码来修正这个问题？不需要。我们可以利用数据。这就是模式输出统计（MOS）背后的思想。对于一个特定地点，我们可以收集该模型长期的预报历史（我们称之为预测因子向量 $X$ ）和实际发生的观测天气（变量 $Y$ ）。然后，我们建立一个简单的统计模型——通常只是一个多元线性回归——来学习它们之间的关系。

本质上，我们正在学习这个问题的答案：“鉴于大型模型预报为 $X$ ，真实天气 $Y$ 最可能的分布是什么？”我们正在学习修正物理模型的系统性误差。使用来自确定性 NWP 模型的原始、未校正的输出，就像做出了一个大胆的假设，即其预报是唯一可能的结果——一个退化的概率分布， $P(Y \mid X) = \delta_{g(X)}$ ，其中预报是单个值 $g(X)$ 。相比之下，MOS 承认模型是不完美的，并利用历史数据来构建一个更现实的、捕捉了各种可能结果范围的概率性预报。

当然，这个过程也无法避免数据带来的混乱现实。我们用于验证的温度计存在测量误差，从而产生标签噪声（ $Y_{\mathrm{obs}} = Y_{\mathrm{true}} + \varepsilon_{y}$ ）。如果这种噪声是随机且零均值的，它往往会在长期内被平均掉，不会使我们的模型产生偏差，尽管它会使学习任务变得更加困难。一个更微妙的问题是，模型输出本身就是对真实大气状态的一个含噪声的预测因子，这个问题被称为变量误差。用含噪声的输入来训练模型，会系统性地“削弱”学到的关系，本质上使模型的预测过于保守——这种现象被称为回归稀释。

此外，我们经常对数据应用质量控制（QC），丢弃那些看起来“坏”的观测值——例如，当观测值与模型预报差异巨大时。但这可能会引入一种有害的选择偏差。如果我们只在主要 NWP 模型已经表现得相当好的情况下训练我们的校正模型，我们就没有教会它如何处理 NWP 模型严重失败的情况。这实际上相当于只给学生看简单的考题来教他们。

将机器学习织入物理的肌理：混合建模

后处理是一个强大的工具，但它是一个附加组件，一种事后补救。真正革命性的前沿在于创建物理-机器学习混合模型，其中数据驱动的组件被直接织入物理模拟的核心。

要理解这如何成为可能，我们必须审视即使是最先进的 NWP 模型中那个“不可告人的小秘密”：它们已经是部分经验性的。一个网格间距为10公里的模型无法解析单个云、湍流阵风，或辐射在块状云场中错综复杂的传输过程。这些至关重要的现象发生在“次网格”尺度上。它们对已解析气流的集体效应必须通过所谓的次网格参数化来近似。这些参数化方案通常是巧妙的、有物理动机的“配方”，但它们并非从第一性原理推导而来。从某种意义上说，它们是科学家们几十年来调整出来的手工经验模型。

这些参数化方案是机器学习的天然切入点。既然我们可以训练一个更强大的机器学习模型从高分辨率数据或观测中学习次网格效应，为什么还要使用手工“配方”呢？这种融合有几种策略：

黑箱模拟：我们完全移除传统的参数化方案（例如，用于云的方案），并训练一个深度神经网络来模拟其功能，学习从大尺度大气状态到次网格云净效应的映射。
灰箱残差建模：这是一种更谦逊，也通常更稳定的方法。我们承认现有的基于物理的参数化方案实际上相当不错，但并不完美。我们保留物理参数化方案，并训练一个机器学习模型来预测其误差。机器学习模型成为一个专家，专门学习物理模型出错的情况并提供必要的校正。
物理信息神经网络（PINNs）：这或许是最优雅、最深刻的方法。我们不仅向机器学习模型展示数据，还教给它控制方程。以偏微分方程（PDEs）形式写出的物理定律被直接整合到模型的损失函数中。因此，模型不仅因为与数据不匹配而受到惩罚，也因为违反了如质量或动量守恒等基本定律而受到惩罚。它学习找到一个既与数据一致又与已知物理学相符的解。

反馈的危险与真理的守护者

将一个实时的机器学习模型插入天气模拟器的时间步进循环中是一项危险的尝试。这个过程突显了离线训练和在线耦合之间的关键区别。离线训练就像用一套固定的问题和答案来备考。机器学习模型可以变得非常擅长为给定的输入预测输出。

然而，在线耦合完全是另一回事。在这里，机器学习模型在一个时间步的输出成为下一个时间步输入的一部分。这就产生了一个反馈循环。机器学习模型现在犯下的一个微小、难以察觉的错误被反馈回系统中，可能在下一步变成一个更大的错误，然后再次被反馈回去。这种累积错误的级联效应可能导致整个模拟变得不稳定，并“爆炸”成一堆物理上毫无意义的数字。

我们如何驯服这头野兽？最强大的方法是强制执行基本的物理定律。一个纯粹由数据驱动、在有限数据集上训练的模型，可能学不会质量、能量和动量必须守恒。它可能会找到一个统计上巧妙的捷径，在每一步中创造或销毁微量的质量，因为它稍微提高了其平均预测得分。在离线设置中，这是察觉不到的。但在一个在线的、长期的气候模拟中，这些微小的违规行为会累积起来。一个在每个网格单元、每一秒钟都凭空创造一皮克水的模型，在一个模拟世纪后，将从无到有创造出新的海洋。

这就引出了物理约束这一至关重要的概念。我们可以通过两种方式施加这些约束：

软约束涉及向模型的损失函数中添加一个惩罚项。我们不鼓励模型违反守恒定律，但并不禁止它这样做。
硬约束被构建在模型的架构或输出层中。我们以一种使其在数学上无法违反该定律的方式来设计它。例如，我们可以构造输出，使得任何预测的某个量的源都由相应的汇完美平衡。

对于长期的气候稳定性和现实的天气预报来说，硬约束不仅仅是一个好主意；它们是绝对必要的。宇宙是一个严格的记账员，我们的模型也必须如此。

一个移动的目标：在变化世界中的预测

即使有一个完美约束的混合模型，一个新的挑战也迫在眉睫：世界本身并非静止不变。一个在1980-2010年天气数据上训练的模型，被要求预测2030年的天气，那将是一个更暖、能量更充沛的气候。这就是数据集漂移的问题。

我们可以从两个方面来思考这种漂移。首先是协变量漂移：输入 $p(x)$ 的分布发生了变化。天气模式的类型——例如，热穹的频率和强度——与训练期间不同。底层的物理关系 $p(y|x)$ 可能仍然相同，但我们正在要求我们的模型在一个强调其知识不同部分的“新测试”上表现。

其次，也是更困难的，是概念漂移：关系 $p(y|x)$ 本身发生了变化。例如，如果我们进行后处理的核心 NWP 模型进行了重大的物理升级，这种情况就可能发生。其误差的性质将会改变，我们旧的校正模型将变得过时。处理这些漂移是当前研究的一个主要焦点，涉及的技术包括让模型能够适应，更多地关注其训练数据中未来可能变得更普遍的罕见事件，或者检测它们何时在一个前所未见的模式下运行。

这引出了最后一个，或许也是最重要的原则：预报必须知道自己的局限。一个好的预报不是一个单一的数字，而是一个概率。而一个卓越的预报还传达了其自身的不确定性。用贝叶斯术语来说，我们必须区分偶然不确定性——天气固有的、不可约减的随机性——和认知不确定性，即模型自身的知识欠缺。当面对一个史无前例、缺乏训练数据的天气事件时，模型的认知不确定性应该急剧上升。它实际上应该举手说：“我对此非常不确定。”

我们可以通过检查模型是否经过校准来诊断它“了解自身不确定性”的程度。一个简单而优美的工具是概率积分变换（PIT）直方图。对于大量的预报，我们检查实际观测结果落在模型预测概率分布的哪个位置。如果模型校准良好，结果应该均匀地分布在所有可能性中。如果我们看到一个U形直方图，这意味着结果总是落在预报分布的极端尾部——模型过于自信。如果我们看到一个驼峰形直方图，则模型不够自信。一个平坦的直方图告诉我们，模型对其自身的预测能力有一个清醒、现实的认识。

这段旅程——从简单的校正到深度的物理融合，从处理杂乱的数据到强制执行基本定律和量化不确定性——揭示了数据驱动天气预报的真正本质。它是一种动态而深刻的综合，是我们数百年探求理解和预测大气壮丽而混乱之舞的新篇章。

应用与跨学科联系

在我们完成了数据驱动天气预报原理与机制的探索之旅后，我们可能心生敬畏，但也带有一丝健康的怀疑。我们已经看到机器如何从海量数据集中学习复杂的模式，但我们何时应该相信一个并非源自对底层物理深刻、第一性原理理解的预测呢？这是新科学，还是仅仅是一种高级的曲线拟合？这不仅仅是一个技术问题，更是一个深刻的认识论问题。答案，正如科学中常有的情况一样，是“视情况而定”。这些新方法的卓越之处不在于取代物理理解，而在于精确地知道何时以及如何运用它们的预测能力。

想象一下，你的任务是预测每日野火点燃的风险。一个完整的机理模型将是一项艰巨的任务，涉及燃烧化学、复杂地形上的风的流体动力学，以及植物水分的生物学。然而，消防管理机构需要今天就得到答案，以决定将其人员部署在哪里。这正是纯粹预测性方法找到其正当性的地方。如果我们能够获取卫星数据——观测植被的干燥度、地表温度和空气湿度（ $X_t$ ）——我们就可以训练一个模型来学习与第二天火灾发生地点（ $Y_{t+1}$ ）的统计联系。在几个关键条件下，这个数据驱动的模型对于这项任务是“认识论上充分的”。首先，世界必须相对稳定；干燥植被与火灾风险之间的统计关系不能年年剧烈变化（这一条件被称为平稳性）。其次，卫星数据必须是“预测性充分的”，意味着它捕捉了与即时风险相关的大部分信息，使得未观测到的阴燃树叶的微观细节对于第二天的预报变得不那么重要。最后，部署消防人员的行为不能立即且显著地改变模型训练所依据的环境条件。在这些条件下——一个稳定的系统、信息丰富的特征，以及我们的预报时间尺度与反馈时间尺度之间的分离——一个数据驱动的模型可以成为一个宝贵的、能拯救生命的工具，即使没有求解完整的燃烧方程。

这一理念为数据驱动方法的实际应用奠定了基础，我们可以不把它们看作神奇的黑箱，而是看作是为提炼、校正和扩展我们物理模型覆盖范围而精心制作的工具。

纠正我们的偏差并尊重规则

即使是最先进的全球天气模型的原始输出也包含系统性误差或偏差。一个模型可能会持续预报某个山谷的温度偏高一度，或者某个特定山脉上的风速偏弱。这正是数据驱动的后处理开始的地方：从历史数据中学习这些偏差并加以校正。

但是，一个幼稚的校正可能会导致荒谬的结果。如果我们的机器学习模型出于其统计热情，将一个预报“校正”为105%或-10%的相对湿度，那该怎么办？自然有其规则，我们的模型必须尊重它们。这就是物理-机器学习混合模型的黎明，是数据与物理定律的美妙结合。我们可以不让模型自由发挥，而是将这些规则直接构建到其数学公式中。对于相对湿度，我们可以将其模型输出严格约束在 $0$ 和 $1$ 之间。对于风速，更强的预报应该总是导致更强（或相等）的校正预报，我们可以强制执行一个非递减的，或称“单调”的关系。像保序回归这样的技术允许模型学习一个灵活的、非线性的校正，同时在数学上保证它永远不会递减，从而保留了预报的物理意义。

另一个优雅的例子是降水类型的预测。降水以降雨还是降雪的形式出现至关重要。模型可以从数据中学习这一点，使用温度作为关键预测因子。但我们从基本的热力学中知道，随着温度升高，降雨的概率只应该增加。我们可以通过巧妙选择模型参数化来强制执行这种物理单调性，例如，通过将一个关键系数定义为 $a=e^{k_a}$ ，这确保了它总是正的。然后，模型可以自由地从数据中学习这种转变的速率，但它被禁止学习一个不符合物理学的关系，即更冷的温度不知何故变得更有可能产生雨水。这不仅仅是一个聪明的技巧；这是一个新的范式，我们将物理直觉嵌入到学习过程中，从而两全其美。

诚实的预报员：量化不确定性

一个单一数值的预报——“明天的气温将是22°C”——是一个不完整且根本上不诚实的陈述。一个真正科学的预报必须同时报告其自身的不确定性。有些日子就是比其他日子更容易预测。一个诚实的预报员知道他们不知道什么。

数据驱动方法为此提供了一个强大的框架。从一个确定性预报开始，我们可以建立第二个模型来预测围绕该预报的可能结果的*离散度*。这远不止是简单地添加一个恒定的误差棒。不确定性本身取决于天气状况，这一特性被称为异方差性。对于一个平静、稳定的高压系统，预报的不确定性会非常小，而对于一个靠近不稳定的天气锋面的预报，不确定性则会大得多。我们的模型可以从过去的预报误差中学习这种“依赖于气流的不确定性”。

目标是产生一个既“可靠”又“锐利”的概率性预报。可靠性，或称校准，意味着当我们预报有80%的降雨概率时，大约80%的时间确实会下雨。我们的不确定性陈述必须在统计上是诚实的。锐利性意味着我们预测的结果范围应该尽可能窄，同时仍然保持可靠。总是预报0-100%的降雨概率很容易做到可靠，但这样的预报毫无用处。艺术在于平衡这两种美德。我们使用像连续分级概率评分（CRPS）这样的“恰当评分规则”来训练我们的模型，这会自动奖励它们在给定可靠性水平下实现最佳可能的锐利度。这个过程，有时被称为“集合修饰”，将一个简单的点预报转变为一个丰富、诚实的概率分布，这对于从农业到航空等所有领域的风险管理都至关重要。

当然，预报员在执行这些任务时有多种工具可供选择。像随机森林、支持向量机和神经网络这样的模型各有其特性、优点和盲点。一个由许多简单的“决策树”构成的随机森林模型，稳健且可解释，但众所周知它不能外推——它无法预测比其训练数据中见过的任何温度都更高的温度。一个具有嵌套函数层的神经网络，是一个极其强大和灵活的学习器，但它也是一个臭名昭著的“黑箱”，使得理解它为什么做出某个特定预测变得困难。没有一刀切的解决方案；选择正确的模型是科学技艺的关键部分。

前沿与重大挑战

当我们面对现代大气科学的重大挑战时，数据驱动方法的真正威力才显现出来。

在变化的气候中导航

最深刻的挑战之一是气候变化。一个在1980-2010年天气数据上训练的模型，在2040年更暖、能量更充沛的气候中可能会变得系统性地有偏差。系统的基本统计特性正在改变——这个问题被称为“协变量漂移”。一个从过去学习到的简单偏差校正将会失效。

解决方案再次是数据与物理洞察力的美妙结合。我们认识到，虽然当地的天气统计数据在变化，但它们是响应于大尺度气候状态的转变而变化的。因此，我们构建自适应模型。我们不再学习一个单一的、静态的校正函数，而是学习一个条件校正函数，它将大尺度气候状态作为输入。对于一个给定的预报，模型首先会问：“我今天处于什么样的气候状况中？”然后应用一个为该状况量身定制的校正。这使得模型能够优雅地适应一个变暖的世界，即使在我们的模型从未经历过的气候中也能提供稳健的预报。

描绘未来的图景

到目前为止，我们主要谈论的是在单点上校正预报。最终目标是生成关于未来可能天气的完整的、高分辨率的、物理上一致的地图。这是条件生成模型的领域，也是人工智能研究的前沿。诸如变分自编码器（VAEs）、生成对抗网络（GANs）和去噪扩散模型等名称的模型正在学习“描绘”逼真的天气图。给定一个来自全球模型的粗略预报，它们可以生成一个高分辨率可能结果的集合，其中包含逼真的风暴结构、云型和降水分布。

将这些强大的生成模型直接整合到我们基于物理的模拟器的核心是一个巨大的工程挑战。一个将天气模式表示为波的总和的谱模型，有其自己严格的数学结构。你不能简单地将一个机器学习的趋势“粘贴”进去。一个机器学习模型可能会生成一个看起来物理上合理的场，但当分解成波时，它可能包含物理模型的粗网格无法解析的高频分量。这些未解析的波不会凭空消失；它们会“混叠”，伪装成完全不同的大尺度波，从而用虚假的能量污染模拟。理解和驯服数据驱动组件与物理驱动组件之间的这种相互作用，正是当前许多最激动人心的研究所在。

统一的工具箱：超越大气

也许这整个事业最美妙的方面是其普适性。我们所讨论的原则——混合建模、不确定性量化、严格的统计验证——并非天气预报所独有。它们构成了一个通用的工具箱，用于为我们既有物理洞察力又有海量数据的复杂系统建模。

考虑预测锂离子电池寿命的挑战。其底层物理受电极颗粒内部离子扩散的偏微分方程控制，就像大气受纳维-斯托克斯方程控制一样。我们可以为电池退化建立一个“灰箱”模型，其结构与我们的天气模型惊人地相似。我们从充电电流和温度等数据驱动的特征开始。然后，我们求解一个简化的电池物理模型，以推导出机理特征——例如锂穿过颗粒的特征时间，或由浓度梯度引起的机械应力度量。我们将这两组特征结合在一个回归模型中，以预测循环寿命。并且，至关重要的是，我们使用同样严格的嵌套交叉验证框架来证明，与纯数据驱动的方法相比，增加物理洞察力确实能提高预测能力。

从我们大气中的风暴到电池中离子的流动，理论与数据之间都在进行着同样根本性的对话。通过学习说两种语言——物理定律的语言和统计学习的语言——我们不仅仅是在改进我们的预报。我们正在锻造一种新的、更强大、更统一的科学方式。