基于集合的数据同化

玻尔百科

核心要点

基于集合的数据同化使用一组模式预报，以物理上一致的方式来表示系统的状态和不确定性。
它通过协方差局地化等关键技术克服了“维度灾难”，这些技术消除了伪长程相关。
协方差膨胀被用来对抗滤波器的过度自信，并弥补基础模式中的不完美之处。
该方法是现代数值天气预报的基础，并正被扩展用于创建地球系统的综合“数字孪生”。
将数据同化与机器学习相融合，正在催生新一代可微分模式，这些模式能直接从观测中学习物理规律。

引言

我们如何仅凭一组零散的观测数据，来预测像地球大气这样复杂混沌系统的未来？这一根本性挑战是现代环境科学的核心。基于集合的数据同化为此提供了一个强大而优雅的答案。它是一个统计框架，巧妙地将物理模式的预测能力与真实世界数据的基准真相相结合，从而改变了我们理解和预报从明日天气到长期气候变化等一切事物的能力。本文深入探讨了这一革命性方法，旨在解决理论模式与稀疏、带噪声的测量数据之间的关键鸿沟。

首先，在“原理与机制”一章中，我们将深入探讨集合方法背后的核心思想，理解其如何表示不确定性以及与其他方法的区别。我们将揭示它在高维系统中面临的深层次挑战，并探索使其在实践中行之有效的巧妙解决方案——局地化和膨胀。随后，“应用与跨学科联系”一章将展示这些原理的实际应用，从革新天气预报、构建地球数字孪生，到重建过去的气候，再到与尖端的机器学习领域相融合。

原理与机制

进入基于集合的数据同化的世界，就像是见证了一场物理学、统计学和计算科学之间美妙的相互作用，它们共同协作，以完成一项看似不可能的任务：通过稀疏、零散的测量数据，获知像地球大气或海洋这样庞大混沌系统的状态。挑战不仅在于填补数据空白，更在于要以一种尊重支配系统演化的复杂自然法则的方式来完成。

用概率作画：集合思想

想象一下你正试图描绘一幅山脉的画。一种经典的方法可能是先画一个单一、精确的轮廓，然后填充颜色。这类似于传统的数据同化方法，它们依赖于对世界状态的单一“最佳猜测”进行操作。但山谷中的雾气呢？远方山峰确切形状的不确定性呢？单一的轮廓不足以捕捉这种模糊性。

现在，想象另一种方法。你不再画一个轮廓，而是勾勒出五十个略有不同的版本，每一个都是对山脉的合理解释。在这五十幅草图都一致的地方——比如主峰——你非常有信心。在它们差异巨大的地方——比如下面缭绕的薄雾中——你对自己的不确定性就有了清晰的认识。

这就是基于集合的数据同化背后的核心思想。我们用一个由多次预报组成的委员会，即集合，来取代单一的、确定性的预报。集合中的每个成员都是一个完整的、自洽的世界模式——例如，一幅完整的天气图——它使用完整的、非线性的物理方程随时间向前传播。这种“概率性绘画”的美妙之处在于，不确定性不再是一个僵硬的、预先定义的假设。相反，它是流依赖的；集合的离散度自然地突显出高度不确定性的区域，例如正在发展的风暴的湍流锋面，而在较平静的区域则表现出可靠的一致性。

这种方法与另一种强大的范式——变分数据同化（如4D-Var）——形成对比。变分方法旨在寻找一段时间内的单一最优轨迹，该轨迹能最好地拟合我们的先验知识和该时间窗口内的所有观测。它们是强大的平滑器，能产生动力学上一致的解。然而，它们的实施需要开发所谓的切线性模式（ $M$ ）及其伴随模式（ $M^{\top}$ ），它们代表了系统的线性化动力学。为极其复杂的现代系统创建这些伴随模式是一项艰巨的任务。

集合方法巧妙地回避了这一要求。通过将每个成员在完整的非线性模式（ $\mathcal{M}$ ）中进行传播，它们直接对动力学过程进行采样。这使得它们特别适用于表征现代环境科学的强非线性、混沌系统，从天气预报到涡分辨率海洋模式。集合能够动态地计算所需的统计量，而无需一个显式的伴随模式。

维度灾难与群体智慧

集合方法似乎好得令人难以置信，事实上，一种朴素的实现会面临两种灾难性的失败。两者都源于一个简单而残酷的现实：我们所模拟的系统的规模极其庞大。大气的状态可能由数十亿个变量（ $n$ ）描述，但出于计算成本的考虑，我们通常只能负担得起一个约有50到100个成员（ $N$ ）的集合。这种 $N \ll n$ 的条件，催生了我们可称之为集合机器中的“幽灵”。

第一个幽灵：秩亏

回想我们那50幅山脉的草图。它们存在于一个维度极高的世界中——山脉可能呈现的每一种形状。然而，我们的50幅草图只能定义这个浩瀚空间中一个非常薄的切片。在数学上，集合异常（每个成员与集合平均值的偏差）张成一个维度最多为 $N-1$ 的子空间。因此，作为滤波器统计引擎的集合协方差矩阵是秩亏的。它生活在一个数十亿维度的世界里，却只在其中的49个维度上拥有信息。

这意味着集合，根据其构造，对于这个微小子空间之外任何方向的不确定性都是盲目的。对于绝大多数可能的误差模式，它将报告零误差方差。如果真实误差恰好落入这些盲点之一，滤波器将完全无法察觉，也无法进行校正。这是源于高维空间几何学的一个深刻而根本的局限。

第二个幽灵：伪相关

第二个幽灵更为微妙和隐蔽。想象一下你正在追踪两件不相关的事情：伦敦的日降雨量和东京一家公司的股价。如果你只有50天的数据，随机的机会可能会使两者之间出现明显的相关性。一个天真的统计学家可能会得出结论：伦敦的雨天导致股价上涨。

集合滤波器正是这样一个天真的统计学家，因为它只使用了 $N$ 个成员的小样本。它会在物理上不相连的位置之间发现伪相关。例如，它可能会得出结论，北大西洋的海平面气压观测提供了关于南极洲上空风速的信息。其数学原因是抽样误差：对于任意两个真正不相关的变量，从有限集合计算出的样本相关性不会恰好为零。其典型量级约为 $1/\sqrt{N-1}$ 。虽然对于任何单一点对来说这个值很小，但在一个全球模式中，远距离点对的数量是天文数字（ $O(n^2)$ ），这确保了其中一些伪相关会大到足以构成麻烦，从而污染分析结果。

驯服幽灵：局地化与膨胀的艺术

为了让集合方法奏效，必须驯服这两个幽灵。为此而开发的技术不仅仅是临时凑合的修复；它们是植根于物理和统计原理的优雅解决方案。

协方差局地化：局地性原理

我们如何对抗伪长程相关？我们诉诸于一个基本的物理原理：局地性。Albert Einstein曾著名地嘲笑“鬼魅般的超距作用”，我们也应如此。欧洲上空的温度不会瞬间影响澳大利亚上空的气压。因此，我们可以通过系统地从我们估计的协方差矩阵中消除长程相关来将这一原理强加于我们的集合。这就是协方差局地化。

一个优美而实用的方法来决定“多远算太远”，是比较真实物理相关的强度与统计估计的噪声水平。我们只应在真实物理相关预期强于抽样误差产生的伪噪声的距离上，才信任我们的集合所估计的相关性。这条规则为我们选择局地化半径提供了合理的依据，这个尺度优雅地同时取决于系统的物理特性（相关性随距离衰减的速度）和我们工具的统计特性（集合大小 $N$ ）。

在实践中，局地化可以通过两种主要方式实现。一种方法是协方差渐变，即创建一个“渐变”矩阵，该矩阵在局地化半径之外平滑地将相关性降至零，并将其与集合协方差矩阵进行逐元素相乘（舒尔积）。这是在单个全局分析步骤中完成的。另一种不同的哲学是区域局地化，用于诸如局地集合变换卡尔曼滤波（LETKF）等方法中。在这里，全球被划分为小的、重叠的区域，并为每个区域运行一个独立的分析，只使用落在其局部邻域内的观测。两种方法都达到了相同的目标：它们迫使滤波器尊重物理上的局地性原理。

协方差膨胀：承认我们的无知

即使在局地化之后，预报和更新观测的分析循环也容易使滤波器变得过度自信。集合离散度在“达成”一个解时会自然收缩，如果收缩得太多，滤波器就会停止关注新的观测，这种情况称为滤波器发散。此外，我们关于地球的计算机模式是不完美的。它们忽略了一些物理过程，并且在公式化方面存在误差。我们需要一种方法来解释这种被遗忘的不确定性。

解决方案是协方-差膨胀，即在每一步刻意增加集合离散度的行为。这可以通过简单地将每个成员的异常从集合平均值处拉伸开来（一种称为乘性膨胀的技术）或通过向每个成员添加少量结构化的随机噪声（加性膨胀）来实现。例如，如果我们将异常乘以一个因子 $\lambda$ ，那么先验方差将增加 $\lambda^2$ 倍，从而在更新中给予观测更大的权重。

至关重要的是，膨胀具有双重目的。一方面，它是一种统计上的补救措施，用于弥补由有限集合大小和滤波过程本身导致的系统性方差低估。另一方面，它是一个物理上的补丁，一种注入不确定性的方式，以解释我们世界模式中的错误和疏漏。它是一剂谦逊之药，不断提醒系统其知识是不完整的。不同类型的集合卡尔曼滤波器，例如确定性的集合变换卡尔曼滤波（ETKF）或随机EnKF，有不同的方式来融入这种不确定性，但核心原理保持不变。

走向综合：前沿一瞥

故事并未就此结束。当今最先进的数据同化系统正朝着一个伟大的综合方向发展，创建了结合变分和集合两方面优点的混合方法。

要理解其美妙之处，可以考虑混沌系统中误差的性质。虽然所有可能误差的空间是巨大的，但误差倾向于仅在少数特定方向上增长最快，这些方向由系统的不稳定子空间定义。试图一次性解决所有方向上的误差是一个极其困难的、或称病态的优化问题。这就像试图在黑暗中找到一个漫长、狭窄、蜿蜒的峡谷的底部。

混合数据同化背后的绝妙想法是：利用擅长追踪不确定性的集合来识别这一小组“危险的”不稳定方向。然后，利用变分方法强大而精确的机制，仅在这个关键的、低维的子空间内执行优化。通过将问题约束在最重要的方向上，病态问题在很大程度上消失了，问题变得戏剧性地更容易解决。

这是思想的深刻融合。来自混沌理论（不稳定流形）、线性代数（特征向量和矩阵条件数）和统计学（集合估计）的见解被编织在一起，创造出一个比其各部分之和更强大的工具。它证明了科学原理内在的统一性，也是一个美丽的例子，说明我们如何学习观察、理解和预测我们复杂世界的运作方式。

应用与跨学科联系

在领略了基于集合的数据同化的优雅原理之后，我们现在来到了探索中最激动人心的部分：见证这些思想的实际应用。欣赏一个数学框架的抽象之美是一回事，而目睹它为我们的世界模式注入生命，将其从学术练习转变为强大的预测工具，则是另一回事。数据同化不仅仅是一个巧妙的算法；它是连接模拟的抽象领域与观测的具体现实的重要神经系统。正是在这个交汇处，科学探索的真正力量和内在统一性得以展现。

革新天气预报

数据同化最著名和最具影响力的应用或许在于数值天气预报（NWP）。你看到的每一个预报，从简单的温度预测到复杂的飓风路径，都是一个全球大气模式与海量真实世界数据之间令人难以置信的复杂舞蹈的产物。

但是，卫星测量或雷达脉冲究竟是如何与模式“对话”的呢？这种对话是通过观测算子，即我们称之为 $H$ 的函数发生的。它充当翻译器，告诉我们模式版本的现实从我们仪器的视角看会是什么样子。考虑一台多普勒天气雷达，它不测量完整的风矢量 $\vec{v} = (u,v,w)$ ，而只测量直接朝向或远离它的风的分量——即径向速度 $v_r$ 。其关系是一个简单的投影： $v_r = \vec{v} \cdot \hat{r}$ ，其中 $\hat{r}$ 是雷达指向的方向。这个优雅的几何投影就是观测算子。然而，这种简单性背后隐藏着现实世界的复杂性。雷达无法直接看到其正上方，形成了一个我们没有数据的“静锥”。障碍物可能会阻挡某些方向，留下方位角间隙。数据同化系统必须巧妙地绕过这些盲点，更多地依赖模式预报和附近数据的相关性来填补图像。这个挑战正是天气模式中解读雷达数据的核心所在。

这让我们看到了集合数据同化的真正魔力：它能够利用关于一个变量的信息来校正另一个未被观测的变量。这得益于背景误差协方差矩阵 $B$ ，该矩阵由集合从模式自身的物理过程中估计得出。想象一下我们试图确定海面上方空气的温度（T2m）和海面温度（SST）本身。我们收到了一个可靠的SST观测值。常识告诉我们，温暖的海洋倾向于使其正上方的空气变暖。集合通过在其预报中建立SST和T2m之间的正相关来捕捉这种物理直觉。当我们同化SST观测时，卡尔曼增益不仅校正了模式的SST；由于这种交叉协方差，它还朝着同一方向微调了T2m。对海洋的观测因此为我们对空气的估计提供了信息，这是一个美丽的例子，展示了系统如何利用集合学到的物理关系。

当然，许多观测要复杂得多。卫星不直接测量温度；它们测量的是辐射率，即大气在特定频率下发出的光。模式的温度廓线与卫星看到的辐射率之间的联系由辐射传输定律决定，这是一个高度非线性的观测算子。此外，卫星测量的是一个小足迹，而一个模式格点代表的是一个大面积的平均值。这种尺度上的不匹配产生了一种“代表性误差”，这是我们必须考虑的另一个不确定性来源。先进的数据同化系统巧妙地处理这些非线性和误差源，通常使用混合方法，将来自集合的流依赖相关性与更静态的、气候学的关系相结合，以实现稳健的分析。

最后，一旦同化过程产生了一个新的、改进的初始状态，通常在预报开始之前还需要最后一步。初始状态必须是“平衡的”，意味着它不能包含作为分析过程产物的伪高频波。像数字滤波初始化（DFI）这样的技术就像一个温和的平滑器，滤掉这种模式不真实的“噪音”，以确保预报平稳开始，没有初始的剧烈震颤。这突显了同化系统与其所服务的模式动力核心之间的关键相互作用。

超越天气：地球的数字孪生

数据同化的力量远远超出了明日的天气。同样的基本原理正被用于构建整个地球系统的综合“数字孪生”，整合跨越巨大不同科学领域的模式和观测。

一个巨大的挑战是耦合在截然不同的时间和空间尺度上运行的系统，例如快速、混沌的大气和缓慢、笨重的海洋。适用于大气的同化窗口（数小时到数天）对于捕捉海洋有意义的变化（数周到数月）来说太短了。为大气天气模式设计的局地化半径会错误地破坏海洋中具有物理意义的、盆地尺度的相关性。解决这个问题需要复杂的策略，如异步同化窗口、特定分量的局地化尺度，以及能够自然捕捉领域之间时滞关系的平滑器方法。例如，今天的风异常可能会影响数周后的洋流；平滑器就是为看到这种联系而设计的 ([@problem-id:4037071])。

数据同化的触角甚至延伸到了生物世界。想象一下试图监测一片森林的健康和生长。生态学家建立所谓的森林间隙模型，模拟树木的生命周期，追踪诸如斑块年龄和叶面积指数（LAI）等变量。我们如何用数据来约束这样的模型？我们可以求助于激光雷达等遥感技术，它能测量冠层高度。我们用于天气的集合卡尔曼滤波同样可以应用于此。这里的状态向量不再是风和温度，而是斑块年龄和LAI。观测不再是无线电探空，而是来自飞机的激光脉冲。通过同化激光雷达衍生的冠层高度，系统可以校正模型对森林结构的估计，提供一幅生态系统状态的动态一致的图景。

这个框架甚至可以用作时间机器。古气候学家试图从树轮宽度、冰芯和沉积层等“代用”记录中重建过去的气候。这是一个经典的反问题。虽然存在许多统计方法，但数据同化提供了一种独特而强大的途径。通过在状态空间框架中构建问题，它将气候变率的物理或统计模型（先验）与来自稀疏且带噪声的代用网络的信息相结合。与那些常常因方差损失而受影响的简单回归技术不同，数据同化提供了过去气候场的物理一致重建，并附有对其不确定性的严格估计。从天气到海洋，从森林到古代气候，同样的逻辑引擎在起作用：将你所知道的（模式）与你所看到的（数据）结合起来，创造出对现实最完美的描绘。

演进的前沿：数据同化与机器学习的相遇

数据同化的故事是一个不断演进的故事，今天，它正被机器学习和人工智能的革命深刻地重塑。这种融合正在推动可能性的边界，创造出一个新的发现前沿。

我们做出的最基本假设之一是关于我们的先验知识。我们常常假设我们的不确定性是高斯分布的，但现实往往更为复杂。如果一个参数必须是严格正的怎么办？如果一个分布是双峰的怎么办？在这里，像归一化流和输运映射这样的机器学习思想提供了强大的解决方案。这些技术允许我们通过从一个简单的基础分布（如标准高斯分布）开始，并通过一个复杂的、可逆的变换 $X = T(Z)$ 来扭曲它，从而构建先验。通过精心设计映射 $T$ ，我们可以生成具有几乎任何我们想要的结构的先验——例如，用指数映射来强制正性——同时仍然能够轻松地抽样和计算密度。这使我们能够以更高的保真度来编码我们的先验知识。

对于那些非线性极强的问题，即使是标准的集合方法也可能力不从心。在水文学或油藏工程等领域，地下地质与流体流动之间的关系极其复杂，单一同化步骤可能会失败。为了解决这个问题，已经开发了诸如多重数据同化集合平滑器（ES-MDA）之类的迭代方法。其核心思想非常简单：我们不是一次性同化所有数据，而是分几个更小、更温和的步骤来完成。在每一步，我们通过假装观测误差比实际更大来“缓和”数据的影响。通过仔细选择这些膨胀因子，使其累积效应与真实的观测误差相匹配，这一系列小的、可控的更新近似了那个完整的、困难的更新的结果，从而使集合能够在一个高度非线性问题的崎岖地貌中导航。

也许数据同化与机器学习最具变革性的融合是“可微分模式”的兴起。科学家们现在正用快速、准确、且最重要的是可微分的模拟器（通常使用神经网络训练）来取代其模式内部计算成本高昂或理解不充分的物理参数化方案。其影响是深远的。在像4D-Var这样的变分框架中，拥有一个从输入到输出完全可微分的模式，使得伴随方法（或随时间反向传播）能够以机器般的效率计算梯度。这不仅简化了观测的同化，还为更强大的功能打开了大门：同时优化模式的初始状态以及物理模拟器本身的参数 $\theta$ 。通过将控制向量扩充以同时包含 $x_0$ 和 $\theta$ ，数据同化系统可以在运行中“学习”更好的物理规律，利用观测不仅来校正状态，还来校正模式本身的基本定律。这形成了建模、观测和学习之间的闭环，预示着一个自我改进的、数据驱动的地球系统模式新时代的到来。

从其优化火箭轨迹的起源，到其未来构建我们星球的自学习模式，数据同化已被证明是计算科学中最富有成果和最具统一性的概念之一。它是关于在不确定性下进行推理的艺术与科学，是一首数学的交响乐，将不完美模式和稀疏观测的不和谐音符和谐地融合成对我们世界连贯且不断完善的理解。