变分资料同化

玻尔百科

定义

变分资料同化是一种通过最小化代价函数来确定系统最可能状态的统计方法，该函数平衡了模型预报与新观测值之间的信任关系。这一框架利用背景误差协方差矩阵以符合物理规律的方式传播观测信息，从而防止出现不切实际的模型状态。除了在天气预报中的核心应用外，该技术还通过四维变分同化（4D-Var）来优化模型初始条件，并可用于估计未知的模型参数。

核心要点

变分资料同化通过最小化一个代价函数来找到系统的最可能状态，该函数平衡了对模式预报和新观测的信任度。
背景误差协方差矩阵 (B) 对于以物理上合理的方式传播观测信息至关重要，它能防止出现不切实际的模式状态。
四维变分同化 (4D-Var) 通过优化模式的初始条件，使其能最佳地拟合分布在一个时间窗口内的所有观测。
除了天气预报，该框架还能揭示隐藏的物理量、估计未知的模式参数，并与人工智能方法建立有原则的合作关系。

引言

在科学探究中，最终的挑战在于如何协调理论模型与真实世界的观测。我们对地球气候等复杂系统的模型虽然强大，但本质上是不完美的；而我们的观测数据往往稀疏、间接且充满噪声。这就产生了一个关键的缺口：我们如何综合这两个不完整的信息来源，以生成对系统真实状态最准确、物理上最一致的估计？变分资料同化为这个问题提供了一个数学上严谨且极其精妙的答案，构成了现代环境预报的引擎。

本文将分两部分探讨变分资料同化的框架。首先，“原理与机制”一章将揭示其贝叶斯基础，分解平衡模式预报与观测的代价函数，并揭示物理定律是如何被编码到同化过程中的。随后，“应用与跨学科联系”一章将展示该框架的巨大威力，从其在数值天气预报领域的革命性作用，到其揭示隐藏物理参数和与人工智能开辟新前沿的能力。

原理与机制

从本质上讲，科学是一项宏大的实践，旨在通过让理论与现实对质来加深我们对世界的理解。变分资料同化是这一原则的数学体现，它是一个强大而精妙的框架，用于融合我们复杂模型的预测与从现实世界收集的稀疏、嘈杂的观测数据。它回答了一个既深刻又非常实际的问题：给定一个不完美的模型和少量的新数据，对于一个系统——无论是地球的大气、海洋还是陆地表面——当前状态的最佳可能估计是什么？

获取最佳猜测的贝葉斯方法

想象一下，你正试图绘制整个大气的温度图。你的最佳起点是几小时前的预报——这就是你的“第一猜测”或背景场，我们称之为 $\mathbf{x}_b$ 。这是一幅全面的图像，但并不完美；模式会漂移，误差会累积。现在，一颗卫星在单个点上提供了一个新的温度测量值。这是你的观测， $\mathbf{y}$ 。这是一条确凿的证据，但它同样存在误差。你如何结合这两条信息来创建一幅新的、改进后的大气图——即分析场 $\mathbf{x}_a$ ？

变分资料同化将此问题构建为一个概率问题。给定我们的背景猜测和新的观测，大气的最可能状态是什么？这是一个经典的贝叶斯推断问题。如果我们假设背景和观测中的误差是随机的，并且服从高斯（或“正态”）分布——即钟形曲线——那么一件奇妙的事情就会发生。最可能的状态便是最小化一个特定“代价函数”的状态。该函数是惩罚项之和，一项惩罚偏离背景场的程度，另一项惩罚偏离观测的程度：

J(\mathbf{x}) = \frac{1}{2} (\mathbf{x} - \mathbf{x}_{b})^{T} \mathbf{B}^{-1} (\mathbf{x} - \mathbf{x}_{b}) + \frac{1}{2} (\mathbf{y} - h(\mathbf{x}))^{T} \mathbf{R}^{-1} (\mathbf{y} - h(\mathbf{x}))

这个方程可能看起来令人生畏，但它背后的故事既简单又优美。这是一场数学上的拔河比赛。第一项惩罚我们的新状态 $\mathbf{x}$ 偏离我们信任的背景场 $\mathbf{x}_b$ 的程度。第二项惩罚我们的观测 $\mathbf{y}$ 与模式状态 $\mathbf{x}$ 预测的观测值之间的不匹配程度。函数 $h(\mathbf{x})$ 是观测算子；它是一个转换器，能将完整的模式状态（包含各处的温度、气压和风）转换为特定仪器（如卫星传感器）应该看到的样子。

真正的魔力在于矩阵 $\mathbf{B}$ 和 $\mathbf{R}$ ，即误差协方差矩阵。它们不仅仅是简单的数字；它们分别代表我们对背景场和观测的置信度。如果我们对背景场非常有信心，背景误差协方差矩阵 $\mathbf{B}$ 的元素将会很小，使其逆矩阵 $\mathbf{B}^{-1}$ 很大。这使得 $J(\mathbf{x})$ 中的第一项成为一个沉重的惩罚，阻止分析场远离 $\mathbf{x}_b$ 。反之，如果我们高度信任某个观测，其在观测误差协方差矩阵 $\mathbf{R}$ 中对应的条目将会很小，使其惩罚项变大，从而将分析场拉近以匹配该观测。资料同化的目标就是找到一个状态 $\mathbf{x}$ ，在这场统计加权的拔河比赛中达到完美的平衡。

$\mathbf{B}$ 矩阵的秘密：将物理规律编码于统计之中

背景误差协方差矩阵 $\mathbf{B}$ 远不止是一组统计权重。它是现代资料同化的秘诀所在，是我们嵌入对系统物理理解的地方。想象一下，在某个位置观测到气压突然下降。物理学家知道这并非孤立事件；流体动力学定律决定了这种气压变化与周围的风场相关。纯粹的数学方法可能只会调整那一点的气压，从而产生一个物理上荒谬的状态。当预报模式从这种不平衡的状态开始运行时，它会剧烈地排斥这种变化，在一个称为spin-up（起转）的过程中产生虚假的高频重力波。

$\mathbf{B}$ 矩阵可以防止这种情况。其非对角线元素代表了不同位置不同变量误差之间的预期相关性。通过精心构造 $\mathbf{B}$ 以反映已知的物理关系——例如气压和风之间的地转平衡——我们告诉系统信息应该如何传播。现在，一个气壓观测不仅会在气压场中产生增量，还会在周围的风场中以一种动力学上平衡的方式产生增量。分析增量变成了一个连贯的、物理上合理的结构，而不仅仅是逐点校正的集合。通过这种方式， $\mathbf{B}$ 扮演着大气“DNA”的角色，确保分析状态尊重系统的基本规则，并导向一个平滑、稳定的预报。

第四维：从快照到影片

我们目前讨论的框架，即在单一時刻寻找最优状态的方法，被称为三维变分同化 (3D-Var)。它功能强大，但有一个局限：它将所有观测都视为发生在同一时间。实际上，来自卫星、探空气球和地面站的观测数据是在一个时间窗口内分散到达的。

这正是四维变分同化 (4D-Var) 的真正奇妙之处。4D-Var 不再是寻找某一时刻的最佳状态，而是提出了一个更宏大的问题：在时间窗口开始时，最优的初始状态是什么，当这个状态由预报模式向前演变时，能产生一条最佳拟合整个窗口内所有观测的轨迹？

代价函数被扩展为对所有不同时间 $k$ 的观测不匹配度进行求和：

J(\mathbf{x}_0) = \frac{1}{2} (\mathbf{x}_0 - \mathbf{x}_b)^\top \mathbf{B}^{-1} (\mathbfx_0 - \mathbf{x}_b) + \frac{1}{2} \sum_{k=0}^{N} \left(\mathbf{y}_k - h_k(m_{0 \to k}(\mathbf{x}_0))\right)^\top \mathbf{R}_k^{-1} \left(\mathbf{y}_k - h_k(m_{0 \to k}(\mathbf{x}_0))\right)

这里， $\mathbf{x}_0$ 是我们要求解的初始状态，而 $m_{0 \to k}$ 是预报模式本身，它作为一个函数，将初始状态传播到时间 $k$ 。模式不再仅仅是背景场的来源；它已经成为优化的一个基本部分，一个连接不同时刻状态的“强约束”。这创造了一幅系统演化的动力学一致图像，使得中午观测到海洋上风暴发展的信息可以直接修正六小时前的初始风场格局。

驯服野兽：优化的舞蹈

最小化 4D-Var 代价函数是一项巨大的计算挑战。状态向量 $\mathbf{x}_0$ 可能包含数亿甚至数十亿个变量。此外，预报模式 $m$ 和观测算子 $h$ 通常是高度非线性的。这意味着 $J(\mathbf{x}_0)$ 不是一个底部有一个最小值的简单光滑碗状曲面，而是一个具有山谷、山脊和丘陵的崎岖高维地貌。我们无法用简单的解析公式求解最小值（这是为最优插值 (Optimal Interpolation) 等高度简化的线性问题保留的特权）。我们必须去搜索它。

为此，资料同化系统采用一种巧妙的迭代策略，称为增量法 (incremental approach)，其结构如同两个嵌套循环之间的一支舞蹈。

外循环负责处理问题的完全非线性。在每个外循环步骤中，我们取当前对初始状态的最佳猜测，并运行完整、复杂、非线性的预报模式来生成一个参考轨迹。这为我们在这个崎岖地貌中提供了一个新的、更准确的有利位置。

内循环接着接管。它的任务是找到从这个新有利位置出发的最佳移动方向。它通过求解一个简化版的问题来实现这一点，即用一个在参考轨迹局部邻域内有效的线性近似（切線性模式）来代替完整的非线性模式。这个线性化问题是二次的——一个完美、光滑的碗状曲面——并且可以高效地求解出一个最优的“增量”或修正量 $\delta \mathbf{x}$ 。这个增量随后被传回外循环以更新初始状态，然后这支舞蹈重新开始。这就像一个复杂的登山策略：外循环在一个有希望的山谷中选择一个新的大本营，而内循环则使用详细的局部地图来找到该山谷中的最低点。

即使是内循环的二次问题也是巨大的。为了高效求解，我们还需要两个技巧。首先，我们使用强大的基于梯度的优化算法，如 L-BFGS。其次，我们进行控制变量变换。我们不再搜索物理增量 $\delta \mathbf{x}$ ，而是搜索一个变换后的变量 $\mathbf{v}$ ，其中 $\delta \mathbf{x} = \mathbf{L} \mathbf{v}$ ，且复杂的 $\mathbf{B}$ 矩阵被分解为 $\mathbf{B} = \mathbf{L}\mathbf{L}^T$ 。这个非凡的坐标变换将条件恶劣的背景惩罰項 $(\delta \mathbf{x})^T \mathbf{B}^{-1} (\delta \mathbf{x})$ 转换成一个极其简单的项 $\mathbf{v}^T\mathbf{v}$ 。这就像旋转和拉伸坐标轴，将一个被压扁、拉长的山谷变成一个完美的圆形山谷，从而使优化算法通往最小值的路径变得更快、更稳定。

拥抱不完美：模式误差与物理定律

变分框架不仅强大，而且异常灵活。如上所述的标准“强约束”4D-Var 假定预报模式是完美的——这是一个显著的理想化。一种替代方法是弱约束 4D-Var，它承认模式本身存在误差。它通过向代价函数添加另一个惩罚项来实现这一点，该惩罚项惩罚对模式方程的偏离。这给予系统寻找一条不严格遵守模式的轨迹的自由，如果这样做能够更好地拟合观测，从而有效地平衡模式、背景场和数据之间的信任度。这与牛顿弛豫法（或称“nudging”）等其他同化技术有着根本的不同，后者通过一个非物理的强迫项持续地将模式推向观测。

此外，一些物理原则是不可协商的。例如，一个封闭系统中的总质量必须守恒。变分框架可以将这类定律作为“硬约束”来强制执行。通过引入拉格朗日乘子 (Lagrange multiplier)，我们可以将物理定律直接添加到优化问题中，迫使最终的分析场精确地遵守它。

从其贝叶斯根源到其复杂的优化机制，变分资料同化代表了统计学、物理学和数值科学的辉煌综合。它是将分散、不确定的测量值转化为一个连贯、演化且动力学一致的世界图像的引擎，构成了现代天气预报和气候科学的基石。

应用与跨学科联系

推断的艺术：将理论与观测编织在一起

想象一下，你正试图描绘一条广阔奔流的河流的全貌。你无法一次看到它的全貌；你只能在几个分散的地点和几个不同的时间点，将一根测量尺浸入水中。你如何填补这些空白？你不会只是简单地连接这些点。你会运用你的直觉，你对水流方式——即其物理原理——的知识。在水位高的地方，你知道必定有水流从此流出。在水位浅的地方，必定有水流流入。从本质上讲，你正在将你稀疏的观测与河流的物理模型融合在一起。

变分资料同化正是这一过程的宏大数学形式化。它不仅仅是一种将曲线拟合到数据的技术；它是一个用于科学推理的深刻而强大的框架。它是将稀疏的观测织锦与坚实的物理定律之布编织在一起，以创造出我们所能构建的最完整、动力学上最一致的世界图景的艺术。正如我们将看到的，这个理念的应用从简单的数据平滑练习，延伸到天气预报、气候科学乃至基础物理学的宏大挑战，揭示了我们学习世界方式的美妙统一性。

平衡之舞：平滑与正则化

让我们从最简单的情况开始。假设我们有一组沿一条线的某个量的嘈雜测量值——比如一根金属棒上的温度。如果我们完全忠于测量值，我们得到的温度图像将是一片锯齿状的、不规则的混乱，随着观测噪声的每一次波动而上下跳跃。另一方面，如果我们完全忽略数据，只强加我们认为温度应该是平滑的信念，我们可能只会画出一条平直的线，这条线虽然非常平滑，但没有告诉我们任何关于实际测量值的信息。

两种极端都不能令人满意。我们感觉，真相必定介于两者之间。变分同化为我们提供了一种找到这个“中间地带”的方法。我们定义一个代价函数，一个量化我们对特定温度剖面“不满意”程度的单一数值。这个代价有两个部分。第一部分衡量我们对数据的不忠程度：我们提出的曲线与实际测量点之间距离的平方和。第二部分衡量我们对平滑性的不忠程度：我们曲线中“摆动”或梯度的平方和。

目标是找到那条使总代价尽可能小的曲线。我们可以引入一个旋钮，一个正则化参数，来控制这两个惩罚项的相对重要性。将旋钮朝一个方向转动，我们将数据保真度置于首位；我们的曲线将尽职地穿过那些嘈杂的数据点。将旋鈕朝另一个方向转动，我们将平滑性置于首位；我们的曲线将变得平坦，忽略测量值。当我们将旋钮设置得恰到好处时，奇迹就发生了。得到的曲线是最佳的平衡：一个平滑、物理上合理的剖面，但仍然受到实验证据的引导和约束。这场观测与物理原则之间的简单拔河比赛，正是所有资料同化发展的概念种子。

窥探未来：初始条件的力量

那么，如果我们的“物理原则”不仅仅是对平滑度的偏好，而是一条运动定律呢？这正是变分资料同化真正焕发生机的地方。考虑洪水预报问题。我们有一个基于水量守恒的简单模型，它告诉我们今天河流的流量如何取决于昨天的流量以及进入系统的降雨量。

假设我们对河流流量的初始猜测——我们的背景估计——很差。我们对未来几天的预报自然会是错误的。然而，我们手头有过去24小时的一些河流水位计读数。这些读数本身都不能准确告诉我们初始猜测错在哪里。但综合来看，它们包含了丰富的信息。

这就是四维变分同化 (4D-Var) 的范式。我们提出这样一个问题：“在时间窗口开始时，对我的初始条件进行什么样的单一调整，才能使随后的模式预报——即整个时间轨迹——最好地匹配我收集到的所有观测数据？”我们创建一个代价函数，它既惩罚与初始背景猜测的偏差，也惩罚模式轨迹与其各自时间点的水位计读数之间的不匹配。通过找到最小化此代价的初始条件，我们实际上是让来自后续观测的信息“时间倒流”，以修正我们的出发点。结果是对初始状态的“分析”得到了极大的改进，当这个分析向前传播时，会产生一个远为准确的预报。这是一个非凡的概念：为了更清晰地看到未来，我们必须首先让现在来修正我们对过去的记忆。

解码光的信息：从太空预报天气

4D-Var 的威力在任何地方都没有比在其最著名的应用——数值天气预報中——表现得更明显。我们观测全球大气最重要的眼睛是卫星，但它们不会给我们发送整洁的温度和风的图像。它们给我们发送的是用光的语言写成的神秘信息——具体来说，是不同频率的辐射率（radiances），即出射热辐射的测量值。

一个模式的状态向量包含三维网格上的温度、湿度和气压等场。而卫星测量的是辐射率。我们如何跨越这个鸿沟？桥梁是一个称为辐射传输方程 (Radiative Transfer Equation, RTE) 的物理模型，它精确描述了热能如何由地球表面和大气发射，以及在向上传输到卫星传感器的过程中如何被吸收和再发射。这个方程，一件19世纪物理学的美丽杰作，成为了我们的前向算子。它是将模式中温度和气体浓度的世界翻译成卫星中辐射率世界的“罗塞塔石碑”。

这种转换极其复杂且非线性。单个辐射率测量值是来自地表和大气多层贡献的加权平均值。而且我们不仅仅有一种测量类型。其他仪器，如使用 GPS 无线电掩星 (GPS Radio Occultation) 技术的仪器，测量卫星信号穿过大气时的弯曲程度，从而提供关于温度和气压剖面的极其精确的信息。这些测量的“前向算子”完全不同，并且依赖于轨道卫星不断变化的几何形状。

现代气象中心的 4D-Var 系统每隔几小时就会吸收数百万个这类迥异的观测。然后，它寻找大气的唯一初始状态，这个状态在由模式的运动方程向前演变时，能与所有这些观测同时达到最佳吻合。这个优化问题是巨大的——涉及数千万甚至数亿个变量。直接求解是不可能的。取而代之的是，采用一种巧妙的增量法，将这个庞大的非线性问题分解为一系列更小、更易于管理的线性问题来求解。每一步都精炼大气状态，就像雕塑家进行越来越精细的切割，直到一个连贯的画面浮现。正是这场在世界最大超级计算机上昼夜不停进行的物理、统计和优化的舞蹈，使得现代天气预报成为可能。

看不见的手：揭示隐藏的物理

到目前为止，我们一直在用已知的物理定律来解释数据。但是，资料同化能帮助我们发现定律本身，或者揭示物理世界隐藏的齿轮吗？答案是肯定的，而且其方式出人意料地深刻。

考虑一种不可压缩流体（如水）的运动。它必须遵守的基本定律是质量守恒，在这种情况下表现为连续性方程：速度场必须是无散的 ( $\nabla \cdot \mathbf{u} = 0$ )。假设我们有速度场的嘈雜测量值。我们可以构建一个变分问题：寻找最接近我们观测的“真实”速度场，但受限于它必须是完全无散的这一硬约束。

当我们使用拉格朗日乘子这一数学工具来解决这个问题时，非同寻常的事情发生了。我们为强制执行连续性约束而引入的拉格朗日乘子，结果恰恰就是压力场！。这是一个惊人的发现。压力，我们直观地认为是力，在这种背景下被揭示为一个数学实体，其存在的目的就是充当质量守恒的“执行者”。它是一只看不见的手，在每一点调整流场，以确保物质既不被创造也不被消灭。作为一种探究工具，变分同化让物理学揭示了其自身的深层结构。

这种揭示未观测量的原则延伸到许多领域。在海洋学中，我们可能会同化模型开放边界处的海面高度卫星测量值。一个构造得当的同化系统不仅会更新模型的海面高度，还会自动推断出与该高度变化动力学一致的、未被观测到的相应洋流。对一个变量的观测提供了关于许多其他变量的信息，所有这些变量都通过编码在模式和背景误差统计中的物理学联系在一起。

超越状态：学习游戏规则

变分同化不仅限于估计系统的状态。它还可以用来学习系统的内在属性，即参数。想象你有一块复合材料，你想绘制出其内部的导热系数。你可以在其中放置几个温度传感器，加热一侧，并记录温度的演变。通过定义一个衡量你的模型温度与传感器数据之间不匹配程度的代价函数，你可以使用变分同化来找到最能解释所观测到的热流的导热率空间分布图 $k(x)$ 。我们不再仅仅估计比赛的局面；我们正在推断游戏本身的规则。

这个思想在所谓的“弱约束”4D-Var 中达到了顶峰。在这里，我们放宽了模式完美的假设。我们承认我们的方程可能遗漏了某些过程。例如，我们的气候模型有已知的二氧化碳输送方程，但源（排放）和汇（被森林和海洋吸收）的确切位置和强度却知之甚少。通过同化全球大气CO2浓度的观测数据，我们可以将未知的源和汇视为一个待估计的“模式误差”项。弱约束 4D-Var 求解出的地表通量图，正是使模式预测与观测到的大气浓度相匹配所必需的。从这个意义上说，资料同化成为一种行星尺度的核算工具，利用观测来为全球生物地球化学循环结账。

新前沿：与人工智能的有原则合作

当我们将这个有原则的、基于物理的框架与现代人工智能原始的模式识别能力相结合时，会发生什么？这就是令人兴奋的新前沿。例如，一个物理信息神经网络 (PINN) 可以被训练成一个高度智能的插值器，填补由云层造成的卫星图像中的空白。

将人工智能的输出视为完美数据是很有诱惑力的。这将是一个严重的错误。真正的突破在于认识到人工智能的输出，就像任何其他信息来源一样，是不确定的。变分框架为这种融合提供了理想、严谨的机制。我们可以将人工智能重建的场视为一组“伪观测”。但至关重要的是，我们还必须估计这些伪观测的不确定性——它们的误差协方差矩阵——并将其输入到同化系统中。在一个人工智能信心不足的区域（也许是由于缺乏训练数据或难以满足物理定律），将被分配一个较大的误差，而同化系统会明智地减少对它的关注。

这是一个具有深远重要性的教训。变分资料同化不仅仅是一套数值工具；它是一种哲学。它是一种在不确定性下进行推理的形式化语言，用于将不完美的理论与不完整的数据融合，以创造出关于我们世界的最连贯的图像。从平滑一条嘈杂曲线的简单行为，到预报天气、诊断地球健康以及与人工智能建立有原则合作关系的宏大挑战，它是科学推断这门经久不衰的艺术的具体体现。

变分资料同化

引言

原理与机制

获取最佳猜测的贝葉斯方法

B\mathbf{B}B 矩阵的秘密：将物理规律编码于统计之中

第四维：从快照到影片

驯服野兽：优化的舞蹈

拥抱不完美：模式误差与物理定律

应用与跨学科联系

推断的艺术：将理论与观测编织在一起

平衡之舞：平滑与正则化

窥探未来：初始条件的力量

解码光的信息：从太空预报天气

看不见的手：揭示隐藏的物理

超越状态：学习游戏规则

新前沿：与人工智能的有原则合作

变分资料同化

引言

原理与机制

获取最佳猜测的贝葉斯方法

B\mathbf{B}B 矩阵的秘密：将物理规律编码于统计之中

第四维：从快照到影片

驯服野兽：优化的舞蹈

拥抱不完美：模式误差与物理定律

应用与跨学科联系

推断的艺术：将理论与观测编织在一起

平衡之舞：平滑与正则化

窥探未来：初始条件的力量

解码光的信息：从太空预报天气

看不见的手：揭示隐藏的物理

超越状态：学习游戏规则

新前沿：与人工智能的有原则合作

$\mathbf{B}$ 矩阵的秘密：将物理规律编码于统计之中

$\mathbf{B}$ 矩阵的秘密：将物理规律编码于统计之中