观测系统模拟实验 (OSSE)

玻尔百科

定义

观测系统模拟实验 (OSSE) 是一种通过构建名为“自然运行”的自洽数字现实，来测试尚未存在的观测系统的模拟框架。该方法在气象学和气候科学领域应用广泛，通过比预报模型更复杂的“兄弟孪生”设置提供完美的“真值”，从而实现对预报误差的精确计算。观测系统模拟实验 (OSSE) 被用于设计全球卫星和气候监测网络，并为改进强风暴预报及探索自适应观测策略提供科学依据。

核心要点

观测系统模拟实验 (OSSE) 构建一个自洽的数字现实，即“自然运行 (Nature Run)”，以测试尚不存在的观测系统。
为确保结果的真实性，高质量的 OSSE 采用“异卵双生”设置，其中模拟的现实比被测试的预报模式更复杂。
OSSE 的核心优势在于它能获取完美的“真相”，从而能够精确计算预报误差——这在使用真实世界数据时是不可能实现的。
OSSE 的应用范围广泛，从设计全球卫星和气候监测网络，到改进强风暴预报和开创自适应观测策略。

引言

我们如何能在一颗耗资数十亿美元的新气象卫星发射之前，就知道它是否真的能改进天气预报？地球科学中的这一根本挑战——无法在全球范围内进行受控实验——可以通过一种被称为观测系统模拟实验 (Observing System Simulation Experiment, OSSE) 的强大方法来解决。OSSE 涉及创建一个完全合成的、自洽的数字现实，在这个现实中，实验可以在完全了解“真相”的情况下进行。这种方法使科学家能够测试尚不存在的观测系统的价值，评估新的预报技术，并以在真实世界中不可能的方式厘清复杂的因果关系。本文对这一关键方法进行了全面概述。

在接下来的章节中，我们将首先深入探讨原理与机制，解释一个现实的数字宇宙，即“自然运行 (Nature Run)”，是如何构建的，以及合成观测是如何创建的。随后，我们将探讨应用与跨学科联系，展示 OSSE 如何被用于设计未来的卫星、改进风暴预测、监测气候变化，以及推动地球系统科学的前沿。

原理与机制

想象一下，你是一名工程师，任务是设计一颗革命性的新型气象卫星。这是一个耗资数十亿美元的项目，核心问题简单而深刻：它真的能改进我们的预报吗？我们不能先发射它来一探究竟，而在过去的天气上进行测试也很棘手，因为新卫星的存在本身就会改变我们试图预测的过去。那么，我们如何才能做出理性的决策？我们如何能在一个尚未发生的未来，测试一个尚不存在的仪器？

正是这一困境催生了现代环境科学中最强大的理念之一：观测系统模拟实验 (OSSE)。其策略之大胆，在于其简单性：如果你不能在真实世界做实验，那就构建一个新的世界。OSSE 是一个端到端的数字宇宙创造过程，一个完全已知、自洽的现实，在这里我们可以扮演上帝的角色，进行完美的实验，并获得明确的答案。这是我们的科学水晶球。

构建一个宇宙：自然运行

任何 OSSE 的基础都是创造“真相”本身。这个合成的现实被称为自然运行 (Nature Run)。它是一个来自最高保真度数值模式的长时间自由运行模拟——我们对海洋或大气最详尽、最复杂的表征。但是，什么能让一个自然运行成为可信的“真相”呢？

重点不在于匹配历史上某一天的天气。相反，目标是创造一个具有现实气候的世界。我们的数字地球对飓风是否有正确的统计特征？它产生的海洋涡旋的数量和强度是否正确？系统中的能量是否以模仿现实的方式从大尺度（如急流）流向小尺度（如湍流）？我们可以通过检查模式的功率谱来验证这一点，功率谱告诉我们在不同空间尺度上存在多少方差或“活动”。一个好的自然运行必须包含从宏观到微观、跨越广泛尺度范围的丰富现象。至关重要的是，它必须能够表征比我们打算测试的预报模式更小、更复杂的现象。

这就引出了设计可信 OSSE 最重要的一条规则：自然运行必须独立于用于预报的模式。这产生了一个绝妙的比喻：“同卵双生”与“异卵双生”实验。

同卵双生 OSSE 使用完全相同的数值模式来生成自然运行和运行预报系统。这会导致危险的乐观结果。预报模式实际上生活在一个由它已知的物理定律支配的世界里。这就像自己批改自己的作业；你肯定会显得很出色，因为你已经有了答案。预报模式的误差会被人为地减小，而新观测的表面影响则会被夸大。

为了避免这个陷阱，我们进行异卵双生 OSSE。在这里，自然运行由一个不同的、并且理想情况下更好的模式生成。现在，预报模式必须同化来自一个微妙陌生的世界的数据——这个世界有不同的参数化方案、不同的数值特性，最重要的是，在它甚至无法解析的尺度上存在着能量现象。模式之间的这种差异——可以用 Kullback-Leibler 散度等复杂指标来量化——引入了一种现实的模式误差形式，并迫使预报系统应对其在真实世界中面临的同类不完美性。这是黄金标准。

扮演观察者：构建合成观测

有了我们的数字宇宙，现在我们必须模拟观测它的行为。这并不像从自然运行的网格中简单地提取数值那么简单。这是一个模仿仪器如何实际感知世界的细致过程。

首先，我们应用一个观测算子，用符号 $H$ 表示。这是一个数学变换，它将来自自然运行的“真实”状态 $x^{\text{NR}}$ 映射到可观测量的空间。例如，一颗测量海表面高度的卫星看到的不是一个单点；它的传感器在其宽广的覆盖范围上进行平均。一个剖面浮标提供特定深度的温度，而不是整个水柱。算子 $H$ 解释了所有这些物理和几何细节。

其次，我们必须考虑采样模式。真实的观测系统并非无处不在。一颗卫星遵循特定的轨道，在其覆盖范围内留下巨大的空隙。Argo 浮标随洋流漂移，不规则地散布在海洋中。我们必须模拟这些确切的采样模式，包括所有现实的数据缺口，方法是应用一个随时间变化的采样算子 $S(t)$ 。因此，无噪声的合成观测不仅仅是 $H x^{\text{NR}}$ ，而是 $S(t) H x^{\text{NR}}$ 。

最后，我们必须添加误差。每一个真实的测量都是不完美的。所以，我们在合成数据中加入一个随机噪声向量 $\epsilon$ 。但这不仅仅是任意的噪声。高质量的 OSSE 将使用基于真实仪器已知特性的误差模型。这种误差可能具有复杂的结构，由协方差矩阵 $R$ 描述。例如，来自卫星扫描带的误差可能是相关的，这意味着一个点的误差会使得邻近点出现类似误差的可能性更大。因此，完整的合成观测 $y^{\text{syn}}$ 由以下方程给出：

y^{\text{syn}}_k = S_k(t) H_k(x^{\text{NR}}_k) + \epsilon_k, \quad \text{where } \epsilon_k \sim \mathcal{N}(0, S_k(t) R_k S_k(t)^{\top})

这个过程确保了最终的合成数据集，连同其所有的缺口和相关误差，都是对真实仪器会产生的数据的忠实模仿。

揭示真相：同化与已知真相的力量

现在我们有了一个完整的实验装置：一个“真实”的宇宙（自然运行）和一串对它的现实（但合成的）观测数据。最后一步是将这些观测数据输入我们的预报系统，该系统运行着自己的、不完美的“异卵双生”模式。该系统执行数据同化，这是一个智能地将其自身的预报（“背景场”）与输入的观测数据相融合，以生成一个新的、改进的状态估计（“分析场”）的过程。

OSSE 的真正魔力就在于此。在真实世界中，我们可以通过将预报与后续的观测进行比较来评估预报，但我们永远无法知道我们分析场的真实误差，因为我们永远无法获得地球的完整、真实状态。但在 OSSE 的受控世界里，我们拥有绝对的真相：自然运行。我们可以直接从自然运行的真实状态 $x^{\text{NR}}$ 中减去我们系统的分析场 $x^a$ ，并计算出精确的误差。这是用真实数据无法实现的巨大优势。

这使我们能够提出精确的、因果性的问题。我们可以用一组基准观测 ( $S_1$ ) 进行一个实验，再用包含我们新提议的卫星的观测 ( $S_2$ ) 进行另一个实验。因为两个实验都在完全相同的自然运行中进行，所以每一个波、涡旋和风暴都是完美同步的。两次运行之间唯一的区别就是新观测的存在。预报准确性的任何由此产生的差异都可以直接、因果地归因于新卫星。这消除了那些困扰真实世界观测系统实验的混淆变量——比如真实世界天气模式在两个测试期间发生的变化。

点金石：有效性及其争议

OSSE 是一个极其强大的理性设计工具，它允许我们在投入数十亿美元建设新的观测系统之前，估算预报不确定性的减少量。然而，它也是一个精密的工具。从一个模拟宇宙中得出的结论，其可靠性仅与构建它所用的假设相当。OSSE 的有效性并非理所当然；它必须通过精心的设计和健康的科学怀疑精神来获得。

最大的风险之一是一个不忠实的自然运行。想象一下，我们的自然运行过于“平滑”——它未能充分代表真实世界中存在的混乱、小尺度的变率。在我们的 OSSE 中，观测与预报模式之间的不匹配，即所谓的代表性误差，将被人为地减小。当同化系统在这个温和的世界中被“调整”时，它会学着非常信任观测。当这个过于信任的系统随后被部署到远为混乱的真实世界时，它可能会对噪声数据“过拟合”并表现不佳[@problem-id:4083309]。在一个存在大量未经校正的观测偏差的世界里，最优策略实际上是降低观测的权重，这是一个过于干净的 OSSE 永远无法发现的微妙之处。

同样，错误地指定观测误差的结构——例如，假设它们是简单且不相关的，而实际上它们是复杂且相关的——可能导致 OSSE 高估新传感器的信息含量，甚至可能颠覆两个竞争设计的排名。此外，整个框架建立在一个假设之上，即单个、长时间的自然运行是地球可能经历的所有动力学机制的一个统计上公平的样本。这个“遍历性假设”是一个很强的假设，单次运行可能偶然地偏爱一种观测策略而非另一种。

最终，OSSE 的目标不是构建一个地球的完美数字副本。那是不可能的。目标是构建一个数字世界，其中误差和不确定性的来源——模式偏差、观测误差结构、未解析的尺度——是对我们在真实系统中面临的误差和不确定性的现实模拟。这既是观测系统模拟实验的深刻挑战，也是其微妙的艺术：构建的不是一个完美的世界，而是一个完美不完美的世界。

应用与跨学科联系

现在我们已经掌握了创建“自然运行”——一个作为我们基准真相的高保真模拟——的原理，我们可以提出最令人兴奋的问题：它有什么用？为什么要费尽周折在计算机里构建一个世界的复制品？答案是深刻的。它将地球科学——这门很大程度上是观测性的学科——转变为一门实验性的学科。在真实世界里，我们是被动的观察者。我们无法进行一个受控实验，比如说，把太平洋移走一周，看看天气会发生什么变化。我们只能面对眼前这个单一、复杂且常常混乱的现实。这使得厘清因果关系变得极其困难。

自然运行改变了游戏规则。它提供了一个世界，在这个世界里，大气和海洋的“真实”状态在任何时候都是完全、完整已知的。对科学家来说，这是一种近乎神的力量。它让我们能够进行所谓的观测系统模拟实验，即 OSSE。与它们的现实世界对应物——观测系统实验 (OSE)（涉及从预报系统中扣留真实数据以观察会出现什么问题）不同，OSSE 允许我们测试尚不存在的事物。它们是终极的试验台，是我们科学思想的飞行模拟器。让我们来参观一下这个模拟世界，看看它能带来哪些发现。

可能性的艺术：一个受控实验

从本质上讲，OSSE 是一项关于“如果……会怎样”的、优美简洁且合乎逻辑的实践。想象一下，我们想知道一种新型海洋传感器的效果如何。这个过程就像一出分为四幕的科学戏剧。

首先，我们搭建舞台：自然运行，一片“完美”的小海洋，其洋流和温度根据物理定律演变。这是我们绝对、不可触碰的真相。

其次，我们为我们的新传感器编写脚本。我们让它“测量”我们完美海洋的温度，但由于没有真实的仪器是完美的，我们在测量中加入了一点现实的、随机的噪声。这给了我们一个合成观测——即我们的新传感器如果部署在这个世界里会产生的那种数据。我们可以创建许多这样的观测，例如，模拟一个使用非常精确、低噪声仪器的情况，或者一个使用非常嘈杂、易出错仪器的情况。

第三，我们将这些合成观测数据提供给我们的数据同化系统——这是我们尽最大努力编写的、能够创建海洋地图的程序。关键在于，这个程序没有看过自然运行。它只看到带噪声的观测数据，就像我们在真实世界中所做的那样。它尽力将观测数据与其自身的预报相结合，生成最终的图像，即“分析场”。

最后，是见证真相的时刻。我们将我们的程序创建的分析场与原始的、完美的自然运行直接进行比较。因为我们知道真相，所以我们可以完美精确地计算出分析场的误差。使用近乎完美观测的分析场是否比使用嘈杂观测的分析场更接近真相？当引入有缺陷的数据时，分析场是否变差了？OSSE 给了我们一个定量的、明确的答案。我们终于可以满怀信心地衡量信息的价值。

设计地球之眼

这种简单的逻辑可以扩展到具有巨大复杂性和重要性的问题上。建造和发射一颗新的对地观测卫星可能耗资数十亿美元，并需要数十年的规划。我们最好在投入之前确定它将提供有价值的信息。OSSE 是做出这些决策不可或缺的工具。

考虑一下从太空测量地球风场的挑战。欧洲空间局的 Aeolus 任务是一项惊人的工程壮举，其设计目的就是利用强大的激光来完成这项工作。但是它传回的数据真的能改善天气预报吗？OSSE 早在发射前就提供了答案。科学家们建立了一个全球大气的自然运行，模拟了 Aeolus 卫星的确切轨道路径和测量特性，并生成了合成风场观测。然后将这些数据输入到一个预报模式中。要使结果可信，关键在于避免“作弊”。自然运行是用一个与用于同化的预报模式不同的、更高分辨率的模式创建的。这种“异卵双生”设置确保了预报模式不会因为了解自然运行的确切物理过程而获得不公平的优势——这是现实中必不可少的一环。结果呢？OSSE 预测了显著的积极影响，这一预测在真实卫星进入轨道后得到了胜利的证实。

当观测不是我们想要的东西的直接测量时，挑战就更大了。许多卫星测量的是辐射率——特定频率光的强度——然后用它来推断温度和湿度。这是一个间接的过程，就像试图通过分析蒸汽的颜色和气味来推断一锅炖菜的成分一样。“观测算子”就是复杂的物理模型——辐射传输方程——它充当我们的食谱，将蒸汽与成分联系起来。但如果我们的食谱有错误怎么办？或者如果仪器本身有系统性偏差呢？复杂的 OSSE 正是为解决这个问题而设计的。自然运行被用来生成完美的辐射率，我们不仅向其中添加随机噪声，还添加基于物理的现实偏差。然后我们测试我们的数据同化系统是否能同时吸收数据、校正偏差并产生更好的预报。这使我们能够将仪器的价值与其解释中的误差分离开来，从而推动我们从光中学到的知识的边界[@problem-id:4012580]。

从全球气候到局部风暴

自然运行框架的应用涵盖了从气候变化的缓慢、十年尺度演进到雷暴的剧烈、分钟级演变的全部时空尺度。

在气候尺度上，一个关键问题是我们如何才能最好地监测我们星球的健康状况。例如，科学家知道海洋在某些区域正缓慢地失去溶解氧——这一现象对海洋生态系统具有严重后果。但是我们如何才能有信心地测量这一缓慢趋势，并将其与自然变率区分开来？一个关键工具是由数千个机器人“Argo”浮标组成的全球阵列，它们对海洋进行剖面测量。如果我们增加更多带有氧传感器的浮标，这将使我们十年趋势估计的不确定性减少多少？OSSE 是找出答案的唯一实际方法。我们可以用一个生物地球化学海洋模式运行一个“虚拟十年”的自然运行，模拟不同数量的浮标，并对每种情景进行趋势分析。这类实验对于设计一个成本效益高且稳健的气候观测系统至关重要，并且它们迫使我们面对一些微妙但关键的问题，比如“代表性误差”——即来自浮标的单点测量与它本应代表的全球模式巨大网格单元之间的不匹配。

在另一个极端是猛烈、混乱的强对流天气世界。为了预报一个对流风暴，我们依赖天气雷达，它测量降水反射率和多普勒速度。在这里，OSSE 不仅成为评估观测的有力工具，也成为探查我们预报模式弱点的工具。我们可以用一个高度复杂的“分档微物理”方案来创建一个自然运行，该方案追踪雨滴、冰晶和冰雹的完整尺寸分布。而业务预报模式出于计算原因，必须使用一个简单得多的“总体微物理”近似。然后 OSSE 让我们能够发问：当我们将雷达数据同化到我们更简单的模式中时，我们的预报误差有多少来自仪器噪声，又有多少来自我们模式的物理过程与自然运行所代表的真相之间的根本结构性不匹配？这是一个深刻的问题，使我们能够利用 OSSE 来诊断并最终改进我们天气模式中云和降水的物理表征。

自然的统一性：耦合各个圈层

也许 OSSE 最先进的应用是解决不同地球系统交叉领域的问题。长久以来，海洋模式和大气模式都是在不同的社群中独立发展的。但在自然界中，它们被锁定在一场持续而亲密的对话中。海洋的表面温度驱动大气天气，而大气的风驱动海洋环流。这种交换是通过跨越海气界面的热量、水汽和动量通量来调节的。

考虑一次感热通量的观测，即热量从温暖的海洋直接传递到上方较冷的空气中。从物理学我们知道，这个通量 $Q_s$ 由著名的总体公式决定： $Q_s = \rho_{a} c_{p} C_{H} U (T_{s} - T_{a})$ 。换句话说，热通量取决于风速 ( $U$ )、海面温度 ( $T_s$ ) 和气温 ( $T_a$ )。请注意，这个单一的测量量 $Q_s$ 是海洋 ( $T_s$ ) 和大气 ( $U$ , $T_a$ ) 变量的函数。因此，一次通量的测量是一条耦合信息。我们的分析系统如何可能利用这一点呢？OSSE 提供了试验平台。我们可以设计一个耦合数据同化系统，其状态向量同时包含海洋和大气变量。OSSE 允许我们测试该系统是否能正确地吸收一个通量观测，并用它来智能地、物理上一致地更新海面温度和大气风场及温度场。这要求我们系统的不确定性模型——背景场误差协方差——在海气边界上具有非零的相关性。设计和测试这些耦合系统是地球系统预测的前沿，而基于耦合自然运行构建的 OSSE 则是探索这一领域的必要工具。

智能观察者：未来一瞥

到目前为止，我们已经讨论了使用 OSSE 来设计固定的观测网络。但如果我们的网络可以是智能的呢？如果我们拥有的不是一个刚性的传感器网格，而是一支可以实时指挥的移动平台舰队——比如水下滑翔机、无人机——那会怎样？这就引出了令人兴奋的自适应或目标观测概念。

想象一下，我们想改进一个即将在三天后登陆的强风暴的预报。我们可以用我们的预报模式来提问：“今天海洋或大气中哪个地方的不确定性增长最快，并将在 72 小时后对风暴的路径和强度产生最大影响？”我们的模式现在已经足够先进，可以回答这个问题，识别出敏感区域。目标观测的理念就是将我们的移动仪器直接派往这些“热点区域”，在最能发挥作用的地方收集数据。

这种聪明的策略真的比使用相同数量仪器的固定网络效果更好吗？这是一个非常适合用 OSSE 来回答的问题。我们可以利用我们的自然运行进行两个平行的实验。在一个实验中，我们使用一个固定的传感器阵列。在另一个实验中，我们使用自适应策略，将相同数量的传感器移动到预报识别出的“热点区域”。通过对数百个案例进行这种比较，我们可以证明智能策略的价值。因此，OSSE 不仅用于设计我们观测系统的硬件，也用于设计它们的智能。

在复杂世界中评分

最后，我们如何在这些实验中评判成功？在一个像自然运行一样复杂的世界里，单一的评分标准很少足够。最直接的度量是均方根误差 (RMSE)，它衡量我们的分析场与真实状态之间差异的平均大小。这是一个可靠的主力度量标准。

但有时我们更关心模式而不是确切的数值。我们的分析场是否捕捉到了墨西哥湾流的形状和位置，即使它可能冷了一度？为此，我们使用异常相关 (AC)，这是一个从 -1 到 1 的无量纲评分，衡量我们分析场中的模式与真相中的模式匹配得有多好。

此外，当我们评估一个包含风、温度、压力和盐度的多变量系统时，仅仅计算每个变量的 RMSE 并分开看它们是不够的。这就像通过单独听每种乐器来评判一部交响乐一样。我们需要一种方法将误差组合成一个单一的、具有物理意义的数字。这是通过使用“能量范数”来完成的，这是一种复杂的度量，它根据不同变量对系统总能量（例如，动能和势能）的贡献来对误差进行加权。总能量误差的减少有力地说明我们的分析场与真正在动力学上更加一致。能够使用一套如此严格的度量标准，是使 OSSE 框架对科学发现如此强大的另一个特点。

从设计卫星到监测气候，从预报风暴到开创智能观测系统，自然运行及其之上的 OSSE 是现代科学家工具箱中不可或缺的一部分。它们提供了一个宝贵的沙盒——一个真相已知、实验可行、通往更深层次理解我们世界的道路得以照亮的地方。