模式输出统计 (MOS)

玻尔百科

定义

模式输出统计 (MOS) 是一种用于气象学的统计技术，旨在通过识别和纠正数值天气预报模式中的系统性偏差来提高预报准确性。该方法利用历史预报和观测存档数据进行模型训练，其进阶形式集成模式输出统计（EMOS）能够同时校准均值与方差，从而生成完整的概率预报。这些经过校准的概率输出为经济和资源管理等领域的风险决策提供了关键支持。

核心要点

模式输出统计（MOS）是一种统计技术，通过识别并校正数值天气模式中系统性的、可预测的偏差来提高预报准确率。
集成 MOS（EMOS）通过校准集成预报的均值（以提高准确性）和方差（以量化不确定性），从而生成完整的概率预报。
MOS 模型的训练使用历史预报和观测的存档数据，通常通过优化像连续分级概率评分（CRPS）这样的评分规则，以确保预报既经过校准又具有集锐性。
MOS 输出的经过校准的概率预报对于经济学、资源管理等领域中基于风险的决策至关重要。

引言

数值天气和气候模式，尽管建立在基本物理定律之上，但它们并非对现实的完美呈现。这些模式包含系统性偏差和误差，会降低其预报质量。模式输出统计（Model Output Statistics, MOS）是一个强大的统计框架，正是为解决这一问题而设计。它充当一个校正层，通过从模式过去所犯的错误中学习，生成显著更准确、更可靠的预报。本文将全面概述 MOS，旨在弥合原始模式输出与可操作的、经过校准的预报之间的鸿沟。

首先，我们将探讨 MOS 的核心原理与机制。本章将剖析系统性误差与随机误差分离的基本思想，解释线性模型如何校正模式偏差，并引入集成 MOS 这一用于创建完整概率预报的先进概念。随后，本文将重点转向应用与跨学科联系。我们将审视 MOS 模型在真实世界场景中如何进行训练、检验和调整，以及它们如何与机器学习、经济学等领域联系起来，以支持不确定性下的关键决策。

原理与机制

想象一位弓箭手在练习射艺。日复一日，他瞄准靶心，但箭矢总是落在偏高偏左的位置。这个误差并非随机，而是有规律可循。一个聪明的弓箭手不会继续瞄准靶心，而是会学会补偿，将瞄准点稍稍调低偏右，以校正他的系统性倾向。数值天气模式，尽管极其复杂，却有点像这位弓箭手。尽管基于基本物理定律构建，但由于近似处理、未解析的小尺度物理过程以及不完美的初始数据，它们也有自己的系统性怪癖和偏差。模式输出统计（MOS）就是一门教模式成为自己那位聪明弓箭手的科学——从过去的错误中学习并自我校正。

可预测与不可预测

MOS 的核心是一个极为简单的思想：任何预报误差都可以分解为两部分。一部分是系统性分量，即我们可以预测并可能校正的部分，就像弓箭手偏高偏左的倾向。另一部分是随机分量，即本质上不可预测的部分，就像在最后一刻推动箭矢的一阵微小突风。

用统计术语来说，如果我们有一个观测值 $Y$ （例如实际温度）和一个原始模式预报 $F$ ，总误差就是 $Y-F$ 。这个误差的系统性部分是我们在给定一组预报因子 $X$ （可以包括原始预报 $F$ 本身以及其他信息）所描述的特定预报情况下，平均可以预期的部分。这就是条件偏差，数学上写作 $\mathbb{E}[Y - F \mid X]$ 。后处理的目标就是构建一个模型来预测这个量，并将其减去。剩下的一部分，即残差 $Y - \mathbb{E}[Y \mid X]$ ，才是真正随机、无法根据我们所掌握的信息预测的部分。这种概念上的划分是所有统计校正方法建立的基础。

线性假设：一条通往更优预报的直线

那么，我们如何构建一个模型来预测这种系统性误差呢？最直接的方法，也是 MOS 的历史起点，是假设一个简单的线性关系。我们假设校正后的预报，我们称之为 $\hat{Y}$ ，是原始预报 $F$ 的一个线性函数：

\hat{Y} = a + bF

这个方程虽然看起来像高中代数课上的内容，但其功能异常强大。系数 $a$ 和 $b$ 是我们可以调整以校正模式行为的“旋钮”。 $a$ 项，即截距，用于校正一个简单的整体偏差。如果一个模式平均而言比实际温度低 $1^{\circ}\text{C}$ ，那么训练过程会学到一个 $a \approx 1$ 。 $b$ 项，即斜率，则更为精妙；它用于校正条件偏差。例如，如果一个模式倾向于夸大温度波动——预报的白天气温过高而夜间气温过低——它会学到一个 $b \lt 1$ 的斜率来抑制这些极端值。反之，如果模式的预报过于保守，它可能会学到 $b \gt 1$ 来增强信号。

这个简单的线性模型远比基本的平均偏差校正（等同于强制 $b=1$ ）要复杂得多。通过允许 $a$ 和 $b$ 都从历史数据中学习（通常通过寻找使 $\hat{Y}$ 和实际观测值 $Y$ 之间的平方误差最小化的值），MOS 可以校正那些随预报本身变化的偏差。

当然，现实总是要复杂一些。有人甚至可能认为，原始预报 $F$ 本身就是对模式试图捕捉的“真实”状态的一次带噪声的测量。这个“变量含误差”问题会巧妙地误导回归分析，通常导致其低估真实的斜率 $\beta$ 。巧妙的统计技术甚至可以考虑到这一点，通过评估预报因子本身的可靠性来提供一个校正后的斜率估计。这让我们得以一窥隐藏在最简单统计模型背后的深层内涵。

训练的艺术：谁是老师？

要教我们的 MOS 模型，我们需要一本教科书：包含过去预报及其相应真实世界结果的历史记录。但这引出了一个关键问题：我们应该用谁的预报进行训练？这导向了统计降尺度中的两大流派：完美预报（Perfect Prognosis）和模式输出统计（Model Output Statistics）。

完美预报（Perfect Prognosis, PP）方法使用“完美”的历史预报因子来训练统计模型，这些因子通常取自再分析数据集——一种融合了观测和模式、为我们提供了过去大气状态最佳图像的数据集。模型学习“真实”大尺度天气型与局地结果之间的关系。其主要优点是，这种学到的关系与具体模式无关，理论上可以应用于任何预报模式。但问题在于，它假设预报模式能产生完美的大尺度天气型。如果一个气候模式存在系统性偏差——例如，它总是将风暴路径放置在比真实世界位置偏南 100 公里的地方——那么 PP 模型将被输入错误信息，其预报也会受到影响。

模式输出统计（Model Output Statistics, MOS）方法则另辟蹊径。它使用它将要校正的同一个模式的存档预报（后报）来训练统计模型。它学习一个从模式潜在的有缺陷的世界到真实世界的映射。通过这样做，它含蓄地学习并校正了该特定模式的系统性偏差。如果模式的风暴路径总是偏南 100 公里，MOS 关系会学习到这一点并加以考虑。其结果通常是对当前气候的高度精确校正。代价是失去了普适性。MOS 校正是针对某一个模式特定误差量身定制的。如果预报模式进行了重大升级，其误差特征将会改变，MOS 系统也必须完全重新训练。这是一个经典的工程权衡：专业化与可移植性。

从单一数值到完整图景：集成 MOS

一个单一数值的预报，比如“明天最高气温将是 $25^{\circ}\text{C}$ ”，是一个不完整的故事。我们真正想知道的是我们对这个数字应该有多大的信心。它是板上钉钉的事，还是同样可能达到 $20^{\circ}\text{C}$ 或 $30^{\circ}\text{C}$ ？这便是概率预报的范畴，也正是 MOS 演化为其现代、强大形式——集成模式输出统计（Ensemble Model Output Statistics, EMOS）——的领域。

EMOS 不仅预测一个单一值，它预测一个完整的概率分布，通常是一个高斯分布或“钟形曲线”，由一个均值（其中心）和一个方差（其展宽）来描述。EMOS 的精妙之处在于它如何利用来自集成预报——一个由许多初始条件略有不同的模式运行组成的集合——的信息。集成均值 $\bar{y}$ 给出了最可能结果的稳健估计。集成离散度或方差 $s^2$ 是预报不确定性的直接度量。当集成成员高度一致时， $s^2$ 很小，表明信心很高。当它们差异巨大时， $s^2$ 很大，预示着信心很低。

对于像温度这样的高斯变量，标准的 EMOS 方法既优雅又有效。预测的分布由 $\mathcal{N}(\mu, \sigma^2)$ 给出，其中：

\mu = a + b\bar{y}

\sigma^2 = c + ds^2

预测均值 $\mu$ 是对集成均值的线性校正，就像在更简单的 MOS 中一样。但真正的魔力在于预测方差 $\sigma^2$ 。它是集成离散度 $s^2$ 的线性函数。这使得模型能够发布“依赖于流型”的不确定性估计。在一个平静、可预测的日子，集成离散度 $s^2$ 会很小，从而导致一个小的预测方差 $\sigma^2$ 和一个集锐、可信的预报分布。而在一个混乱的日子，微小的扰动可能导致截然不同的结果， $s^2$ 会很大，模型将发布一个宽泛、不确定的分布，诚实地反映了当前形势的低可预报性。

参数 $a, b, c, d$ 是从一个大型后报数据集中估计出来的，通常是通过寻找能最大化历史观测似然或最小化像 CRPS 这样的“恰当评分规则”的数值，该规则奖励既准确又可靠的预报。这里甚至内建了逻辑上的保障：参数 $c$ 和 $d$ 被约束为非负（ $c > 0, d \ge 0$ ），因为负方差在物理上是无稽之谈。

游戏规则：真实世界的复杂性

这整个框架都建立在一个关键假设之上：模式输出与现实之间的关系随时间是稳定的。这就是平稳性原则。一个朴素的解释是气候本身没有变化，这显然是错误的。MOS 所依赖的更精妙的真实假设是条件平稳性。这意味着统计关系 $P(Y \mid X)$ ——即在给定预报因子 $X$ 的条件下观测到 $Y$ 的概率——保持不变。模式的误差特征是稳定的，即使某些天气事件的频率正在改变。这使得我们能够用 1990-2020 年的数据训练一个模型，并有信心地将其应用于 2024 年的预报。

当然，世界并非总是那么合作。许多重要变量，如风速或降水，并不能用对称的钟形曲线很好地描述。它们是严格为正且常常高度偏斜的。在这些情况下，统计学家采用了另一个聪明的技巧：他们对数据应用数学变换（如对数变换或更通用的 Box-Cox 变换），使其看起来更像高斯分布。然后，他们在这个变换后的尺度上拟合 EMOS 模型，最后，小心地将概率预报反变换回原始的物理尺度。这个反变换并非易事；对均值进行朴素的反变换会产生偏差，必须使用适当的校正才能得到正确答案。

将这种后处理与预报流程中的另一个关键步骤——数据同化（Data Assimilation, DA）——区分开来也很重要。DA 是将新的观测资料与一个短期预报相融合，为下一次模式运行创造最佳初始条件的过程。它发生在主预报积分之前。相比之下，MOS 是在模式运行结束后应用的纯统计校正。它们是同一枚硬币的两面，在不同阶段共同作用，以消除我们天气预报中的不确定性和偏差，让我们一步步接近完美的预报。

应用与跨学科联系

在前面的讨论中，我们探究了模式输出统计（MOS）背后的原理，这是一门优雅的统计工艺，用于校正我们庞大的、基于物理的天气和气候模式的原始输出。我们看到，即使是我们对大气最出色的模拟，尽管根植于运动和热力学的基本定律，其描绘的未来图景也可能有些模糊，略微偏离中心。现在，我们将走出工坊，去看看这门工艺的实际应用。我们将发现这些统计技术不仅仅是学术操练，而是在一系列真实世界应用中不可或-缺的工具，在物理学、统计学、计算机科学甚至经济学之间建立了强大的联系。

这是一段将抽象转化为可操作的旅程。它讲述了我们如何将动力学模式给出的物理上一致但并不完美的预报，通过与统计学的巧妙协作，生产出经过校准、本地化且可靠的预报。这种协同作用，有时被称为混合降尺度，是现代预报的核心。动力学模式承担了繁重的工作，模拟大气和海洋的宏大舞蹈。然后，统计模型扮演着一位艺术大师的角色，审视这些原始输出，从过去的经验中学习其系统性缺陷，并施以精妙的点睛之笔，将其转化为一幅预测科学的杰作。

校正的艺术：锐化图像

想象一下，你收到一张来自你知道镜头有瑕疵的相机的照片——它总是会增加一层轻微的色偏，并使图像有点模糊。你不会直接接受这张照片；你会使用照片编辑软件来校正颜色并锐化焦点。这正是最简单形式的集成 MOS（EMOS）为天气预报所做的事情。

假设一个温度的集成预报给了我们一个平均预测值 $\bar{y}$ 和一个其离散度的度量，即方差 $s^2$ 。原始的平均值可能存在持续的偏差（例如，模式总是有点偏冷），而离散度可能不是真实预报不确定性的可靠指标（例如，当天气实际上非常不确定时，模式常常过于自信）。EMOS 用极其简单的线性调整解决了这个问题。校正后的预报均值 $\mu$ 和方差 $\sigma^2$ 由以下公式给出：

\mu = a + b \bar{y}

\sigma^2 = c + d s^2

每个参数都有一个优美而直观的角色。参数 $a$ 校正了整体的加性偏差——它将整个预报调暖或调冷。参数 $b$ 校正了乘性偏差；例如，如果 $b \lt 1$ ，它会抑制模式倾向于夸大的极端预报。在方差方面， $c$ 提供了一个基准的不确定性水平，承认即使是一个完全一致的集成（其中 $s^2 = 0$ ）也不意味着一个完美的预报。然后，参数 $d$ 调整集成自身的离散度，将其放大或缩小，以更好地匹配真实观测到的不确定性。如果一个原始集成的方差为 $s^2 = 9$ 平方度，而带有其学习参数的 EMOS 模型产生的校准方差为 $\sigma^2 = 6.5$ 平方度，这表明它已经学习到这个原始集成倾向于过度离散，并产生了一个在保持校准的同时“更集锐”、更可信的预报。

从经验中学习：预报员的训练

但是这些神奇的数字—— $a, b, c, d$ ——从何而来？它们并非凭空捏造。它们是通过细致地比较过去的预报与实际发生的天气而从经验中学习得来的。这就是训练阶段。为了正确地做到这一点，我们需要一位好老师，一个能告诉模型它做得怎么样的“评分规则”。

最优雅、最诚实的老师之一是连续分级概率评分（Continuous Ranked Probability Score, CRPS）。与那些只关心你是否答对的简单评分不同，CRPS 会奖励整个概率预报。它就像一位老师，不仅根据你的最终答案打分，还根据你表达的推理和信心来评分。CRPS 奖励那些既准确（分布中心接近实际结果）又集锐（分布尽可能窄，避免不必要的含糊其辞）的预报。训练 EMOS 模型的过程就是寻找一组 $a, b, c, d$ 的值，使得在长期的历史预报中，平均 CRPS 能够达到最优（最低）。这是一个优美的优化问题，模型通过从错误中学习，成为一个更可靠的未来指南。

一旦训练完成，我们就可以对模型进行测试。我们可以给它一个新的集成预报——也许是一个离散度非常高的预报，或者是一个所有成员神秘地一致的预报——它将应用其学到的智慧，生成一个单一的、值得信赖的概率预测，一个由其学到的 $\mu$ 和 $\sigma^2$ 定义的高斯钟形曲线。

真相时刻：我们如何评判一个预报？

在我们构建了复杂的校准模型之后，关键问题依然存在：它真的有帮助吗？科学要求客观的检验。我们需要将我们新的、经过校准的预报进行审判，并将它们与原始的、未加工的预报，甚至与一个简单的基准——比如仅根据长期平均值（气候态）进行猜测——进行比较。

对于“是/否”问题，比如“明天降雨量会超过 25 毫米吗？”，Brier 评分是黄金标准。它是我们概率预报的均方误差。如果你说某个事件发生的概率是 $0.8$ ，而它发生了，你那天的误差是 $(0.8 - 1)^2 = 0.04$ 。如果它没有发生，你的误差是 $(0.8 - 0)^2 = 0.64$ 。只有做到完全肯定且完全正确才能获得 0 分的完美分数，这是不可能的。Brier 评分巧妙地惩罚你的错误，也惩罚你的不确定。

通过比较我们的 EMOS 预报与原始集成的 Brier 评分，我们可以量化我们增加的价值。Brier 技巧评分（BSS）告诉我们相对于一个参考预报（如气候态）的改进百分比。正的 BSS 意味着我们的预报比仅仅依据历史概率进行猜测更有技巧。通过一套度量指标，如 Brier 评分、CRPS 和受试者工作特征（ROC）曲线，对原始预报和校准预报进行严格的检验实验，构成了任何预报系统信任的基石。

运动中的世界：适应变化

预报中最深层次的挑战之一是世界并非静止不变。气候本身在变化，而我们用来预测它的数值模式也在不断升级。一个基于旧天气模式数据训练的校准模型，可能在部署新模式的那一天就过时了。我们的统计模型如何适应呢？

答案在于一个极具动态性的想法：使用滑动训练窗口进行自适应再校准。我们不是一次性地在一个固定的历史数据集上训练我们的 MOS 模型，而是持续地重新训练它。为了做出今天的预报，我们可能只使用过去 30 天或 60 天的数据来训练模型。随着新的一天过去，这个窗口向前滑动。

这带来了一个经典的权衡。一个短窗口（例如 15 天）会很灵活，能非常迅速地适应像模式升级这样的突变。但它也善变，其参数可能会因为样本量小而跳动。一个非常长的窗口（例如 300 天）会稳定而稳健，但反应迟钝。如果模式特性发生变化，长窗口将在很长一段时间内混合升级前后的数据，学到一个含混的折衷方案。窗口大小的选择是一门艺术，是在稳定性和响应性之间取得平衡，可以通过在一个序贯（先预测后检验）框架中测试哪种窗口大小能提供最佳的长期预报技巧来优化。

统计学家的工具箱：超越基础

虽然线性高斯 EMOS 模型是一个强大而通用的工具，但它并非统计学家工具箱里的唯一工具。不同的问题可能需要不同的工具。

贝叶斯模式平均（Bayesian Model Averaging, BMA）采用了一种不同的哲学方法。它不是将集成成员融合成一个单一的摘要，而是将每个成员视为一个拥有自己观点的独立“专家”。然后，BMA 创建一个最终预报，该预报是这些专家意见的加权平均，权重反映了每个专家在过去的表现。其结果是一个混合分布，可以捕捉更复杂的特征，如多个可能的结果（多峰性）。
分位数映射（Quantile Mapping, QM）是一种非参数的、或许更激进的方法。它不假设预报分布有任何特定的形状。相反，它细致地扭曲原始预报的整个分布，使其统计特征——均值、方差、偏度、尾部——与训练期观测到的现实分布完美匹配。如果模式的降雨预报系统性地过于“毛毛雨”，QM 会学习到精确的非线性函数，将这些毛毛雨转变为实际发生的倾盆大雨。

这些方法与 EMOS 一起，构成了一个丰富的技术家族，每种技术都有其自身的优势，让预报员能够为具体任务选择合适的工具。

联结各点：融入物理学与机器学习

当 MOS 不仅仅是盲目应用，而是与物理知识和其他学科的技术深思熟虑地整合在一起时，其真正的力量才会显现。

一个很好的例子来自一个非常实际的业务问题：如果训练数据（称为再预报）是使用一个小的、10 个成员的集成生成的，但我们的日常业务预报使用一个大的、50 个成员的集成，会发生什么？仅仅由于抽样效应，原始离散度 $s^2$ 在这两个系统之间就会有系统性的差异。在 10 成员系统上学到的方差校正参数 $d$ 将不适用于 50 成员系统。解决方案是一个统计推理的瑰宝：通过从第一性原理理解样本方差的期望值如何依赖于集成成员数（ $M$ ），可以推导出一个简单而优雅的缩放定律来调整参数 $d$ 。这是理论指导实践的完美例证。

$E[s_M^2] = \frac{M-1}{M}\sigma_e^2$

这个简单的公式，将样本方差 $s_M^2$ 的期望值与真实方差 $\sigma_e^2$ 和集成成员数 $M$ 联系起来，使我们能够在训练和业务世界之间架起一座桥梁。

另一个深层的联系是当我们承认预报误差不是平稳的时候建立的。模式的偏差和离散度误差可能取决于地点、季节，甚至当时的大尺度天气型。例如，一个模式可能在预测一个平静的高压系统期间的温度时表现出色，但在冬季风暴过境时却举步维艰。

在这里，我们可以借鉴机器学习的工具，例如聚类算法，从历史数据中识别出反复出现的大尺度大气模式，即“天气型”。一旦识别出这些天气型，我们就可以构建一个更复杂的、依赖于天气型的 MOS 模型。该模型将为每个天气型设置不同的校准参数，有效地学习“当大气处于状态 A 时，这样校正预报；但当它处于状态 B 时，那样校正”。这种将无监督机器学习（以发现物理规律）与统计建模（以校正预报）相结合的方式，创造了一个既由数据驱动又具物理智能的系统。当然，这必须非常小心地进行，以避免“目标泄漏”——天气型必须仅使用预报因子信息来定义，绝不能使用我们试图预测的结果。

从概率到收益：最终的应用

我们的旅程在最重要的目的地结束：人类决策的真实世界。我们为何费尽周折来生成经过校准的概率预报？因为它们是在不确定性下做出理性决策的必要成分。

考虑一位地区水务公司的经理，他每天都必须决定是否要采取昂贵的防护措施来应对潜在的洪水。一个原始的、未校准的预报令人困惑。一个简单的确定性预报——“会发洪水”或“不会发洪水”——既武断又无用，因为它隐藏了内在的不确定性。

但想象一下，给那位经理一个经过校准的概率：“根据我们最佳的模式和统计后处理，明天发生致洪降雨的可能性为 70%。”这是可操作的情报。如果经理知道成本-损失比——即采取行动的成本（ $c$ ）除以如果发生洪水且未采取行动所造成的损失（ $L$ ）——他就可以做出最优决策。决策理论告诉我们，最佳策略是在预报概率超过成本-损失比时采取防护行动，即当 $p > c/L$ 时。

如果行动成本为 30,000 美元，潜在损失为 100,000 美元，那么比率是 $c/L = 0.3$ 。当预报概率为 $0.7$ ，大于 $0.3$ 时，经理就有了采取行动的清晰、经济上理性的依据。这就是 MOS 的最终应用：将大气物理和统计学的抽象语言转化为风险、成本和收益的具体语言，使我们能够在面对不确定的未来时做出更好的决策。