集合预报系统

玻尔百科

定义

集合预报系统是一种通过生成可能结果的概率分布来应对大气等系统混沌性质的预测方法。该系统利用初始条件和模型结构的扰动来系统地探索不确定性，从而提供比单一确定性预测更具可靠性与锐度的预报。这种拥抱不确定性的预报理念是气象学的核心，并广泛应用于水文学、气候科学和人工智能等多个领域。

核心要点

集合预报通过生成可能结果的概率分布，而非单一的、确定性的预报，来应对大气等系统的混沌特性。
预报不确定性源于不完美的初始条件、模式参数和模式结构，可以通过“智能”扰动和多模式方法系统地进行探究。
概率预报的质量由其可靠性（统计上的一致性）和锐度（信度）来评判，这些特性可以通过等级直方图等工具进行评估。
接纳不确定性的集合思想是一个强大而普适的概念，除了天气领域，它还被应用于水文学、气候科学和人工智能等多个领域。

引言

为什么对明天的完美天气预报可以充满信心，而对两周后的天气预报却不过是一种猜测？答案在于我们大气的一个基本属性：混沌。著名的“蝴蝶效应”说明，我们对天气初始状况的微小、无法测量的误差会呈指数级增长，从而导致截然不同的结果。这种对初始条件的内在敏感性，为任何单一的、确定性的预报的有效性设定了严格的上限。本文将探讨一种更精妙、更坦诚的方法来应对这一根本性挑战：集合预报系统（EPS）。EPS并不试图对抗不确定性，而是接纳它，将问题从“天气将会怎样？”转变为“不同天气情景的概率是多少？”

本文将引导您深入了解这一强大的范式。首先，在“原理与机制”部分，我们将深入探讨集合预报背后的科学，从使其成为必需的混沌动力学，到用于生成和评估丰富可能未来的巧妙技术。随后，在“应用与跨学科联系”部分，我们将拓宽视野，看看这种管理不确定性的基本思想如何不仅在天气和气候科学中成功应用，还被用于水文学和人工智能等不同领域，从而揭示其作为驾驭复杂系统的通用工具的角色。

原理与机制

要理解集合预报，我们必须首先掌握世界一个相当深刻而优美的特征：混沌。你很可能听说过“蝴蝶效应”——一只在巴西扇动翅膀的蝴蝶，可能会在德克萨斯州引发一场龙卷风。这虽然有些夸张，但其精髓却千真万确。对于像大气这样的系统，初始条件中微小、难以察觉的差异，可能会在未来导致截然不同的结果。这不是我们模式的缺陷，而是物理学本身固有的属性。

领头李雅普诺夫指数的支配

想象你有一个完美的大气计算机模型。完美无瑕！它以无懈可击的精度捕捉了每一条物理定律。现在，你将当前的天气状态——各地的温度、气压、风——输入模型，以预测两周后的天气。唯一的疏漏是，你对某一个点的初始温度测量值有极其微小的误差，比如 $0.00001$ 度。会发生什么？

对于一个简单的、行为良好的系统，比如一个沿着光滑斜坡滚下的球，这个微小的误差几乎无足轻重。你对球最终位置的预测只会相应地偏离一点点。但大气不是光滑的斜坡，它是一场湍急、旋转、混沌的舞蹈。在混沌系统中，那个微小的初始误差并不会一直保持微小；它会增长。而且它不只是线性增长，而是指数级增长。

数学家们为我们提供了一个优美的概念来描述这一点：李雅普诺夫指数。对于任何混沌系统，都不仅有一个，而是一整个谱系的这类指数。其中最重要的是最大的那个，即领头李雅普诺夫指数，通常写作 $\lambda_{\max}$ 。这个数字告诉你系统中误差最快的平均指数增长率。如果你从一个微小的误差 $\epsilon_0$ 开始，经过一段时间 $t$ 后，这个误差将膨胀到大约 $\epsilon_0 \exp(\lambda_{\max} t)$ 的量级。由于这种指数级放大，即使是无限小的初始误差最终也会增长到足以压倒整个预报。这为我们能期望做出有效预报的未来时间范围设定了一个根本性的、不可避免的限制。可预报性期限本质上与 $1/\lambda_{\max}$ 成正比。这就是混沌的支配力，也是为什么任何单一的、确定性的天气预报最终注定会失败的原因。

接纳不确定性：从一到多

那么，如果任何单一预报都注定是错误的，科学家该怎么办？放弃吗？当然不！我们必须更聪明一些。关键的洞见在于：虽然我们永远无法知道大气的确切初始状态，但我们对其可能性的范围可以有一个很好的了解。我们的测量并不完美，但它们给了我们一个初始状态的概率性“迷雾”，其中某些状态比其他状态更可能出现。

这就是集合预报系统（EPS）的诞生。我们不再只从我们的“最佳猜测”初始状态运行一次预报模式，而是运行很多次——可能是50次或100次。每一次运行，称为一个集合成员，都从那个不确定性“迷雾”中抽取的、略有不同但仍然合理的初始条件开始。

这里我们触及一个微妙但至关重要的点。即使每个单独的模式运行都是完全确定性的——意味着它的整个未来都由其起点决定——但集合系统作为一个整体是一个随机过程。我们有意地在初始条件中引入了随机性。因此，输出的不是一个单一的未来，而是一个可能未来的分布。我们不再问“天气将会怎样？”，而是问“不同天气结果的概率是多少？”。预报不再是一条线，而是一簇可能性。

无知的剖析

所有这些不确定性究竟从何而来？区分两种类型的不确定性是很有用的。第一种是偶然不确定性，这是一个系统固有的、不可约减的随机性——就像掷量子骰子。第二种，也是在天气预报中占主导地位的一种，是认知不确定性：知识的缺乏。这是我们原则上可以通过更好的测量或更好的科学来减少的不确定性。

在集合预报中，我们主要对抗三种认知不确定性的来源：

初始条件不确定性：这就是我们已经讨论过的“当下的迷雾”。我们无法在同一瞬间以完美的精度测量地球上每一处的温度、风和压力。我们对天气的初始图景总是略显模糊。
模式参数不确定性：我们的模式是基于物理方程建立的，但这些方程包含参数——这些数字代表了我们无法完美解析的物理过程，比如风越过山脉的摩擦力或水滴形成云的方式。这些是我们模式的“旋钮和刻度盘”，我们不知道它们确切的最佳设置。可以通过用略微不同的参数值运行不同的集合成员来解释这一点。
模式结构不确定性：这是最深刻、也最令人谦卑的一种不确定性。它承认我们基本模式方程本身可能是不完整或错误的。我们可能遗漏了某个物理过程，或者我们为某个过程选择的数学形式可能只是对现实的不完美近似。解决这个问题最有效的方法是建立多模式集合，即将来自由不同机构的不同团队开发、完全不同的模式的预报结合起来。每个模式都代表了关于大气如何运作的不同假设。

通过对这三种来源进行扰动，我们可以生成一个丰富的集合，从而更完整地捕捉我们总体的预报不确定性。

智能扰动的艺术

现在，让我们回到扰动初始条件的问题上。我们如何选择那些微小的变化呢？你可能会想，我们可以简单地在初始状态上添加一些随机噪声。事实证明，这是一个糟糕的主意。大气是一个高度结构化、平衡的系统。随机、无结构的噪声会产生虚假的失衡（例如，在气压场和风场之间），模式在预报的最初几个小时里只是在努力消除这些失衡，从而产生无用的、污染预报的高频“重力波”。这被称为模式起转 (spin-up)。

我们需要更聪明一些。我们需要的扰动不是随机的，而是动力学上相关的。我们希望在误差天然倾向于最快增长的方向上推动模式。误差增长的方式关键取决于大气本身当前的状态——一个平静、稳定的高压系统与一个正在发展的气旋，其误差增长方式大相径庭。寻找这些特殊的、快速增长方向的方法是该领域一些最优雅的思想。两种主要技术是：

奇异向量 (SVs)：这是一种数学方法。我们采用庞大、非线性的预报模式，并创建一个简化的线性版本，该版本在短时间内（例如48小时）有效。奇异向量是在此期间，这个线性模式预测会增长最多的初始扰动。它们是为寻找最剧烈天气发展的“种子”而量身定制的。
增长模繁殖向量 (BVs)：这是一种更有机的方法。你从一个微小的随机扰动开始，让它使用完整的非线性模式演变一小段时间（例如6小时）。模式自身的混沌动力学将自然地放大与最快增长不稳定性对齐的扰动部分。然后你重新缩放这个“生长”了的扰动并重复该过程。经过多次循环，你“繁殖”出一个与模式自身偏好的误差增长方向完美协调的扰动。

这两种方法都提供了“智能”扰动，它们尊重模式的内部物理特性，最大限度地减少虚假噪声，并最大限度地提高集合捕捉最重要和最可能预报误差来源的能力。

评判神谕：可靠性与锐度

我们已经建立了这个宏伟、复杂的系统，它能产生概率预报。我们如何知道它是否优秀？评估一个概率预报比检查一个单一数字是否正确要微妙得多。一个好的概率预报有两个核心优点：可靠性和锐度。

可靠性（或校准）：这意味着你的概率在统计上是诚实的。如果你收集了所有你的集合预报有30%降水概率的情况，那么在这些情况中，实际下雨的比例应该约为30%。如果实际下雨的比例是50%，那么你的预报就不可靠。
锐度：这指的是你预报的信度。一个预报有90%降水概率的预报比一个预报50%概率的预报要锐利得多（更自信、更有用）。一个预报温度在10°C到12°C之间的预报比一个在5°C到17°C之间的预报更锐利。

目标是在保持可靠的同时尽可能地锐利。通过完全不锐利来做到完全可靠是很容易的——例如，总是发布长期的气候平均概率。但这样的预报对特定的一天没有任何技巧。相反，一个非常锐利但不可靠的预报是危险的误导。

一个用于直观检查这些属性的绝佳工具是等级直方图。对于每次预报，你取你的 $M$ 个集合成员，将它们从低到高排序。然后看实际观测值落在哪里。它是否低于所有成员（等级1）？在第1和第2个成员之间（等级2）？还是高于所有成员（等级M+1）？如果集合是可靠的，那么观测值应该是这个排序集合中一个等可能的成员。在多次预报中，等级直方图应该是平坦的。

偏离平坦的形状具有极强的诊断意义：

U形直方图意味着观测值太常落在集合范围之外。集合离散度太小；它是离散度不足或过于自信。
驼峰形直方图意味着观测值太常落在集合的中间。集合离散度太宽；它是离散度过大或信心不足。
倾斜直方图表示存在系统性偏差。例如，如果观测值持续落在低等级的箱中，这意味着预报值普遍过高。

在量化上，可以使用像布莱尔分数 (Brier Score)这样的评分，它们甚至可以分解为分别衡量可靠性、分辨率（一个与锐度相关的概念）和事件本身不可约减的不确定性的独立项。

最后一个难题：代表性问题

在评判我们的预报时，我们必须意识到最后一个微妙的陷阱。我们的模式实际上在预报什么？一个天气模式的网格可能是10公里乘10公里。它为该网格框预测的温度是整个100平方公里区域的平均温度。

现在，我们如何验证这一点？我们使用一个气象站，它测量的是一个点的温度。但是一个点的温度与一个100平方公里区域的平均温度是不同的！点测量包含了各种局部效应——一阵风、一小片云的阴影、附近停车场的散热——这些在网格框平均中被平滑掉了。预报尺度与观测尺度之间的这种不匹配被称为代表性误差。

这会产生什么影响？点观测比集合试图预报的网格框平均值具有更大的变率。当我们用这个“噪声更大”的点观测来验证我们的集合时，观测值会更频繁地落在集合成员的范围之外。这将产生一个U形的等级直方图，使得一个对于网格框平均值而言完全可靠的集合看起来像是离散度不足。这是一个关于科学严谨性的深刻教训：要公平地评判一个预报，你必须极其清楚地了解预报的究竟是什么，以及观测的究竟是什么。

应用与跨学科联系

在深入探究了集合预报的内部机制后，我们现在看到，我们构建的不仅仅是一台天气预报机器，而是一个用于驾驭不确定性的通用工具。这种用稳健的众说纷纭取代单一、脆弱预测的思维方式，在众多科学学科中都引起了共鸣。它是理解复杂、混沌和部分观测系统的基本策略，从我们星球上旋转的大气，到人工智能中错综复杂的神经网络。让我们游览这片广阔的领域，看看集合思想在何处生根发芽。

预报的核心：天气与气候

集合预报的天然家园当然是气象学。在这里，挑战是预测一个旋转球体上湍流流体的演变——这是一个对最微小扰动都极为敏感的系统。如果我们对大气的初始快照哪怕有丝毫的不完美，误差也会呈指数级增长，将一个晴天的预报变成一场未曾预料到的飓风。

集合预报系统（EPS）正是为描绘这些不确定性增长的路径而设计的。像“增长模繁殖法”这样的方法并非盲目尝试；它们是精妙的技术，旨在以恰当的方式“触动”虚拟大气，以发现其最敏感的“穴位”。通过在短时间内重复运行模式并放大增长最快的扰动，我们可以生成一组初始条件，智能地探索主导中纬度天气的不稳定性，如斜压波。这确保了集合离散度并非任意的，而是对给定日期大气自身内在可预报性的有意义的度量。

但不确定性不仅来自初始状态，模式本身也是不完美的。例如，我们关于云和雷暴的方程，是对发生在远小于模式网格尺度上的极其复杂物理过程的近似。一个确定性的雷暴触发机制就像一个简单的开/关开关：如果达到一个阈值，风暴就形成。现实则更为模糊。随机参数化用一个调光器取代了这个开关，引入一种经过校准的随机性，以反映次网格尺度的不确定性。这创造了一个更真实的集合，其中一些成员可能会发展出零星的风暴，而另一些则完全没有，这是准确预报强对流天气关键的一步。

这种思想延伸到更长的时间尺度。对于展望数周到数月未来的次季节到季节（S2S）预报，大气的混沌记忆已基本消退。如果存在可预报性，它来自于地球系统中其他部分缓慢而沉重的互动，比如海洋或平流层，它们像飞轮一样运作。来自这些来源的信号很微弱，就像嘈杂房间里的耳语。集合扮演了一个强大的信号处理器角色。通过平均许多模式运行，随机的大气噪声倾向于相互抵消，使得正在发展的厄尔尼诺（El Niño）或平流层增温事件那微弱而持续的信号得以浮现，为我们提供了窥见未来气候的宝贵一瞥。

世界协奏曲：地球系统及其用户

集合方法并不仅限于大气。思考一下洪水预报的挑战。将降雨转化为河流流量的水文模型充满了参数——这些数字描述了土壤孔隙度、地下水流和地表粗糙度。通常，许多不同的参数组合都能产生与过去观测同样吻合的模拟结果。这是一个被称为异参同效性的深刻概念。集合思想告诉我们，与其苦恼于哪一套参数是“真实”的，不如拥抱这种不确定性。通过使用所有合理的参数集运行模型，我们创建了一个模型集合，它捕捉了我们对流域结构本身的不确定性，从而得到一个更诚实、更可靠的洪水预报。

这引出了地球数字孪生的宏伟愿景——一个我们星球的全面、持续更新、概率性的复制品。这样一个由海量观测数据流和复杂耦合模型驱动的孪生体，不仅仅发布一个未来；它生成一整个未来的分布。但强大的能力也伴随着巨大的责任。如果一个预报不可信，那它就是无用甚至危险的。这正是检验科学至关重要的地方。

原始集合通常“过于自信”；其可能性的范围太窄。我们必须教会它诚实面对自身的局限性。我们通过严格的统计后处理来实现这一点，使用诸如模式输出统计（MOS）之类的框架来校正系统性偏差和离散度不足。我们使用概率积分变换（PIT）直方图等工具来检查它的“作业”，这是一种预报分布的“可靠性报告卡”。一个完美的预报会产生一个平坦的直方图；在原始集合中常见的U形曲线是过度自信的明显标志，必须通过校准来纠正。

这种校准并非学术练习，它对决策至关重要。对于一个关心极端降水事件的水资源管理者来说，虚惊一场（预报了没有发生的洪水）有其成本，但漏报（未能预报发生的洪水）则可能是灾难性的。通过使用成本加权的评分规则，我们可以评估和调整我们的概率预报，使其对特定的现实世界决策最有价值，确保所传达的不确定性不仅在统计上是合理的，而且在操作上也是相关的。

不确定性的通用语言：人工智能中的集合

也许对集合思想力量最惊人的证明，是它在人工智能领域的独立发现和广泛使用。事实证明，用于描述天气模型不确定性的那套统计语言，最先进的人工智能系统也能流利地使用。

考虑一个Transformer模型，这是现代人工智能的基石，其任务是读取患者的电子健康记录以诊断败血症的概率。单一的、确定性的预测是有风险的。人工智能有多自信？这是一个明确的病例，还是它在犹豫不决？为了回答这个问题，数据科学家使用了诸如深度集合（独立训练多个模型）或蒙特卡洛dropout（在内部随机性下多次运行一个模型）等技术。当我们分析由此产生的预测分布时，我们可以将总不确定性分解为两种任何气象学家都非常熟悉的形式。

偶然不确定性是数据中固有的随机性——有些病历本身就更模棱两可。这就像大气中不可预测的噪声。认知不确定性是模型自身的自我怀疑，即对其自身参数的不确定性。这类似于我们气候模型物理学中的不确定性。通过量化这两者，我们可以构建不仅能做出预测，而且知道何时应该向人类医生寻求第二意见的人工智能系统。

这一原理延伸到计算机视觉领域。在放射组学中，人工智能模型被训练来自动分割医学扫描中的肿瘤。一个主要挑战是，来自不同机器或医院的扫描在亮度、对比度或方向上可能存在细微差异。为了使人工智能具有鲁棒性，一种名为测试时数据增强 (Test-Time Augmentation)的技术被使用。系统不仅向人工智能输入原始图像，还输入一个由轻微改变的版本组成的小型集合——翻转、旋转或修改对比度。通过平均这个集合的预测，最终的分割变得更加鲁棒，对无关的扫描仪特定怪癖不那么敏感。这本质上是一种蒙特卡洛方法，用于对成像过程中的无关变量进行边缘化，这与处理地球系统建模中的不确定性形成了美妙的平行 [@problemid:4550598]。

从预报风暴到诊断疾病，教训是相同的。在任何我们的知识不完整的复杂系统中，通往智慧的道路不是宣告一个单一的真理，而是拥抱众多的可能性。集合不仅仅是一个巧妙的计算技巧；它是科学谦逊的正式表达。它是一个工具，让我们能够做出不仅准确，而且诚实面对我们认知能力深刻而不可避免的极限的预测。