try ai
科普
编辑
分享
反馈
  • 集合预报

集合预报

SciencePedia玻尔百科
核心要点
  • 由于混沌现象和对初始条件的敏感依赖性,单一的确定性预报存在固有局限,因此必须转向概率预报。
  • 集合预报通过多次运行模型并扰动其输入,生成未来可能结果的分布,以捕捉认知不确定性和偶然不确定性。
  • 集合的质量通过其可靠性(统计上的诚实性)和锐度(精确性)来评判,评估工具包括离散度-技巧关系和连续分级概率评分(CRPS)。
  • 其应用超越了天气预报,延伸至水文学、气候科学和风险沟通等领域,将不确定性转化为可供决策的行动信息。

引言

预测未来是人类与科学的一项基本追求,然而对于世界上许多最关键的系统——从大气到金融市场——完美的确定性永远遥不可及。这些系统通常受混沌支配,我们对初始状态中微小、不可知的误差,可能导致截然不同的结果。这带来了一个深刻的挑战:如果单一的“正确”预报是不可能的,我们如何才能做出任何有用的预测?本文通过探索集合预报这一强大的方法论来填补这一空白,它将预报从寻找唯一正确答案转变为对所有可能未来的诚实评估。在接下来的章节中,您将发现这一范式转变背后的核心原则。我们将首先深入探讨“原理与机制”,探索为何混沌现象使得概率方法成为必需,以及如何构建集合来捕捉不同形式的不确定性。随后,在“应用与跨学科联系”中,我们将看到这些概率预报如何在天气预报、水文学和公共风险沟通等关键领域得到评估、改进和应用,将抽象的不确定性转化为具体、可操作的情报。

原理与机制

确定性的终结:为何一次猜测永远不够

想象一下,你正试图预测一片从高树上飘落的树叶在有风的日子里会落在哪个确切的位置。你可能以极高的精度知道叶子的起始位置,完全掌握引力定律,甚至可能拥有一台超级计算机来计算气流。但是,在其旅程开始时一阵微小、无法测量的风,或是一次你无法解释的轻微颤动,都会让它走上一条完全不同的路径。几秒钟后,你完美的预测就变得毫无价值。

这就是​​混沌​​的本质。许多复杂系统,其中最主要的是地球大气层,表现出所谓的​​对初始条件的敏感依赖性(SDIC)​​。这正是“蝴蝶效应”的科学灵魂:系统起始状态中一个无穷小的差异,可能会在稍后导致巨大且迥异的结果。

由于我们对当前大气状态的测量永远不完美——总存在一些微小的不确定性,即“测量误差”——这种混沌特性带来了深远的影响。当我们在时间上推进我们的天气模型时,这种微小的初始不确定性并不会保持微小;它会以平均而言指数级的速度增长。误差会翻倍,再翻四倍,然后增长到与我们试图预测的波动一样大。

这对我们的预测能力施加了一个根本性的限制。对于任何天气模型,无论其多么出色,都存在一个​​可预报性上限​​。这是一个时间点,大约在未来的10到14天,超过这个点,任何单一的、确定性的预报都比随机猜测更不准确。通往未来的单一路径已经消融在一片可能性的迷雾中。那么,如果我们无法预测那个唯一的真实未来,我们能预测什么?答案是一次观念上的根本转变:我们不再试图预测单一结果,而是开始预测所有可能结果的分布。这就是从确定性预报到​​概率预报​​的转变。

未来的云图:集合

我们如何创建概率预报?我们无法为每一个可能的起始条件都运行一次模拟——因为有无穷多个!取而代之,我们使用一种源自统计学、巧妙而强大的技术:蒙特卡洛方法。我们创建所谓的​​集合预报​​。

再想象一下扔树叶的例子。这次你不是扔一片,而是一整把。你不会试图追踪每一片叶子,但通过观察这把叶子落地的整体模式,你可以描述出它们最可能落在哪里,以及它们的散布范围。集合预报的工作方式与此相同。我们采用对大气初始状态的最佳猜测,然后在此基础上创建几十个微小的变体,即一把“略有不同”的起始点,用以代表我们初始不确定性的范围。

然后,我们为每一个起始“扰动”运行我们的确定性天气模型。结果不是一个预报,而是一个由许多不同未来轨迹组成的集合。每一次单独的运行都是确定性的,但由于每次运行的初始条件都是从代表我们不确定性的概率分布中抽取的,整个过程就变成了​​随机的​​——也就是说,受概率支配。

这个预报集合可以被看作是一团随时间演变的点云。开始时,这团云小而紧密。随着时间的推移,混沌导致这些点散开,云团也随之增长和变形。这个不断演变的云团就是我们的预报。云中的每一点都是一种可能的未来,任何区域内点的密度告诉我们该未来发生的可能性有多大。根据大数定律,如果我们的集合中有足够多的成员,这团云的属性——它的平均位置、它的离散程度、它的形状——就能为我们提供对未来天气真实概率分布的可靠估计。

无知的剖析:两种不确定性

集合旨在捕捉的不确定性并非铁板一块。将其分为两种基本类型是很有用的,我们可以把它们看作是两种不同类型的无知。

首先是​​认知不确定性​​。这是由于我们缺乏知识而产生的不确定性。它是“我们不知道但原则上可以发现”的部分。这包括初始条件的不确定性(我们可以拥有更多或更好的气象站)和模型本身的不确定性(我们可以对云物理有更好的表述)。这类不确定性是可减少的。更多的数据、更优的科学和更强大的计算机可以缩小我们的认知不确定性。标准集合中由扰动初始条件引起的离散度,主要代表了这种不确定性。

其次是​​偶然不确定性​​。这个词源自拉丁语中的“骰子玩家”,它指的是系统中固有的、不可减少的随机性所导致的不确定性。想象一下湍流烟羽中单个烟雾颗粒的精确路径。即使我们有完美的大尺度流动模型,该颗粒的运动也包含我们永远无法预测的随机成分。在天气中,这可能对应于未解析的湍流阵风或单个雷暴单体触发的确切位置。这种不确定性是物理系统的一个基本属性,而不是我们知识的缺陷。更多的数据不会使其消失。

预报中的总不确定性是这两者的结合。用贝叶斯术语来说,总预测方差可以被分解。如果我们让 YYY 代表我们想预测的量(比如温度),并用 θ\thetaθ 代表我们模型中所有不确定的事物,全方差定律给我们一个优美的公式:

Var(Y∣x,D)=Eθ∼p(θ∣D) ⁣[ Var(Y∣x,θ) ]  +  Varθ∼p(θ∣D) ⁣( E[Y∣x,θ] )\mathrm{Var}(Y \mid \mathbf{x}, \mathcal{D}) = \mathbb{E}_{\theta \sim p(\theta \mid \mathcal{D})}\!\big[\,\mathrm{Var}(Y \mid \mathbf{x}, \theta)\,\big] \;+\; \mathrm{Var}_{\theta \sim p(\theta \mid \mathcal{D})}\!\big(\,\mathbb{E}[Y \mid \mathbf{x}, \theta]\,\big)Var(Y∣x,D)=Eθ∼p(θ∣D)​[Var(Y∣x,θ)]+Varθ∼p(θ∣D)​(E[Y∣x,θ])

第一项是​​偶然不确定性​​。即使我们完全了解模型参数 θ\thetaθ,它仍然是平均固有的方差。第二项是​​认知不确定性​​。它是在我们的最佳猜测预测中,因不确定 θ\thetaθ 而产生的方差。一个优秀的集合预报,其最佳状态是试图同时捕捉这两种不确定性。

专家委员会:多模型集合

到目前为止,我们一直专注于多次运行单一天气模型。这被称为​​单一模型初始条件集合​​。它在探索源于初始状态的不确定性方面做得很好。但是模型本身的不确定性呢?每个天气模型都是对现实的一种近似,对如何表示云形成或海洋湍流等复杂过程有不同的假设。

为了解决这种​​结构性模型不确定性​​,预报员使用​​多模型集合​​。他们不依赖单一模型,而是组建一个由世界各地不同研究中心开发的多个模型组成的“委员会”。每个模型都对未来的天气进行一次“投票”。

这种方法具有深刻的贝叶斯思想。我们可以将每个模型看作是关于世界如何运作的不同假设。通过将其过去的预测与现实进行比较,我们可以为每个模型分配一个后验概率或权重,反映我们对其技巧的信任程度。最终的概率预报则是所有模型预测的加权混合。这个过程,被称为贝叶斯模型平均,提供了对总预报不确定性更为稳健和诚实的评估,因为它考虑到了我们不确定哪个模型是“最佳”的这一事实。

评判云图:一个好集合的标志

我们有了预报可能性的云图。我们如何知道它是否是一个好的云图?我们关注两个关键品质:​​可靠性​​和​​锐度​​。

​​可靠性​​,也称为校准,意味着预报在统计上是诚实的。如果一个集合预测某天有30%的降雨概率,那么在我们观察所有做出该预测的日子时,应该有大约30%的日子下了雨。换句话说,验证观测值应该看起来像是从我们发布的预报分布中随机抽取的样本。一个可靠的预报知道它知道什么,也知道它不知道什么。

​​锐度​​指的是预报的置信度。一个锐利的预报具有狭窄的分布——一个离散度小的云团——并提供精确的信息。一个预报说明天温度在-50°C到+50°C之间是完全可靠的,但毫无用处。它缺乏锐度。一个20°C到22°C的预报则非常锐利。

集合预报的目标是在​​可靠的前提下尽可能锐利​​。一个锐利但不可靠的预报是危险的过度自信。一个可靠但不够锐利的预报则因为模糊而无用。

这就引出了预报中最强大的诊断工具之一:​​离散度-技巧关系​​。对于一个完全可靠的集合,集合的离散度(衡量其锐度的指标,如集合方差)在平均意义上应与预报误差(衡量其技巧的指标,如集合平均的均方根误差)相匹配。如果集合的离散度持续小于其误差,则它是​​过度自信​​的。如果其离散度持续大于其误差,则它是​​信心不足​​的。这种简单的关系让预报员能够诊断甚至校正其集合置信度中的偏差,例如,通过应用一个“膨胀”因子来增加过度自信集合的离散度。

从云图到决策:共识预报

虽然完整的概率分布是预报最全面的形式,但许多决策需要一个单一的数字:“温度会是多少?”或“会下多少雨?”。我们如何将我们的可能性云图提炼成一个单一的​​共识预报​​?

一个常见的选择是​​集合平均​​——所有成员的平均值。这有一个奇妙的特性,即它通常比任何单个集合成员的平均准确度更高。它平滑了影响每个成员的混沌噪声。

然而,平均值并非总是“最佳”答案。最优选择完全取决于所做的决策,这是一个源自统计决策理论的概念,称为​​损失函数​​。想象一下你正在管理一个水库。低估降雨量(导致水量不足)可能比高估降雨量带来更昂贵的代价。在这种情况下,你可能不会选择降水预报的平均值。相反,你可能会选择一个更高的值,比如第75百分位数,作为你的行动依据。对于另一个具有不同成本结构的用户,最佳的共识预报可能是中位数或其他某个值。“最佳”的单一数字不仅仅是预报本身的属性;它是预报概率和用户价值观的交集。

不确定性的形状

最后,值得欣赏的是,可能性的“云图”并不总是一个简单的、对称的钟形曲线(高斯分布)。集合分布的实际形状包含了丰富的信息。

有时,分布是​​偏态​​的。例如,热浪中的温度预报可能偏向于更高的温度,因为温度能降多低有一个硬性限制,但极端高温的可能性则更加开放。正偏态告诉你,出现令人惊讶的高值的可能性比出现令人惊讶的低值更大。

分布也可能具有​​重尾​​(一个由​​峰度​​衡量的属性)。这意味着极端的、离群的事件比简单的高斯曲线所暗示的更有可能发生。对于任何管理风险的人——从保险公司到应急服务部门——知道“百年一遇”洪水的概率高于标准理论的预测,是至关重要的信息,而这可以由集合的形状揭示出来。

此外,我们不只是一次预报一个变量。我们预报温度、降水、风、湿度等等。一个好的多元集合必须保留这些变量之间的物理关系或​​协方差​​。一个预报同时表明酷热和暴风雪有高概率在同一天发生是没有意义的;这种组合在物理上是不一致的。人们使用复杂的技术来“重排”集合成员,以确保这些从历史气候数据中学到的跨变量关系得到尊重,从而使它们所代表的情景在物理上是合理的。

从谦逊地承认我们的知识不完美开始,集合预报构建了一个丰富、细致且远为有用的未来图景。它用对可能性、可能性大小以及真正处于想象边缘的事物的诚实和量化评估,取代了确定性的幻觉。

应用与跨学科联系

在经历了混沌原理和集合预报机制的旅程之后,你可能会倾向于认为这是一种优美但抽象的数学游戏。事实远非如此。我们讨论过的这些思想不仅仅是理论上的奇珍;它们是塑造我们现代世界的一些最关键科学服务的基础。从决定明天是否带伞,到从逼近的飓风中疏散城市,再到管理我们星球宝贵的水资源,集合预报是让我们能够与不确定的未来进行诚实对话的工具。

在本章中,我们将探索这一应用领域。我们将看到概率分布和预报检验这些抽象概念如何在现实世界中变得鲜活。这里就是理论联系实际的地方——或者,可以说是雨滴汇入河流的地方。

评判预报的艺术

在我们使用预报之前,我们必须首先学会评判它。如果有人声称能预见未来,你自然会持怀疑态度。你会如何测试他们?你不会只检查他们是否猜对了那个“最可能”的结果;你会想知道他们是否对可能性的范围有很好的把握。他们是否警告过你那些实际发生的小概率事件?当事情真正悬而未决时,他们是否过度自信?

我们必须对我们的集合预报提出同样严苛的问题。这催生了一门优美而精妙的预报检验科学——一种评判我们自己创造物的艺术。

其中一个最优雅的工具是​​等级直方图​​。想象一下你有一个包含(比如说)十个成员的集合。除了这十个预测值,你还有一个实际发生的事情:观测值。你现在有十一个数字。如果这个集合是“可靠的”——意味着观测值与任何一个集合成员在统计上是无法区分的——那么这十一个值都可以被看作是从同一个真实的可能结果分布中随机抽取的。如果你将这十一个值从低到高排序,观测值最有可能落在哪个位置?第一个位置?最后一个?还是中间?

从第一性原理出发,答案惊人地简单:它落在任何一个可能位置的概率是均等的。如果你对许多预报反复进行这个测试,并且你的集合是完美的,那么观测值等级的直方图应该是完全平坦的。一个平坦的等级直方图是一个健康、可靠集合的标志。它是一个优美的、可视化的确认,表明你的预报系统对不确定性有很好的把握。

当然,完美是罕见的。等级直方图的真正力量在于当它不平坦时告诉我们的信息。如果我们看到一个直方图,其中观测值过于频繁地落在最低的几个等级——意味着天气经常比几乎所有集合成员预测的更冷、更干或更低——这告诉我们我们的模型有系统性的​​正偏差​​。例如,如果我们预报温度,低等级的堆积意味着模型持续预测的天气过于温暖。一个U形的直方图,观测值频繁落在整个集合范围之外,则表明模型是​​离散度不足​​的,或过度自信。它没有想象出足够宽的可能性范围。这些诊断性的形状不仅仅是学术性的;它们是引导模型开发者寻找并纠正其系统中缺陷的线索。

虽然等级直方图是一个很棒的可视化工具,但我们常常想要一个单一的数字来告诉我们一个预报有多好。对于单一值预报,一个常用的度量是均方根误差(RMSE)。但这只关注集合的平均预测,完全忽略了至关重要的离散度。它没有告诉你预报在捕捉不确定性方面做得如何。

为了解决这个问题,预报员开发了更复杂的工具,其中最主要的是​​连续分级概率评分(CRPS)​​。CRPS是一项了不起的发明。它本质上衡量了预报的概率分布与观测的单一、确定现实之间的“距离”。它巧妙地结合了平均值的误差(准确性)和对狭窄离散度(锐度)的奖励,但前提是这个狭窄的离散度要位于正确的位置。一个低的CRPS是一个优秀概率预报的标志:既锐利又可靠。这是一个尊重集合所提供的完整、诚实的不确定性陈述的评分,而像RMSE这样的简单评分是做不到的。当我们开发一个新的、复杂的集合系统时,关键的测试是它是否能比一个简单的基准(如历史平均值,即气候态)取得更好的CRPS。如果不能,那么尽管它很复杂,它也没有教给我们任何新东西。

从天气到水文及更广领域

有了这些评判工具,我们现在可以看到集合预报在哪些领域发挥作用。

最熟悉的应用是在​​数值天气预报(NWP)​​中。每天,世界各地的超级计算机不只运行一次,而是几十次全球大气的模拟,来告诉你降雨的概率或可能的温度范围。这不仅对于日常便利至关重要,对于预测高影响事件也至关重要。考虑一次​​大气阻塞​​事件,这是一个顽固的高压系统,可能在一个地方停留数周,导致夏季持续的热浪或冬季严酷的寒潮。预测这些阻塞的发生和消散是一个重大挑战。集合系统,特别是那些将来自几个不同气象中心的输出组合成“多模型集合”的系统,让预报员能够掌握这类事件发生的概率,从而使社会能为其后果做好准备。

同样的想法从下周的天气延伸到未来一个月或一个季节的气候系统行为。预报员使用集合来预测主要气候模式的状态,如​​北大西洋涛动(NAO)​​,这是一种影响北美和欧洲天气的大尺度大气压力跷跷板。对两周后NAO状态的技巧性预报,可以为从能源到农业等广泛行业提供宝贵的指导。

但集合方法的影响范围远不止于大气。考虑​​水文学和洪水预报​​。预报有大雨是一回事;预报有毁灭性洪水是另一回事。要从前者到后者,预测链必须继续下去。来自天气模型的可能降雨总量集合被输入到一个水文模型中,该模型模拟水将如何从陆地径流,进入溪流,并流过河网。结果不是对河流峰值的单一预测,而是一个可能河流水位的集合。

这使得洪水预警可以采用更为细致的方法。当局可以评估河流超过关键阈值(如官方洪水警戒水位)的概率,而不是简单的“是/否”预报。然后,我们可以使用诸如​​布莱尔分数​​之类的工具来评估这些预警的技巧,该分数与CRPS一样,是一种奖励诚实和准确概率评估的恰当评分。这将抽象的降雨不确定性转化为关于生命和财产风险的具体、可操作的信息。

前沿:构建和沟通更好的集合

集合预报领域并非静止不变;它是一个充满活力的持续研究领域。其中一个最深层的问题是,不确定性从何而来?现代集合系统被设计用来解释几个不同的来源。有​​初始条件不确定性​​——“蝴蝶效应”——源于我们对系统当前状态的不完美测量。但也有​​模型不确定性​​。我们的模型并非完美;它们包含未精确已知的参数(​​参数不确定性​​),并且我们使用的数学方程本身可能不完整或存在结构缺陷(​​结构不确定性​​)。设计一个集合不仅要巧妙地扰动模拟的起点,还要扰动模型参数甚至模型结构本身。在最前沿领域尤其如此,物理学家和计算机科学家正在构建结合传统基于物理的方程与机器学习组件的​​混合模型​​。

此外,我们认识到,尽管我们的原始计算机模型功能强大,但它们并非完美校准的神谕。它们常常有系统性误差,如持续的暖偏差或过度自信的倾向。这导致了​​统计后处理​​技术的发展,如模型输出统计(MOS)。MOS就像一个专家学徒,研究模型的过往表现——其成功和失败的历史——并学会纠正其系统性偏差。它接收集合的原始输出,并将其转换为一个新的、经过校准的预测分布,这个分布更可靠,对真实的不确定性水平也更诚实。

最后,世界上最先进的预报如果不能被理解和付诸行动,也是无用的。这把我们带到了科学与社会的关键接口:​​风险沟通​​。在这里,区分​​概率预报​​和​​情景分析​​至关重要。一个概率预报,就像我们一直在讨论的那样,基于特定的模型和当前数据,提供了一个可能结果的分布。它可能会说,“累计住院人数在200到1200之间的概率为90%。”这对于近期的运营规划非常有价值。

然而,在危机初期——比如一种新疾病的爆发——结构不确定性可能非常大,以至于给出概率为时过早,甚至可能产生误导。在这些情况下,​​情景分析​​更为合适。这涉及到创建一套可信的“如果-那么”叙事:“如果再生数为1.5,那么我们的医院可能会看到这种程度的压力;如果它是2.0,那么情况可能会糟得多。”这些不是附带概率的预测,而是帮助决策者和公众理解风险范围并为不同突发事件做准备的工具。为不同程度的不确定性选择正确的工具,是负责任的科学沟通的标志。

从我们后院的天气到我们河流中的水,再到我们社区的健康,集合预报为在不确定性面前进行推理提供了一个统一的框架。它代表了一种深刻的哲学转变:从徒劳地寻求单一、确定的答案,转向拥抱和量化我们所不知道的智慧。这样做,它不仅使我们的预测更诚实,而且 infinitely more useful(无限地更有用)。