首页预报检验：评判预测的科学

预报检验：评判预测的科学

玻尔百科

定义

预报检验：评判预测的科学是一项用于评估确定性和概率预报质量的系统性过程，广泛应用于气象、金融及医学等多个领域。它利用均方根误差以及布莱尔评分等适当评分规则，对预测的准确性、可靠性和分辨力进行定量评价。这一科学框架旨在激励预报员诚实地反映不确定性，从而通过量化预报与实况的吻合程度来优化决策。

核心要点

确定性预报的准确度和型式技巧通过均方根误差（RMSE）和距平相关系数（ACC）等指标进行评估。
概率预报的优劣依据三个属性来评判：可靠性（诚实性）、分辨率（区分能力）和锐度（确定性）。
正常评分规则，如Brier评分和连续分级概率评分（CRPS），激励预报员发布能真实反映其不确定性的预报。
预报检验原则不仅限于天气领域，它是一个应用于金融、能源和医学等领域的通用工具包，用以改进不确定性下的决策。

引言

我们如何衡量一个预测的质量？当天气预报称某天有“70%的降水概率”而那天却晴空万里时，这个预报是错的吗？评判预报这一看似简单的行为，为我们打开了一扇通往预报检验科学的大门。这是一个致力于对预测进行定量评估的领域。这门学科超越了简单的“对”或“错”的判断，旨在解决更深层次的挑战：评估不确定性、诊断模型偏差，并最终建立起我们对预测未来能力的信任。它解决的核心问题是创建一个标准化的、客观的框架，不仅用以判断一个预报是否良好，还要探究其良好在何处、为何良好，以及它适用于何种目的。

本文将引导您了解这门至关重要的科学。在“原理与机制”一章中，我们将剖析其核心概念，探讨用于评价单值确定性预报和更复杂的概率预报的指标。随后，“应用与跨学科联系”一章将展示这些理论工具如何付诸实践，揭示它们在气候科学、能源市场、经济学乃至关乎生死的医学预测等领域中，对改进模型和指导决策所起的关键作用。

原理与机制

我们如何判断一个天气预报是否“好”？这个问题看似简单，答案却出乎意料地深刻而优美。如果预报的最高温度为 $25^\circ\text{C}$ ，而温度计恰好显示 $25.0^\circ\text{C}$ ，我们会庆祝这是一个完美的预测。但如果实际温度是 $26^\circ\text{C}$ 呢？这个预报算失败吗？又如果预报某天有“70%的降水概率”，而那天却阳光明媚，这算是一个糟糕的预报吗？

要回答这些问题，我们必须首先理解预报是什么，以及我们希望从中得到什么。这段进入预报检验科学的旅程，不仅揭示了如何为预测评分，更揭示了可预报性、不确定性和决策的本质。

单值世界：准确度与协调性

让我们从最简单的情况开始：确定性预报，它提供一个单一数值作为其最佳猜测。例如，预报明天某特定点的 $500\ \text{hPa}$ 位势高度，这是反映天气型式的一个关键指标。评判该预报最直接的方法是衡量误差：即预报值 $f$ 与观测值 $y$ 之间的差异。

对这些误差求平均会产生误导，因为正误差和负误差会相互抵消。为了衡量误差的典型量级，我们求助于一个熟悉的朋友：均方根误差（RMSE）。我们将误差平方使其全部为正，然后取平均值，最后取平方根以回到原始单位。

$\mathrm{RMSE} = \sqrt{\frac{1}{N}\sum_{i=1}^{N} (f_i - y_i)^2}$

RMSE不仅仅是一个方便的公式。想象一下，你是一名预报员，并且知道你将因误差的平方而受到惩罚。你应该发布哪个单值来最小化你的预期惩罚？决策论给出的一个优美结论是，你最好的选择是在你所掌握信息条件下，所有可能未来结果的平均值。这个平均值就是期望值或条件均值， $\mathbb{E}[Y | \mathcal{I}]$ 。这告诉我们，RMSE并非一个随意的指标；对于一个成本与误差平方成正比的用户来说，它是理想的衡量标准，并且它定义了确定性预报的最优目标。

但低RMSE是我们唯一关心的吗？考虑一个模型，它能完美捕捉天气的节奏——锋面推进和高压系统发展的时间——但却系统性地偏高 $2^\circ\text{C}$ 。由于这种系统性偏差，它的RMSE可能很差，但它包含了关于天气型式的宝贵信息。

为了捕捉这一点，我们需要一个不同的工具：距平相关系数（ACC）。ACC不关注绝对值，而是衡量预报距平（与长期平均值或气候态的偏离）和观测距平之间的相关性。它实质上是在问：预报是否正确地预测了天气将比平均状况更暖，并且是否将那些比平均状况更暖的区域放在了正确的位置？

因为ACC是一个相关系数，它对系统性偏差和总体振幅误差不敏感。一个预报的距平为 $f_i = 2 \times o_i$ （即每个距平的预报振幅都是正确值的两倍），其ACC仍能达到完美的1，尽管其RMSE会很大。ACC评估预报的位相和型式技巧，使其成为评估误差总体量级的RMSE的完美补充。一个真正好的确定性预报必须在这两个指标上都表现出色。

拥抱不确定性：概率预报的优良属性

真实世界并非确定性的。大气的混沌性质意味着，即使我们对其当前状态有近乎完美的了解，其未来仍是一个充满可能性的谱系，而非单一的结果。现代预报通过发布概率预报来承认这一点，其形式通常是集合预报，即由多个独立模式运行结果组成的集合，用以抽样未来可能性的范围。

然而，这种丰富性也带来了新的检验挑战。你如何为一个概率评分？我们不能再简单地谈论“对”或“错”。相反，我们必须基于三个优良属性来评估预报分布的质量：可靠性、分辨率和锐度。

诚实为上策：可靠性

最根本的属性是可靠性，也称为校准。可以把它看作是诚实性。如果一位预报员告诉你某天有30%的降水概率，你会期望在许多他们做出相同30%预测的日子里，实际上大约有30%的日子确实下雨了。

可靠性意味着预报概率与现实在统计上是一致的。对于一个二元事件，完美的可靠性由这个简单而强大的方程定义： $\mathbb{P}(\text{event occurs} | \text{forecast probability} = p) = p$ 。对于像温度这样的连续变量，其思想是相同的：观测结果应该看起来像是从预报分布中的一次随机抽取。可靠性是信任的基石；没有它，预报概率就只是无意义的数字。

区分的能力：分辨率

一个总是预报气候平均值（例如，每天都重复“今天西雅图有22%的降水概率”）的预报可能完全可靠，但却毫无用处。它无法帮你决定是否带伞。一个好的预报还必须具有分辨率。

分辨率是发布不同于气候平均值且正确的概率的能力。它是在事件可能发生的日子和不可能发生的日子之间进行区分的能力。一个具有高分辨率的预报，当它预测降水概率高时，观测到的降水频率确实很高；而当它预测概率低时，观测到的频率也确实很低。

确定性的优点：锐度

最后，锐度仅是预报自身的一个属性。它衡量预报的确定性。对于二元事件，一个锐度高的预报会发布接近0或1的概率，而不是总在0.5左右徘徊。对于连续变量，一个锐度高的预报对应一个狭窄的概率分布。

当然，这其中存在一种张力。发布一个锐度高的预报很容易——人们可以总是发布0%或100%的预报——但这很可能导致极差的可靠性。概率预报员的最终目标是在保持可靠性的同时尽可能地提高锐度。一个好的预报是那种既有信心又正确的预报。

预报员的工具包：评分与图表

为了衡量这些优良属性，科学家们开发了一套精美的评分和图表工具包。

判断“是”或“否”：分类检验

对于二元（是/否）事件，如降水量是否超过某个阈值，检验的基础是列联表。这是一个简单的 $2 \times 2$ 表格，用于统计命中（预报是，观测是）、漏报（预报否，观测是）、空报（预报是，观测否）和正确否定（预报否，观测否）的次数。预报-观测对的整个联合分布都被这四个数字所捕捉。

一个流行的评分是Brier评分（BS），它就是概率预报的均方误差。对于一组概率为 $f_i$ 、结果为 $y_i$ （如果事件发生则 $y_i=1$ ，否则为0）的预报，其公式为：

$\mathrm{BS} = \frac{1}{N} \sum_{i=1}^N (f_i - y_i)^2$

Brier评分的真正魔力通过Murphy分解得以展现。这个数学分解表明，Brier评分可以表示为：

$\mathrm{BS} = \text{Reliability} - \text{Resolution} + \text{Uncertainty}$

在这里，对于一个完美校准的预报，可靠性项为零；对于一个能很好区分的预报，分辨率项很大；而不确定性项仅取决于事件本身的气候频率。这个优美的分解让我们能够看到不同的预报优良属性如何共同构成一个总分。一个好的预报（低的Brier评分）是具有高可靠性（低的REL项）和高分辨率的预报。

然而，一个原始评分是不够的。0.2的Brier评分算好吗？这取决于基准。技巧评分衡量的是一个预报相对于一个简单参考（如气候态或持续性预报）的改进程度。其中最重要的一种是公平威胁评分（ETS）。“公平”是关键：它对一种“聪明”的随机预报给出的评分为零，这种随机预报能做到“是”预报的总频率是正确的。它通过计算随机机会下预期的命中次数 $H_r$ ，并将其从方程中移除来实现这一点。ETS只奖励那些超出此随机基线所实现的命中。当实际命中次数等于随机预期次数时（ $H = H_r$ ），ETS恰好为零，表示没有技巧。

判断分布：连续检验

我们如何检验像温度这样的连续变量的完整概率分布的可靠性呢？一个绝妙而优雅的工具是概率积分变换（PIT）。想象你有一个预报的累积分布函数（CDF）， $F(y)$ ，而实际温度为 $y_{obs}$ 。那么 $u = F(y_{obs})$ 这个值就是观测值在你的预报分布中所处的百分位数。如果你的预报分布是可靠的，那么在多次这样的预报之后，这些 $u$ 值的集合应该在0和1之间均匀分布！

对于集合预报，这直接引出了等级直方图。对于每个观测，我们找出它在排序后的集合成员中的等级。如果集合预报是可靠的，那么观测值落在任何一个“箱”（低于第一个成员、在第一和第二个成员之间……、高于最后一个成员）中的可能性是相等的。因此，将许多个例的这些等级绘制成图，应该是一条平坦的线。与平坦线的特征偏差是强大的诊断工具：

U形直方图意味着观测值过于频繁地落在集合范围之外，表明预报离散度不足（即集合离散度太小，过于自信）。
驼峰形直方图意味着观测值过于频繁地落在集合中间，表明预报离散度过大（即集合离散度太大，不够自信）。

为了将所有性能方面合并为一个单一数值，我们使用像连续分级概率评分（CRPS）这样的评分。CRPS是平均绝对误差的概率泛化。一种常见的表示方法用准确度和离散度来表达它：

$\mathrm{CRPS} = \mathbb{E}|X - y| - \frac{1}{2}\mathbb{E}|X - X'|$

其中 $X$ 和 $X'$ 是从预报分布中独立抽取的样本，而 $y$ 是观测值。第一项衡量预报的准确度（误差）。第二项与预报的离散度有关。CRPS恰当地平衡了这些分量，只有当预报既尽可能锐利又尽可能准确时，CRPS才达到最小值。

至关重要的是，CRPS和Brier评分都是严格正常评分规则。这是一个深刻的概念。它意味着，从长远来看，预报员要获得最佳（最低）平均分的唯一方法是完全诚实，发布一个与其对未来的真实信念完全匹配的预报分布。这些评分不仅衡量表现；它们还激励着良好的科学实践。

检验的统一性：离散度-技巧关系

我们可以用一个强大的概念将这些思想联系在一起：离散度-技巧关系。对于一个可靠的集合预报，集合的预报离散度应该与预报平均值的实际误差相匹配。换句话说，预报自身声明的不确定性应该与其真实的不确定性程度相对应。

假设一个集合预报的方差为 $s_f^2$ ，我们用有其自身误差方差 $r$ 的观测来检验它。对于一个完全可靠的集合，预报平均值的期望平方误差应等于预报方差与观测误差方差之和：

$\mathbb{E}\big[(y_t - \mu_{f,t})^2 \mid s_{f,t}^2\big] = s_{f,t}^2 + r$

这个优美的方程提供了一种检验可靠性的实用方法，并统一了我们的核心主题。左边是预报的平均技巧。右边是其自身声明的不确定性（ $s_f^2$ ）与测量的不可约不确定性（ $r$ ）之和。在一个可靠的系统中，这两个量处于完美平衡。正是这种平衡——在确定性与准确度之间，在预测与现实之间——构成了预报检验的核心。它将“这个预报好吗？”这个简单问题，转变为对我们理解和预测世界能力的深刻、定量的探索。

应用与跨学科联系

在经历了预报检验的原理与机制之旅后，你可能会有一种类似于学会了国际象棋规则的感觉。你知道棋子如何移动，也明白目标所在，但你尚未见证特级大师对局中那令人叹为观止的美妙。这些抽象的评分和图表究竟是如何被使用的？它们在何处焕发生机？

事实证明，预报检验这门科学并非统计学家在象牙塔里进行的旁观者运动。它是一个至关重要的、活跃的、并且出人意料地普适的工具包，适用于任何必须在不确定的未来面前做出决策的人。其应用远远超出了简单的天气报告，触及了我们气候、经济乃至我们身体的搏动核心。让我们踏上这段迷人领域的旅程，去看看我们学到的原理是如何变成探索发现和制定决策的强大工具。

核心领域：天气与气候

预报检验的天然归宿是大气科学，人类正是在这里首次努力应对预测自然元素混沌之舞的挑战。在这里，这些方法不仅用于评分，更用于理解和改进我们洞察未来的窗口。

概率的语言

想象一下，你的任务是预测一个主要的气候型式，比如厄尔尼诺-南方涛动（ENSO），这是一种对全球产生影响的太平洋周期性增暖现象。一个简单的“是”或“否”的预报是远远不够的。相反，现代系统会发布一个概率：“今年冬天发生厄尔尼诺事件的概率为70%。”但这个70%意味着什么？我们又如何判断它是否是一个“好”的预报？

这时，我们就必须学习一种新的语言，一种用以描述概率预报质量的语言。最重要的词是可靠性、分辨率和锐度。

可靠性，简单来说，就是诚实。如果一个预报员说某事发生的概率是70%，我们期望在多次这样的预报中，该事件确实发生了大约70%的时间。一个完全可靠的预报员，其概率是你完全可以信赖的。我们可以用可靠性图来将其可视化，该图绘制了事件的观测频率与预报概率的关系。对于一个诚实的预报员，这些点应该正好落在对角线上。
分辨率是区分不同情况的能力。预报员是否对结果不同的日子发布了不同的概率？一个总是预测气候平均值（例如，每天都说“今天马登-朱利安振荡处于第3阶段的概率是12.5%”）的预报员可能完全可靠，但他的分辨率为零。他们没有提供任何新信息。相比之下，一个高分辨率的预报系统能将事件分到结果迥异的箱子里，例如，在事件不发生的日子里自信地发布低概率，而在事件发生的日子里发布高概率。
锐度是确定性的衡量标准。它仅是预报自身的属性。一个锐度高的预报系统不会模棱两可；它发布的概率接近0%或100%，避免了含糊的中间值。锐度是可取的，但前提是预报也要可靠。一个总是100%确定但持续错误的预报员，虽然锐度高，却毫无用处。

这三个属性构成了概率检验的基石。我们可以使用像Brier评分这样的工具来量化它们，该评分是预报概率与二元结果（0代表否，1代表是）之间的均方误差。这个评分可以分解为代表预报可靠性和分辨率的项，从而提供更深入的诊断见解。

从评分到改进

但是，如果不能提升你的水平，记分又有什么意义呢？检验统计数据不仅仅是成绩单；它们是诊断工具。通过研究一个预报模型过去多年的表现——这个过程涉及创建一个庞大的后报（即回顾性预报）数据集——我们可以了解它的特性、怪癖和系统性偏差。

例如，一个模型可能持续预报的周温度平均偏冷，且变率不足。利用一个长的后报记录，我们可以精确地测量这种均值和方差偏差。然后，我们可以对模型的未来预报进行一个简单的统计调整——均值-方差校准——推动其输出拥有一个更真实的“气候”。这是一个使用检验不仅为了评判、也为了“教导”的优美例子。交叉验证的过程在这里至关重要；为了诚实地评估这种教导的效果如何，我们必须在未用于训练校准的年份数据上进行测试，以防止模型“在考试中作弊”。

关注最重要的事

有时，我们对某些错误的关注程度超过其他错误。一个漏报了毛毛雨的预报只是带来不便；一个漏报了灾难性洪水的预报则是一场灾难。像Brier评分这样的标准指标对所有错误一视同仁。我们能做得更好吗？

是的。我们可以根据需求设计定制的评分规则。例如，在预报极端降水时，我们可以使用阈值加权的连续分级概率评分（twCRPS）。这个巧妙的工具是对用于完整概率分布的标准评分的修改，但增加了一个权重函数，告诉评分要“更多地关注”那些发生在高影响阈值以上的错误。这就像告诉一个学生，期末考试中关于最关键主题的题目分值更高。

另一个现实世界的复杂性是空间问题。如果一个模型完美地预测了一场强雷暴，但将其位置预报在实际位置以西十英里处怎么办？一个简单的逐点检验会判定这在两个位置上都是完全失败的。但这感觉不对。这是一次“接近命中”，而非完全失误。邻域法，如分数技巧评分（FSS），就是为了解决这个问题而发明的。它们不比较单个点，而是比较一个区域内被某一事件（比如，降雨超过10毫米/小时）覆盖的比例。这使得评分为空间上接近的预报提供部分分数，从而对模型捕捉天气现象结构和尺度的能力提供更全面、更有用的评估。

通用工具包：跨学科的检验

为天气和气候领域开发的深刻思想——概率评估、偏差校正、效用加权评分——并不局限于大气科学。它们构成了一个通用的统计工具包，用于在任何领域驾驭不确定性。

驱动未来：能源市场

考虑为国家电网预报每小时电力需求的问题。赌注是巨大的；预报不足可能导致停电，而预报过度则意味着浪费燃料和金钱。假设两家相互竞争的商业模型正在争取一份合同。你作为电网运营商，如何决定哪一个真正更好？

你不能只看平均误差。一个模型可能在工作日表现更好，另一个则在周末表现更佳。误差很可能存在序列相关性。这时，正式的预测能力统计检验，如Diebold-Mariano检验，就派上用场了。该检验考察损失差异序列——即在每个时间点上两个模型之间误差（或误差的函数，如平方误差）的差异。它严格检验了“平均而言，两个模型同样好”的原假设，同时恰当地处理了像自相关这样的时间序列数据的复杂现实。它在正面交锋中提供了一个统计上可靠的“判决”。

驾驭市场：经济学与金融

从能源市场到金融市场只是一小步。一家投资公司可能会使用像ARIMA这样的时间序列模型来预报每日股票回报。但市场是变化的。一个在牛市中表现出色的模型可能在熊市中惨败。模型的预测关系是否稳定？

在这里，预报检验成为诊断参数不稳定性的强大工具。通过使用滚动窗口预报评估——即每天仅使用最近一个窗口的数据（例如，过去252个交易日）重新估计模型——我们可以生成一个样本外预报误差的时间序列。如果模型的参数是稳定的，其预测性能应该随时间保持一致。如果我们发现评估期后半段的预报误差系统性地大于前半段，这是一个危险信号，表明模型的基本假设可能不再成立。这种动态监控对于在不断变化的金融世界中进行风险管理至关重要。

拯救生命：医学与公共卫生

也许预报检验最引人注目的应用是在医学领域，这里的赌注不是金钱，而是人的生命。

想象一下，一家医院实施了一项新政策以减少急诊室的拥挤。一年后，就诊人数下降了。成功了吗？也许。或者下降是由于一个温和的流感季节或其他外部因素。要知道这项政策的真实效果，我们需要一个反事实：一个关于如果该政策从未实施将会发生什么的可靠估计。一个在政策变化前的数据上训练的时间序列模型可以提供这样的预报。

但我们如何知道这个反事实是否可靠？我们无法观测到未曾发生的事。但我们可以做的是，在干预前时期使用预报检验。我们可以保留政策开始前最后几个月的数据，看看模型对它们的预测效果如何。如果其样本外均方根误差（RMSE）很小，我们就会对其生成一个合理未来的能力更有信心。我们甚至可以将其形式化，将统计误差与临床意义联系起来。例如，我们可以要求模型的预报不确定性（其预测区间的宽度）显著小于我们正在测量的结果的最小临床重要差异（MCID）。这确保了我们的“如果……会怎样”机器足够精确，能够检测到对患者真正重要的效果。

这段旅程在最动态、风险最高的环境中达到顶峰：重症监护室（ICU）。一个模型预测病人在接下来六小时内发生急性失代偿的实时概率。如何验证这样的模型？一个简单的Brier评分是不够的。预报的效用是时间敏感的。一个能让医生采取预防性干预的早期预警，远比一个最后一分钟的警报更有价值。

在这里，我们可以将预报检验与决策理论融合。我们可以定义一个时间依赖的临床效用权重 $w(t)$ ，它捕捉了在每个时刻准确预报的重要性。这个权重在病人处于脆弱状态、干预最有效时可能会更高。然后我们可以用这个权重来创建一个效用加权的评分规则。例如，我们可以计算每分钟的Brier评分，但在随时间平均之前乘以 $w(t)$ 。这确保了验证指标会优先奖励在最关键时刻表现准确的模型。这是检验的顶峰：一个不仅旨在衡量抽象准确性，而且旨在量化模型在关键决策循环中真实价值的工具。

一门关于诚实与效用的科学

正如我们所见，预报检验远非一项枯燥的学术活动。它是一门活生生的科学，教我们提出更深层次的问题：不仅仅是“预报对吗？”，而是“它错在哪里？”，“它诚实吗？”，“它锐利吗？”，“它对我的特定问题有用吗？”。它提供了一种通用的语言来交流不确定性，一个严谨的工具包来改进我们的预测，无论我们是在追逐一场风暴、一支股票，还是病人健康状况的细微变化。其核心，这是一门让我们的未来之窗承担责任的科学。