
如何判断一次天气预报是真正具有技巧还是仅仅是运气好?在沙漠地区预报“无雨”几乎每次都是正确的,但这种高准确率并不意味着真正的预测能力。真正的挑战在于创造一种能够奖励那些优于简单随机猜测的预报的度量方法。正是这种——衡量纯粹准确率与衡量真实技巧之间的差距——使得稳健的检验方法对于从气象学到气候科学等领域的科学进步至关重要。
本文深入探讨了为解决此问题而设计的最基本工具之一:Heidke技巧评分(HSS)。它通过考虑仅凭机缘就会发生的命中,提供了一种公平且“公正”的预报评估方式。首先,在“原理与机制”部分,我们将从基本的列联表入手,探讨机会校正评分的概念,从而解析HSS的公式。我们还将HSS与公平威胁评分(ETS)和Peirce技巧评分(PSS)等其他重要度量标准进行对比,以理解它们各自的独特优势。随后,“应用与跨学科联系”部分将探讨HSS在实践中的应用场景,重点介绍其在气候科学中的效用、在稀有事件预报中的局限性,以及避免常见统计陷阱的关键重要性。
我们如何判断一次天气预报的好坏?这个问题看似简单,但越深入思考,就越觉得复杂。假设一位预报员在阳光明媚的沙漠城市每天都预报“无雨”。他的正确率将超过99%!这位预报员有技巧吗?又或者,在热带雨林中,一位预报员每天都预报“下雨”?他也会在大多数时间里是正确的。直觉上,我们知道这其中缺少了些什么。他们并没有展示出任何真正的理解力,只是在利用概率。为了真正衡量预报的技巧,我们需要一个比简单计算“成功”和“失败”次数更聪明的工具。我们需要一种方法来判断预报是否优于随机猜测。
在建立评分之前,我们需要整理数据。假设我们正在评估一系列针对特定事件的预报,比如“明天会下雨吗?”或“太阳耀斑会爆发吗?”。对于每一次预报,都有四种可能的结果。
我们可以将这四种结果的计数整理成一个简单而强大的表格,称为列联表 (contingency table)。我们用变量 、、 和 分别表示命中、空报、漏报和正确否定的总次数。
这里, 是预报的总次数。这张看似不起眼的表格是预报检验的基础。只要我们不考虑更复杂的时间或空间关系,它就包含了我们需要的关于预报和观测现实联合表现的所有信息。任何旨在基于这些成对事件来评判预报的评分,都可以仅从这四个数字计算得出。
现在我们已经整理好了数据。我们可以计算的最基本的度量是准确率 (accuracy):预报正确的次数所占的比例。
但正如我们从沙漠预报员的例子中看到的,高准确率并不自动意味着高技巧。一个真正技巧评分的秘诀在于,它衡量的是预报相对于一个无技巧基线的改进程度。标准的基线是一个随机预报,它在统计上独立于实际结果,但其发布“事件”和“非事件”预测的总体频率与我们的预报员相同。
这导出了一个优美而通用的技巧评分公式:
这个结构改变了游戏规则。它将纯粹随机预报的评分设为 (无技巧),将完美预报的评分设为 (完美技巧)。所有其他预报都介于两者之间。这正是一个公平 (equitable) 评分的定义:它提供了一个公正的评判,只奖励那些超越盲目运气所能带来的真正预测能力。
让我们构建我们的第一个正式的技巧评分——Heidke技巧评分 (HSS)。HSS将通用的技巧评分公式应用于最直观的度量:准确率。
我们的“实际得分”是观测到的准确率,即 。准确率的“完美得分”当然是 。棘手的部分是“随机机会得分”。我们从一个随机预报员那里期望得到的准确率是多少?
想象有两套牌。一套是预报(“事件”或“非事件”),另一套是观测(“事件”或“非事件”)。随机预报就像是把两副牌都洗混,然后抽出一对。预报事件的概率就是事件预报的总次数除以 ,即 。事件实际被观测到的概率是 。
由于随机预报与观测是独立的,凭机缘获得一次“命中”的概率是这两个概率的乘积。凭机缘预期的命中总数,我们称之为 ,是:
类似地,凭机缘预期的正确否定次数 是:
凭机缘预期的正确预报总次数是 。因此,从随机机会中预期的准确率是 。
将所有这些代入我们的技巧评分总公式,就得到了HSS:
这揭示了Heidke技巧评分的灵魂。它不仅仅是计算正确的预报次数;它衡量的是正确预报次数超出随机运气所能给予的超额部分,并用相对于随机机会可能实现的总改进量来对其进行缩放。通过一些代数运算,可以将其重新整理成更常见但不太直观的形式:
HSS是一个极好的通用工具。但它有一个奇特的特性,在某些情况下会成为问题。注意,它的分数是基于命中()和正确否定()的。它认为正确预测事件与正确预测非事件同等重要。
如果我们预报的是非常稀有且非常重要的事件,比如飓风、地震或可能干扰卫星的重大太阳耀斑,情况会怎样?。在这种情况下,正确否定(没有飓风的日子)的数量将远大于其他计数。一个预报系统仅仅通过反复正确预测“无飓风”,就可以获得非常高的HSS,即使它未能预测那一两次实际发生的飓风。分数被大量的简单正确否定所“抬高”了。
这时我们就需要一个不同的视角。对于稀有事件,我们更关心的是我们预测事件本身的能力。我们需要一个专注于我们列联表左上部分的评分。这就引出了公平威胁评分 (Equitable Threat Score, ETS),也称为Gilbert技巧评分。
ETS始于一个更简单的度量,称为威胁评分(或关键成功指数),定义为 。这个评分完全忽略了正确否定。它衡量的是在事件被预报或被观测到的所有情况中,我们获得命中的比例。
然后,ETS通过应用我们之前学到的相同机会校正原则,使其变得公平。它从分子和分母中减去凭机缘预期的命中数 :
通过只关注 、 和 ,ETS不受大量正确否定造成的膨胀影响。这就是为什么它通常是检验稀有事件预报的首选评分;它更诚实地评估了一个模型在恰当时机“喊狼来了”的能力。
我们已经看到,在HSS和ETS之间的选择,实际上是关于你更看重什么:是整体准确率还是特定事件的探测。这暗示了一个更丰富的检验图景。让我们再看一个评分,以揭示更深层的联系。
Peirce技巧评分 (PSS),也称为真实技巧统计量,提出了一个非常直接的问题:与在事件未发生时错误地识别事件相比,预报在事件发生时识别出事件的能力要好多少?它就是命中率与空报率之差:
这个评分也是公平的,对于随机预报评分为 ,完美预报评分为 。但它有一个显著的特性:它的值不依赖于事件的稀有程度。因为它是由条件概率(给定观测结果,预报的表现如何?)构建的,所以它是基础概率独立的 (base-rate independent)。一个预报的PSS将保持不变,无论它预报的是夏季阵雨还是百年一遇的洪水,只要其区分事件日和非事件日的内在能力不变。相比之下,HSS则高度依赖于事件的基础概率。
现在来看最后一个优美的洞见。我们有这些不同的评分——HSS、ETS、PSS——每个都有自己的哲学。它们之间有关联吗?
考虑一个完全无偏差 (unbiased) 的预报。这并不意味着它是完美的;它意味着它不会过多或过少地预报事件。它预测事件的频率 ,与观测到的事件频率 完全相等。对于一个无偏差的预报,这意味着空报的次数必须等于漏报的次数()。
对于这种特殊的、理想的无偏差预报情况,一件奇妙的事情发生了。复杂的Heidke技巧评分公式简化后,变得与Peirce技巧评分完全相同。
这是一个意义深远的结果。它告诉我们,两个源于不同视角——一个源于总准确率,另一个源于条件概率——的评分,在预报是“公平”的情况下,收敛于同一个技巧度量。它揭示了预报检验逻辑中隐藏的统一性,向我们展示了这些不仅仅是随意的公式,而是通向同一个基本概念——技巧——的不同窗口。
在探究了赋予Heidke技巧评分强大力量的原理之后,我们现在走向实践。这个工具究竟用在何处?它能教给我们什么,它的局限又在哪里?像Heidke技巧评分这样的概念之美,不在于其抽象的公式,而在于它作为一面透镜的应用,通过它,我们可以更清晰地看待世界以及我们预测世界的尝试。我们将看到,“技巧”并非预报的一个简单、单一的属性。相反,它是一个对精心提出的问题的细致回答,而HSS是我们提出这个问题的最佳方式之一:“我们真的比随机猜测做得更好吗?”
这次探索是一场关于科学诚信的叙述。它关乎为工作选择合适的工具,理解其弱点和优点,并诚实地面对我们的模型能做什么和不能做什么。一个单一的评分可能成为一个偶像,因其表面的权威而受到崇拜;也可能成为一个向导,指引我们走向更深的理解。我们的目标是后者。正如我们将发现的,一个预报是否“好”的问题,往往完全取决于你将它与什么进行比较。它比仅仅猜测长期平均值(气候学)更好吗?它比假设明天会和今天一样(持续性预报)更好吗?Heidke技巧评提供了一个特定而强大的基准:一个受到约束、尽可能聪明的随机猜测者,因为它保留了观测到的事件频率。
想象一位气候科学家想要评估一个新的季节预报模型。该模型不仅仅预报“下雨”或“无雨”;它预测即将到来的季节温度将是“低于正常”、“接近正常”还是“高于正常”。这是一个多分类问题,而正是在这里,HSS的优雅之处真正得以展现。
假设在一个很长的检验期内,“接近正常”这一类别出现得最频繁。一个天真的预报员可以每次都发布“接近正常”的预报。这种策略会累积大量的“命中”,如果只看原始准确率或正确预报的百分比,可能会显得很有技巧。但这种策略具备任何真正的预测洞察力吗?当然没有。这是一种利用结果基础概率的愚蠢、固定的策略。
这正是HSS展示其“公平性”的地方。该评分被专门设计用来给这种无技巧策略一个恰好为零的分数。HSS公式中我们从实际命中数中减去的“随机机会预期正确数”项 ,是基于预报和观测的边际频率计算的。对于一个总是预测最频繁类别的固定预报,观测到的命中数恰好等于随机机会预期的命中数。HSS的分子变为零,因此技巧评分为零。HSS不会被愚弄。它提供了一个公正的评估,只嘉奖那些展示出真正能力、能将正确的预报类别与正确的观测类别关联起来的预报,这种能力要超越盲目机会,甚至是聪明的盲目机会所能达到的水平。这使其成为气候学等领域不可或缺的工具,在这些领域,评估跨多个不等可能类别的预报是一项日常挑战。
尽管HSS非常公平,但它并非适用于所有预报问题的万能试金石。它的内部机制有时会产生一些结果,这些结果虽然在技术上是正确的,但可能与预报员的实际目标不符。考虑预报龙卷风这样一种罕见但具毁灭性的事件的艰巨任务。
在任何给定的区域,绝大多数日子都是没有龙卷风的。一个预报系统仅仅通过总是预测“无龙卷风”就可以获得非常高的整体准确率(超过99%)。HSS受大量“正确否定”——即许多未预报且未发生龙卷风的实例——的严重影响。当一个事件极其罕见时,模型的准确率和“随机机会”参考的准确率都被这些正确否定所主导。HSS衡量的它们之间的差异变得微乎其微,即使对于一个具有真实、尽管不完美的标记龙卷风条件能力的预报也是如此。
在这种情况下,我们可能需要一个不同的工具。科学家们经常转向像Peirce技巧评分这样的评分,也称为真实技巧统计量(TSS)。TSS的定义很简单,就是命中率()减去空报率(),即 。它直接衡量预报区分事件日和非事件日的能力,完全忽略了大量的正确否定。与HSS不同,TSS对事件的基础概率不敏感。对于龙卷风预报,TSS回答了一个关键问题:“当龙卷风实际存在时,我们发布警报的可能性比龙卷风不存在时高多少?”对于稀有事件检验,这通常比HSS提出的问题更有用。这说明了一个至关重要的原则:没有单一的“最佳”评分,只有最适合你试图回答的问题的评分。
假设一个国家气象局自豪地宣布,其新的全国降水预报模型取得了很高的Heidke技巧评分。这一个数字似乎意味着该模型在所有地方都取得了巨大成功。但危险可能潜藏在这种聚合统计数据中。
想象一下,这个模型被用来预报一个国家的强降雨,这个国家大部分是平原,但有一个小而人口稠密、易发山洪的山区。模型可能在广阔的平原上表现出色,正确预测了大多数降雨事件和非降雨事件。这个庞大而成功的区域将主导整体HSS的计算。然而,同一个模型在山区复杂的地形中可能完全无用,显示出零甚至负的技巧。聚合后的高分会完全掩盖这种关键的局部失败。尽管预报具有“经证实”的整体技巧,山区居民的生命和财产仍将处于危险之中。
这种聚合结果掩盖了子群体中不同趋势的现象,是一个经典的统计陷阱。在预报检验中,补救措施是分层 (stratification)。一位勤勉的分析师不会为整个区域计算一个HSS,而是会分别为不同区域(例如,山区与平原)、不同季节或不同潜在天气模式计算它。这提供了一个更诚实、更全面的模型真实性能图景,突出了它在哪里表现出色,更重要的是,在哪里表现失败。一个单一的分数可以成为头条新闻;而一次分层分析才是科学。
HSS以及许多类似评分的传统框架,建立在一个简单的正确性概念之上:对空间中特定点的预报要么是对的,要么是错的。HSS核心的列联表就是通过统计这些逐点的成功与失败构建起来的。对于许多变量来说,这完全足够。但对于像夏季雷暴这样的现象呢?
假设一个模型预测一场雷暴将在城镇东侧发生,但它实际上在仅一英里之外的西侧形成。从人类的角度来看,这是一个相当不错的预报!模型正确预测了风暴的时间、强度和大致位置。然而,在一个预报点网格上,这将被评为一次彻底的失败。在西侧的每个点,模型记录了一次“漏报”(未预报风暴,但风暴发生了)。在东侧的每个点,它记录了一次“空报”(预报了风暴,但没有发生)。像HSS这样的基于点的评分不会为这种“差一点”的成功给予任何分数。
这揭示了基于点的度量标准在检验具有“空间相干性”的场时的根本局限性。为了解决这个问题,科学家们开发了“空间”或“模糊”检验方法。一个例子是分数技巧评分(FSS),它不比较单个点,而是比较一个区域被事件覆盖的比例。它将二元的“是/否”预报和观测场转换为局部比例的连续场。通过比较这些平滑后的场,FSS可以为那些位置稍有偏差但在结构、大小和量上基本正确的预报给予肯定。随着比较邻域的增大,一个小的位移误差变得越来越不重要,技巧评分也理所当然地增加了。这种从基于点到空间检验的演变表明,科学如何调整其工具以更好地匹配问题的性质,超越了HSS优雅但有时僵化的框架。
最终,Heidke技巧评分因其数学上的优雅和对公平的深刻承诺,仍然是预报检验的基石。但它的真正价值并非在其被用作最终、绝对的裁决时显现,而是在它被用作更广泛的科学好奇心和谦逊文化中的诊断工具时。它迫使我们精确地阐述我们对技巧的主张,仔细检查我们模型的隐藏弱点,并认识到我们提出的问题何时需要更新、更锐利的工具。科学的旅程是不断完善我们问题的过程,而HSS,无论是在其强大之处还是局限性方面,都是那条道路上宝贵的向导。