临界成功指数

玻尔百科

定义

临界成功指数是一种用于预报检验的性能指标，通过计算命中次数与命中、漏报及空报总和的比率来评估稀有事件的预测准确性。该指标在气象学和预测建模领域被广泛应用，其特点是忽略正确的否定预测，但也因无法区分真实的预报技术与随机巧合而具有局限性。临界成功指数常与公平威胁分数等指标配合使用，旨在根据特定的业务目标优化预测模型和决策阈值。

核心要点

临界成功指数 (CSI) 是一个通过比较命中数与命中、漏报和空报总和来评估预报的指标，它忽略了正确否定，因此对于稀有事件的评估非常有用。
CSI 的一个关键缺陷是其不公平性；它无法区分真正的预报技巧和纯粹由随机概率产生的命中。
公平威胁评分 (ETS) 通过减去随机概率预期产生的命中数，提供了一个更公正的评估，其评分为零表示预报技巧不高于侥幸。
在实践中，应用这些评分面临着诸如“双重惩罚”问题等挑战，即一个微小的空间误差会被不公平地惩罚两次，既算作一次漏报，又算作一次空报。
选择评分标准（例如 CSI 与 ETS）是一项战略决策，可用于根据特定的业务目标优化预报模型和决策阈值。

引言

我们如何客观地判断一个预测的好坏？这个根本性问题是任何依赖预报的领域的核心，无论是预测明天的天气，还是预报太阳耀斑。虽然简单的准确率似乎是一个直接的衡量标准，但它可能具有深度误导性，尤其是在处理稀有但关键的事件时。一个预报系统可能看起来准确率很高，却未能预测出那些最重要的事件。这揭示了一个关键的知识空白：我们需要一种能够将真正的预测技巧与随机运气的欺骗性影响区分开来的度量标准。

本文将引导您了解预报检验的科学。它将层层剥开复杂性，揭示我们如何创建一个公平且富有洞察力的评分系统。在接下来的章节中，您将对这一基本方法论获得全面的理解。我们的旅程始于基础的“原理与机制”，您将学习如何使用列联表对预报结果进行分类，并探讨广泛使用的临界成功指数 (CSI)。随后，您将发现这个直观评分中隐藏的缺陷。接下来，“应用与跨学科联系”一章将展示这些概念在现实世界中的应用，介绍更稳健的公平威胁评分 (ETS)，并探讨在真正衡量预报技巧时所涉及的实际挑战和战略决策。

原理与机制

想象一下，你是一名气象学家。你的工作是预测某个城市明天是否会下雨。第二天，你向窗外望去。你如何评价你的预报？它成功了吗？这个简单得近乎幼稚的问题，“我们对了吗？”，是深入探索检验科学这一美妙旅程的起点。这段旅程迫使我们不仅要面对我们的成功与失败，还要面对纯粹的、愚蠢的运气所扮演的微妙且常常具有欺骗性的角色。

预测的记账：一张真理之表

在我们为预报评分之前，我们需要一个记录结果的系统。大自然自行其是，我们做出我们的预测。对于任何单一的预报，比如我们的降雨预测，只有四种可能性。我们可以用一个简单而强大的工具——列联表来呈现它们。

	实际下雨	未下雨
预测下雨	命中 ( $H$ )	空报 ( $F$ )
预测不下雨	漏报 ( $M$ )	正确否定 ( $C$ )

让我们来逐一解析这四个类别：

命中 ( $H$ )：你预测下雨，结果真的下雨了。你告诉大家带的雨伞派上了用场。这是一个明确的成功。
漏报 ( $M$ )：你预测是晴天，但人们却被淋湿了。你的预报未能捕捉到一个真实发生的事件。这是一个明确的失败。
空报 ( $F$ )：你预测下雨，导致野餐被无谓地取消，但整天阳光明媚。你喊了“狼来了”，但狼并没有来。这也是一种失败，但类型不同。
正确否定 ( $C$ )：你预测不下雨，而当天确实晴朗。每个人都享受了他们的野餐，幸福地不知道你为他们躲过了一劫。这是一种成功，但却是一种安静的、无事发生的成功。

经过一个预报季——比如 100 天——我们可以通过计算命中、漏报、空报和正确否定的总数来总结我们的表现。这张简单的表格，我们记录真理的账本，包含了我们需要了解的关于我们预报表现的一切。现在的挑战是将这四个数字提炼成一个有意义的单一分数。

一个朴素的度量：临界成功指数

评价我们表现最显而易见的方法是什么？我们可以计算“正确百分比”，通常称为准确率： $(H+C)/N$ ，其中 $N$ 是预报总数 ( $N = H+M+F+C$ )。这看起来很直观，但它隐藏着一个危险的陷阱，尤其是在预测稀有事件时。

想象一下，你正在预报一个非常稀有的事件，比如一场大冰雹，平均每年只发生一天。一个“懒惰”的预报员可以每天都简单地预测“无冰雹”。在 365 天里，他们将有 364 次正确否定和 1 次漏报。他们的准确率将高达 $364/365$ ，即 99.7%！然而，这个预报员完全没用；他们未能预测出那唯一重要的事件。这表明，对于稀有事件，庞大数量的正确否定 ( $C$ ) 会淹没评分，给人一种具有误导性的高技巧感。

我们需要一个专注于“行动”的评分——即事件被预报或实际发生的情况。用集合论的术语来说，我们感兴趣的是预报事件集合与观测事件集合的并集。这个并集中的案例总数是 $H+M+F$ 。在这组“有意义”的情况中，我们做对了多少？那就是命中数 $H$ 。

这引导我们得出一个更有洞察力的指标：临界成功指数 (CSI)，也称为威胁评分。

\text{CSI} = \frac{H}{H+M+F}

CSI 巧妙地回避了懒惰预报员的问题。通过忽略大量的正确非事件 ( $C$ )，它专注于对稀有事件预报至关重要的方面：在不引发过多空报的情况下，正确识别威胁的能力。乍一看，更高的 CSI 似乎表示更好的预报。它已成为检验的基石之一。但正如科学中许多简单的想法一样，更深入的审视揭示了一个微妙的缺陷。

机器中的幽灵：揭露随机概率

一个好的 CSI 分数真的是技巧的标志吗？或者我们可能被随机性愚弄了？让我们做一个思想实验。

想象一个完全不懂气象学的“预报员”。他们只是决定以某个频率（比如说 10% 的时间）完全随机地预报下雨，完全不看天空。现在，假设在我们的气候中，大约 10% 的时间确实会下雨。经过很多天，不可避免地，在某些情况下，我们的随机预报员会碰巧在实际下雨天预测了下雨。这些是命中，但它们纯属偶然。它们是概率的产物，而非技巧。

这就是“机器中的幽灵”：任何基于原始命中数的评分都被这些幸运的猜测所污染。一个真正公平的评分必须以某种方式考虑并移除随机概率的贡献。为此，我们必须首先计算一个无技巧的随机预报平均会获得多少命中。

让我们称观测到的降雨频率为基础概率， $p_o = (H+M)/N$ 。这是实际下雨天数的比例。让我们称“是”预报的频率为预报频率， $p_f = (H+F)/N$ 。如果预报与观测在统计上是独立的（这是无技巧预报的定义），那么命中的概率就是这两个概率的乘积。因此，在总共 $N$ 次预报中，预期的随机命中数（我们称之为 $H_r$ ）是：

H_r = N \times p_o \times p_f = N \times \frac{H+M}{N} \times \frac{H+F}{N} = \frac{(H+M)(H+F)}{N}

问题在于，随机预报的 CSI 不为零。这个随机预报员会累积一定数量的命中 ( $H_r$ )、漏报和空报，从而产生一个正的 CSI 分数。更糟糕的是，可以证明，仅仅通过改变你随机喊“狼来了”的频率（调整你的预报频率 $p_f$ ），你就可以改变你预期的 CSI 分数。随机预报员能达到的最高分数原来等于事件的基础概率 $p_o$ 。这意味着随机预报员对于常见事件获得的“技巧”分数比稀有事件更高，这很荒谬。CSI 并非一个公平的竞争环境。它不是公平的。

更公平的游戏：公平威胁评分

科学通过识别我们理解中的缺陷并构建更好的模型来进步。CSI 的不公平性要求进行修正。如果技巧是我们超越随机概率所取得的成就，那么我们应该从我们的成功计算中减去随机命中。

这一洞见催生了公平威胁评分 (ETS)。其逻辑既简单又优美。归因于真正技巧的命中数是总命中数减去随机命中数： $H - H_r$ 。本可以展示技巧的事件总池是并集 ( $H+M+F$ )，但我们也必须减去概率本可以处理的部分。这给出了一个分母 $(H+M+F) - H_r$ 。

将所有部分组合在一起，我们得到 ETS 的公式：

\text{ETS} = \frac{H - H_r}{H+M+F - H_r}

这个新的评分具有奇妙的特性。如果一个预报是完美的（ $M=0$ 且 $F=0$ ），那么 $H_r$ 小于 $H$ ，ETS 为 1。最重要的是，如果一个预报不比随机猜测好（意味着实际命中 $H$ 等于预期随机命中 $H_r$ ），分子变为零，ETS 为 0。我们创造了一个评分为 0 意味着“无技巧”的评分体系。我们建立了一个公平的游戏。

CSI 和 ETS 之间的差异可能非常显著。考虑一个预报，在 $N=20000$ 个案例中，有 $H=150$ 次命中， $M=250$ 次漏报，以及 $F=5850$ 次空报。 CSI 将是 $150 / (150+250+5850) = 150/6250 = 0.024$ 。但让我们计算一下随机命中数： $H_r = ((150+250)(150+5850))/20000 = (400 \times 6000) / 20000 = 120$ 。在这 150 次命中中，高达 120 次是仅凭随机概率就能预期的！技巧性命中只有 $150 - 120 = 30$ 次。因此，ETS 是 $(150-120)/(6250-120) = 30/6130 \approx 0.0049$ 。 ETS 揭示了真相：这个预报的技巧远低于 CSI 会让你相信的水平。概率的幽灵已被揭露。

超越评分：ETS 告诉我们关于技巧的什么

ETS 不仅仅是一个修正后的数字；它是一个更好的显微镜，用以审视预报行为。预报员可能会试图通过“过度预报”——发布更多的“下雨”预测来捕捉更多事件——来提高他们的 CSI。这会增加空报数 $F$ 。虽然这可能会增加原始命中数 $H$ ，但它也极大地增加了预报频率 $(H+F)/N$ 。这反过来又夸大了预期的随机命中数 $H_r$ 。ETS 通过减去这个更大的随机命中基线，正确地惩罚了这种策略，揭示了这种表面上的表现提升并非源于真正的技巧。

对完美评分的追求，在许多方面，就是对完美问题的追求。没有单一的指标能讲述完整的故事。ETS 是一个强大的工具，但它是一个更大家族评分体系的一部分。其他指标，如 Peirce 技巧评分 (PSS)，在比较不同地区或季节具有非常不同事件频率的预报时，甚至更加稳定。

从一个简单的列联表到 ETS 的优雅构建，是科学本身的一个缩影。我们从一个简单的观察开始，建立一个模型 (CSI)，通过用挑战性的思想实验（随机预报员）来探测它，发现其局限性，然后将其精炼成更稳健、更真实的东西 (ETS)。这是一个层层剥离复杂性以揭示更清晰现实图景的过程，不断挑战我们自问：我们是对的，还是我们只是运气好？

应用与跨学科联系

既然我们已经探究了临界成功指数或威胁评分的核心内容，我们可能会以为我们的旅程已经结束。我们有了一个公式，可以代入数字，然后得出一个分数。一个介于零到一之间的整洁小数字，告诉我们一个预报是否“好”。但这才是真正冒险的开始。正如科学中任何强大的思想一样，其真正的美不在于其静态的定义，而在于它如何在现实世界中存在和呼吸——它如何被使用、挑战、完善，并与其他知识分支联系起来。“预报好不好？”这个简单的问题，原来是一个深不可测的兔子洞，引领我们穿越气象学、空间物理学、海洋学，甚至是统计推理的微妙艺术。

诚实的记分员：从威胁评分到公平威胁

让我们从最基本的应用开始：记分。无论我们是预报可能干扰我们卫星的日冕物质抛射 (CME) 的到来，还是预测对航运构成威胁的巨浪的发生，我们都需要一种方法来衡量我们的成功。威胁评分 ( $TS$ ，或 $CSI$ ) 是最直接的方法。它着眼于所有事件被预报或观测到的情况，并提出了一个简单的问题：在这些情况中，预报和观测一致的比例是多少？它巧妙地将遗漏之罪（漏报）和委托之罪（空报）结合成一个单一、全面的惩罚。

但在这里，一个挥之不去的想法出现了，一个在处理统计数据时总会浮现的想法。我们真的诚实吗？想象一下，我们正在预报一个非常罕见的事件，比如说，一场大冰雹。如果我们每天都简单地预报“无冰雹”，我们几乎总是正确的！我们将有大量的“正确否定”。相反，如果一个事件非常普遍，总是预报“是”将会积累大量的“命中”。威胁评分，因为它忽略了正确否定，不会被第一种策略所愚弄，这是它的巨大优势之一。然而，它仍然可能被随机运气所欺骗。

如果你只是在一张地图上随机地洒下“是”的预报，纯粹出于偶然，其中一些会落在事件实际发生的地方。威胁评分会因为这些幸运的猜测而奖励你。这并非我们所说的“技巧”。我们需要一个更诚实的记分员。

这就是引出公平威胁评分 (ETS) 的美妙洞见。ETS 采纳了简单的威胁评分，并做了一个关键的、哲学性的调整：它减去了我们期望纯粹通过随机概率获得的命中数。技巧评分的通用公式本身就是一件美妙的事物：

\text{Skill Score} = \frac{\text{Actual Score} - \text{Score by Chance}}{\text{Perfect Score} - \text{Score by Chance}}

在我们的案例中，“得分”就是命中数 $H$ 。通过偶然性预期的命中数 $H_{\text{random}}$ 可以从观测事件和预报事件的总体频率计算出来。因此，ETS 衡量的是超出盲目运气所能给予我们的命中数。它是对真实预报技巧的衡量，经过了随机性校正。ETS 为零意味着你那花哨的、耗资数百万美元的计算机模型，并不比一个具有相同总体偏差的随机数生成器做得更好。这个对概率进行的单一、优雅的修正，将一个简单的记分卡转变为一个用于科学评估的深刻工具。

与自然的对话：“何处”与“何时”的挑战

当我们将这些评分应用于现实世界，尤其是在天气预报等领域时，我们很快意识到大自然是一个狡猾的角色。一个预报不仅仅是“是”或“否”，它是“是，就在这里，就在此时”。如果我们的模型完美地预测了一场雷暴，但将其位置预测在实际发生地以东五公里处，那该怎么办？

使用严格的、逐个网格单元的比较，模型会因为这一个微小的错误而受到两次惩罚。它在风暴实际发生的地方得到一个“漏报”，在预报发生的地方得到一个“空报”。这就是臭名昭著的“双重惩罚”问题。这感觉不公平。从一个非常真实的意义上说，这个预报几乎是正确的！

为了与我们的模型进行更合理的对话，科学家们开发了“模糊”或“邻域”检验方法。我们不再要求在单个网格点上完美匹配，而是如果预报预测事件在“附近”，就可以给它一些分数。我们可能会说，如果预测的雨区与观测到的雨区重叠，或在一定距离之内，那么这个预报就是一次“命中”。

当我们这样做时，我们的分数会发生什么变化？毫不奇怪，分数几乎总是会提高。通过粗化我们的视角——可以说是放大视角——我们将许多那些令人沮丧的“差一点就命中”转化为了命中。ETS 分数可能会大幅增加。这是否意味着模型突然变得更有技巧了？不。这意味着我们改变了我们所问的问题。我们不再问，“模型是否预测了事件在这个确切的网格点发生？”而是问，“模型是否预测了事件在这个大致区域发生？”ETS 分数不是真理的绝对度量；它是相对于所提问题规模的技巧度量。这是一个深刻的观点：测量的行为本身定义了我们正在测量什么。

从记分卡到策略指南：优化与决策

到目前为止，我们一直将 ETS 用作一个被动的评估者，一个事后做出裁决的法官。但其最强大的应用是主动的。我们可以用它作为指导，来构建更好的模型和做出更明智的决策。

现代天气预报系统通常是“概率性”的。它们不是给出一个单一的“是”或“否”，而是一个由许多模型运行组成的集合，为我们提供一个概率：“有 70% 的可能性会下大雨。”但用户——应急管理者、机场管制员、农民——通常需要一个确定性的决策：“我应该发布警报，还是不应该？”

在这里，ETS 成为了一个优化工具。我们可以问：我们应该使用什么概率阈值来触发一个“是”的预报？如果我们将阈值设得太低（例如，如果概率超过 10% 就发布警报），我们将捕捉到大多数事件，但会有很多空报。如果我们将它设得太高（例如，只在概率超过 90% 时才发出警报），我们将很少有空报，但会错过许多事件。这里有一个最佳点，我们可以通过计算每个可能阈值的 ETS 并选择使分数最大化的那个来找到它。这将 ETS 从一个检验分数转变为决策制定的关键组成部分。

此外，评分本身的选择也是一个战略决策。最大化 ETS 总是正确的目标吗？不一定。其他评分，如 Peirce 技巧评分 ( $PSS$ )，优先考虑预报质量的不同方面。通过分析数学原理，可以表明最大化 ETS 的“最优”阈值通常不同于最大化 $CSI$ 或 $PSS$ 的阈值。对于非常稀有的事件，ETS 倾向于鼓励比 CSI 更“保守”的阈值，因为它更严厉地惩罚那些容易压倒少数命中的空报。选择一个评分就是选择一种哲学；它声明了我们最看重哪种“好”。

技巧的科学：严谨、公平与整体观

随着这些工具成为科学进步和业务决策的核心，我们使用它们的严谨性也必须提高。在一个为期多年的两个竞争气候模型的比较中，我们如何能确定模型 A 的更高 ETS 分数不仅仅是这个特定数据集的侥幸？毕竟，天气数据不是独立的；今天的雨天会使明天的雨天更有可能。标准的统计检验不适用。在这里，我们进入了计算统计学的现代世界。科学家们使用诸如“分块自助法”之类的巧妙技术，他们对时空的大块进行重采样以保持这些依赖性，从而使他们能够构建两个模型之间 ETS 差异的诚实置信区间。然后，他们可以以例如 95% 的置信度说出一个模型是否真的更优越。

这种严谨性延伸到了“竞赛”本身的设计。我们如何公平地比较两个以不同时间间隔（比如一个每小时，一个每六小时）产生预报的模型？简单地对它们的原始输出运行评分将是拿苹果和橘子作比较。唯一公平的方法是首先将两个模型和观测数据转换到一个共同的框架中——例如，通过将所有数据聚合到匹配的、不重叠的 6 小时块中——然后再计算任何分数。这确保了我们是在为完全相同的事件在完全相同的样本上比较技巧。

最后，我们必须认识到，没有单一的评分，即使是像 ETS 这样复杂的评分，也无法捕捉预报的全部特征。一个预报有许多优点。我们关心它的公平性 (ETS)，但我们也可能关心它区分事件与非事件的能力（由 PSS 衡量），或者它发布警报的效率（平衡精确率和召回率，由 F1 分数衡量）。在许多实际应用中，科学家们会构建一个综合技巧指数，即几个不同指标的加权平均值。权重不是任意的；它们的选择反映了手头任务的特定科学或业务优先级 [@problem_-id:4021674]。也许公平性最重要，所以 ETS 的权重为 0.5。区分能力其次，所以 PSS 得到 0.3。警报效率最后，所以 F1 得到 0.2。

这使我们的旅程到达了一个合适的歇脚点。我们从一个简单的问题和一个简单的分数开始。但通过不断地挑战它，询问它真正的含义，并要求它更诚实、更有用，我们揭示了一个丰富、相互关联的科学和统计实践世界。临界成功指数及其后代不仅仅是数字；它们是我们为与自然界复杂、混沌而美丽的系统进行错综复杂且永无止境的对话而发展的语言。