
评估天气预报的质量是一项出人意料的复杂任务。虽然像平均误差这样的简单指标可以提供一个单一的数字,但它们往往无法捕捉到真正重要的东西:预报是否正确预测了天气的模式——风暴、热浪和寒潮的位置。一个预报可以平均误差很小,但完全弄错了宏观格局;或者仅仅通过预测季节平均温度而获得高分,却对特定日期的预报毫无实际技巧。这一差距凸显了需要一种更复杂的工具来衡量模式预测与常态的偏离(即“距平”)的能力。本文将介绍距平相关系数(ACC),它是完成此项任务的黄金标准。第一章“原理与机制”将阐释 ACC 优雅的几何学和统计学基础,解释它衡量什么、忽略什么。随后,“应用与跨学科联系”将探讨这一强大指标在实践中的应用,从诊断模式行为到探索大气和气候科学中可预报性的基本极限。
想象一下,您是国家气象局的局长。一台价值数十亿美元的新超级计算机刚刚生成了其首次的5天预报。在您的屏幕上,有两张国家地图:一张显示预测的温度模式,另一张显示实际发生的情况。您的任务似乎很简单:这次预报有多好?
您可以计算每个位置的误差并取其平均值。这会给您一个单一的数字,即均方根误差 (RMSE),它告诉您预报误差的平均大小。但这个简单的数字可能具有很强的误导性。一个预报可能在所有地方都只差一两度,但却将一场主要的冬季风暴放在了国家的另一边,这样的预报可能会有一个具有欺骗性的低 RMSE。它在细节上是正确的,但在宏观格局——天气的模式——上是错误的。
更糟糕的是,预报和真实大气都由巨大且可预测的信号主导,其中最显著的是季节循环。一个仅仅预测一年中任何给定日期的长期平均温度——我们称之为气候态——的模式,在 RMSE 上会得到惊人的高分。但这个模式的技巧为零。它知道七月比一月暖和,但它不知道这个特定的七月天是会带来破纪录的热浪还是反常的凉爽。
要衡量真正的预报技巧,我们必须首先减去这个单调、可预测的背景——气候态。我们必须关注距平:与平均值的偏差。这些距平是气象舞台上真正的演员:风暴、干旱、寒潮。预报检验的核心问题不是“预报温度与实际温度有多接近?”,而是“预报是否正确预测了温度距平的模式?”。零技巧的基准是仅预测气候态的预报,其结果是一个零距平场。这样的预报不包含关于当天具体天气状况的任何信息,任何有用的指标都必须给它打零分。
这就是距平相关系数 (ACC)登场的时机,它以一种惊人而优美的几何优雅方式出现。请将我们的两张距平图——一张是预报,一张是观测现实——不看作是图像,而是看作是成千上万个维度空间中的巨大向量,其中地图上的每个格点代表一个维度。在这个抽象空间中,模式相似性的复杂问题变成了一个简单的几何问题:这两个向量的对齐程度如何?
衡量两个向量对齐程度的数学工具是它们之间夹角的余弦。如果预报距平向量与观测向量指向完全相同的方向,则夹角为零,余弦值为 。这是一个完美的模式预报。如果向量相互垂直(夹角为 ),余弦值为 ,表示模式之间没有关系。如果它们指向相反的方向(夹角为 ),余弦值为 ,意味着预报预测了一个完全相反的模式——例如,在出现暖距平的地方预测了冷距平。这个余弦值就是距平相关系数。
这个几何图像不仅仅是一个粗略的比喻;它在数学上是精确的。标准化后的预报向量和观测向量尖端之间的平方距离与 ACC 直接相关,我们称之为 。在一个合理的假设下,即预报和观测到的距平具有相同的变率(相同的方差 ),它们之间的均方误差由一个绝妙的简单公式给出: 这个从第一性原理推导出的关系是预报检验的基石之一。当相关性 为 时,夹角为零,向量对齐,它们之间的距离为零,MSE 也为零。当相关性差时,夹角大,向量相距甚远,MSE 也大。因此,ACC 是预报与现实之间位相(或模式)相似性的直接度量。
像任何专业工具一样,ACC 被设计用来极其出色地衡量一件事,这意味着它会刻意忽略其他事情。理解它的“个性”是正确解读它的关键。
首先,ACC 对简单的加性偏差是“盲目”的。如果一个预报模式在所有地方都持续偏冷两度,它的距平模式仍然可以是完美的。整个预报向量只是被平移了,但其方向保持不变。因此,ACC 不受影响。这是一个特性,而不是一个缺陷!它使我们能够将模式预测模式的能力与其具有系统性偏差的倾向分离开来,而后者可以单独测量和校正。一个简单的偏差校正可以降低 RMSE,但会使 ACC 完全保持不变。
其次,ACC 对振幅误差在很大程度上不敏感。想象一个预报,它正确预测了高压脊的位置和形状,但高估了其强度,使得暖距平比实际情况大了一倍。由于相关性对将一个变量乘以一个正常数不敏感,ACC 仍将是完美的 。预报向量被拉伸了,但其方向保持不变。
这就是为什么 ACC 从不单独使用的原因。它几乎总是与 RMSE 配对使用。ACC 充当“模式专家”,告诉我们天气特征是否在正确的位置。RMSE 充当“振幅专家”,对预报平均而言过强、过弱或存在系统性偏差进行惩罚。只有听取这两位“专家证人”的意见,我们才能对预报的性能形成一个完整的画面。
ACC 的美妙之处在于它可以直接与预报误差的物理性质联系起来。让我们考虑一个好预报的两个基本敌人。
第一个是位置误差。如果一个模式生成了一个形状完美的风暴,但位置比实际发生地偏东100公里,会发生什么?这是一个空间上的“位相误差”。我们可以通过将预报场想象成真实场的平移版本来对此进行建模。在这个优雅的理论图像中,ACC 被证明等于天气模式本身的空间自相关,在位移距离 处进行评估。对于一个具有高斯自相关形状、由特征长度尺度 定义的典型天气模式,ACC 将是 。这告诉我们一些深刻的东西:对位置误差的惩罚取决于天气本身的尺度。对于一个小的、尖锐的雷暴(小 )来说,100公里的误差是灾难性的,但对于一个巨大的、大陆尺度的高压系统(大 )来说,这可能是微不足道的。
第二个,更强大的敌人是时间本身。大气是一个混沌系统,这意味着预报初始点中微小、难以察觉的误差会随时间呈指数级增长。我们可以用一个 e-折时间 来描述这种误差增长,即小误差增长 倍所需的时间。这种不可阻挡的误差增长直接导致预报技巧的衰减。一个描述此过程的理论模型显示,ACC 随预报时效 的减少遵循如下公式: 其中 取决于初始误差与大气自然变率之比。这个方程优美地将一个高层级的检验评分与可预报性的基本极限联系起来。随着预报误差方差的增长最终淹没真实的大气信号,ACC 不可避免地衰减至零。
在现实世界中,衡量预报技巧不仅仅是一个纯粹的数学练习。我们的工具和数据并不完美,这些不完美会巧妙地影响结果。
首先,是气候态问题。我们的“气候态”并非一个完全已知的真理;它是基于有限历史记录(通常是30年)的估计值。这意味着我们的参考标尺本身就是“有噪声的”。使用有限样本的气候态来计算距平,会在 ACC 计算中引入一个虽小但系统性的负偏差。测得的 ACC 平均会略低于模式的真实技巧。该偏差的大小约为 ,其中 是真实的相关性, 是用于计算气候态的年数。这是一个很好的教训:当我们使用不完美的工具进行测量时,测量的行为本身改变了我们希望测量的量。同样,ACC 分数本身也具有统计不确定性。要以高置信度确定季节预报的真实技巧,可能需要一个跨越不是30年,而是数百年的回报记录,这对模式开发者来说是一个发人深省的想法。
最后,是方差问题。ACC 是相关性的度量,而很难对不变化的事物进行相关性分析。在世界某些地区,如热带,海平面气压或位势高度等某些变量的日常变化极小。距平的方差接近于零。在这些情况下,ACC 公式涉及到除以一个几乎为零的数,使得结果在数值上不稳定。分数可能会因为微小的、物理上无意义的预报误差甚至数值舍入而剧烈波动。科学上合理的解决方案是采取一些实践智慧:不要试图在没有相关性的地方测量相关性。在全球检验系统中,预报员通常会“掩蔽掉”这些低方差区域,将它们从计算中排除,以确保最终的 ACC 分数稳定、稳健且有意义。
因此,距平相关系数不仅仅是一个统计量。它是一个透镜,被精心制作以聚焦于天气预报的核心挑战:在正确的时间捕捉到正确的模式。它是一个几何概念,一座通往混沌物理学的桥梁,也是一个实用的工具,当明智地使用时,能为我们提供一个清晰而深刻的衡量标准,来评估我们预见大气复杂舞蹈的能力。
在理解了支持距平相关系数的原理之后,我们现在可以开始一段旅程,看看这个优雅的工具在哪些方面真正大放异彩。就像一个精心制作的透镜,ACC 让我们得以窥探我们天气和气候的复杂机制,诊断我们预报模式的健康状况,甚至瞥见我们所能期望知道的理论极限。它的应用不仅仅是小众的计算;它们已经融入了现代大气和气候科学的结构之中。
让我们从可以想象的最简单的预报开始:“明天会和今天一样。”这被称为持续性预报。这是一个不起点的起点,但它蕴含着关于我们世界本质的深刻真理。有些事物变化迅速,而另一些则会持续存在。例如,上层海洋的温度具有巨大的热惯性;如果今天异常温暖,那么明天很可能也会异常温暖。相比之下,大气则更加善变。
这个持续性预报有多好?ACC 给了我们一个极其简单的答案。如果我们用一个简单的自回归参数 来模拟一个系统的“记忆”(其中 接近1表示强记忆, 接近0表示无记忆),那么一日持续性预报的 ACC 就是 本身。那么,两天后或十天后的预报呢?其技巧,以 ACC 衡量,会以一种可预测的几何方式衰减。对于预报时效为 天的预报,ACC 就是 。这种优雅的指数衰减告诉我们,初始状态的记忆以多快的速度消逝在气候态的背景嗡鸣中。对于像驱动年代际气候模式的海洋热含量这样具有长记忆的系统,高的 意味着持续性在很长一段时间内都保持着一定的技巧。
这也揭示了一个微妙但至关重要的区别。另一个常用指标,均方根误差 (RMSE),衡量的是误差的平均大小。有人可能会问:什么时候持续性预报比仅仅猜测长期平均值(气候态)“更好”?就 RMSE 而言,答案是只有当系统的记忆相当强时(具体来说,当 时)。然而,就 ACC 而言,对于任何正记忆(),持续性预报都具有正技巧——它在大多数情况下能正确捕捉到距平的符号。这告诉我们,不同的指标可以描绘出关于什么使预报“有用”的不同画面。ACC 擅长告诉我们是否捕捉到了偏离常态的正确特征,即使确切的数值有偏差。
在现实世界中,我们的预报模式并不完美。它们是对地球系统极其复杂的模拟,但它们有自己的怪癖和系统性误差。一个模式可能持续预测比实际平均温度低一度。这是一种“偏差”。或者,一个模式可能存在“漂移”,其气候在长期预报过程中慢慢偏离现实。
如果我们使用像 RMSE 这样的简单指标,这些偏差会受到严厉的惩罚。一个完美捕捉到 El Niño 事件模式但各处都恒定偏高一度的预报,其 RMSE 会很差。这正是 ACC 最大的优点之一。因为它是一种相关性,所以它在数学上对简单的加性偏差和漂移不敏感。它只关心模式。
想象一下你有两张图,一张是预报距平图,一张是观测距平图。如果你给预报图上的每个点都加上一个常数值,你根本没有改变高低压的模式。事实证明,你也丝毫没有改变 ACC。这个特性并非一个微不足道的技术细节;它具有深远的实际重要性。它使我们能够评估一个模式捕捉气候变率关键模式的能力——热浪的结构、北极海冰融化距平的范围、季风的降雨模式——并将其与模式的总体平均偏差分开评估。
在气候变化的时代,这是不可或缺的。随着我们的星球变暖,基准的“气候态”是一个移动的目标。ACC 让我们能够验证一个模式是否正确预测了某一年将“比新常态更暖”,而不管该模式自身的“新常态”是否与现实完全匹配。我们甚至可以利用这一特性,对我们的预报应用统计偏差校正以改善其 RMSE,同时使用 ACC 来确认捕捉正确模式的潜在技巧一直存在。
ACC 不仅仅是盖在预报上的最终分数;它是一个强大的诊断工具,科学家们用它来剖析模式行为,探索可预报性的本质。
当模式开发者开发一种新技术时——例如,一种更好的方法,通过一个称为“潜热逼近”的过程,将卫星降雨数据融入到季风预报模式中——他们如何知道这是否是一种改进?他们可以分别运行包含和不包含新技术的模式,并比较结果。降雨预报 ACC 的显著增加提供了强有力的证据,表明新方法正在帮助模式产生更真实的降水模式。
也许最令人兴奋的是,ACC 帮助我们描绘可预报性的前沿。预报技巧并非一成不变;有些天气模式就是比其他模式更难预测。一个典型的例子是“大气阻塞”事件,这是一个顽固的大尺度高压系统,它会使急流转向,并可能导致持续的热浪或寒潮。这些事件是出了名的难以被模式捕捉。我们知道这一点,部分原因是在阻塞事件开始时,ACC 分数会急剧下降。ACC 就像一个路标,指向那些我们的理解和建模能力最薄弱的现象,以及需要更多研究的地方。
我们可以通过条件检验将这种诊断能力更进一步。我们不是计算一个涵盖所有情况的 ACC 值,而是可以根据其他因素来切分我们的数据。例如,科学家们发现,平流层极地涡旋——一个位于北极上空巨大的冷空气涡旋——的状态可以影响数周后中纬度的天气。通过将预报分为两组,一组是涡旋强时,另一组是涡旋弱时,然后为每组计算 ACC,我们可以检验这个假设。如果我们发现 ACC 在一个情景中显著高于另一个情景,我们就发现了一个强大的次季节到季节可预报性来源。ACC 不再仅仅是一个分数;它是一种科学发现的工具,揭示了支配我们气候系统的隐藏联系。
这引出了一个最终且深刻的问题。我们已经看到 ACC 衡量我们预报的技巧。但完美的分数是什么?它总是1吗?在像大气这样的混沌系统中,完美的预报是否可能?
可预报性理论给了我们一个惊人清晰的答案,并且它与 ACC 直接相关。我们可以想象,任何气候变量,比如某天的温度,都由两部分组成:一个由缓慢变化的、大尺度的力量(如海洋温度)驱动的可预报分量,以及一个由大气固有的快速、混沌噪声组成的不可预报分量。
由可预报分量解释的总变率部分被称为潜在可预报性,通常表示为 。它代表了系统行为中原则上可知的部分。其余部分是根本上不可预测的噪声。事实证明,任何预报系统,无论多么完美,所能达到的最大可能 ACC 由一个绝妙的简单表达式给出:。
这是天气和气候预报的理论速度极限。如果一个系统的方差中只有49%是可预报的(),那么任何模式都永远无法达到高于 的 ACC。这个结果弥合了混沌抽象理论与预报检验日常实践工作之间的鸿沟。它告诉我们,我们对更好预报的追求不是一个走向完美分数1的旅程,而是一个走向由气候系统本身性质所定义的理论地平线的旅程。距平相关系数,以其优雅的简洁性,不仅衡量了我们在这段旅程中走了多远,还向我们展示了目的地。