try ai
科普
编辑
分享
反馈
  • 趋势与季节性

趋势与季节性

SciencePedia玻尔百科
核心要点
  • 时间序列数据通常被分解为一个长期趋势、一个重复的季节性模式和一个不可预测的残差分量。
  • 分解模型可以是加法模型(各分量相加)或乘法模型(季节性效应是趋势的一个比例)。
  • 差分和STL等方法用于移除趋势和季节性以实现平稳性,这是许多统计分析的必要条件。
  • 分析这些分量对于预测、检测疾病爆发等异常以及评估政策干预的因果影响至关重要。

引言

随时间展开的数据,从每日的股票价格到年度的气候记录,通常看起来混乱且不可预测。理解这些复杂的数据流是许多科学和工业领域的核心挑战。解锁隐藏在这些数据中故事的关键在于一种强大的分析方法:分解。该方法将时间序列分解为其基本构建模块,主要是长期的潜在​​趋势​​和可预测的、重复的​​季节性​​周期。通过将这些系统性模式与随机噪声分离,我们可以从困惑走向清晰。本文旨在为这一基本概念提供指引。第一章​​原理与机制​​将深入探讨时间序列的剖析,解释用于识别和分离这些分量的核心模型和方法。随后,​​应用与跨学科联系​​一章将探讨该框架如何跨越不同学科,用于预测未来、检测关键异常并揭示因果关系。

原理与机制

如果你盯着几乎任何随时间展开的过程的图表——股票的每日价格、每月的太阳黑子数、每年的全球温度——你的第一印象很可能是混乱。线条扭动跳跃,像是一条看似随机的涂鸦。但我们的大脑,作为宏伟的模式发现机器,并不满足于混乱。我们眯起眼睛,开始在噪声中看到形状。我们可能会注意到一个总体的上升斜率,一个重复的年度节律,或一个异常尖锐的峰值。在这样做时,我们正在执行时间序列分析的第一个、最直观的步骤:我们将数据分解为其基本分量。

理解时间序列的艺术和科学,很大程度上就是这种分解的艺术和科学。我们假设我们观察到的复杂舞蹈是由几个主要舞者编排的,他们随着不同的节拍移动。我们的工作是揭示他们的面目,理解他们各自的舞步,并观察他们如何组合。这场时间戏剧中的三个主要角色是​​趋势​​、​​季节性​​和​​残差​​——当前两者谢幕后留下的不可预测的噪声。

时间的解剖学:解构变化

让我们把这个概念具体化。想象你是一位流行病学家,正在研究一项呼吸道感染15年来的月度数据。原始数据可能看起来像一条锯齿状、令人困惑的山脉。但通过应用我们的概念透镜,我们可以为其带来秩序。

首先,我们可能会注意到,在15年期间,该疾病的总体水平一直在稳步下降。也许早期引入了一种新疫苗,或者公共卫生实践得到了改善。这种缓慢、长期、非周期性的漂移就是​​长期趋势​​。它是我们数据之河深层的、潜在的流向。

接下来,我们几乎肯定会看到每年内部都有一个规律性的、重复的模式。感染率在寒冷的冬季月份持续达到峰值,在夏季降至最低。这种可预测的、与日历相关的周期就是​​季节性​​。它是在趋势这股暗流之上起伏的节律性波浪,由学校日程、假日聚会以及病毒在寒冷干燥空气中的生存能力等因素驱动。

有时,我们可能还会发现第三种模式:一个周期超过一年的波浪。例如,每四五年可能会出现一次特别大的流行病。这通常被称为​​周期性​​。它与季节性不同,因为其周期不固定于日历年,其振幅也可能更具可变性。传染病中的这种周期通常源于病毒与人口免疫力之间微妙的相互作用——一次流行病使大部分人口获得免疫,导致几年平静期,直到积累了足够多的新的易感个体(主要是新生儿)来 fueling 下一次大爆发。

最后,当我们解释了趋势的宏大走向以及季节性和周期性的节律性脉动之后,还剩下什么?剩下的是​​残差​​,或不规则分量。这是随机的静电噪声:报告中的小差错、小规模的局部爆发,或其他不可预测的日常变化。

这种分解为趋势、季节性和残差是基本原则。但重要的是要认识到,这些模式影响的可能不仅仅是平均值。如果一个过程的统计特性随时间变化,那么它在形式上就是​​非平稳​​的。这可能意味着均值在变化(趋势),但也可能更微妙。想象一下为设计一个有弹性的电网而研究极端风速。非平稳性可能表现为:

  • 平均风速的​​趋势​​(分布的位置参数 μ(t)\mu(t)μ(t) 在增加)。
  • 风速变异性的​​季节性​​模式(尺度参数 σ(t)\sigma(t)σ(t) 在冬季更高)。
  • 尾部行为的​​结构性突变​​(形状参数 ξ(t)\xi(t)ξ(t) 突然改变,使得某个日期之后极端阵风更有可能发生)。

这种区分至关重要:​​趋势​​是一种平滑、缓慢的变化;​​季节性​​是一种周期性、重复的模式;而​​结构性突变​​是一种突然的结构性断裂。将其中一种误认为是另一种,可能导致对未来风险得出危险的错误结论。

分离的艺术:加法与乘法世界

一旦我们确定了我们的角色阵容,我们就必须问它们是如何组合的。它们的贡献是简单地相加,还是以更复杂的方式相互作用?这引出了两种基本的世界模型。

第一种是​​加法模型​​: Yt=Trendt+Seasonalt+ResidualtY_t = \text{Trend}_t + \text{Seasonal}_t + \text{Residual}_tYt​=Trendt​+Seasonalt​+Residualt​

在这里,各分量像乐高积木一样堆叠。季节性分量的幅度是固定的。如果一种疾病在冬季有100个额外病例的季节性高峰,那么无论长期趋势是1000例还是10000例,这个高峰都是100例。当季节性波动与序列的基线水平大致无关时,这通常是一个很好的假设,就像某些呼吸道感染,其峰值振幅在不同年份间保持稳定。

第二种是​​乘法模型​​: Yt=Trendt×Seasonalt×ResidualtY_t = \text{Trend}_t \times \text{Seasonal}_t \times \text{Residual}_tYt​=Trendt​×Seasonalt​×Residualt​

在这个世界里,各分量相互作用。季节性分量是趋势的一个百分比。想象一下零售销售:一家商店每年十二月可能有20%的销售增长。如果商店的基线年销售额(趋势)是100万美元,那么这个增长就是20万美元。如果商店成长,其基线销售额达到500万美元,那么同样的20%增长现在就价值100万美元。季节性波动的绝对大小随趋势而变化。这种行为在经济数据中以及任何变异性随平均水平增加的过程中都极为常见。

为了使这些模型有效,我们需要确保各分量是“可识别的”。我们不能让趋势和季节性分量同时试图解释序列的平均水平。为防止这种情况,我们施加简单的约束。对于加法模型,我们要求季节性偏差在一个完整周期内总和为零(例如,∑k=112sk=0\sum_{k=1}^{12} s_k = 0∑k=112​sk​=0)。对于乘法模型,我们要求季节性因子平均为一。这些并非任意规则;它们在数学上等同于确保每个分量各司其职。

幸运的是,我们在这两个世界之间有一座神奇的桥梁:对数。如果我们对乘法模型取自然对数,我们得到: ln⁡(Yt)=ln⁡(Trendt)+ln⁡(Seasonalt)+ln⁡(Residualt)\ln(Y_t) = \ln(\text{Trend}_t) + \ln(\text{Seasonal}_t) + \ln(\text{Residual}_t)ln(Yt​)=ln(Trendt​)+ln(Seasonalt​)+ln(Residualt​) 突然之间,它看起来就像一个加法模型!这种数学上的巧妙手法非常强大,使我们能够使用更简单的加法分解工具来解决各种各样的问题。

揭示真相:我们如何发现隐藏的模式

那么,我们实际上如何执行这种分离呢?我们如何从一条单一、纠缠的时间线中,拉出趋势和季节性的线索?

一个非常直观的方法是一个迭代过程,很像两个人跷跷板上找平衡。想象一下,我们想将平滑的趋势与重复的季节性波浪分开。

  1. ​​步骤1(估计趋势):​​ 我们首先暂时忽略季节性。我们将其视为噪声,并对整个数据集拟合一条尽可能平滑的趋势线。
  2. ​​步骤2(估计季节性):​​ 然后我们从原始数据中减去这个初步估计的趋势。剩下的应该主要是季节性模式加上噪声。现在我们可以通过,例如,对所有一月的值求平均,所有二月的值求平均,等等,来估计季节性分量,以找到年份的典型形状。
  3. ​​步骤3(重新估计趋势):​​ 现在,有了我们对季节性模式的新估计,我们从原始数据中减去它。这给了我们一个“去季节性”的序列,从中我们可以估计一个更好的趋势。
  4. ​​迭代:​​ 我们来回往复,交替地根据当前的季节性估计来优化我们的趋势估计,然后根据新的趋势来优化季节性估计。每一步都让我们更接近真相,最终,该过程会收敛到一个稳定的解。

这种来回往复的方法是有效的,但假设趋势是一条简单的直线或固定的多项式,对于现实世界来说通常过于僵化。一种更强大、更现代的方法是​​基于Loess的季节性-趋势分解(STL)​​。“Loess”是一种统计技术,它通过一个移动窗口来观察数据,从而拟合出一条平滑、灵活的曲线。STL巧妙地使用了两个不同的窗口:

  • 一个非常​​宽的趋势窗口​​,可能跨越两到三年。这就像用低倍双筒望远镜看风景;它模糊了年度的波动(季节性),只揭示了地形的缓慢、多年的起伏(趋势)。
  • 一个​​季节性窗口​​,它控制季节性模式的形状从一年到下一年被允许改变的速度。

像STL这样的稳健方法的一个关键特性是它们处理异常值的能力。如果某年爆发了异常大的疾病,简单的方法会让那个峰值扭曲估计的趋势和季节性分量。STL可以变得“稳健”,意味着它可以识别此类异常,将它们放在残差分量中,并防止它们破坏我们对潜在规律性模式的看法。

外科医生的刀:追求平稳性

我们为什么要费这么大劲?因为我们大多数先进的统计工具——我们用来预测和理解系统深层动态的工具——都是为在“平稳”世界中工作而设计的。如果一个过程的基本统计规则不随时间改变,那么它就是​​弱平稳​​的。具体来说,其均值必须是恒定的,其协方差——衡量一个值与其过去自身关系的度量——必须只依赖于时间滞后,而不是你所观察的历史时刻。一个平稳的世界在其不确定性上是可预测的。趋势和季节性是平稳性的敌人。

未能移除它们不是一个小错误;这是一个灾难性的错误,它使我们的工具变得无用。如果你分析一个带有未移除的线性趋势的序列并计算其自相关,你会发现一个在所有滞后上都接近1的“幽灵”相关性。这看起来好像该过程具有完美的长期记忆,而实际上,这只是向上漂移的产物。你不是在测量过程的动态;你是在测量序列后期点总是高于早期点这一事实。同样,未能移除季节性分量将在季节性滞后处产生虚假的自相关峰值,诱使你在数据中看到一个虚假的回声。为了信任我们的分析,我们必须首先对数据进行操作以实现平稳性。

用于这种手术的最优雅的工具之一是​​差分​​。

如果一个序列具有线性趋势——比如说,它每个月大约上升10个单位——那么这个序列本身是非平稳的。但如果我们不看数值,而是看从一个月到下一个月的变化呢?这被称为​​一阶差分​​,∇Yt=Yt−Yt−1\nabla Y_t = Y_t - Y_{t-1}∇Yt​=Yt​−Yt−1​。这个变化序列将围绕10居中。趋势消失了!我们通过一个单一、简单的操作,将一个非平稳过程转化为了一个平稳过程。这就是著名的ARIMA模型族中的“I”,代表“Integrated”(整合)。

我们可以将同样的逻辑应用于季节性。如果我们的数据有很强的年度模式,那么今年一月的值可能与去年一月的值非常相似。如果我们看一看一整年的变化会发生什么?这就是​​季节性差分​​,∇sYt=Yt−Yt−s\nabla_s Y_t = Y_t - Y_{t-s}∇s​Yt​=Yt​−Yt−s​,其中 sss 是季节周期(例如,对于月度数据 s=12s=12s=12)。这个操作有效地抵消了稳定的季节性效应,使我们更接近平稳性。对于一个既有趋势又有季节性的序列,我们可能需要同时使用这两把刀:首先进行季节性差分以移除年度模式,然后对结果进行一阶差分以移除剩余的趋势。

这种差分的魔力在频域中有一个美妙的解释。趋势是在零频率处功率的巨大集中。一阶差分算子是一个恰好在该零频率处产生陷波的滤波器。季节性在季节频率及其谐波处产生尖锐的谱峰。季节性差分算子是一个形状像梳子的滤波器,其陷波恰好在那些季节频率上。通过应用正确的差分算子,我们手术般地移除了非平稳行为所在的特定频率,留下了我们可以正确分析的过程。时域中的简单减法与频域中的精确手术切割之间的这种对偶性,是信号处理中最深刻的思想之一。

最终,通过学会用趋势和季节性的透镜看世界,我们将混乱的涂鸦转变为一个丰富的故事——一个关于深层暗流、节律性波浪和不可预测的随机火花的故事。真正的理解始于对这些分量的细致分离。

应用与跨学科联系

在上一章中,我们剖析了时间序列的结构,学习了如何将一股看似混乱的数据流分解为其构成部分:稳定、长期的​​趋势​​,可靠、重复的​​季节性​​节律,以及不可预测的​​残差​​爆裂声。这种分解,优雅地表示为 Yt=Tt+St+RtY_t = T_t + S_t + R_tYt​=Tt​+St​+Rt​,可能看起来仅仅是一项组织整理工作。但它的意义远不止于此。它好比被授予一套特殊的透镜,每一片都让我们能够滤除世界的某些特征,从而以惊人的清晰度看到其他特征。有了这些透镜,我们可以超越简单的描述,开始预测、检测,甚至推断塑造我们世界的因果关系。现在让我们穿越各个学科,见证这个简单思想的非凡力量。

解读自然与文明的节律

我们的第一站是自然界,那里处处是节律。一位研究森林的生态学家想知道气候变化是否正在影响其生产力。他们拥有30年的净初级生产力(NPP)——衡量新生植物生长量的指标——的月度数据。原始数据被强烈的季节节拍所主导:夏季高,冬季低。这个季节性信号如此响亮,以至于很容易淹没掉气候变化这个更安静、更长期的信号。通过分解时间序列,生态学家可以手术般地将两者分离开来。季节性分量揭示了森林年度的、充满活力的呼吸,而现在被隔离出来的趋势分量,则可能显示出一种缓慢、微妙但持续的上升或下降漂移,为全球变暖的长期影响提供了线索。

同样的透镜可以从森林转向城市。城市科学家使用卫星数据来监测都市区的增长,他们使用的指数可以衡量建成区的范围。在这里,“趋势”捕捉了城市化缓慢而不可阻挡的进程,即混凝土和沥青取代土壤和草地。但即使是城市也有季节性脉搏。公园和花园中绿色植被的数量会增减,甚至建筑材料的特性也会随温度改变其光谱特征,从而在卫星信号中产生季节性分量。分解数据使规划者能够将真正的城市扩张与这些可预测的年度波动分离开来,从而更清晰地了解我们的城市是如何演变的。

从描述到预测

一旦我们理解了过去的分量,我们就获得了一种非凡的能力:我们可以开始将它们投射到未来。想象一下,公共卫生官员试图为李斯特菌病(一种严重的食源性疾病)做规划。通过分析病例数的历史数据,他们可以将发病率分解为趋势(可能反映了食品生产和安全标准的长期变化)和季节性分量(可能揭示了与假日饮食习惯相关的峰值)。

有了这个模型,他们就不再仅仅是被动的观察者。他们可以创建预测。如果一个新的食品分销系统预计会增加基线暴露风险怎么办?他们可以向上调整趋势分量。如果预计暖冬会抑制季节性高峰怎么办?他们可以缩减季节性分量。通过重新组合这些修改过的部分,他们可以生成未来病例的预测,从而使医院能够相应地安排人员,公共卫生机构能够有针对性地进行干预。这是从描述世界到为未来可能性做准备的飞跃。

金融界也同样痴迷于预测。在这里,可以使用一种不同类型的透镜。我们可以使用来自物理学和工程学的工具,如傅里叶变换,在频域中寻找模式,而不是进行时域平均。金融分析师可能会将股票的价格历史分解为一系列基础频率,而不是视觉上的趋势和季节。极低的频率对应于长期趋势。但是否存在其他主导频率?也许是与季度收益报告相对应的微弱但持续的节律,或是投资者情绪的年度周期。通过在频域中识别这些“季节性”分量,分析师试图在一个以随机性著称的世界中获得哪怕是微小的优势。

寻找意外:检测异常与危机

也许分解最深刻的应用不在于理解可预测的事物,而在于分离出不可预测的事物。残差分量 RtR_tRt​ 不仅仅是剩余的噪声。它是意外事件的标志。

这一原则是现代公共卫生监测的基石。当流行病学家监测每周的诺如病毒病例外,他们不仅仅是看原始计数。他们知道病例数在冬季会自然上升(季节性),并且可能随着人口增长而逐年逐渐增加(趋势)。一次“爆发”不仅仅是病例数高;它是在考虑了预期的趋势和季节性高峰之后,病例数在统计上仍然异常。通过持续分解传入的数据,监测系统可以计算出任何给定周的预期基线(Tt+StT_t + S_tTt​+St​)。当观察到的计数远高于这个基线时——即残差分量出现大的尖峰时——就宣布爆发。这使得卫生部门能够对真正的异常采取行动,而不是追逐正常季节性波动的幻影。这样一个系统的设计是应用时间序列分析的杰作,涉及仔细选择使用率而非计数,处理报告延迟,以及使用不会被奇怪数据点愚弄的稳健统计方法。

当我们考虑衡量像大流行这样的全球健康危机期间的“超额死亡率”时,这种异常检测的概念具有了悲剧性而强大的意义。我们如何量化事件的真实死亡人数?我们不能简单地计算归因于该疾病的死亡人数,因为许多死亡可能被漏报或错误分类。一个更深刻的方法是,根据历史数据计算出给定时期内所有原因死亡的预期数量,然后从观察到的死亡人数中减去这个基线。这个基线,再次是长期趋势(由人口结构和医疗保健改善驱动)和稳健的季节性模式(每年冬季死亡人数的可预测上升)的总和。差值——即大规模的残差——就是超额死亡率,这是一个对危机全面影响的严峻而清醒的衡量。在这里,卑微的残差被提升到全球重要性的高度,为一个历史性悲剧提供了最真实的记述。

探寻因果关系

我们现在来到了科学事业的顶峰:探寻因果关系。一项新政策是否导致了结果的改变?在现实世界中,这个问题极其难以回答,因为我们无法进行完美的实验。然而,分解的逻辑提供了一个强大的工具。

考虑一个公共卫生部门启动了一项旨在减少阿片类药物过量死亡的重大项目。一年后,他们想知道它是否奏效。一种天真的方法是比较项目前后的平均死亡率。但如果与此同时,一种新的、更危险的药物进入市场,导致全国范围内死亡人数出现强劲的“长期趋势”上升呢?一个简单的前后比较将是无可救药地混杂的,可能会错误地断定该项目失败了。

一种远为智能的方法是​​中断时间序列(ITS)​​分析。该方法明确地对已存在的趋势和季节性进行建模。然后它会问:干预是否中断了序列?它是否引起了突然的下降(“水平变化”)或改变了轨迹(“斜率变化”)?通过将干预的效果与潜在的时间模式分离开来,我们可以更接近一个因果结论。同样的逻辑对于评估任何数量的政策都至关重要,从儿科医疗保健可及性的改变到新的环境法规。

这种思维现在处于医学研究的前沿,特别是随着电子健康记录(EHR)中“大数据”的兴起。研究人员希望利用这些杂乱的真实世界数据来模拟临床试验,以检验一种药物是否有效。一个主要挑战是“日历时间混杂”。2022年接受治疗的患者与2020年接受治疗的患者结果可能不同,这不仅仅是因为药物,还因为主流病毒株已经演变(长期趋势),或者因为他们在不同的季节接受治疗。为了获得对药物效果的公正估计,分析师必须使用复杂的模型,灵活地考虑长期趋势和季节性,从而有效地调整日历时间的混杂作用。

这种思想的综合——通过控制时间来揭示效应——在环境流行病学中得到了完美的体现。为了估计空气污染对健康的影响,我们必须考虑到污染水平和住院人数都有其自身的日、周、季节节律以及长期趋势。像广义可加模型(GAMs)这样的先进统计方法允许研究人员以极大的灵活性对混杂的时间模式进行建模,有效地将它们“减去”,以分离出污染与健康之间真实的、潜在的关系。

从森林地表到股票市场,从追踪疾病到评估管理我们社会的法律,将信号分解为其趋势、季节性节律和意外残差的简单而优雅的思想,是科学家工具箱中最万能的工具之一。它告诉我们,要理解一种现象,必先理解其在时间中的背景。要洞见新事物,必先审视旧规律。