首页非平稳过程

非平稳过程

玻尔百科

定义

非平稳过程是时间序列分析中的一种随机过程，其均值和方差等统计特性会随时间发生变化。这种过程通常由可预测的趋势或随机游走驱动，是经济增长、市场波动和演化变化等动态系统中的核心特征。为了防止产生伪回归等统计错误，研究者通常采用差分技术将非平稳序列转换为平稳序列，以便进行标准建模。

核心要点

非平稳过程的统计特性（如均值和方差）会随时间变化，这通常是由可预测的趋势或不可预测的“随机游走”引起的。
忽略非平稳性可能导致严重的统计错误，如伪相关，即不相关的过程错误地表现出有意义的关系。
差分是将非平稳序列转换为平稳序列的关键技术，从而能够使用像ARIMA这样的标准时间序列模型。
非平稳性是动态系统的核心特征，它描述了经济增长、演化变迁和市场波动等各种跨学科现象。

引言

在时间序列研究中，平稳性——即均值和方差等统计特性不随时间变化的性质——为分析提供了坚实的基础。然而，大多数现实世界的现象，从一个国家的GDP到一个物种的基因构成，都不符合这一理想状态。它们会增长、演化并经历结构性转变。这种动态行为是非平稳过程的标志，理解它们对于准确解读我们周围的世界至关重要。其核心挑战在于，许多经典的统计工具是为平稳世界设计的，将它们轻率地应用于非平稳数据可能导致根本性的错误结论。

本文将全面介绍非平稳性的概念。第一章“原理与机制”将通过探讨其两种主要形式来揭开非平稳性的神秘面纱：可预测的确定性趋势和被称为单位根的不可预测的随机漂移。它还将揭示忽略非平稳性的巨大风险，如伪相关的幻觉，并引入优雅的差分解决方法。第二章“应用与跨学科联系”将阐释这些概念的至关重要性，展示它们如何为我们洞察从经济关系、金融市场波动到演化生物学机制等一切事物提供见解。读完本文，您将拥有一个强大的框架，用于识别、理解和分析定义我们世界的各种变化过程。

原理与机制

想象一下，你正站在海滩上观赏海浪。大海波涛汹涌，没有两朵浪花是完全相同的。然而，在某种程度上，这幅景象又是恒定的。平均水位保持不变，而波浪的“颠簸”程度——即其方差——在你观察的几分钟内似乎也保持一致。如果你记录下浪高并分析其统计特性，你可能会发现这些特性不随时间变化。你刚刚邂逅了平稳性的核心思想。如果一个过程的统计“个性”在所有时间点都保持不变，那么它就是平稳的。它的均值、方差以及其数值在不同时间滞后上的相关方式都是恒定不变的特征。

平稳性这一概念是时间序列分析的基石。它是一个强大的简化假设。但当我们从理想化的海滩转向周围的世界时，会发现这种美妙的简单性通常只是——一个理想。经济在增长，气候在变化，病人的心跳在压力下改变。大多数有趣的现实世界过程实际上是非平稳的。它们的统计特性在演变。游戏规则在游戏进行中发生着改变。要理解这些过程，我们不能仅仅给它们贴上“非平稳”的标签然后放弃。我们必须本着物理学的精神，对一个过程可以违背平稳性的不同方式进行分类和理解。

可预测的与随机游走的

让我们从一个问题开始：什么会导致一个过程变得非平稳？我们可以将原因大致分为两类：可预测的确定性变化和不可预测的随机性漂移。

想象一位经济学家正在为一个国家的国内生产总值（GDP）建模。很明显，几十年来，GDP倾向于增长。一个简单的模型可能会将GDP表示为一个稳定的线性增长趋势和围绕该趋势的一些随机经济波动的组合，如下所示： $Y_t = a + bt + X_t$ 。这里， $X_t$ 代表平稳的商业周期波动，但确定性项 $a+bt$ 意味着GDP的均值 $\mathbb{E}[Y_t] = a + bt$ 在不断增加。这个过程被拴在一条上升的直线上。因为它的均值依赖于时间 $t$ ，所以该过程是非平稳的。

这种非平稳性不仅限于线性趋势。考虑来自某个电子设备的信号。它可能由一个真实的、潜在的平稳噪声过程组成，但被来自60赫兹交流电源线的微弱嗡嗡声所干扰。我们可以将其建模为 $X_t = Z_t + A \cos(\omega t + \phi)$ ，其中 $Z_t$ 是平稳噪声，余弦项是嗡嗡声。这个过程的均值 $\mathbb{E}[X_t] = A \cos(\omega t + \phi)$ 以一种完全可预测的周期性方式振荡。由于均值不是常数，该过程是非平稳的。这类具有确定性趋势（线性的、周期性的或其他形式）的过程有时被称为趋势平稳过程，因为如果我们能够完美地识别并减去确定性趋势，剩下的部分将是平稳的。

但还存在一种更深刻、更微妙的非平稳性。想象一个悬浮在水中的微小花粉粒，被水分子不断碰撞。它的运动，即布朗运动，是一个经典的随机游走。每一步的移动都是随机的，但每个新位置都建立在上一位置的基础上。粒子不会试图返回其起点；它只是四处游荡。从股票价格到觅食动物的位置，许多现象都可以用这种方式建模。一个简单的随机游走由方程 $Y_t = Y_{t-1} + \varepsilon_t$ 描述，其中 $\varepsilon_t$ 是在时间 $t$ 的一个随机冲击。

为什么这是非平稳的？关键在于要看到这个过程具有一种不可磨灭的记忆。通过反复代入，我们可以将时间 $t$ 的位置写成所有过去冲击的总和： $Y_t = Y_0 + \sum_{i=1}^t \varepsilon_i$ 。假设我们从 $Y_0=0$ 开始。其均值可能是恒定的（如果冲击的均值为零，则均值为零），但方差呢？独立冲击之和的方差等于它们各自方差的和。如果每次冲击的方差为 $\sigma^2$ ，那么粒子在时间 $t$ 的位置方差为 $\text{Var}(Y_t) = t\sigma^2$ 。方差随时间线性增长！过程运行的时间越长，其位置就越不确定。它会扩散，散布在一个越来越宽的可能性范围内。这是对平稳性的根本违反。

这类过程非常重要，以至于它有一个特殊的名字：单位根过程。这个名字来源于它与表现良好的自回归（AR）模型 $X_t = \phi X_{t-1} + \varepsilon_t$ 的联系。只有当系数 $|\phi| \lt 1$ 时，这个AR过程才是平稳的，这确保了过去冲击的影响最终会消失。随机游走对应于 $\phi=1$ 的边界情况。当 $\phi=1$ 时，冲击不会被衰减；它们的影响永久持续，在过程的历史中累积，并导致方差不断增长。这是一种纯粹由随机性驱动的非平稳形式，其驱动力不是可预测的外部趋势，而是过程本身的内部动态。

差分的魔力

因此，我们有两种类型的非平稳行为：一种由可预测的趋势驱动，另一种由随机游走的累积记忆驱动。我们怎么可能用为平稳过程的稳定世界构建的工具来分析它们呢？答案在于一个极其简单却又强大的思想：关注变化量，而非水平值。

考虑一只股票的每日价格。正如我们所见，它可能表现得像一个随机游走， $Y_t = Y_{t-1} + \varepsilon_t$ ，因此是非平稳的。但是，从一天到下一天的价格变化呢？让我们定义一个新过程， $R_t = Y_t - Y_{t-1}$ 。代入 $Y_t$ 的模型，我们得到 $R_t = (Y_{t-1} + \varepsilon_t) - Y_{t-1} = \varepsilon_t$ 。每日回报的过程就是随机冲击的序列！这是一个白噪声过程，是平稳简单性的极致定义。

这种被称为差分的转换是我们的关键。通过取连续观测值之间的差，我们剥离了非平稳的“游走”行为，揭示出一个平稳的核心。这类似于一个以随机速度运动的物体；它的位置是非平稳的，但它的速度可以是平稳的。差分在数学上等同于将我们的焦点从位置转移到速度。

这个思想在ARIMA（自回归整合移动平均）框架中得到了形式化。ARIMA中的“I”代表整合（Integrated），这只是说该过程是非平稳的，但可以通过差分来修正。整合的阶数，记为 $d$ ，是我们为达到平稳性需要进行差分操作的次数。一个随机游走是一阶整合的，或称为I(1)。某些过程，比如一个受随机力撞击的物体的加速度，可能需要差分两次才能变得平稳；它们是I(2)。这为我们提供了一种语言来分类和驯服不同程度的随机游走。

机器中的幽灵：忽略非平稳性的危险

如果我们不小心会发生什么？如果我们使用为平稳时间序列设计的工具来分析非平稳时间序列会怎样？其后果不仅仅是微小的不准确；它们可能导致荒谬的错误结论。

看见不存在的模式

这是所有统计学中最危险的陷阱之一：伪相关。以两个学生为例，每人都在抛硬币。假设正面为 +1，反面为 -1。我们可以追踪每个学生随时间变化的累积分数。这是两个完全独立的随机游走。现在，将一个学生的累积分数对另一个学生的累积分数作图。令人惊讶的是，你很可能会看到一个看似强烈的关系。也许在前50次抛掷中，两个学生碰巧都得到更多的正面，所以他们的分数都一起向上漂移。这看起来就像一个学生的“成功”导致了另一个学生的“成功”。

这不是侥幸。这是一个数学上的必然。因为随机游走不回归于均值，它们可以自由地游荡。纯粹出于偶然，两个独立的游走可能会在很长一段时间内向同一方向游荡。形式化的分析表明，两个独立随机游走之间测得的协方差的方差是巨大的，并且随着序列长度 $N$ 的增加而迅速增长。这意味着观察到大的、“统计上显著的”相关性不是例外，而是常态。你正在发现机器中的幽灵——这些模式是由非平稳性这一共同属性制造的幻觉。这一个陷阱已经导致了无数错误的科学结论，从经济学到生态学。

失效的工具与有缺陷的逻辑

问题还远不止于此。我们用来理解过程的工具本身也可能失灵。其中一个工具是遍历性的概念。对于一个同时也是遍历的平稳过程，一个足够长的样本路径包含了关于整个过程的所有统计信息。来自一个实现的时间平均值与跨越许多不同实现的系综平均值相同。这是一个美妙的性质；它意味着我们可以通过长时间观察海滩上的一个点来了解整个“海洋”的一切。

但这个性质从根本上依赖于平稳性。如果一个过程是非平稳的，它的统计特性就在变化。一个增长中经济的单一路径只告诉你那一个特定的历史轨迹；它无法告诉你所有可能经济体的全部故事，因为其底层规则在演变。时间平均值不再等于系综平均值。

我们的频率分析工具也失效了。经典的功率谱密度（PSD）告诉我们一个信号的功率是如何分布在不同频率上的。它是根据自相关函数计算的，对于平稳过程，自相关函数只依赖于时间滞后。但是，一个增长中的GDP的频率内容是什么？这个问题本身就提得不恰当。不同频率上的功率随时间变化。单一、不随时间变化的频谱概念是无意义的。要分析这样的信号，我们需要更复杂的工具，如演化谱， $S_x(\omega, t)$ ，它给出了频率 $\omega$ 在时间 $t$ 的功率。这表明，非平稳性迫使我们重新发明我们最基本的分析方法，从静态的图片转向动态的电影。

最后，一句忠告。在我们担心平稳性之前，必须确保我们的模型具有物理意义。一个提出的数学模型可能看起来很优雅，但如果它意味着一个信号的方差可以是负的，那么它在根本上是有缺陷的，并且描述不了任何可能的现实。我们对非平稳性复杂性的探索之旅必须始终植根于逻辑和现实世界的约束。宇宙是微妙的，但它不是恶意的，而且它肯定没有负方差。

应用与跨学科联系

在探索了支配变量随时间舞动的原理之后，我们可能会倾向于认为平稳性——那种统计平衡的优雅状态——是事物的自然秩序。毕竟，它代表了钟摆以稳定节奏摆动的世界，是运转良好的机器发出的嗡鸣，是一个处于均衡状态的系统。但如果你向窗外望去，你很快就会发现世界绝非平稳。树木在生长，经济在扩张，物种在演化，气候在变化。变化，似乎才是唯一真正永恒的常数。

非平稳性不是一个需要被纠正和遗忘的数学病态；它本身就是变化的标志。它是生长、演化和转变的语言。学会解读这种语言，使我们能够超越仅仅描述存在的系统，开始理解那些正在形成的系统。我们所开发的工具开启了一片令人叹为观止的应用图景，连接了金融、生物学、混沌理论乃至我们所使用的语言这些看似迥异的世界。

洞察变化的印记

我们如何判断一个过程是原地不动还是在旅途之中？有时，最深刻的洞见来自最简单的图景。想象我们有一段很长的数据记录，比如某只股票的每日价格。如果我们将每一天的今日价格与昨日价格绘制成图，我们会看到什么？

如果过程是平稳的，冲击会消退，且有回归中心值的倾向，那么我们图上的点将形成一个受限的椭圆形云团。它可能会被拉伸和倾斜，但它会被限制住，就像蜂巢周围的一群蜜蜂。这个过程在一个有限的领域内探索。但如果过程是非平稳的，比如一个“随机游走”，每一步都是对上一步的全新偏离，那么画面将发生戏剧性变化。图上的点仍会聚集在一条线周围，但云团本身将不受限制。它会漂移和扩散，在图上形成一条长长的、蜿蜒的轨迹。没有蜂巢可以回归；旅程本身就是目的地。

这种视觉直觉被一个关键的数字所捕捉。对于许多简单过程，它们的命运由一个自回归参数（我们称之为 $\phi$ ）决定，该参数衡量今天的价值“记住”了多少昨天的价值。三种命运等待着它们，如果我们想象追踪像“协同效应”（synergy）这样的企业流行词多年来的受欢迎程度，便能得到精美的说明：

平稳性 ( $|\phi| \lt 1$ )： 如果记忆是不完美的（ $|\phi|$ 小于1），这个词的使用频率将在一个稳定的平均值附近波动。它的受欢迎程度可能会飙升，但兴奋感会消退，它会回归其长期常态。这个过程是锚定的。
单位根非平稳性 ( $|\phi| = 1$ )： 如果记忆是完美的，我们就得到了一个随机游走。去年的受欢迎程度被完全带到今年，外加一个随机冲击。这个词的使用开始了一段随机、蜿蜒的旅程。它没有可以回归的长期平均值；它的路径是累积冲击的记录，其方差无限增长。
爆炸性 ( $|\phi| \gt 1$ )： 如果记忆被放大，任何随机波动都会随着时间被放大。这个词的使用将爆炸性地趋向于无限受欢迎（或消失），这是一个永不停止增长的泡沫。

这种简单的分类构成了分析变化的基础。但现实，一如既往，还有一些更美丽的复杂性。

经济的脉搏：趋势、冲击与隐藏的纽带

非平稳性在经济学和金融学的世界里表现得最为明显。一张过去一个世纪某国国内生产总值（GDP）的图表，就是非平稳时间序列的典型例子——一条不可阻挡向上的曲线。这种持续的趋势不仅仅是噪声；它是经济增长的信号。

忽略这一事实可能导致严重的错误。例如，一些来自混沌和动力系统研究的强大方法试图重构一个系统的“吸引子”——一个代表其长期行为的几何对象。将这样的技术（如基于Takens定理的技术）应用于原始GDP数据是徒劳的。该方法假设系统的轨迹被限制在一个固定的、紧凑的形状内。但一个增长中的经济并非围绕一个吸引子运行；它正在进行一次单向旅行，重构出的“轨迹”只是一条延伸至远方的长长的、不重复的曲线。这个工具很出色，但用错了对象。智慧的第一步是认识你所研究事物的本质。

有时，非平稳性不是一个平滑的趋势，而是一个突然的、剧烈的转变。考虑一下加密货币市场波动的资金费率。在一段时间内，费率可能在零附近徘徊，反映了买家和卖家之间的平衡。然后，市场冲击发生，市场情绪逆转，平均费率突然跃升到一个新的、持续的水平。这是一种“结构性断裂”或“范式转换”。分析师面临的一个关键挑战是确定一个大的波动是平稳过程中的暂时波动，还是新范式的开始。通过比较两种模型的统计证据——例如，使用像BIC这样基于简约性的准则——人们可以做出有原则的决策，区分真正的变化与纯粹的噪声。

然而，最美的思想出现在我们于游走中发现隐藏的秩序之时。两个非平稳序列，各自进行着随机游走，却可能紧密相连。想象一个人在公园里随机游走，他的狗也在随机游走，但被拴在一条狗绳上。人的位置是非平稳的。狗的位置也是非平稳的。但它们之间的距离——狗绳的长度——是平稳且有界的。

这就是协整的精髓。两个或多个变量（比如两家竞争公司股票的价格，或者一个国家的消费与其收入）可能各自漂移，但一个长期的经济关系（“狗绳”）将它们拉回到一起。它们的某个线性组合变成了平稳的。这个思想，以及其最近的扩展——分数协整（其中依赖关系更为微妙），使得经济学家能够揭示出即使在系统各组成部分随时间趋势变化时，仍能支配系统的稳定均衡关系。这是一种看见那根将经济捆绑在一起的无形狗绳的方法。

在锚定的平稳世界和随机游走的漂泊之间，还存在一个引人入胜的领域：长程依赖，或称“长记忆”。在这些技术上是平稳的过程中，一次冲击的影响需要异常长的时间才能消散。它们的自相关性不是指数级快速衰减，而是遵循一个慢得多的幂律。例如，金融资产的波动性常常表现出这种行为：今天的一次大冲击可能会使波动性在未来几天、几周甚至几个月内保持在高位。像分数整合自回归移动平均（FARIMA）这样的模型就是为了捕捉这种挥之不去的记忆而设计的，为金融市场中的风险和依赖性提供了更细致的描绘。

自然界中变化的回响

非平稳性的重要性远远超出了人类经济系统。它被编织在自然世界本身的结构之中。

例如，在演化生物学中，许多用于从DNA序列重建生命之树的标准模型都依赖于平稳性的假设。像GTR这样的时间可逆模型，含蓄地假设演化过程处于均衡状态——即四种核苷酸碱基（A, C, G, T）的总体频率在整个演化树上是恒定的。但如果一群生物正在适应新环境呢？考虑适应高温的细菌，其基因中较高的GC含量能提供稳定性优势。在这些谱系中，将会存在一种偏向于向G和C突变的方向性压力。这在碱基组成中造成了一个非平稳趋势，违反了模型的核心假设。从A/T到G/C的取代“净流量”不再为零，打破了支撑时间可逆性的细致平衡条件。认识到这种非平稳性对于构建更准确的演化模型和正确推断演化历史至关重要。

在物理学和复杂系统研究中，非平稳性以其最错综复杂的形式出现。湍流流体中的波动、神经元的放电模式，或股票市场的分钟级回报，不仅是趋势性的；它们以一种远为复杂、自相似的方式非平稳。波动的幅度会根据你观察的时间尺度而变化。像多重分形去趋势波动分析（MF-DFA）这样的工具被开发出来，作为这些信号的数学“变焦镜头”。它们不仅仅用一个数字来描述过程，而是产生一个完整的标度指数谱，为系统复杂的非平稳动态提供丰富的特征。在频域中，这种复杂性表现为不同频率之间的耦合，这种现象在平稳过程中是不存在的，也是高等信号处理中的一个核心课题。

审视变化世界的新视角

归根结底，对非平稳过程的研究就是对运动中世界的研究。它迫使我们放弃世界处于完美平衡状态的舒适幻想，去面对更混乱、也更有趣的变化现实。通过拥抱这种复杂性，我们得以更深入地理解周围的系统。我们学会了区分随机的瞬间波动与范式的转变，学会在混沌中寻找创造秩序的隐藏纽带，学会了在演化中看到统计学的足迹。世界或许不是平稳的，但有了这些工具，它比以往任何时候都更加清晰可解。