
估算某个量的平均值是科学与工程中最基本的任务之一。但是,一个估算的好坏取决于我们对其不确定性的了解程度。对于独立测量,答案很简单:平均值的方差会随着样本数量的增加而可预测地缩小。然而,在现实世界中,从股票价格到原子运动,数据点之间很少是独立的;它们被时间的线索联系在一起,表现出相关性和记忆性。这种依赖性打破了统计学的简单规则,常常导致我们严重低估真实的不确定性。
为了驾驭这个复杂的领域,我们需要一个更精密的工具:长程方差。这个概念为相关数据的平均值提供了正确的不确定性度量,它考虑了过去持续存在的回响。本文将全面概述长程方差。在第一部分“原理与机制”中,我们将从头开始剖析这个概念,探讨其数学定义、与系统记忆的联系,以及将其与简单收敛速度区分开的那些令人惊讶的微妙之处。随后,在“应用与跨学科联系”部分,我们将看到理论在实践中的应用,展示其在评估计算机模拟可靠性方面的关键作用,以及其在金融、遗传学和细胞生物学等不同领域阐明现象的强大能力。
想象你是一家工厂的质量控制工程师。你的工作是估算次品的比例 。你抽取一批 件产品并计算次品数量。对 的一个自然猜测,也是最好的猜测,就是你观察到的次品比例。但你对这个估算有多大的信心呢?如果你用新的一批产品重复这个实验,这个估值会有多大的变化?这种“波动性”就是统计学家所说的方差。
对于这个简单的案例,理论告诉我们,我们估算的方差与 成正比。这是一个优美而直观的结果。它告诉我们两件事:首先,当 接近 时方差最大(确定抛硬币的概率最难),而当 接近 或 时方差最小(如果几乎所有东西都是完美的,你对此可以非常肯定)。其次,也是更重要的一点,方差随着样本量 的增大而缩小。通过检查更多的产品,我们可以稀释随机运气的影响,得到更精确的估算。方差以 的速率下降。这种反比关系是统计学的基石,是任何试图从数据中学习的人都应遵循的自然法则。它之所以成立,是因为我们检查的每一件产品都是一个独立的证据。
然而,世界很少如此井然有序。我们收集的数据点通常不是独立的。想一想你所在城市的每日气温。今天的气温是明天的一个很好的预测指标。它们是相互关联的;它们是相关的。再想一想股票价格、在水中抖动的花粉粒子的位置,或者模拟中分子的能级。在每一种情况下,某个时刻的值都并非独立于前一刻的值。
这种相关性对我们平均值的方差有什么影响呢?让我们想象一个“醉酒的水手”在进行随机游走。每一步,他都以相等的概率向左或向右踉跄一步。在 步之后,他离起始的路灯平均有多远?他位置的方差与 成正比。他在这 步中平均位置的方差将以 的速率缩小。这是我们熟悉的独立情况。
现在,让我们考虑一个不同的水手,一个带有一点惯性的水手。如果她刚向右迈出一步,她下一步也略微更可能向右迈出。她的步子是正相关的。在 步之后,她可能比她那个纯随机的同伴漂得离路灯远得多。正相关导致她的移动相互加强,从而产生更大的偏离。因此,她平均位置的方差也理应更大。她所走的“独立”步数的有效数量小于 。
这就是核心思想。当数据点相关时,简单的关于均值方差的 法则就失效了。我们需要一个新概念,一种量化数据中这种记忆效应的方法。这个新的量就是长程方差。
为了理解长程方差的来源,让我们深入了解方差计算的内部机制。 个测量值 的平均值的方差与它们总和的方差有关。一个总和的方差是这些测量值协方差矩阵中所有项的总和。
如果测量值是独立的,唯一非零的协方差就是方差本身,即 ,它们位于对角线上。所有非对角线项都为零。
但如果测量值是相关的,我们就必须包含非对角线项 。如果我们假设过程是平稳的(意味着其统计特性不随时间改变),协方差就只取决于点之间的时间延迟 。我们可以给它一个名字:。我们称之为延迟为 时的自协方差。 就是单个数据点的普通方差。
当我们进行数学推导时,在 很大的极限下,样本均值 的方差会出现一个优美的公式: 其中 是长程方差(也称为有效方差)。它由以下公式给出: 这个方程是时间序列和随机过程研究中最重要的结果之一。它告诉我们,长程方差是普通方差()加上一个修正项,该修正项考虑了所有随时间推移的相关性“回响”。因子 2 的存在是因为 与 的协方差和与 的协方差相同。
如果相关性是正的(),就像我们那个有惯性的水手一样,长程方差就会被放大。我们的测量值比看起来的信息量要少;有效样本量小于 。如果相关性是负的(这可能发生在振荡系统中),长程方差实际上可能比普通方差更小。
这个公式可能看起来很抽象,让我们看看它在实践中的应用。
考虑一个在工程和经济学中常用的简单模型,即一阶自回归过程(AR(1))。变量 由其前一个值和一些新的随机噪声决定:,其中 衡量了“记忆”或持续性。如果我们测量量 ,我们可以计算自协方差 。结果它们会呈几何级数衰减:。我们得到了一个可以明确求和的几何级数!长程方差的结果是一个封闭形式的表达式: 其中 是噪声 的方差。看分母:当持续性 接近 1 时,长程方差会爆炸。这个系统有如此长的记忆,以至于即使是对大量步骤的平均,仍然具有极大的不确定性。
同样的原理也适用于连续时间系统。想象一个在“开启”(产生收入)和“关闭”(空闲)状态之间交替的服务器。直到时间 的总收入是一个随机量。其长程方差率(方差除以 )可以用我们求和的连续模拟——即格林-久保公式(Green-Kubo formula)来计算。它由一个指示函数(当系统开启时为 1,否则为 0)的自协方差函数的积分给出。核心思想是相同的:要找到一个和(或积分)的长期变异性,你必须对所有时间延迟的相关性进行求和(或积分)。
在金融领域,像 Cox-Ingersoll-Ross (CIR) 过程这样的模型被用来描述利率。这个模型有一个表示波动性的参数 。增加 会增加利率的瞬时随机抖动。但它也会同时增加利率最终趋向的平稳分布的方差和长程方差。这是两种不同但相关的变异性,都源于同一个随机性来源。
许多物理和计算系统的一个显著特征是它们会“忘记”自己的初始条件。如果你开始一个流体的计算机模拟,其长期统计行为——如平均温度或压力——将是相同的,无论你是从一个热的、稀疏的构型开始,还是从一个冷的、密集的构型开始。
这个被称为遍历性的性质对长程方差有着深远的影响。只要系统“混合”得足够快(一个称为几何遍历性的条件),长程方差 就是系统动力学的一个内在属性,不依赖于它开始的状态。初始条件的瞬态效应对我们量的总和贡献一个有限的量,但是当我们对一个很长的时间 进行平均时,它们的贡献被一个因子 冲淡了,而统计波动(在平均之前)则以 的速度增长。从长远来看,只有内在的动力学才重要。
如果我们那个简洁公式的条件不满足会怎样?长程方差理论建立在一个基本假设之上:普通方差 必须是有限的。如果我们试图测量的量是如此狂野以至于其方差是无限的,那会发生什么?
这不仅仅是一个数学上的奇想;它是在统计估计中一个臭名昭著的问题。考虑调和平均估计量,这是一种有时用于计算贝叶斯统计中称为边际似然的量的方法。这个估计量需要对 的值进行平均,其中 是一个似然函数。事实证明,在许多常见情况下, 的值可以以一个虽小但不可忽略的概率取到天文数字般大的值。分布中的这些“重尾”会使其方差 变为无限。
当 是无限时,我们长程方差公式的整个基础就崩溃了。中心极限定理——它承诺平均值会趋向于一个漂亮的钟形曲线——在其通常形式下不再适用。我们的估计不会稳定下来。一个单一的、巨大无比的数据点,即使在很长的模拟之后也可能出现,并完全主导平均值,将我们的估计抛到另一个星系。你甚至可以构建简单的玩具问题,其中这种失败是必然发生的,这表明重要性抽样估计量的采样权重的二阶矩必须是有限的,它才能表现良好。这给了我们一个至关重要的教训:在我们谈论长程方差之前,我们必须首先确定短程方差是否存在。
人们很容易形成一种简单的直觉:如果一个系统更快地收敛到其平稳状态,我们的估计应该会更好(即具有更低的长程方差)。一个系统的收敛“速度”通常由一个称为谱隙的量来表征。更大的谱隙意味着更快的“最坏情况”收敛速度。所以,谱隙越大,方差越小,对吗?
错了。自然比这更微妙、更优美。
长程方差不是系统的一个单一属性;它是你在该系统中测量什么的一个属性。一个动态系统就像一个交响乐团,有许多不同的乐器演奏着以不同速率衰减的不同音符。系统的整体收敛速率(谱隙)由衰减最慢的音符决定——那是在短笛声沉寂后很久依然萦绕的低音大管深沉而洪亮的嗡嗡声。
但是,如果你试图测量的量,你的函数 ,对低音大管完全“充耳不闻”呢?如果它只对短笛快速衰减的音符敏感呢?在这种情况下,你测量的长程方差将会很小,由短笛音符的快速衰减所主导,完全不受系统缓慢的、最坏情况行为的影响。
我们可以构建简单的马尔可夫链,其中一个系统 的谱隙比另一个系统 小(即“更慢”)。然而,对于一个巧妙选择的函数 ,在“更慢”的系统 上 的平均值的长程方差却要小得多。这是因为所选的函数 恰好与 中一个快速衰减的模式完美对齐,而在 中却暴露于一个较慢的模式。
这揭示了关于长程方差最深刻的真理:它是系统动力学与我们向它提出的具体问题之间错综复杂的相互作用的结果。仅仅知道系统作为一个整体收敛得多快是不够的;我们必须知道我们关心的量如何与系统的各种波动模式耦合。理解这一点是在一个复杂的、相关的世界中进行测量的艺术的关键。
现在我们已经了解了长程方差的数学机制,我们有理由退一步问:它究竟有何用处?它仅仅是另一种抽象的形式主义,是概率论学家的一个奇思妙想吗?事实证明,答案既广泛又非常实用。这个概念绝非一个脚注;它是一个至关重要的实用工具,每当我们试图理解一个并非由一系列脱节、独立事件构成的世界时,它就会出现。
从本质上讲,长程方差是从一个相关的观测序列中获取的平均值的诚实不确定性度量。单个测量的简单方差告诉我们一个过程的瞬时“抖动”,而长程方差则告诉我们长期平均值的不确定性,它考虑了所有在现在仍然存在的过去的回响和共鸣——即系统的“记忆”。它是简单方差加上一个修正,即所有自协方差的总和,这个总和捕捉了过程依赖性的完整纹理。现在让我们看看这个思想在远离黑板的现代科学家的工坊里是如何工作的。
也许长程方差最普遍的应用是在计算科学中。现代物理学、化学、材料科学和统计学的很多领域都依赖于在计算机上模拟复杂系统。我们模拟液体中原子的狂热舞蹈、蛋白质的折叠,或者统计模型中参数的后验分布。几乎在所有情况下,这些模拟都产生一个单一的、长的状态轨迹,而这些状态根据其性质,在时间上是相关的。如果我们处于状态 ,下一个状态 不是从头选择的;它是 的一个微小扰动。结果就是一个有记忆的时间序列测量。
我们能多大程度上信任从这样的模拟中计算出的平均性质呢?如果我们天真地假设测量是独立的并计算标准误差,我们将会自欺欺人,常常严重低估我们真实的不确定性。这时,长程方差就成为我们保持学术诚信的锚。相依过程的中心极限定理告诉我们,样本均值的真实方差由长程方差决定,而长程方差正比于过程中所有自协方差的总和。这个总和通常被称为*积分自相关时间*(IACT),它告诉我们我们拥有的“有效”独立样本数量。如果 IACT 是 50,这意味着我们需要收集 50 个相关的样本,才能获得与一个独立样本所能提供的关于均值的相同信息量!
通过计算所有自协方差来直接估计这个量可能是乏味且充满噪声的。一个非常巧妙和实用的替代方法是批均值法。这个想法很简单:我们将一个非常长的模拟运行分割成一系列连续的较小批次或“微型实验”。如果我们将批次做得足够长,那么一个批次的平均值与下一个批次的平均值之间的相关性就变得可以忽略不计。通过将这些批次均值视为近乎独立的观测值,我们可以用通常的方法估计它们的方差。当用批次大小适当缩放后,这就为我们提供了整个过程真实长程方差的一个稳健估计。这是一个优美的统计技巧,让我们能从其部分的变异性来衡量整体的不确定性。
当然,一个优秀科学家的目标不仅仅是量化不确定性,而是要减少它。长程方差为优化提供了一个直接的目标。通过设计更巧妙的模拟算法,我们可以减少步骤之间的相关性,缩短 IACT,并用相同的计算机时间获得更精确的答案。一种优雅的技术是使用*控制变量*。假设我们正试图估计一个非常嘈杂的目标量 的均值。如果我们能同时测量另一个与 相关但其真实均值我们恰好知道的量 ,我们就可以利用观测到的 偏离其已知均值的波动来“校正”我们对 的估计。最优的校正因子恰恰是使校正后估计量的长程方差最小化的那个因子。这将长程方差的概念与时间序列理论中的另一个深层概念联系起来:谱密度。事实上,长程方差正比于在零频率处评估的过程的谱密度,这对应于过程中最慢、最长尺度波动的“功率”。最小化长程方差等同于滤除这种零频率噪声。
这个视角帮助我们理解设计新模拟算法时的权衡,例如在计算材料科学中。满足“细致平衡”条件的标准 MCMC 算法,其行为类似于扩散性随机游走。它们有“回溯”的倾向,即探索一个区域然后立即原路返回,这引入了强相关性并增大了长程方差。更先进的、非可逆算法打破了这种对称性,引入一种动量来抑制回溯,从而实现更高效的探索。对于在状态空间的一个区域内平滑变化的观测量,这可以极大地减少 IACT,从而减少长程方差,带来计算效率的巨大提升。
该理论还警示我们不要采取一些常见但错误的实践。MCMC 从业者中一个非常常见的仪式是“稀疏化”输出——即每 个样本只保存一个,希望以此减少自相关。这能提高统计效率吗?长程方差给出了一个明确的答案:不能。对于固定的总模拟步数(即固定的计算预算),稀疏化链总是会增加最终估计的方差。虽然稀疏化后的链确实相关性较低,但这只是在丢弃来之不易的信息。使用所有的数据,并用长程方差进行适当的加权,总是比丢弃部分数据要好。
这个概念的影响甚至延伸到现代统计学最复杂的角落。当从一个相依数据流中估计分位数等量时,最终估计的不确定性由一个“三明治公式”给出,其中三明治中的“肉”正是由一个相关的、巧妙构建的时间序列的长程方差构成的。主题是相同的:只要存在依赖性,长程方差就处于不确定性的核心。
相关性的概念并不仅限于物理系统的时间演化。它被编织在生物学的基本结构中,体现在家庭结构和遗传机制中。在这里,我们一直在讨论的同样的基本思想也再次出现,尽管是以不同的形式。
考虑一位遗传学家,他试图通过一系列测交来估计两个基因之间的重组频率。一个教科书式的实验可能涉及产生数百个后代,每个后代都来自一对独立且不同的亲本。在这种理想化的情况下,每个后代都是一个独立的伯努利试验,估计频率的方差很容易计算。但是,如果出于实际原因,实验被组织成家庭或同胞群,其中许多后代共享相同的父母和相同的环境呢?现在,观测值就不再是独立的了。兄弟姐妹比不相关的个体更相像。这种亲缘关系由一个组内相关系数 来捕捉。
当我们计算我们估计的重组频率的方差时,我们发现它被一个因子 放大了,其中 是每个家庭的大小。这个“方差膨胀因子”,或称设计效应,是积分自相关时间的直接类比。它源于对一个家庭内所有个体对之间协方差的求和。它告诉我们, 个兄弟姐妹并不提供 份独立的信息;他们的有效样本量要小得多。这个原则在流行病学、社会学和农业等领域至关重要,在这些领域中数据自然地聚集在家庭、学校或田间地块中。忽略这种结构及其导致的方差膨胀,会导致虚假的统计显著性声明。
相关数据的逻辑可以带我们更深入,直至控制细胞身份的分子机制。我们的染色体不是裸露的 DNA;它们缠绕在称为组蛋白的蛋白质上,形成核小体。这些组蛋白可以被修饰或替换为变体,创造出一个影响哪些基因被开启或关闭的“表观遗传景观”。这个景观是可遗传的:当一个细胞分裂时,组蛋白变体的模式会部分地传递给它的子细胞。这是一种细胞记忆的形式。
我们可以为这个遗传过程建立一个简单的数学模型。想象一个染色体上有一个包含 个核小体的小区域。每次细胞分裂后,一小部分 的亲代组蛋白被随机回收至两个子链的相同区域,而剩余的位置则由从细胞池中抽取的新组蛋白填充。这个过程在母细胞和其子细胞的表观遗传状态之间创造了相关性。经过多代之后,该位点的组蛋白变体比例将在一个稳态平均值附近波动。但是这些波动有多大呢?这个表观遗传状态的*方差*是多少?
通过将概率定律应用于这个相依过程,我们可以推导出确切的稳态方差。结果取决于保留概率 、位点大小 以及新组蛋白池的组成。计算揭示,这种细胞记忆的持续性——由 设定的代际相关强度——直接控制着表观遗传状态的长期稳定性。更高的保留概率导致更大的长期方差,意味着表观遗传状态在多代中更容易“漂移”。这不是样本均值的方差,而是生物过程本身的内在稳态方差。然而,它同样受制于对时间相关性求和的逻辑。它是衡量一个基本生物记忆系统固有噪声或稳定性的一个尺度。
从物理学家的模拟到生物学家的细胞,一个共同的线索浮现出来。自然,似乎有着长久的记忆。事件是相互关联的,无论是通过运动定律、家庭纽带,还是遗传机制。长程方差的概念为我们提供了一种精确的语言来谈论这种记忆,量化其强度,并理解其后果。一个单一的数学思想能够阐明计算机模拟中的不确定性和我们自身生物遗传的稳定性,这证明了科学美妙的统一性。