
在我们探索世界的过程中,我们不断地寻找联系。从亚原子粒子的复杂舞蹈到全球经济的错综网络,实体间的关系定义了系统的结构和行为。虽然我们有工具来衡量这些联系,但我们最常用的工具有时可能会产生误导,导致错误的结论和无法预见的风险。简单相关与依赖的真实、多面性之间的区别是现代科学和数据分析中最关键的概念之一。本文将踏上揭示这一区别的旅程。第一章原理与机制将奠定基础,从独立性和线性相关的基本思想入手,然后揭示将零相关等同于无关系的严重缺陷。接着,我们将探索像copula这样更强大的工具,它们提供了一种更丰富的语言来描述变量之间可能存在的各种联系方式。随后,在应用与跨学科联系中,我们将看到这些原理在实践中的应用,揭示神经科学、金融学和进化生物学等不同领域中系统的隐藏架构。让我们从探索联系本身的本质开始。
想象一下,你正站在一片广阔、寂静的沙漠中。一粒沙子的位置完全不会告诉你另一粒沙子的位置。它们是独立的。现在,想象你正在观察一片雪花错综复杂的图案。一个冰晶的位置与其邻居的位置紧密相连,形成一个美丽而复杂的结构。这就是依赖。从散落的沙粒到结构化的雪花,这就是相关与依赖的故事。这是一个自然界以无数种方式讲述的基本故事,从亚原子领域到星系的运动。
最简单的情形是完全没有关系。在概率论的语言中,这被称为独立性。如果一个事件的结果对另一个事件的结果完全没有影响,那么这两个事件就是独立的。抛硬币得到正面,并不会改变下一次抛掷得到正面的概率。这种“无记忆性”是自然界许多基本过程的标志。
考虑一位生物学家正在寻找一种罕见的基因突变。每次测试一个细菌都是一次新的、独立的试验。假设找到第一个突变所需的时间是 次试验,而找到第二个突变所需的额外时间是 次试验。你可能会直观地认为,如果找到第一个突变花了很长时间(一个大的 ),那么也许第二个会更快找到,或者也可能需要很长时间。但事实并非如此。因为每次试验都是独立的,这个过程在第一次成功后基本上“重置”了。寻找第二个突变的搜索重新开始,完全不知道第一次搜索花了多长时间。因此, 和 是真正独立的。这是我们的基线,是我们关系的“空状态”。
世界上的大多数事物都不是独立的。当太阳升起时,温度会上升。当你踩下油门时,汽车会加速。我们需要一种方法来量化这些关系。我们首先也是最常使用的工具是皮尔逊相关系数,通常用希腊字母 表示。
相关性衡量两个变量之间线性关系的强度和方向。它是一个介于 和 之间的数字。
考虑一个简单的保育实验:从一个包含 个个体的孤立种群中捕捉动物,其中一些动物已被标记。假设我们检查第一只动物,它被标记了。这对第二只动物的情况有什么启示呢?由于我们是无放回抽样,现在野外少了一只被标记的动物。第二只动物被标记的概率降低了。这在第一次和第二次捕捉的结果之间产生了一种负相关。数学给出了一个极其简单的结果:相关性恰好是 。种群越大( 越大),相关性就越接近于零,因为移除一个个体的影响可以忽略不计。这个简单的模型展示了物理约束——不能对同一只动物进行两次抽样——如何机械地产生统计依赖。
这里我们遇到了整个统计学中最重要也最常被误解的一个观点。人们很容易认为,如果相关性为零,那么变量一定是独立的。这在通常情况下是完全错误的。相关性只能看到线性关系,它对其他任何关系都“视而不见”。
想象一个粒子在进行随机游走,从零点开始,在每个时间点以等概率向左或向右移动一步。在 步之后,它的最终位置是 。现在考虑两个量:最终位置本身,,以及最终位置的平方,。这两个量有关系吗?当然有! 完全由 决定。如果你告诉我 ,我就确切地知道 。它们是完全依赖的。
但是它们的相关性是多少呢?让我们来计算一下。因为游走是对称的,粒子最终停在 的可能性与停在 的可能性完全相同。这种完美的对称性导致分布的奇数阶矩为零。协方差涉及 项,结果恰好为零。因此,相关性也为零。在这里,我们有两个函数上完全依赖的变量,但它们却完全不相关。非线性的U形关系 对于只寻找直线的相关系数来说是不可见的。
这不仅仅是一个数学上的奇特现象。考虑一个由一系列随机冲击造成损害的系统。冲击可以是正的也可以是负的,但平均而言是零。总累积损害 当然取决于已发生的冲击次数 。更多的冲击意味着可能产生更大的总损害(正或负)。然而,因为平均冲击为零,总损害 和冲击次数 之间的相关性为零。一个只看相关性的分析师会错误地得出结论,认为两者没有关系,从而忽略了一个关键事实:总损害的方差(风险)随着冲击次数的增加而直接增长。
如果相关性并非故事的全部,那么什么才是呢?真正的依赖是关于信息的。如果知道一个变量的值能减少你对另一个变量值的不确定性,那么它们就是相互依赖的。这可以以无穷多种方式发生,每种方式都有其独特的“形态”。
有一种情况,相关性确实能说明一切,那就是在一个特殊的、钟形的宇宙中,即二元正态分布。这种分布描述了许多自然现象,从雷达测量的误差到人的身高和体重。在这个世界里,相关系数 是王道。如果 ,变量就是独立的。如果 ,它就完美地描述了整个依赖结构。例如,两个这样的标准化变量都为正的概率由一个优雅的公式给出:。当 时,该公式给出 ,这正是 ,即独立变量的个体概率之积。当 时,它给出 ,因为如果一个是正的,另一个也必须是正的。该公式根据 的值平滑地在所有可能性之间插值,扭曲了概率空间。
但真实世界往往没有那么简单和高斯化。让我们回到生物学。想象两个重复基因,其表达水平 和 是相关的。有时,它们被共同调控, 与 成正比。在这种情况下,相关性很好用。但在另一种情况下,一个基因可能在某些组织中接管功能,而另一个基因在其他组织中接管。这可能会产生一种非单调的U形关系,其中(中心化后)。正如我们所见,这会导致零相关。
要看清这种更深层次的联系,我们需要一个更强大的工具:互信息。与相关性不同,互信息是信息论中的一个概念,它衡量任何统计依赖,无论线性与否。它量化了在观察到变量 后,关于变量 的不确定性的减少量。对于我们的 的情况,相关性为零,但互信息却非常大。知道 告诉了我们很多关于 的信息,所以它们是高度依赖的,而互信息正确地捕捉到了这一点。
有没有一种方法可以在一个统一的框架下思考所有这些不同形态的依赖关系?答案是肯定的,这就是现代统计学中最优美的思想之一:copula。
Sklar定理告诉我们,任何联合概率分布都可以被唯一地分解为两部分:
可以这样想:边缘分布是食材,而copula是告诉你如何混合它们的食谱。你可以用相同的食材(例如,两种特定的股票收益率边缘分布)和不同的食谱(不同的copula)组合,得到截然不同的结果。
这不仅仅是一个学术练习。在金融领域,当现实更为复杂时,假设简单的线性相关可能是灾难性的。两种资产在日常基础上可能看起来基本不相关(低相关性),但它们可能有一个坏习惯,就是在市场恐慌时一起崩溃。这种“尾部依赖”是一种特定形态的依赖,简单的相关系数完全无法捕捉到。然而,一个copula模型可以被特意选择来表示这种“粘性尾部”行为。
在工程领域也是如此。在评估像桥梁这样的结构可靠性时,工程师必须对不同载荷(如风和交通)之间的依赖性进行建模。如果他们使用基于线性相关的标准模型(高斯copula),在正常情况下可能没问题。但如果真实的依赖结构具有“肥尾”——意味着极端风力和极端交通流量同时发生的可能性比模型假设的要大——他们的风险评估将是危险的乐观。选择正确的copula(正确的“食谱”)对于预测罕见但灾难性的故障概率至关重要。
有了这些概念,我们可以在任何地方看到依赖,它以微妙而深刻的方式塑造着世界。
在物理学中,考虑一组混沌系统,比如微小、不可预测的摆。如果它们没有耦合,一个摆的状态不会告诉你任何关于另一个摆的信息——空间相关性为零。现在,用一根弱弹簧将每个摆与其最近的邻居连接起来。突然间,波和复杂的模式就可以在系统中传播。一种局部结构出现了。现在存在一种随距离衰减的非零空间相关性。局部耦合是将宏观依赖和秩序从微观混沌中建立起来的机制。
然后是量子力学的奇特世界。当两个粒子在一个“纠缠”态中产生时,比如自旋单态,它们的属性以一种超越经典直觉的方式联系在一起。如果Alice测量她的粒子在某个轴上的自旋为“上”,她瞬间就知道可能远在光年之外的Bob,在同一轴上测量的自旋将是“下”。这是完美的负相关。但真正奇怪的是,当Alice和Bob相对于彼此旋转他们的测量设备一个角度 时,这种相关性是如何变化的。量子力学预测的相关性是 。没有任何经典的共享秘密“指令集”(隐变量)模型能够再现这种在所有角度上都成立的特定函数形式的依赖。量子依赖不仅是强的;它是一种根本不同类型的联系。
我们以最重要的一课结束。观察到一种关系,即使是非常强的关系,也并不告诉你什么是因,什么是果。一个机器学习模型可能会发现,某个角蛋白基因的表达是癌症的一个绝佳预测指标。统计上的关联是不可否认的。但这是否意味着角蛋白基因导致了癌症?几乎可以肯定不是。
真相很可能是,两者都是由第三个混淆变量引起的:细胞类型。癌(Carcinomas)是上皮细胞的癌症。角蛋白是上皮细胞的特征蛋白。因此,一个癌组织样本,根据定义,充满了上皮细胞,因此会显示出高的角蛋白表达。角蛋白基因不是驱动因素;它是一个乘客,一个细胞身份的标记。该模型是基于 ,即在给定基因表达的情况下患癌的概率,来进行预测的。但因果声明是关于 ,即如果我们干预并改变基因表达,患癌的概率。这两者不是一回事。
这是最终的挑战。相关性、互信息和copula这些工具可以为我们提供一份关于数据中统计关系的极其详细的地图。它们可以向我们展示依赖的形态、强度和性质。但是,将这张关联地图转化为因果故事,需要严谨的科学推理、实验以及对背后机制的深刻理解。数字只能向你展示影子;找到投下影子的物体,是科学家的任务。
我们花了一些时间探讨相关与依赖的原理,玩味了一些数学思想。但这一切究竟是为了什么?这些抽象的机制真的与现实世界有联系吗?答案是肯定的。事实上,你可以说,理解依赖的本质是我们观察世界最强大的透镜之一。它是洞察联系的科学,是理解系统各部分如何相互“交谈”的科学,也是领悟整体往往与部分之和有着天壤之别的科学。
在本章中,我们将踏上一段旅程,一次穿越科学领域的巡礼,去看看这些思想在实践中的应用。我们将看到,同一个基本概念——事物并非总是孤立发生——如何体现在流体的闪烁中,在活细胞的内部运作中,在大脑宏伟的网络中,甚至在科学发现过程本身。
让我们从一个简单而美丽的物理现象开始。想象你正在观察一种流体,它被精确地保持在临界温度和压力下,此时它无法决定是成为液体还是气体。流体变得浑浊,闪烁着珍珠般的光芒。这种被称为临界乳光的效应,是相关性在宏观尺度上的直接、可见的体现。通常,流体中的密度波动是微小的、局部的和随机的。但在临界点,这些波动变得协调一致。一个区域的波动不再与其邻居的波动独立;它们在远大于单个分子的距离上相互关联。通常是微观的相关长度 ,此时发散并变得宏观。正是这种分子的长程“共谋”如此有效地散射光线。值得注意的是,我们可以使用像Peng-Robinson状态方程这样的经典热力学模型来精确预测当我们接近临界温度时这个相关长度是如何增长的,发现对于这样一个系统 。我们正在将一个宏观方程与相关波动的微观统计行为联系起来。
这种协调行动的思想正是生命的本质。一个活细胞不是一袋独立的分子;它是一个错综复杂的相互作用网络。我们如何绘制这个网络?我们可以“倾听”相关性。在系统生物学中,贝叶斯网络可以用来模拟基因调控。从基因A到基因B的箭头并不意味着A以一种简单的、确定性的方式导致B被激活。它意味着基因B的表达水平条件依赖于基因A的水平。我们正在对它们的关系做出概率性的陈述,构建一个细胞指挥中心内部的影响力地图。
我们可以将这个想法从单个细胞扩展到一个细胞群落。我们如何弄清楚在复杂组织中哪些细胞在与哪些其他细胞“交谈”?我们无法窃听它们的电话线。但是,通过在许多不同样本上使用单细胞RNA测序,我们可以寻找基因表达的相关模式。如果我们持续观察到一种细胞类型中配体(“说话者”分子)的表达与另一种细胞类型中其相应受体(“倾听者”分子)的表达同步升降,我们就可以推断出一条通讯渠道。这需要仔细的统计分析以避免虚假的联系,通过控制混淆因素并以稳健的方式进行显著性检验,但核心思想很简单:相关性揭示了通讯。
现在,让我们进行一次更大的飞跃,到我们所知的最复杂的物体:人脑。大脑的架构不仅仅是其神经元的物理“线路图”(结构连接)。它还有一个动态的功能架构,通过哪些区域协同激活而揭示。使用fMRI,神经科学家可以追踪大脑活动随时间的变化,并计算不同区域之间的相关性。他们的发现令人震惊。即使当你“处于休息状态”时,你的大脑也并不安静。广阔、分布式的区域网络以同步的合唱方式嗡嗡作响。其中最著名的是默认模式网络,涉及后扣带皮层和内侧前额叶皮层等区域,在内部思考时活跃。这个网络通常与其他网络,如在处理外部任务时参与的额顶控制网络,呈*负相关*。当一个网络活跃时,另一个则被抑制。这种功能连接可以存在于没有直接解剖连接的区域之间,通过多步路径介导。统计依赖的模式揭示了大脑的功能组织。例如,对“突显网络”中一个“枢纽”区域的损伤,会破坏大脑在其他网络之间切换的能力,这表明这些相关模式是认知功能的基础。
同样的逻辑也适用于更大的尺度。研究种群的生态学家必须厘清环境因素(如温度)和种群自身密度对其增长率的相关影响。一个简单的相关性可能会产生误导;只有通过仔细建模每个因素的偏效应,我们才能理解真正的调控力量。纵观进化史的宏大画卷,生物学家研究多组性状如何共同进化。通过分析性状的协方差结构——在适当校正了物种因在生命之树上共享祖先而产生的非独立性之后——他们可以识别出“模块”。这些是高度整合并倾向于作为一个协调单位进化的性状组,如下颚的组成部分。这些由进化相关模式揭示的模块,可能代表了自然选择作用的基本构建块。
我们已经看到,依赖模式揭示了自然系统的隐藏架构。这是一个深刻的科学见解。但这些思想也有巨大的实践意义。理解依赖是做出更好预测、管理风险和构建更稳健技术的关键。这是一个在一个万物在某种程度上相互关联的世界里进行善猜的艺术。
这一点在金融领域表现得尤为明显。想象一下,试图评估一个由贷款或抵押贷款组成的投资组合的风险。仅仅知道任何一笔贷款违约的概率是不够的。你必须知道它们的依赖性。如果所有的违约都在一场危机中同时发生,结果可能是灾难性的。为了模拟这一点,分析师使用称为copula的工具,它将事件的边缘概率(如单次违约)与连接它们的依赖结构分离开来。一个简单的高斯copula假设这种依赖性由单一的相关参数捕获,并且至关重要的是,它意味着零相关即独立。
但真实的危机是这样运作的吗?想想社会传染,即一个想法或产品突然流行起来。一个人接受与否并非与其邻居的接受行为独立。事实上,极端事件倾向于聚集。Copula理论为我们提供了描述这一现象的语言。与高斯copula不同,学生t-copula具有一种称为“尾部依赖”的特性。这意味着,在一个变量为极端值的情况下,另一个变量也为极端值的概率仍然很高。这使得它成为模拟类似传染现象的更好模型,在这种现象中,联合的“极端事件”——如大规模采纳产品或金融危机中的大规模违约——比简单的相关模型预测的更为常见。在2008年金融危机前夕,未能认识到这一区别带来了非常真实的后果。
市场甚至为微妙的相关性定价。在期权定价中,使用了像SABR模型这样的复杂模型。这些模型包含一个参数 ,用于表示资产价格的随机运动与其自身波动率之间的相关性。这是一个众所周知的效应:当股市下跌时,波动率往往会飙升(负相关)。这个看似抽象的相关性对“波动率偏斜”的形态有直接且可衡量的影响,而这又决定了市场上各种期权的价格。依赖性不仅仅是一个统计上的奇特现象;它是一种可交易的量。
理解依赖的实践力量远远超出了金融领域。考虑设计航天器重返大气层隔热罩的工程挑战。我们模拟模型中使用的材料属性永远无法被完美地知晓;它们存在不确定性。此外,这些不确定性可能是相关的。例如,化学反应模型中的两个参数,指前因子 和活化能 ,由于它们的测量方式,通常表现出正相关——这种现象被称为动力学补偿效应。你可能首先会认为,不确定输入之间的正相关总会使你的最终预测更不确定。但这里有一个美丽而反直觉的转折。如果这两个参数对你关心的量(比如隔热罩背面的温度)有相反的影响,它们的正相关可能导致它们的不确定性相互抵消,从而导致你预测的整体不确定性减少。通过理解依赖结构,我们可以做出更稳健、更可靠的设计。
最后,对依赖性的研究对科学过程本身至关重要。当遗传学家进行全基因组关联研究(GWAS)以寻找与疾病相关的基因时,他们会测试数百万个遗传标记(SNP)的关联性。一种对如此多重检验进行校正的简单方法,如Bonferroni校正,将只是将期望的显著性水平除以检验次数。然而,SNP并非独立的。由于一种称为连锁不平衡(LD)的现象,染色体上相邻的SNP通常以块状形式一起遗传。这在相邻统计检验的结果之间引起了强烈的正相关。忽略这种相关性会使Bonferroni校正变得极其保守,因为它高估了正在进行的独立检验的“有效数量”。为了正确解释结果并避免错失真正的发现,必须考虑检验本身的依赖结构。
从最小的粒子到最大的金融市场,再到科学的方法本身,依赖的线索贯穿始终。它提醒我们,要理解宇宙的任何一个部分,我们必须领会它与其余部分是如何相连的。