try ai
科普
编辑
分享
反馈
  • 偏相关

偏相关

SciencePedia玻尔百科
核心要点
  • 偏相关衡量的是在统计上移除了第三个混杂变量的影响后,两个变量之间的关联。
  • 该方法通过计算两个变量分别对控制变量进行回归后所得残差之间的皮尔逊相关性来发挥作用。
  • 在复杂网络中,被称为精度矩阵的协方差矩阵的逆矩阵,能够巧妙地揭示在系统其余部分为条件下所有成对的偏相关。
  • 对于非线性数据,偏秩相关将相同的逻辑应用于数据的秩,从而扩展了这一概念,用以捕捉直接的单调关系。

引言

在一个数据饱和的世界里,我们不断遇到相关性——即两种事物似乎同步变化的模式。但我们如何能确定所感知的联系是直接关系,而不仅仅是由一个隐藏的第三因素造成的统计假象?这个解开因、果和巧合之间纠缠的基础性挑战,是科学发现和合理决策的核心。本文介绍偏相关,一种为解决此问题而设计的强大统计工具。它提供了一种方法,可以穿透混杂变量的迷雾,识别出真实、直接的联系。首先,在“原理与机制”部分,我们将剖析偏相关的核心逻辑,从其直观基础到数学基础。然后,在“应用与跨学科联系”部分,我们将跨越从遗传学到经济学等不同领域,见证这一个概念如何在复杂系统中提供清晰度并揭示隐藏的结构。

原理与机制

想象一下,你是一名城市规划师,你注意到一个奇怪的模式:在冰淇淋销量高的日子里,犯罪率似乎也更高。一个惊人的相关性!你会急于通过一项法律来限制巧克力软糖圣代的销售吗?可能不会。你的直觉告诉你,有别的东西在起作用,一个隐藏的角色在同时操纵着两者。在这种情况下,这个角色就是夏天的炎热。炎热的天气让人们渴望冰淇淋,也倾向于让更多人外出,从而为犯罪创造了更多机会。太阳,这第三个变量,正在​​混杂​​冰淇淋和犯罪率之间的关系。

这个简单的故事捕捉了科学和生活中的一个核心挑战:我们如何解开一张相互关联的变量之网,以找到真实、直接的关系?如果我们看到 XXX 与 YYY 相关,我们如何知道是 XXX 真正影响 YYY,还是这种关联仅仅是由第三个变量 ZZZ 制造的假象?统计学家和科学家用来执行这种精细“手术”的工具就是​​偏相关​​。它允许我们在数学上保持混杂变量 ZZZ 恒定,有效地移除其影响,以观察 XXX 和 YYY 之间是否还存在任何直接联系。

关联的幻象与对直接联系的探寻

世界是一个由因果关系构成的网络。有时,联系是直接的。但更多时候,它们是间接的。思考一下遗传学这个错综复杂的世界,科学家们试图绘制基因如何相互调控的图谱。假设他们发现基因A的活性与基因C的活性之间有很强的相关性。这可能意味着基因A直接调控基因C。然而,一个更常见的情景是间接通路:基因A调控基因B,而基因B又调控基因C。这形成了一个A→B→C的连锁反应,使得A和C的活性看起来相关,即使它们从未直接相互作用。

这就是区分​​直接相互作用​​和​​由中介介导的间接相互作用​​的经典问题。在我们的基因例子中,B是中介。在我们的城市规划例子中,温度是混杂因素。在这两种情况下,为了理解系统,我们需要一种方法来审视A-C关系,并“减去”B的影响,或者审视冰淇淋-犯罪关系,并“移除”温度的影响。偏相关正是这样一种方法。它量化了在统计上控制或“剔除”一个或多个其他变量的影响后,两个变量之间的关联。

“控制”变量的艺术

那么,我们如何在数学上“控制”一个变量呢?这个想法非常直观和巧妙。如果我们想从 XXX 和 YYY 的关系中移除 ZZZ 的影响,我们可以首先找出 XXX 中有多少可以由 ZZZ 来解释。根据定义,XXX 中剩余的、未被解释的部分就不受 ZZZ 的影响。我们对 YYY 做同样的处理,找到其变异中独立于 ZZZ 的部分。然后,我们只需测量这两个“纯化”后部分之间的相关性。

这个过程依赖于​​线性回归​​的概念。想象一下将 XXX 对 ZZZ 作图。回归分析会找到穿过该数据点云的最佳拟合直线。这条线代表了基于 ZZZ 的 XXX 的可预测部分。然而,任何单个数据点很可能不会恰好落在直线上。从一个实际数据点到回归线的垂直距离被称为​​残差​​。这个残差代表了 XXX 的值中未被其与 ZZZ 的线性关系所解释的部分。

在控制 ZZZ 的条件下,XXX 和 YYY 之间的偏相关被定义为 XXX 的残差(在 XXX 对 ZZZ 回归后)与 YYY 的残差(在 YYY 对 ZZZ 回归后)之间的皮尔逊相关性。实质上,我们是在将 XXX 的“未解释”变异与 YYY 的“未解释”变异进行相关。这提供了一个纯净的度量,衡量了它们之间的线性关联,并剥离了 ZZZ 的混杂影响。

相关性剖析:一个数字侦探故事

这种关联残差的巧妙程序导出了一个紧凑而强大的公式。如果我们知道三个简单的成对相关性(rXYr_{XY}rXY​、rXZr_{XZ}rXZ​ 和 rYZr_{YZ}rYZ​),我们就可以计算出控制 ZZZ 后 XXX 和 YYY 的偏相关:

rXY⋅Z=rXY−rXZrYZ(1−rXZ2)(1−rYZ2)r_{XY \cdot Z} = \frac{r_{XY} - r_{XZ}r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}}rXY⋅Z​=(1−rXZ2​)(1−rYZ2​)​rXY​−rXZ​rYZ​​

让我们剖析这个公式来领会其逻辑。分子 rXY−rXZrYZr_{XY} - r_{XZ}r_{YZ}rXY​−rXZ​rYZ​ 是问题的核心。rXYr_{XY}rXY​ 是我们最初观察到的“原始”相关性。我们减去的项 rXZrYZr_{XZ}r_{YZ}rXZ​rYZ​ 代表了我们期望看到的、纯粹∗由于纯粹*由于 纯粹∗由于X和和和Y都与都与都与Z相关而产生的相关性大小。我们正在从观察到的总关联中减去间接路径( 相关而产生的相关性大小。我们正在从观察到的总关联中减去间接路径(相关而产生的相关性大小。我们正在从观察到的总关联中减去间接路径(X \leftrightarrow Z \leftrightarrow Y)的强度。分母是一个归一化因子,确保最终值保持在)的强度。分母是一个归一化因子,确保最终值保持在 )的强度。分母是一个归一化因子,确保最终值保持在-1和和和1$ 之间,是一个有效的相关系数。

一个来自医学的鲜明例子完美地说明了这一点。在一项心血管研究中,一个风险评分模型(XXX)被发现与患者的收缩压(YYY)高度相关,相关性为 ρXY=0.6\rho_{XY} = 0.6ρXY​=0.6。这似乎是一个强有力的联系。然而,医生们知道,高风险评分和高血压通常都与高身体质量指数(BMI)相关,我们称之为 ZZZ。那么,这个风险评分只是重新发现了BMI的影响,还是与血压有直接联系?

假设分析显示 Cov⁡(X,Y)=12\operatorname{Cov}(X,Y) = 12Cov(X,Y)=12。当我们分解这个协方差时,可能会发现由与BMI的共同联系所解释的部分是 11.211.211.2,而残差协方差(直接联系)仅为 0.80.80.8。绝大部分的关联是由混杂变量BMI制造的海市蜃楼。相应地,应用偏相关公式后,最初 0.60.60.6 的强相关性骤降至一个非常弱的偏相关 ρXY⋅Z≈0.09\rho_{XY \cdot Z} \approx 0.09ρXY⋅Z​≈0.09。所谓的联系几乎消失殆尽,揭示了BMI才是主要驱动因素。

同样,在我们的基因网络例子中,一个初始为 rAC=0.75r_{AC} = 0.75rAC​=0.75 的强相关性,在控制了中介基因B后,可能会缩减为一个偏相关 rAC⋅B≈0.115r_{AC \cdot B} \approx 0.115rAC⋅B​≈0.115。在另一个案例中,一个 0.610.610.61 的相关性可能几乎消失,变为 0.0250.0250.025。这提供了强有力的证据,表明A-C相互作用不是直接的,而是通过B传递的。

超越配对:网络与精度矩阵

当我们的系统涉及的不是三个变量,而是几十个或几百个变量时,会发生什么?比如在真实的基因网络或复杂的经济模型中。我们可能想要找出 X1X_1X1​ 和 X2X_2X2​ 之间的直接联系,同时控制 X3,X4,…,XpX_3, X_4, \ldots, X_pX3​,X4​,…,Xp​。关联残差的原理仍然适用,但变得繁琐。幸运的是,自然和数学提供了一个更深刻、更统一的视角。

这种更深层次的理解来自于观察​​协方差矩阵​​(Σ\SigmaΣ)的逆矩阵,而不是协方差矩阵本身。这个逆矩阵是一个优美的对象,称为​​精度矩阵​​或​​集中矩阵​​,记为 Θ=Σ−1\Theta = \Sigma^{-1}Θ=Σ−1。

虽然协方差矩阵的元素告诉你变量对之间的简单、边际相关性,但精度矩阵的元素告诉你​​偏相关性​​。存在一个惊人地直接的关系:在系统中所有其他变量为条件的,变量 iii 和变量 jjj 之间的偏相关由以下公式给出:

ρij⋅rest=−ΘijΘiiΘjj\rho_{ij \cdot \text{rest}} = - \frac{\Theta_{ij}}{\sqrt{\Theta_{ii}\Theta_{jj}}}ρij⋅rest​=−Θii​Θjj​​Θij​​

这个公式揭示了关于多变量系统的一个基本真理:如果精度矩阵中的元素 Θij\Theta_{ij}Θij​ 为零,这意味着变量 iii 和变量 jjj 之间的偏相关(在给定其他所有变量的情况下)恰好为零。在多元正态分布的常见假设下,这等同于说 XiX_iXi​ 和 XjX_jXj​ 是​​条件独立的​​。一旦考虑了网络的其余部分,它们之间就没有直接的线性联系。

其意义是巨大的。一个复杂网络中所有直接连接的图谱,都编码在精度矩阵的零和非零元素模式中。这一个数学对象揭示了相互作用网络的骨架。这个原理是高斯图模型的基础,这是一种强大的技术,被用于从生物信息学到金融等领域,以根据观测数据重建网络。

当直线弯曲时:非线性世界中的偏相关

到目前为止,我们的讨论都建立在线性关系——即由直线捕捉的相关性——的基础上。但如果两个变量之间的关系是曲线怎么办?例如,也许工作经验的年限会提高开发人员的产出,但存在递减的回报,形成一个对数曲线。标准的皮尔逊相关将很难捕捉到这一点。

这时,​​秩相关​​(如斯皮尔曼相关)的概念就变得至关重要。我们不使用原始数据值,而是将它们转换为秩次(第一、第二、第三等)。这种方法忽略了具体数值,只关注单调趋势:当 XXX 增加时,YYY 是否持续增加(或减少)?正因为如此,它可以完美地捕捉任何严格递增或递减的关系,无论是直线、指数曲线还是任何其他单调函数。

我们能把“控制”变量的力量带入这个非线性世界吗?当然可以。这个逻辑可以完美地延伸。我们可以定义一个​​偏秩相关系数(PRCC)​​,其遵循与之前完全相同的思想流程,但将其应用于数据的秩而不是原始值:

  1. 将你的所有变量(XXX、YYY 和 ZZZ)转换为它们的秩。
  2. 对这些秩进行线性回归:找出 秩(XXX) vs. 秩(ZZZ) 的残差,以及 秩(YYY) vs. 秩(ZZZ) 的残差。
  3. 计算这两组秩残差之间的皮尔逊相关性。

其结果是一个鲁棒的度量,它分离出 XXX 和 YYY 之间直接的单调关联,同时控制了 ZZZ 的影响。在复杂系统的研究中,这个工具是无价的,因为在这些系统中关系很少是线性的,它让研究人员即使在高度非线性的模型中也能进行敏感性分析和解开驱动因素。

从一个关于冰淇淋和犯罪的简单谜题,我们已经走到了网络科学的前沿。偏相关不仅仅是一个公式;它是一种基本的思维方式。它是一面透镜,让我们能够看透表面关联的幻象,感知构建我们世界的更深层、更直接的联系。

应用与跨学科联系

在理解了偏相关的机制之后,我们现在可以踏上一段旅程,看看它在实践中的应用。你可能会惊讶地发现,这一个理念就像一把万能钥匙,在那些初看起来毫无共同之处的领域里开启了深刻的洞见。从基因和分子的微观舞蹈,到行星气候和人类经济的宏大芭蕾,偏相关是一种精妙的透镜,让我们能够区分真实的联系和纯粹的巧合。它帮助我们回答一个所有科学探究核心的问题:“这种关系是真实的,还是有其他因素在幕后操纵?”

科学家的工具箱:从噪声中分离信号

想象一下,你置身于一个拥挤的房间,试图偷听两个人——爱丽丝和鲍勃——之间的对话。房间里充满了背景嘈杂声。如果你仅仅测量来自他们方向的总声音,你可能会认为他们正在进行激烈的讨论,而实际上他们可能都只是在对房间另一端正在发布的一个响亮通知做出反应。为了理解他们之间的私下交谈,你需要以某种方式过滤掉,或者说“控制”住背景噪音。这正是偏相关为科学家所做的事情。

这个原理对于建立和完善科学模型的过程至关重要。当一位数据科学家建立一个模型来预测(比方说)房价时,他们会从一些关键的预测变量开始,比如房屋面积。如果他们想添加一个新的变量,比如浴室的数量,该怎么办?这个新变量真的增加了新的预测能力吗,还是它只是重复了已经包含在房屋面积中的信息(因为更大的房子往往有更多的浴室)?平方偏相关系数给出了确切的答案。它量化了在移除了初始变量的影响后,新变量能够解释的房价剩余未解释方差的比例。它告诉我们,我们为乐团增加的新乐器是在演奏独特的旋律,还是只是重复一个已在演奏的声部。

这种从混杂因素中分离信号的任务无处不在。思考一下绘制大脑图谱的挑战。使用功能性磁共振成像(fMRI)的神经科学家想知道两个大脑区域是否在功能上相连——即它们的活动水平是否因为相互通信而同步起伏。然而,它们信号之间的简单相关性可能具有误导性。如果扫描仪中的人移动了头部,这个动作可能会在两个区域同时产生信号伪影,从而造成一种看起来像是神经通信的伪相关。偏相关是神经科学家对抗这种幻觉的武器。通过测量头部运动并对其进行统计控制,他们可以计算出在给定头部运动条件下两个大脑区域之间的相关性。如果一个强相关性仍然存在,他们就有了更有力的证据,证明这是一次真正的神经对话,而不仅仅是大脑两个部分被共同的物理扰动被动地晃动。

当我们检验关于行为和健康的假设时,同样的逻辑也适用。在一项关于正念的研究中,研究人员可能会发现,练习更多(“剂量”)的人在幸福感上表现出更大的改善(“响应”)。但这是一个真正的剂量-响应关系吗?有可能一开始就不那么焦虑的人,既更有可能坚持练习,也更有可能报告改善。在这种情况下,基线焦虑水平是一个潜在的混杂因素。通过计算练习时间与改善程度之间的偏相关,同时控制基线焦虑水平,研究人员可以发现,即使对于从相同焦虑水平开始的人来说,剂量-响应关系是否仍然成立。同样,在研究像皮肌炎这样同时影响皮肤和肌肉的复杂疾病时,医生想知道皮肤严重程度评分是否真的独立于肌肉损伤。他们可以测量肌肉损伤的生物标志物(如肌酸激酶CK)和总体肌肉疾病的临床评分。通过计算皮肤评分和CK酶之间的偏相关,同时控制总体肌肉疾病评分,他们可以看到是否还存在直接联系。一个很小的剩余相关性表明,皮肤评分确实捕捉到了疾病的一个独特方面,独立于肌肉病理学。

即使在模拟动物导航时,这个工具也是不可或缺的。科学家们假设海马体中的某些神经元,即所谓的边界向量细胞,其放电取决于动物与墙壁的距离。但动物的行为是复杂的。也许当它靠近墙壁时,它跑得更快或得到更多奖励。这些其他变量可能会混杂这种关系。为了检验核心假设,科学家可以记录神经元的放电、与墙壁的距离、动物的速度及其奖励率。通过计算放电与墙壁距离之间的偏相关,同时控制速度和奖励,他们可以分离出位置和神经活动之间的纯粹关系,从而离破解大脑内部的GPS又近了一步。

揭示隐藏的结构与动态

世界很少像三个变量那么简单。更多时候,我们面对的是一个由相互关联的部分组成的复杂网络,而我们的挑战是绘制出直接的连接图。偏相关,以一种更高级的形式,是绘制这张图的关键。

想象一下试图理解细胞中基因的调控网络。成千上万的基因被开启和关闭,制造出一片嘈杂的活动。测量任意两个基因之间的简单相关性几乎是无用的;似乎所有东西都与其他所有东西相关。这时,统计学和网络理论之间一个非凡的联系就发挥了作用。如果我们能用一个特定的统计框架(高斯图模型)来模拟基因表达水平,那么协方差矩阵的逆矩阵,即所谓的精度矩阵,就掌握着秘密。这个精度矩阵的非对角线元素与基因对之间的偏相关成正比,这些偏相关是在控制了网络中所有其他基因的条件下计算的。一个零元素意味着没有直接联系;这两个基因是条件独立的。一个非零元素则标志着一个直接的连接。突然之间,纠缠不清的网络分解成一幅清晰的直接相互作用图,让生物学家能够精确定位哪些基因真正在相互通信,而哪些只是在更大对话中的无辜旁观者。

这种“看穿”中间变量的能力也为我们提供了关于随时间演化系统的深刻见解。考虑一个简单的时间序列,比如一只股票的每日价格。今天的价格是否对两天前的价格有任何“记忆”,即使我们已经考虑了昨天的价格?这是一个关于条件依赖性的问题。对于一个经典的称为二阶自回归过程(或AR(2))的时间序列模型,在给定时间 t−1t-1t−1 的价格条件下,时间 ttt 和时间 t−2t-2t−2 的价格之间的偏相关会产生一个惊人优雅的结果:它恰好等于模型的一个核心参数 ϕ2\phi_2ϕ2​。这不仅仅是一个数学上的奇特现象;这是关于系统记忆结构的一个深刻陈述。它将遥远过去的影响与近期过去的影响分离开来。

从基础科学到现实决策

偏相关的应用远超实验室,它塑造着工程、政策以及我们对自然世界的理解。

在健康经济学领域,保险公司面临一个叫做“逆向选择”的问题——他们担心自己最慷慨的保险计划会不成比例地吸引最不健康的个体,从而导致财务不稳定。他们如何检验这一点?他们无法直接观察一个人的“隐藏健康风险”。然而,他们可以使用一个巧妙的技巧。他们可以考察选择慷慨计划与个人前一年医疗保健使用情况之间的相关性,后者可作为健康风险的代理指标。但简单的相关性是不够的;健康的、年长的人也可能选择慷慨的计划。真正的检验是偏相关:在控制了所有可观察的风险因素如年龄、性别和已知诊断之后,选择慷慨计划与有较高的既往使用率之间仍然存在正相关吗?一个统计上显著的正偏相关就是确凿的证据,证明选择是基于未观察到的因素发生的,这一发现对政策和保险计划设计具有重大影响。

在材料科学和化学领域,科学家们不断寻找用于化学反应的更优催化剂。他们常常发现,不同分子在催化剂表面的结合能通过一个简单的线性“标度关系”联系在一起。这似乎是一个强大的设计法则。但这是一个基本的化学定律,还是由一个共同原因造成的幻象?例如,也许所有的结合能都主要受催化剂材料的某个单一基本属性控制,比如其电子的ddd-带中心。通过计算两种分子的结合能之间的偏相关,同时控制ddd-带中心,化学家可以确定标度关系是一个直接的、机理性的联系,还是仅仅是底层电子学的一个次要效应。这有助于他们建立更准确的理论,以指导下一代材料的设计。

最后,偏相关甚至帮助我们更清晰地看待我们自己的星球。当卫星拍摄山区照片时,地面的亮度受到地形的严重影响。朝阳的山坡显得明亮,而阴影中的山坡则显得黑暗,这掩盖了地表的真实性质。遥感科学家开发“地形校正”模型来消除这种影响。但他们如何知道自己的模型是否奏效?他们使用偏相关作为诊断工具。一幅完美校正的图像应该与光照角度没有任何剩余的相关性。通过计算校正后图像亮度与光照角度之间的相关性,他们可以检验模型的质量。这个偏相关越接近于零,他们就越成功地“夷平”了地形,揭示出隐藏在阴影之下的植被、土壤或岩石的真实模式。

从生命最小的组成部分到最大的经济和行星系统,偏相关不仅仅是一种统计计算。它是一种基本的思维方式,一种严谨的方法,用以探问“如果……会怎样?”——如果我们能保持这个因素不变会怎样,如果我们能排除这个干扰会怎样?在回答这个问题的过程中,它使我们能够剥开表观复杂性的层层外衣,揭示出支配我们世界的更简单、更直接的关系。