皮尔逊积矩相关系数

玻尔百科

定义

皮尔逊积矩相关系数是一种通过标准化协方差来量化两个变量之间线性关系强度和方向的统计指标。该系数的取值范围在 -1 到 +1 之间，被广泛应用于医学设备验证、基因表达分析以及人工智能分类器评估等科学领域。尽管该方法是统计学的基础工具，但它仅能检测线性关联，且对异常值高度敏感。

核心要点

皮尔逊相关系数（ $r$ ）通过对协方差进行标准化，量化了线性关系的强度和方向，从而创建了一个范围从-1到+1的通用度量。
皮尔逊 $r$ 的一个关键局限是它只能检测线性关联，并且对异常值高度敏感，这会严重扭曲结果。
像 Spearman 的 $\rho$ 这样基于秩的方法通过分析数据的秩次，提供了一种稳健的替代方案，能有效处理异常值和单调非线性关系。
皮尔逊相关性是一项基础工具，广泛应用于科学领域，从验证医疗设备、分析基因表达到评估人工智能分类器（作为 Matthews 相关系数）。

引言

在科学及其他领域，我们不断寻求理解不同现象之间如何相互关联。一个因素会影响另一个因素吗？虽然直觉可以提示存在联系，但严谨的探究需要一个精确的量化工具来衡量这种关系的强度和方向。挑战在于开发一种普适的度量标准，它既能跨越不同尺度和学科应用，其内在局限性也能被充分理解。本文旨在全面探讨用于此目的最基本的工具之一：皮尔逊积矩相关性。第一章“原理与机制”将解构相关系数背后的统计机制，揭示它是如何由协方差和标准化的概念锻造而成，并批判性地审视其在非线性模式和异常值面前的脆弱性。随后的“应用与跨学科联系”一章将展示该度量的非凡通用性，带领读者领略其在医学、生物学、网络科学和人工智能中的应用，彰显其揭示复杂数据中隐藏结构的力量。

原理与机制

我们如何知道两件事物是否相关？这个问题几乎是所有科学探究的核心。更长的屏幕使用时间是否与更差的睡眠质量有关？更高剂量的药物是否能带来更好的患者疗效？我们对这些事物有直觉，一种关联感。但科学要求的不只是直觉，它需要一个数字，一把衡量关系强度和方向的标尺。我们的任务是理解这把标尺是如何被锻造出来的，它真正衡量的是什么，以及同样重要的，它在何时会误导我们。

探寻一把衡量的标尺

让我们想象一下，我们是研究青少年幸福感的研究人员。我们怀疑他们的学业表现（以平均绩点GPA衡量）与心理健康（以抑郁症状评分，我们称之为PHQ-A评分，分数越高症状越严重）之间可能存在联系。我们收集了一些数据：一名GPA高的学生抑郁评分低，另一名GPA低的学生抑郁评分高，依此类推。我们如何将这种模式形式化？

第一个想法可能是观察每个变量如何偏离其自身的平均值。对于每个学生，我们可以看他们的GPA是高于还是低于班级平均水平，以及他们的抑郁评分是高于还是低于平均分。我们将GPA变量称为 $X$ ，抑郁评分称为 $Y$ 。它们的平均值分别是 $\bar{x}$ 和 $\bar{y}$ 。

现在，考虑单个学生的偏差乘积： $(x_i - \bar{x})(y_i - \bar{y})$ 。如果一个学生的GPA高于平均水平（ $x_i - \bar{x}$ 为正），而抑郁评分低于平均水平（ $y_i - \bar{y}$ 为负），那么他们的乘积为负。如果另一个学生GPA低（负偏差），而抑郁评分高（正偏差），他们的乘积也为负。在这两种情况下，负的乘积都表明存在反向关系。反之，如果高GPA与高抑郁评分相关联，那么两个偏差都为正，从而产生正的乘积。

如果我们将所有学生的这些乘积相加并取平均值，我们就得到了一个称为协方差的度量。负的协方差表明当一个变量上升时，另一个变量倾向于下降。正的协方差则表明它们倾向于同向变动。这就是我们衡量标尺的雏形。

但协方差有一个问题。它的值取决于变量的单位。GPA和抑郁评分之间的协方差单位将是“GPA点数乘以PHQ-A点数”——一个相当无意义的量。如果我们用米来衡量身高，用千克来衡量体重，其协方差会不同于我们使用厘米和克时的情况，即使潜在的关系是完全相同的。我们无法用它来进行普适性的比较。我们需要消除单位的影响。

锻造一把通用标尺：皮尔逊 $r$ 的诞生

这里蕴含着一个绝妙的想法，一个贯穿物理学和数学的常用技巧：标准化。为了创造一个纯粹的、无单位的数字，我们可以用一个量除以另一个具有相同单位的量。对于单个变量来说，其自然的“变异单位”是什么？是它的标准差（ $\sigma$ ），它衡量了数据点围绕平均值的典型离散程度。

因此，让我们将协方差除以的不是一个，而是两个变量标准差的乘积。这一天才之举给了我们皮尔逊积矩相关系数，通常称为 $r$ ：

r = \frac{\text{cov}(X,Y)}{\sigma_X \sigma_Y}

通过将协方差标准化，我们锻造出了一把通用的标尺。分子中的单位（ $X$ 的单位 $\times$ $Y$ 的单位）被分母中的单位（ $\sigma_X$ 的单位是 $X$ 的单位， $\sigma_Y$ 的单位是 $Y$ 的单位）完美抵消。最终得到的数字 $r$ 是纯粹的。借助一个名为柯西-施瓦茨不等式（Cauchy-Schwarz inequality）的数学魔法，这个值被优雅地限制在 $-1$ 到 $+1$ 的范围内。

$r$ 值为 +1 意味着完美的正线性关系。数据点完全落在一条斜率为正的直线上。
$r$ 值为 -1 意味着完美的负线性关系。数据点完全落在一条斜率为负的直线上。
$r$ 值为 0 意味着完全没有线性关系。

回到我们的青少年健康研究，如果我们进行完整的计算，可能会发现 $r \approx -0.97$ 。这个值非常接近-1，告诉我们样本中存在非常强的负线性关联。随着GPA的增加，抑郁评分以一种非常显著的直线方式趋于下降。

相关系数的平方， $r^2$ （在回归分析中也写作 $R^2$ ），有一个非常直观的含义：它是一个变量中可以被与另一个变量的线性关系所“解释”的方差比例。对于 $r=-0.8$ ， $r^2=0.64$ ，意味着我们观察到的一家工厂产出的变异性中，有64%可以由其运营时间的变异性来解释。在我们的学生例子中， $r^2 \approx (-0.97)^2 \approx 0.94$ ，表明在这个（假设的）数据集中，抑郁评分94%的变异与GPA呈线性相关。请注意， $r^2$ 丢弃了关系的方向信息； $\sqrt{0.64}$ 可能来自 $r=0.8$ 或 $r=-0.8$ 。

直线的幻觉

皮尔逊 $r$ 的力量在于其优雅的简洁性，但其最大的弱点也正在于此。我们一直使用的关键词是线性。如果两个变量之间的关系很强，但不是一条直线，会发生什么呢？

想象一下研究夜行性昆虫的活动与环境温度的关系。在非常低的温度下，昆虫活动迟缓。随着温度升高，它们变得更加活跃。但如果天气太热，它们为了保存能量又会变得不活跃。散点图上的关系会看起来像一个对称的倒'U'形。

温度和昆虫活动之间显然存在一种强烈的、可预测的关系。然而，如果你计算这些数据的皮尔逊 $r$ ，你会发现它非常接近0。这怎么可能呢？原因是皮尔逊 $r$ 是建立在协方差之上的。对于“U”形左侧的每一个点，温度上升与活动增加相关联（贡献一个正的 $(x_i - \bar{x})(y_i - \bar{y})$ 项），而在右侧相应地有一个点，温度上升与活动下降相关联（贡献一个负项）。正负贡献项在很大程度上相互抵消，导致协方差以及相关系数接近于零。同样的原理也适用于心理学中的 Yerkes-Dodson 定律，该定律描述了绩效如何在适度的压力水平下达到顶峰，但在压力过低或过高时则会下降。

这就引出了统计学中最重要的格言之一：相关性的缺失并不意味着关系的缺失。它只意味着线性关系的缺失。

即使对于一个完全单调（即从不改变方向）但非线性的关系，皮尔逊 $r$ 也不会达到其理论最大值。考虑一个简单的二次关系 $y = x^2$ （对于正数 $x$ ）。对于像 (1, 1), (2, 4), (3, 9), (4, 16) 和 (5, 25) 这样的点，关系是完全可预测的。随着 $x$ 的增加， $y$ 总是增加。然而，皮尔逊相关系数 $r$ 大约是 0.98，而不是 1。这个值很高，但它正确地报告了这些点并不在一条直线上。

异常值的暴政与秩的智慧

还有另一种更隐蔽的方式可能误导皮尔逊 $r$ 。它的公式基于对均值偏差乘积的求和，这赋予了远离数据中心的点——异常值——不成比例的影响力。

让我们看一个关于HDL（“好”）胆固醇与LDL（“坏”）胆固醇的临床数据集。假设我们有九名患者，他们的数据显示出一种强烈、清晰的负相关趋势：他们的HDL越高，LDL就越低。散点图呈现为一条紧密的、向下倾斜的线。现在，我们加入第十名患者——一个异常值——他的HDL和LDL都非常高，这个点远离已建立的趋势。

因为 $r$ 的计算涉及到偏差的值，这个单一异常值在 $x$ 和 $y$ 方向上与均值的巨大距离产生了一个巨大的乘积项，它足以压倒其他九个点的总和。对于这个例子中的数据，九个行为良好的点的相关性是近乎完美的 $r_9 \approx -0.99$ 。但包含了这一个异常值后，相关性骤降至一个微弱的 $r_{10} \approx -0.38$ ！一个数据点就完全扭曲了我们对关系的看法。这种特性被称为缺乏稳健性。

统计学家有一个正式的术语来描述这一点，叫做崩溃点：你需要破坏数据中多小的比例才能使结果完全失去意义？对于皮尔逊 $r$ ，其渐近崩溃点为 0。这意味着在一个大数据集中，一个足够极端的异常值就能单枪匹马地将相关系数拖到它想要的任何值。

我们如何对抗这种暴政？我们需要一种尊重大部分数据所显示的趋势，而不被一两个点的怪癖所左右的方法。解决方案在其简洁性中显得尤为深刻：忘掉数值，只看秩。

这就是像Spearman's $\rho$ 和 Kendall's $\tau$ 这类秩相关系数背后的原理。要计算 Spearman 的 $\rho$ ，你首先要转换你的数据。你不再使用患者实际的HDL值，比如65 mg/dL，而是简单地记下它的秩——也许它是样本中第7高的HDL值。你对两个变量都这样做，将你的数值数据集转换成一个秩的数据集（第1，第2，第3...）。然后，你只需对这些秩计算皮尔逊相关系数。

为什么这如此有效？一个异常值可能有天文数字般的大小，但它的秩最多只能是最高的（ $n$ ）或最低的（1）。其影响力是有限的。秩变换通过忽略其大小而只考虑其相对位置来“驯服”异常值。在我们的胆固醇例子中，当移除异常值时，Spearman 的 $\rho$ 的变化远没有皮尔逊 $r$ 那么剧烈，它正确地报告了绝大多数数据中存在的强烈的负单调趋势。这是因为秩相关对于任何严格单调递增的变换都是不变的。你可以取对数、平方或任何其他保持顺序的函数，Spearman 的 $\rho$ 不会改变分毫，因为秩保持不变。而皮尔逊 $r$ 仅对线性变换不变。这赋予了秩相关系数在对抗异常值和非线性（但单调）关系方面的卓越稳健性。

关于计算技巧的说明

最后，还有一个关于这些数字实际如何计算的微妙而有趣的点。相关性的概念公式涉及与均值的偏差（ $x_i - \bar{x}$ ），需要对数据进行两次遍历：一次是计算均值，第二次是计算偏差乘积之和。为了计算方便，这个公式通常被重排成一个代数上等价的“单遍”公式，该公式使用原始值的总和（ $\sum x_i$ ）、平方和（ $\sum x_i^2$ ）和乘积和（ $\sum x_i y_i$ ）。

虽然在数学上是等价的，但在有限精度的计算机世界里，它们在计算上并不等价。如果你的数据值非常大但变化很小（例如，以帕斯卡为单位测量大气压力，数值可能为101325, 101326等），单遍公式中的 $\sum x_i^2$ 和 $(\sum x_i)^2/n$ 等项可能会变成巨大且几乎相等的数字。两个巨大且几乎相等的数相减会导致精度的灾难性损失，这种效应被称为灾难性抵消。而概念上更简单的双遍公式，通过先减去均值，处理的是较小的数字，因此在数值上通常更稳定。这是一个很好的提醒：科学计算是一门艺术，理解公式的结构与公式本身同样重要。

应用与跨学科联系

理解了皮尔逊相关系数的机制后，我们现在踏上一段旅程，去看看它在实践中的应用。如果说上一章是学习一门新语言的语法，那么这一章就是阅读它的诗篇。你会发现，这一个简洁而优雅的思想就像一个通用翻译器，让我们能够发现并描述几乎所有科学和人类活动角落里的模式。它是一面透镜，一旦你学会如何使用它，就能揭示我们周围世界中隐藏的联系层次。

从身体到细胞：相关性在医学和生物学中的应用

让我们从一个宏大的社会尺度开始。想象一下，你是一位19世纪的公共卫生先驱，在那个时代，疾病的起因仍然是巨大的谜团。你从不同的城市区域收集数据，记录了代表环境卫生的指标——比如污水池的密度——以及婴儿死亡率这一悲惨数据。你将数据绘制成图，一个鲜明的模式出现了：卫生条件较差的区域死亡率更高。计算皮尔逊相关系数 $r$ 得到一个非常接近+1的值。这是表明卫生与健康之间存在联系的有力证据。

但在这里，我们立即遇到了一个至关重要的教训，一个将死记硬背的计算与真正的科学洞察区分开来的精妙之处。数据是在区域层面汇总的，而不是个体层面。这种强相关性是否证明了住在某个特定污水池旁边导致了某个婴儿的死亡？不一定。这就是著名的生态谬误。卫生条件差的区域可能也更贫穷、更拥挤，并且更难获得清洁的水和食物。卫生变量可能只是整个弱势群体集群的一个标志。这种相关性是真实存在的，并且对于指导公共政策——比如倡导建设全市范围的下水道系统——非常有用，但它本身并不能证明个体层面的因果关系。它为进一步的调查指明了方向。

如今，同样的工具仍在使用，尽管通常是在更细微的背景下。考虑一下医疗保健的质量。研究人员可能会问，医生办公室里更具协作性的方法是否会带来更好的患者体验。通过计算一次就诊过程中的“共同决策”行为数量，并将其与患者满意度评分相关联，他们可以量化这种关系。一个强的正相关表明，临床医生的沟通方式是患者体验的有力预测指标。

现在，让我们从诊所放大到身体内部，进入诊断层面。想象一种新的非侵入性成像技术，如光学相干断层扫描（OCT），它有望在无需痛苦活检的情况下测量口腔中潜在癌变组织的厚度。为了验证它，我们必须将其测量结果与“金标准”——在显微镜下从实际活检组织中测量的厚度——进行比较。我们对许多患者使用两种方法进行测量，并计算皮尔逊相关系数。一个高的 $r$ 值，比如说高于0.9，就是个好消息！这意味着两种方法密切相关；当一种方法测量到厚时，另一种也倾向于测量到厚。

但这里又出现了一个美妙的微妙之处。强相关性衡量的是关联的强度，而不是一致性。想象一下，如果新的OCT设备存在系统性偏差，其测量值总是真实厚度的两倍。相关系数将是完美的 $r=1$ ，因为关系是完全线性的（ $x = 2y$ ），但一致性却很糟糕！该设备不是一个好的替代品。这告诉我们， $r$ 是验证新测量工具的必要第一步，但并非最终定论。它告诉我们两种仪器是否“同调歌唱”，但不一定告诉我们它们是否在唱同一个音符。

让我们再深入一点，进入细胞的微观世界。生物学家常常想知道两种不同的蛋白质是否在同一时间出现在同一地点，也许是为了共同执行某项功能。利用免疫荧光显微镜，他们可以给一种蛋白质标记上绿色荧光，另一种标记上红色荧光。然后他们拍一张照片。问题是：红色和绿色信号是否“共定位”？我们的朋友皮尔逊 $r$ 提供了答案。通过将每个像素点的红色通道强度和绿色通道强度视为一对变量 $(R_i, G_i)$ ，我们可以在一个区域内的所有像素上计算相关性。一个高的正 $r$ 值意味着绿色信号亮的地方，红色信号也倾向于亮，这为蛋白质正在相互作用或共同出现提供了定量证据。

然而，这个兔子洞还要更深。在这种情况下， $r$ 真正衡量的是什么？它衡量的是像素强度的线性协同变化。完全有可能两种蛋白质存在于同一个区室（例如，溶酶体），在相同的像素中都给出高信号，但它们各自的局部浓度却是独立波动的。在这种情况下，另一种重叠度量可能很高，但皮尔逊 $r$ 可能接近于零，因为它们的亮度水平之间没有线性关系。 $r$ 的力量在于其特异性。

这种空间相关性原理是前沿生物医学研究的核心。在癌症免疫学中，科学家现在不仅可以根据肿瘤的形状来绘制其图谱，还可以将其视为一个复杂的生态系统。利用空间转录组学等技术，他们可以测量一个位置的免疫细胞（如 $\mathrm{CD8}^{+}$ T-cells）密度，并同时测量该位置数百个基因的表达。通过计算整个肿瘤中T细胞密度与免疫激活基因（如干扰素-γ）得分之间的皮尔逊相关性，他们可以揭示免疫反应的空间逻辑，从而帮助理解为什么某些疗法在一些患者身上有效，而在另一些患者身上无效。

隐藏的架构：从网络到人工智能

一个基本概念的真正魔力在于它跨越学科的能力。让我们离开生物学世界，进入网络的抽象领域。想一想互联网、社交网络或食物网。这些都是由节点（网站、人、物种）和边（链接、友谊、捕食-被捕食关系）组成的图。一个网络能有“个性”吗？它是否倾向于将相似的节点连接在一起？

值得注意的是，我们可以用皮尔逊相关性来回答这个问题。对于网络中的每一条边，我们观察它连接的两个节点。让我们将每个节点的度——即其连接数——作为其定义属性。然后，我们可以为网络中的每条边创建一个度配对列表。现在，我们只需计算这个配对列表的皮尔逊相关系数。结果是一个单一的数字，称为网络的度同配性（degree assortativity）。

一个正的 $r$ 意味着网络是“同配的”——高度节点倾向于连接到其他高度节点。想象一个社交网络，其中的“影响者”主要与其他影响者互动。一个负的 $r$ 意味着网络是“异配的”——高度节点连接到许多低度节点。这是互联网的典型特征，像谷歌这样的主要枢纽连接着无数的小网站。皮尔逊 $r$ 一举刻画了一个庞大复杂系统的基本组织原则。

抽象之旅并未就此结束。让我们转向人工智能和评估二元分类器的任务——一种做出“是/否”决策的算法。例如，一种检测大脑记录中“尖波涟漪”事件的神经科学算法。对于每个时间窗口，我们有真实标签（事件或无事件）和算法的预测标签。我们可以用一个包含真阳性（ $TP$ ）、真阴性（ $TN$ ）、假阳性（ $FP$ ）和假阴性（ $FN$ ）计数的混淆矩阵来总结其性能。

评估分类器的指标有很多，但最稳健的之一是 Matthews 相关系数（MCC）。它的公式看起来相当复杂：

\mathrm{MCC} = \frac{TP \cdot TN - FP \cdot FN}{\sqrt{(TP + FP)(TP + FN)(TN + FP)(TN + FN)}}

但如果我告诉你这只是我们老朋友皮尔逊 $r$ 的伪装呢？如果你将真实标签视为一个变量（编码为事件=1，无事件=0），并将预测标签视为第二个变量，然后 painstaking 地计算它们之间的皮尔逊相关系数，你将推导出完全相同的MCC公式。这是一个深刻统一的时刻。它揭示了这个人AI性能的黄金标准度量，不多不少，正是预测与现实之间线性相关性的度量。

科学之科学：元分析中的相关性

我们已经看到了 $r$ 如何在单个研究中使用。但科学是一个累积的事业。我们如何整合许多不同研究的结果，而每项研究都报告了关于同一现象的相关系数呢？想象一下，生态学家们正在研究“叶片经济谱”——植物中一个基本的权衡关系，即高比叶面积（薄而廉价的叶片）的叶片往往寿命较短。许多研究报告了负相关，但 $r_i$ 的值和样本量 $n_i$ 各不相同。

我们能简单地将所有报告的 $r_i$ 值取平均吗？答案是坚决的“不”。在这里，统计学本身的数学成了我们研究的对象。 $r$ 的抽样分布是不对称的。如果真实相关性很强（例如， $\rho = -0.8$ ），样本 $r$ 值的分布将严重偏斜，堆积在-1的边界附近。对这些偏斜值取平均在统计上是无效的。

解决方案由伟大的统计学家 R.A. Fisher 设计，是一个优美的数学技巧，称为 Fisher z-变换：

z = \frac{1}{2} \ln \left( \frac{1+r}{1-r} \right)

这个变换就像一个数学透镜。它将 $r$ 的偏斜分布转换为一个几乎完全正态（钟形）的分布。此外，这个新的 $z$ 变量的方差几乎完全取决于样本量（ $Var(z) \approx 1/(n-3)$ ），而不是未知的真实相关性。

现在，路径清晰了。科学家们将每项研究的 $r_i$ 转换为 $z_i$ ，在“z空间”中进行加权平均（样本量大的研究获得更大权重），然后将最终结果及其置信区间反向转换回熟悉的 $r$ 标度以供解释。这确保了我们能够正确地综合跨科学领域的知识。

从伦敦的下水道到互联网的架构，从单个像素的闪烁到科学知识的宏大综合，皮尔逊相关系数是我们不变的伴侣。它不给我们最终答案，但它提供了一种语言，用以精确地询问那些编织我们宇宙的关系。其持久的力量不仅在于公式本身，还在于一个多世纪的发现过程中，围绕其应用而生长起来的丰富洞见——以及警示。

皮尔逊积矩相关系数

引言

原理与机制

探寻一把衡量的标尺

锻造一把通用标尺：皮尔逊 rrr 的诞生

直线的幻觉

异常值的暴政与秩的智慧

关于计算技巧的说明

应用与跨学科联系

从身体到细胞：相关性在医学和生物学中的应用

隐藏的架构：从网络到人工智能

科学之科学：元分析中的相关性

皮尔逊积矩相关系数

引言

原理与机制

探寻一把衡量的标尺

锻造一把通用标尺：皮尔逊 rrr 的诞生

直线的幻觉

异常值的暴政与秩的智慧

关于计算技巧的说明

应用与跨学科联系

从身体到细胞：相关性在医学和生物学中的应用

隐藏的架构：从网络到人工智能

科学之科学：元分析中的相关性

锻造一把通用标尺：皮尔逊 $r$ 的诞生

锻造一把通用标尺：皮尔逊 $r$ 的诞生