try ai
科普
编辑
分享
反馈
  • 斯皮尔曼等级相关

斯皮尔曼等级相关

SciencePedia玻尔百科
核心要点
  • 斯皮尔曼相关通过将皮尔逊相关公式应用于数据的秩而非其原始值,来衡量单调关系的强度。
  • 通过使用秩,该方法对异常值具有内在的稳健性,并且不受任何保序(单调)的非线性数据变换的影响。
  • 系数为 +1 或 -1 表示存在完美的单调关系,而接近 0 的值表示不存在单调趋势,尽管非单调关系可能仍然存在。
  • 在基因组学、神经科学和人工智能模型评估等领域,它是一个至关重要的工具,因为在这些领域中,关系通常是复杂的、非线性的,并且数据可能含有噪声。

引言

在探索世界的过程中,科学家和研究人员不断寻求揭示变量之间的关系。虽然像皮尔逊相关这样的标准工具功能强大,但它们通常仅限于测量简单的线性关联。这带来了一个巨大的知识鸿沟,因为许多现实世界中的现象,从生物反应到人类行为,都遵循复杂的非线性模式。我们如何能检测出一种并非呈直线的一致性关系呢?本文通过深入探讨斯皮尔曼等级相关——一种稳健且用途广泛的统计方法——来应对这一挑战。首先,我们将探讨其基础的“原理与机制”,理解将数据进行排序这一简单行为如何解锁测量任何单调趋势的能力。随后,“应用与跨学科联系”部分将展示这一强大工具如何应用于从基因组学到人工智能等不同领域,揭示复杂数据中隐藏的模式。

原理与机制

要真正欣赏任何科学工具,我们必须深入了解其内部工作原理。我们不仅需要知道它能做什么,更要问它是如何工作的,以及更重要的,为什么它会这样工作。斯皮尔曼相关系数不仅仅是一个统计公式;它是一个优美的思想,一个巧妙的视角转变,使我们能够看到其他方法可能错过的数据关系。让我们踏上旅程,从最基础的层面理解这个思想。

超越狭隘的直线:线性的局限性

我们通常用来衡量两个变量(例如 XXX 和 YYY)之间关系的工具是皮尔逊相关系数。对于一项特定工作而言,它是一个极好的工具:量化一条直线能多好地描述 XXX 和 YYY 之间的关系。如果你所有的数据点都完美地落在一条正斜率的直线上,皮尔逊相关系数就是 +1+1+1。如果它们落在一条负斜率的直线上,它就是 −1-1−1。如果它们形成一团混乱、无形的点云,它就接近于 000。

但是,当大自然呈现给我们一种有序但非线性的关系时,会发生什么呢?想象一下,我们正在研究一个生物过程,其中刺激 XXX 产生响应 YYY。这种关系可能是 Y=X3Y=X^3Y=X3 这样的。XXX 的每一次增加,都会相应地引起 YYY 的增加。这种联系是完美且确定性的。然而,如果我们计算这种关系的皮尔逊相关系数,我们会发现它小于 111。为什么?因为皮尔逊相关固执地寻找直线关系,而曲线 Y=X3Y=X^3Y=X3 显然是弯曲的。皮尔逊将偏离直线的部分视为关系中的“不完美”,即使潜在的关联是无懈可击的。

这揭示了一个根本性的局限。皮尔逊相关衡量的是​​线性关联​​。使用它时,我们默认假设最有趣的关系是线性的。但大自然的创造力远不止于此。关系可以是曲线,可以饱和,或者可以遵循任何非直线的模式。如果我们只寻找直线,我们将会错过世界的丰富性。我们需要一个更灵活的工具,一个能够检测出任何变量协同变化的工具,无论这种变化的具体形态如何。

顺序的力量:从数值到秩

这里,我们来到了支撑斯皮尔曼方法的绝妙见解。如果原始数值因为其非线性尺度而误导我们,那就让我们抛弃它们!我们不再看数值本身,而是看它们的​​秩​​。

想象一下,两位评论家正在评测八款新的智能手表。一位可能使用 1 到 10 的评分标准,另一位则使用 1 到 100 的标准。直接比较分数没有太大用处。但如果我们问一个更简单的问题:这两位评论家是否在哪个手表最好、哪个第二好等等问题上达成一致?为了回答这个问题,我们将每位评论家的分数列表中的每个分数替换为其秩,从最低(第1)到最高(第8)。

这种从数值到秩的简单转变具有惊人的威力。它带来了两个立竿见影的奇妙结果。

首先,它使我们的关联度量对​​异常值​​具有稳健性。假设我们正在研究一群学生的学习时间与考试分数之间的联系。其中一名学生可能因为某些特殊情况而学习时间异常地长。在皮尔逊相关计算中,这一个极端数据点就像一个引力奇点,会扭曲计算出的相关性,并可能掩盖其他学生的真实趋势。但在秩的世界里,那个异常值仅仅是……学习时间最长的学生。其秩只是最高的,比如在7名学生中排第7。他们的学习时间远超他人的事实被平滑掉了;秩捕捉的是他们的位置,而不是他们的大小。这使得斯皮尔曼相关在存在奇异数据点时成为一个更稳定、更可靠的度量。

其次,它使度量对任何​​单调变换​​保持不变。单调变换是任何能持续保持顺序的函数——如果 x1x2x_1 x_2x1​x2​,那么 f(x1)f(x2)f(x_1) f(x_2)f(x1​)f(x2​)。取对数、求平方根(对正数而言),或应用像 X′=1.5X−12X' = 1.5X - 12X′=1.5X−12 这样的线性缩放,都是单调变换。由于这些变换不改变数据点的顺序,它们完全不会改变秩!这意味着,无论你用磅还是千克来测量体重,体重和身高之间的斯皮尔曼相关性都是相同的。它捕捉了一种更根本的关系属性,这种属性独立于我们碰巧使用的单位或尺度。

一位熟悉的朋友:伪装的皮尔逊相关

所以,我们有了这两列秩。我们如何量化它们的一致性程度呢?我们需要发明一种全新的数学吗?答案是响亮的“不”,这也是该方法优雅之处的另一体现。Charles Spearman 的伟大思想是,取这两列秩,然后简单地计算我们熟知的​​皮尔逊相关系数​​。

就是这样。​​斯皮尔曼等级相关系数​​,通常表示为 ρS\rho_SρS​ 或 rsr_srs​,无非就是对经过秩转换的变量计算出的皮尔逊相关系数。

这是一个优美的统一。我们没有抛弃旧工具,而是以更聪明的方式应用它们。而且,因为我们输入到皮尔逊公式中的数据现在是秩——整数 1,2,…,n1, 2, \dots, n1,2,…,n(可能对结值进行一些调整)——一些令人愉快的数学简化便应运而生。从 1 到 nnn 的秩的均值总是 n+12\frac{n+1}{2}2n+1​,其方差总是 n2−112\frac{n^2-1}{12}12n2−1​。通过将这些固定值代入皮尔逊公式,我们可以推导出一个更简单的“快捷”公式,这在计算上很方便,至少在没有相同值的情况下是如此:

rs=1−6∑i=1ndi2n(n2−1)r_s = 1 - \frac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 - 1)}rs​=1−n(n2−1)6∑i=1n​di2​​

这里,did_idi​ 仅仅是第 iii 个观测值中两个变量的秩之差。关联的全部信息被归结为这些秩差的平方和!

如果数据中存在​​结​​(ties),就像两款智能手表得到相同的分数时那样,该怎么办?原理保持不变。我们为每个结值分配它们本应占据的秩的平均值。上述快捷公式不再精确成立,但基本定义——在这些平均秩上计算皮尔逊相关——永远有效。该方法的基础是牢不可破的。

解读数字:系数意味着什么?

与其皮尔逊对应物一样,斯皮尔曼相关系数的范围也是从 −1-1−1 到 +1+1+1。

  • ρS=+1\rho_S = +1ρS​=+1 的值意味着秩完全一致。当一个变量增加时,另一个变量总是增加,无一例外。这是一种​​完全单调递增关系​​。
  • ρS=−1\rho_S = -1ρS​=−1 的值意味着秩完全相反。当一个变量增加时,另一个变量总是减少。这是一种​​完全单调递减关系​​。
  • ρS=0\rho_S = 0ρS​=0 的值意味着没有单调关系。秩是混乱的;知道一个变量的值很高,并不能告诉你另一个变量是高还是低。

一个关键的解释要点是:ρS=0\rho_S = 0ρS​=0 并不意味着完全没有关系。考虑一个实验,其中测量处理器时钟速度与其错误率的关系。错误率可能在非常低的速度时很高,在某个最佳点降至接近零,然后在非常高的速度时再次攀升。这是一个明显的 U 形关系。然而,由于它不是持续增加或减少的,斯皮尔曼相关将接近于零。这不是方法的失败;这是对其所测量内容的精确说明:​​单调关联​​,仅此而已。

此外,该系数不仅仅是一个描述性数字。它是开启统计推断大门的钥匙。如果我们在一个材料样本中计算出相关性为,比如说,−0.9-0.9−0.9,我们能断定载流子迁移率和带隙能量之间存在真实的单调关系吗?还是说这样强的等级相关可能仅仅是偶然出现的?我们可以从样本 rsr_srs​ 值构建一个​​检验统计量​​来回答这个问题,从而使我们能够从观察模式转向检验科学假设。

更深层次的联系:Copula 的世界

要看到斯皮尔曼思想的最深层的美,我们必须再上一个抽象层次。任何两个随机变量 XXX 和 YYY 之间的关系,可以在概念上分为两个部分:

  1. 每个变量的个体行为,由它们的​​边缘分布​​描述(例如,XXX 可能遵循钟形曲线,而 YYY 可能是均匀分布的)。
  2. 将它们联系在一起的“粘性”或依赖结构,这由一个称为​​copula​​的数学对象捕捉。

Copula 就像是两个变量如何交织在一起的配方,完全独立于它们各自的特征。它是纯粹的依赖模式。一个显著的事实是,斯皮尔曼相关仅依赖于这个底层的 copula。公式 ρS=12∬C(u,v)dudv−3\rho_S = 12\iint C(u,v)dudv - 3ρS​=12∬C(u,v)dudv−3(其中 C(u,v)C(u,v)C(u,v) 是 copula 函数)揭示了这一深刻的联系。这就是为什么 ρS\rho_SρS​ 对单调变换是不变的——这类变换改变了边缘分布,但保留了底层的 copula,即纯粹的依赖结构。

这个视角揭示了最后一个优雅的联系。在一个特殊(且非常常见)的情况下,即变量联合服从二元正态分布时,皮尔逊的 ρ\rhoρ 和斯皮尔曼的 ρs\rho_sρs​ 之间存在一个精确而优美的关系:

ρs=6πarcsin⁡(ρ2)\rho_s = \frac{6}{\pi}\arcsin\left(\frac{\rho}{2}\right)ρs​=π6​arcsin(2ρ​)

这个方程是连接两个世界的桥梁。它将线性相关的语言翻译成等级相关的语言,表明它们不是独立的概念,而是同一底层结构的不同侧面。这是我们探索之旅的一个恰当的尾声,将排序数据的简单思想与统计依赖的深刻抽象理论统一起来。

应用与跨学科联系

在理解了斯皮尔曼等级相关的原理之后,我们现在踏上旅程,看看它在实践中的应用。你可能会认为它是一种专门的工具,有点像统计学的秘籍。但事实远非如此。在科学中,我们总是在寻找关系,寻找那些揭示自然潜在法则的模式。通常,这些关系并非我们在初级物理学中绘制的简单直线图。它们是混乱的、弯曲的,并充满噪声。斯皮尔曼相关不仅仅是一个工具;它是一个透镜,一种穿透混沌、发现其下常常潜藏的本质单调秩序的方式。它提出了一个简单而深刻的问题:当一件事物增加时,另一件事物是否会持续地倾向于增加或减少,无论它走的是什么路径?

让我们看看这一个强大的问题如何在众多学科中开启洞见。

医生的工具箱:解码生物学的语言

在医学和生物学中,自然很少以直线的方式说话。身体的反应是复杂的,常常涉及反馈回路、饱和点和阈值。在这里,要求线性关系就像试图把方钉钉入圆孔。

想象一位临床免疫学家正在研究像狼疮这样的复杂自身免疫性疾病。他们可能会追踪血液中的一种生物标志物,比如抗 dsDNA 抗体水平,并将其与患者的疾病活动度(通过临床评分衡量)进行比较。较高的抗体水平通常可能意味着更严重的症状,但这种关系肯定不是一条完美的直线。存在生物变异、测量噪声和患者个体差异。通过使用斯皮尔曼相关,临床医生可以穿透这种复杂性,回答关键问题:抗体水平的更高秩是否对应于疾病活动度的更高秩?一个强的正相关提供了重要证据,表明该生物标志物是疾病进展的有用指标,即使确切的数值关系是错综复杂的。

同样的逻辑也是现代基因组学的基石。寻找疾病遗传基础的科学家可能拥有来自一组患者队列的数千个基因的表达数据,以及他们的临床结果数据,如诊断后的生存时间。单个基因的表达水平和患者的寿命不太可能呈线性关系。但系统生物学家可以问:是否存在这样一个基因,其表达秩(从最低到最高)与患者生存时间的秩有很强的正相关或负相关?通过使用斯皮尔曼相关,他们可以从海量数据中筛选出可能成为关键预后生物标志物的候选基因,为新的诊断和治疗方法铺平道路。

同样的原理也适用于大脑。当神经科学家使用功能性磁共振成像(fMRI)来观察大脑的哪些部分处于活动状态时,他们测量的 BOLD 信号是神经活动的一个臭名昭著的间接且非线性的代理。它在活动水平高时会饱和,就像有人对着麦克风大喊时麦克风失真一样。此外,数据常常因患者移动而产生的突然尖峰信号所破坏。皮尔逊相关会被非线性饱和和异常值所欺骗。但斯皮爾曼相關通過將嘈雜的信號轉換為秩,可以穩健地檢測兩個大腦區域是否協同工作——一個區域活動的增加是否總是伴隨著另一個區域活動的增加,從而揭示出協調我们思想的功能網絡。

从人类行为到流行病:一种连接世界的语言

秩的力量超越了生物学,延伸到社会科学和网络理论领域。许多关于人类行为的数据本质上是序数的:满意度评级、准备度得分、同意程度。

考虑一项在儿科诊所推广新筛查工具的公共卫生计划。一些诊所准备充分,拥有训练有素的员工和整合的工作流程,而另一些则不然。我们可以为每个诊所分配一个“准备度得分”——一个序数度量。几个月后,我们测量每个诊所新工具的采纳率。准备更充分的诊所是否表现出更高的采纳率?一个完美的斯皮尔曼相关系数 111 将是一个响亮的“是”,表明更高的准备度秩完美地预测了更高的采纳率秩。这种分析对于理解是什么驱动了健康干预措施的成功至关重要。

这种思维可以扩展到理解整个社会的动态。在网络科学中,我们为从友谊到互联网再到疾病传播的一切事物建模。网络中一个节点(一个人、一个城市、一台计算机)的一个关键属性是其“中心性”——衡量其在网络结构中重要性的指标。例如,介数中心性衡量一个节点位于其他节点之间最短路径上的频率。当一场流行病从单一源头爆发时,我们可以测量感染到达每个其他节点的“到达时间”。一个有趣的问题出现了:更中心的节点是否会更早被感染?中心性和到达时间的值可能在截然不同的尺度上。但斯皮尔曼相关允许我们检查是否存在单调关系:更高的中心性秩是否对应于更低的到达时间秩?一个强的负相关将揭示传染病如何在网络中传播的基本原理,表明结构重要性可以预测动态脆弱性。

工程师的基准:验证我们的创造物

在人工智能和复杂计算建模的时代,一个关键问题是:我们如何知道我们的模型是否好?同样重要的是,我们如何知道它们是否稳定可靠?

斯皮尔曼相关最优雅的应用之一是在评估机器学习模型中。假设我们构建一个人工智能来理解临床文本。我们如何测试它是否“理解”“呼吸困难(dyspnea)”和“气短(shortness of breath)”几乎是同义词,而“心绞痛(angina)”和“皮疹(rash)”是不相关的?我们不能问模型。但我们可以这样做:首先,我们让领域专家对许多临床术语对的相似性进行评分。然后,我们让我们的AI模型为相同的术语对计算一个相似度分数。我们不关心模型的分数是否与人类的分数完全匹配。我们关心的是模型是否以与人类相同的顺序排列这些术语对。它是否正确地识别出(“呼吸困难”,“气短”)比(“心绞痛”,“胸痛”)更相似,而后者又比(“心绞痛”,“皮疹”)更相似?通过计算模型的相似性秩与人类专家的秩之间的斯皮尔曼相关,我们得到了一个单一、有力的数字,告诉我们模型的语义“理解”与我们自己的理解的契合程度。

这种基于秩的评估思想对于评估模型的稳健性至关重要。当我们建立一个计算模型来预测,比如说,蛋白质的稳定性时,我们面临两个问题:真实的物理关系可能是非线性的,并且我们的预测可能偶尔会产生离谱、无意义的异常值。像均方误差这样的指标会严重惩罚这些异常值,而皮尔逊相关则会被非线性所干扰。更好的方法是问模型是否正确地将蛋白质从最不稳定到最稳定进行排序。基于等级相关的指标,如斯皮尔曼的 rho 或 Kendall's tau,是这项工作的理想工具,因为它们对确切的数值不敏感,只关注排序的正确性。它们对异常值稳健,并且对任何单调非线性关系保持不变,从而提供了对模型预测质量更真实的描绘。

这延伸到临床工具的稳定性。一个为患者优先排序致病基因的基因组分析流程必须是可靠的。如果底层数据稍有更新,候选基因的排名列表不应该被完全打乱。我们可以通过在数据更新前后对同一患者运行该流程来测试这一点。然后,我们计算两次得到的基因排名列表之间的斯皮尔曼相关。一个非常接近 111 的相关性给了我们信心,即我们的工具是稳定的,其结果不是任意的,这是任何用于医疗的系统都必须满足的关键要求。

更深远的视角:不确定性与普适结构

我们已经看到斯皮尔曼相关作为一个实用工具。但它真正的美,在费曼的意义上,在于它揭示的关于数据和关系本质的更深层次的原理。

首先,单个相关值,比如说 ρ=0.7\rho = 0.7ρ=0.7,只是一个点估计。我们对这个数字有多大的信心?如果我们收集一个新的样本,我们会得到 0.60.60.6 还是 0.10.10.1?统计学家开发了一种非常直观的技术,称为 bootstrap 方法,来回答这个问题。想象一下,你可以通过从你的数据集中重复抽样,创建数千个略有不同的“备选宇宙”。通过在每个宇宙中计算斯皮尔曼相关,你可以建立一个可能值的分布。这个分布为你提供了一个置信区间——真实相关性的一个合理值范围——将你的单个数字转化为一个统计确定性的陈述。

然而,最深刻的洞见来自一个处理“copula”的统计学领域。其思想是:任何一组相关变量,比如地质构造中岩石的孔隙度和渗透率,都有两个组成部分。首先,每个变量都有其自身的个体分布——一个描述其值范围的直方图。其次,是连接它们的依赖结构。Copula 是一个数学对象,它代表了这种纯粹的依赖结构,剥离了个体分布。

神奇之处在于:斯皮尔曼等级相关不是单个变量的属性,而是连接它们的 copula 的属性。它是依赖蓝图本身的一个基本特征。这意味着你可以有两对变量——一对可能呈正态分布,另一对可能遵循某些奇异、奇特的分布——但如果它们由相同的 copula 连接,它们将具有完全相同的斯皮尔曼相关性。一个特定的 copula,即高斯 copula,有一个参数 ρ\rhoρ 直接控制其相关性。这个 copula 参数与由此产生的斯皮尔曼 rho 之间存在一个优美、直接的数学关系,即 ρs=6πarcsin⁡(ρ2)\rho_s = \frac{6}{\pi} \arcsin(\frac{\rho}{2})ρs​=π6​arcsin(2ρ​)。例如,这个公式允许地球物理学家精确地设计一个水库的随机模型,使其物理属性之间具有恰好期望的等级相关性,而不管它们各自的分布是什么样的。

从医生的诊断到人工智能的基准测试,再到统计依赖的基本结构,斯皮尔曼等级相关证明了它远不止是一个简单的计算。它是一个多功能且深刻的概念,证明了以最通用和最稳健的形式寻找秩序的力量。