try ai
科普
编辑
分享
反馈
  • Kendall's tau-b

Kendall's tau-b

SciencePedia玻尔百科
核心要点
  • Kendall's tau通过计算一致(方向相同)和不一致(方向相反)的数据点对来衡量单调关系的强度。
  • 与Pearson相关系数不同,它能完美捕捉任何持续增加或持续减少的关系,无论其是否线性。
  • tau-b变体通过调整其计算方法,专门用于处理现实世界数据中常见的平级(tied ranks)问题。
  • 它具有广泛的应用,从生物学中的基因表达追踪到金融学中的风险建模,并与copula等其他统计学概念紧密相连。

引言

在探索和理解世界的过程中,科学家往往像侦探一样,不断寻找事物之间的联系。更高的教育水平是否会带来更高的收入?一种新药是否能改善患者的治疗效果?我们常常借助工具来衡量这些关系,但许多常用方法都假设关系是简单的直线形式。当关系更为微妙——持续上升,但呈曲线而非直线时,会发生什么?标准工具可能无法发现隐藏在非线性关系中的完美关联。本文介绍的Kendall's tau是一种强大而直观的统计度量,它通过关注等级顺序而非精确数值,克服了这一局限。它的运作方式如同一个“数据对陪审团”,判断两个变量之间的关系是否持续朝同一方向发展。

首先,在“原理与机制”一章中,我们将探讨Kendall's tau背后简洁而巧妙的逻辑,从计算一致对与不一致对,到利用其tau-b变体处理现实世界数据的复杂性。然后,在“应用与跨学科联系”一章中,我们将跨越生物学、生态学、金融学和神经科学等不同科学领域,见证这一稳健的工具如何揭示趋势、比较排名,并发现其他方法所忽略的深层联系。

原理与机制

想象你是一位观察世界的物理学家。你看到事物在运动、变化并相互影响。一个球被抛出,它会沿着一条路径运动。加热气体,其压力会增加。我们如何捕捉这些关系的本质?有时,这种关系是一条优美而清晰的定律,比如牛顿的 F=maF=maF=ma。但通常,尤其是在生物学、经济学或心理学这些纷繁而奇妙的世界里,联系并非如此纯粹。一个事物上升时,另一个事物也倾向于上升,但并非以完全可预测的方式。我们如何量化这种“倾向”?

这正是Kendall's tau相关系数试图回答的问题。它采用了一种极其简约的哲学:询问一个陪审团。

数据对陪审团

假设我们正在研究五名学生在统计学和计算机科学这两门课程中的表现,想看看在一门课上表现好是否意味着在另一门课上可能也表现出色。我们有他们的分数,但我们不纠结于具体数值,而是对每对可能的学生组合问一个简单的问题。

任取两名学生,比如学生A和学生B。我们看他们的分数。学生A在统计学和计算机科学两门课上的分数都比学生B高吗?或者,学生A在统计学上分数更高,但在计算机科学上分数更低?

这正是问题的核心。我们可以从所有可能的学生对中组成一个“陪审团”。对于每一对学生,我们都让他们“投票”。

  • 如果一名学生在两门科目上的排名都高于另一名学生,这对组合就是​​一致的 (concordant)​​。他们在排名上“达成一致”。他们投票支持正相关关系。
  • 如果一名学生在一门科目上排名更高,但在另一门科目上排名更低,这对组合就是​​不一致的 (discordant)​​。他们“存在分歧”。他们投票支持负相关关系。

假设我们有五名学生。我们可以组成的总对数是 (52)=10\binom{5}{2} = 10(25​)=10。这就是我们陪审团的规模。我们遍历所有十对组合并统计票数。在我们问题中的例子里,我们找到了7个一致对和3个不一致对。

最终的度量,我们称之为​​Kendall's tau​​(用希腊字母 τ\tauτ 表示),就是这次投票的结果。我们将一致对的数量(NcN_cNc​)减去不一致对的数量(NdN_dNd​),然后,为了将其置于-1到1的标准尺度上,我们用这个差值除以总对数。

τa=Nc−NdNc+Nd\tau_a = \frac{N_c - N_d}{N_c + N_d}τa​=Nc​+Nd​Nc​−Nd​​

对于我们的学生,这个值将是 τ=7−37+3=410=0.4\tau = \frac{7 - 3}{7 + 3} = \frac{4}{10} = 0.4τ=7+37−3​=104​=0.4。这个正值表明,在统计学上表现好的学生,在计算机科学上也倾向于表现良好。值为 111 表示完全一致(每一对都是一致对),−1-1−1 表示完全不一致(每一对都是不一致对),而 000 则表示一致对和不一致对的票数相互抵消,表明根本不存在单调关系。

这种计数方法有一个相当巧妙的计算技巧。如果你按一个变量对数据进行排序(例如,从最低排名到最高排名),那么不一致对的数量就等于另一个变量等级序列中的“逆序数”——即较大等级出现在较小等级之前的次数。这将问题转化为了一个经典的计算机科学难题,其求解速度远快于逐一检查每一对组合!。

单调性的力量

此时,你可能会想:“这是一种巧妙的计数方法,但为什么不直接使用我在第一堂统计课上学到的标准Pearson相关系数 rrr 呢?” 这是一个极好的问题,其答案揭示了Kendall方法的真正天才之处。

Pearson相关系数衡量的是​​线性​​关系的强度。它试图用一条直线来拟合数据。如果你的数据点完美地落在一条直线上,你会得到 r=1r=1r=1(或 r=−1r=-1r=−1)。但如果关系是完美的,却不是线性的呢?

考虑一个简单的物理定律:一个物体在重力作用下下落的距离与时间的平方成正比,即 y=x2y = x^2y=x2。如果我们在 x=(1,2,3,4,5)x = (1, 2, 3, 4, 5)x=(1,2,3,4,5) 进行测量,我们会得到 y=(1,4,9,16,25)y = (1, 4, 9, 16, 25)y=(1,4,9,16,25)。这是一个完美的、确定性的关系。随着 xxx 的增加,yyy 总是增加。然而,如果你为这些数据计算Pearson的 rrr 值,你会得到大约 r≈0.981r \approx 0.981r≈0.981。这个值很高,但不是1。为什么?因为这些点并不在一条直线上。Pearson的 rrr 看到了曲线,并因其非线性而“扣分”。

那么,Kendall's tau看到的是什么呢?对于这组数据,每一对点都是一致的。对于任意两点, xxx 值较大的点其 yyy 值也较大。完全没有不一致对。因此,Nd=0N_d=0Nd​=0,且 τ=Nc−0Nc+0=1\tau = \frac{N_c - 0}{N_c + 0} = 1τ=Nc​+0Nc​−0​=1。

Kendall's tau 捕捉了​​完美的单调关联​​。它不关心关系是直线、曲线还是任何其他形状,只要它始终朝同一个方向发展(始终增加或始终减少)。它衡量的是比Pearson的 rrr 更为根本的关系类型。

处理现实的复杂性:平级 (Ties)

在教科书问题的理想世界里,每个测量值都是独一无二的。但在现实世界中,数据是混乱的。两位金融分析师可能会对两种不同的资产给出相同的风险评级。两名学生可能会得到完全相同的考试分数。这些情况被称为​​平级 (ties)​​。

当一对观测值在其中一个变量上出现平时,它们就无法对该变量的变化方向“达成一致”或“存在分歧”。这个问题变得没有意义。因此,这样的数据对既不是一致的,也不是不一致的。这为我们的简单公式带来了问题,因为分母 Nc+NdN_c + N_dNc​+Nd​ 现在小于总对数了。

为了处理这个问题,人们引入了一个小小的修正:​​Kendall's tau-b​​。这个想法非常直观。分子保持不变,仍然是 Nc−NdN_c - N_dNc​−Nd​。但分母进行了调整。它变成了在第一个变量上没有平级的对数与在第二个变量上没有平级的对数的几何平均值。

τb=Nc−Nd(Ntotal−Nties in X)(Ntotal−Nties in Y)\tau_b = \frac{N_c - N_d}{\sqrt{(N_{\text{total}} - N_{\text{ties in X}})(N_{\text{total}} - N_{\text{ties in Y}})}}τb​=(Ntotal​−Nties in X​)(Ntotal​−Nties in Y​)​Nc​−Nd​​

这个分母代表了实际上可以就一致性或不一致性做出判断的对数。通过使用这个修正后的分母,τb\tau_bτb​ 能够恰当地解释因平级而丢失的信息。

平级的一个有趣而微妙的后果是,即使数据尽可能地一致,τb\tau_bτb​ 系数也无法达到完美的 111 或 −1-1−1。如果由于平级导致某些数据对无法被判断,那么“可能的一致性”总量就会减少,τb\tau_bτb​ 的最大值将小于1。这是一个绝佳的提醒:我们数据中的不确定性(如平级)为我们结论的确定性设定了根本性的限制。

从描述到推断

到目前为止,我们一直将 τ\tauτ 用作一个描述性统计量——一个概括我们样本特征的数字。但科学很少止步于描述。我们希望对世界做出论断。如果我们在一个学生样本中发现了学习动机与考试分数之间的相关性,我们想知道:这是一种在整个学生群体中都存在的真实效应,还是我们仅仅因为样本的偶然性而得出了这个结果?

这就是假设检验的领域。我们首先扮演“魔鬼代言人”的角色。我们提出一个​​零假设​​(H0H_0H0​),即在总体中,两个变量之间完全没有单调关系。用Kendall's tau的语言来说,这很简单:

H0:τ=0H_0: \tau = 0H0​:τ=0

然后,我们为样本计算 τ\tauτ 值,并确定在零假设为真的情况下,获得一个至少如此极端的值的概率。如果这个概率非常低(通常小于0.05),我们就拒绝零假设,并断定存在统计上显著的关联。因此,Kendall's tau 不仅仅是一个描述符,它还是一个强大的科学推断工具。

统计学的内在统一性

科学中基本概念最美妙之处或许在于它们很少孤立存在。它们常常是一个更深层次、统一结构的不同侧面。Kendall's tau 就是这方面的一个典型例子。

首先,考虑一个看似不同的统计工具:​​Mann-Whitney U 检验​​。这个检验用于确定两个独立样本(比如一个处理组和一个对照组)是否来自不同的分布。它的工作原理是计算一个组中的观测值大于另一个组中观测值的次数。

接下来是见证奇迹的时刻。想象一下,你把两个样本合并成一个大列表,并创建一个第二变量,它只是一个标签:来自第一个组的观测值为0,来自第二个组的为1。现在,如果你为这个人工数据集计算Kendall's tau——即观测值与其组标签之间的相关性——你会得到一个与Mann-Whitney U统计量直接、简单转换的结果!

τ=2UXYn1n2−1\tau = \frac{2U_{XY}}{n_1 n_2} - 1τ=n1​n2​2UXY​​−1

这是一个深刻的启示。它表明,检验两组之间的差异,本质上等同于衡量一个值与其群体身份之间的相关性。两个看似独立的统计思想,实际上只是同一枚硬币的两面。

这种联系甚至更为深刻。在现代概率论中,有一个强大的概念叫做​​copula​​(连接函数)。copula 就像一个描述随机变量间依赖关系的数学蓝图,它完全剥离了关于变量自身分布的任何信息,只保留纯粹的依赖结构。事实证明,Kendall's tau 是这个蓝图最自然的属性之一。它可以直接从copula函数本身计算得出,这表明 τ\tauτ 不仅仅是一个巧妙的计数技巧,更是一种基本的依赖性度量。

因此,从一个计算“一致”与“不一致”对的简单想法出发,我们探索了一个能够超越线性、处理真实数据复杂性并构成科学论断基础的工具。更重要的是,我们发现它与其他统计检验以及我们建模依赖关系的根本基础秘密相连。这正是科学的道路:简单而强大的思想,往往最终会揭示出自己是一幅更宏大、更美丽织锦中的一根丝线。

应用与跨学科联系

我们已经花了一些时间来了解Kendall等级相关的机制,学习了如何计算一致对和不一致对,以及如何处理平级的麻烦。这有点像学习国际象棋的规则——兵如何移动,后的威力,马的奇特跳法。这是必要的,但并非棋局的核心。真正的乐趣在于看到这些简单的规则在大师手中如何组合成惊人优美而复杂的策略。

现在,我们将观赏这场棋局。我们将拿起Kendall's τ\tauτ 这个简单的工具,看它如何在众多令人惊叹的科学学科中展现其洞察力。你会发现,它的力量不在于复杂性,而在于其优美的简洁性和稳健性。它只关心顺序、事物的序列,而这种根本性的关注点使它能够揭示那些被精确数值分散了注意力的其他方法所隐藏的联系。让我们开始这次巡礼吧。

揭示自然界的时间表

科学中最基本的问题之一是“接下来会发生什么?”我们不断地在时间中寻找模式、序列和趋势。Kendall's τ\tauτ 是一位趋势发现大师,尤其擅长发现“单调”趋势——即持续上升或持续下降的趋势,即使这种变化是摇摆不定、非线性的。

想象一下,你站在海洋中央的一个火山热点上。随着构造板块滑过静止的地幔热柱,一连串的岛屿相继诞生,如同串珠。最古老的岛屿在岛链的一端,最年轻的在另一端。现在,一位植物学家前来研究一个已经在这片岛屿上定居的特定植物科。生物地理学中的“演进法则”(progression rule)预测,生命演化应遵循地质演变:最古老的植物谱系应出现在最古老的岛屿上,其拓殖顺序应与岛屿的形成顺序一致。通过将岛屿按地质年代排序,并将植物谱系按进化年龄(通过DNA估算)排序,我们可以计算Kendall's τ\tauτ。一个强正相关将为这场跨越海洋的进化征程提供优雅的证据。

同样地,这种根据时间线追踪过程的思想也出现在生物学最前沿的领域。在发育中的胚胎内部,单个细胞正在经历一场旅程。它们从通用的干细胞开始,逐渐分化成肌肉、神经或皮肤细胞。生物信息学家可以捕获处于这一旅程不同阶段的数千个细胞,通过分析它们的遗传活动,将它们沿着代表发育轨迹的“伪时间”(pseudotime)轴进行排序。现在,问题变成了:哪些基因在驱动这一过程?我们可以对基因组中的两万个基因逐一进行分析,计算每个基因的表达水平与细胞在“伪时间”轴上位置之间的Kendall's τ\tauτ。一个具有较大正或负 τ\tauτ 值的基因,其活性在发育路径上是单调增加或减少的——这是一个“动态调控”的基因,很可能是发育故事中的关键角色。当然,当我们进行两万次统计检验时,有些结果会纯粹因为偶然性而显得显著。在这里,统计学再次提供了必要的护栏,使用像Benjamini-Hochberg程序这样的方法来控制“错误发现率”,确保我们只关注那些趋势真正异常的基因。

但如果时间线本身很棘手呢?想象一位生态学家正在监测一个慢慢被污染的湖泊。他们担心湖泊正接近一个“临界点”,届时它会突然从清澈健康的状态翻转为浑浊、藻类丛生的状态。一个被提出的早期预警信号是,随着系统变得不稳定,叶绿素水平的日常波动(方差)会稳步增加。为了检验这一点,我们可以测量方差随时间的变化,并计算Kendall's τ\tauτ 来判断是否存在上升趋势。然而,这里有一个陷阱:由于环境记忆效应,周二的方差与周一的方差并非独立。数据点是自相关的。标准的 τ\tauτ 显著性检验会因这种非独立性而被误导,可能过于频繁地“狼来了!”。但Kendall's tau的精神是稳健的。统计学家设计了巧妙的方法,如“块自举法”(block bootstrap),该方法以数据块而非单个数据点为单位进行重抽样。这个过程创建了新的、无趋势的时间序列,同时保留了原始的自相关结构,为我们提供了一个更可靠的基线来评判观测到的趋势。这是一个绝佳的例子,展示了统计工具如何能够被调整以尊重物理世界的现实。

比较的艺术

除了简单的趋势分析,当用于比较两个不同的排名时,Kendall's τ\tauτ 才真正大放异彩。世界充满了各种有序列表,探究它们彼此之间的关系是科学洞察力的一个深刻来源。

让我们回到发育中的胚胎。一系列事件——心脏的形成、四肢的出芽、神经管的闭合——像一曲精心编排的交响乐一样展开。现在,比较一下人类的交响乐与黑猩猩的交响乐。它们惊人地相似,但并非完全相同。通过对每个物种的发育事件进行排序,并计算Kendall's τb\tau_bτb​(处理平级的版本,用于同时发生的事件),我们得到一个单一的数字,量化了它们发育程序的总体相似性。但真正的魔力在于不一致对。每一对在两个物种间顺序颠倒的事件,都是进化分歧的一个具体音符,生物学家称之为“序列异时性”(sequence heterochrony)。Kendall's τb\tau_bτb​ 不仅给我们一个分数,它还递给我们一份清单,列出了两首交响乐出现差异的确切时刻,直接指明了进化在何处修改了发育的配方。

这种通过比较排名来理解变化的主题是普遍存在的。一位植物育种家可能想知道,在干旱、缺水的环境中表现“最佳”的玉米基因型,在灌溉良好的环境中是否仍然是最佳的。他们可以根据每个环境中一组基因型的产量对其进行排名。完美相关,即 τ=1\tau = 1τ=1,意味着排名完全相同——毫无意外。但如果一些在干旱田地中茁壮成长的基因型在湿润田地中表现不佳(反之亦然),排名就会发生变化,τ\tauτ 将小于1。这些排名变化,被称为基因型与环境的交互作用,是适应性的原始材料,也是农业和进化生物学的核心关切。在这里,有趣的问题往往不是“是否存在相关性?”(τ>0\tau > 0τ>0),而是“相关性是否完美?”(τ=1\tau = 1τ=1)。一个小于 111 的 τ\tauτ 值直接证明了环境的重要性,证明了一个领域的冠军并不能保证在另一个领域也是冠军。

当我们运用这种比较能力来评判我们自己的科学模型时,风险就更高了。试图理解帕金森病或阿尔茨海默病等疾病的神经科学家会构建复杂的计算机模型,来模拟错误折叠的蛋白质如何在大脑网络中传播。这样的模型可能会预测随时间推移将受到影响的大脑区域的特定序列。这就给了我们一个预测排名。与此同时,病理学家研究了处于疾病不同阶段的患者大脑,根据经验证据为我们提供了一个观察排名。Kendall's τb\tau_bτb​ 在此担当了裁判的角色。通过计算模型预测与临床现实之间的等级相关性,我们可以对我们理论的成功与否做出严谨、量化的评判。一个高的 τ\tauτ 值告诉我们,我们的模型捕捉到了关于疾病进展的某些真实情况,而一个低的 τ\tauτ 值则让我们重新回到绘图板前。在这些以及许多其他领域,比如在基因组学中我们关联不同分子标记的等级,Kendall's tau 作为一种稳健而直观的语言,用于比较各种排序。

更深层次的联系:从数据到机制

到目前为止,我们已将Kendall's τ\tauτ 视为一种出色的数据描述符。但它的作用远不止于此。科学有时会展现出令人惊讶而美妙的转折,这个简单的等级统计量为解锁更为复杂、更具机理性的世界模型参数提供了一把直接的钥匙。

这种联系在金融和风险管理领域,通过“copula”(连接函数)理论表现得最为明显。copula 是一个数学对象,它做了一件非常巧妙的事情:它将一个随机变量自身行为的描述(其边缘分布——例如,股票A收益率的分布)与其对其他变量依赖关系的描述(例如,股票A的收益率如何倾向于与股票B的收益率同步变动)分离开来。copula 就是纯粹的依赖结构。

人们已经发现了许多copula族,每一个都描述了一种不同“风格”的依赖关系。其中最著名的两个是高斯copula和学生t-copula。两者都由一个类似相关的参数 ρ\rhoρ 定义。一个关键的区别在于它们的“尾部依赖性”。高斯copula没有尾部依赖性,这意味着一个变量中的极端事件(如市场崩盘)只会使另一个变量中发生极端事件的可能性适度增加。然而,学生t-copula具有重尾和正尾部依赖性,这意味着崩盘倾向于同时发生——这对金融市场来说是一个更为现实的模型。

接下来是令人震惊的部分。对于一个庞大而重要的copula类别,即所谓的“椭圆copula”(它包括了高斯copula和学生t-copula),在模型的核心参数 ρ\rhoρ 和Kendall's τ\tauτ 之间存在一个普适、精确的关系:

ρ=sin⁡(π2τ)\rho = \sin\left(\frac{\pi}{2} \tau\right)ρ=sin(2π​τ)

这是一个非凡的结果。它表明,如果你简单地拿来数据,通过计算数据对来计算样本的Kendall's τ\tauτ——一个完全非参数、无假设的过程——你就可以将其代入这个公式,从而直接估计出你复杂参数模型的深层结构参数。这座连接非参数世界与参数世界的桥梁无比强大。它提供了一种计算上简单的方法来估计模型参数,即“矩估计法”,其结果可以与更具统计效率但计算密集的极大似然法等方法进行比较。这表明,Kendall's τ\tauτ 不仅仅是对一种模式的描述;在许多情况下,它是直接窥探产生该模式的引擎的一扇窗户。

从岛屿的年龄到基因的表达,从作物的表现到疾病的进展,再到金融模型的抽象世界,计算一致对和不一致对这个看似简单的想法一次又一次地证明了它的价值。它证明了简单而稳健的思想在统一我们对复杂世界的理解方面所具有的强大力量。