
我们如何衡量两种不同排名之间的一致性?无论是比较咖啡偏好、学生考试成绩,还是金融资产的表现,量化有序数据之间关系的需求都是一个普遍的挑战。虽然存在许多统计工具,但很少有像基于一个简单比较的概念那样直观而强大:两个项目是被以相同的相对顺序排名,还是相反?这个基本问题是理解一致对与不一致对的入口。本文旨在解决对一种稳健且可解释的关联度量的需求,这种度量超越了简单的线性关系。
本文将分两部分引导您了解这一基础统计概念。首先,在“原理与机制”部分,我们将解构一致对与不一致对的思想,了解如何计数,并以此构建优雅的肯德尔tau相关系数。我们将探讨其概率意义和主要优势,例如对离群值的稳健性及其捕捉任何单调趋势的能力。随后,“应用与跨学科联系”一章将揭示这一简单思想令人惊讶且深远的影响,展示计数配对如何成为一条共同的线索,将统计学、遗传学、医学乃至整个生态系统的研究联系在一起。
想象一下,你和一位朋友去了一家提供八种新混合咖啡的咖啡店。你们都决定将它们从最喜欢(排名第1)到最不喜欢(排名第8)进行排序。完成之后,你们把各自的列表并排放在一起。你如何用一个有意义的单一数字来量化你们的口味有多相似?你们是咖啡知音,还是你们的偏好处于风味谱的两端?这个比较两组排名的简单问题,是通往一个极具直觉性的统计概念的门户。问题的核心不在于排名本身,而在于成对项目之间的简单关系。
让我们看看你列表中的任意两种咖啡,比如“苏门答腊日出”和“埃塞俄比亚回响”。对于你的相对偏好,只有两种可能:你要么把苏门答腊排在埃塞俄比亚之上,要么反之。你的朋友也有同样两种可能。当我们比较你们的相对偏好时,奇迹就发生了。
如果你把苏门答腊排在埃塞俄比亚之上,而你的朋友也把苏门答腊排在埃塞俄比亚之上,那么你们对这一对的看法是一致的。我们称之为一个一致对。如果你们都把埃塞俄比亚排得更高,情况也是一样;关键在于你们两者的相对顺序是相同的。
然而,如果你把苏门答腊排得更高,但你的朋友却把埃塞俄比亚排得更高,那么你们对这一对的看法是相反的。我们称之为一个不一致对。
为了衡量整体的一致性,我们只需对列表上所有可能的咖啡配对进行这种比较。如果有个项目,唯一的配对总数由二项式系数给出。对于你们的8种咖啡,那就有对需要考虑。
让我们用一个涉及六款新型号智能手机的例子来具体说明,这六款手机由两位科技评论员进行排名。假设按第一位评论员的排名对型号进行排序后,第二位评论员的排名构成了序列。 要找到不一致对,我们在这个序列中寻找“逆序”——即未按自然顺序排列的数字。
虽然和的原始计数很有用,但它们在不同规模的研究中不易比较。15对中有12个一致对,与100对中有12个一致对是不同的。我们需要一个标准化的度量,一个总是在相同尺度上的度量。
这就是肯德尔tau系数发挥作用的地方,它用希腊字母表示。其最常见的形式(称为tau-a,适用于没有平级的情况)定义得非常简洁:
分子是一致对的净数量。分母就是总配对数。这个公式将结果缩放到-1和+1之间。
对于那位研究咖啡品尝师的农业研究员,他在8种咖啡中发现了20个一致对,我们可以轻松计算出。总配对数是。不一致对的数量是。因此,该系数为:
这个正值表明品尝师之间存在中等程度的一致性。
肯德尔的真正力量在于它不仅仅是一个抽象的指数;它有一个直接的、概率性的解释。让我们稍微改写一下公式。如果我们设为一致对的比例,为不一致对的比例,那么:
由于(再次假设没有平级),我们可以用来表示这些比例:
考虑两位花样滑冰裁判,他们的排名导致。这是什么意思?这不仅仅是“强负相关”。我们可以计算出不一致的概率:
这给了我们一个非常清晰的陈述:“如果你随机挑选任意两名滑冰选手,这两位裁判在谁表现更好这个问题上意见不一的概率是90%。”这将从一个单纯的统计量转变为一个关于被测关系的具体陈述。
你可能想知道,“为什么不直接用熟悉的皮尔逊相关系数呢?”这是一个深刻的问题,其答案揭示了像这样基于秩次的度量的独特优势。
皮尔逊衡量的是线性关系的强度。它问的是:“数据点是否紧密地聚集在一条直线周围?”但如果关系不是一条直线呢?
考虑一位分析师的这个数据集: 这是完美的数学关系。随着的增加,总是增加。这被称为完美的单调关系。然而,它是一条曲线,不是一条直线。如果你计算这个数据的皮尔逊,你会得到一个大约的值,这个值非常高,但关键是,它不是。皮尔逊看到这些点不落在一条直线上,并因此惩罚了相关性得分。
现在,让我们通过肯德尔的视角来看待它。任意挑选两对,比如和。如果,那么是否成立?对于函数(当为正数时),答案永远是肯定的。每一对都是一致的。根本没有不一致的对。因此,,并且:
肯德尔完美地捕捉了单调关系的强度,忽略了它不是线性的事实。这在许多科学领域,从生物学到经济学,都是一个深远的优势,因为在这些领域中,关系通常是持续增加或减少的,但很少遵循完美的直线。
在我们迄今为止的整洁示例世界中,没有两个项目获得相同的排名。但现实世界是混乱的。想象一下两位金融分析师用一个简单的等级来评估资产:“低风险”、“中风险”、“高风险”。平级不仅可能出现,而且是不可避免的。
如果一对资产出现平级,会发生什么?如果两种资产从分析师X那里得到相同的风险评级,那么项就变为零。这意味着这对既不是一致的,也不是不一致的。它对或都没有贡献。这给我们简单公式的分母带来了问题,因为它不再是总配对数。
为了处理这个问题,统计学家开发了一个稍作修改的版本,称为肯德尔tau-b。核心思想是相同的:分子仍然是。变化在于分母,它被调整以考虑因平级而“丢失”的配对。分母变成了第一个变量中未出现平级的配对数与第二个变量中未出现平级的配对数的几何平均值。这个优雅的解决方案使得即使在存在平级的情况下,仍有可能达到+1或-1,从而提供一个公平的关联度量。
也许肯德尔最令人印象深刻、也最高级的特性是它对离群值的抵抗力。离群值是一个与其他数据点截然不同的数据点,可能是由于测量失误或简单的数据录入错误造成的。
皮尔逊相关系数以对离群值敏感而闻名。因为它使用数据的实际值,一个远离其他点的单点可以像引力一样,将计算出的最佳拟合线拉向它,从而急剧改变的值。事实上,在一个大数据集中,一个糟糕的数据点就可以将一个接近完美的相关性拉低到几乎为零。用技术术语来说,它的崩溃点——即必须被破坏以使估计值变得无用的数据比例——实际上是零。
另一方面,肯德尔是一个稳健的统计量。它操作的是秩次,而不是数值。假设我们有房价与房屋面积的数据。如果一栋房子的价格被意外地多输入了三个零,它的价值就会变得天文数字。对皮尔逊来说,这是一场灾难。但对肯德尔来说,那栋价格荒谬的房子只是在价格上被赋予了“第1”的排名。它的影响力是有限的。无论其价格是1000万美元还是100亿美元,它的排名都保持不变。
这种稳健性是可以量化的。肯德尔的渐近崩溃点是。这意味着你需要破坏将近29%的数据点,才能保证将的值强制变为+1或-1,而不管“好”数据是什么样子。这种固有的稳定性使得肯德尔成为任何处理真实世界数据的人的宝贵工具,因为真实世界的数据很少像我们希望的那样干净或行为良好。从计数一致与不一致的简单行为出发,我们得到了一个不仅直观、可解释,而且能强有力地抵抗现实噪音的度量。
我们花了一些时间来了解一致对与不一致对的机制。我们已经看到如何对它们进行计数,以及如何将这些计数组合成一个单一的数字,即肯德尔,它告诉我们两个排序之间的一致性。从表面上看,这似乎是统计学家使用的一个小众工具。或许是一个精巧的数学奇趣。但这与事实相去甚远。
一个基础科学思想的真正美妙之处不在于其复杂性,而在于其简单性及其影响范围。取两个项目,再取两个,然后简单地问:“它们的相对顺序是否相同?”这就是那些深刻简单却又强大的思想之一。这是一个我们可以用来探究世界的镜头。本章的目标不是学习更多的公式,而是开始一段旅程。我们将看到,这个谦逊的一致性概念如何提供一条共同的线索,将统计学、遗传学、进化生物学、医学,甚至整个生态系统的研究编织在一起。这是一个关于科学统一性的、令人惊讶而美丽的故事。
让我们从一个熟悉的场景开始:一间教室。一位教育者想知道,在统计学上表现好的学生是否在计算机科学上也倾向于表现好。回答这个问题的一种方法是查看他们的分数。我们可以任意取两名学生;如果统计学分数较高的学生计算机科学分数也较高,我们称这对为一致对。如果他们的计算机科学分数较低,这对就是不一致对。通过计算所有学生中的一致对和不一致对,我们可以计算肯德尔来看看排名的一致性如何。这给了我们一个稳健的关联度量,它不关心确切的分数,只关心相对排名。它回答了一个根本问题:“在一门学科上表现更好是否意味着你可能在另一门学科上表现也更好?”
这不仅仅是一种计算相关性的方法。这种比较配对的思想是非参数统计学中一些最重要工具的引擎——这些方法使我们能够在不对数据分布做强假设的情况下得出结论。
想象一家公司想知道一种新的环保咖啡包装是否能让咖啡味道更好。他们给一组人旧包装的咖啡,给另一组人新包装的咖啡,并让他们对味道进行评分。他们如何判断是否存在真正的差异?我们可以将“旧包装”组中的一个人与“新包装”组中的一个人组成所有可能的配对。如果来自新包装组的人给出了更高的评分,那么这对就是一致的;如果他们给出了更低的评分,就是不一致的。如果新包装真的改善了感官上的味道,我们预计会发现更多的一致对而不是不一致对。检验统计量通常就是一致对的数量减去不一致对的数量,。这是曼-惠特尼U检验的核心逻辑,该检验是非参数假设检验的基石。
现在是一个启示的时刻。事实证明,这个用于比较两组的检验和用于测量相关性的肯德尔tau并不仅仅是相关的;在深层次上,它们是同一回事。如果你从咖啡实验中获取数据,创建一个包含所有评分的单一列表,并将每个评分与一个标签配对(例如,旧包装为,新包装为),你可以在这个合并的数据集上计算肯德尔。结果与曼-惠特尼U统计量成正比。具体来说,,其中是曼-惠特尼U统计量(跨组一致对的数量),和是组的大小。这是数学统一性的一个美丽例证:一个旨在比较两组分布的检验和一个旨在测量等级相关性的系数,都是由完全相同的基础砖块——计数一致对和不一致对——构建的。
一致性的力量远远超出了纯粹的统计学范畴;它是生物学家试图解读生命之书的重要工具。思考生物学中最古老的问题之一:先天与后天。像对某种疾病的易感性这样的性状,有多少是由于我们的基因,又有多少是由于我们的环境?双胞胎研究提供了一个自然实验。单卵(MZ)或同卵双胞胎共享近100%的DNA,而双卵(DZ)或异卵双胞胎平均共享50%的DNA。
在这种情况下,如果一对双胞胎都患有该疾病,则他们是“一致的”;如果只有一人患病,则他们是“不一致的”。如果一种疾病具有很强的遗传性,我们预计同卵双胞胎中的一致率会远高于异卵双胞胎。通过比较这些比率——例如,使用一种称为先证者一致率的谨慎指标,该指标考虑了患者是如何被发现的——遗传学家可以估计性状的遗传度。如果DZ一致率超过MZ一致率的一半,这表明共同的家庭环境也起着作用。这种简单的配对状态比较在理解无数人类疾病的遗传基础上起到了关键作用。
这个概念也帮助我们观察进化过程。进化不仅仅创造新基因;它还调整现有发育过程的时间和顺序。这被称为异时性。想象一下,追踪两个相关物种中十二个不同发育里程碑发生的顺序。事件的序列是被保守了,还是进化打乱了顺序?我们可以按每个物种中事件的发生时间对它们进行排名,然后计算两个排名列表之间的肯德尔。完美的相关性()意味着发育序列被完美保守。任何偏离的情况都是进化改变的证据。特定的不一致对就是确凿的证据——它们正是在一个物种的发育时间线上相对于另一个物种交换了位置的事件。
这种排名稳定性的思想在农业和进化生态学中也至关重要。植物育种家希望找到不仅在一种理想环境中表现良好,而且在一系列条件下都表现良好的基因型。一个基因型可能在湿润年份是表现最佳的,但在干旱年份却是最差的。这种命运的逆转是基因型与环境互作的一个例子。我们可以通过在两种不同环境中对其表现(例如,作物产量)进行排名并计算肯德尔来量化基因型的稳定性。接近的值表明“最佳”基因型总是最好的,使它们成为可靠的选择。低的值揭示了强烈的“交叉”互作,其中排名被重新洗牌,而不一致对的比例确切地告诉我们有多少比例的基因型配对交换了排名。
也许最现代、最字面的应用来自基因组学。我们的基因组是一本30亿字母的文本。为了阅读它,科学家使用“双末端测序”,它读取微小DNA片段的两端。对于一个给定的片段,我们期望这两个读长以一种特定的方式映射回参考基因组:相互指向,并由一个可预测的距离隔开。这是一个一致读长对。现在,如果基因组有一个大的结构错误,比如染色体的一个片段被首尾翻转(倒位),会发生什么?一个跨越这个倒位边缘的DNA片段,其一端将正常映射,另一端将映射到翻转区域内。当映射到标准参考基因组时,这对现在将显示为不一致的:读长可能指向同一方向或相距得不可思议地远。类似地,当两个不同的基因被错误地融合在一起时(这是癌症中的常见事件),一些读长对的一端将映射到第一个基因,另一端映射到第二个基因,从而产生另一种不一致信号。在生物信息学中,这些不一致读长对的集群是让研究人员能够精确定位患者DNA中主要的、通常是致病的重排位置的标志性特征。在这里,一个简单的“次序错乱”对的概念变成了一个强大的诊断工具。
在医学领域,最具挑战性的任务之一是预测患者的未来。医生可能会开发一个模型,给患者一个疾病复发的“风险评分”。我们如何知道这个模型是否好用?情况很复杂,因为一些患者可能会失访,或者研究可能在他们复发之前就结束了。他们的数据是“删失的”。
在这里,一致性的概念再次提供了一个优雅的解决方案。我们可以构建所有可能的患者配对,其中我们可以确定一个患者比另一个更早出现结局(例如,患者A在6个月时复发,而患者B在观察10个月时仍未复发)。对于每个这样的有效配对,我们问:事件发生较早的患者(患者A)是否也从我们的模型中获得了较高的风险评分?如果是,这对就是一致的。一致对的总比例被称为一致性指数,或c-统计量。它是评估生存分析中预后模型最重要的指标之一,告诉我们对于任意随机选择的两个人,模型正确排序其风险的概率。
最后,让我们把视野放大到最大的尺度。生态学家研究庞大复杂的相互作用网络,例如哪些植物由哪些昆虫授粉。他们可能会通过将植物物종从连接最广的(拥有最多的授粉伙伴)到最少的进行排名来组织这个网络。但这个排名有多稳健?如果他们在不同的一天收集数据,排名会完全改变吗?为了回答这个问题,他们可以使用一种称为自助法的统计技术来模拟新的数据集。对于每个模拟的数据集,他们会生成一个新的排名。然后,他们可以通过计算原始排名与所有自助法排名之间的平均肯德尔来衡量原始排名的稳定性。高的平均值意味着观察到的结构是稳定和稳健的。低的平均值则警告说,该结构是脆弱的,并且高度依赖于收集到的特定数据。这使得科学家能够为他们研究的生态系统本身的结构附上一个置信度量。
从简单的学生排名到生态系统的基本结构,我们都看到了同样的基本思想在起作用。这种简单、耐心地将事物两两比较,并询问它们的顺序是否一致的行为,给了我们一把万能钥匙。它解锁了对统计关系、遗传、进化、疾病和复杂系统稳定性的更深层次理解。这是一个惊人的提醒,在科学中,最强大的思想往往是最优美简洁的。