Cohen's Kappa

玻尔百科

核心要点

Cohen's Kappa 通过明确校正可能由随机偶然产生的一致性来衡量评估者间的一致性。
“kappa 悖论”揭示了该统计量对类别流行率的敏感性，即如果某一类别极为普遍，即使原始一致性很高，也可能得出较低的 kappa 值。
Kappa 衡量的是信度（评估者之间的一致性），这与效度或准确性（与已知黄金标准相比的正确性）有区别。
从医学诊断、人工智能模型验证到法律和伦理评估，它是在不同领域确保判断可信度的基础工具。

引言

在任何依赖人类判断的领域，从艺术评论到医学诊断，都会出现一个根本性问题：我们如何确定两位专家看到的是同一事物？仅仅计算他们达成一致的次数可能具有极大的误导性，因为高度的一致性常常可能纯粹由偶然产生。本文通过探讨 Cohen's Kappa 来直面这一问题。Cohen's Kappa 是一种精妙的统计工具，旨在衡量超出运气所能预测的评估者间信度。我们将首先深入探讨 kappa 的“原理与机制”，解构其公式，并揭示其提供的精微见解，例如著名的 kappa 悖论。随后，我们将遍览其多样的“应用与跨学科联系”，展示这一概念如何为医学、人工智能和法律等不同领域奠定信任的基石。让我们从揭开简单一致性的幻象开始。

原理与机制

简单一致性的幻象

假设有两位艺术评论家，我们称之为 Alice 和 Bob，他们正在对一系列画作进行评判，将其分为“杰作”或“非杰作”。在评审了 200 幅画作后，他们发现在其中 180 幅上达成了一致。这是一致性高达 90%！听起来很了不起，不是吗？我们可能会倾向于得出结论：Alice 和 Bob 具有非常相似的审美观。这种原始的一致性百分比，统计学家称之为观察一致性（Observed Agreement），或 $P_o$ 。

但请等一下。如果他们评审的画作中有 95% 都很糟糕，坦白说就是这样，那该怎么办？如果 Alice 和 Bob 都具备基本的能力，他们都会将大多数画作标记为“非杰作”。他们可能仅仅通过从众，就能达成很高的一致率，而无需任何深刻、共同的见解。他们的高度一致性可能只是一种幻象，是被大量容易做出的判断所夸大的。

这揭示了一个根本性问题。要真正理解两个人（或两个计算机算法，或两个诊断测试）的一致性有多好，我们不能只看他们得出相同结论的次数。我们必须提出一个更微妙的问题：他们的一致性比我们从纯粹的、盲目的运气中预期的要好多少？

揭示偶然性：独立性模型

要回答这个问题，我们首先需要一种量化“运气”的方法。这里的绝妙之处在于，想象一个 Alice 和 Bob 完全独立做出判断的世界。他们互不交谈，甚至不看对方的笔记。每个人只是将自己的个人倾向或“偏见”应用于任务中。

假设我们查看他们各自的记录。也许 Alice 是个严苛的评论家，只将 10% 的画作标记为“杰作”。而 Bob 则稍显慷慨，将 20% 的画作标记为“杰作”。如果他们的判断真正独立，就像两次独立的抛硬币一样，他们两者纯粹出于巧合将同一幅画标记为“杰作”的概率，就是他们各自倾向的乘积： $0.10 \times 0.20 = 0.02$ 。同样，他们都将其标记为“非杰作”的概率是 $(1 - 0.10) \times (1 - 0.20) = 0.90 \times 0.80 = 0.72$ 。

我们仅凭偶然性所期望的总一致性是这些可能性的总和：在“杰作”上达成一致或在“非杰作”上达成一致。因此，总的期望一致性（Expected Agreement），或 $P_e$ ，将是 $0.02 + 0.72 = 0.74$ 。这意味着，即使 Alice 和 Bob 没有任何共同的艺术品味，我们仍然期望他们仅因为各自的评分模式，就能在 74% 的情况下达成一致！

Kappa 系数：衡量超越偶然的一致性

现在我们有了看穿幻象的工具。我们有我们看到的（ $P_o$ ，观察一致性）和我们从偶然中期望的（ $P_e$ ）。他们共同见解的真正衡量标准——即不仅仅是巧合的一致性——是这两者之差： $P_o - P_e$ 。这是他们实现的超出盲目运气所能预测的一致性程度。

但我们希望将其置于一个标准尺度上。如果偶然一致性已经是 90%，那么“比偶然高 0.1”的一致性可能令人印象深刻；但如果偶然一致性只有 10%，那就没那么显著了。所以，我们对其进行归一化。我们问：超出偶然的最大可能一致性是多少？嗯，完美的一致性是 $100\%$ （或比例为 $1$ ）。因此，超出偶然的总“改进空间”是 $1 - P_e$ 。

这就是 Cohen's Kappa ( $\kappa$ ) 背后精妙的思想。它就是实际达成的超出偶然的一致性与最大可能的超出偶然的一致性之比： $\kappa = \frac{P_o - P_e}{1 - P_e}$

让我们回到我们的评论家。假设他们的观察一致性是 $P_o = 0.90$ 。我们计算出他们的期望偶然一致性是 $P_e = 0.74$ 。他们的 kappa 值将是 $\kappa = \frac{0.90 - 0.74}{1 - 0.74} = \frac{0.16}{0.26} \approx 0.615$ 。这个值有一个绝佳的解释：Alice 和 Bob 成功地实现了约 61.5% 的非偶然因素可能达成的一致性。与我们开始时简单的“90% 一致性”相比，这是一个更为诚实和富有洞察力的数字。这正是在确定（例如）人类标注者提供的标签是否足够可靠以训练医疗人工智能系统时所需要的那种计算。

流行率悖论：为何背景至关重要

故事在这里变得非常有趣，并揭示了 kappa 的真正力量。让我们考虑一个临床环境下的两种情景，其中两位医生将 200 名患者分类为患有或未患有某种疾病。

在情景 1 中，该疾病很常见。医生们对 200 名患者中的 180 名达成了一致，因此 $P_o = 0.90$ 。在计算了他们各自的倾向后，我们发现偶然一致性 $P_e = 0.50$ 。这得出了一个非常可观的 kappa 值 $\kappa = \frac{0.90 - 0.50}{1 - 0.50} = 0.80$ ，表明一致性极好。

在情景 2 中，该疾病很罕见。医生们也对 200 名患者中的 180 名达成了一致，因此他们的观察一致性是相同的： $P_o = 0.90$ 。他们做出的一致和不一致判断的数量完全相同。但由于该疾病罕见，两位医生都将大多数患者归类为“无病”。这扭曲了他们各自的评分模式。当我们计算此情景下的偶然一致性时，我们发现它飙升至 $P_e = 0.82$ 。现在，kappa 值为 $\kappa = \frac{0.90 - 0.82}{1 - 0.82} \approx 0.44$ 。

看看这个！相同的原始一致性 (90%) 产生了两个截然不同的 kappa 值：0.80 和 0.44。这就是著名的 kappa 悖论。这不是该统计量的一个缺陷，而是其最大的优点。它告诉我们背景至关重要。当类别均衡时（情景 1），90% 的一致性远比当某个类别极为普遍以至于仅靠猜测多数结果就能达成高一致性时（情景 2）更令人印象深刻。Kappa 正确地惩罚了第二种情景中的一致性，因为其中大部分是“容易”的，并且是偶然所期望的。这在生物信息学等领域是一个关键问题，在这些领域中，人们可能在庞大的基因组中寻找非常罕见的“峰值”，而高的原始一致性可能完全具有误导性。

测量的世界：Kappa、准确性与相关性

理解 kappa 是什么至关重要，但理解它不是什么也同样重要。人们常常混淆三个相关但截然不同的概念：信度、效度和关联性。

信度 vs. 效度（准确性）：Kappa 衡量的是信度——即评估者之间的一致性。它回答的是“评估者们倾向于给出相同的分数吗？”这个问题。它不衡量效度（或准确性），效度是关于与已知事实或“黄金标准”相比的正确性。想象一下，两位病理学家以同样错误的方式接受了培训。他们可能在每一个肿瘤样本上都与对方完全一致，得出 kappa 值为 1.0，但与明确的基因检测结果相比，他们两者却一直都是错的。Kappa 告诉你你的测量尺是否彼此一致，而不是它们是否测量了正确的长度。另一方面，准确性需要一个黄金标准来进行比较，并且是机器学习中用于评估分类器性能的众多指标之一。

一致性 vs. 关联性（相关性）：Kappa 衡量的是一致性，这是一个比关联性（由皮尔逊相关系数等统计量衡量）更严格的标准。要达成一致，评估者必须指定完全相同的类别。相关性则更为宽松；它衡量的是评分是否倾向于同步变化。例如，如果评估者 A 的给分总是比评估者 B 高一分，那么他们将具有完美的相关性，但一致性却很差。对于简单的二元分类，kappa 和相关系数（也称作 phi 系数）在数值上是相同的，当且仅当评估者具有相同的边际分布——也就是说，他们说“是”或“否”的总体倾向相同。当他们的个人偏见不同时，这两个衡量标准就会出现分歧，各自讲述故事中略有不同的部分。

超越基础：拓展视野

kappa 的简洁之美在于其核心原理可以扩展到更复杂的情境中。

更多类别：如果评估者将某物分为三个或更多类别，例如癌症筛查测试中的“阳性”、“不确定”或“阴性”，该怎么办？。其逻辑完全成立。观察一致性 $P_o$ 是列联表对角线上各项比例的总和（在“阳性”上一致 + 在“不确定”上一致 + 在“阴性”上一致）。期望一致性 $P_e$ 是为每个类别单独计算的偶然一致性的总和。公式保持不变，捕捉了在任意数量的名义类别中超越偶然的一致性的本质。

有序数据和加权 Kappa：如果类别具有自然顺序怎么办？考虑病理学家将肿瘤分级为 1 级、2 级或 3 级。1 级和 2 级之间的分歧显然没有 1 级和 3 级之间的分歧严重。标准 kappa 将这两种分歧同等视为错误。这就是加权 Kappa 发挥作用的地方。它允许我们为“近似失误”给予部分分数。我们可以定义一个权重系统，其中大的分歧比小的分歧受到更重的惩罚。这使得加权 kappa 在处理有序量表时成为一种更细致、更合适的信度评估工具，反映了对测量和误差本质的更深理解。它表明，kappa 核心的那个简单而精妙的思想可以被极其灵活地调整，以适应现实世界的丰富复杂性。

应用与跨学科联系

现在我们已经熟悉了 Cohen’s Kappa 的机制——它是如何构建的以及这些数字意味着什么——我们可以踏上一段更激动人心的旅程。我们将探索这个巧妙的工具能将我们带往何方。一致性问题并非某种尘封的学术奇谈，而是几乎所有需要判断的人类活动核心的一项根本性挑战。如果专家自己都无法达成一致，我们如何能信任一个诊断、一项科学发现，甚至一项法律裁决？Cohen’s Kappa 是我们穿越这片不确定性景观的向导，是一盏照亮人类（甚至非人类）判断可靠性的明灯。我们将看到这个单一而精妙的思想如何贯穿医学、技术、法律乃至伦理学的肌理，揭示在追求可信知识过程中的美妙统一性。

基石：医学诊断中的信度

让我们从医学界开始，在这里，判断可能意味着疾病与健康之差。想想病理学家，许多医学谜团的最终裁决者。想象一下，他们中的两位正透过显微镜观察同一片组织薄片。他们看到的是同一个东西吗？

有时，证据是明确的。当使用特殊的 Grocott 六胺银（GMS）染色法寻找真菌时，如果存在，这些生物体会被染成与绿色背景形成鲜明对比的黑色。在这种情况下，我们期望两位训练有素的观察者几乎能完全一致，一项研究可能会发现非常高的 kappa 值，比如大约 $0.8$ ，这表明了超出偶然预测的“近乎完美”的一致性。但医学很少如此黑白分明。如果他们正在寻找更细微的线索，比如“海绵水肿”——皮肤细胞间的轻微肿胀呢？这一发现关乎程度和解读。在这种情况下，达成一致自然更难。一项研究可能会发现一个较低但仍有意义的 kappa 值，比如 $0.6$ ，表明“中等”程度的一致性。你看，Kappa 不仅给我们一个合格/不合格的评分；它还为我们提供了任务本身内在模糊性的度量。这对于实验室的质量保证至关重要，例如那些根据细胞化学染色对白血病细胞进行分类的实验室，确保两位技术人员看到同样的东西是获得可靠诊断的第一步。

这一挑战并不仅限于显微镜。想想 René Laennec，他在 19 世纪初发明了听诊器，以便更好地听到胸腔内的声音交响。当医生听诊肺部“啰音”时，她是在解读一种声音模式，而不是从刻度盘上读取数字。为了标准化“啰音”的含义，我们必须首先确保两位医生在听诊同一个胸腔时，能够可靠地就其是否存在达成一致。Kappa 让我们能够衡量这种一致性，并让我们相信这一发现是一个真实、可复现的体征，而不仅仅是听诊者的臆想。

诊断的世界也可能比简单的“是”或“否”更复杂。一位寄生虫学家可能需要区分引起一种名为“蝇蛆病”的讨厌感染的四种不同蝇类幼虫。在这种情况下，简单的准确率分数可能会产生误导。Kappa 优雅地处理了这种多类别问题，计算了所有可能选择对之间的偶然一致性，并为我们提供了一个单一而强大的数字，总结了鉴定过程的整体可靠性。

现代前沿：人、机器与医学

在人工智能时代，可靠判断的问题变得更加紧迫。我们正在构建强大的算法来帮助我们诊断疾病，我们必须对它们提出同样的问题：我们能信任它们的判断吗？

想象一下，我们训练一台计算机将前列腺活检样本分类为良性、低级别癌症或高级别癌症。我们如何知道它是否优秀？我们可以将其答案与一位专家病理学家的“黄金标准”进行比较。模型的准确率——它答对的百分比——可能看起来很可观。但 kappa 迫使我们提出一个更深层次的问题。我们从经验中得知，如果我们将同一组切片交给两位专家病理学家，他们也不会完全一致！他们经偶然性校正后的一致性可能会产生一个 kappa 值，比如说 $0.52$ （“中等”）。这是一个关键的基准：人与人之间的信度。

现在，我们用我们的人工智能与其中一位病理学家进行测试，发现 kappa 值仅为 $0.34$ （“尚可”）。简单的准确率可能掩盖了这一点，但 kappa 揭示了真相：我们的人工智能尚未达到人类同事的水平。目标不一定是完美的 kappa 值 1.0（这即使对人类来说也可能是不可能的），而是达到或超过现有的人类观察者间信度标准。Kappa 为这种比较提供了公平而严谨的框架。

这一原则延伸到医疗保健领域的“大数据”革命。研究人员正在创建“可计算表型”，这是一种扫描数百万份电子健康记录（EHR）以自动识别患有某种疾病（如 2 型糖尿病）患者的算法。为了验证这样的算法，我们可能会请两位临床医生手动审查一部分病历样本并提供他们自己的专家判断。但在我们将算法与临床医生进行比较之前，我们必须先问：这两位临床医生之间是否达成一致？通过计算两位人类评审员之间的 kappa 值，我们首先建立了一个可靠的“基本事实”。如果临床医生自己都无法达成一致，那么算法就没有一个稳定的目标可以追求。Kappa 是确保我们向数据驱动医学的探索建立在坚如磐石而非流沙之上的必要第一步。

超越临床：Kappa 在法律、伦理与社会中的应用

对可靠判断的追求远远超出了医院的围墙，而 kappa 也随之同行。思考一下医学与法律的深刻交集。临床医生常常必须确定患者是否具有同意或拒绝治疗的“决策能力”。这一判断不仅仅是医学评估；它是一项可能中止个人基本自主权的法律裁定。如果两位评估同一位患者的临床医生对患者的能力得出不同结论，那就有严重问题了。使用 kappa 进行评估者间信度评估可以揭示过程中的不一致性。低 kappa 值表明，对患者权利的裁定可能更多地取决于运气——他们碰巧遇到哪位临床医生——而不是基于一致、有原则的评估。因此，Kappa 不再仅仅是一个统计数据；它成为捍卫正义和患者权利的工具。

也许最深刻的联系是在叙事伦理学领域找到的。在这里，“数据”不是数字或图像，而是患者的故事——关于痛苦、希望和疾病经历的丰富个人记述。研究人员可能会尝试将这些叙事编码为主题，例如“治疗负担”。这种解读行为承载着巨大的伦理分量。尊重个人的原则要求我们忠实地倾听患者的声音。如果编码过程不可靠——如果两位编码员听着同一个故事，却无法就患者是否在表达负担达成一致——那么我们就没有履行我们最基本的倾听责任。低 kappa 值意味着我们的“发现”被我们自己的解读噪音所污染。在这种背景下，高的评估者间信度不是一个方法论上的勾选项目；它是一个伦理前提。它证明我们正在听到患者真正在说什么，这是任何公正和仁慈回应的必要基础。

让我们以一个风险最高的场景来结束：大规模伤亡事件。在灾难的混乱中，分诊官必须做出迅速的、生死攸关的决定。这位病人是被“正确”还是“不正确”地分诊了？为了确保这项关键任务的质量和一致性，我们可以模拟这些场景，并让资深外科医生对这些决定进行评级。如果我们发现 kappa 值为 $0.46$ 呢？在某些量表上，这是“中等”一致性。但在这种情况下，这是灾难性的低。这意味着在生死攸关的决定上存在巨大分歧。在这里，任务的风险决定了标准。对于一个低风险的市场调查来说可能可以接受的 kappa 值，在生命攸关的时刻是完全不可接受的。团队必须回去重新培训，直到他们达到 $0.8$ 或更高的 kappa 值。Kappa 不仅给我们一个数字；它迫使我们进行一场关于“足够好”意味着什么的关键对话。

从载玻片上的单个细胞到人类自主的复杂性，从听诊器的发明到人工智能的验证，Cohen's Kappa 提供了一种单一、统一的语言来讨论信度。它是一种追求智识诚实的工具，迫使我们直面自己判断中的模糊性。通过为我们提供一种衡量和提高一致性的方法，它帮助我们一次一个判断地构建一个更值得信赖和理性的世界。