观察者间变异性

玻尔百科

定义

观察者间变异性是指不同观察者在进行同一项测量或评估任务时所表现出的系统性差异，它与单个观察者内部的随机不一致性有所区别。该概念在医学临床决策和人工智能领域具有重要意义，尤其是在评估诊断可靠性以及量化任务固有的不确定性方面。在统计学上，通常使用 Cohen’s Kappa 系数处理分类数据，或使用组内相关系数来衡量连续数据的一致性。

核心要点

观察者间变异性指的是不同观察者之间的系统性差异，这与观察者内部变异性不同，后者是单个观察者内部的随机不一致性。
诸如Cohen's Kappa系数（用于分类数据）和组内相关系数（ICC）（用于连续数据）等统计工具，对于量化超出偶然预期的观察者一致性至关重要。
在临床决策阈值附近，观察者变异性的影响最为关键，因为微小的分歧可能导致诊断和治疗上的显著差异。
在人工智能领域，对人类观察者分歧进行建模有助于量化任务的内在模糊性（偶然不确定性），从而能够创建更稳健、更可靠的模型。

引言

每一次测量，从简单的长度测量到复杂的医学诊断，都存在变异。这种不一致性远非简单的错误，而是人类判断的一个基本方面，具有深远的影响。专家之间观察的差异可以影响患者的治疗结果，塑造法律标准，甚至定义人工智能的极限。本文对这一现象，即观察者间变异性，进行了全面的探讨。它旨在填补一个关键的知识空白：我们承认分歧的存在，但要如何理解其发生的原因以及如何进行管理。读者将通过两个主要部分进行探索。首先，“原理与机制”部分将剖析不同类型的变异性，通过信号检测理论探索其认知起源，并介绍用于测量这些变异性的统计工具。接着，“应用与跨学科联系”部分将展示其在不同领域中的实际后果和管理策略，揭示对分歧的研究如何成为我们追求可靠知识的核心。

原理与机制

想象一下，你被要求用一把普通的尺子测量一张桌子的长度。你测量了一次，然后再测量一次。你得到的数字，精确到最后一毫米，会完全相同吗？可能不会。现在，请一个朋友来测量同一张桌子。他们的测量值会和你的完全一样吗？同样，可能不会。这个简单的行为揭示了一个深刻的真理，这个真理从木工活计一直回响到医学最前沿的领域：每一次观察，每一次测量，都是在客体现实与观察者易错性之间的一支舞。观察者是一种工具，和任何工具一样，它并非完美。这种不完美，这种变异性，不仅仅是需要被搁置一旁的麻烦。它是世界的一个基本特征，理解它是在不确定性面前做出明智决策的关键。

两种不一致性

当我们剖析测量中的分歧时，我们发现它主要有两种类型。为了理解它们，让我们继续以人类观察者为例。

首先，是单个人内部的不一致性。如果你测量桌子十次，你的结果很可能会围绕一个中心值聚集，但它们会“摇摆不定”。这就是观察者内部变异性。它是你自己重复判断中随机的、不可预测的波动。这就像一个篮球运动员罚球；即使是专业选手，投出的球也会落在稍微不同的位置，在篮筐周围形成一个紧密的集群。这种变异性是随机误差的一种形式，是不精确性的度量。在临床环境中，当医生两次测量一个婴儿的身长时，我们就能看到这一点。差异可能很小，并以零为中心——比如+0.3厘米、-0.1厘米、+0.0厘米、+0.2厘米、-0.3厘米和+0.1厘米——但它们确实存在，反映了测量过程固有的随机性。

其次，通常更为隐蔽的是，不同人之间的不一致性。这就是观察者间变异性。如果你和你的朋友对于尺子上“零点”的位置有稍微不同的看法，或者你们中一个人倾向于四舍五入而另一个人倾向于直接舍去，那么你们的平均测量值就会系统性地不同。这不仅仅是随机的摇摆；它是一种系统性偏倚，是准确性上的误差。我们那两位篮球运动员可能都很精确，投篮集群都很紧凑，但一个运动员的集群可能中心稍微偏向篮筐左侧，而另一个则稍微偏向右侧。在我们的儿科诊所，当第二位护士测量同样的婴儿并始终得到比第一位护士高约0.8厘米的结果时，就发生了这种情况。或者在实验室中，当一名技术员系统性地比其同事多计数0.2%的某种特定细胞类型时。这就是观察者间变异性的本质：由于我们是不同的人而产生的判断差异。

黑箱之内：感知与判断

但是，我们为什么会不一致呢？说“人为错误”是一种懒惰的说法。真相要美丽得多，它存在于我们大脑构建现实的方式中。当病理学家观察组织样本以评定不典型增生（异常细胞生长）的等级时，他们不是一台被动记录像素的相机。他们的大脑正在进行一种令人难以置信的解读行为，我们可以用信号检测理论的框架来理解这一点。

可以这样想：载玻片上的图像在病理学家的大脑中产生了一个嘈杂、波动的内部信号——一种关于细胞看起来有多异常的“感知”。这个信号从不是完全稳定的；由于随机的神经放电和注意力的转移，两次观察同一张载玻片会产生略微不同的内部信号。这就是随机摇摆的来源，即观察者内部变异性。

但这只是故事的一半。病理学家随后必须将这个嘈杂的内部信号与一个决策标准进行比较——这是一个内部阈值，它规定：“如果信号强度超过这个值，我将称之为‘高度不典型增生’。”这个标准并非普遍适用。它是通过多年的训练、经验，甚至当天看到的近期病例建立起来的。一位病理学家可能有一个“保守”的标准，需要大量的证据才会做出严重的诊断。另一位可能更“自由”，即使是轻微的异常也会标记出来。这种决策标准位置的差异是观察者之间系统性、可预测分歧的主要来源——即观察者间变异性。这就是为什么即使有了像外科手术病人ASA身体状况分级系统这样的标准化指南，不同的麻醉师之间的一致性仍然只表现为“中等”；他们对于什么构成“中度系统性疾病”的内部标准根本不相同。

衡量分歧的标尺：量化变异性

要管理变异性，我们必须首先测量它。科学家们为此开发了精巧的工具，作为衡量分歧的标尺。

对于像长度或浓度这样的连续测量，我们可以将在一组测量中观察到的总变异分解为其组成部分。想象一项研究，几位医生测量一组放射学扫描上的一个特征。他们报告的数字的总离散度来自三个来源：患者之间的真实差异（我们想要的信号！）、医生的系统性偏倚，以及每次测量的随机噪声。一种称为组内相关系数（ICC）的统计量为我们提供了一个强有力的总结。本质上，它是一个比率：

$\text{ICC} = \frac{\text{来自受试者之间“真实”差异的方差}}{\text{总方差}}$

当我们评估观察者间信度（不同医生之间的一致性）时，分母中的“总方差”不仅必须包括真实的患者差异和随机噪声，还必须包括由医生的系统性偏倚引起的方差（ $\sigma_O^2$ ）。这使其成为一个严格、诚实的衡量标准，用以评估观察者之间可互换的程度。

对于分类判断——比如将肿瘤分类为“无不典型增生”、“低度”或“高度”——简单的协议百分比是具有误导性的。两个随机猜测的人，纯粹靠运气，仍然会有一定比例的意见一致。我们需要考虑这一点。这就是Cohen's Kappa ( $\kappa$ )的精妙之处。它的公式是统计直觉的杰作：

$\kappa = \frac{P_o - P_e}{1 - P_e}$

在这里， $P_o$ 是观察到的一致性比例（例如，他们在80%的案例上达成一致），而 $P_e$ 是我们纯粹靠运气所期望的一致性比例（例如，34%）。分子 $P_o - P_e$ 是超出偶然一致性的实际提升量。分母 $1 - P_e$ 是超出偶然一致性的最大可能提升量。所以，kappa告诉我们实际实现了可能提升量的多少分数。例如，0.70的kappa值表示，在排除随机运气之后，一致性达到了“实质性”的水平。

悬崖边缘：为何变异性在阈值处至关重要

这些数字可能看起来很学术，但它们关系到生死。当测量值接近临床决策阈值时，变异性的危险最为尖锐。想象一个血液学的场景：一个病人的裂红细胞（破碎的红细胞）的真实比例是0.9%。临床指南规定，1.0%或更高的比例是支持诊断为一种危及生命的凝血障碍的关键阈值。这个病人正摇摇欲坠地站在悬崖边上。

现在，让我们看看我们那两种不一致性会带来什么。

一个无偏倚但不精确的观察者（纯粹的观察者内部变异性，随机误差标准差为0.15%）观察载玻片。他们的测量值会在真实值0.9%左右摇摆。他们的随机摇摆将测量值推过1.0%悬崖的概率大约是25%！四分之一的假警报机会。
现在，第二个观察者，具有相同的不精确性，但还有一个+0.2%的系统性偏倚（观察者间变异性），观察同一张载玻片。他们的测量值不是围绕0.9%聚集，而是围绕1.1%。对他们来说，超过1.0%阈值的概率高达75%。

病人的诊断可能完全取决于哪个人在看显微镜。这不是医学的失败；这是关于基于人类的测量的一个深刻真理。解决方案不是假装变异性不存在，而是去管理它。我们可以在阈值周围定义一个“灰色地带”（例如，0.8%到1.2%），任何在此范围内的结果都必须触发强制性的第二意见或重新计数。或者我们可以开发高度明确、结构化的评分标准，并附有清晰的示例，以迫使观察者的内部标准趋于一致。这是科学的最佳体现：承认局限性并围绕它建立稳健的系统。

不确定的学徒：教机器理解人类分歧

今天，我们站在一个新的前沿：教人工智能执行这些解释性任务。一个常见的错误是认为目标是建立一个仅仅是“正确”的人工智能。一个更深刻的目标是建立一个理解自身不确定性的人工智能。在这里，对人类分歧的研究成为我们最伟大的老师。

我们在专家人类评估者之间看到的变异性，是任务固有模糊性的直接度量。这就是机器学习科学家所称的偶然不确定性——数据中不可简化的随机性或“噪声”，无论模型多么强大，都无法消除。当我们向人工智能输入数千张图像，每张都由多位病理学家评级时，人工智能不仅学习了高度肿瘤的样子，还学习了专家们在边界案例上倾向于分歧的程度。它学习了世界的“摇摆”。

这与认知不确定性有根本的不同，后者是由于缺乏训练或知识而产生的人工智能自身的自我怀疑。这种不确定性可以通过展示更多数据来减少。而偶然不确定性则不能。

最终的目标是创造一个不仅能做出预测，还能以一种细致入微的方式报告其置信度的人工智能。一个能够说：“我预测这是低度的，但我有很高的偶然不确定性，因为这个案例的特征是人类专家经常存在分歧的，”这样的人工智能，比一个只是带着虚假自信陈述“低度”的人工智能有价值得多。通过研究人类分歧的美丽、混乱和复杂的本质，我们正在学习如何不仅仅是构建人工智能，而是构建人工智慧。

应用与跨学科联系

在窥探了观察者间变异性的内部机制后，我们可能会倾向于将其视为一种纯粹的麻烦——一种遮蔽我们所寻求的清晰真理的统计迷雾。但这样做将完全错失其要点。对物理学家来说，理解实验中噪声和误差的来源与理解信号本身同样重要。同样，理解观察中的变异性不仅仅是一项技术性的杂务；它是一次深入探索测量、判断和知识本质的深刻旅程。它将我们从现代医学的黎明带到人工智能的前沿，揭示了一条连接它们所有领域的美丽而统一的线索。

从医生之手到客观量表

让我们回到十八世纪初，来到莱顿一家医院的病房。在这里，伟大的医生 Herman Boerhaave 正在革新医学教育。他的方法简单但激进：他把学生带到病床边，教他们观察、比较并形成一致的临床判断。但是，如何比较一个病人的“发热程度”与另一个病人，或者确保不同的学生感觉到同样的事情呢？

想象一个本着 Boerhaave 精神的简单教学实验。四名学生评估病人的发烧情况，首先使用传统方法，将手放在额头上。他们的判断——“显著”、“轻微”、“中度”——非常分散。人手尽管敏感，却是一种主观的工具。现在，他们用一种新奇的设备重复评估：一支标准化的温度计。读数紧密地聚集在一起：38.9, 39.0, 39.1。变异性急剧缩小。

从主观的触诊到温度计客观的数字刻度，这一飞跃代表了驯服观察者变异性的第一个也是最根本的策略：通过仪器实现标准化。仪器提供了一种共享的语言，一把共同的尺子。它将像“发热强度”这样模糊的概念操作化为一个可以被信任、复制和在不同学生、病人和甚至不同时间之间进行比较的数字。这是客观临床科学的黎明，它诞生于从个体印象的嘈杂声中创造出一致合唱的需求。

现代舞台：对一致性的追求

虽然温度计征服了发烧，但无数其他临床判断仍停留在专家眼力的领域。观察者间变异性的挑战是几乎每个医学专科的日常现实，是一场确保持一家医院的诊断与另一家医院的诊断意义相同的持续斗争。这场为了一致性的战斗在多条战线上进行。

考虑一位检查皮肤病变的皮肤科医生。描述其形态——颜色、形状、质地——是一门艺术。但要使多中心临床试验奏效，这门艺术必须转化为科学。研究人员已经开发了严格的方案来统一许多不同观察者的感知。他们创建了详细的清单，为每个术语提供操作性定义，并对环境本身进行标准化：光的色温、中性背景的使用，甚至相机的几何形状。评估者不仅用文字进行培训，还使用作为视觉基准真相的“锚定”图像进行培训，并且在研究开始之前就要测试他们的能力。这是 Boerhaave 原则在现代的千倍放大。

这种追求延伸到整个医学领域使用的结构化评分系统。例如，在管理酒精戒断综合征患者时，护士和医生使用像CIWA-Ar这样的量表来衡量症状的严重程度，并指导使用强效药物的剂量。低分可能意味着患者不需要用药，而高分则会立即触发治疗。但如果一个护士的“8”分是另一个护士的“6”分呢？后果可能是治疗不足和癫痫发作，或是过度镇静。在这里，信度不是一个学术上的好奇心；它关乎患者安全。医院通过为量表上的每个项目创建详细的、基于行为锚定的手册，用标准化的视频片段培训员工，并进行定期审计以防止“评估者漂移”随时间推移而发生，来应对这一问题。目标是使量表成为一把可靠的尺子，确保每个评估者都以相同的方式使用它。组内相关系数（ICC）成为医院成功的标尺，量化了分数变异中来自患者真实差异而非观察者间噪声的比例。

当我们进入微观世界时，挑战变得更加尖锐。在临床实验室中，一名技术员通过显微镜观察皮肤刮片，寻找真菌感染的标志性菌丝。那条微弱的线条是菌丝，还是一根偶然的纤维？为确保质量，实验室实施盲法重复读片。一个观察者可能在一天后重读同一张载玻片（以测量内部观察者一致性），或者两个观察者可能独立地读同一张载玻片（以测量观察者间一致性）。通过分析一致和不一致的模式，并使用像Cohen's Kappa（ $\kappa$ ）这样的统计数据——它衡量超出纯粹运气所能解释的一致性——实验室可以量化自身的信度，并在表现下降时触发再培训。

在病理学中，这种微观判断的后果无处比这更严重，病理学是癌症等疾病的最终裁决者。当病理学家观察前列腺活检时，他们不仅是在识别癌症；他们还在使用Gleason系统对其结构模式进行分级。这个等级决定了患者的预后和治疗。然而，这项任务极其复杂。病理学家必须从单一的二维切片中，在脑海中重建一个三维的腺体结构。一个切向穿过一团“融合”腺体（Gleason模式 $4$ ）的切片，可以创造一个完美模仿“筛状”模式（也是模式 $4$ ）的图像——这种结构看起来像一片瑞士奶酪，并预示着明显更差的预后。这不是一个错误；这是数据本身固有的模糊性。

同样，在评估肾移植活检的排斥迹象时，病理学家必须区分真正的炎症和由手术创伤及冷藏引起的细胞变化。他们必须判断一个肾小管是否有足够的炎性细胞，以至于被称为“肾小管炎”，这是一个受切片角度影响的判断。像国际泌尿病理学会（ISUP）和移植病理学Banff分类法的创建者这样的国际机构，不知疲倦地致力于创建共识标准、参考图像和培训项目。这些努力可以减少变异性，但无法消除它。这教给我们一个至关重要的教训：某种程度的观察者间变异性是不可简化的，它并非源于技能的缺乏，而是源于通过有限窗口解释复杂生物现实的基本局限性。

普适原则：在法庭、田野和算法中

这种“诚实的不确定性”的影响远远超出了诊所的墙壁，触及了法律、生态学和人工智能等截然不同的领域。

想象一个医疗事故法庭。一名患者声称放射科医生因在CT扫描中漏掉一个小结节而存在疏忽。原告的专家宣称这次漏诊违反了医疗标准。但被告的专家提出了证据——研究表明，合格的放射科医生在完成这项任务时仅表现出中等程度的一致性（ $\kappa$ 值在0.40到0.65之间）。这份证词意义深远。它主张“医疗标准”不是单一、完美的解释，而是一个合理实践的范围。观察者间变异性的存在为这一法律概念提供了科学依据。两位专家之间的分歧并不自动意味着其中一位存在疏忽；它可能仅仅反映了在一项困难的感知任务中已知并被接受的人类判断范围。

这个原则是真正普适的。从阅读扫描的放射科医生切换到为公民科学项目数青蛙的志愿者。挑战是相同的。我们必须担心可靠性（两个志愿者访问同一个池塘是否报告了同样的事情？）和有效性（他们的报告是否与专家的审计相符？）。我们使用相同的统计工具——用于存在/缺失判断的Cohen's Kappa和用于鸣叫雄性计数的ICC——来衡量数据质量。这个例子很好地阐明了可靠性（一致性）和有效性（正确性）是不同的。你可能有一队志愿者，他们完全可靠——他们都彼此同意——但完全无效，因为他们都一致地误认了青蛙的种类。

这把我们带到了前沿：人工智能时代。在影像组学领域，科学家训练算法在医学图像中寻找人眼不可见的模式，并将它们与基因组数据联系起来。假设我们正在训练一个AI来测量肿瘤的纹理。第一步是通过在图像上绘制一个感兴趣区域（ROI）来告诉AI肿瘤在哪里。但我们知道，两个放射科医生永远不会画出完全相同的边界。这种分割中的微小“摇摆”——即观察者间变异性——会通过算法传播。AI计算出的纹理特征将带有一个不确定性。当我们试图找到这个嘈杂特征与某个基因表达之间的相关性时，统计联系就会被削弱。信号被稀释了，这种现象被称为衰减偏倚。我们的AI的好坏取决于我们喂给它的数据，而其人类老师固有的变异性成为其性能的一个基本限制。

但如果我们能把这个缺陷变成一个特点呢？这是我们故事中最新颖、最优雅的转折。我们可以不给AI一个来自单一专家的“正确”分割，而是向它展示来自许多专家的分割。对于图像中的每个像素，我们可以计算出标记其为“肿瘤”的专家比例。每个专家都同意的像素得分1.0。没有人标记的像素得0.0。但对于一个模糊边界上的像素，十个专家中只有六个画了线，它就得到0.6分。我们创建了一个“概率性”或“软性”的基准真相。

当我们使用专门的损失函数（如soft-Dice损失函数）用这种软信息训练AI时，奇妙的事情发生了。AI学会了不对模糊的边界过于自信。它学会了复现其人类老师的不确定性。它学会了世界并非总是黑白分明，而是充满了灰色地带。结果是一个更稳健、更细致、最终更智能的模型——一个不仅学会了答案，还学会了问题本质的模型。

从 Boerhaave 寻求共同体征语言的探索，到病理学家与不可简化的模糊性的斗争，再到学会拥抱不确定性的AI，观察者间变异性的故事就是我们追求知识本身的故事。它提醒我们，目标不是创造出像机器一样万无一失的观察者，而是建立能够诚实、智能地解释我们人类判断这一美丽而不可避免事实的系统——包括教育、质量控制、法律和计算的系统。