组内相关系数

玻尔百科

核心要点

组内相关系数（ICC）通过计算总方差中可归因于被试间真实差异的比例来衡量信度。
ICC对研究设计至关重要，因为它通过量化设计效应，帮助确定统计功效并计算整群随机试验所需的样本量。
除了测量之外，这一统计概念通过量化环境的重要性（从公共卫生中的邻里效应到演化生物学中的群体遗传力），将不同领域联系在一起。

引言

在任何科学探索中，我们进行的每一次测量都是真实潜在信号与某种程度误差或噪声的混合体。这一根本性挑战引出了一个关键问题：我们能在多大程度上信任我们的数据？组内相关系数（Intraclass Correlation Coefficient, ICC）为此提供了一个简洁而强大的答案。它是一种统计工具，旨在剖析我们的观测数据，将信号与噪声分离，并最终提供一个单一、可解释的分数，用以量化我们测量的信度和一致性。然而，ICC的用途远不止于简单的质量检查，它还能为我们揭示数据及其所代表的世界的深层结构。

本文将引导您深入了解这一强大的概念。首先，在“原理与机制”部分，我们将把ICC解构为其核心的数学和逻辑基础，探讨它如何被定义为简单的方差之比，以及为何这使其可以被解释为一种相关性的度量。我们还将审视ICC的不同“类型”及其如何应用于各种数据类型，包括二元结局。随后，“应用与跨学科联系”一章将展示ICC卓越的通用性，阐述其在评估医学测量信度、设计高效临床试验，乃至解决关于社会环境和演化生物学的深层问题中所扮演的关键角色。

原理与机制

要真正掌握一个概念，我们必须将其剥离至最核心的部分，观察它们如何连接，并理解其背后精妙的逻辑。组内相关系数（ICC）听起来可能像一个深奥的统计学术语，但其核心是一个简单、优雅且极其有用的理念。它讲述了关于我们数据的故事：一个关于信号与噪声、相似与差异的故事，一个关于我们测量中哪些可以信赖、哪些无法信赖的故事。

测量的剖析：信号与噪声

想象一下，我们正在多个不同诊所进行一项关于高血压的大型医学研究。我们从一名患者那里读取了血压读数。这个单一的数字，比如 $145$ mmHg，究竟代表了什么？它并非单一的事物，而是一个混合体。

这个数字的一部分是患者在那一刻“真实”的潜在收缩压。但它也受到其他因素的影响。也许测量设备校准稍有偏差。也许患者感到紧张。也许护士对数字进行了四舍五入。如果我们在下一分钟再次测量，可能会得到 $142$ mmHg。如果在另一个诊所的另一位护士测量同一位患者，他们可能会得到 $148$ mmHg。

这是所有测量面临的根本挑战。我们做出的每一个观察都是真实信号和一定量误差或噪声的复合体。一个简单而强大的思考方式是使用如下模型：

$Y_{ij} = \mu + \alpha_i + \epsilon_{ij}$

我们不必被这些符号吓倒。这个方程式讲述了一个简单的故事。我们得到的测量值（ $Y_{ij}$ ，表示对第 $i$ 个人的第 $j$ 次测量）是三部分之和：

研究中所有人的总体平均值（ $\mu$ ）。
被测量者所特有的部分（ $\alpha_i$ ）。这是他们与平均值的个人偏差。这是我们关心的真实信号，即人与人之间的真实差异。我们将这一项的方差称为被试间方差，记作 $\sigma^2_{between}$ 。
一个随机误差部分（ $\epsilon_{ij}$ ）。这捕捉了所有不可预测的波动——测量误差、瞬时变化——这些因素使得对同一个人的重复测量结果有所不同。我们将这一项的方差称为被试内方差，或 $\sigma^2_{within}$ 。

我们在数据中观察到的总方差——即血压读数的整体离散程度——就是这两个变异来源之和： $\text{总方差} = \sigma^2_{between} + \sigma^2_{within}$ 。

简洁的比率：定义ICC

一旦我们将测量分解为信号和噪声，信度问题就变得异常清晰。一次可靠的测量是指信号强而噪声弱的测量。换句话说，我们在数据中看到的大部分变异应该来自于人与人之间的真实差异，而不是随机的测量误差。

组内相关系数不过是将这一理念表达为一个比率。它是总方差中可归因于“真实”被试间方差的比例：

\text{ICC} = \frac{\text{真实方差}}{\text{总方差}} = \frac{\sigma^2_{between}}{\sigma^2_{between} + \sigma^2_{within}}

就是这样。这就是秘密所在。ICC是一个介于 $0$ 和 $1$ 之间的数字。

如果ICC接近 $1$ ，意味着 $\sigma^2_{within}$ 相对于 $\sigma^2_{between}$ 非常小。噪声如低语，信号如呐喊。我们的测量具有高度信度。如果我们对同一个人测量两次，会得到几乎相同的结果。

如果ICC接近 $0$ ，意味着 $\sigma^2_{within}$ 相对于 $\sigma^2_{between}$ 非常大。噪声是震耳欲聋的轰鸣，淹没了信号。我们在测量中看到的差异大多是随机误差，我们无法可靠地区分不同的人。

考虑一项在不同初级保健诊所进行的慢性疼痛研究。如果我们发现诊所间方差为 $0.8$ ，而诊所内（单个患者）方差为 $1.2$ ，则总方差为 $2.0$ 。ICC将是 $\frac{0.8}{0.8 + 1.2} = 0.4$ 。这给了我们一个有力的洞见：疼痛评分总变异的 $40\%$ 可以由患者就诊的诊所来解释。这表明每个诊所的“社会层面”因素——其资源、氛围——对患者的治疗结果有实质性影响。

为何称为“相关”？共同的继承

那么，为什么它被称为“相关”呢？因为这个方差之比有另一个同样优美的解释：ICC是在同一组或同一个人身上进行的任意两次测量之间的期望相关性。

让我们回到诊所的例子。想象一下从同一个诊所随机挑选两名患者。是什么让他们的测量值相互关联？他们共享相同的诊所环境、相同的医生、相同的流程。这种共同的继承是他们相关性的来源。在数学上，来自同一个人（或诊所） $i$ 的两次测量 $Y_{ij}$ 和 $Y_{ik}$ 唯一共同之处是共享的随机效应 $\alpha_i$ 。因此，它们测量值之间的协方差恰好就是被试间方差 $\sigma^2_{between}$ 。

当我们将其代入相关性公式 $\frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)\text{Var}(Y)}}$ 时，我们得到：

\text{Corr}(Y_{ij}, Y_{ik}) = \frac{\sigma^2_{between}}{\sqrt{(\sigma^2_{between} + \sigma^2_{within})(\sigma^2_{between} + \sigma^2_{within})}} = \frac{\sigma^2_{between}}{\sigma^2_{between} + \sigma^2_{within}}

看，又是ICC。这两个定义是等价的。ICC同时告诉我们测量中有多少比例是真实信号，以及对同一被试的重复测量可能会有多高的相关性。

应对各种情况的类型：ICC家族

到目前为止，我们一直将ICC视为一个单一的实体。但在现实世界中，我们“噪声”的性质可能更为复杂。这催生了一个包含不同ICC的家族，每一种都为特定问题量身定制。这不是弱点，而是一项巨大的优势。可以把它想象成一个工具箱，而非一把锤子。在评估信度时，你首先需要像一个好的侦探，对你的研究设计提出正确的问题。

一个关键的区别在于一致性和绝对一致性。想象一下跳水比赛中的两位裁判。裁判A是一位评分严格的裁判，他给出的分数总是比裁判B低一分。

如果我们关心一致性，我们会说他们的信度是完美的。他们总是以完全相同的顺序对潜水员进行排名。那一分的系统性差异并不困扰我们；我们可以对其进行校正。
如果我们关心绝对一致性，我们会说他们的信度很差。他们的分数不匹配！

你计算哪种类型的ICC取决于你问的是哪个问题。在一项临床试验中，患者报告结局被测量两次，分析师可能认为第一次和第二次测量之间的任何系统性差异都不重要，并且可以在数学上消除。在这种情况下，他们会选择一个一致性ICC，该ICC忽略了测量次间的方差。另一方面，如果我们正在评估一个影像组学特征在不同评分者和扫描次间信度，并且我们需要原始值是可互换的，那么我们会要求绝对一致性。在这种情况下，来自不同评分者或测量次的方差被视为误差的一部分，我们会选择一个绝对一致性ICC。

这导出了一个公认的分类法，例如Shrout和Fleiss提出的分类法，它根据你的“评分者”（无论是人、机器还是时间点）被视为固定还是随机，以及你关心的是单次测量的信度还是多次测量平均值的信度，提供了一个ICC的“菜单”。

超越显而易见：二元世界中的ICC

如果我们的测量不是像血压这样的连续数值，而是像“是”或“否”这样的二元结局呢？例如，在一项涉及多家医院的研究中，患者的疾病是否达到缓解？我们如何讨论一个“是/否”结局的方差和相关性？

在这里，统计学家使用了一个非常巧妙的技巧：潜变量的概念。我们想象在二元的“是/否”结局背后，存在一个不可观测的、连续的缓解“倾向性”。只有当患者隐藏的倾向性超过某个阈值时，他们才会达到缓解。

我们无法看到这个潜变量，但我们可以对其建模。我们假设它遵循与之前相同的逻辑：它是一个固定部分、一个医院特有部分（组间效应，方差为 $\sigma^2_b$ ）和一个随机误差部分（组内噪声）的总和。我们无法直接测量这个噪声的方差，但对于使用logit链接（逻辑回归的基础）的模型，统计理论告诉我们它的方差是一个固定数值： $\pi^2/3$ 。

有了这个，我们可以定义一个潜变量尺度的ICC：

\text{ICC}_{\text{latent}} = \frac{\sigma^2_b}{\sigma^2_b + \pi^2/3}

这告诉我们，在缓解的潜在倾向性中，有多大比例的方差是由医院间的差异造成的。这里的高ICC具有深远的含义：它意味着患者去的医院对他们缓解的机会有巨大影响。它还造成了特定主体效应（某项治疗对你在你的医院中的效果）和群体平均效应（所有人和所有医院的平均效果）之间更大的差距。组（主体或医院）之间的差异越大，“平均”故事对任何单个个体就越不适用。

从一个简单的方差比率到一个用于理解复杂二元数据的复杂工具，组内相关系数展现了自己是一个统一而强大的概念，能够洞察我们测量的深层结构。这证明了统计学之美——量化不确定性并将信号从噪声中分离出来的艺术。

应用与跨学科联系

在理解了组内相关系数（ICC）的数学核心——它本质上是一个方差之比——之后，我们现在可以踏上一段旅程，去看看这个简单而优雅的理念将我们引向何方。你会发现，这一个概念就像一条金线，将看似迥异的领域联系在一起，从医疗影像套件的无菌精确性到宏大而复杂的社会结构织锦，甚至生命的最基本起源。一个工具能为如此多不同类型的问题提供洞见，这证明了科学思想的统一性。

对信度的追求：我的测量值得信赖吗？

让我们从ICC最直观、最广泛的用途开始：作为信度的评判标准。想象一下，你正在尝试测量某样东西——任何东西。它可以是一张桌子的长度、一个房间的温度，或者一个癌症患者CT扫描中复杂的纹理特征。如果你测量两次，会得到相同的答案吗？如果你和一位同事都进行测量，你们会达成一致吗？这些并非无足轻重的问题；在科学和医学领域，生命可能取决于这些答案。

ICC提供了一种正式回答这个问题的方法。它将我们在测量中看到的所有变异巧妙地分为两堆：“真实”方差，来自我们测量的被试之间的真实差异；以及“误差”方差，来自我们测量过程的不完美。ICC就是“真实”方差占总方差的比例。

\text{ICC} = \frac{\text{真实被试的方差}}{\text{真实被试的方差} + \text{误差的方差}}

接近 $1$ 的值意味着你的测量非常出色；你看到的几乎所有变异都归因于被试之间的真实差异。接近 $0$ 的值意味着你的测量很糟糕；它基本上都是噪声。

例如，在医学影像领域，开发来自CT或MRI扫描的新“影像组学”特征的研究人员必须证明他们的特征是稳定的。他们进行重测实验，在短时间内对同一批患者进行两次扫描。ICC量化了特征的可重复性——在相同条件下给出相同结果的能力。但如果是由不同的医生进行测量，或者测量是在不同的扫描仪上进行的呢？ICC框架也优雅地扩展到这种情况，使我们能够量化跨不同观察者或条件的*可再现性*。例如，当多名儿科医生测量Southwick角以评估髋关节疾病时，我们不再只关心随机误差。我们还必须考虑系统性差异——一位医生可能系统性地比另一位医生测量的角度高一度。ICC可以被配置为对这种缺乏绝对一致性的情况进行惩罚，从而给出评分者间信度的真实画面。

通过检查方差分量本身，我们甚至可以诊断出测量问题的根源。在一项关于嗓音障碍的研究中，如果评分者间方差（ $\sigma_r^2$ ）远大于残差方差（ $\sigma_e^2$ ），这告诉我们主要问题不是随机波动，而是评分者之间的系统性偏倚。解决方案不是进行更多的测量，而是更好地培训和校准观察者。这种诊断能力至关重要，因为不可靠的测量可能会产生严重后果。它们会削弱或“衰减”变量与结果之间的真实关系，可能导致我们错过一个能拯救生命的发现。同样，在神经科学中，理解感觉测试的信度在它们被用于临床实践之前是必不可少的。

从测量到设计：相关的隐藏成本

了解我们测量的信度不仅仅是一项质量检查；它是设计强大而高效的实验的先决条件。ICC揭示了测量误差与统计功效之间的深层联系。

考虑一个简单的前后测研究设计，我们在治疗前后测量一个生物标志物。为了看治疗是否有效，我们观察平均变化， $d_i = Y_{i,\text{post}} - Y_{i,\text{pre}}$ 。配对 $t$ 检验检测真实变化的能力取决于这些差异的变异程度。在这里，ICC发挥了它的魔力。差异的方差被证明与测量的ICC直接相关： $\text{Var}(d_i) \propto (1 - \text{ICC})$ 。这是一个绝佳的结果！它意味着你的测量越可靠（ICC越高），差异的变异就越小，你检测到治疗效果的统计功效就越大。好的测量造就好的科学。

这种相关性影响我们估计值方差的理念，其应用远远超出了简单的成对测量。它是设计整群随机试验的核心挑战。想象一项测试新外科安全方案的研究，其中整个医院，而不是单个患者，被随机分配到新方案组或常规护理组。同一家医院（一个“整群”）内的患者彼此之间比来自不同医院的患者更相似。他们共享相同的外科医生、相同的环境和相同的文化。这种共享的环境在他们的结果之间产生了正相关，这种相关性正是由……你猜对了，ICC来量化的。

这个看似微小的相关性会产生巨大的后果。它会使我们对平均感染率估计的方差膨胀。研究中已有的医院每增加一名患者，所提供的新信息都比来自一个全新医院的患者要少。方差被一个“设计效应”或“方差膨胀因子”（VIF）所膨胀，其公式非常直观：

\text{VIF} = 1 + (m-1)\rho

其中 $m$ 是整群中的患者数量， $\rho$ 是ICC。即使是 $\rho=0.02$ 这样微小的ICC也能产生巨大影响。在一个有 $m=100$ 名患者的医院中，方差被放大了 $1 + (99)(0.02) = 2.98$ 倍。这意味着你需要几乎三倍的患者才能达到与个体随机试验相同的统计功效！ICC使我们能够计算这个“有效样本量”并相应地规划我们的研究，这样我们就不会被大量相关的数据点所迷惑。

通用视角：环境的重要性

到目前为止，我们所说的“整群”都是我们在实验中创造出来的东西——多次测量、多家医院或多个实验阶段。但世界本身就是自然成群的。人们聚集在家庭、学校和社区中。学生聚集在教室里。动物聚集在窝里。ICC为我们提供了一个通用的视角来研究这些自然层级。

在公共卫生领域，研究人员想知道我们的环境在多大程度上影响我们的健康。像心脏代谢风险这样的健康结果，是纯粹由个人基因和行为决定的，还是你居住的社区也很重要？通过拟合一个将个体嵌套在社区内的多水平模型，我们可以将健康结果的总方差分解为归因于个体差异的部分和归因于社区间差异的部分。ICC，作为社区间方差与总方差之比，直接回答了我们的问题。一个 $0.30$ 的ICC告诉我们，健康结果中 $30\%$ 的方差存在于社区层面。这是关于社会和环境背景在塑造我们生活中的重要性的一个强有力的定量陈述。

最深层的联系：相关性与个体的涌现

我们的旅程以最深刻的应用作为结束。我们已经用ICC来评估扫描仪的信度，并量化“邻里效应”。这同一个概念能否教给我们一些关于我们自身、关于成为一个“个体”意味着什么的根本性知识？

演化生物学致力于解决一个被称为“个体性演化的主要转变”的问题。生命是如何从孤立、竞争的细胞演化成合作的多细胞生物，如植物、动物和你？在什么条件下，一群低层次实体开始像一个单一的、高层次的个体一样行动，自然选择可以作用于其上？

多水平选择理论为这个问题提供了一个定量框架，而ICC正位于其核心。考虑一个由单细胞组成合作群体的种群。要使自然选择在群体水平上起作用，这些群体必须具有可遗传的变异。也就是说，群体之间必须存在能够传递给下一代群体的差异。ICC为此提供了一个精确的度量。通过将ICC定义为来自同一群体的两个细胞之间的相关性，它等同于总表型方差中存在于群体之间的比例。

\text{ICC} = \frac{\text{群体间方差}}{\text{群体间方差} + \text{群体内方差}}

这就是群体水平的遗传力。如果ICC很高，意味着这些群体是独特、有凝聚力的单位。群体内的变异与群体间的变异相比很小。选择现在可以有效地在这些定义明确的群体之间进行挑选。另一方面，低ICC意味着这些群体只是个体的短暂集合，选择只能在单个细胞的水平上起作用。

想一想这意味着什么。同一个统计量，既能告诉放射科医生他们的测量是否可靠，也能告诉演化生物学家一群细胞如何成为个体性的候选者。它揭示了，一个集体要成为大于其各部分之和——要成为一个独立的个体——它必须抑制内部变异，并增强自身与其他集体之间的变异。这就是组内相关系数所揭示的简单而深刻的逻辑，一个统一的原则，将最基础的测量与最宏大的演化转变联系起来。