try ai
科普
编辑
分享
反馈
  • 被试间方差

被试间方差

SciencePedia玻尔百科
核心要点
  • 数据中观测到的总变异可以分解为被试间方差(个体间的真实差异)和被试内方差(随机测量误差或噪声)。
  • 组内相关系数(ICC)是衡量信度的关键指标,它量化了总方差中可归因于真实被试间差异的比例。
  • 线性混合效应模型等统计方法通过明确划分方差来解释个体异质性,这可以显著提高检测真实效应的统计功效。
  • 未能区分组间方差和组内方差可能导致生态谬误,即根据群体层面数据得出关于个体的错误结论。

引言

在任何科学测量中,无论是病人的血压还是恒星的亮度,我们观察到的变异都不是单一的。它是被测对象之间真实、稳定差异与每次测量内部随机、暂时波动的复合体。研究人员面临的核心挑战,便是将这种有意义的“信号”与掩盖其的“噪声”区分开来。如果做不到这一点,就可能导致结果不可靠和结论错误。本文将为理解这种基本的方差分解提供一个全面的指南。第一章“原理与机制”将阐释其数学基础,解释如何分解总方差并使用组内相关系数(ICC)来量化信度。随后的第二章“应用与跨学科联系”将探讨这一强大概念如何在不同领域中应用,以构建更好的测量工具,解释人类多样性,并避免常见的统计谬误。读完本文,您将认识到,理解方差是揭示更深层次科学见解的关键。

原理与机制

想象一下,你是一位试图理解气体中原子运动的物理学家。你注意到了两种运动。每个原子都在其平均路径周围随机地抖动和振动。但你也看到,不同的原子——比如一个重的氙(Xenon)原子和一个轻的氦(Helium)原子——其平均运动速度大相径庭。数据的世界在很大程度上也是如此。无论我们重复测量什么,是人的血压、恒星的亮度,还是神经元的反应,我们观察到的总变异都是这两种基本变化类型的混合。作为科学侦探,我们的首要任务就是小心地将它们分离开。

变异的剖析:你与世界

假设我们正在使用一款智能手机应用测量一种生物标志物,比如病人的静止性震颤振幅。一位病人,我们称她为 Alice,每次我们测量她时,读数都会略有不同。这种围绕她个人平均值的波动,我们称之为​​被试内方差​​。它就像单个原子的抖动。它可能源于测量设备本身、她测量瞬间的状态波动,或是成千上万其他微小、暂时性的因素。这通常是我们想要看透的“噪声”。

现在,如果我们也测量另一位病人 Bob,我们会发现他的平均震颤振幅与 Alice 的大不相同。这不足为奇,他们各自的潜在状况是不同的。我们研究中所有个体——Alice、Bob、Carol 等等——真实平均水平之间的变异,就是​​被试间方差​​。这就像氙原子和氦原子之间的差异。它反映了个体间真实、稳定的差异,无论是遗传的、生理的还是环境的。这通常是我们最感兴趣的“信号”;它代表了真实的生物异质性。

这个优美的思想可以用​​全方差定律​​以数学的优雅形式表述出来。如果我们将任何一次测量记为 YYY,我们可以将其总方差分解如下:

Var⁡(Y)=E[Var⁡(Y∣Subject)]+Var⁡(E[Y∣Subject])\operatorname{Var}(Y) = \mathbb{E}[\operatorname{Var}(Y \mid \text{Subject})] + \operatorname{Var}(\mathbb{E}[Y \mid \text{Subject}])Var(Y)=E[Var(Y∣Subject)]+Var(E[Y∣Subject])

我们不必被这些符号吓倒。第一项 E[Var⁡(Y∣Subject)]\mathbb{E}[\operatorname{Var}(Y \mid \text{Subject})]E[Var(Y∣Subject)] 就是被试内方差的平均值。它是一个典型个体“抖动”或噪声的平均量。第二项 Var⁡(E[Y∣Subject])\operatorname{Var}(\mathbb{E}[Y \mid \text{Subject}])Var(E[Y∣Subject]) 则是问题的核心。量 E[Y∣Subject]\mathbb{E}[Y \mid \text{Subject}]E[Y∣Subject] 代表了特定被试的真实、长期平均值。因此,第二项就是这些真实平均值在整个群体中的方差。这恰恰就是​​被试间方差​​。我们观测到的总方差,就是个体内部平均噪声与个体之间真实信号的总和。

信度指南针:组内相关系数 (ICC)

一旦我们将信号与噪声分离开来,一个自然的问题就出现了:我们所看到的变异中,有多少是信号?如果我们进行两次测量,我们有多大把握能确定它们因为来自同一个人而相似?这就是​​信度​​的本质。要回答这个问题,我们需要一个指南针,一个能告诉我们被试间方差与总方差之间平衡关系的工具。这个指南针就是​​组内相关系数 (ICC)​​。

ICC 的定义很简单,即总方差中可归因于被试间成分的比例:

ICC=σbetween2σbetween2+σwithin2\text{ICC} = \frac{\sigma_{\text{between}}^2}{\sigma_{\text{between}}^2 + \sigma_{\text{within}}^2}ICC=σbetween2​+σwithin2​σbetween2​​

这里,σbetween2\sigma_{\text{between}}^2σbetween2​ 是我们的被试间方差,而 σwithin2\sigma_{\text{within}}^2σwithin2​ 是我们的平均被试内方差。ICC 的值在 000 到 111 之间。但这些数字到底意味着什么?让我们从头开始建立直觉,而不仅仅是套用公式。

想象一下我们进行两次测量。我们对这两次测量值之间的差距有何预期?

情况 1:两次测量来自同一个人。它们之间的差异仅由被试内误差的随机“抖动”造成。它们之间的期望平方差结果为 2σwithin22\sigma_{\text{within}}^22σwithin2​。

情况 2:两次测量来自不同的人。它们之间的差异有两个来源:每个人的随机抖动,以及他们拥有不同真实平均值这一事实。此处的期望平方差为 2σbetween2+2σwithin22\sigma_{\text{between}}^2 + 2\sigma_{\text{within}}^22σbetween2​+2σwithin2​。

现在,ICC 的含义变得无比清晰。如果 ICC 很高(比如 0.90.90.9),意味着 σbetween2\sigma_{\text{between}}^2σbetween2​ 远大于 σwithin2\sigma_{\text{within}}^2σwithin2​。来自不同人的测量值之间的期望距离将远大于来自同一个人的测量值之间的距离。来自单个个体的测量值会紧密地聚集在一起。这个测量是可靠的,它能轻易地区分一个人和另一个人。

如果 ICC 很低(比如 0.20.20.2),意味着 σwithin2\sigma_{\text{within}}^2σwithin2​ 占主导地位。我们两种情况下的期望距离非常相似。“噪声”如此之大,以至于我们很难判断两次测量值不同,是因为它们来自两个不同的人,还是仅仅因为测量同一个人的随机误差。这个测量是不可靠的。因此,ICC 是一个深刻的​​重测信度​​衡量指标,它量化了测量随时间变化的稳定性。

两种相关的比较:ICC 与皮尔逊相关系数

你可能会说:“等等,我已经知道一种测量相关性的方法了——皮尔逊相关系数,rrr。”这是一个很好的问题,其答案揭示了统计学中一个微妙而重要的真理。虽然 ICC 和皮尔逊的 rrr 有关联,但它们提出的根本问题不同,尤其是在评估例如两位评分者对同一组被试进行评判时的一致性方面。

​​皮尔逊相关系数​​测量的是线性关系的强度。它问的是:两位评分者的分数是否倾向于遵循一条直线?想象一下,评分者1系统性地比评分者2更严苛,给出的分数总是低5分。即便如此,皮尔逊相关系数仍然可以是完美的 +1.0+1.0+1.0,因为秩次顺序得以保留,并且关系是完全线性的,只是发生了平移。皮尔逊相关系数对系统性偏差是“盲目”的。

​​绝对一致性ICC​​ 则提出了一个更严格的问题:两位评分者给出的分数是否相同?在这种情况下,评分者1的系统性严苛是一个不一致的来源,它会降低ICC。ICC 会因随机误差和系统性偏差而受到惩罚。

其数学原因很优美。两种度量都使用被试间方差(σS2\sigma_S^2σS2​)作为它们的“信号”。差异在于它们将什么视为“噪声”。

Pearson correlation (in this context)≈σS2σS2+σerror2\text{Pearson correlation (in this context)} \approx \frac{\sigma_S^2}{\sigma_S^2 + \sigma_{\text{error}}^2}Pearson correlation (in this context)≈σS2​+σerror2​σS2​​
ICC (Absolute Agreement)=σS2σS2+σrater2+σerror2\text{ICC (Absolute Agreement)} = \frac{\sigma_S^2}{\sigma_S^2 + \sigma_{\text{rater}}^2 + \sigma_{\text{error}}^2}ICC (Absolute Agreement)=σS2​+σrater2​+σerror2​σS2​​

皮尔逊相关系数忽略了由评分者间系统性差异引起的方差成分(σrater2\sigma_{\text{rater}}^2σrater2​),而绝对一致性ICC则将其作为噪声源包含在分母中。选择哪一个取决于你的问题:你只对一致性(秩次顺序)感兴趣,还是要求绝对的一致性?这一区别有力地提醒我们,要时刻仔细思考我们试图回答的问题。

统计学家的显微镜:建模及其陷阱

方差的分解不仅仅是一个理论练习;它是一些最强大统计工具背后的核心原则,也是一些最危险推断谬误的来源。

一个主要应用是构建能明确解释个体差异的模型。在一项测量基线神经活动的神经科学研究中,我们可能会发现,即使在考虑了觉醒度等因素后,每个人仍然有其独特的平均活动水平。​​线性混合效应模型​​通过为每个被试包含一个​​随机截距​​来完美地处理这个问题。这些随机截距的方差正是被试间方差 σb2\sigma_b^2σb2​,它直接估计了群体的生物异质性。

这种分离被试间方差的能力具有深远的实际意义。考虑一项比较三种药物治疗方案的临床试验,我们预计不同病人对药物的反应会有巨大的变异性。如果我们在一个非区组分析中将所有人混在一起,巨大的被试间方差就像一层浓雾,掩盖了药物之间真实但更微妙的差异。然而,如果我们使用​​重复测量设计​​,让每个被试都尝试所有三种方案,我们就可以进行区组分析。这就像给每个被试做他们自己的小型实验。通过比较药物在每个人内部的效果,我们有效地减去了该被试独特的基线反应。这消除了比较中的被试间方差,驱散了迷雾,并显著提高我们检测真实治疗效应的统计功效。

但这种方差分离也为粗心者设下了陷阱:​​生态谬误​​。假设我们只有群体层面的数据——例如,几个不同城市的平均污染物暴露水平和平均疾病发病率。我们可能会发现城市范围内的平均值之间存在很强的相关性。人们很容易因此得出结论:暴露水平较高的个体风险也较高。这可能完全错误。平均值的相关性(​​生态相关​​)主要由组间(城市间)方差驱动。它过滤掉了每个城市内部所有丰富、复杂的变异。一个大的组间方差在数学上可以夸大生态相关,使其看起来比个体层面的真实相关强得多,甚至可能使其符号反转。从群体平均值推断个体行为是一场危险的游戏,是忽视变异结构的直接后果。

进阶主题:满足好奇心

变异性的兔子洞还深着呢。现实世界的数据常常呈现出美丽的复杂性,需要我们进行更复杂的思考。

例如,变异性并不总是一个简单的两层级事务。在一项长期药理学研究中,由于饮食、睡眠或其他暂时性因素,一个被试对药物的反应可能在不同的测试场合之间发生变化。这就给我们带来了第三层方差:​​场合间变异​​(IOV),它不同于稳定的​​个体间变异​​(IIV)和瞬时残差。我们的方差模型可以扩展为一个三层级结构:被试之间、一个被试内部的场合之间,以及一个场合内部。

此外,我们之前含蓄地假设了“抖动”量或被试内方差对每个人都是相同的。但如果不是呢?在许多生物学测定中,真实生物标志物水平较高的被试,其重复测量的变异性也更大。这种情况称为​​异方差性​​,它违反了简单ICC计算的一个核心假设。为了继续分析,我们必须首先稳定方差。通常,一个简单的数学变换,比如对测量值取​​对数​​,就能解决这个问题。在变换后的尺度上,方差变得恒定,我们的统计显微镜又重新对焦了。这是一个深刻的教训:有时候,为了看清世界的本来面目,我们必须先通过一个不同的镜头来看它。

应用与跨学科联系

在上一章中,我们深入探讨了变异性的数学原理,学习了如何将单个被试内部的随机波动与不同被试之间存在的真实、稳定差异清晰地分离开来。乍一看,这似乎仅仅是一项算术练习。但事实并非如此。这个单一的思想——方差分解——是科学家工具箱中最强大、最多功能的工具之一。它是开启广阔应用领域的钥匙,让我们能够构建更好的测量工具,理解人类多样性的起源,甚至掌握宏大的进化机制。让我们踏上一段旅程,看看这个概念是如何为众多不同领域注入活力的。

你的尺子有多准?对信度的探求

我们进行的每一次测量,无论是桌子的长度还是人脑中的活动,都有一定程度的“摆动”。如果我们一遍又一遍地测量同一个东西,我们每次都不会得到完全相同的数字。任何一门定量科学的首要和最基本的问题是:当我看到我的测量值有差异时,是因为我测量的东西真的不同,还是仅仅因为我的尺子不稳定?这就是​​信度​​问题。

为了回答这个问题,我们求助于​​组内相关系数(ICC)​​。你可以把 ICC 看作一个从0到1的简单分数,它告诉我们我们的测量有多好。它量化了观测到的总变异中,有多大比例是由于我们测量的被试之间真实、稳定的差异(被试间方差,σb2\sigma_{b}^{2}σb2​)造成的,而不是由于随机、不一致的测量误差(被试内方差,σw2\sigma_{w}^{2}σw2​)造成的。

ICC=真实的被试间方差观测到的总方差=σb2σb2+σw2\text{ICC} = \frac{\text{真实的被试间方差}}{\text{观测到的总方差}} = \frac{\sigma_{b}^{2}}{\sigma_{b}^{2} + \sigma_{w}^{2}}ICC=观测到的总方差真实的被试间方差​=σb2​+σw2​σb2​​

一个接近 1.0 的 ICC 意味着我们的尺子是可靠的;我们观察到的差异是真实的。一个接近 0 的 ICC 意味着我们的尺子像果冻做的,它给出的数字大多是噪声。这一原则是现代医学影像学的基石。当研究人员从 CT、PET 或 MRI 扫描中开发新的“影像组学”特征来描述肿瘤的纹理或形状时,他们必须通过的第一个测试就是信度。如果一个特征的值在同一位病人被扫描两次时发生巨大变化,那么该特征对于诊断或预测就毫无用处。ICC 为哪些特征足够稳定以用于临床提供了客观的裁决。

有趣的是,改进一个不稳定测量的方法之一是进行多次测量并取其平均值。随机误差倾向于相互抵消,得到的平均值比任何单次测量都更可靠。这个直观的想法被方差的数学完美地捕捉到了:kkk 次测量均值的误差方差减少到 σw2/k\sigma_w^2/kσw2​/k,这直接提升了平均结果的 ICC。

当然,我们的“尺子”并不总是一台机器。它也可以是一位人类专家。在产科学中,当医生评估一位母亲的骨盆是否足以分娩时,这个判断可靠吗?不同的医生会同意吗?同一位医生一周后会做出相同的判断吗?通过分析这些判断中的方差,我们就可以找出答案。对于连续测量,如骨盆直径,我们使用ICC;对于分类判断(“足够” vs “不足够”),我们使用一个相关的工具,叫做科恩Kappa系数,它也能将真实一致性与偶然达成的一致性分离开。

对信度的探求提醒我们,一个科学结果的强度取决于其最薄弱的环节。例如,在医学影像中,最终的定量特征严重依赖于一个更早的步骤:感兴趣区域的分割。比较手动、半自动和全自动分割方法的研究表明,工具的选择直接影响最终特征的 ICC。更自动化的方法通常能减少观察者间的变异性,从而产生更可靠的特征。这项工作也凸显了一个深刻而重要的区别:ICC 测量的是精密度(低随机误差),而不是准确度(低系统性偏差)。一个工具可以完美地可靠——每次都给出相同的错误答案——但却不是有效的。理解这两种误差来源对好的科学至关重要。

寻宝之旅:解释我们为何不同

一旦我们确信我们在被试之间测量的差异是真实的,真正的冒险就开始了。被试间方差不再仅仅是公式中的一个组成部分;它是一张藏宝图。它告诉我们,存在着真实的、潜在的生物学因素使得个体彼此不同。科学家的工作就是追随这张地图,找到宝藏:对该方差的解释。这个过程被称为​​协变量分析​​。

想象一下你的数据是一团散乱的点云,其中每个点代表一个人对某种药物代谢速度的测量值。这团云的散布程度就是被试间方差。一个“协变量”是每个人的一个已知属性,比如他们的体重或基因型。当我们在分析中引入一个好的协变量时,就像戴上了一副能整理这团云、揭示隐藏结构的魔法眼镜。我们设法用协变量“解释”的方差,就是我们对世界获得的知识。

药理学提供了一个经典的例证。人们从体内清除药物的速率,即清除率(CLCLCL),可能差异巨大。这是一个很大的被试间方差。为什么?一个简单的假设是体重。通过建立一个关联清除率与体重的模型,我们可以解释总方差的一部分。最初的巨大方差可以被整齐地划分为由体重解释的部分和一个较小的、仍未被解释的残余部分。

但我们可以挖得更深。为什么同样体重的人清除药物的速率仍然不同?答案往往在我们的基因里。​​药物基因组学​​就是致力于这场寻宝之旅的领域。对于化疗药物伊立替康,清除率方差的一个关键部分可以通过一个人 UGT1A1 酶的基因型来解释。通过将基因型加入我们的模型,我们又解释了一部分方差,让我们离完全理解更近了一步。

我们甚至可以沿着因果链一直追溯到分子水平。思考我们的身体如何处理砷中毒。解毒依赖于一种名为 AS3MT 的酶。AS3MT 基因的微小变异会产生这种酶的略微不同的版本,它们具有不同的动力学特性(Vmax⁡V_{\max}Vmax​ 和 KmK_mKm​)。利用酶动力学和群体遗传学的基本原理,我们可以精确计算这些蛋白质功能的微观差异如何结合起来,在整个群体中产生可预测数量的砷甲基化效率的被试间方差。从 DNA 到酶,再到群体层面的统计数据,这是一个单一、优美、统一的故事。

肖像画廊:为个性建模

科学常常寻求普适规律,但最引人入胜的故事往往是关于例外的。仅仅知道一种治疗的平均效果并不总是足够的。为了真正理解一个系统,并在个性化医疗等领域取得实质性进展,我们需要为个体差异的整个谱系建模。我们需要为每个被试画一幅独特的肖像,而不仅仅是勾勒出普通人的轮廓。

先进的统计方法,特别是​​线性混合效应(LME)模型​​,为这幅肖像画提供了画布。想象一个神经科学实验,测试一种新的脑刺激技术。我们为许多参与者测量了在对照条件和刺激条件下的脑活动。一个简单的分析可能会告诉我们刺激的平均效果。但一个 LME 模型可以讲述一个更丰富的故事。

首先,它为每个人包含一个​​随机截距​​。这是我们的老朋友,被试间方差:它只是承认每个人都有自己独特的基线脑活动水平。但模型不止于此。它还可以包含一个​​随机斜率​​。这个绝妙的补充允许刺激的效果因人而异。对一个人来说,刺激可能会引起脑活动的巨大变化,而对另一个人来说,效果可能很小甚至不存在。这些随机斜率的方差 σb12\sigma_{b1}^2σb12​,直接衡量了治疗效果在人群中变化的程度。

更精妙的是,该模型可以估计​​截距和斜率之间的相关性​​。这回答了一个深刻的问题:基线活动水平较高的人对刺激的反应倾向于更大还是更小?答案揭示了系统动力学的深刻见解。通过不仅对被试间的方差建模,还对他们反应的方差及其中的模式建模,我们从群体平均水平迈向了一门真正的关于个体性的科学。

宏大视角:作为自然法则的方差

方差分解的原则是如此基础,以至于它超越了任何单一学科,在进化生物学和流行病学等迥然不同的领域中都作为一个核心概念出现。

在​​进化生物学​​中,多层次选择理论认为,自然选择不仅可以作用于个体,还可以作用于群体。但要实现这一点,群体之间必须存在可遗传的变异,选择才能作用于此。这种组间方差是群体水平进化的基本燃料。如果所有群体都相同,选择将无从选择。一个引人入胜的动物行为模型展示了一个简单的机制,如密度依赖性扩散,如何通过同步群体的生命周期,实际上增加了一个合作性状的有效组间方差。这反过来又增强了群体选择的力量。在这里,组间方差不仅仅是待测量的东西;它是进化宏大戏剧中的一个核心角色。

在​​流行病学和社会科学​​中,未能正确分解方差可能导致极其错误的结论,这个陷阱被称为​​生态谬误​​。假设我们发现平均收入较高的城市心脏病发病率也较高。据此推断较富有的个体风险更高,这是一个严重的错误——一个谬误。很可能在每个城市内部,都是较贫穷的个体患心脏病的风险最高,但较富裕的城市有其他混杂因素(如更多的污染或更紧张的生活方式),提高了每个人的风险。在群体层面看到的关系可能与个体层面的关系完全不同,甚至相反。理解和避免这一悖论的数学关键,恰恰在于将方差和协方差分解为其组间和组内成分。这是一个严峻的教训,我们必须时刻警惕我们分析的层面。

我们的旅程结束了。我们从构建一把可靠尺子的简单、实际需求开始。这引导我们找到一种方法来解释生命中美妙的多样性,从药物代谢到大脑功能。然后我们学会了如何构建能够捕捉个性本质的复杂模型。最后,我们看到这个思想——方差分解——作为支配进化变迁和指导正确科学推理的核心原则再次出现。区分一个被试与另一个被试的变异,不是一个需要通过求平均来消除的麻烦。它是信号。它是故事。它常常就是问题的全部意义所在。