try ai
科普
编辑
分享
反馈
  • 个体间变异

个体间变异

SciencePedia玻尔百科
核心要点
  • 个体间变异并非随机噪声,而是一种关键的生物学信号,代表了个体之间有意义的差异。
  • 混合效应模型是一种强大的统计工具,可将变异分解为固定效应(群体平均值)和随机效应(个体偏差)等成分。
  • 区分被试内变异(例如,日常波动)和被试间变异(稳定的差异)对于避免错误的科学结论至关重要。
  • 理解并对此类变异进行建模,对于设计有效的临床试验、实现个性化医疗以及构建可靠的机器学习模型至关重要。

引言

科学常常通过研究平均值来寻求普适性定律,但这一做法却时常忽略一个基本事实:个体之间的差异不只是噪声,而是丰富的信息来源。这种被称为​​个体间变异​​的现象,是生物系统的基本构成,也是从医学到生态学等领域的核心挑战。本文旨在纠正将变异视为统计学上的麻烦这一普遍误解,并展示如何理解、建模并利用变异。首先,我们将在​​原理与机制​​部分深入探讨基本概念,探索如何使用混合效应模型等强大工具从数学上剖析变异。随后,在​​应用与跨学科联系​​部分,我们将看到这些原理的实际应用,揭示对个体差异的深入理解如何给临床试验、个性化医疗和数据科学带来革命性的变化。

原理与机制

同与不同的交响曲

环顾四周,你看到的是人。他们无疑都是人。他们共享一个基本蓝图——两臂、两腿、一个头颅、一颗跳动的心脏。这就是“同”,是作为人的普适性法则。然而,没有两个人是完全相同的。有人高,有人矮;有人新陈代谢快,有人则慢。这就是“不同”,是​​个体间变异​​这一美丽、恼人却又极其重要的现象。

在科学中,我们对“同”怀有根深蒂固的热爱。我们寻找普适性定律,寻找能够描述从行星到粒子万物行为的方程。我们常常将“不同”视为一种烦扰,一种模糊的噪声,它掩盖了潜在原理的清晰信号。我们将其平均化,希望它会消失。但如果变异不仅仅是噪声呢?如果变异本身就是故事的核心呢?

想象你是一位物理学家,但研究的不是完全相同的电子,而是一片森林中的树木。你可以测量每棵树的高度并计算平均值。你可能会宣布:“这片森林中树的高度是15米。”从某种意义上说,这是一个真实的陈述,但它忽略了森林的全部戏剧性。它忽略了那些独占阳光的参天大树,以及在它们阴影下挣扎的幼苗。平均值是森林的一个特征,但高度的分布范围——即变异性——才是生命本身的印记,是竞争、历史以及构成森林之所以为森林的种种过程的体现。在生物学、医学和许多其他科学领域,理解变异并非偏离主题,它就是主题本身。

分解混沌:信号、噪声与存在的多层次

要理解变异,我们必须首先学会剖析它。我们在任何生物测量中观察到的总体“混乱”状态,很少是单一、同质的事物。它几乎总是几种不同类型变异的混合体,像洋葱一样层层叠加。

让我们以一个简单的日常活动为例:走路。如果你测量一次步行中每一步的长度,你会发现它们并非完全相同。步与步之间存在微小的波动。这是一种变异,是行走这一行为本身固有的不稳定性。现在,如果我也走同样的路,我的步长也会波动。但我的平均步长很可能与你的不同。

这个简单的例子揭示了变异的两个基本层次。

  1. ​​被试内变异​​:围绕你个人平均值的随机、逐次波动的步长。
  2. ​​被试间变异​​:你的个人平均步长与我的个人平均步长之间的系统性差异。

这不仅仅是一个学术上的分类练习。未能区分这些层次可能会带来严重的后果。考虑一项关于饮食与健康的研究。我们想知道维生素C的摄入量是否与血液中的某个特定生物标志物有关。你每天摄入的维生素C量是变化的——这是​​个体内变异​​。但你的长期平均摄入量,即你的“通常”摄入量,很可能与你的邻居不同——这是​​个体间变异​​。

如果我们粗心大意,只从每个人身上获取一天的测量数据,我们就会将这两种变异来源混在一起。一个通常摄入量高的人可能碰巧在测量日摄入量较低,反之亦然。巨大的日常噪声(个体内变异)可能会完全淹没通常摄入量与健康生物标志物之间真实的潜在关系。我们可能会进行分析,发现没有相关性,从而错误地断定维生素C不重要。这种测量噪声掩盖真实信号的效应,被称为​​衰减效应​​。为了找到真相,我们必须像剥洋葱一样,将来自测量过程的变异与人与人之间的真实变异分离开来。

科学家的工具箱:混合效应模型

那么,我们如何在数学上进行这种剖析呢?我们需要一个能够分层看待世界的工具。这个工具就是​​分层模型​​,更常见的叫法是​​混合效应模型​​。它是现代统计学中最强大、最优雅的思想之一,并且完美地契合于理解变异这一任务。

让我们想象正在开发一种新药。我们将其给予一组人群,并随时间测量其在血液中的浓度。混合效应模型允许我们用三个关键组成部分来描述这种情况:

  • ​​固定效应​​:这些是适用于整个群体的“游戏规则”。例如,模型中会有一个参数,代表药物从体内清除的典型速率,我们称之为CLpopCL_{\text{pop}}CLpop​。这是群体平均值,即“同质性”。它描述了人类的平均反应。

  • ​​随机效应​​:这是我们捕捉“差异”的地方。我的身体并非“平均”的人体。我的实际清除率CLiCL_iCLi​会偏离群体平均值。我们用一个​​随机效应​​ηCL,i\eta_{CL,i}ηCL,i​来为这种偏差建模。因此,我的个人清除率可以表示为CLi=CLpop⋅exp⁡(ηCL,i)CL_i = CL_{\text{pop}} \cdot \exp(\eta_{CL,i})CLi​=CLpop​⋅exp(ηCL,i​)。其关键思想是,我们不将每个人的ηi\eta_iηi​作为一个全新的、独立的参数从头开始估计。相反,我们假设这些个体偏差本身是从一个偏差群体中抽取的——通常是一个均值为零的钟形曲线(正态分布)。这个ηi\eta_iηi​项代表了​​个体间变异​​:那些使个体iii之所以独特的、未被观测到的生理异质性。

  • ​​残差​​:即使对于单个个体,我们的模型也不会是完美的。如果我们预测受试者iii在2小时的药物浓度为101010 mg/L,实际测量值可能是10.510.510.5 mg/L。这种逐点的、剩余的误差ϵij\epsilon_{ij}ϵij​,就是​​残差未解释变异​​(RUV)。它既包括了来自实验室设备的测量误差,也包括了个体内部的瞬时生物波动——即我们在步长例子中看到的不稳定性。它是洋葱的最内层。

这个框架具有惊人的普适性。生态学家在为树木生长建模时会使用它。心理学家在为学习率建模时会使用它。生物信息学家在研究基因表达时也会使用它。在RNA测序中,两个人之间某个基因活性水平的真实差异被称为​​生物学方差​​(我们的随机效应ηi\eta_iηi​)。而由测序仪和化学反应引入的噪声则被称为​​技术方差​​(我们的残差ϵij\epsilon_{ij}ϵij​)。名称虽有不同,但其优美、分层的思想内核保持不变。

剥开更多层洋葱

这种层次结构不必止于两层。自然界往往更为复杂,我们的模型也可以同样复杂。

想象一下,我们的药物研究要求患者在相隔数周的三个不同场合复诊。我们可能会发现,对于某一个特定的人,他们肠道吸收药物的能力在每次就诊时并不相同。这或许取决于他们早餐吃了什么。这既不是下一分钟的随机波动(残差),也不是该个体的固定特征(个体间变异)。它是针对整个场合的系统性偏移。我们称之为​​场合间变异​​(IOV)。我们的模型可以通过添加另一层随机效应κij\kappa_{ij}κij​来容纳这种情况,该效应特定于个体iii在场合jjj的表现。这样,像吸收速率kak_aka​这样的参数方程,现在可能看起来像ka,ij=ka,pop⋅exp⁡(ηi+κij)k_{a,ij} = k_{a,\text{pop}} \cdot \exp(\eta_{i} + \kappa_{ij})ka,ij​=ka,pop​⋅exp(ηi​+κij​)。我们用一个优美的表达式,捕捉到了三个截然不同的随机性来源。

但我们还可以做得更好。我们不必将被试间的所有变异都留在随机效应的“未解释”桶里。我们可以尝试去解释它。我们可能注意到,体重较重的人从体内清除药物的速度往往更快。体重是一个可测量的特征,或称为​​协变量​​。我们可以将这种关系直接构建到我们的模型中。

个体清除率CLiCL_iCLi​的方程可能变为:

log⁡(CLi)=log⁡(θCL)+βWTlog⁡(WTi70)+ηCL,i\log(CL_i) = \log(\theta_{CL}) + \beta_{WT}\log\left(\frac{WT_i}{70}\right) + \eta_{CL,i}log(CLi​)=log(θCL​)+βWT​log(70WTi​​)+ηCL,i​

在这里,模型指出,清除率的对数值取决于一个典型值(log⁡(θCL)\log(\theta_{CL})log(θCL​))、一个根据受试者体重(WTiWT_iWTi​)进行确定性调整的项,以及剩余的随机效应(ηCL,i\eta_{CL,i}ηCL,i​)。现在,我们已将被试间变异划分为两部分:一部分是可预测的,由协变量解释;另一部分是随机的,仍然未被解释。在许多方面,科学这场宏大的游戏,就是一场寻找更多协变量,将尽可能多的变异从“未解释”一栏移至“已解释”一栏的探索。

“借力”的力量

此时,你可能会提出一个深刻的问题:为什么要费这么大周折使用“随机”效应?为什么不把每个个体都当作一个独立的谜题,独立地估计他们的参数(即所谓的“固定效应”方法)?

答案在于一个名为​​可交换性​​的深刻统计学概念。在收集任何数据之前,我们没有理由相信受试者1的药物清除率会高于受试者7。从我们的角度来看,他们是可以互换的。这个简单、符合常识的假设,为将他们视为从同一个群体分布中进行的随机抽取提供了哲学和数学上的依据。

这种建模选择带来了一个强大乃至近乎神奇的后果:​​部分汇集​​,或者用一个更形象的说法,​​借力​​。假设我们对大多数受试者都有大量数据,但对于受试者X只有两个血样。试图仅凭两个数据点来估计受试者X的个人药物清除率是徒劳的;其估计值会极不稳定。但在混合效应模型中,对受试者X的估计是一个经过精妙加权后的折衷。它一部分取决于其自身稀疏数据的启示,另一部分则被拉向整个群体的均值。模型有效地从数据丰富的个体那里“借力”,以便为数据贫乏的个体做出更稳定、更合理的估计。这不是作弊;这是假设每个人都来自同一潜在群体的逻辑结果。这一原则是个性化医疗的基石,因为我们必须为那些信息有限的新患者做出预测。

从模型到世界:创建虚拟群体

我们从对人类差异的简单观察,一路走到了一个用于剖析和解释它的复杂数学框架。最终的回报是什么?是创造新世界的能力。

利用我们精心调整的变异模型,我们可以在计算机上进行in silico实验。这是通过生成一个​​虚拟群体​​来实现的。我们首先创建一份虚拟个体列表,他们不是克隆体,而是一个多样化的队列。我们从协变量的真实世界分布中抽样:年龄、性别、体重、遗传标记等等,并确保保留它们之间的相关性(例如,身高和体重并非独立)。

对于每个虚拟人,我们使用模型的固定效应和协变量关系来计算其“典型”生理参数。然后是关键的一步:我们注入个性的火花。我们为每个虚拟人赋予其自身的随机效应η(j)\eta^{(j)}η(j),该效应从我们根据真人估算出的同一分布中抽取。

结果便是一个由数千个独特但生理上合理的个体组成的模拟群体。我们现在有了一个虚拟临床试验。我们可以给我们的虚拟群体施用虚拟药物,并观察会发生什么。我们可以看到谁反应良好,谁有副作用,以及原因何在。我们可以测试那些在真实试验中风险太高或成本太昂贵的给药策略。我们可以识别出导致不良后果的协变量和随机效应的特定组合。

在这样做的时候,区分两个概念至关重要。个体间的内在随机性,即我们的η(j)\eta^{(j)}η(j),是​​偶然变异​​。它是世界的一个真实特征,我们可以建模但无法消除。我们对群体参数(如CLpopCL_{\text{pop}}CLpop​)本身缺乏完美知识,这属于​​认知不确定性​​。这种不确定性我们可以通过收集更多数据来减少。虚拟群体是偶然变异的模型,它使我们能够预测在一个真实的、多样的、充满变异的世界中可以预期的结果范围。这是将我们对变异的理解从一个问题转变为一门预测科学的终极体现。

应用与跨学科联系

在我们迄今为止的旅程中,我们已经探索了个体间变异的数学骨架——方差、相关性和分布的优雅之舞。但物理学,乃至所有科学,其本质并非方程本身,而是方程所描述的世界。自然界中一个深刻而美丽的事实是,没有两个生物是完全相同的。这不只是一个麻烦,一个需要被平均掉的统计噪声。恰恰相反,这种变异性正是生命的纹理。它是进化的原材料,是群体韧性的来源,也是我们探寻理解和改善人类健康过程中的核心挑战与机遇。

现在,让我们走出抽象,看看个体间变异的原理如何不仅仅是理论上的奇珍,而是每日应用于医学、生物学和数据科学前沿不可或缺的工具。我们将看到,理解个体如何不同,是提出正确问题、获得可信答案并最终做出重要发现的关键。

看到信号:公平比较的艺术

想象一下,你想知道一种新药是否能降低血压。一个简单的想法是给一群人服用此药,然后测量他们的血压。但你该拿什么作比较呢?另一组没服药的人吗?问题在于,这两个组里的人从一开始就不同!John的血压天生就比Jane高。如果John在治疗组,而Jane在对照组,你如何能将药效与他们固有的生物学差异分离开来?

这正是配对设计的精妙之处。我们不再比较John和Jane,而是将John与他自己进行比较。我们在治疗前测量他的血压,然后在治疗后再测一次。对John而言,这两个测量值的差异更能纯粹地反映治疗对他的效果,因为我们抵消了他独特的、稳定的生物学基线。当我们为许多个体都这样做,并对这些差异求平均时,我们便有效地滤除了被试间变异的嘈杂之声,使得治疗效应的微弱旋律得以被听见。这就是为什么在研究同一批受试者随时间的变化时,配对t检验比独立双样本检验要强大得多。一个人的“之前”和“之后”状态之间的相关性不是问题,而是一种可被利用的资源!

这个简单而强大的思想是现代临床试验的基石。例如,在药理学中,当测试一种新的仿制药是否与原研药以同样的方式被人体吸收时(即“生物等效性”研究),黄金标准是​​交叉设计​​。一组志愿者服用药物A,经过一个“洗脱期”后,再服用药物B。另一组则以相反的顺序服用,即先B后A。每个人都作为自己的对照。通过关注被试内部两种药物之间的差异,药理学家可以将药物的特性与个体间巨大的药代动力学变异(比如我的身体处理咖啡因的速度与你的完全不同这一事实)分离开来。

同样的原则也延伸到了精准肿瘤学的前沿领域。当癌症患者接受靶向治疗时,研究人员可能会在治疗前后分析其肿瘤的遗传活动。目标是看药物是否击中了它的靶点。但每个患者的肿瘤都是一个独特的遗传图景。将一个患者治疗后的肿瘤与另一个患者治疗前的肿瘤进行比较,将不可避免地产生混淆。相反,通过对同一个肿瘤在两个时间点进行基因表达的配对分析,科学家可以解释掉使得该肿瘤独一无二的、稳定的、受试者特异性的“区组效应”,从而以更高的统计功效分离出治疗的真实效果。在所有这些领域,教训都是相同的:最公平的比较几乎总是将个体与自身进行比较。

解读地图:从群体云到个人印记

医学中最常见的工具之一是你化验单上看到的“参考区间”。它告诉你,对于某个特定的生物标志物,95%的“健康”人群的数值落在某个范围内,比如说从0.40.40.4到4.54.54.5个单位。人们很容易认为,如果你的值在这个范围内,你就没事,如果超出了范围,你就有问题。但对个体间变异的理解揭示了这是一种危险的过度简化。

群体参考区间是一个宽泛的统计“云”,它是由成千上万个不同个体的、由体内稳态所捍卫的个人设定点叠加而成的。我的身体可能在促甲状腺激素(TSH)水平维持在清晰的1.11.11.1时感到非常舒适,而你的身体可能在3.63.63.6时同样舒适。这两个值对我们各自来说都是“正常的”,并且都落在群体参考区间内。但如果我的TSH突然跃升到4.24.24.2会怎样?从技术上讲,它仍然“在范围内”,但对我而言,这代表着与我个人基线相比近四倍的增长。这是一个剧烈的偏离,一个强烈的信号,表明我的甲状腺可能开始衰竭。而对你来说,TSH为4.24.24.2只是相比于你3.63.63.6的基线一个微不足道的、无意义的波动。因此,化验单上的同一个数字,对一个人来说可能是刺耳的警报,而对另一个人来说则可能是无意义的噪声。真正的个性化医疗意味着,解读数据时不应参照模糊的群体平均值,而应参照个体自身的纵向历史记录。

这些不同的个人设定点从何而来?我们越来越能够将它们追溯到我们独特的基因构成。想想我们肝脏中分解药物的酶。我们并非都拥有相同版本的这些酶。编码酶的基因发生微小变化就可能产生重大影响。一个人的基因变异可能会减少产生的酶的数量;这将降低他们从系统中清除药物的最大速率(即一个较低的Vmax⁡V_{\max}Vmax​)。另一个人的变异可能会改变酶的形状,使其抓住药物分子的效率降低(即一个较高的KmK_mKm​)。这些遗传差异是药物反应中个体间变异的一个主要来源,解释了为什么标准剂量的药物可能对一个人有毒,对另一个人恰到好处,而对第三个人则无效。现代药代动力学模型明确地对此进行建模,使用的框架既考虑了基因型的系统性效应,也考虑了个体间剩余的随机变异。

生物学的基石:在大数据时代驯服不确定性

当我们踏入大规模数据分析和机器学习的世界时,个体内变异和个体间变异之间的区别变得更加关键。我们可以用精确的数学语言来描述它。在流行病学中,​​组内相关系数(ICC)​​是一个介于0和1之间的数字,它告诉我们一次测量中的总变异有多大比例是由于人与人之间稳定的、真实的差异(σb2\sigma_b^2σb2​,个体间方差),相对于单一个体内部的短暂波动(σw2\sigma_w^2σw2​,个体内方差)。 ICC=σb2σb2+σw2\text{ICC} = \frac{\sigma_b^2}{\sigma_b^2 + \sigma_w^2}ICC=σb2​+σw2​σb2​​ 如果ICC很高(接近1),这意味着我们看到的大部分变异来自人与人之间的真实差异,单次测量是该个体真实平均值的“可靠”快照。如果ICC很低,则意味着个体的测量值波动很大,单个数据点很难反映其长期状态。

这对科学发现具有深远的影响。想象一项预算固定的研究。你是应该招募更多的人,还是对现有的人进行更多次的测量?答案是“视情况而定”,但这种依赖关系受个体间变异的支配。我们对群体平均值估计的总不确定性,同时取决于被试间方差σb2\sigma_b^2σb2​和被试内方差σw2\sigma_w^2σw2​。正如在神经科学的样本量计算中所阐明的,组均值的方差受这两个术语的限制。你可以通过增加每个人的测量次数来减少来自被试内方差的不确定性贡献。但无论你对同一些人测量多少次——即使你能以无限精度进行测量——你仍然会面临源于σb2\sigma_b^2σb2​的不确定性。人与人之间真实的、不可简化的生物学变异为你的知识设定了硬性上限。减少这种不确定性的唯一方法是增加NNN——即从群体中抽样更多的个体。当被试间变异很大时,增加更多的受试者几乎总是比增加每个受试者的试验次数更有价值。

同样的逻辑对于构建能在现实世界中工作的人工智能也至关重要。假设我们正在训练一个机器学习模型,通过脑部扫描来诊断疾病。我们的数据集包含来自许多不同受试者的许多扫描图像。一种天真的做法可能是随机打乱所有扫描图像,然后将它们分成训练集和测试集。这是一个灾难性的错误。因为来自同一个人的扫描图像彼此之间比与其他人的扫描图像更相似,算法会无意中学习到训练集中每个人的独特“特征”。当它在测试集中看到来自同一个人的另一张扫描图像时,它会表现得非常好——不是因为它学会了检测疾病,而是因为它通过识别这个人而作弊了。其性能将是过度乐观的,当部署到真正的、全新的患者身上时,该模型将惨败。评估这类模型唯一诚实的方法是在受试者层面进行严格的分离,例如​​留一被试交叉验证(LOSO)​​,即测试模型泛化到它从未见过的个体上的能力。这甚至延伸到数据处理的细节。例如,在分析皮层脑电图(ECoG)数据时,简单的标准化数据是不够的。必须使用一种明确建模并移除受试者特异性背景噪声谱(非周期性1/f1/f1/f成分)的归一化方法,才能公平地比较不同个体间的振荡性大脑活动。

从设计一个简单的实验到构建一个复杂的人工智能,原理是相同的。忽略个体间变异,就会被随机性所愚弄。理解它,就能更清晰地洞察世界。在当今最复杂的分析中,使用贝叶斯分层模型,我们可以正式地将我们观察到的不确定性划分为两种:偶然不确定性,即个体间真实的、不可简化的生物学差异;以及认知不确定性,它反映了我们因有限数据和不完美测量而导致的知识局限。在生物学领域做科学研究,就是一场持续的探索,旨在将后者转化为前者——即减少我们的无知,以便我们能够看到生命本身那壮丽、结构化且充满意义的变异性。