重复测量数据分析

玻尔百科

定义

重复测量数据分析是一种用于处理在同一受试者身上进行多次测量所产生的数据的统计方法。该学科主要采用线性混合效应模型（LMMs）来区分总体层面的固定效应与个体层面的随机效应，从而有效处理数据中的相关性。这种分析技术具有很强的稳健性，能够处理缺失值和不规则时间间隔等复杂问题，广泛应用于生态学监测和个性化医疗等领域。

核心要点

重复测量数据涉及对同一受试者的多次测量，这会产生相关性，在分析中必须加以考虑。
线性混合效应模型 (LMM) 是功能强大的工具，可将群体水平的趋势（固定效应）与个体水平的变异（随机效应）分离开来。
与传统方法不同，混合效应模型灵活且稳健，能有效处理现实世界中的棘手问题，如缺失数据和不规则的时间间隔。
重复测量分析的原理应用于不同领域，从生态学中追踪生态系统到利用“数字孪生”实现个性化医疗。

引言

观察随时间发生的变化是科学发现的基石，无论是追踪病人的康复过程，还是监测生态系统的健康状况。然而，从同一受试者身上重复收集的数据带来了一个独特的统计挑战：这些测量值是内在相关的，而非独立的事件。本文旨在揭开此类重复测量数据分析的神秘面纱，填补传统方法因无力处理这种复杂性而留下的知识空白。通过阅读本文，您将对建模变化的现代框架有一个清晰的理解。第一章“原理与机制”将奠定基础，解释此类数据的结构，并介绍构成其分析核心的强大工具——线性混合效应模型。随后，“应用与跨学科联系”一章将展示这些原理如何在一个广阔的科学领域中开启新的见解，揭示隐藏在我们数据中的动态故事。

原理与机制

想象一下，你正在追踪家中一株小植物的生长。每一天，你都测量它的高度。起初，这似乎很简单：一串数字。但其中隐藏着一种结构，一条无形的线将这些测量值连接在一起。今天的高度并非一个孤立的事件；它与昨天的高度紧密相连。它们是同一个故事的一部分——你那株植物的生命故事。这就是重复测量数据的本质：在同一单位或受试者上，随时间或在不同条件下进行的一系列测量。

这个简单的想法是科学中最强大的理念之一，它让我们能够看到过程的展开，亲眼见证变化本身。但它也带来了一个美妙的挑战。当观测值不再是独立的陌生个体，而是一个紧密联系的大家庭时，我们该如何分析这些数据呢？

兄弟、堂亲与陌生人：数据的结构

你植物高度测量值中的“家族相似性”源于它们共同的起源。但如果你测量的是一个班级里所有学生的身高呢？这些测量值也是相关的；同一个班级的学生共享同一位老师、同一套课程和同一个局部环境。这是一个相关但又截然不同的概念，称为聚类数据。

根本的区别在于关系的来源。

重复测量数据：相关性源于对同一个单位（一株植物、一个人、一个细胞培养物）的多次测量。数据可以通过单位和时间进行索引，例如 $Y_{it}$ ，其中 $i$ 是受试者， $t$ 是测量时间。
聚类数据：相关性源于对属于同一群体或集群的不同单位（一个班级的学生，一家医院的病人）的测量。数据通过集群和单位进行索引，例如 $Y_{cj}$ ，其中 $c$ 是集群， $j$ 是其中的受试者。

可以这样想：一个单一的时间序列，比如一支股票的每日价格，就像一个人的日记，是一个连续的叙述。而重复测量数据，或称纵向数据，则像一本本日记的合集，研究中的每个人都有一本。每本日记都讲述了一个独特的故事，但我们假设不同人的日记是相互独立的。我们的目标是阅读所有这些日记，既要理解独特的个人故事，也要理解整个群体的共同、普遍的故事。

变化的剖析：受试者内变异与受试者间变异

当我们审视我们收集的日记——比如一组患者每月的血压读数——我们立刻会注意到两种变异。

首先，一些患者的平均血压就是比其他人高。Jane的平均值可能是140 mmHg，而John的则是120 mmHg。这些个人平均值在人与人之间的差异，就是受试者间方差。它告诉我们不同的人在根本层面上有多么不同。

其次，如果我们放大看John的日记，会发现他的血压并非总是120。它每天都在波动——也许今天122，明天118。这种围绕他个人平均值的波动就是受试者内方差。它代表了短暂的变化、日常的噪声、生活的潮起潮落。

统计学的伟大洞见，并由全方差定律所公式化，即我们在数据集中看到的总变异，就是这两个部分的总和：个人平均值的方差加上个人波动的平均值。在数学上，对于受试者 $i$ 在时间 $t$ 的测量值 $Y_{it}$ ，这表示为： $\operatorname{Var}(Y_{it}) = \operatorname{Var}(\mathbb{E}[Y_{it} \mid i]) + \mathbb{E}[\operatorname{Var}(Y_{it} \mid i)]$ 这里， $\mathbb{E}[Y_{it} \mid i]$ 是受试者 $i$ 的个人平均值（或轨迹），所以 $\operatorname{Var}(\mathbb{E}[Y_{it} \mid i])$ 是受试者间方差。项 $\operatorname{Var}(Y_{it} \mid i)$ 是受试者 $i$ 的个人波动，所以 $\mathbb{E}[\operatorname{Var}(Y_{it} \mid i)]$ 是平均的受试者内方差。

但还不止于此。一个人的内部波动并非随机。今天的高读数可能会使明天出现高读数的可能性增加。这种来自同一个人的测量值趋于同步变化的倾向称为受试者内协方差。要真正理解变化，我们必须建立一个能够尊重这一完整而优美结构的模型。

能够记忆的模型：混合效应的魔力

我们如何构建一个能够理解这些不同层次变异的数学机器呢？答案既优雅又强大：线性混合效应模型 (LMM)。

假设我们想用一条简单的直线来模拟每个人随时间 ( $t$ ) 变化的症状评分 ( $Y$ )： $Y_{it} = \text{截距} + \text{斜率} \times t_{it}$ 。问题在于，你的起点（截距）和你的变化速率（斜率）对你来说是独一无二的。LMM 正是接纳了这一事实。它将每个人的截距和斜率建模为一个群体平均部分和一个个人特定偏差的组合。

这最好理解为一个两层结构的故事：

第一层（个体故事）：对每个人 $i$ 而言，其在时间 $t$ 的症状评分遵循一条个人化的直线： $Y_{it} = \beta_{0i} + \beta_{1i} t_{it} + \varepsilon_{it}$ 在这里， $\beta_{0i}$ 是个体 $i$ 的独特基线， $\beta_{1i}$ 是其独特的变化速率，而 $\varepsilon_{it}$ 仅仅是那一天的随机噪声。
第二层（群体故事）：每个人的基线 ( $\beta_{0i}$ ) 和斜率 ( $\beta_{1i}$ ) 都是一个更大群体的一部分。我们可以将它们描述为一个群体平均值加上一个个人的“怪癖”： $\beta_{0i} = \gamma_{00} + u_{0i} \quad \text{和} \quad \beta_{1i} = \gamma_{10} + u_{1i}$

让我们来分解这些美妙的组成部分：

$\gamma$ 项 ( $\gamma_{00}, \gamma_{10}$ ) 是固定效应。它们是宏大的平均值，是适用于整个群体的普遍真理。 $\gamma_{00}$ 是所有人的平均基线症状评分，而 $\gamma_{10}$ 是平均变化速率。
$u$ 项 ( $u_{0i}, u_{1i}$ ) 是随机效应。它们是模型的核心。它们捕捉了作为个体的你如何偏离平均水平。 $u_{0i}$ 是你的随机截距：你的个人基线与群体平均值相比高出或低了多少。 $u_{1i}$ 是你的随机斜率：你的症状变化速度与平均速率相比快了或慢了多少。

通过包含这些随机效应，模型在估计总体趋势的同时，学习每个人的独特轨迹。它甚至可以捕捉到个体对生物标志物（如血液中的某种蛋白质）的敏感性与平均敏感性有何不同。这个框架优雅地将固定的、普适的规律与随机的、美妙的个体异质性分离开来。

拥抱现实的混乱

现实世界是混乱的。在一个完美的研究中，每位患者都会准时出席每一次预约。这是一种均衡设计。而在现实中，患者会错过访视，预约也会被重新安排。这就造成了带有缺失数据和不规则时间间隔的非均衡设计。

这正是传统方法，如经典的重复测量方差分析（ANOVA），会失灵的地方。它们是为完美数据而构建的僵硬机器。面对一个受试者的单个缺失值，它们常常会丢弃该个体的全部故事，这不仅是信息的巨大浪费，还可能导致有偏的结论。它们还依赖于一个严格的假设，称为球形性——一个关于不同时间点方差相似性的僵硬规则。如果这个规则被打破，机器就会停滞不前，需要笨拙的“校正”才能运行。

然而，混合效应模型是为现实而生的。

缺失数据：由于模型是针对每个独立观测值编写的，它能优雅地处理缺失数据。它会利用你所拥有的关于每个人的所有信息，从而提供更稳健、更强大的结果，只要数据缺失的原因与缺失值本身无关（这种情况被称为随机缺失，或 MAR）。
无需球形性：混合模型不假定球形性。相反，它们直接对相关性结构进行建模。它们从数据中学习这组测量值是如何关联的。如果两个时间点在时间上更接近，它们之间的相关性会更强吗？模型可以通过将相关性设置为实际时间间隔 $|t_j - t_k|$ 的函数，而不是一个固定的访视序号，来学习这一点。这就是一个僵硬、脆弱的机器与一个灵活、自适应的机器之间的区别。

宏大的交响乐：解构复杂性

当我们面对一个真正复杂的生物系统时，这个框架的真正力量才会显现出来。考虑一项对鸣禽的研究，我们想了解父母的喂养努力如何影响其后代的生长。

数据是一个关系网。我们对每只雏鸟有重复的体重测量值。雏鸟是兄弟姐妹，聚集在一个巢中。每个巢都有一位母亲和一位父亲。但父母可能会在不同年份找到新的伴侣，所以母亲和父亲的效应是交叉的，而不仅仅是嵌套的。整个研究跨越了几个年份，并且由不同的观察者收集数据。这些都是变异的来源！

一个混合模型可以成为这场统计交响乐的总指挥。我们可以为每个变异来源分配一个随机效应：

为每只雏鸟设置一个随机截距和斜率，以捕捉其独特的生长曲线。
为每个巢设置一个随机效应，以捕捉共享的巢环境。
为每位母亲设置一个随机效应，以捕捉她跨越不同伴侣的一贯育儿质量。
为每位父亲设置一个随机效应。
为每一年设置一个随机效应，以捕捉好年份和坏年份。
为每位观察者设置一个随机效应，以考虑测量技术上的细微差异。

通过构建这个全面的模型，我们可以同时考虑所有这些混杂的变异来源，并清晰地估计我们真正关心的固定效应：母体和父体供给对雏鸟生长的影响。这就像拥有一个现实的声音混合调音台，让我们能够分离出管弦乐队中的每一种乐器来聆听其声部，同时仍然能欣赏整部交响乐。这就是理解重复测量的深远前景：在单一、统一的视角中，既看到个体又看到宇宙，既看到粒子又看到波动。

应用与跨学科联系

在我们迄今的旅程中，我们已经探讨了分析随时间收集的数据的原理和机制。我们已经看到如何处理一个至关重要的事实：从同一实体——无论是一个人、一个池塘，还是一个细胞培养物——获取的测量值，并非毫无关联的回声，而是一首更长旋律中相互关联的音符。现在，让我们退后一步，欣赏这种理解让我们能够听到的交响乐。通过拥抱这种时间上的依赖性，我们解锁了一个视角，它将我们对科学的看法从静态快照的集合转变为动态、流动的叙事。重复测量分析的应用并不局限于单一学科；它们构成了一种通用语言，用于描述广阔科学探索领域中的变化。

从生态学到医学：描绘生命轨迹

让我们从一个我们能轻易想象的世界开始：一组大型户外水箱，或称中宇宙，每一个都是一个充满生命的微型池塘生态系统。一位生态学家想知道一种新的杀虫剂 Agri-X 是否会伤害构成食物网基础的浮游动物。她设置了几个水箱，一些不含杀虫剂，一些含有低剂量，一些含有高剂量。周复一周，她采集水样并计算浮游动物的数量。

一种天真的做法是在实验结束时查看数据，看各组是否有差异。但这错过了整个故事！重复测量的力量在于观察故事的展开。通过纵向分析数据，生态学家不仅能看到杀虫剂是否有效果，还能看到这种效果是如何随时间发展的。浮游动物种群是立即崩溃了？还是呈现出缓慢、持续的下降？是否有一些显示出恢复的迹象？线性混合效应模型 (LMM) 是完成这项工作的完美工具。它允许生态学家为每个独立中宇宙的独特轨迹建模，考虑到起始种群稍高的水箱往往会保持在较高水平，然后提出关键问题：在考虑了这些个体差异之后，是否存在与杀虫剂相关的总体趋势？它让我们能够在每个独特生态系统的随机“嘈杂声”中看到处理的系统性效应。

这种追踪轨迹的原则在医学中也具有深远的意义。想象一位患有像 Duchenne 型肌营养不良症这样的进展性疾病的患者。临床医生通过测量他们的用力肺活量（ $FVC\%$ ）来监测他们多年的肺功能。就像生态学家的中宇宙一样，每位患者都有自己独特的衰退轨迹。有些人衰退得快，有些人慢。混合效应模型使我们能够描述患者群体的平均衰退轨迹，同时尊重每个人旅程的个体性。但我们可以更进一步。患者在他们生命的不同阶段接受治疗，例如糖皮质激素或通气支持，这些治疗是时变协变量。通过将它们纳入模型，我们可以看到它们如何改变衰退的轨迹。更重要的是，这有助于更好的预测。一个理解治疗如何影响肺功能的模型可以对患者的未来做出更准确的预测，这是规划护理的关键工具。这也助于区分疾病进展的影响和旨在减缓其进展的干预措施的影响。

临床研究的现实世界通常是混乱的。患者错过预约，导致访视时间不规律和数据缺失。疾病可能以复杂的方式表现，例如在1型神经纤维瘤病中，一个患者可能有多发性肿瘤，每个肿瘤都有自己的生长模式。这创造了一个分层或嵌套的数据结构：每个肿瘤随时间的多次测量，以及每个患者体内的多个肿瘤。传统方法，如重复测量方差分析，在这种复杂性下会崩溃，通常要求完全均衡的数据，并对测量值之间的相关性做出限制性假设。在这里，线性混合效应模型的灵活性真正大放异彩。它能优雅地处理不规则的时间点，在合理的假设下自然地容纳缺失数据，并且可以明确地模拟复杂的层次结构，例如病变在患者体内的嵌套关系。这种稳健性使得 LMM 成为现代纵向临床研究的主力工具，让我们能够从通常充满噪声的人类健康数据中提取清晰的信号。

超越正态分布：计数与事件的世界

世界并不总是以遵循正态分布曲线的光滑、连续量来衡量的。我们常常要计数：血液涂片中的寄生虫数量、动物获得的配偶数量、一年中新增的癌症病例数。当这些计数随时间重复进行时，我们需要扩展我们的工具包。

考虑一项关于曼氏丝虫病（一种寄生虫病）的实地研究。研究人员治疗受感染的个体，然后追踪他们血液中微丝蚴（幼虫）的数量随时间的变化。这是一个重复测量设计，但结果是一个计数值。这些计数值通常是“过度离散”的——意味着它们的变异性比简单的泊松过程所预测的要大。此外，每次检查的血液体积可能因样本而异。为了分析这一点，我们转向一个我们熟悉模型的强大扩展：广义线性混合模型 (GLMM)。GLMM 允许我们为数据指定一个更合适的概率分布，比如可以处理过度离散计数的负二项分布。它还允许我们包含一个“偏移项”。通过将血液体积的对数作为偏移项包含在内，模型会自动调整变化的样本量，并估计基础的每毫升寄生虫率，这才是具有生物学意义的量。这是一个美丽的例子，说明我们的统计模型如何能够根据我们数据的确切性质和我们的科学问题进行定制。

从计算离散事件，我们可以转向追踪状态之间的转换。这是流行病学的领域。想象一项关于烟草使用的公共卫生研究。一大群人被追踪多年，在每次访视时，他们被归类为“当前吸烟者”、“前吸烟者”或“从不吸烟者”。这些纵向数据使我们能够测量整个系统的动态。我们可以计算时点患病率：在特定时刻吸烟的人口比例。但更强大的是，我们可以计算率。吸烟开始的发病率是指新吸烟者从非吸烟者群体中出现的速率，以每人年风险事件数来正确衡量。这正确地考虑了人们被观察的时间长度不同。同样，我们可以定义戒烟率为吸烟者转变为戒断状态的速率，以及复吸率为前吸烟者恢复吸烟的速率。分析这些数据需要仔细处理删失——当人们失访时，他们的最终结果是未知的。这些流行病学指标，都源于重复测量，是公共卫生监测的基础，并使我们能够评估禁烟运动和其他干预措施的影响。

解构自然：剖析机制

或许，重复测量分析最令人兴奋的应用是它能够帮助我们剖析复杂系统并理解驱动它们的机制。通过巧妙的实验设计和建模，我们可以开始梳理相关的过程，更接近于“是什么”背后的“为什么”。

一个最优雅的例子来自演化生物学。自然选择作用于变异，但这种变异存在于不同层面。选择是偏爱那些平均性状值最优的个体（个体间选择），还是偏爱那些最能围绕自身最佳状态调节其状态的个体（个体内稳定化选择）？想象一项对鸟类的长期研究，每年为每个个体测量一个生理性状，如体重，同时记录它们是否熬过了冬天。通过重复测量，我们可以将每个测量值 $z_{it}$ （鸟 $i$ 在年份 $t$ 的体重）分解为两部分：该鸟的终生平均体重 $\bar z_i$ ，以及它在特定年份与该平均值的偏差 $\delta_{it}$ 。通过在生存模型中同时包含这两个组成部分及其二次项，我们可以同时估计作用于个体之间（对 $\bar z_i$ ）和个体内部（对 $\delta_{it}$ ）的选择强度。这种强大的统计分解就像一个棱镜，将一束数据光分解成其组成部分，使我们能够提出关于演化在野外如何运作的更细致入微的问题。同样的逻辑也适用于研究交配和繁殖成功的复杂舞蹈，通过仔细建模个体和环境变异，使我们能够从嘈杂的、真实的野外数据中估计像 Bateman 梯度这样的选择梯度。

对机制的探索在医学中也至关重要。我们可能观察到某个生物标志物，如抗体水平，与疾病活动性相关。但这个生物标志物是在疾病发作之前上升的吗？回答这个时间优先性的问题是理解因果关系的关键一步。例如，在系统性自身免疫性疾病中，研究人员想知道像抗 dsDNA 水平这样的生物标志物变化是否能预测随后的狼疮活动发作。一种名为随机截距交叉滞后面板模型 (RI-CLPM) 的复杂方法正是为此设计的。它模拟了生物标志物与疾病活动性随时间推移的相互关系，同时估计了时间 $t$ 的生物标志物对时间 $t+1$ 活动性的影响，以及时间 $t$ 的活动性对时间 $t+1$ 生物标志物的影响。至关重要的是，通过包含随机截距，它区分了稳定的、个体间的相关性（例如，倾向于高抗体水平的人也倾向于高疾病活动性）和对于理解疾病过程至关重要的动态的、个体内部的时间关系。

现代前沿：从基因组到数字孪生

随着我们进入生物学“大数据”时代，重复测量分析的重要性日益增加。在现代“组学”研究中，我们可以同时测量数千个基因的表达水平。当我们按时间进程进行测量时，我们面临的是海量的纵向数据。我们如何在这种噪声中找到生物学信号？我们可以调整像基因集富集分析 (GSEA) 这样的方法，用于时间序列背景，而不是一次只分析一个基因。通过首先使用混合效应模型或非参数方法为每个基因计算一个代表其时间趋势的得分，然后我们可以问：是否存在一个完整的通路或生物学过程，其中的基因在时间上显示出协调的上调或下调趋势？这种方法让我们能够见微知著，识别出响应刺激或在疾病过程中发生变化的关键生物学机制。

这引导我们走向个性化医疗的终极愿景：针对特定患者的“数字孪生”。想象一个关于个体生理的综合数学模型，或许用于管理像糖尿病这样的慢性病。这个模型不是静态的；它是一个动态的状态空间模型，描述了个体的内部状态（如血糖和胰岛素敏感性）如何随时间演变，以响应饮食、运动和药物等输入。来自患者的数据流——连续血糖监测读数、定期实验室测试、报告的胰岛素剂量——是一系列重复测量。利用贝叶斯更新的严谨逻辑，每一条新数据都被用来完善模型对患者当前状态的估计，并校准模型的参数，使其真正特定于该个体。该模型成为一个虚拟副本，一个“数字孪生”，可以用来模拟不同治疗策略的效果，并为那个独特的个体找到最佳的前进道路。

从追踪池塘中浮游动物的简单行为，到数字分身的未来主义愿景，重复测量数据的分析提供了一条统一的线索。它是关于变化、动态、轨迹的科学。它是一种工具，让我们能够超越静态的照片，开始理解生命世界错综复杂而又美妙的音乐。