线性混合效应模型

玻尔百科

核心要点

线性混合效应模型专为分层或聚类数据设计，在这类数据中，观测值并非相互独立，从而避免了简单模型可能得出的不准确结论。
通过引入随机截距和随机斜率，该模型能够同时解释不同组或被试之间的基线差异和变化速率的差异。
LME 能够明确地估计被试内效应和被试间效应，从而避免了诸如生态谬误或聚合偏误等统计陷阱。
在实践中，这些模型擅长处理混乱的真实世界数据，包括具有不规则时间和缺失数据点的不平衡设计，而无需丢弃参与者。

引言

在理想世界中，我们收集的每一条数据都是一个独立的事件，一个干净的观测值，为我们的理解增添独特的信息。经典的统计方法，如普通最小二乘法回归，正是建立在这一基础之上。然而，真实世界的数据很少如此整洁。从教室里的学生到临床试验中的患者，观测数据常常被聚类成组，共享着使它们彼此更为相似的共同环境和影响。忽视这种内在结构，将相关数据视为独立数据，会导致分析存在缺陷、自信具有欺骗性，并最终得出错误的结论。

本文通过介绍线性混合效应模型（LME）来应对这一根本性挑战。LME 是一个强大的统计框架，旨在尊重和模拟真实世界数据复杂的、分层的本质。通过阅读本指南，您将清楚地了解这些模型的工作原理，以及它们为何在众多科学学科中变得不可或缺。接下来的章节将首先剖析其核心的“原理与机制”，探索随机截距和随机斜率等概念如何让我们捕捉群体层面的变异并避免常见的统计谬误。随后，我们将遍览其“应用与跨学科联系”，展示 LME 如何为从临床试验中的患者康复到复杂人际关系的动态等各种问题提供更丰富的洞见。

原理与机制

独立的幻觉

想象一下，你是一位研究坠落物体的物理学家。你从塔上扔下一千个相同的滚珠轴承，并记录它们下落的时间。经典力学原理告诉我们，除了气流中微小的随机波动外，每一次下落都是一个独立事件。第一次下落的结果，除了你已从万有引力定律中了解到的信息外，不会为第 900 次下落提供任何新的信息。这就是美丽、纯粹的独立观测世界，也是许多经典统计学（如主力模型普通最小二乘法（OLS）回归）的基石。

但如果世界并非总是如此简单呢？如果我们的观测值不是独立的士兵，而是一个家庭、一个团队或一个社区的成员呢？

考虑一个不同的实验。我们不再扔滚珠轴承，而是想了解是什么让学生擅长科学。我们收集了数千名学生的考试成绩。但问题在于：这些学生并非一个随机的个体群体。他们被分在不同的教室里，教室又属于不同的学校，学校又属于不同的学区。在同一间教室、由同一位老师授课、使用相同课程的两个学生，他们的分数真的是独立的吗？当然不是。他们共享一个影响其学习的共同环境。他们的命运或微妙、或不那么微妙地交织在一起。

这就是分层或聚类数据的本质，它无处不在。我们在医学中看到它，比如我们随着时间的推移从同一名患者身上重复测量血压，而这些患者在不同的医院接受治疗。我们在神经科学中看到它，比如我们记录来自同一个参与者大脑内的许多神经元的放电率。在这些情境中，同一组（一个患者、一家医院、一个参与者）内的观测值可能比来自不同组的观测值更相似。它们是相关的。

假装这种相关性不存在——将每一次观测都视为一个全新的、独立的信息片段——就是自欺欺人。这就像听到回声却以为发出了新的声音。我们会变得过度自信。我们严重低估了结论中的不确定性，计算出过小的 p 值和具有欺骗性的窄置信区间。经典线性模型的简单形式在这里失效了，因为它违反了自身最基本的独立性原则。事实证明，世界不是平的；它有结构，我们需要一个尊重这种结构的工具。这个工具就是线性混合效应模型（LME）。

倾听群体的歌声：随机截距

那么，我们如何用数学方式捕捉这种“群体性”呢？让我们回到学生们身上。我们可以尝试考虑构成一个教室独特性的每一个因素——老师的经验、窗户的数量、教科书的年代——但这注定是徒劳的。这个清单无穷无尽。

一个更优雅的想法是，假设每个教室都有其内在的“基线”表现水平。我们不知道任何特定教室的具体水平是多少，我们也不关心某个特定的教室本身。相反，我们将每个教室的基线视为从所有可能教室基线的宏大总体中随机抽取的。这就是随机效应的本质。

最简单的 LME 通过随机截距来体现这一思想。教室 $i$ 中学生 $j$ 的分数 $y_{ij}$ 的模型方程可能如下所示：

y_{ij} = \beta_0 + u_{0i} + \varepsilon_{ij}

让我们来分解这个方程。

$\beta_0$ 是固定截距。它是所有教室中所有学生的总平均分。这是我们歌曲的主旋律。
$u_{0i}$ 是教室 $i$ 的随机截距。这是神奇的部分。它是一个特定于教室 $i$ 的数字，代表该教室的平均分与总平均分 $\beta_0$ 的偏离程度。我们假设这些 $u_{0i}$ 值是从一个均值为零、方差为 $\sigma^2_u$ 的正态分布中抽取的。大的 $\sigma^2_u$ 意味着教室之间差异巨大。小的 $\sigma^2_u$ 意味着所有教室都相当相似。模型的工作就是从数据中估计这个方差。
$\varepsilon_{ij}$ 是我们熟悉的残差项。它捕捉了单个学生围绕其所在教室平均值的随机散布情况。

这个简单的模型功能极其强大。它对变异进行了划分：学生分数之所以不同，部分原因在于他们所在的教室（组间方差， $\sigma^2_u$ ），部分原因仅仅是学生个体间的差异（组内方差， $\sigma^2_{\varepsilon}$ ）。通过承认这两个变异来源，模型可以做出远为诚实和准确的推断。

有趣的是，这个随机截距模型在数学上等同于几十年来用于分析纵向数据的经典重复测量方差分析（RM-ANOVA）。RM-ANOVA 是一种处理一种聚类（对一个被试的重复测量）的巧妙方法，但我们现在知道它只是 LME 的一个特殊的、受限的案例。它强加了一种非常特定的相关模式，称为复合对称性：即同一组内的任意两次测量都被假定为具有相同的相关性。这比假定零相关性前进了一大步，但这现实吗？你今天的血压读数与昨天的读数的相关性，是否和与一年前的读数的相关性一样？很可能不是。我们需要更大的灵活性。

每个群体都按自己的节奏起舞：随机斜率

这正是 LME 开始真正大放异彩的地方。让我们在学生案例中加入时间维度。我们在学年初和学年末测量他们的科学成绩。我们感兴趣的是他们的进步程度。所有教室的平均进步是时间的固定效应。

但如果有些老师是奇迹创造者呢？在他们的教室里，学生们不仅起点不同，他们学得更快。他们一年中进步的轨迹更陡峭。时间的影响不是一个普遍常数；它因教室而异。

为了捕捉这一点，我们引入了随机斜率。现在，我们的模型不仅为每个教室设定了各自的基线（随机截距），还设定了各自的变化率（随机斜率）。在时间点 $t_j$ 时，教室 $i$ 中学生 $j$ 的分数 $y_{ij}$ 的模型变为：

y_{ij} = (\beta_0 + u_{0i}) + (\beta_1 + u_{1i})t_j + \varepsilon_{ij}

$(\beta_0 + u_{0i})$ 是教室 $i$ 的独特起点（截距）。
$(\beta_1 + u_{1i})$ 是教室 $i$ 的独特学习速率（斜率）。 $\beta_1$ 是所有教室的平均斜率，而 $u_{1i}$ 是教室 $i$ 与该平均值的偏离。

现在，我们正在为一个线的家族建模，每个教室都有一条线，每条线都有其自己的截距和斜率，这些截距和斜率都从一个共同的总体分布中抽取。这是一个深刻的飞跃。我们不仅仅是在考虑聚类；我们正在模拟我们所研究的过程本身在不同群体中是如何以不同方式展开的。这是传统方法（如 RM-ANOVA）根本无法做到的，并且对于理解大多数真实世界数据（从临床试验到神经科学）中存在的丰富异质性至关重要。

分离的艺术：组内效应与组间效应

混合效应模型最微妙和美妙的方面之一是它们能够避免一个危险的统计陷阱，即生态谬误或聚合偏误。

让我们提出一个谜题。想象一项研究，我们测量一个人对不同水平刺激的反应。我们发现，对于每个个体来说，逐次试验增加刺激强度往往会增加他们的神经反应。这是一个被试内效应。现在，假设我们想走个捷径。我们不分析所有试验层面的数据，而是先为每个人计算平均刺激和平均反应。然后，我们研究这些平均值之间的关系。我们现在问的是：那些平均而言接受更高刺激的人，是否也平均而言有更高的反应？这是一个被试间效应。

直觉上，这两个问题的答案似乎应该相同。但并非必须如此！在个体内部观察到的关系可能与在个体之间观察到的关系完全不同，甚至相反。例如，一种药物可能在一周内降低了每个患者的血压，但那些被开具更高平均剂量的患者可能恰恰是起初血压就高得危险的人。对平均值进行简单分析可能会错误地暗示该药物会升高血压！

这就是聚合陷阱。通过先对数据进行平均，我们丢弃了所有关键的被试内信息，并冒着得出完全错误结论的风险。

线性混合效应模型因其本质而避免了这个陷阱。因为它们在未经聚合的原始试验层面数据上操作，所以它们尊重数据的分层结构。事实上，我们可以设计模型来明确地同时估计这两种效应。通过将受试者的平均刺激（ $\bar{x}_i$ ）和试验与该平均值的偏差（ $x_{ij} - \bar{x}_i$ ）作为独立的预测变量纳入模型，LME 可以清晰地剖析和量化被试间和被试内的关系。这是一种统计上的超能力，使我们能够以简单、聚合方法无法达到的清晰度和精确度提出细致入微的问题。

压力下的优雅：LME 的实践魔力

除了其概念上的优雅之外，LME 还拥有一系列实用的特性，使其成为真实世界研究中不可或缺的工具。毕竟，世界是一个混乱的地方。

在一项纵向研究中，患者应该在第 1、3 和 6 个月时前来就诊。但实际上，他们可能会提前一周来，或者晚一个月来，或者完全错过一次就诊。结果就是一个具有不规则时间和缺失数据的不平衡设计。传统方法如 RM-ANOVA 要求一个完全平衡的矩形数据集。为了使用它们，研究人员常常被迫要么扔掉任何哪怕只有一次缺失访视的参与者——这是信息的灾难性损失——要么使用笨拙且常常有偏的填补方法。

LME 以非凡的优雅处理这种混乱。因为它们建立在似然原理之上，所以它们会利用每一滴可用的数据。如果一个患者在五次测量中只有两次，这两次测量仍然对模型有贡献。模型只是使用它所拥有的信息，无论每个被试提供了多少次观测。这是可能的，因为模型是在单个观测的层面上指定的，而不是在被试整个响应向量的层面上指定的。

此外，LME 在一个关于缺失数据的更宽容的假设下是有效的，这个假设被称为随机缺失（MAR）。这意味着一个数据点缺失的概率可以依赖于我们已经观察到的其他信息。例如，一个患者可能因为他们先前测量的血压没有改善而更有可能退出研究。只要缺失的原因与观察到的数据有关，而不是与未观察到的值本身有关，LME 就能提供无偏的结果。这比旧方法要求数据完全随机缺失（一个更严格且更不现实的假设）是一个巨大的进步。

尾声：对现实更丰富的看法

使用线性混合效应模型的旅程是为我们的理解增添丰富层次的旅程。我们从一个由独立点组成的平面世界，进入一个由群体构成的结构化世界。我们不仅允许每个群体有自己的基线（随机截距），还允许它遵循自己独特的轨迹（随机斜率）。我们学会了对数据内部的相关性结构本身进行建模，而不是假装它不存在，从而摆脱了像球形性这样束缚旧方法的僵硬假设的限制 [@problem-id:4951158]。

这种更丰富的看法延伸到我们如何解释结果。我们可以问，我们的结果中有多少变异可以仅由我们的固定预测变量来解释？这就是边际 $R^2$ 。或者我们可以问，我们的预测变量加上群体层面的聚类能解释多少变异？这就是条件 $R^2$ ，它为模型的总解释力提供了一个更完整的画面。

而且，该领域仍在不断完善这些工具。当处理小样本时，例如在初步临床试验中，标准的统计推断可能过于乐观。统计学家已经开发出巧妙的校正方法，例如 Kenward-Roger 校正，它可以微调我们的置信区间，以便在数据稀疏时更诚实地反映真实的不确定性。

归根结底，线性混合效应模型不仅仅是一种统计技术。它们是一种思维方式。它们鼓励我们将数据中的结构不视为需要消除的麻烦，而是视为现实中一个根本且有趣的部分。通过直接对这种结构进行建模，我们可以讲述一个关于世界更细致、更准确、最终也更美丽的故事。

应用与跨学科联系

现在我们已经探索了线性混合效应模型（LMM）的内部机制，让我们踏上一段进入现实世界的旅程。这些模型存在于何处？它们从事什么样的工作？你会发现，一旦你拥有了像 LMM 这样强大的新透镜，你就会开始到处看到它的用武之地——从患者康复的轨迹到社会关系中无形的纽带。其核心原理，即数据点往往以相关的群体形式出现，而非独立的陌生个体，是自然界和社会世界的一个基本真理。LMM 提供了尊重我们数据中这种“家族相似性”的语言，使我们能够讲述一个既普遍又极具个人色彩的故事。

变化的形态：绘制穿越时间的旅程

LMM 最直观的应用或许是追踪随时间发生的变化。想象一项针对新疗法的临床试验。我们不仅想知道患者在试验结束时是否比开始时更好；我们还想了解他们康复的整个过程。这种疗法是否立即带来了改善？它是否改变了他们在随后几周和几个月里好转的速度？

考虑一项测试针对慢性心力衰竭患者的数字疗法的研究，其中在一年内的多个时间点测量健康相关生活质量（HRQoL）。一个简单的模型可能会比较研究结束时的平均 HRQoL。但这是一种粗糙的工具，就像仅凭最后一帧画面来评判一部电影。相比之下，LMM 会观看整部影片。它为每位患者拟合一条轨迹，该轨迹由两部分组成：描述治疗组和对照组平均轨迹的固定效应，以及描述每位患者个人旅程如何偏离该平均轨迹的随机效应。然后，模型可以精确地估计治疗对 HRQoL 的起始点（截距）和变化率（斜率）的影响，从而为我们讲述一个关于该疗法如何起作用的更丰富的故事。

我们甚至可以深入这些模型的内部，以理解变异本身的性质。想象一项测试新焦虑疗法的研究，其中每周收集 GAD-7 焦虑评分。LMM 可以告诉我们：

人们在开始时有多大差异？ 随机截距的方差 $\sigma_{b0}^2$ 量化了基线焦虑的异质性。一个大的值告诉我们，患者开始时的焦虑水平范围很广。
对治疗的反应差异有多大？ 随机斜率的方差 $\sigma_{b1}^2$ 非常引人入胜。它量化了个体改善率的差异程度。这种疗法是“一刀切”的万灵丹，还是有些患者反应显著，而另一些患者改善较慢？这个方差回答了这个问题。
谁改善得最快是否存在一种模式？ 随机截距和斜率之间的协方差 $\sigma_{b0b1}$ 可以揭示深刻的模式。例如，在焦虑试验中，一个负的协方差意味着开始时焦虑最严重的患者往往表现出症状最急剧的下降。LMM 不仅仅是拟合直线；它揭示了支配变化的隐藏规则。

这种方法不仅仅是一种抽象的统计选择；它通常直接反映了我们在数据中观察到的情况。在一项追踪小鼠肿瘤生长的临床前研究中，我们可能观察到肿瘤不仅起始大小不同，而且生长速度也大相径庭。一个带有随机截距和随机斜率的 LMM 并非强加一个复杂的理论，而是描述这些简单、直接观察结果的自然数学语言。

超越时间：解构嵌套的世界

当我们意识到“重复测量”不一定是在时间上重复时，LMM 的真正威力就显现出来了。其底层结构是嵌套或聚类，而这种结构无处不在。

想一想一项社区健康试验，它将整个村庄随机分配接受一项健康干预。同一个村庄内的个体并非相互独立；他们共享相同的当地环境、文化和医疗设施。他们的健康结果是相关的。将他们视为独立样本将是一个错误，会导致过度自信的结论。一个为每个村庄设置随机截距的 LMM 考虑了这种共享的背景，为干预的真实效果提供了更诚实和可靠的估计。这个例子也展示了用于连续结果（如血压）的 LMM 如何融入一个更大的混合效应模型家族，这个家族也为二元结果（如戒烟）或计数数据（如门诊次数）而设计。

这种嵌套的概念可以从宏观扩展到微观。考虑现代基因组学中的数据洪流。在一次单细胞 RNA 测序实验中，我们可能从少数几个人类捐赠者身上测量数千个细胞的基因表达。如果我们把所有这些细胞当作独立的的数据点来分析，我们将犯下一个严重的统计学错误，称为*伪重复*。我们会假装拥有巨大的样本量，而实际上我们只有少数捐赠者，每个捐赠者贡献了一个庞大且相关的细胞家族。这个错误可能导致数量惊人的假阳性发现。不可或缺的解决方案是为每个捐赠者设置一个随机效应的 LMM。模型正确地理解了真正的重复单位是捐赠者，而不是细胞，并相应地调整其推断。

同样，在神经科学中，研究人员可能会分析来自实验中每个被试的数百个单次试验的脑电图（EEG）记录。一个常见但常常有缺陷的捷径是在分析前对每个被试的这些试验进行平均。LMM 向我们展示了为什么这是一个错误。平均化会丢弃有价值的信息，阻止我们对试验层面的因素（如反应时间）如何影响结果进行建模，并且不当地加权了贡献不同数量试验的被试。LMM 通过在一个单一、连贯的分层框架内分析所有试验层面的数据，提供了一个远为强大和准确的视角。

在处理复杂的实验设计时，LMM 的优雅也大放异彩。在一项 ChIP-seq 基因组学研究中，我们可能既有生物学聚类（来自同一捐赠者的多个样本），又有技术聚类（在同一实验室批次中处理的样本）。LMM 可以通过为捐赠者包含一个随机效应并为批次包含一个随机效应，优雅地同时对这两种相关性来源进行建模。它使我们能够用数学方法剥离技术和生物变异的层次，以分离出我们感兴趣的特定效应。

从麻烦到北极星：为有意义的变异建模

到目前为止，我们大多将随机效应视为一种我们必须考虑进去才能得到正确答案的“麻烦”相关性。但 LMM 最激动人心的应用来自于一种范式转变：如果我们正在建模的变异不是麻烦，而恰恰是我们最感兴趣的东西呢？

这就把我们带到了个性化医疗的前沿。在一个数字健康项目中，我们可能使用连续血糖监测仪来追踪个体对不同食物的反应。我们 LMM 中的固定效应会告诉我们膳食纤维对整个人群血糖的平均影响。这很有用，但个性化营养的圣杯是理解纤维的影响如何因人而异。这正是一个关于纤维效应的随机斜率所测量的！对于某个个体，估计的斜率可能很大且为负，表明纤维对他们来说是一个强有力的工具。对于另一个人，斜率可能接近于零。LMM 不仅仅是校正个体差异；它还估计这些差异。随机效应从一种统计校正转变为一种个性化预测。

最后，我们可以将这个想法推向极致，以模拟最复杂的系统：人际关系。在一项针对感染艾滋病毒的伴侣的研究中，研究人员可能想了解预测药物依从性的因素。一对伴侣中的两个个体并非独立；他们的健康、行为和情感是相互交织的。一种被称为“行动者-伙伴相互依赖模型”（APIM）的专门 LMM 提供了一种极其优雅的方式来描绘这些相互依赖关系。该模型可以同时估计：

行动者效应： 我对我们关系质量的看法如何影响我自己的药物依从性？
伙伴效应： 我伴侣对我们关系质量的看法如何影响我的依从性？

通过分离这些效应，LMM 为二元关系内的社会动态提供了一幅定量的地图。同样的框架也可以用于结构方程模型中，但原理是相同的：统计模型现在成为了社会科学的工具，能够解开塑造我们生活的无形影响线。

从单个患者的康复到单个肿瘤的生长，从一个村庄到一个单细胞，从个性化饮食到伴侣关系的动态，线性混合效应模型提供了一个统一而强大的框架。它的美在于它能够尊重我们世界嵌套的结构，并讲述一个完整的故事——一个既捕捉了将我们联合在一起的普遍规律，也捕捉了定义我们个性的美丽而有意义的变异。