多水平模型

玻尔百科

定义

多水平模型是一种用于分析层级数据的统计方法，其核心机制是将方差划分为组间和组内成分。该模型通过引入随机效应和部分池化技术，能够有效处理纵向研究中的个体轨迹并避免生态谬误。这种方法在处理缺失数据和量化组内相关系数（ICC）方面具有显著优势，能提供比传统分析更可靠的估计。

核心要点

多水平模型对于分析层次结构数据至关重要，可以避免因忽略数据结构而产生的误导性结论，例如生态谬误。
其核心机制涉及将方差分解为组间和组内两部分，这一概念通过组内相关系数（ICC）进行量化。
通过采用随机效应，这些模型可以将研究结果推广到抽样群体之外，并利用“部分池化”来产生更稳定、更可靠的估计值。
对于纵向研究，多水平模型能出色地通过随机截距和随机斜率捕捉个体随时间变化的轨迹，同时还能妥善处理缺失数据。

引言

世界本质上是结构化的。从嵌套在教室里的学生，到单个患者的重复测量数据，数据很少是扁平、同质的独立观测点集合。忽略这种层次结构不仅是统计上的疏忽，更可能导致根本性的错误结论。传统的分析方法常常捉襟见肘，无法解释数据的这种“聚集性”，并可能陷入生态谬误等陷阱，即群体层面的趋势掩盖甚至颠覆了个体层面的事实。本文旨在全面介绍多水平模型，这是一个为分析此类结构化数据而设计的强大统计框架。在接下来的章节中，我们将首先阐释这些模型的核心“原理与机制”，探讨它们如何分解方差，并利用固定效应和随机效应来同时观察多层次的世界。随后，我们将探索其多样化的“应用与跨学科联系”，展示该方法如何在公共卫生、医学、心理学和基因组学等领域提供更清晰、更准确的见解。

原理与机制

要真正理解一个新思想，我们必须首先认识到它旨在解决的问题。在深入探讨多水平模型的机制之前，让我们先思考一个简单而普遍的真理：世界并非一个由独立事物组成的扁平、均质的集合。它是有结构的，有层次的，而且，恕我直言，是“成块的”。

学生聚集在教室里，教室又聚集在学校里。病人聚集在医院里。一天内心率的多次测量数据也聚集在你这一个体之中。忽略这种结构不仅仅是一个小小的疏忽，它可能导致我们得出大错特错的结论。

“地平说”思维的危险

想象一项公共卫生研究，试图理解个人收入与血压之间的关系。研究人员从几个不同社区的居民中收集数据。如果他们只是将所有数据混在一起，进行标准的回归分析——一种忽略社区结构的“地平说”方法——他们可能会得出一个惊人的结果：收入越高，血压越高。这似乎与所有医学直觉都相悖。

但如果这些社区之间差异巨大呢？假设较富裕的社区也位于工业区附近，那里的交通相关空气污染水平很高，而这是众所周知的导致血压升高的因素。在每一个社区内部，无论是穷是富，收入较高的个体都能够获得更好的医疗保健和营养，因而血压更低，这一点依然成立。这个悖论的产生，是因为“地平说”分析混淆了两种完全不同的关系：个体收入的影响（在社区内部）和社区特征（如污染）的影响。

这种现象是Simpson's Paradox的一种形式，被称为生态谬误（ecological fallacy），是一个严正的警告。通过忽略数据中个体嵌套于社区的层级“聚集性”，我们可能得出与事实完全相反的结论。相比之下，多水平模型的设计初衷就是为了同时观察这两种模式。它可以同时估计个体层面收入与血压之间的负相关关系，以及群体层面社区平均收入与平均血压之间的正相关关系，从而解决这个悖论，揭示更真实、更复杂的情况。

这不仅仅是关系逆转的问题。有时，错误会更加微妙。在一项神经科学实验中，我们测量神经元放电率如何响应刺激强度，并对每个被试进行多次试验。一个常见的捷径是先计算每个被试的平均反应，然后分析这些平均值。这看起来很合理，但可能具有误导性。这种聚合分析估计的是被试间效应：平均刺激强度较高的被试与较低的被试有何不同。但研究人员通常想知道的是被试内效应：当刺激强度在一次次试验中发生变化时，单个被试的反应如何变化。这两种效应不一定相同，混淆它们是忽略层次结构的另一个陷阱。

一种新的视角：分解方差宇宙

那么多水平模型是如何发挥其魔力的呢？其核心是一个异常简单的思想：它们分解方差。多水平模型不再问“血压的总体变异有多大？”，而是问“血压的变异中，有多少是源于社区之间的差异，又有多少是源于同一社区内人与人之间的差异？”

让我们回到公共卫生的例子。假设模型告诉我们，社区间的收缩压方差为 $28 \, \text{mmHg}^2$ ，而社区内个体间的剩余方差为 $52 \, \text{mmHg}^2$ 。总方差就是这两部分之和： $28 + 52 = 80 \, \text{mmHg}^2$ 。

基于这个简单的分解，我们可以计算一个非常直观的指标，称为组内相关系数（Intraclass Correlation Coefficient, ICC）。它告诉我们总方差中有多大比例是存在于群体层面的。

\rho = \text{ICC} = \frac{\text{Between-group variance}}{\text{Total variance}} = \frac{28}{28 + 52} = \frac{28}{80} = 0.35

ICC为 $0.35$ 告诉我们，血压总变异的35%可以归因于社区间的差异因素。这不仅是一个统计上的趣事，更是一个有力的行动指南。它表明，虽然个体层面的临床护理很重要（占另外65%的方差），但任何有效的公共卫生策略都必须包括社区层面的干预。数据的“聚集性”直接指向了解决方案。

模型中的角色：固定效应和随机效应

多水平模型的“如何运作”涉及两种类型的参数：固定效应和随机效应。

固定效应是标准回归中我们熟悉的角色。它们代表我们想要估计的基本、普遍的量——例如一种新药的平均效果、步长每增加一米所带来的步态速度提升，或者刺激与反应之间的群体平均关系。

随机效应则是一个革命性的思想。考虑一项在多家医院进行的新型癌症成像技术研究。我们知道，由于扫描仪、方案和患者群体的不同，各家医院的结果会有所差异。这就是“地点效应”。

传统的固定效应模型会将每家医院视为一个独立的实体，为医院 A、医院 B等分别估计一个参数。这种方法有一个主要缺陷：其结论仅限于研究中包含的特定医院。它无法告诉我们这项技术在未被纳入试验的新医院中可能会有怎样的表现。

多水平（或混合效应）模型则采用不同的视角。它不将研究中的医院视为一个完整的宇宙，而是将其看作是从一个更大的医院总体中抽取的随机样本。它不是去估计每家医院的独特效应，而是去估计医院效应的方差。它问的是：“医院之间通常有多大的差异？”

这种将效应视为固定常数转变为从分布中随机抽取的概念性转变，带来了两个深远的影响：

推广性：由于模型描述的是一个医院总体，因此它可以对未曾见过的新医院做出预测。这对于将研究成果转化为实际应用至关重要。
部分池化（或收缩）：模型在各组之间“借用统计效力”。对单个医院的估计是一个巧妙的折衷：它是该医院自身数据与所有医院平均值的加权平均。拥有大量患者的大医院，其估计值主要由自身数据决定。而只有少数患者的小医院，其估计值则会向总体平均值“收缩”，从而避免因信息有限而产生不稳定和不可靠的估计。这是统计学优雅的体现——一种平衡组特定信息与群体层面趋势的内置机制。

动态模型：捕捉随时间变化的个体性

多水平模型最直观的应用或许是追踪随时间的变化。当我们对个体进行重复测量时——无论是精神病患者的症状严重程度、儿童的身高，还是临床试验中的生物标志物——这些测量值天然地嵌套在个体内部。

这正是随机效应真正展现其强大表达能力的地方，它让我们能够构建模型，捕捉每个个体旅程的美妙独特性。

随机截距承认每个人的起点不同。在一项抑郁症研究中，它模拟了每个患者在试验开始时都有其独特的症状严重程度基线水平这一事实。
随机时间斜率捕捉了每个人变化速率不同的事实。该模型允许每个人拥有自己的变化轨迹。一个患者的症状可能迅速改善，另一个则可能缓慢改善，第三个甚至可能恶化。模型会估计群体的平均变化率（一个固定效应）以及这些变化率在个体间的变异（一个随机效应）。
我们还可以更进一步。协变量的随机斜率，例如某个炎症生物标志物，允许模型捕捉个体敏感性的差异。对于某个人来说，该生物标志物的飙升可能与症状恶化密切相关，而对于另一个人，这种联系可能很弱或不存在。这正是精准医疗在统计学上的体现——超越“一刀切”的效应，去理解个体层面的异质性。

摆脱旧假设的束缚

多水平模型的灵活性与传统方法（如经典重复测量方差分析 ANOVA）形成鲜明对比。几十年来，分析纵向数据的研究人员不得不应对一个以严苛著称的假设，即球形度（sphericity）。本质上，它要求重复测量数据之间的方差和相关性遵循一种非常特定且通常不切实际的模式。违反这一假设（数据中很常见）会使结果无效。

此外，经典ANOVA在面对真实世界研究中普遍存在的一个问题时也束手无策：缺失数据。如果一个患者错过了一次预定的访视，传统方法就会要求将该患者的全部数据从分析中剔除（按行删除）。这种做法不仅浪费了宝贵的数据、降低了统计功效，还可能引入严重的偏倚。

多水平模型将我们从这些束缚中解放出来。

它们不假设球形度。相反，建模者可以明确指定并估计数据的协方差结构，从而允许随时间变化的相关性呈现出远比以往更真实的模式。
当使用现代技术如最大似然（ML）或限制性最大似然（REML）进行估计时，它们能优雅地处理缺失数据和非平衡数据。只要数据的缺失与未观测到的值本身无关（这种情况被称为随机缺失，MAR），模型就可以利用每个参与者的所有可用信息，从而得出更稳健、偏倚更小的结果。

最后一个微妙的区别：群体与个体

正如我们所见，多水平模型提供了一个在不同焦点层次上观察世界的镜头。这引出了最后一个重要的、微妙的区别，尤其是在处理非线性关系（如预测是/否结果）时。针对特定集群测量的效应可能不同于在整个群体上平均的效应。这被称为不可坍缩性（non-collapsibility）。

想象一项健康干预措施。混合效应模型（GLMM）可能会估计出一个较大的比值比，代表该干预对一个典型诊所的强大效果。而另一种称为广义估计方程（GEE）的方法，可能会估计出一个较小的比值比，代表在整个诊所群体中平均的效果。两者都并非“错误”——它们只是在回答不同的问题。平均值上的效应不等于效应的平均值。

这一区别凸显了该领域的思想深度。多水平模型不仅仅是一种统计技术，它更是一个思维框架。它鼓励我们去发现数据中隐藏的结构，去欣赏变异而非将其视为纯粹的噪声，并提出关于世界如何运作的更细致入微的问题——从单一测量的层面到整个群体的层面。

应用与跨学科联系

在了解了多水平模型的原理之后，我们可能感觉自己刚刚学会了一种强大新语言的语法。但仅有语法并不能构成诗歌。这种语言真正的美在于它能让我们讲述关于世界的故事。现在，我们将看到这些模型并非仅仅是抽象的统计练习，而是科学家、医生和决策者用来驾驭现实世界宏大复杂性的不可或缺的工具。你看，世界不是平的；它有着壮丽的层次结构，而多水平模型正是我们欣赏其真实维度的镜头。

时间维度：追踪个体轨迹

也许最直观的层次结构就是时间本身。测量数据嵌套在个体之中，每个个体都遵循着一条独特的路径。想象一下，我们试图了解一种进行性肺部疾病，如特发性肺纤维化（IPF）。在一项临床试验中，我们连续数月测量每位患者的肺活量（努力肺活量，FVC）。简单的分析可能会将所有人的数据平均化，但这将是对数据的极大不公。一些患者开始时肺功能较好；一些患者病情恶化迅速，另一些则较慢。

多水平模型能够包容这种异质性。它为治疗组和安慰剂组拟合了总体轨迹，同时也为每位患者赋予了他们各自的起点（随机截距）和各自的下降速率（随机斜率）。该模型既能看到森林——药物的平均效应——又不会忽略单个的树木。这种方法还有另一个极其重要的实践优势。在现实世界中，患者会错过预约。旧方法可能迫使我们丢弃这些“不完整”的参与者，或者做出愚蠢的假设，比如他们的病情神奇地定格在某个时刻（一种过时的技术，称为“末次观测值结转”）。而多水平模型，在一个合理的假设下——即错过访视与过去的观察结果有关，但与未来无关（即“随机缺失”或MAR假设）——能够优雅地利用每个人的所有可用数据，为我们提供一个更真实、更稳健的答案。

这种将个体与群体分离的原则，可以从数月的时间尺度延伸到瞬间的尺度。研究压力和社会支持的心理学家使用生态瞬时评估（EMA），全天通过手机向人们发送提醒，询问他们的感受。这会产生大量嵌套在每个人内部的数据点。有了这些数据，我们终于可以提出一个非常微妙的问题：是那些通常拥有更多社会支持的人（一种稳定的人际特质）压力更小？还是在特定时刻收到一条支持性短信会立刻降低当下的压力（一个短暂的人内过程）？传统的分析会无可救药地混淆这两种效应。然而，多水平模型可以优雅地分解方差，将人与人之间的稳定差异与单一个体日常生活中的动态波动分离开来。它让我们能够区分性格与情绪，这是理解人类体验的一个根本区别。

公平性维度：在复杂世界中比较群体

我们生活和工作在群体中——医院、学校、公司——并且我们不断地试图对它们进行比较。但这些比较公平吗？考虑一下对医院的关键指标进行基准评估这项至关重要的任务，例如严重孕产妇并发症发生率或30天再入院率。一家位于富裕郊区的医院和另一家位于贫困市中心的医院，它们服务的群体截然不同。第二家医院的原始结果可能更差，仅仅是因为它的患者入院时患有更多的慢性病，并面临更大的社会逆境。将其标记为“低质量”医院将是严重的不公。

多水平模型通过基于原则的风险调整提供了解决方案。通过将患者层面的风险因素（包括临床和社会因素）作为固定效应纳入模型，模型对“病例组合”进行了校正。然后，医院的表现由一个随机效应来捕捉，该效应代表了在“拉平竞争场地”之后的质量水平。

在这里，多水平框架揭示了其最优雅和最深刻的思想之一：收缩，或称部分池化。想象一下，一家小型的乡村医院每年只有50例分娩，却碰巧发生了两例严重孕产妇并发症。这家医院真的危险吗，还是仅仅运气不好？一个朴素的分析会将其标记为极端异常值。然而，多水平模型以其统计智慧行事。它从整个医院网络中“借力”。这家小医院的估计值会向所有医院的总体平均值“收缩”。收缩的程度与我们的不确定性成正比：一个小的、充满噪声的样本会被大幅收缩，而一个大的、数据丰富的医院的估计值则被信赖可以自成一体。这并非“抹平”真实的差异，而是一种有原则地滤除随机噪声的方法，防止我们捕风捉影，错误地因偶然性而惩罚某些机构。

同样的泛化逻辑甚至适用于实验室操作。在验证一种新的诊断检测方法时，我们会在多个批次和不同批号的试剂上进行测试。我们的目标不是描述第3批或A75批号的特性；我们想知道该检测方法在未来使用任何批次或批号时的表现如何。通过将“批次”和“批号”视为从可能的批次和批号总体中抽取的随机效应，多水平模型提供了一个经过适当泛化、可用于实际应用的检测性能估计。

系统维度：揭示自然界的嵌套层次

世界就像一个由嵌套情境组成的俄罗斯套娃。一个孩子嵌套在一个家庭里，家庭嵌套在学校里，学校又嵌套在社区里。影响儿童发展的因素，如品行障碍的风险，可以来自这些层次中的任何一个。多水平模型是剖析这些复杂生态系统的完美工具。通过为家庭、学校和社区指定一个随机效应的层次结构，研究人员可以分解儿童结局的总方差，并提出问题：儿童之间的差异有多少可归因于他们的个人特质，又有多少归因于他们成长的家庭、就读的学校或居住的社区？每个层级的组内相关系数（ICC）为这个深刻的问题提供了直接的、定量的答案。此外，这些模型还允许我们检验特定的假设，例如，一种文化对“不确定性规避”的强调是否会渗透下来，影响个人对疼痛进行灾难化思考的倾向，而这种倾向又反过来预测他们所感受到的疼痛程度。

这种为复杂层次结构建模的能力正在推动现代科学的前沿。在精准肿瘤学中，研究人员培养患者来源的类器官（培养皿中的微型肿瘤）来筛选有效药物。其数据结构极其复杂：在重复的培养板上测量对不同药物剂量的反应，这些培养板来自单个患者的多个类器官系。多水平模型可以同时考虑患者之间、同一患者不同类器官系之间以及同一系不同培养板之间的变异，从而使科学家能够从生物学和技术噪声的海洋中分离出药物的真实效果。

即使在人工智能领域，多水平模型也证明了其重要性。假设我们使用来自十几家医院的数据建立一个风险预测模型。我们如何相信它能在一个它从未见过的新医院里起作用？层次贝叶斯模型提供了一个绝妙的解决方案。它不是学习一个“主”模型，而是学习一个模型的分布，假设每家医院的具体模型都是从一个可能的医院“超总体”中抽取的。在为新医院进行预测时，它不只是应用一套参数，而是在整个学习到的医院模型可能形态的分布上进行平均。这使得人工智能能够更稳健地泛化，并量化其不确定性，从一个脆弱、过度自信的系统转变为一个学到了关于世界变异性更深刻、更谦逊真理的系统。

最后，理解这些原则使我们成为更好、更务实的科学家。在单细胞基因组学等前沿领域，我们可能只从少数几个捐赠者那里分析数十万个细胞。为数千个基因拟合一个完整的细胞水平混合模型在计算上可能是不可行的。一种替代的“伪批量”（pseudobulk）方法是先对每个捐赠者的数据进行平均，然后再进行更简单的分析。这有效吗？通过理解多水平模型的原理，我们认识到真正的生物学重复是在捐赠者层面。伪批量方法尊重这一点，虽然与完整的广义线性混合模型（GLMM）相比可能会损失一些统计效率，但它通常是一个强大而实用的选择。

从病人的床边到心理学家的调查，从公共卫生地图到基因组学实验室，主题都是一样的。世界是结构化的。多水平模型提供了一个统一而优美的框架来尊重这种结构，使我们能够提出更尖锐的问题，获得更公平的答案，并建立起稳健、可推广且忠实于现实世界错综复杂的层次结构的理论和工具。