随机截距模型

玻尔百科

核心要点

随机截距模型通过为每个组分配一个唯一的基线（截距）来解决嵌套数据的问题，从而防止出现像辛普森悖论那样的误导性结论。
它使用组内相关系数（ICC）来量化组别背景的重要性，该系数衡量了可归因于组间差异的方差比例。
通过一个称为部分汇集或收缩的过程，该模型“借鉴”整体数据的信息来调整来自较小组别的结果，从而提高估计的可靠性。
该框架的灵活性允许其扩展到多层次结构和各种结果类型（通过GLMMs），使其成为元分析和多中心试验的基础。

引言

在研究和生活中，数据很少是扁平的；它往往是分层的。学生嵌套在学校里，患者嵌套在医院里，重复测量数据嵌套在个体中。忽略这种固有的结构不仅是一个小疏忽，它可能导致根本性的错误结论，一种被称为辛普森悖论的统计扭曲，即数据汇总时趋势会发生逆转。本文介绍随机截距模型，作为解决此问题的一个强大而优雅的方案。它提供了一个尊重数据嵌套性质的框架，从而能够进行更准确、更有洞察力的分析。在接下来的章节中，我们将首先探讨该模型的核心原理和机制，从量化组间差异到稳定估计值。随后，我们将遍览其在不同科学学科中的多样化应用，揭示该模型如何为理解个体与其所处环境之间复杂的相互作用提供一个统一的视角。

原理与机制

平均值的幻象：统计学家的哈哈镜

大自然很少向我们展示一幅平坦、均匀的画布。相反，生活是嵌套的。学生嵌套在教室里，教室在学校里，学校在城市里。患者随时间被追踪，多次测量数据嵌套在每个个体中。树木聚集在森林样地中，而样地是更大生态系统的一部分。如果我们忽视这种错综复杂的分层结构，我们就有可能通过一面哈哈镜来看世界——一面以系统性且令人困惑的方式扭曲现实的镜子。

让我们来玩个游戏。假设我们是公共卫生侦探，正在调查每日软饮料摄入量（ $X$ ）与身体质量指数（ $Y$ ）之间的联系。我们访问了三个社区并收集数据。当我们将每个人的数据绘制在一张大图上并画一条线穿过时，我们发现一个清晰的趋势：人们喝的软饮料越多，他们的BMI越低。这真是汽水行业的胜利！

但是等等。当我们在图上按社区对数据点进行颜色编码时，一件奇怪的事情发生了。在社区1，趋势是正向的：苏打水喝得越多，BMI越高。在社区2，也是正向的。而在社区3呢？同样是正向趋势！这怎么可能？为什么在每个组内关系都是正向的，而将它们全部合并在一起时却变成了负向的？

这不是一个诡计；这是一个基本的统计现象，称为辛普森悖论，或者在这种情况下，称为生态谬误。发生的事情是，我们简单的“合并”分析试图讲述一个故事，而实际上有两个故事。第一个故事是社区内的关系：对任何特定个体而言，增加苏打水摄入量与更高的BMI相关。第二个故事是社区间的关系。可能是平均苏打水摄入量较高的社区，由于一些不相关的原因（例如有更多的公园或体力活动文化），恰好平均BMI较低。我们画的那条单一、天真的回归线是这两种相反趋势的混乱混合。

要看清真相，我们需要一个更好的镜头。我们需要一个能尊重我们数据结构并能同时讲述两个故事的工具。

一个新的维度：赋予每个群体自己的声音

迈向清晰的第一步是简单而直观的：让我们给每个群体自己的起点。与其强迫一条线适用于所有人，不如想象一个平行线家族？每条线都有相同的斜率，代表苏打水和BMI之间共同的个体层面关系，但每个社区都有自己的截距。

这就是随机截距模型的优雅核心。我们假设我们的结果变量——无论是BMI、焦虑水平还是血压——的基线水平对每个群体都是不同的。对于一个在群体 $j$ 中的个体 $i$ ，模型如下所示：

Y_{ij} = \alpha_j + \beta X_{ij} + \epsilon_{ij}

在这里， $\beta$ 是我们感兴趣的共同斜率。但是截距 $\alpha_j$ 对群体 $j$ 来说是唯一的。 $\epsilon_{ij}$ 项只是我们熟悉的随机噪声，即个体与其群体线的偏差。

现在，真正美妙的想法来了。这些截距 $\alpha_j$ 是从哪里来的？它们只是一堆不相关的数字吗？模型说不是。它做出了一个深刻的假设：这些群体（社区、学校、患者）本身是从一个更大的群体总体中抽取的样本。因此，它们的截距，即 $\alpha_j$ 值，可以被认为是从一个宏大的分布——通常是钟形曲线（正态分布）——中“抽取”出来的。这就是为什么我们称它们为随机效应：它们不是固定的、任意的参数，而是遵循概率分布的随机变量。我们假设它们有一个均值（所有群体的平均截距）以及至关重要的一点——一个方差。

量化无形之物：从方差到洞见

这个“截距的方差”并不是某种枯燥的统计产物；它是一项发现。它是一个数字，精确地告诉我们群体之间彼此相差多少。我们称之为组间方差，通常表示为 $\tau^2$ 。与之并存的，是我们熟悉的组内方差 $\sigma^2$ ，它告诉我们个体在其群体趋势线周围变异的程度。

这两种方差的比率给了我们多层次模型中最重要的概念之一：组内相关系数 (ICC)。

\text{ICC} = \rho = \frac{\text{Between-group variance}}{\text{Total variance}} = \frac{\tau^2}{\tau^2 + \sigma^2}

ICC是一个介于0和1之间的数字，它告诉你结果的总变异中有多大比例是由群体之间的差异引起的。例如，在一项关于不同城市社区焦虑水平的研究中，ICC为 $0.20$ 意味着人们焦虑得分方差的整整20%可以仅通过知道他们住在哪个社区来解释。这是对情境重要性的直接度量。

这种非独立性不仅仅是件奇闻轶事；如果被忽略，它会带来严重后果。当一个组内的观测值相关时，它们提供的独特信息要少于相同数量的完全独立的观测值。ICC允许我们通过设计效应来量化这种代价：

\text{Design Effect} = 1 + (m-1)\rho

这里， $m$ 是每个聚类中的个体数量。如果一项研究中每位外科医生有10名患者（ $m=10$ ），而ICC仅为 $0.05$ （意味着外科医生仅占方差的5%），则设计效应为 $1 + (10-1) \times 0.05 = 1.45$ 。这意味着我们的方差被夸大了45%！我们需要增加45%的患者才能达到与没有聚类效应的研究相同的统计功效。忽略这种效应就像假装我们的样本量比实际更大，这无疑是导致过度自信和错误发现的捷径。

群众的智慧：借鉴信息

现在是见证奇迹的时刻。通过将每个组的截距视为来自一个共同分布的抽样，模型获得了一种非凡的能力：部分汇集，或称收缩。

让我们回到学校的例子。假设你正在估计一个大学区里每所学校的平均数学成绩。你有一所拥有2000名学生的大型高中和一所只有10名学生的小型实验学校。你对大型学校的估计，基于如此多的数据，可能非常可靠。但对小型学校的估计则岌岌可危；仅一两个特别聪明或 struggling 的学生就可能极大地改变其平均分。

一个简单的方法是独立计算每所学校的平均分（“不汇集”）。一个天真的汇集方法会忽略学校，为整个学区计算一个总平均分（“完全汇集”）。随机截距模型则走出了一条明智的中间道路。它说：

“对于大学校，你的数据丰富可信。我会紧密贴近你观察到的平均值。”
“对于小学校，你的数据充满噪声。我将对此持怀疑态度。我会将你的估计值拉向，或者说收缩向全区的平均值。你最终的估计值将是一个折衷——一个基于你自身数据和所有其他人数据的加权平均。”

这不是作弊；这是一种有原则的、由数据驱动的折衷。模型会根据精度自动决定收缩的程度：一个组的数据越少（或其数据噪声越大），其估计值就越会被拉向总体均值。这个过程被称为跨组“借鉴信息”。它稳定了我们的估计，使其更加稳健和可靠，这在分析来自电子健康记录等来源的混乱现实世界数据时尤其有价值，因为在这些数据中，一些诊所可能贡献数千名患者，而其他诊所可能只有少数几名。

将个体与情境分离

我们开始时想象一个平行线家族，但世界往往更复杂。如果一种新的教学方法在某些学校效果显著，但在其他学校毫无效果怎么办？关系本身可能因组而异。我们的模型可以通过允许斜率也随机来处理这种情况，从而产生了随机斜率模型。每个组都得到一条自己独特的线，既有独特的截距又有独特的斜率，所有这些都从一个宏大的二维分布中抽取，该分布甚至能捕捉截距和斜率是否相关。[@problemid:2538663]

这个框架允许我们执行最后一个强大的操作。我们可以回到我们旅程开始时的悖论——组内效应和组间效应之间的混淆——并明确地解决它。通过使用一个巧妙的模型重构，我们可以要求它估计两个独立的斜率：

组内效应（ $\beta_W$ ）：在保持个体所属组别情境不变的情况下，改变个体的暴露水平会产生什么影响？
组间效应（ $\beta_B$ ）：一个组的平均暴露水平与该组的平均结果之间有什么关系？

这是通过在同一模型中包含以人为中心的暴露（ $X_{ij} - \bar{X}_j$ ）和个体均值暴露（ $\bar{X}_j$ ）来实现的。模型看起来像这样：

Y_{ij} = \dots + \beta_W (X_{ij} - \bar{X}_j) + \beta_B \bar{X}_j + \dots

系数 $\beta_W$ 给了我们纯粹的、未混淆的个体层面效应。神奇的是，这个估计值在数值上与从一个被称为“固定效应模型”的完全不同的统计传统中得到的结果相同，后者旨在消除所有稳定的、组级别的混杂因素。同时， $\beta_B$ 给了我们生态层面的、组级别的关联。

这两者之差， $\beta_B - \beta_W$ ，被称为情境效应。模型不仅避免了生态谬误；它还诊断并量化了它。它精确地告诉我们组别情境在个体层面故事的基础上增加了多少（或减少了多少）。

最初作为解决一个令人困惑的悖论的方法，如今已发展成为一种全面而深刻的看待世界的方式。随机截距模型及其扩展提供了一个尊重现实嵌套结构的框架，量化了群体的影响，通过共享信息稳定了我们的估计，并最终理清了个体与集体之间错综复杂的舞蹈。这是统计学之美的一个证明，将一个令人困惑的问题转变为深刻理解的源泉。

应用与跨学科联系

掌握了随机截距模型优雅的机制后，我们现在可以踏上一段旅程，看看它在实践中的应用。你会发现，这不仅仅是一种统计上的奇技淫巧，而是一个多功能且强大的透镜，用以观察世界。它的原理以各种形式出现在惊人广泛的科学学科中。它让我们能够提出更细致入微的问题，并通过承认一个基本真理——情境至关重要——来获得更诚实的答案。世界不是一个平坦、均匀的平面；它是由嵌套结构构成的景观——家庭中的人、医院里的病人、国家内的城市——而我们的模型就是帮助我们在这片丰富复杂的地形中导航的地图。

生活与科学的嵌套本质

我们收集的许多数据具有天然的分层或“嵌套”结构。随机截距模型是我们尊重而非忽略这种结构的主要工具。

随时间追踪个体

也许最直观的聚类形式见于纵向研究，即我们随时间追踪同一些个体。每组重复测量数据都“嵌套”在一个人之内。想象一下，用一种新的癌症疗法追踪治疗小鼠肿瘤的生长情况，或在临床试验期间监测患者的临床生物标志物。

在一个简单的分析中，我们可能会将所有小鼠或患者的数据平均化，但这是一个错误。有些小鼠的肿瘤可能天生更具侵略性；有些患者某个生物标志物的基线水平可能更高。随机截距模型通过给每个个体自己的个人起点或“截距”来解决这个问题。每只小鼠 $i$ 的基线对数体积与群体平均值相差一个量 $b_{0i}$ 。对模型的这个简单补充是变革性的。通过考虑个体之间稳定的、未被观察到的差异，我们可以更清晰地了解每个个体内部随时间发生的变化，例如治疗的效果。

此外，该模型通过其方差分量提供了深刻的洞见。例如，在癌症研究中，分析师发现随机截距和随机斜率之间存在负协方差（ $\hat{\sigma}_{b0,b1} = -0.015$ ）。这不仅仅是一个数字；它讲述了一个生物学故事。它表明，初始体积较大的肿瘤往往后续生长速度较慢，这种现象可能归因于资源限制或密度依赖性生长约束等因素。该模型不仅拟合数据，还揭示了潜在的动态。

人、地点与家庭

聚类也发生在空间和社会层面。我们可以研究嵌套在教室中的学生、工作场所中的员工或诊所中的患者。在一项关于在40家初级保健诊所实施的新糖尿病管理项目的研究中，研究人员想知道更高的实施保真度是否能带来更好的患者结果。回答这个问题需要承认，一些诊所可能拥有更多资源、更有经验的员工，或服务于不同的患者群体。每个诊所的随机截距 $u_j$ 吸收了所有这些稳定的、诊所层面的异质性。通过对这种“诊所效应”建模，我们可以更精确地估计项目保真度本身的效果。

同样的逻辑也适用于研究个人性格（如尽责性）如何影响其药物依从性。一项对20个不同工作场所员工的分析，如果未考虑每个工作场所都有其自身的文化和政策可能影响依从性这一事实，那将是不完整的。工作场所的随机截距使我们能够将个体的特质与其环境背景分离开来。

一个特别优美的例子来自流行病学，涉及跨代健康研究。考虑一项对同一位母亲多次怀孕的婴儿出生体重的分析。在这里，母亲是聚类。分配给每位母亲的随机截距 $b_{0j}$ 优雅地解释了她所有稳定的、不随时间变化的特征——她的基因、她的长期健康状况、她的社会经济地位。通过控制这个基线，模型可以有力地分离出那些在一次次怀孕之间变化的因素的影响，比如她饮食的改变。

从简单嵌套到复杂生态

世界往往比一个简单的两层结构更复杂。人们生活在家庭中，家庭在社区里，社区在区域里，区域在城市里。我们的模型可以扩展以捕捉这种错综复杂、多层次的现实。

在一项城市健康研究中，研究人员调查了社区绿地与居民身体质量指数（BMI）之间的联系。他们认识到，个体（ $i$ ）嵌套在社区（ $j$ ）中，而社区本身又嵌套在更大的城市区域（ $k$ ）中。一个三层随机截距模型自然而然地非常适合：

Y_{ijk} = (\text{固定效应}) + u_k + v_{jk} + \epsilon_{ijk}

在这里， $u_k$ 是区域的随机效应， $v_{jk}$ 是社区的随机效应，而 $\epsilon_{ijk}$ 是个体偏差。这个模型进行了一次奇妙的方差分解。它告诉我们BMI总变异中，有多少比例可归因于区域间的差异（ $\hat{\sigma}^2_u = 0.60$ ）、这些区域内社区间的差异（ $\hat{\sigma}^2_v = 0.90$ ）以及这些社区内个体间的差异（ $\hat{\sigma}^2_\epsilon = 2.50$ ）。

由此，我们可以计算组内相关系数（ICC），你可以把它看作是“家庭相似性”的一种度量。同一社区内个体的ICC为 $0.375$ 。这意味着BMI变异性的 $37.5\%$ 是由生活在同一社区和区域的人们所共享的。该模型剖析了不同层次的情境，使我们能够理解健康决定因素在哪个尺度上起作用。

一个统一科学证据的视角

一个伟大的科学思想的真正美妙之处在于它能够统一看似 disparate 的问题。随机截距模型正是为综合跨多个科学研究的证据提供了这样一个统一的框架。

元分析（meta-analysis）旨在结合多项研究的结果，这些研究都调查了同一个问题。一项单阶段个体参与者数据（IPD）元分析通过汇集所有研究的原始数据来做到这一点。但是我们如何处理这些研究是在不同地点进行，人群和方法略有不同的事实呢？我们将“研究”视为一个聚类变量。一个随机截距 $u_j$ 被分配给每项研究 $j$ ，完美地捕捉了研究间的异质性。这些截距的方差 $\tau^2$ 成为了衡量研究结果在不同研究间变异程度的直接指标——这是循证医学中的一个基石概念。

多中心随机对照试验实质上是一种前瞻性规划的元分析。当一种新药在 $J$ 个不同的医院站点进行测试时，我们预计结果会有一些变异。患者被聚类在站点内。通过拟合一个包含每个站点随机截距的模型，我们可以估计一个总体的治疗效果，同时恰当地考虑了站点间的变异。如果我们还允许治疗效果本身因站点而异（一个随机斜率），模型中治疗的固定效应 $\beta_1$ 有一个宏伟的解释：它是在我们试验站点所抽样的整个超总体中，所有站点的平均治疗效果。该模型恰好提供了我们寻求的可推广的估计值。

超越钟形曲线：广义模型

我们到目前为止的讨论都集中在连续性结果上，如血压或BMI，我们通常假设它们遵循钟形的´正态分布。但如果我们的结果是二元的——成功或失败，有反应或无反应呢？随机截距框架以非凡的优雅方式进行了扩展。

在一项关于阿片类镇痛药的研究中，结果是患者是否实现了有意义的疼痛减轻（ $1$ ）或没有（ $0$ ）。由于结果不是连续的，我们不能直接对其建模。相反，我们对其概率的转换形式进行建模：阳性反应的对数优势比（log-odds）。这就是广义线性混合模型（GLMMs）的领域。对于站点 $s$ 的患者 $i$ 的模型可能如下所示：

\text{logit}(p_{is}) = \beta_0 + (\text{其他效应}) + u_s + b_i

在这里， $p_{is}$ 是反应的概率。站点的随机截距 $u_s$ 不再代表结果尺度上的加性偏移，而是对该站点反应基线对数优势比的调整。固定效应的解释也发生了变化：系数 $\beta_1$ 不再是加到结果上，而是其指数形式 $\exp(\beta_1)$ 乘以优势比。这种泛化使得对嵌套结构建模的核心逻辑能够应用于从二元结果到事件计数的各种数据类型。

隐藏的架构：更深层次的联系

随机截距模型不仅仅是一种技术；它连接到统计学和科学哲学中一些最深刻的思想。

首先，它是寻求因果推断中不可或缺的工具。在糖尿病项目的研究中，诊所的随机截距代表了未观测到的因素——也许是诊所的“精神”。为了使实施保真度的估计效应被认为是因果性的，我们必须做出一个关键的、无法检验的假设：这些未观测到的因素与保真度得分不相关。模型迫使我们对自己的假设保持诚实；它是一个强大的工具，而不是自动消除混杂的魔杖。

其次，该模型为处理缺失数据这一研究中最持久的问题之一提供了基本架构。当数据是聚类的时，简单地用总体平均值填充缺失值是错误的。一个恰当的填补必须尊重层次结构。如在一个多层次研究的背景下概述的完全贝叶斯方法揭示了正确的方式：要填补一个缺失值，我们必须首先考虑我们对总体模型参数的不确定性，然后是我们对特定聚类偏差（随机效应）的不确定性，最后是个体测量的内在随机性。这种从层次结构每一层传播的不确定性是面对未知时进行有效推断的唯一途径，而随机截距模型为此种有原则的推理方法提供了完美的支架。