整群随机试验：原理、设计与应用

玻尔百科

核心要点

整群随机试验 (CRT) 通过对整个群体（例如学校或诊所）而非个人进行随机化来防止处置污染。
组内相关系数 (ICC) 衡量一个集群内个体的相似性，这种相似性会降低统计功效，并通过设计效应进行校正。
阶梯式设计是 CRT 的一种变体，其中各个集群以交错的随机顺序接受干预，使其成为分阶段推行的理想选择。
CRT 引发了独特的伦理挑战，需要在群体的“守门人”许可与获取个体数据收集的同意之间取得平衡。

引言

在从公共卫生到教育的各个领域，研究人员都面临着一个持续的挑战：在一个人们会自然相互影响的复杂社会环境中，我们如何才能严格地检验一项新的干预措施？当干预组和对照组的参与者相互交流时，标准的个体随机化实验常常会失败，导致一种被称为“处置污染”的现象，这会掩盖一个项目的真实效果。整群随机试验 (CRT) 通过将随机化的单位从个体转移到群体或“整群”，为这个问题提供了一个强有力的解决方案。

本文全面概述了整群随机试验，从其核心逻辑到实际应用。第一章 “原理与机制” 将解释 CRT 背后的基本原理，阐明组内相关系数和设计效应等关键统计概念，并探讨阶梯式设计等巧妙的变体。第二章 “应用与跨学科联系” 将展示该方法的广泛效用，揭示它如何在工程学、伦理学和人工智能等不同领域提供因果置信度。读完本文，您不仅会理解 CRT 是如何运作的，还会明白为什么它是在现实世界中产生可靠证据不可或缺的工具。

原理与机制

要真正领会整群随机试验的巧妙与强大，我们必须踏上一段旅程。这段旅程的起点不是复杂的方程式，而是一个科学家和公共卫生官员每天都会面对的简单而实际的难题：在一个混乱、相互关联的人类世界里，你如何检验一个新的想法？

污染问题：为什么我们不能简单地将一个教室一分为二

想象一下，你开发了一种全新的数学教学方法。你确信它比旧方法更好，但你是一名科学家，所以你需要证据。你决定在一所学校里进行一项实验。最简单的方法似乎是，在一个有30名学生的教室里，随机挑选15名学生学习新方法，另外15名学生学习旧方法。一个月后对他们进行测试，看看哪一组表现更好。这会有什么问题呢？

事实证明，问题大了。学习“新方法”的学生会在午餐时与学习“旧方法”的朋友交谈。他们会分享学到的酷炫新技巧。接受过新方法培训的老师，在教“旧方法”组时，可能会无意识地使用新方法的一些原则。你的干预组和对照组之间的界限变得模糊不清。这种泄漏被称为 处置污染，它是严谨实验的死敌。你的对照组不再是真正的对照组，你测量的效果很可能只是真相的一个苍白、被稀释的版本，一种偏向于发现没有差异的偏倚。

这时，就需要灵光一闪。如果问题在于一个群体内的个体相互影响，那么解决方案就是停止对个体进行随机化，转而对整个群体进行随机化。你不再是划分一个教室，而是选取十个教室，随机指派五个使用新的教学方法，五个坚持使用旧的方法。这就是 整群随机试验 (CRT) 的核心。随机化单位 不再是单个学生，而是整群——教室、诊所、村庄、医院病房。通过这样做，你为污染建立了一道防火墙。对照教室的学生不会接触到新方法，你就可以得到一个干净、无偏的比较。

我们解决了一个问题，但正如科学中常有的情况，一个难题的解决方案又带来了另一个更微妙的难题。我们用统计学上的新挑战换取了免于污染的头痛。

同质性的涟漪效应：组内相关性

我们为随机化整群付出了什么代价？答案在于对世界的一个简单观察：一个群体中的人比随机选择的人更相似。同一个班级的学生共享一个老师、一套课程和一个社交环境。同一个诊所的病人由相同的医生治疗，在候诊室看到相同的公共卫生海报，并且通常来自同一个社区。这种群体内结果的“同质性”或相似性是一种基本属性，而不是缺陷。

统计学家为这种现象起了一个名字：组内相关性，通常用希腊字母 $\rho$ (rho) 表示。组内相关系数 (ICC)，即 $\rho$ ，是一个介于0和1之间的数字，它衡量的是总变异中有多少是由集群之间的差异引起的。

可以这样想：想象你有一堆大罐子，每个罐子里都装满了软糖豆。

如果每个罐子里都只有一种颜色的软糖豆（一个罐子全是红色，一个全是蓝色，等等），从同一个罐子里拿出两颗软糖豆，可以保证它们颜色相同。相关性是完美的。此时， $\rho=1$ 。所有的变异都存在于罐子之间。
如果每个罐子里都装着完全相同、完美混合的各种颜色的软糖豆，那么从同一个罐子里拿出两颗软糖豆，与从所有软糖豆中拿出两颗没有区别。它们是独立的。此时， $\rho=0$ 。没有“集群效应”。

当然，在现实世界中，我们几乎总是介于两者之间。Dr. Smith 诊所的病人的平均血压控制可能比 Dr. Jones 诊所的病人略好，所以他们的结果不是独立的。存在正相关，即 $\rho > 0$ 。

这个看似无害的相关性带来了一个深远的影响：它减少了每个集群中的个体为我们提供的独特信息量。如果我们调查一个教室里的一名学生，询问他们对老师效率的看法，我们会学到一些东西。如果我们再问 同一个班级 的第二名学生，我们会学到更多一点，但不如问一个来自完全不同学校、有不同老师的学生学到的多。第二个学生的意见部分是第一个意见的“涟漪”或回声，因为他们共享同一个集群的经历。来自一个诊所的100名病人并不代表100个独立的数据点。

设计效应：付出统计学代价

那么，我们到底损失了多少信息？我们又该如何弥补呢？要回答这个问题，我们需要引入 CRT 设计中最重要的概念之一：设计效应 (DEFF)。设计效应是一个“方差膨胀因子”。它准确地告诉你，由于聚类，你的测量方差增加了多少。这是你付出的代价，就像任何代价一样，你希望在购买前就知道它是什么。

设计效应的公式既简洁又深刻： $\mathrm{DEFF} = 1 + (m-1)\rho$ 这里， $m$ 是每个集群中的个体数量，而 $\rho$ 则是我们的老朋友，组内相关系数。

让我们来剖析这个优雅的公式。

如果观察是独立的 ( $\rho=0$ )，那么 DEFF 等于 $1 + (m-1)(0) = 1$ 。方差完全没有膨胀；我们的整群试验表现得就像一个简单的个体随机试验。
如果我们的集群中每个人都只有一个 ( $m=1$ )，那么 DEFF 等于 $1 + (1-1)\rho = 1$ 。同样没有膨胀，因为这 本身就是 一个个体随机试验。
当 $m$ 和 $\rho$ 都大于零时，奇妙的事情就发生了。请注意， $\rho$ 的效应被乘以 $(m-1)$ 。这意味着即使是非常小的相关性，如果集群很大，也可能产生巨大的影响。

让我们来看一个评估诊所中亲密伴侣暴力筛查项目的真实研究场景。假设每个诊所平均有 $m = 80$ 名患者，筛查结果的 ICC 估计为 $\rho = 0.02$ 。这看起来是个很小的相关性！但设计效应是多少呢？ $\mathrm{DEFF} = 1 + (80-1)(0.02) = 1 + (79)(0.02) = 1 + 1.58 = 2.58$ 方差膨胀了2.58倍！这意味着要达到相同的统计功效，我们需要的患者数量将是一个简单的非整群随机试验的2.58倍。这是一个惊人的代价，但为了获得一个有效且不受污染影响的估计，我们必须付出这个代价。这就引出了 有效样本量 的概念。一个总共有1000名患者的 CRT，其统计功效可能只相当于一个有 $1000 / 2.58 \approx 388$ 名患者的个体随机试验。

人的因素：群体同意的伦理学

我们的旅程从一个实际的难题走向一个统计学的困境。但科学中最深刻的问题往往不是关于数字，而是关于人。当我们决定对整个社区或整个医院病房进行随机化时，这对个人同意意味着什么？

“尊重个人”的伦理原则认为，个人应该能够自己选择是否参与研究。但在 CRT 中，干预措施——比如对医院病区所有临床医生进行的新培训项目，或关于手部卫生的新海报——是提供给整个群体的。个别护士或病人不能简单地“选择退出”待在一个墙上贴着海报的房间。那么，像医院院长或村庄长老这样的“守门人”的许可是否足够？

答案，就像设计本身一样，是微妙且多层次的。“守门人”的许可 是必要的第一步；没有社区领导的批准，你无法在社区中进行研究。但它 并不能 取代个人同意的需要。

相反，机构审查委员会 (IRB)，即研究的伦理监督委员会，必须考虑一种微妙的平衡。如果研究满足严格的标准，他们可能会对干预本身授予 免除或变更知情同意：研究必须是最小风险的，豁免不得损害参与者的权利和福祉，并且在没有豁免的情况下进行研究是不可行的。例如，对于手部卫生研究来说，要求每一位员工同意张贴海报是不可行的。然而，如果研究人员想直接从个人那里收集数据——比如说，通过观察特定员工的依从性——他们通常仍然需要告知这些个人并获得他们的同意，或者至少向他们提供一份信息表和退出数据收集的选项。个人的权利和社区的需求必须在审慎的张力中得到平衡。

一种巧妙的变式：阶梯式设计

经典的 CRT，称为 平行设计，有两个固定的组——干预组和对照组——在整个研究期间并排进行。但如果由于预算或人员限制，无法同时在所有干预点推广你的新项目怎么办？或者，如果将一项有前景但未经证实的干预措施永久地不提供给对照组似乎不公平，那又该怎么办？

为此，科学家们设计了一种特别优美和巧妙的设计：阶梯式整群随机试验 (SW-CRT)。

想象一系列通往游泳池的台阶。研究开始时，你所有的集群（诊所、学校）都站在最上面的干台阶上——对照状态。在下一个时间段开始时，你随机选择一个或多个集群“走下台阶”进入游泳池——干预状态。你以固定的时间间隔重复这个过程，每次都有更多随机选择的集群走下来，直到研究结束时，所有的集群都在游泳池里。

在 SW-CRT 中，随机化决定的不是一个集群是否获得干预，而是何时获得。这种交错的推广在后勤上是可行的，在伦理上也有吸引力，因为最终每个人都能受益。更重要的是，它在统计上可以非常强大。因为每个集群都在对照状态（在其走下台阶的时间之前）和干预状态（在其走下台-阶的时间之后）被观察到，所以每个集群实际上都充当了自己的对照。这使我们能够解释集群之间的基线差异。

但这种设计引入了一个新的、强大的对手：时间本身。假设由于一项新的全国性健康运动（一种 长期趋势），全国的高血压发病率已经在下降。在 SW-CRT 中，较晚转换的集群会有较低的高血压发病率。这是因为你的干预，还是因为它们在发病率普遍较低的较晚时间点转换的？SW-CRT 的分析必须足够复杂，才能将干预的真实效果与日历时间的混杂效应分离开来。这是一个优美的统计难题，要求我们对时间的流动进行建模，以分离出我们行动的影响。

现实世界的介入：不依从性与对真实效应的探寻

我们设计了实验，考虑了聚类，解决了伦理迷宫，甚至考虑了巧妙的时间变体。我们准备好了。但接着，现实世界以其所有光荣的混乱介入了。仅仅因为我们将一个诊所分配到干预组，并不意味着每个病人都会参与。这就是 不依从性 问题。

在干预集群中，有些人可能会拒绝接受治疗（我们可以称他们为 从不接受者）。在对照集群中，有些人可能会设法通过其他途径获得治疗，也许是从邻近的城镇（总是接受者）。如果我们只是简单地比较两个组最初被随机分配时的结果——这是一种被称为 意向性治疗 (ITT) 的基本分析——我们就不再是测量接受治疗的效果，而是测量 被提供 治疗的效果。这是一个有效且重要的问题，但不是唯一的问题。我们还想知道：对于那些真正接受了治疗的人来说，它带来了什么好处？

为了回答这个问题，我们需要一个近乎神奇的工具，一个从经济学领域借来的想法：工具变量 (IV)。其逻辑是微妙但深刻的。我们最初对干预或对照集群的随机分配是一个完美的、无偏的抛硬币。它是纯净的。这个随机分配就是我们的“工具”。

以下是它的工作原理：

相关性：随机分配必须确实导致一些原本不会接受治疗的人接受了治疗。如果提供干预对行为没有影响，我们就无法学到任何东西。
排他性限制：这是一个重大的信念飞跃。我们必须假设随机分配本身——仅仅是身处“干预”集群的事实——对一个人的结果没有影响，除非是通过鼓励他们接受治疗。分配本身不能有直接的心理效应，也不能有因他人接受治疗而影响结果的溢出效应。
单调性：我们假设分配不会导致任何人做出与预期相反的事情（没有“反抗者”，他们只会在对照组时才接受治疗）。

如果这些假设成立，我们就可以进行一个绝妙的计算。我们可以用 ITT 对结果的影响（原始随机组之间结果的差异）除以 ITT 对治疗接受度的影响（两组中接受治疗的人口比例的差异）。这个比率的结果就是治疗因果效应的估计值。

但这并不是对所有人的效应。它是 局部平均处置效应 (LATE)——即治疗对于因随机分配而被引导接受治疗的那群人的平均效应。这些人是 依从者，是那些因为提供了治疗而采取行动的人。在许多方面，这正是我们最关心的效应。治疗对那些它能真正影响的人有什么效果？工具变量方法使我们能够找到它，揭示出隐藏在不完美依从性表面下的更深层次的真相，并统一了跨学科的实验设计原则。

应用与跨学科联系

在掌握了整群随机试验的基本原理之后，我们现在可以踏上一段旅程，去看看这个强大的工具将我们带向何方。它真正的美不仅在于其统计上的优雅，更在于它能将科学实验的严谨性带入那个混乱、复杂而又奇妙地相互关联的现实世界。我们发现，随机化群体的简单想法，为那些原本可能被不确定性笼罩的问题提供了答案，其应用横跨医学、公共卫生、工程学乃至人工智能等多个领域。

从貌似合理的猜测到因果置信度

想象一下，一个城市决定通过限制市中心交通来治理空气污染。一年后，呼吸系统健康状况有所改善。这是政策的功劳吗？还是因为一个更温和的冬天、一种更好的流感疫苗，或者在那一年里改变了的许多其他事情？我们可以将我们的城市与一个没有实施该政策的邻近城市进行比较，但我们仍然会有一个挥之不去的问题：这两个城市一开始真的具有可比性吗？这就是准实验的世界，一个充满貌似合理的推论，但却被关于*“假如没有发生会怎样”*的无法检验的假设所蒙蔽的世界。

现在，将其与整群随机试验进行对比。假设我们想知道公寓楼里的空气净化器是否能减少呼吸系统问题，而不是研究我们无法控制的全市性政策。我们可以随机地给一些居民提供净化器，给另一些提供假冒（安慰剂）设备。但同一栋楼里的人共享通风系统、走廊和局部环境。一个公寓的空气可以飘到另一个公寓。为了得到一个清晰的答案，我们必须承认这个共享的环境。

所以，我们不是按人，而是按楼栋进行随机化。整栋楼被分配接受真正的HEPA过滤器或假冒的过滤器。通过这样做，我们接纳了“集群”，而不是忽略它。随机化确保了平均而言，两组楼栋在所有可见和不可见的因素上都是平衡的——居民的年龄、他们的吸烟习惯、楼栋与公园的距离。现在，如果我们看到呼吸系统结果存在差异，我们就可以将其归因于净化器，这种信心是简单的“前后对比”研究永远无法提供的。我们实现了从相关性到因果关系的飞跃。

这种逻辑的应用远不止空气质量。考虑一个学区想知道改善教室通风是否能减少空气传播感染的扩散。“干预”——升级暖通空调系统——本质上是在教室或学校层面的。你不能给A座的学生提供高通风，而给B座的学生提供低通风。集群，即学校，是自然的单位。通过随机分配学校接受暖通空调升级或继续常规做法，研究人员可以测量对感染率的真实影响。这类研究将流行病学原理与基于物理的气流和病原体浓度模型（如著名的Wells-Riley模型）完美结合，以设计和解释实验。同样的原则也适用于行为干预，例如旨在减少大学宿舍酒精滥用的一项计划，其中宿舍的共享社交环境就是被随机化的集群。

应对交错世界的巧妙方案：阶梯式设计

但是，当一项干预措施无法同时在所有地方推广时会发生什么？如果它是一种新的、复杂的外科技术，需要大量培训；或是一种数字健康工具，在每家医院实施都需要大量资源，该怎么办？此外，如果我们相信干预措施很可能是有益的，那么无限期地不向对照组提供它是否合乎伦理？

在这里，CRT的一种极为巧妙的变体应运而生：阶梯式整群随机试验 (SW-CRT)。想象一下，一个卫生部希望在12家医院实施WHO手术安全核查表，但他们每个月只有能力培训两家医院。一个标准的平行试验，即六家医院获得核查表，六家没有，这既在后勤上不可能（他们无法一次性培训六家），在伦理上也值得商榷（它将一种可能挽救生命的工具从一半的医院中排除）。

阶梯式设计将这一限制转化为优势。所有12家医院开始时都没有核查表。然后，每个月，随机选择一对医院“跨越”过来，开始实施它。到六个月结束时，所有医院都实施了干预。随机化在于推广的时间点。这种设计与分阶段实施的计划现实完美契合。

这种设计的精妙之处在于它如何处理时间的流逝。假设由于普遍的系统加强——一种“长期趋势”，各地的结果都在改善。一个简单的“前后对比”分析会受骗，将这种背景性的改善与核查表的效果混为一谈。但SW-CRT不会轻易被蒙蔽。在任何给定的时间点（在第一步之后），都有些医院有核查表，有些则没有，这允许直接比较。此外，每一家医院都贡献了其核查表前和核查表后的数据。这种丰富的数据结构使统计学家能够对潜在的时间趋势进行建模，并将其与干预的真实效果精确地分离开来。这种设计现在是评估那些按顺序推广的干预措施的黄金标准，从新的外科技术到集成到急诊室电子健康记录中的AI算法等数字健康工具。

促进公正的工具：随机化中的伦理与公平

也许这些设计最深刻的应用在于它们不仅能服务于科学真理，还能服务于伦理原则。考虑一个社区参与式研究 (CBPR) 项目，社区领袖们正在共同设计一项研究，以改善农村诊所的高血压控制。他们有两个不容妥协的要求：首先，任何成功的干预措施最终必须提供给所有诊所；其次，需求最迫切的诊所不应等待最久。

一个标准的平行CRT将无法满足第一个要求。一个非随机的推广，即最“准备就绪”的诊所先行，很可能会无法满足第二个要求，因为准备就绪程度通常与拥有更多资源相关，而不是更迫切的需求。

阶梯式设计再次提供了解决方案。就其本质而言，它确保每个诊所在研究结束时都能获得干预。但我们可以再增加一层伦理上的巧妙设计：分层随机化。在对推广顺序进行随机化之前，我们可以根据需求将诊所分组——例如，“高需求”和“标准需求”层。然后，我们在这些层内进行随机化，也许可以确保所有高需求诊所都被分配在研究的前半段接受干预。这种将分层与阶梯式设计巧妙结合的方式，直接回应了社区对公正的呼吁，确保试验的结构不仅科学严谨，而且在伦理上和公平性上也是合理的。它将试验从一个冷冰冰的、榨取性的机制转变为一个协作和公平的过程。

前沿探索：溢出效应与社交网络

整群试验的世界在不断发展，向着日益复杂的领域推进。其中一个基本假设是集群之间是独立的——即干预学校发生的事情不会影响对照学校。但如果它确实有影响呢？

想象一个预防自杀的项目，其中干预学校的老师被培训为“守门人”。来自不同学校的学生通过体育活动、社交媒体和友谊互动。一个来自对照学校的处于困境中的学生，可能会与一个朋友交谈，而这个朋友随后会向干预学校一位新培训过的老师寻求帮助。这种“溢出”或网络干预是一种积极的污染形式。简单的分析会忽略这一点，并低估该项目的总公共卫生效益。

试验设计的前沿正在正面解决这个问题。通过事先绘制参与者的社交网络，研究人员可以设计出能够明确建模和测量干预对被治疗集群内个体的直接效应，以及对对照集群中个体的间接溢出效应的试验。这些设计更为复杂，但它们反映了对我们这个相互关联的世界更深刻的理解，以及捕捉我们干预措施全部、细微影响的更大抱负。

从确保我们呼吸的空气安全，到部署挽救生命的外科实践，甚至将伦理原则嵌入研究设计中，整群随机试验远不止是一种统计方法。它是一个让我们能更清晰地看世界的透镜，一个让我们能够提出我们最重要的问题，并凭借一点点独创性，得到我们能够信赖的答案的工具。