整群随机试验

玻尔百科

要点总结

整群随机试验（CRT）对预先存在的人群（即“整群”）而非个体进行随机化，以防止污染，并准确评估人们会相互影响的干预措施。
CRT 的统计功效会因群内个体的相似性而降低，这一现象通过组内相关系数（ICC）来衡量。
设计效应量化了因整群抽样而导致的统计效率损失，因此与个体随机试验相比，需要更大的样本量。
阶梯式楔形 CRT 等高级设计通过随时间推移将干预措施推广到所有群组，为后勤和伦理限制提供了灵活的解决方案。
CRT 引入了独特的伦理复杂性，通常需要豁免个体同意书并获得社区“看门人”的许可，以确保研究的可行性和有效性。

引言

随机对照试验（RCT）是建立因果关系的黄金标准，它通过对个体进行随机化来检验干预措施，提供了一种极其简单的方法。然而，其效力依赖于一个关键假设：一个人的治疗不会影响另一个人的结果。在现实世界中，学校、医院和社区相互关联，这个假设往往不成立。当引入新的教学方法、健康宣传活动或临床方案时，其效果很容易从治疗组蔓延到对照组，从而污染结果，使其无法衡量真实影响。

本文通过探讨一种更合适的研究设计——整群随机试验（CRT），来应对这一根本性挑战。CRT 不去对抗个体间影响的涟漪，而是通过随机化整个群体或“整群”来接纳它们。这种方法为在复杂的真实世界环境中生成高质量证据提供了一个稳健的框架。在接下来的章节中，您将对这种强大的方法有全面的了解。首先，“原理与机制”部分将详细介绍 CRT 的统计基础，解释干扰、组内相关系数（ICC）和设计效应等概念。随后，“应用与跨学科联系”部分将展示 CRT 如何应用于各个领域以解决实际问题，从推行新的卫生政策到在医院中合乎伦理地测试人工智能。

原理与机制

要真正掌握整群随机试验的力量和精妙之处，我们必须踏上一段旅程，而这段旅程的起点不是复杂的方程式，而是一个简单直观的谜题。假设您想测试一种新的特效药。黄金标准——随机对照试验（RCT）——非常简单：您召集一群人，为每个人抛硬币决定他们是服用药物还是安慰剂，然后比较结果。随机化的魔力在于，平均而言，除了药物本身，两组在所有方面——无论是已知的还是未知的——都是相同的。因此，我们看到的任何差异都是由药物本身引起的。这种方法的力量依赖于一个安静且常常未被言明的假设：一个人的治疗不会影响其他任何人的结果。

但是，当这个假设被打破时会发生什么呢？

涟漪效应问题：为何要对群体进行随机化？

设想一项旨在提高护士手部卫生以减少医院获得性感染的研究。如果我们尝试进行传统的 RCT 会怎样？我们在一个医院病房内对护士进行随机化：护士 Alice 接受新的强化培训，而她的同事护士 Bob 则在对照组。但 Alice 和 Bob 共享一个工作空间。他们会在喝咖啡时交谈。Alice 可能会分享她的新技术，或者 Bob 可能只是观察并模仿她改进的做法。“对照组”不再是真正的对照组；他们已被干预措施污染。水已经被搅浑了。

这种污染是统计学家所称的干扰（interference）的一种表现，它违反了因果推断的一个核心原则，即稳定单位治疗价值假设（Stable Unit Treatment Value Assumption, SUTVA）。通俗地说，SUTVA 指的是任何个体的结果仅应取决于他们接受的治疗，而不应取决于他人的治疗分配。在许多现实场景中——如学校的教育项目、向城市广播的媒体宣传活动，或影响整个社区的政策变革——这一假设根本站不住脚。人们会互动，思想会传播，环境是共享的。涟漪效应不是一个麻烦；它们是我们正在研究的系统的一个基本特征。

这正是整群随机试验（CRT）的精妙之处所在。我们不去对抗涟漪，而是接纳它们。如果一个群体内的个体相互影响，那么解决方案就是将整个群体作为我们的随机化单位。我们不再为每个护士抛硬币；我们为每个医院病房抛硬-币。A 病房的每位护士都接受培训，而 B 病房的每位护士则继续常规护理。

因此，整群随机试验是一种将预先存在的群体或“整群”随机分配到研究的不同组别中的设计，而结果通常是在这些整群内的个体上测量的。这通过在干预组和对照组之间建立清晰的分隔，巧妙地解决了污染问题。当干预措施天然地在群体层面实施（如卫生设施），当我们想避免会使个体 RCT 失效的溢出效应，或者当我们特别关注包括任何间接益处在内的总人口效应时，这便是首选的设计。

整群的代价：物以类聚

我们为干扰问题找到了一个漂亮的解决方案。但正如科学中常有的情况一样，没有免费的午餐。我们获得了有效性，但却付出了统计效率的代价。

假设您想估计一个州所有高中毕业生的平均身高。您需要抽样 1000 名学生。方法一：您获取该州所有毕业生的名单，并随机抽取 1000 个名字。方法二：您随机选择 20 所高中，然后调查这些学校的所有 50 名毕业生，总数同样是 1000 名学生。哪种方法对全州平均身高的估计会更精确？

当然是第一种方法。为什么？因为同一所学校的学生彼此之间的相似性要高于从全州完全随机挑选的学生。他们可能来自相似的社会经济背景，获得相似的营养，并受到相同的当地环境因素的影响。从同一所学校抽样的每个额外学生提供给你的新信息都比从不同学校随机抽取的学生要少。从统计意义上说，他们是“物以类聚”。

这一现象被一个单一而强大的数字所捕捉：组内相关系数（Intra-cluster Correlation Coefficient, ICC），通常用希腊字母 $\rho$ （rho）表示。ICC 是衡量一个整群内个体之间相似性或“雷同性”程度的指标。形式上，它代表了结果总方差中由群间变异所占的比例。如果 $\rho = 0$ ，意味着根本没有整群效应；一个整群内的个体与随机的陌生人没有区别。如果 $\rho = 1$ ，则意味着一个整群中的每个人都完全相同——这是一个荒谬的场景。在公共卫生和医学研究中，ICC 通常是一个小的正数，常在 0.01 到 0.05 之间。它看似无害，但其后果却是巨大的。

设计效应：整群如何放大我们的不确定性

我们为整群付出的“代价”可以通过一个称为设计效应（Design Effect, DEFF）的术语来量化。这是一个方差膨胀因子，它告诉我们，与同样人数的简单个体随机试验相比，我们的估计方差（以及我们的不确定性）要大多少。对于大小相等的整群 $m$ ，其公式惊人地简单而深刻：

$DEFF = 1 + (m - 1)\rho$

让我们来分析一下这个公式。'1' 代表了简单随机样本的基线方差。 $(m - 1)\rho$ 这一项是我们为整群付出的代价。请注意，那个看起来很小、似乎无伤大雅的 ICC, $\rho$ ，被乘以了整群大小减一。

再次考虑手部卫生试验，平均每个病房有 $m=30$ 名护士，一个典型的 ICC 为 $\rho=0.02$ 。设计效应为 $DEFF = 1 + (30-1) \times 0.02 = 1 + 29 \times 0.02 = 1.58$ 。这意味着我们的效应估计值的方差竟然比在同样个体数量的简单 RCT 中预期的要大 58%！

这直接引出了一个令人警醒的概念——有效样本量。整群样本的信息量低于同样大小的简单随机样本。例如，在一项疫苗接种计划的研究中，2000 名儿童分布在 40 个村庄，每个村庄 50 名儿童，一个小的 ICC $\rho=0.02$ 会产生一个设计效应 $DEFF = 1 + (50-1) \times 0.02 = 1.98$ 。有效样本量是总样本量除以 DEFF： $2000 / 1.98 \approx 1010$ 。在统计功效方面，我们这项涉及 2000 名儿童的研究，其功效仅相当于一项约 1010 名儿童的简单 RCT。我们因整群而损失了近一半的统计功效。这不是一个小细节；这是 CRT 的一个核心事实，对规划有着深远的影响，需要更大的样本量或更多的整群才能达到期望的功效。

超越基础：高级设计与现实世界的复杂性

整群试验的世界充满了巧妙的变体，以应对现实的复杂性。

如果无限期地让一半的整群无法获得一项有前景的干预措施，在后勤上不可行或在伦理上不合理，该怎么办？一个优雅的解决方案是阶梯式楔形整群随机试验（Stepped-Wedge Cluster Randomized Trial, SW-CRT）。在这种设计中，所有整群都以对照条件开始。然后，在固定的时间间隔（“阶梯”），一组随机选择的整群交叉接受干预。这个过程以交错的方式继续进行，直到研究结束时，所有整群都接受了治疗。随机化在于交叉的时机。这种强大的设计允许每个社区最终都从干预中受益，同时通过在特定时间点进行整群间比较和在整群内随时间进行比较来产生严谨的证据。

此外，对整个社区进行随机化引发了超越个体试验的深刻伦理问题。将整个医院病房或村庄作为研究实验的对象是否合乎伦理？你无法从一个医院病房获得同意。在这里，“看门人”许可（gatekeeper permission）的概念至关重要。研究人员必须首先从组织或社区的领导层（例如，医院管理者、村庄长老）获得许可。然而，这种在场所内进行研究的许可并不能取代尊重整群内个体的伦理义务。对于那些风险极小且获得个体同意不切实际的干预措施——这在 CRT 中很常见——研究人员可以向机构审查委员会（IRB）申请豁免知情同意（waiver of informed consent）。IRB 必须确信参与者的权利和福祉得到保护，并且若不如此，该研究根本无法进行。

最后，考虑到所有这些动态因素——整群和个体的流动、恼人的 ICC、设计效应、整群大小不等和人员流失的可能性——我们如何确保 CRT 的结果是可信的？这正是科学界要求透明度的地方。像CONSORT（临床试验报告统一标准）整群试验扩展指南这样的指南要求研究人员报告所有这些细节。他们必须展示整群和个体的流程图，报告 ICC 及其置信区间，并描述他们在分析中如何考虑整群效应。这不仅仅是文书工作；它是让科学成为一个能够自我纠正的事业所必需的纪律，确保整群随机试验的优雅原则能够以严谨和正直的方式付诸实践。

应用与跨学科联系

在理解了支撑整群随机试验的原理——即对群体而非个体进行随机化的艺术与科学——之后，我们现在可以踏上一段旅程，看看这个强大的理念将我们引向何方。在抽象中欣赏一个工具的设计是一回事；而在工匠手中看到它以出人意料且深刻的方式塑造我们的世界，则是另一回事。我们会发现，一个始于解决实际问题的简单方案，会发展成一个多功能的框架，用以探究科学与社会中一些最具挑战性的问题，从治疗疾病到设计更健康的城市。

“污染”问题及其优雅解决方案

让我们从头说起。我们为什么会想要对群体进行随机化？想象你是一位公共卫生官员，有一个绝佳的新培训项目，旨在帮助临床医生与对疫苗犹豫的父母沟通。你会如何测试它是否有效？一个天真的方法可能是在同一家诊所内对父母进行随机化：一位父母与接受了新培训的临床医生会面，下一位则与采用旧方法的临床医生会面。但会发生什么？临床医生不可能为每隔一个病人就“忘掉”新的沟通技巧。培训改变了他们的行为，这种改变将不可避免地“溢出”或“污染”他们与本应在对照组的父母的互动。界限变得模糊，我们的实验也溶解成一团乱麻。

在学校里也会出现同样的问题。假设我们想测试一个新的窝沟封闭项目。如果我们在同一所学校内对学生进行随机化，治疗组的学生会与他们在对照组的朋友交谈。老师们可能会将新的口腔卫生信息应用于整个班级。对照组不再是真正的对照组，我们洞察窝沟封闭项目真实效果的能力也受到了损害。

整群随机试验提供了一个优雅的解决方案，尽管并非完全没有代价。我们不去对抗污染，而是接纳世界的自然结构。我们将整个诊所或整个学校进行随机化。一组诊所中的所有临床医生都接受新培训；另一组则不接受。一组学校中的所有学生都接受窝沟封闭；另一组则不接受。通过将我们的随机化提升到群体层面，我们建立了一道防火墙，抵御了可能困扰个体层面试验的污染。

当然，大自然很少会无偿给予。我们为这种干净的比较付出的代价是统计学上的。同一所学校的学生，或同一家诊所的病人，彼此之间的相似性要高于从整个城市随机挑选的人。他们共享老师、社会经济背景、当地水源和诊所文化。这种相似性由组内相关系数（intracluster correlation coefficient），即 $ICC$ （常记为 $\rho$ ）来量化。一个正的 $\rho$ 意味着来自同一群体的每个额外个体给我们带来的新信息，要比来自一个完全不同群体的个体少。这会夸大我们测量的方差，意味着我们通常需要更大总数的受试者才能达到与个体随机试验相同的统计确定性。在某些研究中，这种“设计效应”可能相当可观，为了有把握地检测到一个效应，所需样本量几乎要翻倍。这是一种权衡，但为了以有意义的方式提出我们的问题，我们必须做出这种权衡。

在一个混乱、互联的世界中航行

简单的平行试验——一组接受治疗，另一组接受对照——是一个美好的起点。但现实世界很少如此整洁。政策的推行受到后勤、伦理和政治的限制。而我们的干预措施所产生的影响可能会以挑战我们最简单假设的方式向外扩散。正是在这些复杂的场景中，CRT 框架真正展现了其力量和灵活性。

当随机化不可行时：准实验的近亲

有时，随机化根本不在考虑之列。一位市长可能决定一次性实施一项新的全市范围的积极交通政策——修建自行车道和改善公共交通。让城市的一半拥有新自行车道，而另一半则没有，这在政治上是不可想象的。在这种情况下，整群随机试验是不可行的。

我们该怎么做？我们转向 CRT 的“准实验”近亲。我们不是通过随机化来创建一个对照组，而是必须找到一个。我们可能会用一个邻近的、相似的城市作为比较对象。然后我们可以使用诸如带对照组的间断时间序列（ITS）等统计方法，比较我们城市在政策实施前后结果的变化（如肥胖率或骑行量），相对于同期对照城市的变化。

随机化（无论是个人层面还是整群层面）的力量在于，它在期望上创造了可交换的组；我们可以确信，它们之间唯一的系统性差异就是干预措施。相比之下，准实验依赖于一个关键且往往无法检验的假设——例如，“平行趋势”假设，即如果没有政策干预，我们的两个城市会遵循相同的发展轨迹。CRT 使我们摆脱了这种信念的飞跃，这就是为什么它仍然是因果证据的黄金标准。

推广变革：阶梯式楔形设计

如果一项干预措施，比如一个新的人工智能驱动的诊断工具，前景如此光明，以至于永久性地将其从对照组中剔除感觉不道德怎么办？或者，如果我们每个月只有资源来培训一个医院病房实施新的感染控制方案呢？。

这时我们可以使用一种非常巧妙的 CRT 变体：阶梯式楔形整群随机试验（SW-CRT）。与其说这是一场简单的“治疗组对对照组”的竞赛，不如把它想象成一场交错的接力赛。所有的整群（医院、诊所）都从对照条件开始。然后，在固定的时间间隔，我们随机选择一组新的整群交叉过来，开始接受干预。这个过程一直持续下去，直到研究结束时，每个整群都接受了干预。

这种设计在后勤和伦理上都很优雅。它适应了分阶段的推广，并确保最终每个人都能受益。但它也带来了一个新的挑战：干预措施现在与时间本身纠缠在一起。随着研究的进展，结果可能会仅仅因为其他背景性的“长期趋势”而改善。因此，对阶梯式楔形试验的有效分析必须足够复杂，以在统计上将干预的效果与日历时间的效果区分开来。

当世界碰撞时：干扰的科学

我们最初使用 CRT 的原因是在整群内部控制“溢出效应”。该设计假设每个整群都是一个孤立的岛屿。但如果这些岛屿是相连的呢？如果一个整群中的干预效果溢出并影响到另一个整群怎么办？这种现象被称为干扰，它不仅仅是一个麻烦；在某些领域，它本身就是研究的对象。

想象一下，我们在随机选择的社区建造小型的“袖珍公园”，以改善居民的心理健康。一个住在“对照”社区、恰好在新公园街对面的人，肯定会走过去享受它。这就是空间溢出效应。一个仅仅比较“有公园”社区和“无公园”社区平均心理健康的朴素分析将会产生偏倚。对照组正在接受部分治疗，这稀释了观察到的效果，使我们的干预看起来没有它实际上那么有效。需要复杂的因果推断方法来模拟这种溢出效应，并估计在你自己的社区拥有一个公园的直接效果。

干扰的概念在传染病领域找到了其最深刻的应用。考虑在一组村庄中进行的疫苗试验。疫苗不仅仅是个人防护盾；它也是对社区防护力场的贡献。给一个人接种疫苗可以防止他们传播疾病，从而保护他们未接种疫苗的邻居。这就是群体免疫，是正向干扰的一个完美例子。

在这种情况下，一个简单的“治疗效果”不再是一个单一的数字。通过一个巧妙设计的两阶段整群试验，我们可以将效果分解为多个组成部分：

直接效应： 在社区疫苗接种水平保持不变的情况下，疫苗对你的保护作用有多大？
间接（溢出）效应： 即使你没有接种疫苗，你的邻居接种疫苗能给你带来多大程度的保护？
总效应： 个人接种疫苗并生活在一个高接种率社区中的总收益是多少？
整体效应： 当一个村庄从低接种覆盖率转向高接种覆盖率时，整个村庄的平均改善是多少？

在这里，CRT 从一个用于防止干扰的工具，转变为一个用于测量干扰的精密仪器。我们不再仅仅问“它是否有效？”，而是问“它是如何起作用的，对谁起作用，以及通过何种社会机制起作用？”

最深层的问题：整群世界中的伦理学

或许，整群试验最具挑战性的前沿领域位于方法学与伦理学的交汇处。想象一个“学习型卫生系统”，其中一个医院网络持续利用自身数据来改善病人护理。作为其中的一部分，医院决定运行一个 CRT，以测试一种新的人工智能驱动的败血症警报算法，并与旧算法进行对比。整个病房被随机分配到其中一个版本。

我们是否应该——或者我们是否能够——从每一位入院的病人那里获得个人知情同意？干预是临床工作流程的一部分；让一个护士为一个病人响应新警报，而为下一个病人响应旧警报是不可能的。Belmont 报告的原则在此产生了张力。尊重个人要求个人自主和同意。但有利和公正要求我们进行科学有效的研究，以改善所有人的护理。要求个人同意在如此大的规模上可能在后勤上不切实际。更糟糕的是，如果大量患者选择退出，可能会引入偏倚和污染，使研究结果毫无意义。一项无效的研究本身就是不道德的，因为它让参与者暴露于一个不可能产生益处的研究过程中。

这正是像美国联邦通用法则（U.S. Common Rule）这样的法规提供了一条经过深思熟虑的途径：豁免知情同意。这不是一个随意的漏洞。它只能在严格的条件下由伦理委员会（如 IRB）授予：研究风险不得超过最小风险，豁免不得对参与者的权利产生不利影响，没有豁免研究将不切实际，并且应在适当的时候向参与者告知研究情况（例如，通过公共通告）。这个框架认识到，对于某些系统层面的干预措施，传统的一对一同意模式不仅不切实际，而且在科学上是自相矛盾的。取而代之的是，建立了一个由严格的伦理监督、机构许可和公共透明度组成的保障体系，以保护参与者，同时仍然允许至关重要的、有益于人群的研究得以进行。

从一个避免污染的简单工具，整群随机试验已经演变成一个哲学透镜，我们通过它来审视人类生活的相互联系——在我们的学校、城市和医院中。它迫使我们从系统的角度思考，考虑涟漪和溢出效应，并努力解决关于个人自主与集体福祉的最深层次的伦理问题。它证明了一个简单而优美的理念，能够为复杂的世界带来清晰。