整群随机试验

玻尔百科

核心要点

当治疗组与对照组之间存在高度污染风险时，整群随机试验 (CRTs) 对于评估干预措施至关重要。
通过组内相关系数 (ICC) 衡量的群组内个体的相似性，会降低研究的有效样本量和统计功效。
CRT 使得对那些天然在群体层面运作的干预措施进行严谨研究成为可能，例如全校性项目、公共卫生运动以及社会规范的改变。
诸如两阶段和阶梯-楔形试验等高级 CRT 设计，使研究人员能够回答关于间接效应、治疗异质性和实施后勤等复杂问题。
CRT 引入了独特的伦理考量，需要在群体的守门人许可与个体参与者的权利和同意之间取得平衡。

引言

在研究领域，随机对照试验 (RCT) 常被誉为确定因果关系的黄金标准。然而，当干预措施无法被严格限制在个体层面时，例如在公共卫生运动或教育改革中，这种经典设计便会失效。当“治疗”从干预组蔓延到对照组——这一现象被称为污染——整个研究的有效性就会受到威胁。这可能导致研究人员错误地否定有效的项目。整群随机试验 (CRT) 通过将随机化单位从个体转向整个群体（如学校、诊所或村庄），为这一关键问题提供了精妙的解决方案。本文将对这一强大的方法论进行全面探讨。第一部分“原则与机制”深入探讨了 CRT 的核心逻辑，解释了它们带来的统计学挑战，如组内相关系数 (ICC) 和设计效应，以及它们所处的独特伦理环境。随后，“应用与跨学科联系”部分展示了 CRT 在真实世界环境中的非凡多功能性，从改善全院性方案到解决健康不平等等系统性问题和改变社会规范。

原则与机制

假设你想测试一种新的洗手技术以减少医院内的感染。一个经典的实验是将一半的医生和护士随机分配到使用新技术的小组（干预组），另一半则继续照常（对照组）。但当 Alice 医生（干预组）和 Bob 医生（对照组）在同一个病区工作、共用一个洗手池、并在喝咖啡时聊天，会发生什么呢？Bob 医生可能会看到 Alice 医生的做法，听说新的培训，然后也开始更仔细地洗手。“治疗”已经外溢，污染了对照组。这种现象被称为污染 (contamination) 或干扰 (interference)，是评估任何不限于单个人的干预措施时的一个根本性挑战——从公共卫生运动和教育改革到新的软件系统均是如此。

当污染很可能发生时，我们无法相信我们的结果。两组之间观察到的差异将小于真实效果，可能导致我们错误地断定一个有价值的干预措施无效。我们如何解决这个问题？答案既简单又巧妙：我们不再随机化个体，而是随机化整个群体。这就是整群随机试验 (CRT) 的核心思想。

整群的双刃剑

在我们的医院例子中，我们可以随机化整个医院病区，甚至是整个医院。我们可能会指派十家医院实施新的手卫生计划，另外十家则继续常规护理。这出色地解决了污染问题；Alice 医生和 Bob 医生现在在不同的医院，所以没有外溢。对于那些天然在群体层面运作的干预措施，如全校性项目、社区水处理或诊所工作流程的改变，这种设计通常是必不可少的。

但正如科学中常有的情况，天下没有免费的午餐。在解决一个问题的同时，我们又制造了一个新的、更微妙的问题。通过将个体分组到集群中，我们直接面对了一个社会学、生物学和地理学中的简单事实：一个群体内的人们通常比其他群体中的人更相似。同一家诊所的病人可能有相似的社会经济背景，由相同的医生治疗，并暴露在相同的局部环境中。同一所学校的孩子们共享老师、课程和一个共同的操场。这种固有的相似性，这张隐藏的联系之网，具有深远的统计学后果。

衡量相似性：组内相关系数 (ICC)

要理解整群的代价，我们必须首先学习如何衡量这种相似性。关键概念是组内相关系数 (intra-cluster correlation coefficient)，通用其缩写 ICC 或希腊字母 $\rho$ (rho)。

想象你有一个装满数百万颗红蓝两种颜色软糖的巨大罐子，它们被完美地混合在一起。如果你舀出 50 颗，你会得到一个相当不错的红蓝比例估计。现在，想象一个不同的场景：这些软糖被分装在 40 个较小的罐子里。一个罐子可能大部分是红色，另一个大部分是蓝色，第三个则是完美的混合。如果你只被允许从一个随机选择的罐子里舀出那 50 颗，你对总体的了解有多少呢？少得多。如果你碰巧选到了那个大部分是红色的罐子，你会极大地高估红色软糖的比例。你那一勺中每颗软糖提供的信息都是冗余的；它们不是独立的。

ICC 量化的正是这一现象。它是结果总变异中由群组间变异所占的比例。如果群组（小罐子）彼此之间非常不同，那么组间方差就高，ICC 就大。如果所有群组都是总体的微型完美复制品，那么组间方差为零，ICC 也为零。当 $\rho=0$ 时，我们的整群样本表现得就像一个简单随机样本。但在现实世界中， $\rho$ 几乎总是大于零。对于一个学校疫苗接种项目， $\rho=0.02$ 的 ICC 可能看起来很小，但它表明同一所学校内的儿童的疫苗接种率比不同学校间的儿童更相似，这是一种微小但真实存在的趋势。

统计学成本：设计效应与功效损失

这种微小、看似无害的相关性对我们研究的统计功效有着巨大的影响。因为一个群组中的每个人提供的独特信息比一个真正独立的个体要少，我们的有效样本量比看起来要小。这种方差的膨胀被一个关键术语所捕捉，即设计效应 (design effect, DEFF) 或方差膨胀因子 (variance inflation factor, VIF)。其公式异常简洁，却揭示了关于整群数据的一个深刻真理：

$\text{DEFF} = 1 + (m-1)\rho$

在这里， $m$ 是群组的大小， $\rho$ 是 ICC。让我们来解析这个公式。它告诉我们，整群的代价取决于两件事：群组内人们的相似程度 ( $\rho$ ) 和群组中有多少人 ( $m$ )。注意，公式中使用的是 $(m-1)$ ，而不是 $m$ 。这是因为如果你只从一个群组中抽样一个人 ( $m=1$ )，就没有整群效应，DEFF 为 1。但是，你每向群组中增加一个人，你就增加了一份相关性。

这种效应可能令人震惊。考虑一个在 40 个村庄进行的健康教育项目，每个村庄有 50 名儿童，总共 2000 名儿童。如果 ICC 是一个适中的 $\rho=0.02$ ，那么设计效应是 $1 + (50-1) \times 0.02 = 1.98$ 。这意味着我们估计值的方差几乎是一个 2000 名儿童的简单随机试验中方差的两倍！为了找到有效样本量，我们将总样本量除以 DEFF： $2000 / 1.98 \approx 1010$ 。在统计功效方面，我们这个 2000 人的研究只相当于一个 1010 人的简单随机试验。我们几乎一半的功效都损失给了这种隐藏的相关性。这就是为什么正确分析 CRT 需要特殊的统计方法，如混合效应模型，来正确地考虑整群效应。忽略它就等于假装你拥有比实际更多的数据，这会导致 I 型错误率膨胀——即在没有效果的地方声称有效果的几率更高。

超越平均：解构群体效应

虽然 CRT 带来了统计学上的挑战，但它们也为提出更复杂、更有趣的问题打开了大门。迫使我们使用 CRT 的那种干扰本身，往往就是一个引人入胜的研究对象。

考虑在一系列村庄中进行的疫苗试验。疫苗可以通过两种方式保护个体。首先，它可以直接刺激他们自身的免疫系统，使他们在暴露于病原体时不易生病。这是直接效应。其次，如果村里有足够多的人接种了疫苗，病原体就更难传播。这降低了每个人的暴露风险，包括未接种疫苗的人。这是间接效应，也称为外溢效应或群体免疫。

一种名为两阶段整群随机试验的绝妙实验设计可以解开这些效应。首先，将整个村庄（群组）随机分配到不同的目标疫苗接种覆盖率水平（例如，30% 覆盖率目标 vs. 70% 覆盖率目标）。然后，在每个村庄内，将个体随机分配接受疫苗或安慰剂，以达到目标覆盖率。通过比较同一村庄内接种疫苗和未接种疫苗的人，我们可以测量直接效应。通过比较高覆盖率村庄的未接种者与低覆盖率村庄的未接种者，我们可以分离并测量纯粹的群体免疫的间接效应。这是一个深刻的飞跃，从询问“疫苗是否有效？”转向“它如何为个体和社区发挥作用？”

此外，干预措施的效果在每个群组中可能不尽相同。一个教育项目在有强大父母支持的社区可能非常有效，但在其他社区则效果较差。标准分析给我们的是所有群组的平均治疗效应。但我们可以使用更高级的随机斜率模型来问一个更丰富的问题：效果在不同群组之间变化有多大？这种方法将治疗效应本身建模为一个随机变量，有其均值和方差。它允许我们估计效果的分布，承认并量化治疗效应异质性的现实。

带有人文关怀的科学：整群试验的伦理景观

因为 CRT 涉及整个社区，它们引发了超越个体试验的独特伦理问题。必须谨慎地遵循尊重个人、有利和公正的原则。

一个关键的区别在于守门人许可和个人知情同意。对于一项旨在预防登革热的新型杀幼虫剂的 CRT，研究人员必须获得合法权威机构（如市卫生部门）的许可，才能在某个社区实施干预。这个“守门人”有权批准在其管辖范围内开展公共卫生活动。然而，这并不能取代研究人员从他们收集数据的每个人（例如，通过问卷调查或血液样本）那里获得个人知情同意的要求。社区允许成为实验的一部分，并不凌驾于个人拒绝参与数据收集部分的权利之上。

但是，对于那些真正不可能获得个人同意的干预措施呢？想象一下，一项试验旨在测试内置于医院电子健康记录中的新决策支持算法。这项干预是一项系统范围的改变；你无法为医生做出的每一次点击，从每一位患者那里获得同意。在这种情况下，法规允许豁免知情同意，但必须在严格的条件下。机构审查委员会 (IRB) 必须确信：

研究对参与者造成的风险不大于最小风险。
豁免不会对受试者的权利和福祉产生不利影响。
如果没有豁免，研究在实践中将无法进行。
在适当的情况下，参与者事后将获得相关信息。

决定“最小风险”不仅仅是一个定性判断；它可能涉及复杂的伦理演算。对于医院软件的例子，研究人员可能会计算出发生严重不良事件的预期增量风险（例如， $0.005\%$ 的护理延迟概率导致 $0.1\%$ 的伤害概率），并将其与预期收益（例如，严重感染率绝对降低 $0.3\%$ ）进行权衡。如果净预期风险是有利的，并且与住院的基线风险相比极小，那么豁免可能是合理的，特别是当辅以临床医生监督和独立数据监察等保障措施时。

这些务实的、现实世界中的试验对于改善公共卫生至关重要。为确保其价值，它们的方法和结果必须完全透明地报告。像CONSORT 整群随机试验扩展声明这样的指南为研究人员提供了一份清单，确保他们报告 ICC、群组和个体在试验中的流程，以及他们如何评估基线平衡，以便全球科学界能够准确地解释和借鉴他们的发现。

最终，对整群随机试验的探索揭示了科学思维中的一条优美弧线。它始于一个实际问题——污染，并导向一个简单的解决方案——整群。这反过来又揭示了一个更深层次的统计挑战——相关性，迫使我们开发更复杂的工具。一旦掌握了这些工具，它们不仅解决了最初的问题，还使我们能够提出更深刻的问题，关于个体与群体如何互动，同时以严谨和人道的方式驾驭复杂的伦理景观。

应用与跨学科联系

在掌握了整群随机试验的原理之后，我们可能觉得自己已经牢牢把握了其数学基础。但是，一个科学工具的真正魅力不在于其抽象的公式，而在于它让我们能做什么。它在于它让我们能向这个世界提出问题——这个世界不像一个无菌的实验室，而是一个奇妙地混乱、相互关联且充满活力的所在。整群随机试验 (CRT) 不仅仅是针对技术问题的统计修复，它更是一个镜头，让我们能够严谨地研究系统，而不仅仅是孤立的部分。让我们踏上旅程，看看这个镜头带我们去了一些怎样引人入胜的地方。

传播思想的问题：从教室到诊所

想象你有一种绝妙的新方法来教孩子们口腔卫生，也许涉及一个有趣的新游戏或一种特殊的氟化物涂料。你想测试它是否有效。教科书上最简单的想法可能是进入一所大学校，随机挑选一半的孩子接受你的新项目，并与另一半进行比较。你认为会发生什么？

午餐时间，孩子们会交谈。“干预组”的孩子会向他们的朋友展示那个游戏。老师学到了一项新技术，可能会不自觉地将其应用于整个班级。知识像一滴墨水滴入一杯清水中一样扩散开来。你的“对照组”不再是真正的对照组；它已经被污染了。你不再是比较你的新项目与旧项目，而是与介于两者之间的某个东西比较。你测得的效果将被稀释，只是真实影响的一个苍白影子。

公共卫生研究人员面临的正是这种困境。为了测试一个基于学校的窝沟封闭和氟化物项目，他们意识到不能随机化单个学生。相反，他们必须随机化整个学校或班级。通过这样做，他们确保了随机化的单位与社会互动的单位相匹配。那滴墨水现在被限制在自己的杯子里。这解决了污染问题，但正如我们所学到的，它也带来了新的麻烦：同一所学校的学生彼此之间比来自另一所学校的学生更相似。我们必须在分析中考虑这种“整群”效应，这通常意味着我们需要更多的总学生数才能达到相同的统计确定性。这是一个根本性的权衡：我们用一定程度的统计效率换取了现实世界有效性的宝贵增益。

同样的逻辑在现代医院的复杂环境中同样适用。考虑一项旨在促进更明智地使用抗生素的全院性方案，这种做法被称为抗生素管理 [@problem-id:5069783]。这样的干预不是给病人的药丸；它是系统中的一个改变——电子健康记录中的新软件、新政策和新的员工培训。当医生或病人在同一个病房工作，共享同一台电脑，并在周末互相顶班时，不可能将他们随机分配到遵循或不遵循该方案。干预措施天然地在病区或医院层面运作。因此，要测试它，你必须在那个层面进行随机化 [@problem-id:4359815]。这就是“实施科学”的核心，该学科研究如何使经过验证的健康策略在实践中真正奏效。CRT 是这些 T3 转化研究的黄金标准，它弥合了发现与其现实世界影响之间的鸿沟。

为复杂世界而设计

现实世界很少满足于简单的 A 与 B 的比较。如果我们有两个有前景的想法，并且我们不仅想知道它们各自是否有效，还想知道它们一起使用时是否效果更好，该怎么办？想象我们正试图“助推”员工去接种流感疫苗。我们可以发送一封自动为他们安排预约的电子邮件（“默认”助推），或者一封要求他们签署承诺接种疫苗的电子邮件（“承诺”助推）。

一种巧妙的设计，称为析因设计，允许我们同时测试两者。我们可以创建四组工作场所：一组不接受任何助推，一组接受默认助推，一组接受承诺助推，还有一组两者都接受。通过随机化整个工作场所（群组），我们再次避免了不同电子邮件组的员工在饮水机旁聊天并污染我们实验的问题。这种高效的设计不仅告诉我们每种助推的主要效果，还揭示了是否存在“交互作用”——也许两种助推结合在一起的力量远大于它们各自效果的总和。

现在，考虑另一个非常人性化的约束。一个组织的领导层可能深信，一款用于急诊室的新人工智能工具非常有前景，以至于永久性地不让任何一家医院使用它是不道德的。标准的、有专门对照组的 CRT 就行不通了。我们是否必须因此放弃严谨的评估？完全不必。在这里，我们可以使用一种特别优雅的设计：阶梯-楔形整群随机试验 (SW-CRT)。

在阶梯-楔形设计中，所有群组——所有医院——都从对照条件开始。然后，在预定的时间间隔（“阶梯”），我们随机选择一组新的医院转换到干预条件。这个过程持续进行，直到研究结束时，每一家医院都在使用新的 AI 工具。这是一个漂亮的解决方案，既满足了随机化的科学需求，也满足了普遍采纳的伦理或后勤需求。但这里有个问题！这种设计内在地将干预的效果与时间的流逝混淆在一起。如果病人的结局本身就在改善（一种“长期趋势”），我们必须非常小心地使用能够区分干预效果和时间效果的统计模型。在像大流行病这样背景风险每周都在变化的快速变化的情况下，这可能极具挑战性，阶梯-楔形设计可能不适用。

野外环境中的 CRT：改造社会与全球健康

当我们走出机构，进入社会结构本身时，CRT 的力量才真正得以彰显。思考一下对抗沙眼的斗争，这是一种导致失明的传染病。一个关键策略是全民药物干预 (Mass Drug Administration, MDA)，即向整个社区提供抗生素。其目标不仅是治愈个体，更是要大幅减少传播，使疾病消退——这种现象被称为“群体效应”。

在这里，在村庄内随机化个体会是科学上荒谬的。我们感兴趣的“治疗”本身就是社区层面的传播减少。个体间的干扰不是一个需要通过设计来消除的缺陷；它是干预的核心特征。我们必须随机化整个村庄或村庄群。我们甚至可以做得更复杂，在已治疗和未治疗的村庄之间设计“缓冲区”，以防止人们跨越边界共享抗生素。CRT 使我们能够测量干预措施在实际交付时的真正公共卫生效果。

这种逻辑延伸到全球健康领域一些最深刻的挑战：改变社会规范。想象一个旨在改变社区关于性别和权力的态度以减少亲密伴侣暴力 (IPV) 的项目。这样的干预通过社区对话、角色扮演和公众参与来发挥作用——它试图改变集体的对话。你不能将一个个体随机化去接受一种“新的社会规范”，而他们的邻居则继续使用旧的。干预就其本质而言，是一种群组层面的现象。因此，要对其进行严谨的评估，我们必须使用 CRT，将整个村庄随机分配到动员项目组或对照组。这让我们能够提出一些关于如何使我们的社会更安全、更公正的最困难也最重要的问题。

促进正义的工具：追求健康公平

或许，整群随机试验最鼓舞人心的应用是其作为解决健康不平等问题的工具的出现。几十年来，许多医学研究都集中在一个简单的问题上：“这个干预措施平均有效吗？”但我们知道，进步的好处并不总是被平等分享。一项干预措施可能“平均”有效，但对优势群体带来巨大利益，而对边缘化群体几乎没有好处，从而扩大了现有的差距。

新一代的试验旨在直面这一问题。考虑一项研究，其明确目标不仅是提高癌症筛查率，而且是缩小一个历史上优势群体和一个历史上边缘化群体之间筛查率的差距。整个试验都围绕着这个公平目标进行设计。主要结局不是筛查率本身，而是差值的差值——与对照诊所相比，干预诊所的差距减少了多少。诊所的随机化可能会进行分层，以确保两组都有相似的为不同人群服务的诊所组合。这是一种范式转变。CRT 不再仅仅是衡量平均效果的工具；它成为衡量我们迈向正义进程的精密仪器。

人的因素：群体随机化的伦理

伴随这种强大力量而来的是巨大的责任。当我们随机化一个群体时，这对其中的个体意味着什么？这个问题将我们带到研究伦理的核心。想象一项试验，测试一种惰性糖浆（一种安慰剂）是否能仅仅通过积极期望的力量来改善普通感冒的症状。为了避免结果产生偏见，研究人员提议不告诉患者他们所在的诊所是否使用这种糖浆。他们向卫生当局（一个“守门人”）寻求许可，并计划事后告知所有人。

这合乎伦理吗？像《关于整群随机试验伦理设计与实施的渥太华声明》这样的里程碑式指南为在这些水域中航行提供了一个框架。守门人对诊所进行随机化的许可是必要的第一步，但它不能取代我们对个体的义务。默认选项永远是个人知情同意。然而，对于一些风险极小且寻求同意会使研究无法进行的务实研究，独立的伦理委员会可能会批准豁免个人同意。这需要强有力的保障措施：公共通知、个人选择退出的能力、确保护理标准绝不降低，以及研究结束后的全面事后告知。这些实验的设计不仅仅是一个技术难题；它是一场深刻的伦理思辨，关乎在追求知识与我们对人的基本尊重之间取得平衡。

从校园里的一个简单问题，到医院、社会乃至我们自身伦理承诺的复杂动态，整群随机试验已被证明是一个惊人地多功能和强大的思想。它证明了，只要有一点创造力，我们就能通过拥抱而非忽视其复杂性来了解我们的世界。