随机对照试验：因果推断的金标准

玻尔百科

核心要点

随机对照试验（RCT）通过随机分配来创建概率上相同的组，从而中和混杂变量，分离出因果关系。
“意向性治疗”（ITT）原则对于维护随机化的完整性至关重要，它要求对所有参与者在其被分配的组内进行分析，无论他们的实际行为如何。
尽管随机对照试验是证据的“金标准”，但它也存在显著局限性，包括伦理界限、针对罕见事件的统计功效问题，以及可能无法解释干预措施“为何”有效的“黑箱”特性。
随机化的逻辑超越了医学领域，延伸到流行病学中的孟德尔随机化，以及生态学中的干预前后对照影响（BACI）设计。
随机对照试验是循证实践和政策的基石，但其研究结果在与更广泛的“证据生态系统”中的其他研究方法进行三角互证时最为有力。

引言

在我们的日常生活和各个科学学科中，我们不断地遇到各种关联，但区分相关性与真实因果关系是最根本的挑战之一。一种新的教学方法真的能提高考试成绩吗，还是说只是最好的老师被指派去使用它？一种新药能治愈某种疾病吗，还是说病人无论如何都会康复？回答这些问题需要一种严谨的方法，用以从无数其他可能影响结果的因素——即混杂因素——中，理清干预措施的效果。这个解决方案，一个发现真理的强大工具，就是随机对照试验（RCT）。

本文将深入探讨随机对照试验的世界，这种方法被广泛认为是建立因果关系的“金标准”。通过理解这一工具，您将获得一个批判性评估各种关于“什么有效”的主张的新视角。第一章“原理与机制”将揭示随机化的优美简洁性，解释为什么随机对照试验位于证据等级的顶端，并探讨研究人员必须应对的现实世界的复杂性和局限性。随后，“应用与跨学科联系”一章将展示随机对照试验的广泛应用，从其在医学中的主场，到其在流行病学和生态学等领域的巧妙改造，从而巩固其作为我们在不确定世界中指引方向的通用罗盘的角色。

原理与机制

根本问题：我们如何知道什么有效？

想象你是一位农民。你有两块大田，听说有一种新肥料据说能提高作物产量。你决定进行测试。你在北边的田里使用新肥料，在南边的田里沿用旧肥料。季节结束时，你发现北边田里的玉米产量高了10%。成功了！真的是这样吗？

你开始琢磨。北边的田光照多一些。南边的田土壤沙质多一些。也许今年你只是恰好在北边的田里多花了一点力气。这些其他因素，这些潜在的替代解释，就是科学家所说的混杂因素。它们与你真正试图研究的事物的效果混杂在一起，使得无法确定到底是肥料、阳光还是你自己的努力才是收成更好的真正原因。

这就是因果推断的根本问题。我们随处可见各种关联：喝红酒的人更长寿，下棋的孩子成绩更好，警察越多的城市犯罪也越多。但红酒是长寿的原因吗，还是说适度饮用红酒的人通常也拥有更健康的生活方式？下棋能让孩子更聪明吗，还是说更聪明的孩子更容易被下棋吸引？仅仅观察到关联本身，永远无法证明因果关系。要做到这一点，我们需要一个工具。一个非常巧妙而强大的工具。

惊人简单的想法：抛硬币的力量

这个工具就是随机对照试验（Randomized Controlled Trial），简称RCT。虽然这个名字听起来可能很技术性，但其核心思想却近乎令人惊叹的简单和优美。为了解决混杂问题，即你两块田之间所有那些恼人的差异，如果你能创造出两个在平均意义上完全相同的组，那会怎么样？

这就是随机化的作用。假设你没有两块大田，而是有1000个小地块。对每个地块，你都抛一枚硬币。正面朝上，它就使用新肥料；反面朝上，它就使用旧肥料。如果你对所有1000个地块都这样做，你最终会得到两个各约500个地块的组。现在，想一想这两组会是什么样子。阳光更多的地块应该在平均上均匀分布在两组之间。土壤更沙质的地块、排水更好的地块也是如此，而神奇之处在于——所有其他你甚至可能没有想到去测量的因素也是如此。随机化扮演了伟大的均衡器角色。

通过使用偶然性来分配干预措施，我们在实验开始前创造了两个在所有方面（无论是已测量的还是未测量的）都概率上相同的组。我们引入的唯一系统性差异就是我们感兴趣的那个：肥料。因此，我们最终观察到的平均作物产量的任何系统性差异都必然是由肥料引起的。我们已经分离出了原因。

用因果推断的语言来说，随机化实现了可交换性（exchangeability）。它为无法观测的反事实（counterfactual）创造了一个现实世界中的替代品。对照组向我们展示了如果治疗组没有接受治疗，将会发生什么。通过将治疗组的真实结果与其现实生活中的反事实（即对照组）的结果进行比较，我们就可以测量因果效应。这就是使随机对照试验成为寻求真理的如此强大的设计的基础原则。

认知的等级：为什么随机对照试验是“金标准”

由于这种能够中和混杂因素的独特能力，在关于干预措施是否有效的问题上，随机对照试验位于“证据等级”的顶端。它提供的证据质量高于观察性研究，在观察性研究中，我们只是观察人们发生的事情而不进行干预。在观察性研究中——无论是追踪人们未来情况的队列研究，还是回顾过去的病例对照研究——我们总是担心选择接受治疗的人与没有接受治疗的人有所不同。科学家们有巧妙的统计方法来调整他们可以测量的差异，但他们永远无法确定是否已经考虑了所有未测量的混杂因素。

考虑一种旨在清洁牙齿根管的新牙科技术。在拔下的牙齿上进行的实验室研究可能显示，它比旧方法能清除更多的碎屑和细菌。一项观察性研究可能会发现，使用新技术治疗的患者术后急性发作较少。这一切看起来都非常有希望。但随后，进行了一项设计良好的随机对照试验。患者被随机分配接受新技术或旧技术。主要结局是那些对患者真正重要的指标：术后疼痛程度以及牙齿从长远来看是否真正愈合。结果呢？没有差异。在实验室中看到的巨大效果和观察性研究中得到的提示性发现，在经受最终检验时都消失了。这种情况发生的频率惊人地高。在替代性结局（如干净的牙齿表面）上看似有效的东西，可能无法转化为对患者有意义的重要结局。

这就是为什么在做出关于健康的关键决策时，我们依赖于可获得的最高级别的证据。在根据患者的基因图谱决定一种新的癌症疗法是否真正有效时，一项根据生物标志物分层的随机对照试验提供了最值得信赖的“可指导行动的”证据，其可信度远超临床前模型或不太严谨的研究设计。随机对照试验不仅仅是另一种收集数据的方式；它是一台产生可靠因果知识的机器。

现实世界的反击：复杂性与细微差别

当然，现实世界比理想化的实验要混乱得多。随机化这个简单而优美的原则，在遇到人类行为和社会的复杂性时，会遇到一些有趣的复杂情况。

功效-效果差距

许多随机对照试验的纯净条件——精心挑选、积极性高、受到密切监控以确保服药的患者——与繁忙混乱的诊所中的情况并不相同。随机对照试验通常测量的是功效（efficacy）：干预措施在理想条件下的效果。它回答的问题是：“这能起作用吗？”但医生和患者通常想知道的是其效果（effectiveness）：“这在日常常规实践中起作用吗？”

例如，在精神分裂症研究中，一项针对新型抗精神病药物的功效试验可能显示出在预防复发方面有很大效果。但在一个务实的、真实世界的研究中，这种效果通常要小得多，或者说被削弱了。为什么？因为在真实世界中，患者对药物的依从性较低，他们有更复杂的共病情况，并且他们可能因为副作用或个人偏好等多种原因而停止服药，而不仅仅是因为复发。理论上可能发生的事情与实践中实际发生的事情之间的这种差距，是明智地应用证据的一个关键概念。

人的问题（以及医生的问题）

当人们不按指示行事时会发生什么？在随机对照试验中，一些被分配接受新药的人可能没有服用（不依从性），而一些对照组的人可能会设法获得这种药物（交叉）。这种行为有可能打破随机化所创造的完美平衡。

为了处理这个问题，研究人员依赖一个深刻的原则：意向性治疗（ITT）。这意味着所有参与者都在他们最初被随机分配的组中进行分析，无论他们实际上做了什么。“一旦随机，永远分析。”这可能看起来很奇怪——如果某人从未接受过治疗，为什么还要将他纳入治疗组的分析中？原因在于，意向性治疗保留了随机化的完整性。它回答了一个不同但非常实际的问题：“提供这种治疗的政策或策略的效果是什么？”这通常是公共卫生最关心的问题。如果你试图只分析那些完全遵守方案的人（一种“符合方案”分析），你就会重新引入混杂，因为依从的人通常与不依从的人是不同的。

当你无法对人进行随机化时

有时，对个体进行随机化根本不切实际或不合理。想象一下在一所学校测试一种新的反霸凌课程。如果你在同一个教室内对学生进行随机化，那么“治疗组”的学生可能会与他们的“对照组”朋友分享他们所学的内容，导致对照组的污染。巧妙的解决方案是整群随机试验（CRT）。你不是对学生进行随机化，而是对整个群体——在这种情况下是学校或教室——进行随机化。

这种设计带来了统计上的代价。同一所学校的学生比随机选择的学生更相似，这一特征由组内相关系数（ $\rho$ ）来衡量。这种相关性降低了统计效率，意味着你需要更多的整群才能达到与个体随机对照试验相同的统计功效。科学家们甚至开发了更复杂的设计，比如阶梯式整群随机试验，在这种设计中，整群被随机安排在不同时间点从对照组交叉到干预组，当在整个研究期间不向任何人提供干预措施是不可行或不道德时，这种设计非常有用。这些变体显示了随机化原则在解决现实世界后勤挑战方面的适应性。

皇冠明珠的局限

尽管随机对照试验功能强大，但它并非万能药。一个明智的科学家了解他们工具的局限性，而随机对照试验也有其重要的边界。

首先，存在伦理界限。我们永远不能在伦理上将人们随机分配到我们已知有害的暴露中，比如吸烟。更微妙的是，涉及弱势群体的研究受到严格的规定。例如，一种治疗孕期晨吐的新药可能对母亲有益，但如果已知它会穿过胎盘，并且有不确定的导致出生缺陷的风险，那么在没有直接益处前景的情况下，让胎儿暴露于超过最低限度的风险是不道德的。在这种情况下，随机对照试验将是不被允许的，我们必须依赖于从精心进行的观察性研究中获得的最佳可用证据。

其次，是统计功效问题。随机对照试验通常不适用于检测非常罕见的事件。如果一种疫苗被怀疑在百万人中引起一例严重副作用，那么随机对照试验需要招募数百万参与者，才有机会观察到足够多的事件来得出结论。这通常是不可能的。在这里，大型观察性研究，如上市后疫苗安全监测系统，就变得至关重要。它们的内部效度可能低于随机对照试验，但它们有足够的统计功效来发现大海捞针般的罕见事件。这两种研究设计在寻求安全的道路上是互补的伙伴。

最后，经典的随机对照试验通常是一个“黑箱”。它在告诉你一项干预措施在平均水平上是否有效方面可能非常出色，但它可能不会告诉你如何、为何或对谁最有效。一个复杂的社区健康项目在一个拥有强大地方领导力的社区（情境）中可能非常有效，因为它赋予了居民权力（机制），但在一个社会凝聚力较差的社区则可能完全失败。一项随机对照试验可能只会报告一个小的、“平均”效应，从而掩盖了这种关键的差异。为了理解这些更深层次的因果路径，研究人员越来越多地转向补充方法，如现实主义评估，该方法旨在揭示特定的“情境-机制-结果”配置，以解释什么对谁有效以及为什么有效。

随机对照试验，源于一次简单的抛硬币，代表了我们在区分因果与相关能力上的巨大飞跃。它是循证医学的引擎，也是人类智慧的美丽证明。然而，它并非一个完美或普适的工具。理解其在现实世界中的复杂性、其伦理和实践上的局限性，以及其在更广泛的证据生态系统中的位置，才是真正科学智慧的标志。

应用与跨学科联系

在深入了解了随机对照试验的原理之后，我们可能会倾向于将其视为一种专门的工具，一种为医生和医学研究人员精心打造的仪器。但这就像看着一把万能钥匙，却认为它只能打开一扇门。随机化这个简单而深刻的思想——利用偶然性来战胜偏倚——是科学中最强大、最普遍的原则之一。它是一个清晰看待因果关系的透镜，一旦你学会如何使用它，你就会开始发现处处都可以应用它。现在，让我们来探索随机对照试验逻辑帮助我们指引方向的广阔且时而令人惊讶的领域。

问题的核心：医学与健康

自然，随机对照试验的主场是医学。在它出现之前，医学是一个充斥着听起来合理的理论、富有魅力的名人宣告以及看似有效的治疗方法的领域，因为病人有时无论如何都会好转。随机对照试验带来了一剂令人振奋的谦逊和严谨。

它最根本的工作是回答一个简单的问题：这个治疗真的有效吗？仅仅让病人感觉好转是不够的；我们必须知道他们感觉好转是因为治疗，而不是因为安慰剂效应、疾病的自然病程或其他混杂因素。随机对照试验使我们能够剖析结果，分离出药物的特定因果贡献。例如，在旨在测试治疗间歇性爆发性障碍等疾病的药物试验中，研究人员不仅仅是问一个“是”或“否”。他们精确测量药物组和安慰剂组在症状减轻上的差异，计算像Hedges' $g$ 这样的无标度效应量。这不仅告诉我们它是否有效，还告诉我们效果有多好。这些试验还可以产生非常简单的指标，如需治数（NNT）——即需要治疗多少名患者才能获得一个额外的积极结果。NNT为5意味着每五名接受该药物而非安慰剂的患者中，就有一名额外的人受益。正是这种清晰、可操作的信息，使得医生和患者能够做出真正知情的决定。

除了单一治疗，随机对照试验是比较不同方法的最终仲裁者。想象一下，外科医生在争论手术后两种不同的缝合技术。哪一种能导致更少的复发？没有随机对照试验，这场辩论可能由资历或传统来决定。但是一项精心设计的试验，比如比较治疗藏毛窦病的离中线与中线切口缝合的试验，可以提供一个明确的答案。通过将患者随机分配到每种技术，并由一位“盲化”的（即不知道使用了哪种技术的）独立评估员来评估结果，试验可以直接测量风险的差异。这类研究构成了循证实践的基石，确保手术室里的操作是由数据而非教条指导的。同样的逻辑也适用于复杂的心理治疗，其中将一种新疗法与一种已确立的、有效的治疗——而不仅仅是等待名单——进行比较，是证明其相对价值的最高标准[@problem-id:4755308]。

也许随机对照试验在健康领域最令人震惊和重要的应用，是揭穿我们自己有缺陷的直觉。考虑一种针对致命癌症的新筛查测试。它非常准确，在一个试点研究中，通过新测试诊断出的人在诊断后平均存活五年，而通过旧方法诊断的人只存活了三年。这似乎是个奇迹！但真的是吗？一个公共卫生机构明智的做法是要求进行一项随机对照试验。在一个针对一个假设性癌症筛查项目的里程碑式试验中，成千上万的人被随机分配接受筛查或不接受。十年后，研究人员关注唯一真正重要的结果：筛查组中因该癌症死亡的人数是否更少？结果可能会令人震惊：死亡率没有差异。

那多出来的两年生命去哪儿了？它是由前置时间偏倚造成的幻觉。筛查测试只是提早两年发现了癌症，但它并没有改变死亡日期。患者只是知道自己患癌的时间长了两年。这是一个深刻而令人谦卑的教训。随机对照试验保护我们免受这类残酷的统计幻象的影响，迫使我们测量真正重要的东西——在这种情况下，是拯救生命，而不仅仅是提早发现疾病[@problem-id:4562507]。

随机化逻辑的释放

随机对照试验的力量在于其逻辑，而这种逻辑可以以真正巧妙的方式移植到其他领域。其中最杰出的例子之一是一种称为孟德尔随机化（MR）的技术。

想象一下，你想知道较高的身体质量指数（BMI）是否会导致心脏病。一个简单的观察性研究充满了风险；BMI较高的人可能也有不同的饮食、锻炼水平或社会经济地位。这是一个经典的混杂问题。但诀窍在于：自然在受孕时就进行着自己的“随机试验”。由于基因从父母到后代的随机组合，一些个体天生继承了一组使他们终身BMI略高的基因变异，而另一些人则继承了使他们BMI较低的变异。这种基因“分配”是随机的，而且至关重要的是，它发生在任何生活方式或环境因素能够产生影响之前。

通过使用这些基因变异作为BMI的“工具变量”，研究人员可以研究受基因影响的BMI与心脏病之间的联系，有效地模拟了一项随机对照试验。这种方法并非没有其自身的复杂性，例如一个基因可能影响多个性状（一种称为基因多效性的现象），但它代表了流行病学上的一次巨大飞跃。它使我们能够用观察性数据来探索因果问题，这是以前无法想象的，而这一切都借鉴了随机对照试验的基本逻辑。

而且这种逻辑并不仅限于人体。考虑一下生态学领域。假设一个团队想要恢复一条受损的河岸。他们种植本地树木并稳定土壤。几年后，这个区域看起来更绿了。这个项目成功了吗？也许吧。但也可能整个地区都经历了好几年的丰沛雨水，这个地点无论如何都会有所改善。为了确定真相，生态学家们求助于同样的工具包。在一种干预前后对照影响（BACI）设计中，他们在工程实施前后同时监测恢复的“影响”地点和类似的、未恢复的“对照”地点。两组之间变化的差异分离出了恢复工作的效果。更进一步，他们可以使用一个全面的随机对照试验，随机选择哪些退化的地块进行恢复，哪些作为对照。这使他们能够就他们的努力是否真正在治愈地球，或者仅仅是一厢情愿，做出强有力的因果声明，即使整个生态系统由于气候变化而成为一个移动的目标。

证据生态系统

随机对照试验虽然强大，但它不是神谕。它只是一个更大的证据生态系统中的一种工具，尽管是最好的工具。现代科学过程不是要找到一项完美的研究，而是关于三角互证：从多个方向，用具有不同优点，更重要的是具有不同缺点的不同方法来处理一个问题。

想象一下，我们想确认降低低密度脂蛋白（LDL）胆固醇与减少心脏病发作风险之间的因果联系。一个经验丰富的团队可能会设立一个三管齐下的攻击。首先，一项务实的随机对照试验，以获得经典的“金标准”估计值。其主要弱点可能是现实世界中的人们并不总是按时服药。其次，一项孟德尔随机化研究，使用基因为工具变量来代表LDL水平。其主要弱点可能是基因多效性。第三，一项“阴性对照”分析；例如，证明降低LDL的干预措施不影响一个不相关的结果，比如意外伤害的风险，这将表明主要发现并非由于某种奇怪的系统性偏倚。如果这三种截然不同、误差来源相互独立的方法都指向同一个结论，我们对因果效应的信心就会比任何单一研究得出的结论要强大得多。

在大数据和人工智能时代，这个证据生态系统正变得越来越重要。我们现在拥有海量的生物医学知识图谱（KGs）——这些是关于药物、疾病和基因的相互关联的庞大声明数据库。但是这些图谱中的“因果”联系正确吗？我们怎么知道？我们用随机对照试验提供的“地面实况”来验证它们。通过系统地将知识图谱中的声明（例如，“药物X治疗疾病Y”）与高质量随机对照试验的结果进行比较，我们可以为知识图谱的可靠性打分，并利用试验数据帮助它学习和改进。随机对照试验是我们自动化系统的最终质量控制标准。

最后，随机对照试验的影响超越了实验室和诊所，延伸到政府大厅和法庭。当一个卫生委员会辩论是否扩大医师助理的执业范围时，他们的决定不能是“专横武断的”。它必须基于实质性证据。在这种情况下，委员会可能会看到一些轶事和有缺陷的观察性研究暗示存在风险，但同时也会看到一项大型随机对照试验和一项进行良好的队列研究显示，在患者安全方面没有显著差异，同时在获取医疗服务方面有明显的好处。证据等级，以随机对照试验为顶峰，为做出决策提供了一个理性的框架。委员会最站得住脚的行动是根据证据的质量来权衡证据，依靠随机对照试验的稳健发现来指导一项平衡安全与可及性的政策。因此，随机化这一简单的原则成为了理性、循证治理的支柱。

从医生选择药物，到生态学家恢复森林，再到法官评估法规，随机对照试验为在不确定的世界中导航提供了指南针。它证明了发现真理最强大的工具之一，就是抛硬币那种谦逊、无偏和澄清的力量。