
为了确定一种新的医疗方法是否有效,我们必须以一种公平且无偏倚的方式将其与对照组进行比较。实现这一目标的基本原则是随机化——通过机遇来将受试者分配到不同的治疗组。然而,简单的随机化,例如为每个人抛硬币,可能会导致组间样本量或特征的显著不平衡,尤其是在有限的试验中。本文通过探讨置换区组随机化这一旨在强制实现平衡的复杂方法,来应对这一挑战。在接下来的章节中,我们将深入研究该技术的原理和机制,将其与简单随机化进行对比,并探讨其固有的权衡。然后,我们将审视其重要应用和跨学科联系,揭示这种精妙的方法如何为可靠的科学发现提供必要的稳健结构。
假设我们有一种新药。我们想知道它是否比旧药效果更好,或者比什么都不用要好。我们如何进行一次公平的测试?挑战在于人与人之间各不相同。有些人年龄较大,有些人病情较重,有些人可能具有不同的基因构成。如果我们只是将新药给一组人,旧药给另一组人,我们看到的任何差异都可能是由于药物本身,也可能仅仅是因为两组人本来就不同。这是因果推断的根本问题,而它的解决方案是所有科学中最美妙的思想之一:随机化。
决定谁接受哪种治疗的最简单、最诚实的方法是什么?为每一位进入试验的受试者抛一枚硬币。正面,他们接受新药;反面,他们接受旧药。这被称为简单随机化,其力量在于其优雅的朴素性。
因为硬币没有记忆,也不关心患者的年龄、性别或病情严重程度,所以治疗分配在设计上就与患者的所有特征在统计上是独立的。 从长远来看,得益于大数定律,这种方法能确保两个组——治疗组和对照组——在平均水平上看起来非常相似。任何预后因素,无论测量与否,都将趋于平衡。这使得我们可以将结果的任何差异主要归因于治疗本身。从这个意义上说,简单随机化是建立无偏倚比较的黄金标准。
但这里有一个陷阱,而且是个大陷阱。“从长远来看”,大数定律才能发挥其魔力。而一个真实的临床试验并不是无限长的。它的受试者数量是固定的、有限的。在有限的样本中,纯粹的机遇可能导致令人不安的不平衡。你可能因为一连串的坏运气,最终导致70名患者服用新药,而只有30名患者在对照组,这对统计比较而言是低效的。更糟糕的是,你可能会遇到“连续”的情况,即前15名患者都被分配到新药组。如果这些早期入组者与后期入组者有系统性差异(也许他们病情更重、更急于求治),你就无意中将时间效应(即时间顺序偏倚)与你的治疗效应混淆了。 我们本想消除偏倚,但机遇本身却让偏倚悄悄溜了回来。
如果纯粹的、不受约束的机遇是问题所在,那么解决方案必然是约束它。我们需要在固定的时间间隔内强制实现平衡。这就是置换区组随机化背后的核心思想。
我们不再将试验视为一长串的抛硬币过程,而是将其分解成更小、更易于管理的小块,称为区组。假设我们选择一个大小为四的区组()。我们决定,在这个由四人组成的区组内,我们要保证完美的平衡。这意味着,将有两人确切地得到新药(我们称之为'A'),两人得到对照('B')。
我们该如何做到这一点?我们可以想象在两张卡片上写'A',在另外两张卡片上写'B'。我们把这四张卡片放进一顶帽子里,把它们洗匀,然后为每一位入组的患者抽出一张。我们可能抽出的序列有AABB、ABAB、ABBA、BAAB、BABA、BBAA。这种唯一序列的数量由二项式系数 给出,对于的情况,即为 。我们为第一个四人区组随机选择这六种排列中的一种,然后为下一个四人区组再做一次,依此类推,直到试验完成。
这种方法的美妙之处在于它约束了机遇的狂野。现在,在每个区组结束时,平衡得到了保证。那种造成各治疗组总人数严重失衡的长时间坏运气,现在已不可能发生。各组之间可能存在的最大不平衡最多是区组大小的一半,即。 如果我们使用小的区组,比如,我们知道两组的患者人数差异永远不会超过两个。这是一种在不同时间和不同试验中心维持平衡的强大方法,能给我们带来更强的统计效力,以及更可信的结果。
在科学中,如同在生活中一样,没有免费的午餐。我们约束了机遇以获得平衡。那么我们放弃了什么?我们失去了一定程度的不可预测性。而这种损失可能是灾难性的。
随机化的整个事业都建立在一个称为分配隐藏的原则之上:为患者入组的人员决不能知道即将进行的治疗分配。如果他们知道了,他们可能会有意识或无意识地影响谁在何时入组。这被称为选择偏倚,它会彻底破坏试验的公平性。
让我们回到那个四人区组(A, A, B, B)的例子,想象你是一位研究者,并且知道区组大小是4。
现在,第四位患者即将入组。你已经看到区组中用掉了两个'A'和一个'B'。既然你知道区组必须包含两个'A'和两个'B',你就百分之百地确定这最后一位患者必须接受'B'。秘密已经泄露。可预测性为1。
这不仅仅是最后一次分配的问题。随着一个区组被填满,下一次分配的概率会变得倾斜。如果你看到的'A'比'B'多,那么下一次分配更有可能是'B'。研究者可能会利用这一点。如果他们认为新药'A'更好,并且看到下一次分配很可能是'B',他们可能会引导病情较重的患者避开这次试验,等待一个'A'可能性更大的名额。这种选择性的入组会污染整个实验。
我们面临一个艰难的权衡。小的区组大小让我们能严格控制平衡,但会使分配更具可预测性。大的区组大小降低了可预测性,但允许出现更大的临时不平衡。
我们如何解决这个两难的困境?问题之所以出现,是因为研究者知道区组的大小。那么,我们就把它隐藏起来。
与其使用固定的区组大小4,我们可以决定混合使用不同的区组大小,例如,4、6和8。在每个新区组开始时,中央随机系统会秘密地、随机地选择其中一个大小。在实地招募患者的研究者并不知道当前区组是短的还是长的。
现在,即使他们观察到不平衡,也无法确定离区组结束还有多远,因此他们无法可靠地计算出下一次分配的概率。这种使用随机变化的区组大小的简单做法,巧妙地模糊了底层的模式,在大幅降低可预测性的同时,仍然保留了在每个(现在是秘密的)区组结束时完美平衡的保证。 这是一项非常实用的统计工程杰作,让我们能够两全其美:既有良好的平衡性,又有稳健的分配隐藏。
置换区组随机化是一个很好的工具,可以保持各组人数的平衡。但是,如果有一个特定的、已知的因素对结果有巨大影响,该怎么办?例如,在一项癌症试验中,如果携带特定基因标记的患者对治疗的反应非常不同,该怎么办?即使使用了置换区组,我们也可能因为偶然,最终导致一个治疗组中标记为阳性的患者比另一个组多。
为了防止这种情况,我们可以增加另一层控制:分层。
这个想法简单而直观。在随机化之前,我们首先根据这些关键的预后因素将我们的患者群体分成不同的组,或称分层。例如,我们可以创建四个分层:
然后,我们在每个分层内部进行独立的置换区组随机化(理想情况下使用可变的区组大小)。 这确保了我们不仅在总体上,而且在男性标记阳性组、女性标记阴性组等等内部都获得了良好的治疗分配平衡。
这种强大的组合——分层置换区组随机化——是现代临床试验设计的中流砥柱。分层强制在我们已知重要的关键因素上实现平衡,而区组则在这些分层内随时间维持分配比例,防止时间顺序偏倚。这是一个多层次的防御系统,设计精巧,旨在保护试验的完整性,使其免受机遇和人性可能引入的各种偏倚的影响。它代表了从简单地抛硬币到为揭示真理而设计的复杂、稳健系统的演进过程。
在掌握了置换区组随机化的“如何做”之后,我们现在来探讨“为什么”和“在哪里”用。从一个简单的原理到其广泛应用的过程,往往是揭示一个科学思想真正魅力的地方。理解一个工具的机制是一回事,而看到它在大师级工匠手中,跨越不同的人类探究领域,塑造出解决复杂问题的方案,则是另一回事。置换区组随机化,特别是当它与其强大的伙伴——分层——相结合时,正是这样一种工具。它的优雅不在于其复杂性,而在于它为实验固有的混乱所施加的精妙秩序。
置换区组随机化最常见且可以说最关键的应用是在临床医学领域。想象一下,你正在测试一种新的救命药物。你的目标是将其给予一组患者,将安慰剂给予另一组,然后比较结果。最简单的分配方式是为每位患者抛硬币。但如果纯属运气不好,前二十位恰好是病情最重的患者,都被分配到了安慰剂组怎么办?或者,如果在你的试验进行到一半时,一种新的、更有效的外科技术问世了,而碰巧的是,随后入组的、更健康的患者大多数都被分配到了新药组?这些“时间趋势”或“时间顺序偏倚”可能会毁掉一个实验,造成成功或失败的假象。
置换区组随机化是应对这种时间混乱的完美解药。我们不是为每个病人抛硬币,而是从一副“洗好的牌”中发牌。对于一个大小为四的区组,我们创建一副包含两张“药物”牌和两张“安慰剂”牌的牌组。我们把这个小牌组洗匀,并按照这个顺序分配前四名患者。然后我们拿另一副相同的牌组,洗匀,再分配接下来的四名患者。通过反复这样做,我们保证每四名患者之后,每个组的参与者数量都是完全平衡的。这在试验的整个持续时间内强制实现了平衡,保护我们的结果免受时间之箭的影响。
但是,如果我们在实验开始前就知道某些特征非常重要呢?例如,在一项针对Duchenne型肌营养不良症疗法的试验中,生物学家和医生知道,患者的年龄和特定的基因突变类型是预测疾病进展的有力指标。如果偶然间,一个治疗组最终聚集了更多年龄较大的儿童或更多患有较难治疗突变的患者,那将是一场灾难。
这就是置换区组随机化与分层联手的地方。这个想法惊人地简单而强大。我们不是进行一个大型实验,而是创建几个较小的、并行的迷你实验,即“分层”。对于Duchenne试验,我们可能会为“患有A型突变的年轻男孩”创建一个分层,为“患有A型突变的大龄男孩”创建另一个分层,为“患有B型突变的年轻男孩”创建第三个分层,依此类推。在每一个精心定义的分层内,我们都运行自己独立的置换区组随机化。这一神来之笔不仅保证了总体的平衡,也保证了我们已知重要的每个亚组内的平衡。这是“分而治之”策略的直接应用,为实验设计带来了优美而层次分明的秩序。这种组合现在已成为从肿瘤学、心脏病学到眼科学 和牙科学 等领域试验的基石,并且是监管机构批准新医疗设备或药物前所要求的严格方案的关键组成部分。
当然,这种方法也有其局限性。如果我们试图对过多的因素(例如,中心、年龄、性别、疾病分期、基线测量值)进行分层,我们可能会将样本粉碎成几十个微小的分层,这个问题被称为过度分层。在某些情况下,更动态的方法如“最小化”可能更受青睐,这种方法也寻求平衡,但它是在每位患者入组时自适应地进行。如何选择是实验设计艺术的一部分。
在区组内平衡分配的力量并不仅限于医学。同样的逻辑适用于任何我们需要公平比较不同条件的地方。
考虑神经科学领域,研究人员使用功能磁共振成像(fMRI)或脑电图(EEG)来观察大脑的活动。一个实验可能涉及向受试者展示一系列来自不同类别(如面孔、房屋、工具)的图像。正如临床试验参与者的健康状况会随时间变化一样,一个人在长时间的扫描过程中的注意力和警觉性也会发生变化。如果所有的“面孔”图像都在开始时显示,而所有的“房屋”图像都在结束时显示,我们就无法分辨大脑活动的不同是由于图像类别,还是仅仅因为受试者累了。解决方案是什么?对试验序列进行置换区组随机化。对于每组(比如12个)试验,我们确保每个类别正好有四个,并以随机顺序呈现。这巧妙地控制了单个被试内部与时间相关的混杂因素。值得注意的是,同一个研究可能还会在更高层次上使用分层和区组——将参与者本身分配到不同的实验组,以确保在年龄或利手等因素上的平衡。这是同样的原则,只是应用在不同的尺度上。
其多功能性还远不止于此。在交叉试验中,每位参与者都会接受所有的治疗,只是顺序不同。例如,一组先接受药物A再接受药物B;另一组则先B后A。在这里,随机化不是关于谁得到哪种药,而是关于谁得到哪种顺序。我们如何确保随着时间的推移,被分配到AB序列和BA序列的人数相等?置换区组随机化再次派上用场。我们可以创建由序列组成的区组(例如,两个“AB”和两个“BA”),将它们洗匀,然后将新入组的患者分配到列表中的下一个序列。其底层逻辑保证了,对于任何给定的患者,以治疗A开始的概率恰好是 ,从而维护了比较的根本公平性。
也许最深刻的联系不是与其他学科的联系,而是与统计推断的根本基础的联系。我们选择随机化实验的方式,与我们必须分析结果的方式密不可分。它们是同一枚硬币的两面。
标准的统计检验——那种在入门课程中教授的——是建立在简单随机化(如独立的抛硬币)的假设之上的。但我们刚刚看到,复杂的设计使用受约束的或限制性的随机化来强制实现平衡。当我们使用一个不了解设计信息的简单统计检验来分析来自区组或分层实验的数据时,会发生什么?一个常见的担忧是,这可能导致发现并非真实存在的效应(即膨胀的“I类错误”)。
现实恰恰相反,这是一个对精心设计的实验之完整性的美妙证明。因为像分层和区组这样的方法会强制各组变得比偶然情况下更相似,它们实际上减少了治疗效应估计的真实变异性。一个简单的分析,由于不了解这种强制的平衡,会使用一个高估了随机误差量的公式。结果是什么?检验变得保守。你更难找到统计上显著的结果。你的p值会比应有的更大,你的置信区间会更宽。未经调整的分析远非无效,它只是效率较低、效力较弱——就像试图用一架模糊的望远镜看一颗暗淡的星星。
要释放设计的全部力量,分析必须考虑随机化中使用的因素。这就是“按随机化的方式进行分析”的原则。如果你按年龄分层,你就必须在最终的统计模型中包含年龄。如果你使用了区组,你也应该将它们考虑在内。这样做可以恰当地调整方差估计,收窄置信区间,并为你提供关于治疗真实效应的最清晰图像。实验设计行为与分析行为之间的这种美妙对称性,突显了科学方法中深层次的统一。我们在设立实验时所付出的谨慎,不仅在可信度上得到回报,也在统计精度上得到回报。
从病床边到脑扫描仪,从一个简单的试验序列到深奥的推断理论,置换区组随机化不仅仅是一个聪明的技巧。它是一个为机遇施加有意义秩序的基本工具,让我们能向自然提出清晰的问题,并相信我们收到的答案。