
科学真理的追求是与不确定性持续斗争的过程。尽管随机对照试验是建立因果关系的黄金标准,但我们大量的知识必须来源于对世界现状的观察——这是一个充满潜在陷阱的环境。其中最重大的陷阱就是研究偏倚,这是一种设计或分析中的系统误差,无论收集多少数据,都可能引导研究人员得出错误的结论。本文旨在解决研究人员和科学消费者理解这一普遍存在的“敌人”的迫切需求,为识别和减轻偏倚提供全面的指南。这一旅程始于第一章“原理与机制”,我们在此解构偏倚的基本类型,以理解它们如何扭曲我们对现实的看法。在这一理论基础之上,第二章“应用与跨学科联系”将展示如何将这些原理付诸实践,以设计出更好的研究并建立一个更值得信赖的科学过程。
要理解我们所谓的“研究偏倚”,最好先想象一项完美的研究会是什么样子。假设我们想知道一种新药是否真的能预防心脏病发作。在理想世界里,我们可以找一个人,比如 Jane,让她服用这种药物二十年,然后观察她是否会心脏病发作。然后,借助一点魔法,我们可以让时间倒流到起点,但这一次,不给 Jane 服用这种药,再次观察她的人生。在这两个平行宇宙中,Jane 命运的差异就是该药物对她的真实、无可否认的因果效应。
当然,这是不可能的。我们只能观察到一个现实。科学以其巨大的智慧,设计出了次优选择:随机对照试验 (RCT)。我们无法让一个人的时间倒流,但我们可以创建两个庞大的人群组,这两组人在平均意义上在所有可以想象的方面都是相同的——遗传、生活方式、年龄、财富等等,你能想到的都有。其中的诀窍是随机化。通过随机分配谁服用药物、谁服用安慰剂,我们打破了治疗与人之间任何预先存在的联系。两组人从同一起跑线出发。现在,如果我们观察到未来心脏病发作率存在差异,我们就可以相当确定,药物——作为两组之间唯一的系统性差异——就是原因所在。
但很多科学研究无法以这种方式进行。我们不能随机分配一些人吸烟而另一些人不吸烟,并持续50年。我们不能随机分配基因突变。我们常常必须像侦探一样工作,观察世界的本来面目,并试图拼凑出因果故事。正是在这个混乱的、观察性的世界里,我们的敌人——偏倚——得以滋生。偏倚不是随机误差,那种如果你收集更多数据就会被平均掉的误差。偏倚是一种系统误差,是我们研究设计或实施中的一个缺陷,它会给我们一个误导性的答案。它使整个实验发生倾斜,确保即使有无限多的数据,我们仍然会得到错误的结果。
这些系统误差,即这些偏倚,并非一个无限的、互不关联的“陷阱”列表。它们可以归为几个大的类别,每个类别都代表了我们科学侦探工作可能出错的一种基本方式。
这是最根本的问题。如果我们的两组——暴露组和非暴露组——从一开始就在某些重要方面有所不同,那么我们的比较就毫无意义。这是在比较苹果和橘子。这一类别包括两种最著名的偏倚类型:混杂偏倚和选择偏倚。
想象一项观察性研究发现,喝咖啡的人肺癌发病率更高。是咖啡致癌吗?可能不是。问题在于,大量喝咖啡的人也更有可能吸烟。吸烟导致肺癌。在这里,吸烟就是一个混杂因素——一个与暴露(喝咖啡)和结局(癌症)都有关联的第三方因素,从而在它们之间制造了一种虚假的关联。
这种情况在医学研究中时常发生。在一项针对孕妇的新型止吐药的研究中,研究人员可能会观察到服药组的出生缺陷更多。但给药是有原因的:这些女性的恶心症状更严重。如果严重的恶心本身,即治疗的指征,也是出生缺陷的一个风险因素呢?这被称为指征混杂,这是一个经典的陷阱,药物因此为本已存在的风险背了黑锅。
现代流行病学家使用简单的图表来可视化这个问题。一个混杂因素 () 是暴露 () 和结局 () 的共同原因,它创建了一条非因果的“后门路径”关联 ()。RCT 通过随机化切断了 这条联系。在观察性研究中,我们试图通过统计上“调整”混杂因素来达到同样的目的,这就像试图关闭后门。但这只有在我们能够识别并精确测量所有重要的混杂因素时才有效,而这通常是做不到的。
选择偏倚是一种更微妙,并且在许多方面更引人入胜的“猛兽”。它发生于选择研究对象这一行为本身,在现实世界中本不存在的关联被凭空创造了出来。许多形式的选择偏倚都是一种被称为对撞偏倚的强大幻觉的结果。
原理很简单。想象两个在普通人群中完全独立的特质,比如天生的运动能力和优异的学习成绩。现在,假设一所精英大学只招收要么有出色运动能力要么有优异成绩的学生。如果我们现在只对这所大学的学生进行研究,我们会发现一个奇怪的负相关:明星运动员的成绩似乎比其他学生低,而学霸们似乎运动能力较差。为什么?因为我们根据一个共同效应,即一个对撞因子(被大学录取),来选择了我们的样本。既不擅长运动也不擅长学习的学生不在我们的样本中。通过将我们的视野限制在“被录取”的群体中,我们凭空制造了一种统计上的扭曲。
这种幻觉出现在许多真实世界的场景中:
Berkson 偏倚:在医院里,你可能会注意到患有疾病 X 的病人似乎比预期中更少同时患有疾病 Y。这是否存在一种保护效应?不一定。如果疾病 X 和疾病 Y 都是住院的原因,那么住院本身就是一个对撞因子。通过只研究住院病人,你就人为地创造了一种负相关。
就医行为偏倚:流感研究中一个著名的难题是“健康使用者”效应,即在一些观察性研究中,接种疫苗的个体似乎在所有死因上的死亡率都更低,而不仅仅是流感。这表明接种疫苗的人本身就更健康(一种混杂形式)。但一种更复杂的偏倚也可能在起作用。想象一下,流感 () 和疫苗 () 都会影响症状的严重程度 (),而症状是导致人们去看医生并接受检测 () 的原因。通过将分析仅限于那些接受了检测的人,我们实际上是在一个对撞因子 () 的结果上进行了条件限制。这可能会在被检测的人群中,在疫苗和流感诊断之间创造一种奇异的、非因果的联系,从而扭曲疫苗的真实有效性。
确认偏倚:在遗传学中,寻找致病基因的研究人员通常研究富集了病例的人群。这完全合乎逻辑——你在效应普遍的地方寻找原因。然而,这是一种选择偏倚。通过过采样患病人群,我们是在疾病状态上进行了条件限制。正如数学上可以证明的,这个过程会系统性地夸大我们对基因效应的估计,使其看起来比在普通人群中实际的更强大或更具“外显性”。
这一类偏倚,统称为信息偏倚,产生于我们收集的数据存在缺陷。我们的标尺坏了。即使我们比较的是苹果和苹果,但如果我们无法正确测量它们,我们也会得到错误的答案。
最简单的形式是错分,即我们将受试者归入错误的类别——例如,我们记录某人服用了药物而实际上没有,或者我们漏掉了一个轻微的疾病病例。如果这种错误是随机发生的,并且与其他变量无关(非差异性错分),它倾向于模糊任何真实的关联,使结果偏向于未发现效应。这就像给清晰的无线电信号增加了静电干扰。
更危险的版本是差异性错分,即错误率在被比较的组之间有所不同。例如,如果患有某种疾病的人比健康人更清晰地回忆起他们过去的暴露史(回忆偏倚),那么这种错误就不是随机的,它可能制造出虚假的关联或夸大真实的关联。
信息偏倚在诊断性试验的研究中最为突出。想象一下为儿童阑尾炎开发一种新的快速检测方法。有几种偏倚可能会让这种检测看起来比实际更好:
谱系偏倚:如果你只在患有典型、严重阑尾炎的儿童和明显健康的儿童身上验证你的检测方法,你就创造了一个人为简单的测试环境。该检测的准确性(其敏感性和特异性)将被夸大。真正的挑战是区分轻度、非典型的阑尾炎与其他原因引起的腹痛,如果你的研究样本不能反映这种真实的“谱系”,你的结果就不具有普遍性。
验证偏倚:假设你只对那些在新检测中呈阳性的儿童进行最终的“金标准”检查(如手术和病理学检查)。那些检测呈阴性的儿童则被直接送回家。通过这样做,你永远不会发现“假阴性”——即你的检测漏掉的患病儿童。这会系统性地夸大该检测的表观敏感性。
纳入偏倚:这是一种循环推理。如果医生使用你的新检测结果来帮助决定是否进行手术,那么检测结果本身就成了“金标准”的一部分。该检测会显得与最终诊断更一致,仅仅因为它帮助做出了那个诊断。
这最后一类偏倚在科学文献本身的层面上运作。这是对整个研究的选择偏倚。即使成千上万的个体研究都设计和执行得完美无瑕,我们所看到的证据图景也可能被扭曲。
最著名的形式是发表偏倚。报告激动人心的、统计显著的、“阳性”结果的研究,更有可能被其作者撰写成文并被期刊接受发表。而那些带有“无聊的”无效结果——即未发现效应——或“阴性”结果的研究,可能会被束之高阁,永不见天日。这就是文件抽屉问题。
当有人之后试图在荟萃分析中综合所有证据时,他们是在一个有偏倚的文献库中工作。小型研究由于随机变异性大,有时仅凭偶然就会发现很大的效应。而那些偶然发现无效应的小型研究,最有可能被遗漏。我们可以用漏斗图来可视化这一点,该图将每个研究的效应量与其精确度(研究规模的度量)作图。在一个无偏倚的世界里,该图应看起来像一个对称的倒置漏斗。存在发表偏倚时,漏斗的一部分——通常是代表小型无效研究的那个角落——会缺失。
一个相关且可能更隐蔽的问题是结局报告偏倚。在这里,研究本身被发表了,但研究人员测量了十个不同的结局,却只报告了那个恰好具有统计显著性的结局。这就像先朝墙上射箭,然后在箭落下的地方画上靶心。区分这些不同的报告偏倚需要仔细的侦探工作,通常需要将最终发表的文章与预先注册的研究方案进行比较。
乍一看,这个偏倚的“版图”——从指征混杂到 Berkson 偏倚,从谱系偏倚到发表偏倚——似乎是一个令人困惑的问题动物园。但更深入的观察揭示了一种优美的统一性。它们都源于未能正确回答一个简单的问题:“与什么相比?”
思考偏倚是流行病学和优秀的定量科学的灵魂。它迫使我们保持谦逊和怀疑。这并非是对科学过程失去信心;它本身就是科学过程。理解我们如何可能被愚弄,是走向真理的第一步,也是最关键的一步。诸如有向无环图 (DAGs) 和定量偏倚分析 等严谨工具的发展,代表了一项深刻的智力成就:一套用于发现幻觉,并在某些情况下校正我们视野的形式逻辑。最终,理解和减轻偏倚的追求,正是努力向自然提出一个清晰问题,并拥有足够智慧去判断她是否给出了直接回答的斗争的本质。
在经历了偏倚的原理与机制之旅后,我们可能会倾向于将其视为一个统计学反派的“流氓画廊”,一个为了应付考试而需要记忆的抽象事物集合。但这样做将完全错失其要点。研究偏倚不是一项旁观者的运动;它是科学事业核心中积极、创造性且往往是优美的斗争。它是向自然提出一个公平问题的艺术,是仔细聆听她的回答,并谦卑地承认我们自身认知局限的艺术。
在本章中,我们将看到这些原理变为现实。我们将从单个研究的蓝图,走向整个证据领域的宏大综合,并最终触及保障科学知识完整性的基础体系。我们将看到,同样的基本思想在不同学科中产生共鸣,从医院的病床边到实验室的工作台,揭示了追求真理过程中惊人的一致性。
在分析数据之前,我们必须首先收集数据。而我们选择如何收集数据——我们研究的设计——是我们防止被误导的第一道也是最强大的防线。一个有缺陷的设计就像在歪斜的地基上盖房子;再优雅的装饰也无法使其水平。
想象一下,我们想了解为什么有些怀孕不幸以流产告终。我们可能怀疑某种状况,比如特定抗体的存在,与复发性流产的风险有关。我们将如何调查这个问题?一个常见但危险的方法是去一个专门治疗复发性流产的诊所,收集病历,并寻找这些抗体。这看起来很合理,但我们已经掉进了一个陷阱。通过从专科诊所开始,我们选择了一群人,对他们来说,我们感兴趣的结局(流产)是一个决定性特征。这就像试图通过只研究壁炉里的木头来理解火灾的原因——我们从一开始就保证了我们的样本是倾斜的。
一个更强大、更诚实的设计是像建筑师在铺设第一块砖之前绘制蓝图那样思考。我们不是从结局开始,而是从一群计划怀孕的女性开始,在故事甚至还未开始之前。我们在开始时测量她们的抗体状况,然后对所有这些人进行前瞻性追踪,仔细而统一地记录每一次怀孕及其结局,无论是幸福的诞生还是流产。这种前瞻性的、基于人群的方法,如在复发性流产 (RPL) 研究中所展示的,是黄金标准,因为它建立了明确的时间顺序,并避免了困扰基于诊所的回顾性研究的选择偏倚。我们让自然的电影自行播放,而不是试图从结尾拍摄的几张快照来重构情节。
这种“前瞻性”原则在遗传学中找到了一个特别优雅的应用。假设我们想知道一个致病基因变异的外显率——也就是说,如果你携带该变异,你实际患上相关儿科疾病的几率是多少?如果我们从遗传学诊所招募家庭,我们几乎肯定会高估这个风险。我们研究的是那些因为病情严重,通常有多个患病家庭成员而引起注意的家庭。我们又一次在看壁炉里的木头。
“基因型优先”的方法提供了一个优美的解决方案。我们不是从疾病(“表型优先”)开始,而是从基因开始。通过诸如基于人群的新生儿筛查或大型儿科生物样本库等项目,我们可以识别出一组携带该变异的婴儿,无论他们的健康状况如何。然后我们对这些儿童进行前瞻性追踪。这种方法给了我们一个真正具有代表性的所有携带者的样本,而不仅仅是那些最终出现在专科医生办公室的携带者。它使我们能够计算出一个更诚实、更谦逊的基因影响估计值,这个数字对于家庭咨询至关重要。
当然,我们不能总是向前看。有时,过去是我们所拥有的全部。病例对照研究将患有某种疾病的人(病例)与未患病的人(对照组)进行比较,并回顾性地寻找过去的暴露史,它是一种至关重要的工具。但它们也带来了自身的心理陷阱,最著名的是回忆偏倚。想象一下,要求患有先天性异常儿童的母亲和健康儿童的母亲回忆她们在怀孕期间服用的每一种药物。孩子生病的母亲可能会以更大的焦虑和更彻底的方式搜索她的记忆,从而可能报告更多的暴露——即使真实的暴露是相同的。这不是道德上的缺陷;这是人性。我们的记忆不是完美的录像带;它是我们重构的故事,而故事的结局会影响我们如何回忆开头。解决方案是什么?在可能的情况下,我们通过使用客观、未受污染的记录来回避记忆的不可靠性,例如来自电子健康记录的药房配药记录。这些记录是我们的“监控摄像头”,显示了发生的事情,而没有经过人类回忆的过滤。
即使我们设计的研究是前瞻性的,时间本身也可能对我们耍花招。对于那些有很长潜伏期的疾病,如帕金森病 (PD),一种称为*反向因果关系*的现象可以完全颠覆我们的结论。多年来,研究人员注意到喝咖啡的人患 PD 的风险似乎更低。这或许是一种保护效应?不一定。我们现在知道,PD 在大脑中开始其破坏性工作要比第一个震颤出现早几年甚至几十年。最早的临床前症状之一可能是嗅觉丧失或胃肠道功能改变,这可能导致一个人失去对咖啡的兴趣。所以,可能是临床前疾病“导致”了咖啡饮用量的减少,而不是反过来。这就像认为带伞会导致下雨,而实际上是下雨的早期微妙迹象(乌云)让你拿起了伞。这是一个深刻的提醒:相关性,即使是在前瞻性研究中建立的,也不等于因果关系。
设计完美的研究通常是我们无法拥有的奢侈品。对于许多关键问题——尤其是公共政策或外科手术中的问题——进行随机对照试验 (RCT) 可能不道德或不可行。我们不能随机分配家庭拥有枪支来研究自杀风险,也不能轻易地将病人随机分配到一个外科医生认为必要或不必要的大手术中。在这些情况下,我们必须扮演法官的角色,批判性地评价我们面前不完美的观察性证据。
这种评价并非模糊的意见问题;它是一个结构化的、法医式的过程。像“非随机干预性研究偏倚风险 (ROBINS-I)”工具这样的框架提供了一种系统性的方法,来评估一项观察性研究与我们希望能够进行的理想随机试验的偏离程度。我们检查研究中的混杂、选择偏倚和错分。一个特别致命的缺陷是,例如,使用源自结局本身的指标作为暴露的替代指标。在一个假设的研究中,研究人员使用持枪自杀的比例作为某州枪支拥有水平的替代指标。这就造成了循环论证,使得无法了解关于真实关系的任何有意义的信息。好的科学要求我们以这种严谨的水平来评价证据,给予结构更健全的研究更大的权重,并认识到当一项研究存在如此严重的缺陷以至于它不能提供任何有用信息时。
当好的设计还不够时,先进的统计学可以伸出援手。对医疗干预的观察性研究饱受指征混杂的困扰——即病情较重的患者往往被有意地给予与较健康患者不同的治疗。这使得治疗组之间对结局的简单比较完全具有误导性。当出现时间依赖性混杂时,问题变得更加复杂,即治疗决策影响患者未来的状态,而这又反过来影响未来的治疗决策和最终结局。例如,在评估一种癌症手术时,手术的范围可能会揭示癌症是否已扩散到淋巴结。这一发现随后会影响是否给予辅助治疗的决定,而辅助治疗本身又会影响生存率。
试图用传统的统计模型来解开这个结,就像试图把一个烤好的蛋糕还原回去。解决方案来自一个强大的思想:模拟目标试验。通过在边缘结构模型的框架内使用一种称为逆概率加权的技术,我们可以利用我们拥有的数据来模拟我们无法进行的随机试验。本质上,我们根据每个患者的基线特征计算他们接受某种治疗的概率(或“倾向性”)。然后我们使用这些概率在我们的计算机上创建一个新的、加权的“伪人群”。在这个合成的世界里,就好像治疗是随机分配的,打破了患者初始风险与其治疗之间的联系。这使我们能够估计治疗本身的真实因果效应。这是一个惊人的例子,说明了统计学的想象力如何帮助我们在混杂中找到清晰。
偏倚也作用于个体研究之上的层面。在任何领域,具有戏剧性、统计显著结果的研究都比那些结果平淡、无效或阴性的研究更令人兴奋,也更有可能被发表。这种发表偏倚,常被称为“文件抽屉问题”,意味着我们在已发表文献中能获得的证据本身就是所有实际进行的研究的一个有偏倚的样本。一个只综合已发表研究的荟萃分析因此可能会产生一个夸大的、过于乐观的治疗效果估计。
在这里,统计学再次提供了一种自我校正的工具。“剪补法”是一个聪明的思想实验。它首先创建一个“漏斗图”,该图将每个研究的效应量与其精确度作图。在一个没有发表偏倚的世界里,这个图应该是对称的,像一个漏斗。如果漏斗的一部分缺失——通常是对应于小型的、无效研究的部分——我们就怀疑存在发表偏倚。“剪补”程序会以数字方式“修剪”掉最极端的阳性研究,假设它们是缺失的无效研究的镜像,并以计算方式“填充”那些缺失的研究。然后它重新计算合并效应。这不仅仅是一个数学游戏;它是一种伦理上的要求。它是一种校正我们证据基础中结构性不平等的方法,确保我们的决策基于更清醒、更完整的证据视角。
对抗偏倚的最后一层防线不是关于个别研究设计或统计校正,而是关于科学的基础设施本身。随着时间的推移,科学界已经发展出一些系统和最佳实践,旨在使整个研究过程更加透明,更不易受到人类弱点的影响。
一个典型的例子是系统评价。这并不像某些人可能认为的那样,是一个学者阅读一些论文然后写一篇随笔的简单文献综述。一个现代的系统评价本身就是一项严谨的、由方案驱动的研究。在评价开始之前,团队会在一个公共数据库,如 PROSPERO(国际系统评价前瞻性注册库)中注册一个详细的方案。这个方案是一个公开的承诺,有时间戳供所有人查看。它明确了研究问题、纳入研究的标准、感兴趣的结局以及确切的统计分析计划。
这种预注册行为是一种强大的“承诺机制”。它通过防止评价团队在看到结果后改变他们的计划,从而降低了报告偏倚的风险。他们不能因为某个结局具有统计显著性就决定专注于该结局,或者尝试不同的分析模型直到某个模型给出一个小于 的“p值”。通过事先锁定计划,整个过程变得可审计和透明,打破了观察到的结果与报告这些结果之间的依赖关系。当然,方案注册无法消除原始文献中已经存在的偏倚,例如发表偏倚或原始研究中的混杂。但它是防止在证据综合阶段引入新偏倚的关键保障措施。这是科学将其怀疑的目光转向自身的行为。
这种对系统性控制的承诺,这种构建抗偏倚过程的动力,是优秀科学的一个普遍特征。其原则一直回响到构成药物开发和转化医学基础的非临床研究中。在一个遵循良好实验室规范 (GLP) 的设施中,一个前瞻性维护的主计划和一个独立的质量保证 (QA) 计划正是起到了这样的作用。
实验室中持续的偏差——仪器的校准漂移,技术人员之间微妙的程序漂移——是系统性偏倚的来源。它不是会平均掉的随机误差。QA 计划,通过其由主计划规定的定期的、预先安排的审计,充当了一个与结局无关的抽样过程。它定期检查系统的状态,寻找这些持续的偏差。QA 部门的独立性确保了检查的客观性。这个系统旨在最小化设施在未被发现的偏倚下运行的时间,在错误能够破坏整个研究,或更糟的是,在多个研究中传播之前,将其控制住。
从统计学的角度来看,这与我们讨论过的原则是相同的。主计划就是预注册的方案。独立的 QA 审计就是客观的评估。目标是检测和控制系统误差。同样的逻辑适用于一项耗资数百万美元的临床试验,一个公共卫生政策问题,以及一个实验室移液管的校准,这证明了这些核心思想深刻而统一的美。对抗偏倚的斗争,在所有形式中,无非就是科学诚信的操作性定义。