
在探求知识的过程中,区分真实的因果效应与简单的相关性是一项根本性的挑战。数据可能具有欺骗性,科学研究中一些最深远的错误并非源于复杂的计算,而是源于我们对所选分析数据的错误假设。在这些错误中,最微妙和普遍的一种是对撞-分层偏倚,这是一种选择偏倚,它能制造完全虚幻的关系或掩盖真实的关系。本文将探讨这个统计学中的“机器之鬼”,解决从收集数据到得出有效结论之间的关键差距。我们将首先探讨对撞偏倚的核心原理和机制,使用直观的例子和有向无环图(DAG)这一强大的可视化语言,来揭示这种偏倚是如何产生的。随后,我们将考察其在现实世界中的应用和跨学科联系,揭示这同一个概念如何在从临床医学、人工智能伦理到心理学和公共卫生的各个领域中,引起危险的统计扭曲。通过理解其结构,我们可以学会发现这种幻象并避免被其愚弄。
让我们从一个谜题开始。花些时间观察著名演员的世界,你可能会注意到一个奇怪的现象。似乎在最才华横溢的演员中,许多人并不具备传统意义上的美貌。相反,在那些外貌最惊艳的演员中,许多人并非最具天赋的表演者。这会让人猜想是否存在某种宇宙间的权衡,一条迫使人们在才华与美貌之间做出选择的自然法则。为什么才华与美貌看起来呈负相关?
答案是,它们几乎可以肯定不是负相关的。在普通人群中,这两个特质之间可能没有有意义的相关性。这个悖论的产生并非源于现实的某个特征,而是源于我们观察方式的特征。我们观察的不是普通人群,而是一个非常特定、经过筛选的群体:著名演员。
要成为一名著名演员,需要才华和美貌的某种组合。一个才华横溢的人,即使相貌平平也可能被注意到。一个美貌惊人的人,即使演技平平也可能获得重要角色。当然,兼具才华与美貌的人机会很大。但那些既没有出众才华又没有惊人美貌的人呢?他们成名的可能性就小得多。
我们观察的群体——著名演员——已经通过一个筛选过程被过滤了。进入这个专属俱乐部的入场券是“高才华或高美貌”。这个选择标准是一个因果交汇点,是不同路径的汇合处。在因果科学的语言中,我们称之为对撞因子 (collider)。而将我们的分析局限于一个对撞因子上,是导致我们被愚弄的最微妙也最强大的方式之一。这种通过选择特定子群体来产生虚假关联的现象,被称为对撞-分层偏倚 (collider-stratification bias),是一种普遍的选择偏倚 (selection bias)。
为了更严谨地解开这个谜题,我们需要一种谈论因果的语言。图画通常比文字更有效。科学家使用一种名为有向无环图 (Directed Acyclic Graph, DAG) 的工具,这是一个花哨的名字,其思想却非常简单:一张因果关系地图。每个因素或变量是一个点(“节点”),而因果影响是一条单向箭头。
两个变量(例如 和 )之间的关联可能存在,前提是有一条连接它们的路径。但这些路径上有可以打开或关闭的“闸门”,控制着关联的流动。存在三种基本类型的闸门。
链(中介): 想象 是服用一种新药, 是药物在血液中的浓度, 是康复。药物的效果通过血液浓度流动。这条路径天然是开放的。如果你想阻断它——例如,为了看药物是否有其他效果——你可以对中介因子 进行“条件限制”。这意味着,你可以比较那些血液浓度 相同的人。对中介因子进行条件限制会关闭闸门。
分叉(混杂): 这是混杂 (confounding) 的经典结构。设 是喝咖啡, 是肺癌, 是吸烟。吸烟()导致人们喝更多咖啡(),同时也导致癌症()。这条通过共同原因 的“后门”路径也天然是开放的,从而在咖啡和癌症之间制造了一种非因果的关联。要得到咖啡的真实效应,你必须通过对混杂因子 进行条件限制来关闭这个闸门——例如,通过在吸烟者与吸烟者之间、非吸烟者与非吸烟者之间进行比较。
对撞(倒置分叉): 这让我们回到了我们的悖论。设 是表演才华, 是美貌, 是“被选中成为明星”。这个闸门很特殊。它默认是关闭的。在普通人群中,才华和美貌是独立的;它们之间没有开放的路径。箭头在 处相撞,这次碰撞阻断了关联的流动。
这就是核心规则,也是让对撞偏倚如此反直觉的关键转折:对对撞因子进行条件限制会打开闸门。
当我们决定只观察著名演员()时,我们正在撬开那个原本关闭的闸门。在这个被选中的群体内部,才华和美貌不再独立。如果我们遇到一位著名演员,知道他不是很才华横溢,我们就可以推断他可能非常英俊。为什么?因为他必须具备某种特质才能进入这个俱乐部。知道一个原因的状态,为我们提供了关于另一个原因的信息,但这仅仅是因为我们知道共同的结果已经发生。这通常被称为“解释消除”效应 (explaining away effect)。
这不仅仅是一个哲学上的好奇心;它具有真实、可衡量的后果。考虑一个鲜明的医学例子。一家医院想知道某种慢性药物,苯二氮䓬类药物的使用(),是否对在医院内发生谵妄()有因果效应。我们假设它没有真实效应。然而,存在一个未测量的因素,即患者的虚弱程度(),它会使谵妄更有可能发生。现在,想象一下,使用苯二氮䓬类药物(可能由于相关的呼吸问题)和高度虚弱都会使患者更有可能被送入重症监护室(ICU,)。因果图如下所示:。
在所有住院患者的总体中,通过这个结构,药物()和谵妄()之间的路径被对撞因子 阻断了。但是,如果研究人员为了研究一个“干净”的人群,决定将他们的分析限制在仅 ICU 患者中,会发生什么?他们刚刚对对撞因子 进行了条件限制。
在 ICU 内部,“解释消除”效应开始发挥作用。对于一名 ICU 患者来说,正在使用苯二氮䓬类药物()为他们为什么在这里提供了一个部分解释。这使得他们同时也是高度虚弱的可能性降低。因此,在 ICU 内部,苯二氮䓬类药物的使用与虚弱程度呈负相关。由于虚弱()是谵妄()的一个原因,药物()现在看起来对谵妄有保护作用。一种无害的药物突然看起来像一种有益的药物,这完全是由研究人员选择研究对象所造成的幻觉。
我们甚至可以用数字来证明这一点。想象一个简化的世界,其中基因 和一个未测量的因素 是某种状况 的独立原因。并假设 (而非 )导致疾病 。结构是 。在整个人群中,你的基因 状态并不能告诉你任何关于你患疾病 的风险信息。但是,如果我们进行数学计算,仅在那些患有状况 C 的人中计算携带基因 的人患 的风险,我们会发现风险是不同的。仅仅观察数据的一个切片,就创造了一个在整体中并不存在的关联。在线性模型中,我们甚至可以写出这个虚幻效应的精确公式,显示它如何依赖于因果箭头的强度。这种偏倚并非某种模糊的错误;它是系统结构可预测的数学后果。
这种“幽灵”关联困扰着许多研究领域,通常是因为对对撞因子进行条件限制的行为隐藏在研究设计本身之中。
谁能进入研究? 在一项基因研究中,也许携带某种基因()的人更有可能生活在污染区域(),而生活在污染区域的人更注重健康,因此更有可能自愿参加医学研究()。如果基因和环境都影响参与(),那么参与本身就是一个对撞因子。通过仅分析志愿者,研究人员可能会发现基因 和某种实际上由环境 引起的疾病 之间存在虚假的联系。
谁会住院? 在 COVID-19 的研究中,研究人员出于实际原因常常关注住院患者。但这意味着他们对住院()进行了条件限制。由于重症 COVID()和中风()都可能导致住院,因此 是一个对撞因子()。仅分析住院患者可能会扭曲对 COVID 严重程度和中风风险之间关系的认识。
谁会接受检测? 在研究流感疫苗()预防有症状流感()的有效性时,研究人员可能只拥有那些去诊所接受检测()的人的数据。但接受检测的决定是复杂的。“健康寻求倾向”高的人()可能更倾向于接种疫苗并且更倾向于接受检测。同时,实际出现流感症状()也会促使你接受检测。这在疫苗和结果之间的一条路径上创建了一个对撞结构()。将分析限制在接受检测的个体()中会引发对撞偏倚。
这揭示了一个关键的区别。调整混杂因子(共同原因)对于消除偏倚至关重要。但是调整对撞因子(共同效应)是因果推断的一个大忌——它会制造偏倚。
我们如何驱除这个幽灵?第一个也是最强大的工具是意识。通过绘制你对世界假设的 DAG,你可以直观地检查其中是否存在这些倒置分叉——这是潜在对撞因子的明显标志。你可以在掉入陷阱之前就看到它们。
首要的教训简单而深刻:不要对对撞因子进行条件限制。这意味着要对你的数据持强烈的批判态度。你的样本是真正具有代表性的,还是一个经过筛选的群体?你在分析中调整的变量,是否可能是你的暴露和与结果相关的其他因素的共同效应?
有时,情况甚至更复杂。想象一下,你无法调整一个关键的混杂因子 ,因为它未被测量。你可能会想调整某个你可以测量的其他变量 。但如果 是一个对撞因子(例如,),调整它是一个会使情况变得更糟的可怕错误。解决方案不是放弃。对因果图的全面理解可能会揭示出另一条通往答案的有效路径——例如,在所谓的“前门”分析中使用一个中介变量 。
对撞偏倚不仅仅是一个统计学上的假象。它是关于证据和推断本质的深刻原理。它教导我们,观察的背景并非中立;选择观察什么的行为本身,就可以从根本上改变我们所感知的关系。世界并非简单地呈现在我们面前;我们是通过我们的问题和数据收集方法的透镜来观察它。理解这个透镜如何扭曲图像,是走向看清事物真相之旅中的关键一步。
科学中存在着一种奇妙的统一性。同样的基本原理,同样深邃的模式,在最意想不到的地方反复出现——从行星的运动到微观粒子的抖动。对撞偏倚现象就是这样一种原理。乍一看,它似乎只是统计学教科书中的一个技术性脚注。但一旦你学会了识别它,你就会开始在各处看到它。它是一种统计魔术师的把戏,是我们的直觉常常忽略的一种障眼法,它能在不存在联系的地方制造联系,又能隐藏那些确实存在的联系。让我们踏上一段穿越不同科学领域的旅程,见证这个美丽而时而危险的理念如何发挥作用。
我们的旅程始于一个我们依据数据做出攸关生死决定的地方:医院。假设我们想知道两种情况,比如某种暴露 和一种疾病 是否相关。我们决定进行一项研究。寻找患者最方便的地方,当然是医院。于是,我们收集所有入院患者的数据,并寻找关联。
这时,魔术师登场了。假设在现实世界中, 和 完全独立。然而,我们再假设,有暴露 或有疾病 都会增加一个人住院的几率。也许它们都会引起需要入院的症状。我们称入院为 。因果故事很简单:。入院是暴露和疾病的共同效应——一个对撞因子。
通过将我们的研究仅限于住院患者,我们正在对这个对撞因子进行条件限制。当我们这样做时会发生什么?一个奇怪的联系凭空出现了。在医院的围墙内, 和 不再独立。可以这样想:“这个病人为什么在这里?”如果我们知道一个病人已经入院()但没有患病(),这就使得他更有可能具有暴露()来解释他的入院。这两个独立的原因突然变得负相关。这个著名的统计学幽灵被称为Berkson偏倚,它可能导致研究人员仅仅因为研究了一个不具代表性的、以医院为基础的样本,就发现虚假的保护效应或其他误导性关联。
这不仅仅是一个假设性的难题。这种结构在无数真实场景中出现。一项关于不稳定的住房与严重抑郁症之间联系的研究,如果只从精神科住院病人中抽样,就容易受到这种偏倚的影响。同样,许多现代研究依赖于庞大的电子健康记录(EHR)数据库。但谁拥有详尽的健康记录呢?是那些利用医疗系统的人。如果我们想研究一个健康计划()对健康结果()的影响,但该计划和潜在的发病()都使一个人更有可能去诊所就诊(),那么将我们的分析限制在那些有诊所就诊史的人()中,就创造了经典的对撞结构 。因为发病 也影响结果 ,我们可能被欺骗,发现健康计划和健康结果之间存在虚假的关联,而这一切仅仅因为我们只观察了那些去诊所的人。
同样的幽灵也困扰着药物安全研究,即药物流行病学。想象一下,我们想知道一种新药是否会导致有害的副作用。两个常见的陷阱在等着我们:
在所有这些案例中,逻辑都是相同的。医院、专科诊所、依从性好的患者群体——它们都是统计学的“哈哈镜”,现实的映像因选择行为而被扭曲。为了得到真实的画面,我们常常需要像逆概率加权这样的复杂方法来校正选择过程,重新构建医院门外的世界。
在人工智能时代,对撞偏倚的幽灵具有了新的、紧迫的现实意义。用于医疗保健的人工模型是在数据上训练的,而这些数据通常来自一个经过筛选的人群,就像我们的医院研究一样。
考虑一个旨在预测急诊室患者死亡风险的人工智能,以帮助决定谁应被送入ICU。如果模型仅在实际被送入ICU的患者数据上进行训练,那么它是在一个以“ICU入院”()为条件限制的世界中学习的。什么决定了ICU的入院?医生的判断,这基于观察到的临床严重性(),但也可能受到患者社会经济因素()的影响,也许是通过内隐偏见或沟通障碍。这就产生了结构 。
在训练数据(ICU)内部,社会经济因素 和临床严重性 变得虚假地关联起来。例如,如果一个病人在ICU()但临床严重性较低(),模型可能会推断他们一定具有某种导致他们入院的社会经济因素()。于是,算法可能会学到 是一个不良结果的风险因素,不是因为它在因果上是真实的,而是因为其训练数据中存在对撞偏倚。这就是一个算法,在没有任何恶意的情况下,如何学会延续甚至放大社会不平等,创造一个违反公正和不伤害伦理原则的“有偏倚的”模型。
这直接关系到健康差异的研究。假设我们想调查在癌症诊断分期上是否存在基于种族的差异。如果我们的数据主要来自住院患者,我们就是在对住院()进行条件限制。住院受到癌症分期(,更晚的分期导致入院)和共病()的影响,而共病本身可能与种族()相关。这就产生了一条对撞路径 。通过只观察住院患者,我们打开了这条非因果路径,并可能在种族和癌症分期之间制造一种虚假的关联,而这种关联并不反映总人口中的现实。这个机制显示了看似客观的数据分析,如果对其自身的选择过程视而不见,如何可能无意中为不存在的差异创造证据,或扭曲那些确实存在的差异的严重程度。
一个深刻原理的真正美在于其普遍性。对撞偏倚不仅仅是医学或人工智能伦理学的问题;它是逻辑和观察的一个普遍特征。
让我们看看癌症筛查项目的评估。一个众所周知的悖论是,通过筛查发现癌症的人似乎比那些因为症状而发现癌症的人有显著更好的存活率。这给人留下了筛查能拯救生命的强烈印象。部分原因是前置时间偏倚(更早发现使生存期看起来更长),但另一大部分是伪装的对撞偏倚。在这里,对撞因子是“被诊断”()。被诊断的概率受到你是否接受筛查()以及你肿瘤的生物学特性()的影响。生长缓慢、侵袭性较低的肿瘤有更长的临床前阶段,使得它们更有可能被筛查测试发现。生长迅速、侵袭性强的肿瘤更有可能引起症状并在临床上被诊断。结构是 。
当我们仅在被诊断的患者中比较生存率时,我们对对撞因子 进行了条件限制。这在筛查状态和肿瘤类型之间引发了强烈的关联。筛查诊断的患者群体中,生长缓慢、本身致命性较低的癌症比例大大增加。而症状诊断的患者群体中,侵袭性强的癌症比例增加。所以,筛查组当然看起来表现更好!我们不是在比较同类事物。我们是在比较一个因患有“好”病而被选中的群体与一个因患有“坏”病而被选中的群体。将此理解为对撞偏倚是设计正确的筛查研究的关键,这些研究必须考察被邀请参加筛查的全部人群的死亡率,而不仅仅是那些被诊断的人。
这个原则在心理学中也有回响。想象一下,研究感知的社会支持()——即朋友会提供帮助的普遍信念——是否能减少生理应激反应()。然而,实际获得支持()是感知到支持可用()和实际遇到应激事件()的共同结果。如果一项分析调整了或选择了实际获得的支持量(),它就在路径 上对一个对撞因子进行了条件限制。这可能会在感知的支持和应激反应之间制造一种虚假的联系,从而混淆了我们试图回答的根本问题。
最后,这个原则以其最抽象或许也最普遍的形式出现在任何随时间跟踪受试者的研究中。不可避免地,有些人会中途退出。这被称为“失访”或“删失”。如果我们只分析完成了研究的人,我们就是在对“留在研究中”()进行条件限制。但什么导致某人留在研究中呢?这可能与他们的暴露()、他们的健康结果()以及其他因素()有关。当这种情况发生时,留在研究中就是一个对撞因子,对其进行条件限制会引发一种顽固的偏倚,困扰着无数的纵向研究。即使是像中介分析这样的高级统计方法,如果中介-结果关系存在未测量的混杂,这个微妙的陷阱也可能出现,因为此时对中介因子进行条件限制的行为就像对一个对撞因子进行条件限制。
从医院到算法,从癌症筛查到社会心理学,同样的模式浮现出来。大自然不介意和我们玩把戏,而对撞偏倚是她的最爱之一。这是一个关于观察行为的警示故事。它教导我们,我们如何看待世界,可以改变我们所看到的世界。一项分析不仅仅是一组数字;它是向现实的一个特定样本提出的问题。如果这个样本的选择方式依赖于我们正在研究的事物本身,我们就冒着被愚弄的风险。理解这个原则不仅仅是一项技术技能;它是科学智慧的关键要素,是看清数据背后隐藏结构的强大透镜,也是不被愚弄的艺术中必不可少的工具。