try ai
科普
编辑
分享
反馈
  • 对撞偏倚

对撞偏倚

SciencePedia玻尔百科
核心要点
  • 对作为两个独立原因的共同效应的对撞变量进行条件控制,会在这些原因之间产生一种虚假的关联。
  • 与混杂偏倚中统计调整能消除偏倚不同,对对撞变量进行调整会主动引入偏倚。
  • 对撞偏倚通常源于看似合理的研究实践,例如选择特定的研究群体(如住院患者)或控制处理后变量。
  • 这种偏倚是一个普遍存在的问题,可能会扭曲包括遗传学、流行病学、临床试验和社会科学在内的多个领域的研究结果。

引言

在科学追求真理的过程中,“相关不蕴含因果”这句话如同一条不变的指导原则。研究人员早已熟练于寻找混杂因素——那些隐藏的共同原因,它们在两个变量之间制造出虚假的联系,就像炎热天气既增加了冰淇淋销量,也增加了溺水事件。对这些混杂因素进行调整是严谨分析的基石。但如果存在一种更微妙、更反直觉的偏倚形式,其运作方式恰恰相反呢?如果控制某个变量反而能够创造出一种本不存在的虚假关联,那会怎样?这就是对撞偏倚这个令人困惑的问题,一个连最谨慎的研究者都可能陷入的无形陷阱。

本文将深入探讨因果推断中这个引人入胜又充满风险的方面。“原理与机制”一节将使用有向无环图(DAGs)来揭开对撞变量概念的神秘面纱,阐明对共同效应进行条件控制如何产生偏倚。随后,“应用与跨学科联系”一节将探讨对撞偏倚的普遍影响,揭示它如何扭曲从流行病学、遗传学到心理学和人工智能等领域的研究结果。

原理与机制

原因与相关的舞蹈

在探求理解世界的过程中,我们不断地筛选各种模式,试图将因果与巧合区分开来。我们几乎像念咒一样知道,相关不蕴含因果。如果我们观察到冰淇淋销量与溺水事件相关,我们不会草率地得出结论说一个是另一个的原因。我们会本能地寻找第三个因素——一个​​混杂因素​​——比如炎热的夏日,它独立地推动了冰淇淋消费和游泳活动。

为了更清晰地思考这些难题,科学家们发展出一种优美的语言:​​有向无环图​​,即 DAGs。这些是简单的因果关系图。我们将“冰淇淋销量”(AAA)或“溺水”(YYY)等变量表示为节点,将因果影响表示为箭头。我们夏日的例子会是这样:A←C→YA \leftarrow C \to YA←C→Y,其中 CCC 是混杂变量“炎热天气”。路径 A←C→YA \leftarrow C \to YA←C→Y 是一条“后门”路径,它在 AAA 和 YYY 之间制造了一种虚假的、非因果的关联。为了找到真正的因果关系,我们的任务是阻断这条后门。在这种情况下,很简单:我们可以对天气 CCC 进行“条件控制”,比如考察在相同温度下,冰淇淋销量和溺水之间的相关性。调整混杂因素是流行病学和统计学的基本功;这是我们试图关闭这些讨厌的后门的标准方法。

但大自然还留有一手更微妙、更迷人的把戏。如果我们告诉你,有一种变量的行为方式与此完全相反呢?有一种变量,如果你不去管它,它会阻断一条虚假关联,但如果你试图“控制”它,你反而会打开偏倚的闸门。这就是对撞变量的奇特而优美的世界。

反直觉的罪魁祸首

想象一个世界,在所有人中,艺术才华和外貌吸引力是完全独立的特质。知道某人的才华并不能告诉你关于他们外貌的任何信息,反之亦然。现在,让我们考虑一个非常特殊的子群体:知名人士。要成为名人,要么非常有吸引力,要么非常有才华,或者两者兼备,这样会有帮助。名声是吸引力和才华的​​共同效应​​。

如果我们只看这个名人子群体中的人,会发生什么?假设我们遇到一位名人,我们必须承认,他并非特别有才华。我们能从他的外貌推断出什么呢?既然没有卓越的才华却能成名,他必定非常有吸引力。反之,如果我们遇到一位相貌平平的著名演员,我们可能会推断他一定是一位非凡的艺术家。

看看刚刚发生了什么。在“名人”这个被选定的群体中,吸引力和才华变得负相关。知道其中一个,就能为你提供关于另一个的信息。通过对共同效应——名声——进行条件控制,我们在两个先前独立的特质之间创造了一种虚假的关联。

在 DAGs 的语言中,这种结构被称为​​对撞变量​​(collider)。如果我们有吸引力(AAA)和才华(TTT)都导致名声(FFF),图就是 A→F←TA \to F \leftarrow TA→F←T。变量 FFF 是一个对撞变量,因为有两个箭头在它那里“相撞”。AAA 和 TTT 之间的路径天然被这个对撞变量所阻断。但一旦我们以 FFF 为条件(通过只观察名人),我们就打开了这条路径,创造出一种关联。这是对撞偏倚的基本规则:​​对共同效应(一个对撞变量)进行条件控制,会诱导出其原因之间的关联​​。这与混杂因素的情况完全相反,后者中条件控制消除了关联。

眼见为实:一个数字幽灵

这种效应不仅仅是哲学上的怪癖,它在数学上是确定无疑的。让我们想象一个由线性方程支配的简单假设世界,一个思想实验的游乐场。假设我们有一个暴露变量 XXX 和一个结果变量 YYY,它们在更广泛的人群中是真正相互独立的。XXX 对 YYY 的真实因果效应为零。然而,XXX 和 YYY 都是第三个变量,即对撞变量 CCC 的原因。我们可以写成:

C=aX+bY+noiseC = a X + b Y + \text{noise}C=aX+bY+noise

在这里,参数 aaa 和 bbb 代表 XXX 和 YYY 对 CCC 影响的强度。由于 XXX 和 YYY 是独立的,如果我们简单地在整个人群中测量它们的相关性,我们会发现它为零,正确地反映了不存在因果联系。

但现在,假设我们犯了一个错误。我们认为为了得到一个“更干净”的估计,我们应该对 CCC 进行调整。我们运行一个多元回归分析,试图在控制 CCC 的同时,用 XXX 来预测 YYY。我们的分析会告诉我们 XXX 对 YYY 的效应是什么?它将不会是零。线性回归的数学原理表明,我们估计出的 XXX 的系数,我们可以称之为 βX\beta_XβX​,将会是:

βX=−abb2+σ2\beta_X = - \frac{ab}{b^2 + \sigma^2}βX​=−b2+σ2ab​

其中 σ2\sigma^2σ2 与影响 CCC 的其他随机噪声量有关。

这个公式极具洞察力。它告诉我们,我们的估计值 βX\beta_XβX​ 不是零,而是一个特定的非零值。它是一个数字幽灵,一个完全由我们决定以对撞变量 CCC 为条件而创造出来的假象。只有当 a=0a=0a=0 或 b=0b=0b=0 时——也就是说,如果通往对撞变量的其中一条路径不存在——这种偏倚才会消失。XXX 和 YYY 对 CCC 的影响越强(aaa 和 bbb 越大),我们制造的偏倚就越大。

无形的陷阱:作为条件控制的选择

关于对撞偏倚,最阴险的一点是,我们常常在没有明确“调整”任何东西的情况下就制造了它。选择研究参与者的行为本身就可能是一种条件控制。这被称为​​选择偏倚​​,是观测科学中最顽固的问题之一。

考虑一项专门在住院患者中进行的研究。假设我们想知道某种暴露 EEE(可能是一种生活方式选择)是否会导致某种疾病 YYY。暴露 EEE 可能会增加住院的几率,这是合理的。同时,患有与疾病 YYY 相关的各种健康问题肯定会增加住院的几率。所以,住院(SSS)是 EEE 和与 YYY 相关的因素的共同效应。其结构是 E→S←YE \to S \leftarrow YE→S←Y。通过将我们的研究限制在住院患者中,我们就是以对撞变量 S=1S=1S=1 为条件进行了控制。我们已经掉进了这个无形的陷阱,可能在 EEE 和 YYY 之间制造出一种虚假的联系,这种联系只存在于我们选择的医院样本中,而不存在于普通人群中。

这个问题无处不在。在一个全基因组关联研究(GWAS)中,参与研究可能受到一个人基因(GGG)的影响,也可能受到其环境或社会经济地位(EEE)的影响,而后者本身又影响健康结果(YYY)。通过只分析自愿参与研究的人(S=1S=1S=1),我们就有可能通过路径 G→S←E→YG \to S \leftarrow E \to YG→S←E→Y 在基因和疾病之间制造虚假的关联。即使是孟德尔随机化这种利用基因作为自然实验的巧妙方法,如果研究队列的选择同时受到暴露路径和结果的其他风险因素的影响,也可能被欺骗。

小心“厨房水槽式”回归

研究人员中一个常见但危险的直觉是“如有疑问,调整所有变量”。对撞变量的存在表明了为什么这种“厨房水槽式”方法可能是灾难性的。考虑一种稍微复杂但非常现实的因果结构,称为​​M偏倚​​。假设一个未测量的因素 U1U_1U1​ 影响我们的暴露 AAA,而另一个不同的未测量因素 U2U_2U2​ 影响我们的结果 YYY。在人群中,AAA 和 YYY 没有混杂。现在,想象一个测量的变量 MMM,它由 U1U_1U1​ 和 U2U_2U2​ 共同导致(A←U1→M←U2→YA \leftarrow U_1 \to M \leftarrow U_2 \to YA←U1​→M←U2​→Y)。

变量 MMM 不是一个混杂因素;它不是 AAA 和 YYY 的共同原因。事实上,如果不去管它,它不会造成任何危害。通过 MMM 连接 AAA 和 YYY 的路径在 MMM 处被对撞变量所阻断。但是,如果一个研究者认为调整暴露前变量总是安全的,并决定“控制”MMM,他们就会打开这条路径,并在 AAA 和 YYY 之间诱导出一种虚假的关联。更糟糕的是,当数据稀疏时,这种偏倚可能被放大。如果某些变量的组合很少见,统计模型可能会变得不稳定,给予少数异常数据点过多的影响,从而加剧了潜在的结构性偏倚。因果推理,而非统计相关性,必须成为我们的指南。

用错地方的工具

或许关于对撞偏倚最关键的一课是,它在结构上与混杂不同。我们用于处理一种问题的工具可能对另一种毫无用处。一个评估研究发现稳健性的流行方法是​​E值​​。它提问:“如果我观察到的关联是由一个未测量的混杂因素造成的,那么这个混杂因素需要多强?”

让我们想象一个场景,由于选择过程,我们观察到一个强烈的、虚假的风险比 RRobs=9.0RR^{obs} = 9.0RRobs=9.0,而真实的因果风险比是 1.01.01.0。这整个关联都是对撞偏倚的产物。如果我们天真地将 E 值公式应用于我们的结果,我们可能会计算出一个非常大的 E 值,也许在 17.517.517.5 左右。一个研究者看到这个可能会得出结论:“未测量的混杂因素极不可能解释这么强的关联!”他们对于混杂的判断是正确的,但完全错过了重点。这个关联根本不是由混杂引起的。它是由对撞偏倚创造出的一个幽灵,而 E 值这个为寻找混杂因素而设计的工具,对它完全是盲目的。

理解对撞偏倚就像学习了一条宇宙的秘密法则。它揭示了因果逻辑中一种美丽而时而危险的对称性。它教导我们,在追寻真理的过程中,我们关于观察什么以及忽略什么的决定,其力量不亚于任何物理干预。它提醒我们,眼见不一定为实,通往知识的道路不仅需要数据,还需要对现实结构本身深刻而谦逊的领悟。

应用与跨学科联系

现在我们已经了解了对撞变量的奇特逻辑,你可能会想把这当作一个有趣的统计学奇闻,一个给数学爱好者的脑筋急转弯,然后束之高阁。但这样做将是一个巨大的错误。对撞偏倚并非统计学的某个深奥角落;它是一个萦绕在几乎所有人类探究领域数据中的幽灵。它是数据向我们撒谎的最微妙、最普遍的方式之一,而且它常常利用我们最好的意图——我们渴望严谨、渴望同类比较、或渴望专注于一个问题最“有趣”或最易于处理的部分。

让我们踏上一段旅程,看看这个幽灵出现在哪里。我们会在随机试验的纯净环境中、在医院繁忙的数据流中、隐藏在我们自己的遗传密码中,甚至在塑造我们对社会和心智的理解中找到它。

医院与选择的幻觉

也许对撞偏倚最经典、最直观的出现场景发生在我们选择研究对象时。想象一下,你是一名研究疾病原因的研究员。你去哪里找病人?当然是医院。这似乎是一个完全合理的决定。但做出这个决定时,你可能已在不知不觉中走入了一个因果陷阱。

考虑一种恶性呼吸道病毒的爆发。公共卫生官员为了争分夺秒,决定研究住院的患者。他们想知道一个暴露前预防项目是否有帮助。在他们的住院患者数据集中,他们发现了一个惊人的关联:接受了预防措施的人似乎比没有接受的人患上严重疾病的几率要低。这听起来像个好消息!

但让我们思考一下。谁最终会住院?通常是病情非常严重的人,但也可能是那些非常谨慎的人,或者那些能更好地获得医疗服务的人,而这可能与他们是否参与预防项目有关。以最简单的形式来说,假设住院(HHH)的可能性在你有严重疾病(SSS)或你接受了预防措施(EEE)时会增加,也许是因为该项目鼓励体检。因果图看起来像 E→H←SE \to H \leftarrow SE→H←S。

你现在看到了,不是吗?住院是一个对撞变量。在普通人群中,预防措施和疾病严重程度可能完全独立。但是,通过只观察那些走进医院大门的人——即以对撞变量 H=1H=1H=1 为条件——我们就在它们之间创造了一种虚假的、非因果的关联。在医院的围墙内,如果你发现一个非重症患者,你可能会推断他更有可能是接受了预防措施的人(因此更有可能因其他原因来医院)。这造成了一种预防措施具有保护作用的幻觉,而实际上,这种效应是你选择观察对象的产物。

同样的幻觉可能对社会正义产生深远影响。想象一下研究人员使用住院患者登记数据来研究癌症结果中的种族差异。他们可能会发现种族(RRR)和诊断分期(SSS)之间存在奇怪的关联,而这种关联在普通人群中并不存在。为什么?因为你的癌症分期(SSS)和与种族相关的其他因素,如存在其他合并症(CCC),都可能影响住院的概率(HHH)。其结构是 R→C→H←SR \to C \to H \leftarrow SR→C→H←S。通过只研究住院患者,我们以一个对撞变量为条件,从而可能创造或扭曲了我们希望理解的那些差异。

在“大数据”和人工智能时代,这个问题变得更加关键。假设我们构建一个AI模型来预测ICU患者的死亡风险,但我们只用已经入住ICU的患者数据来训练它。ICU入院(AAA)是一个对撞变量,受未测量的临床严重程度(UUU)和社会经济因素(ZZZ)(可能影响求医行为)的影响。其结构是 Z→A←UZ \to A \leftarrow UZ→A←U。通过在这个被选择的群体上训练模型,算法可能学会社会经济因素与未测量严重程度之间的虚假负相关。它可能学会,在已入院的患者中,来自弱势社区的人似乎病得更轻。这是一个危险的谬误,可能导致一个有偏见的算法低估他们的风险,从而创造一个加剧健康不平等的反馈循环。

研究者的盲点:当良好实践适得其反

对撞偏倚尤其狡猾,因为它常常源于我们为使研究更好而采取的行动。我们控制变量,我们清洗数据,我们寻找替代指标。这些都是严谨科学的标志。然而,没有因果图的指引,这些行为本身就可能让我们误入歧途。

考虑医学证据的黄金标准:随机对照试验(RCT)。通过随机分配一种治疗(AAA),我们确保没有后门路径混杂其对结果(YYY)的影响。但随机化之后会发生什么?患者可能对治疗的依从程度不同,而这种依从性(MMM)可能不仅受治疗分配本身(例如,副作用)的影响,还受患者潜在的虚弱程度(UUU)的影响,后者也影响结果。其结构是 A→M←U→YA \to M \leftarrow U \to YA→M←U→Y。一个分析师想知道治疗在“完全依从者”中的效果,可能会试图根据依从性来调整他们的分析。这是一个灾难性的错误。他们正在以一个对撞变量 MMM 为条件,这样做,他们打开了一条介于随机化治疗 AAA 和结果 YYY 之间的虚假路径,摧毁了随机化旨在创造的无偏性。这个教训是深刻的:调整一个基线变量(随机化前测量)是好的做法,可以提高精度,但调整一个随机化后的变量则充满了危险。

这个陷阱不仅限于临床试验。研究脑电图(EEG)脑连接性的神经科学家经常丢弃带有大量噪声的数据段——这似乎是一种无可挑剔的质量控制实践。但如果质量分数(QQQ)是两个不同通道 A1A_1A1​ 和 A2A_2A2​ 中伪影的反映,而这些伪影又反过来影响这些通道中的信号 C1C_1C1​ 和 C2C_2C2​ 呢?其结构是 C1←A1→Q←A2→C2C_1 \leftarrow A_1 \to Q \leftarrow A_2 \to C_2C1​←A1​→Q←A2​→C2​。通过只选择“干净”的数据(以 QQQ 为条件),研究人员正在以一个对撞变量为条件。这可能在两个通道之间制造出虚假的关联,导致他们得出结论说存在神经连接,而实际上并不存在。他们试图清洗数据的努力,实际上污染了他们的结论。

类似的陷阱等待着寻找替代终点的药理学家。一种新药(TTT)正在测试中,它既影响临床结果(YYY),也影响一个方便的生物标志物(BBB)。希望是在未来的试验中,这个生物标志物可以代替结果。为了测试这一点,分析师“调整”了生物标志物,以观察它“解释”了多少治疗效果。但假设存在一个未测量的因素,如疾病严重程度(UUU),它是生物标志物和结果的共同原因。现在,生物标志物 BBB 是路径 T→B←UT \to B \leftarrow UT→B←U 上的一个对撞变量。调整 BBB 会打开路径 T→B←U→YT \to B \leftarrow U \to YT→B←U→Y,制造虚假的关联。这可能使生物标志物看起来像一个极好的替代品,“解释”了治疗效果的很大一部分,而实际上它对结果根本没有因果效应。它是一个统计上的幻影,一个通过以对撞变量为条件而创造出的幻觉。

解开基因、心智和社会中的复杂性

对撞偏倚的触角延伸到我们研究的最复杂的系统中,从基因组到人类心智。在这些领域,变量纠缠在错综复杂的因果网络中,对对撞变量的敏锐洞察力是必不可少的。

在遗传学世界里,科学家进行全基因组关联研究(GWAS)以寻找遗传变异(XXX)与疾病(YYY)之间的联系。一个主要挑战是群体分层:不同的祖先群体(AAA)可能因为与两者之间的因果联系无关的原因而具有不同的变异和疾病频率。这造成了混杂(X←A→YX \leftarrow A \to YX←A→Y)。标准的解决方法是调整主成分(PCs),它们是捕捉祖源信息的基因组统计摘要。但这里的微妙之处在于:主成分(PPP)是根据整个基因组计算的,其中包括我们正在测试的那个变异(XXX)。所以,变异 XXX 影响了主成分,祖源 AAA 也影响了主成分。这使得 PC 成为一个对撞变量:X→P←AX \to P \leftarrow AX→P←A。当我们为了解决混杂问题而调整 PC 时,我们无意中制造了一个新问题:对撞偏倚,打开了路径 X→P←A→YX \to P \leftarrow A \to YX→P←A→Y。幸运的是,研究人员开发了一个巧妙的解决方案:“留一染色体排除法”(LOCO),即在计算 PC 时排除待测变异所在的染色体。这打破了 X→PX \to PX→P 的联系,化解了对撞变量,同时仍然允许 PC 控制祖源。这是一个绝佳的例子,说明了深刻的因果思维如何带来更好的统计工具。

这种对撞变量的“解释消除”逻辑同样可以扭曲我们对基因-环境相互作用的理解。假设我们想研究糖尿病的遗传风险评分(GGG)与致肥胖环境(EEE)之间的关系。如果我们从一个糖尿病诊所招募研究参与者,我们就是在选择患有该病的人。但糖尿病是由遗传和环境因素共同引起的。通过只选择患病的人,我们就是以一个对撞变量为条件。在这个被选择的群体中,一个遗传风险低的人必须有非常高的环境暴露才会患病,反之亦然。这可能在基因和环境之间制造出一种虚假的负相关,而这种相关在普通人群中并不存在。

最后,考虑一下社会科学的微妙之处。一位心理学家想知道感知到的社会支持(PSPSPS)——即相信有帮助可得——是否能缓冲生理应激反应(CCC)。但他们也测量了某人实际接收到的支持(RSRSRS)。想要“控制”接收到的支持似乎很自然。但想一想:要接收到支持,通常需要遇到一个应激源(SESESE)并且拥有一个他们相信会提供帮助的社交网络(PSPSPS)。这使得接收到的支持(RSRSRS)成为一个经典的对撞变量:PS→RS←SEPS \to RS \leftarrow SEPS→RS←SE。如果我们以 RSRSRS 为条件,我们就在感知到的支持和应激暴露之间制造了虚假的联系。这会严重扭曲我们对感知到的支持实际如何影响应激反应的估计,后者的直接路径是 PS→CPS \to CPS→C。我们认为可以澄清情况的东西,反而模糊了我们的视野。

洞察全局的艺术

从医院病房到人类基因组,对撞偏倚如影随形。它教给我们一个谦逊而深刻的教训:我们看到的数据往往是现实中一个不具代表性的切片。选择、过滤或控制的行为——即从事科学研究的过程本身——就能创造出不真实的模式。补救措施不是停止做科学,而是睁大眼睛去做。我们必须不断追问:产生这些数据的过程是什么?是什么力量将我的样本引导到这个电子表格中?通过绘制因果图,通过思考“什么导致什么”,我们可以学会发现对撞变量的蛛丝马迹。我们可以学会看到全局,而不仅仅是那个诱人的、且常常具有误导性的、为我们视野所选择的部分。