try ai
科普
编辑
分享
反馈
  • 未测量的混杂

未测量的混杂

SciencePedia玻尔百科
关键要点
  • 当一个未被观测的变量同时影响暴露和结局时,就会出现未测量的混杂,从而产生一种标准调整无法修正的有偏倚的关联。
  • 在一项研究中,完美平衡各组间的已观测特征,并不能保证未观测因素的平衡,这一概念被称为“平衡的错觉”。
  • 敏感性分析,如E值,提供了一种量化工具,用以评估一个未测量的混杂因素需要多强才能使观测到的效应归于无效。
  • 诸如阴性对照、工具变量和前门准则等高级方法,是用于检测或在强假设下克服混杂的巧妙策略。
  • 与未测量混杂的斗争凸显了随机误差(任意不确定性)和知识缺乏(认知不确定性)之间的区别,强调了更多的数据无法修复一个有偏倚的研究设计。

引言

许多科学研究的最终目标是超越纯粹的相关性,识别出真正的因果关系。在理想世界中,我们可以通过完美控制的实验来实现这一目标,确保各组之间唯一的区别就是我们正在研究的干预措施。然而,在许多领域,特别是在公共卫生、医学和社会科学中,研究人员必须处理观测数据,像侦探一样从充满复杂性的世界中拼凑出因果关系。这项工作中的最大挑战是混杂问题,即第三个变量在我们感兴趣的暴露和结局之间制造出一种误导性的关联。

本文探讨了这一挑战中一个尤其棘手的问题:未测量的混杂。当混杂变量是我们未能测量,或者甚至不知道其存在时,会发生什么?这个“机器中的幽灵”可能导致有偏倚的结果和不正确的结论,无论我们的数据集有多大。本文将直面此问题。首先,在“原理与机制”部分,我们将探讨未测量混杂的统计学基础,解释为什么标准调整是不够的,以及为量化和对抗这种偏倚而发展出的方法背后的巧妙逻辑。然后,在“应用与跨学科联系”部分,我们将看到这些方法的实际应用,展示不同学科的研究人员如何利用它们来加强其因果主张,并在不确定性面前推动科学知识的进步。

原理与机制

在完美的世界里,科学家就像剧作家,控制着舞台上的每一个变量。要看一种新肥料是否能让植物长得更高,我们可以取两颗相同的种子,将它们种在相同的土壤里,给予完全相同的水和阳光,只改变肥料这一项。这就是​​随机对照试验​​的美妙之处:通过随机分配处理,我们确保平均而言,两组在除了我们正在研究的那一件事之外的所有方面都是相同的。我们看到的任何差异都可以自信地归因于我们的干预。

但我们并不总是有这种奢侈。我们常常必须像侦探一样,到达世界本来的样子,试图从观测数据中拼凑出因果关系。在这里,我们面临一个挥之不去的幽灵:​​混杂因素​​。混杂因素是一个隐藏的变量,一个第三方,它既影响我们所谓的“因”(暴露),也影响我们所谓的“果”(结局),从而制造出虚假的关联或掩盖了真实的关联。想象一下,我们观察到携带打火机的人更容易患上肺癌。不是打火机导致癌症;而是第三个因素——吸烟,导致人们既携带打火机又患上癌症。吸烟就是混杂因素。

在我们的研究中,我们努力测量并调整所有我们能想到的混杂因素——年龄、性别、已有的健康状况。但如果我们漏掉了一个呢?或者如果我们的测量不完美呢?这时,我们就遇到了​​未测量的混杂​​问题。

机器中的幽灵

调整混杂因素的目标是达到一种​​条件可交换性​​的状态。这是一个比较专业的说法,意思是,在任何一组在我们的已测协变量上相似的个体中(例如,60岁的非吸烟男性),碰巧接受暴露的组和没有接受暴露的组,在所有意图和目的上都是可以互换的。如果我们能交换他们,他们的结局不会系统性地改变。

当我们的调整不完整时,这种可交换性就被打破了,我们就会面临​​残余混杂​​。这是一种系统性误差,一种偏倚,无论我们的数据集变得多大,它都依然存在。它通常以两种方式产生。首先,我们对一个已知混杂因素的测量可能有缺陷。例如,调整自我报告的吸烟状况,与调整真实的吸烟状况是不同的,因为有些人可能会误报他们的习惯。这就像试图用一个模糊的镜头来对焦相机;你无法完全消除失真。其次,也是更令人烦恼的,可能存在我们根本没有测量的混杂因素——也许是由于成本、可行性,或者仅仅是缺乏远见。在一项关于空气污染和心脏病的研究中,像一个人的饮食或接触绿色空间的机会这样的因素,可能就是未测量的混杂因素,它们既影响一个人居住的地方(从而影响其污染暴露),也影响其心血管健康。这些未测量的因素就是我们统计机器中的幽灵。

虚假的平静:“平衡”数据的错觉

在观测研究中,一个常见的做法是检查“协变量平衡”。在调整我们的数据之后,我们创建表格,显示已测量的特征(年龄、性别等)现在在处理组和未处理组之间达到了完美的平衡。看到这种平衡,人们很容易松一口气,以为我们已经成功地模拟了一项随机实验。

这种宽慰往往是一种错觉。

在已观测变量上的完美平衡,完全不能告诉你任何关于未观测变量平衡的信息。让我们构建一个简单的、虚构的世界来看看为什么这一点如此具有毁灭性。假设我们正在研究一种处理,其真实的因果效应恰好是111。也就是说,该处理使结局增加一个单位,不多也不少。然而,存在一个未测量的混杂因素,我们称之为UUU,它使人们更有可能接受该处理,并且也独立地增加了他们的结局分数。

一位分析师,对UUU一无所知,细致地收集了关于一个已观测协变量XXX的数据。使用复杂的统计方法,他们在处理组和对照组之间实现了XXX的完美平衡。XXX在两组中的分布是完全相同的。所有标准的诊断性检查都会顺利通过。这位分析师会得到什么结果呢?在这个特定的、构建的世界中,他们会计算出处理效应为4934\frac{49}{34}3449​,约等于1.441.441.44。他们的估计值向上偏倚了44%44\%44%,这是一个显著的误差。已观测数据上的完美平衡提供了一种虚假的安全感,完全掩盖了潜伏在表面之下的未测量混杂因素所带来的偏倚。

这引导我们进入统计学中一个深刻而令人不安的概念:​​可识别性​​。如果一个参数原则上可以从无限多的数据中确定其真实值,那么它就是可识别的。我们在数据中观察到的关联性差异是可识别的——随着样本量的增加,我们可以越来越精确地测量它。但因果效应不是。正如我们所见,可以构建多个不同的“真实”潜在现实,每个现实都有不同的因果效应,但它们都产生完全相同的可观测数据。如果不做出超越数据本身的进一步假设,我们就无法区分这些可能性。仅凭数据本身无法完全确定因果真相。

与阴影搏斗

如果未测量的混杂是一个看不见的幽灵,我们怎么可能与它斗争呢?我们看不见它,测不到它,它还能骗过我们标准的诊断工具。虽然我们可能永远无法完全驱逐这个幽灵,但我们已经发展出非常巧妙的方法来应对它的影响。

量化疑虑:敏感性分析

第一步是从模糊的担忧转向定量的评估。这就是​​敏感性分析​​的目标。指导性问题是:“假设存在一个混杂因素,它需要多强才能改变我的结论?”

一种形式化的方法是​​定量偏倚分析(Quantitative Bias Analysis, QBA)​​。我们可以想象,我们观察到的关联,例如一个风险比(RRobsRR_{\text{obs}}RRobs​),并不是真实的因果效应(RRtrueRR_{\text{true}}RRtrue​),而是真实效应与一个偏倚因子(BFBFBF)的乘积:

RRobs=RRtrue×BFRR_{\text{obs}} = RR_{\text{true}} \times BFRRobs​=RRtrue​×BF

这个偏倚因子取决于未测量混杂因素的属性:它与结局的关联(RRUYRR_{UY}RRUY​)以及它在暴露组(p1p_1p1​)和非暴露组(p0p_0p0​)之间的患病率差异。虽然我们不知道这些值,但我们可以代入一些合理的数字,看看偏倚因子可能有多大。例如,如果我们观察到的风险比为1.81.81.8,但怀疑一个混杂因素使结局风险加倍(RRUY=2.5RR_{UY} = 2.5RRUY​=2.5),并且在暴露组中常见一倍(例如,p1=0.4p_1=0.4p1​=0.4 vs p0=0.2p_0=0.2p0​=0.2),那么偏倚因子将约为1.231.231.23。校正后的,或真实的,风险比则为1.81.23≈1.46\frac{1.8}{1.23} \approx 1.461.231.8​≈1.46。效应仍然存在,但显著减小了。

这类分析可能很复杂,但有一个非常简单的汇总指标叫做​​E值​​。E值回答了一个简单的问题:“一个未测量的混杂因素,需要与暴露和结局都存在多强(以风险比为尺度)的关联,才能完全解释掉观测到的效应?”

例如,如果一项研究发现一种新药降低了中风的风险,观测到的风险比为0.700.700.70,计算出的E值为2.212.212.21。这给了我们一个具体的陈述:“要将这一整个保护效应归因于一个未测量的混杂因素(比如‘基线虚弱程度’),那么这个混杂因素需要与服用新药和发生中风都存在至少为2.212.212.21的风险比关联,即便在我们已经调整了其他所有因素之后。”这是一个很高的门槛。如此量级的混杂因素将是一个强大的因子,我们可能会争辩说,这样一个强的混杂因素不太可能被遗漏。一个大的E值让我们更有信心我们的结果是稳健的;一个小的E值则告诉我们,我们的发现是脆弱的,很可能仅仅是由于中等程度的混杂造成的。

幼稚“修复”的危险:偏倚放大

如果我们找到了一个变量,它不是未测量的混杂因素本身,但可以作为它的一个不错的代理变量呢?例如,如果“虚弱程度”是我们未测量的混杂因素,也许像“过去一年看医生的次数”这样的变量可以作为代理。一种诱人但极其危险的冲动是简单地将这个代理变量加入我们的统计模型,希望“吸收”掉一些混杂。

在一个说明因果关系微妙之处的惊人转折中,这有时会使情况变得更糟。这种现象被称为​​偏倚放大​​。它发生在一种特定但常见的因果结构下。假设我们的代理变量受到我们正在研究的暴露和未测量的混杂因素的双重影响。例如,也许接受新疗法(AAA)会导致副作用,从而导致更多的医生就诊(ZZZ),而基线虚弱程度(UUU)也独立地导致更多的医生就诊。在这种情况下,代理变量ZZZ是一个​​对撞因子​​——一个有两支箭头指向它的变量(A→Z←UA \rightarrow Z \leftarrow UA→Z←U)。

当我们调整一个对撞因子时,我们会在它的原因之间制造出一种虚假的统计关联。这就像看到一个明星四分卫和一个明星物理学家都在和名人约会。如果你只看正在和名人约会的人群(即你“调整”了名人约会状态),运动才能和学术天赋可能会突然显得负相关,因为其中一个解释了“为什么”他们在你选择的群体中,从而使得另一个可能性降低。通过调整我们的代理变量ZZZ,我们可能无意中在处理AAA和未测量的混杂因素UUU之间创造了一个新的人为关联通道,从而加强了整体混杂,并增加了我们效应估计中的偏倚。在这种情况下,治疗比疾病更糟糕。

聪明的侦探:阴性对照的逻辑

一种更优雅的探测混杂的方法是使用​​阴性对照​​。其逻辑简单而优美,就像一个精心设计的实验。我们不试图去测量无法测量的东西,而是去检验一个我们有充分理由相信应该为零的关联。如果我们发现一个非零的关联,这就是一个“阳性”结果,表明存在混杂结构。

主要有两种类型:

  1. ​​阴性对照结局:​​我们选择一个暴露不可能导致的结局。例如,如果我们正在研究一种新的他汀类药物对心脏病发作的影响,我们可以测试它与意外伤害的关联。没有合理的生物学理由表明他汀类药物会影响伤害率。如果我们发现一个统计关联,它不可能是因果的。它必定是由于混杂——也许更健康、更谨慎的人更可能服用他汀类药物,也更不容易受伤。发现这种关联,让我们对心脏病发作的主要发现的有效性产生怀疑,因为同样的混杂机制很可能也在起作用。

  2. ​​阴性对照暴露:​​我们选择一个不可能导致我们感兴趣的结局的暴露,但它可能受到同样的混杂影响。例如,在研究抗抑郁药对骨折的影响时,人们可能会担心抑郁症患者的生活方式会独立增加骨折风险。作为阴性对照,可以研究抗焦虑药物(也用于治疗精神健康问题,但对骨骼没有已知影响)与骨折之间的关联。如果抗焦虑药物也似乎“导致”骨折,这表明这种关联并非药理学上的,而是由于患者潜在健康状况的混杂所致。

发现这些“不可能的”关联并不能修复偏倚,但它起到了一个至关重要的警报作用,警告我们机器中的幽灵是活跃的,我们应该以极大的谨慎来解释我们的主要结果。

揭开面纱:用于识别的高级策略

几十年来,未测量的混杂似乎是一个不可逾越的障碍。然而,近年来,因果推断的先驱们已经发展出非凡的方法,这些方法在非常具体和强有力的假设下,能够穿透混杂的面纱,识别出真正的因果效应。

其中一种方法是​​工具变量(IV)分析​​。其思想是找到一个变量——工具变量——它像一个自然的随机分配器。一个工具变量必须满足三个严格的条件:它必须是相关的(它影响暴露),它必须满足排他性限制(它只通过暴露影响结局),并且它必须独立于未测量的混杂因素。一个经典的例子是使用医生的处方偏好作为工具变量。一些医生更喜欢开新药,而另一些则坚持用旧药。这种偏好影响了病人得到哪种药物,但(人们可能认为)它与病人自身的健康状况无关,并且对他们的结局没有直接影响。通过使用这种“仿佛随机”的分配,我们可以分离出药物的因果效应,而不受患者层面混杂因素的污染。

另一个优美但更为奇特的方法是​​前门准则​​。这适用于当暴露对结局的影响完全通过一个单一、完美测量的变量进行中介的情况。在这种情况下,即使存在一个直接影响暴露和结局的未测量混杂因素,我们仍然可以通过分别分析旅程的两段来识别因果效应:暴露对中介变量的影响,以及中介变量对结局的影响。

这些方法不是万能药。它们的假设很强,且常常无法检验。但它们代表了逻辑和因果推理的胜利,表明只要有足够的创造力,我们有时甚至可以从世界给我们的凌乱、不完美的数据中学习到因果关系。

知识问题

最终,未测量混杂的挑战迫使我们更深入地思考不确定性本身的性质。在科学中,我们处理两种类型的不确定性。第一种是​​任意不确定性​​,即世界固有的随机性,就像掷骰子一样。这是统计方法旨在处理的不确定性。通过更大的样本量,我们可以减少这种不确定性并获得更精确的估计;我们的置信区间会变窄。

第二种是​​认知不确定性​​,它源于对世界真实状态——在我们的案例中,是真实的因果结构——的知识缺乏。未测量的混杂是认知不确定性的一个来源。它引起的偏倚是一种系统性误差。增加样本量无济于事;它只会给我们一个对错误答案的越来越精确的估计。

这是一个令人谦卑的教训。它提醒我们,数据本身不会说话。它们是通过一个模型——我们对世界如何运作的一套假设——的镜头来解释的。当我们的模型因为我们看不见的因素而错误时,我们的结论就可能是有缺陷的。因此,与未测量混杂的斗争不仅仅是一个统计练习;它是科学事业的一个基本组成部分,旨在建立更好的现实模型,诚实地面对我们知识的局限,并利用我们掌握的每一种工具来更接近真相。

应用与跨学科联系

在理解了未测量混杂的原理之后,我们可能会留下一个挥之不去的问题:这仅仅是一个理论上的头痛,一个萦绕在统计学象牙塔里的幻影吗?还是它行走在我们中间,悄悄地扭曲着我们赖以做出关于健康、政策和对世界理解的决策的事实?答案当然是,这个幽灵无处不在。它是在任何非完美随机实验的研究中都持续存在的幽灵。

但是,被困扰并不意味着无助。科学的美妙之处不在于假装幽灵不存在,而在于创造工具来看见它们、测量它们,有时甚至智胜它们。与未测量混杂的斗争催生了一套极为巧妙和强大的工具包。这段应用之旅不仅是对方法的巡礼,更是一次跨越医学、公共卫生、心理学等领域的科学巧思和学术诚信的实践之旅。

量化幽灵:一把衡量混杂的尺子

处理一个潜在问题的第一步也是最关键的一步是问:“它有多大?”如果我们看到一个关联——比如说,夜班工作与更高的糖尿病风险之间,或者暴露于空气污染与心脏病发作之间——我们会立即想,是否一个未测量的因素,一个潜伏的混杂因素,如遗传倾向或特定的饮食习惯,才是真正的罪魁祸首。

​​E值​​是一个非常简单的工具,它就像一把“混杂标尺”。它回答一个直接的问题:“一个未测量的混杂因素,在其与暴露和结局的关联上,需要有多强,才能完全冲刷掉我们刚刚看到的关联?”对于一个给定的观测风险比,比如RR=1.8RR = 1.8RR=1.8,我们可以计算出要解释这个效应所需的这两个关联的最小强度(同样以风险比为尺度)。这个单一的数字让我们感受到了结果的稳健性。

例如,一个观测到的风险比RR=1.8RR=1.8RR=1.8会产生一个3.03.03.0的E值。这意味着,一个与暴露和结局都关联了3.03.03.0风险比的未测量混杂因素,在最坏的情况下,可以解释这一发现。接下来,关键的一步是校准。一个强度为3.03.03.0的混杂因素在这种情况下是否合理?我们可以将这个值与已知的、主要的风险因素的强度进行比较。如果该疾病的最强已知风险因素的风险比只有1.51.51.5,那么我们就可以更加自信,我们观测到的1.81.81.8的关联并非完全是幽灵的杰作。但如果我们知道有更强的混杂因素,我们的信心就应该动摇。这种“校准”将一个简单的计算变成了一个关于合理性的深刻论证,,。

这种方法是一种我们可称之为“推断的谦逊”的实践。我们不仅报告我们的主要发现,还量化其脆弱性。谨慎的研究人员不仅会报告其点估计的E值,还会报告其置信区间下限的E值。这回答了一个更严峻的问题:“需要多大的混杂才能使我的结果在统计上不显著?”,。因此,这个简单的数字成为现代流行病学、卫生系统科学和药物发现中的一个重要工具,为我们提供了一种量化的方式来讨论证据的强度,这也是像Bradford Hill因果关系指南这类框架中的一个关键考量因素。这同样适用于伤害性发现(RR>1RR > 1RR>1)和有益性发现,例如一个新医院项目似乎减少了再入院率(RR<1RR < 1RR<1)。

为幽灵设下陷阱:阴性对照

量化混杂因素的必要大小是一回事,但我们能在数据中找到它的足迹吗?在这里,我们转向另一个优雅的策略:​​阴性对照​​。这个逻辑类似于设置一个巧妙的陷阱。如果你想知道一个特定的幽灵是否在你的房子里作祟,你可能会检查它是否出现在一个它没有理由进入的房间里。

在研究中,我们可以通过检验那些我们确信不可能是因果关系的关联来做到这一点。如果我们还是发现了关联,那一定是混杂因素在作祟。这些陷阱主要有两种类型:

  1. ​​阴性对照结局:​​我们检验我们的主要暴露与一个它不可能引起的结局之间的关联。例如,一个病人在研究开始时的应对方式能否预测其在研究开始之前的抑郁水平?当然不能。他汀类药物,一种降胆固醇药,会导致像摔倒这样的意外伤害吗?这在生物学上是难以置信的。如果我们观察到这样的关联,它告诉我们我们正在比较的组(例如,他汀类药物使用者和非使用者)从一开始就在我们未测量到的方面有所不同——也许是在他们潜在的虚弱程度上。

  2. ​​阴性对照暴露:​​我们检验我们的主要结局与一个不可能引起它的“暴露”之间的关联。为干眼症开具简单的眼药水处方能否预测一年后谁会死于癌症?几乎可以肯定不会。如果我们发现这样的关联,它再次表明,那些即使是为小病也能拿到处方的人,与那些没有的人是不同的,而这些不同之处也与癌症死亡率相关(例如,整体健康状况或就医行为)。

阴性对照是一种强大的、经验性的方法,用于探查混杂的存在。一个精心选择的阴性对照分析的无效发现,可以增强我们对主要发现并非仅仅是统计幻觉的信心。

智胜幽灵:巧妙的研究设计

有时,我们能做的不仅仅是检测或量化混杂。凭借智慧和对问题因果结构的更深理解,我们可以设计出完全避开混杂因素的分析。这些方法需要更强的假设,但它们的回报是巨大的。

幽灵的缰绳:工具变量

想象存在一个未测量的混杂因素——比如说,一个人内在的“健康动机”——它既影响他们是否使用减肥应用(AAA),也影响他们减掉多少体重(YYY)。这个混杂因素使得我们无法知道是应用在起作用,还是有动机的人自己就在减肥。

一个​​工具变量(IV)​​就像找到一条只与应用使用有关的缰绳,一条动机这个幽灵看不见也摸不着的缰绳。这样一条缰绳会是什么呢?一个完美的例子是随机鼓励设计。假设我们随机向一半的研究参与者提供应用的免费高级版升级。这个随机的提议(ZZZ)满足三个神奇的条件:

  1. 它是相关的:这个提议鼓励人们使用应用,所以ZZZ与AAA相关。
  2. 它独立于混杂因素:因为是随机的,这个提议与一个人预先存在的动机UUU无关。
  3. 它对结局没有直接影响:提议本身不会导致体重减轻,只有它所鼓励的应用使用才可能。

通过分析这个随机提议如何影响体重减轻,我们可以分离出应用的因果效应,而不受未测量动机的偏倚影响。这个工具变量给了我们一个对系统无混杂的“把手”,让我们即使在幽灵存在的情况下也能估计出真实的因果效应。

前门与后门

另一个优美的因果逻辑是​​前门调整​​。想象一种情况,一个未测量的学校层面因素,如“学校氛围”(UUU),混杂了反欺凌项目(AAA)与学生抑郁(YYY)之间的关系。然而,假设我们确信该项目只能通过首先减少同伴受害(MMM)来影响抑郁。因果路径是A→M→YA \to M \to YA→M→Y。混杂因素UUU创建了一条我们无法阻断的“后门”路径A←U→YA \leftarrow U \to YA←U→Y。

前门方法是一个绝妙的变通方案。它分两个阶段识别效应。首先,由于项目(AAA)和受害(MMM)之间没有未测量的混杂,我们可以估计AAA对MMM的因果效应。其次,我们可以通过阻断后门路径M←A←U→YM \leftarrow A \leftarrow U \to YM←A←U→Y来估计受害(MMM)对抑郁(YYY)的因果效应。如何阻断?通过调整项目状态AAA!这就阻断了路径。通过将这两个可识别的效应链接在一起,我们可以恢复AAA对YYY的总效应,有效地绕过了未测量的混杂因素UUU。

运动中的幽灵:时间的挑战

当我们的混杂因素不是静态的,而是随时间变化,并且常常是对我们正在研究的治疗做出反应时,最终的挑战就出现了。这就是​​时变混杂​​的世界,在药物流行病学中是一个常见的问题。病人今天的疾病严重程度影响医生选择的药物;该药物随后影响明天的疾病严重程度,而这又会影响下一次的治疗选择。混杂因素和治疗被锁定在一个动态反馈循环中。

要解开这样的网络需要我们最先进的机器。像​​结构嵌套模型的g-估计​​这样的方法正是为此任务而设计的。从概念上讲,它们通过“倒带”时间来工作。从研究的末尾开始,该方法在数学上逐层剥离最后一个治疗决策的影响,然后是倒数第二个,以此类推,直到浮现出对治疗效应的无混杂估计。这些方法在数学上很复杂,但它们代表了我们在面对自身就是移动目标的混杂因素时,追求因果真相能力的前沿。

与不确定性共存

从一个简单的E值计算到g-估计的复杂性,与未测量混杂的斗争是科学创造力的证明。它提醒我们,观测科学不是一个简单的测量行为,而是对我们所见现象的可能替代解释的深入和周到的思考。

目标不是找到一个能消除所有不确定性的万能药。相反,它是要建立一种学术诚信的文化。一个真正稳健的分析不会隐藏其脆弱性,而是公开地探索它们,运用一套工具——量化混杂因素的必要强度,用阴性对照设置经验陷阱,以及在可能的情况下应用巧妙的设计。这样做,我们不仅仅是产生一个单一的数字;我们建立一个令人信服的案例,承认阴影的存在,同时尽可能地照亮那些重要的因果问题。这本身就是一段发现之旅,揭示了我们从周围世界收集的数据中更深层、更真实的之美。