混杂偏倚

玻尔百科

定义

混杂偏倚是流行病学和统计学中的一种系统误差，当研究中的比较组在影响结果的因素上存在差异时，会导致暴露与结果之间产生虚假的关联。研究人员利用有向无环图（DAG）来识别这些共同原因，并将其与其他偏倚区分开来。在观察性数据中，通常通过统计调整、倾向评分和负对照等方法来控制或检测这种偏倚的影响。

核心要点

当研究中的比较组在影响结果的方面存在差异时，会产生混杂偏倚，从而造成虚假的关联。
有向无环图（DAGs）用于绘制因果关系图，并区分混杂因素（共同原因）与其他偏倚，如对撞因子（共同效应）。
统计调整、倾向性评分和阴性对照是控制或检测观察性数据中混杂影响的关键方法。
未能解决混杂问题可能导致错误的结论，例如将治疗效果误认为是潜在疾病严重程度的影响。

引言

区分真正的因果关系与纯粹的相关性是科学领域的一项根本挑战。在许多现实世界场景中，尤其是在医学和公共卫生领域，我们依赖于观察性数据，而我们比较的组别从一开始就并非相似。一个未被观察到或未被控制的第三个因素——即混杂因素——可能会制造出伤害或益处的虚假信号，从而导致危险的错误结论。这种系统性误差被称为混杂偏倚，它是我们数据机器中的幽灵。本文将助您理解并应对这一关键问题。首先，“原理与机制”一章将利用有向无环图（DAGs）等工具来解构混杂的本质，将其与其他偏倚进行对比，并探讨统计调整的艺术。随后，“应用与跨学科联系”一章将展示混杂在真实世界研究中（从临床试验到环境研究）如何表现，并探讨科学家们用以驯服这种普遍偏倚的强大工具箱。

原理与机制

问题的核心：一场不公平的竞赛

想象一下，你是一名研究关节炎新药的医生。你注意到一个奇怪的现象：在你的观察性数据中，服用该药的患者似乎比不服用的患者住院次数更多。这是否意味着该药有害？在你发出警报之前，让我们像科学家一样思考。在现实世界中，谁会得到这种药？这并非随机抽签。临床医生会根据他们的最佳判断，倾向于将这种新的、强效的药物开给症状最严重的患者——那些疼痛和炎症无法控制的患者。

那么，谁又更有可能住院呢？当然是症状最严重的患者。

陷阱就在于此。你比较的并非两个相似的人群，而是一组病情较重的患者（他们恰好在服药）与一组病情较轻的患者（他们没有服药）。这就像比较专业赛车手驾驶轿车与学生司机驾驶一级方程式赛车的单圈时间。如果专业车手仅仅快一点点，你不会得出结论说F1赛车只比轿车好一点点。这个比较本身就存在根本性的缺陷。

这就是混杂的本质。当我们的比较组从一开始就在与结果相关的方面存在差异时，就会发生这种系统性误差。这两个组是不可交换的。在理想世界中，我们会进行随机对照试验（RCT），通过抛硬币来决定谁获得药物。随机化是一个绝佳的工具，因为它能确保平均而言，治疗组和未治疗组在所有基线特征上都是平衡的——无论是我们能测量的（如年龄和疾病严重程度），还是我们不能测量的（如遗传倾向或生活方式因素）。混杂是观察性研究的核心挑战，在这种研究中，我们无法进行随机化，而必须尝试理解并纠正这些固有的不平衡。

绘制因果图

为了清晰地思考因果关系，绘制一张图谱会有所帮助。在科学中，我们使用一种简单但强大的工具，称为有向无环图（DAG）。这些图就像因果关系的电路图，箭头表示从原因到结果的影响流向。

让我们为我们的关节炎例子绘制这张图。我们有治疗，即暴露（ $A$ ，药物），以及结局（ $Y$ ，住院）。问题在于第三个变量，疾病严重程度（ $C$ ），是两者的共同原因。严重的疾病导致获得药物的几率更高（ $C \to A$ ），同时也独立地导致住院的几率更高（ $C \to Y$ ）。

这就形成了一种被称为混杂三角的结构：

$A \leftarrow C \to Y$

我们感兴趣的是从药物（ $A$ ）到住院（ $Y$ ）的直接因果路径， $A \to Y$ 。然而，这张图上还有另一条路径：一条从 $A$ 出发，返回到 $C$ ，然后再前进到 $Y$ 的“后门路径”（ $A \leftarrow C \to Y$ ）。这条后门路径并非药物的因果效应；它是由共同原因 $C$ 造成的虚假的、非因果的关联。我们观察到的 $A$ 与 $Y$ 之间的粗略关联是真实因果效应与这条虚假后门路径的混合物。混杂就是我们的因果估计被这种后门关联所污染。

这不仅仅是一个理论上的奇谈。在一个现实的研究场景中，这种效应可能强大到完全逆转我们的结论。想象一项研究，在疾病严重程度低的患者中，药物对结局没有影响。在疾病严重程度高的患者中，药物同样没有影响。但由于病情更重的患者更有可能获得药物，当你将所有人混合在一起时，粗略数据可能会显示风险比为 $1.46$ ，错误地表明药物使风险增加了46%。混杂不仅仅是微调数字；它能凭空制造出伤害或益处的虚假信号。

偏倚大全：混杂及其近亲

混杂只是系统性误差的一种。有向无环图之所以奇妙，是因为它们揭示了不同偏倚具有根本不同的因果结构。

对撞因子：路径的危险碰撞

让我们将混杂三角与一种不同的结构进行对比。假设我们正在研究暴露（ $A$ ）与结局（ $Y$ ）之间的联系，但我们的研究只在住院患者中进行（ $S=1$ ）。暴露和结局可能都独立地导致住院。例如，暴露于某种化学物质（ $A$ ）可能引起呼吸道刺激需要住院，而另一种独立的潜在肺部疾病（ $Y$ ）也会导致住院。其因果图如下：

$A \to S \leftarrow Y$

在这里， $S$ 不是共同原因，而是共同效应。它是一个对撞因子，因为有两条箭头在它这里“碰撞”。有向无环图的一个基本法则是，对混杂因子进行条件限制会阻断后门路径，但对对撞因子进行条件限制会打开一条原本被阻断的路径。

这是一个优美且深刻违反直觉的观点。在普通人群中， $A$ 和 $Y$ 可能完全独立。但如果你只在住院患者群体中观察（即你对 $S=1$ 进行了条件限制），你会发现它们之间存在虚假的关联。这通常被称为选择偏倚或“对撞分层偏倚”。

因此我们有了一个深刻的二元对立：

混杂因子（ $A \leftarrow C \to Y$ ）：一个共同原因。变量在边际上是相关的。你必须对混杂因子 $C$ 进行条件限制，以阻断后门路径并消除该关联。
对撞因子（ $A \to S \leftarrow Y$ ）：一个共同效应。变量在边际上是独立的。你必须不要对对撞因子 $S$ 进行条件限制，因为这样做会打开一条路径并产生虚假的关联。

这说明了解决一个问题的统计“修正”方法（条件限制）恰恰是引起另一个问题的原因。理解因果结构至关重要。

其他区分

将混杂与另外两个概念区分开来也至关重要：

信息偏倚：这仅仅是测量误差。你的工具有缺陷。你可能在使用一个未校准的血压计或一个不完美的诊断测试。这是一个数据质量的问题，而不是谁接受暴露、谁得到结局的潜在因果结构的问题。
随机误差：如果你通过从一个群体中抽取两个不同的随机样本进行两次相同的研究，你会得到略有不同的答案。这就是抽样变异性，或称随机误差。这是“抽签的运气”。混杂不是随机的；它是你比较中固有的系统性误差。增加样本量会减少随机误差，使你的估计更精确。但它对修复混杂毫无作用；它只会给你一个非常精确的错误答案。

调整的艺术：追求公平的比较

如果我们无法进行随机化，我们该如何处理混杂？主要策略是调整（或条件限制）。其思想是在事后模仿随机化。如果年龄是阿司匹林对中风影响的混杂因素（年龄 $\to$ 阿司匹林，年龄 $\to$ 中风），我们无法让老年人变年轻。但我们可以比较在相同年龄组内服用阿司匹林和不服用阿司匹林的人。通过分别观察60岁人群和70岁人群等，然后合并结果，我们可以在统计上消除年龄的影响。这就是“调整”或“控制”混杂因素的含义。

然而，调整是一门精细的艺术，其中有许多微妙之处。

不完美的危险：残余混杂

如果我们对混杂因素的测量不完美怎么办？假设真正的混杂因素是一个复杂的“生物年龄”（ $L$ ），但我们只能测量实足年龄（ $L^*$ ），这是一个有噪声的代理变量。当我们调整 $L^*$ 时，我们只是部分地关闭了后门路径。真正 $L$ 的一些混杂效应会“渗透”进来，在我们的估计中留下残余混杂。在一个现实场景中，真实因果效应为空（风险比 = $1.0$ ），调整一个中等质量但测量不完美的混杂因素后，仍然留下了 $1.65$ 的偏倚风险比。这个教训发人深省：“控制混杂因素”的效果取决于你对它们的测量有多好。

混杂与中介：不要阻断因果高速公路

调整是针对混杂因素的——即后门路径上的变量。一个严重的错误是调整位于因果路径本身的变量。位于从暴露到结局路径上的变量（ $A \to M \to Y$ ）被称为中介变量。例如，蚊帐（ $A$ ）通过降低蚊虫叮咬率（ $M$ ）来减少疟疾（ $Y$ ）。如果你“控制”了叮咬率，你实际上在问一个荒谬的问题：“对于叮咬率相同的人群，蚊帐对疟疾有什么影响？”你恰恰阻断了蚊帐起作用的机制，你对总效应的估计将会产生偏倚，很可能偏向于零。

混杂与不可合并性：一个细微的区分

这是一个最后的、微妙的要点。有时，即使没有混杂，调整后的估计值也会与粗略估计值不同。这可能是由于某些效应度量的数学特性造成的。优势比，作为流行病学中一个常用的度量，是“不可合并的”。这意味着即使在一个完美的随机试验中（没有混杂），整个人群的粗略优势比也不会是不同亚组（例如，男性和女性）优势比的简单平均值。这是一个数学上的怪癖。相比之下，风险差是“可合并的”。这教会了我们一个更高级的道理：我们必须区分混杂（一个关于数据生成过程的因果概念）和不可合并性（一个特定统计度量的数学特性）。

深入迷宫：随时间变化的混杂

世界不是静止的；它随时间展开。这就把我们带到了最富挑战性也最美妙的混杂形式：时变混杂。考虑管理像HIV这样的慢性病。在每次门诊时，医生会测量患者的健康状况（例如，病毒载量， $L_t$ ）。这个健康状况会影响开始或改变治疗的决定（ $L_t \to A_t$ ）。但是上次就诊时给予的治疗（ $A_{t-1}$ ）影响了患者今天的健康状况（ $A_{t-1} \to L_t$ ）。

变量 $L_t$ 同时扮演着两个角色。它既是下一次治疗决策的混杂因素，又是先前治疗效果的中介变量。如果我们使用标准的统计调整来控制 $L_t$ ，我们就会掉入刚才讨论的陷阱：我们阻断了先前治疗的中介路径，从而使我们对长期策略效果的估计产生偏倚。

这个问题困扰了科学家数十年。但近年来，一些被称为“g方法”（如边际结构模型）的杰出新方法被开发出来。这些方法可以被看作是创建了一个加权的“伪人群”，在这个伪人群中，每个时间点的治疗选择在统计上都与过去的混杂因素历史无关。它们在每一步都打破了混杂的反馈循环，使我们能够估计动态治疗策略在其整个生命周期中的因果效应。这证明了清晰因果思维的力量，这段旅程始于一个简单的问题：“这是一场公平的竞赛吗？”并引导我们走向现代科学中一些最复杂和最优雅的思想。

应用与跨学科联系

在探究了混杂的理论核心之后，我们现在步入现实世界，看看这个微妙概念在实践中的表现。混杂并非统计理论中尘封的古物；它是一个活生生的挑战，潜伏在我们对世界提出的几乎每一个问题之中。它是我们数据机器中的幽灵，一种隐藏的影响力，能制造出令人信服的因果幻觉，或完全掩盖真实的关系。在许多领域，发现的艺术与科学在很大程度上就是处理混杂的艺术与科学。从手术室到全球大气，我们所讨论的原则为清晰思考提供了一个统一的框架。

医生的困境：治疗中的隐藏风险

混杂在医学领域的影响最为直接和个人化。想象一位外科医生试图决定一种激进的高风险手术是否优于一种更保守的手术。这正是在研究复杂癌症手术时出现的情景，例如用于妇科癌症的盆腔廓清术或用于腹膜后肉瘤的区域性切除术。

对患者结局的简单比较可能会显示，接受激进手术的患者情况更糟。这是否意味着手术有害？不一定。这里的幽灵是指示混杂。外科医生根据他们的临床判断，更可能为肿瘤更晚期、更复杂的患者推荐这种激进手术——而这些患者本身的预后就更差。“手术适应证”（即疾病的严重程度）是第三个变量，一个混杂因素，它既与治疗选择相关，也与结局相关。如果不仔细考虑这一点，我们就会错误地将潜在疾病的影响归咎于手术本身。

同样的幽灵也出现在药理学中，通常表现为“健康使用者效应”。当研究人员使用电子健康记录研究新型mRNA COVID-19疫苗的有效性时，他们必须警惕这种偏倚。选择接种疫苗的人通常在整体上更注重健康。他们可能锻炼更多，饮食更健康，并且更可能遵守其他公共卫生指南。如果一个简单的分析显示接种疫苗的人群心脏病发病率较低，这是疫苗的功劳，还是他们整个生活方式的功劳？这种由追求健康行为引起的混杂，可能使干预措施看起来比实际效果更好。

类似的问题也困扰着药物副作用的研究。当研究人员观察到服用质子泵抑制剂（PPIs）治疗胃酸反流的人肺炎发病率更高时，他们必须问：是药物的原因，还是潜在疾病的原因？。患有严重反流的患者可能吸入胃内容物的风险更高，而这本身就可能导致肺炎。这是另一个指示混杂的经典案例，治疗的原因与结局的风险纠缠在一起。

我们呼吸的空气：时间与空间中的混杂

混杂不仅限于个人选择，它还交织在我们环境的结构之中。思考一下环境流行病学家试图确定空气污染短期健康影响的工作。他们可能观察到，在细颗粒物（ $\text{PM}_{2.5}$ ）水平高的日子里，因心脏问题而就诊的急诊室访问量也随之上升。这是一个确凿的案例吗？

远非如此。 $\text{PM}_{2.5}$ 的浓度并非与天气无关。它在寒冷、无风的冬日通常更高。但寒冷天气本身就会给心血管系统带来压力。同时，医院入院率也有其自身的节律——因流感在冬季达到高峰，甚至随星期几而变化。在这里，混杂不是单一变量，而是一个由相互关联因素组成的复杂动态系统：一年中的时间、温度、湿度、星期几和流感季节。这些都是潜在的混杂因素，既与每日污染水平相关，也与每日健康结局相关。为了分离出污染的真实效应，研究人员必须建立复杂的统计模型，能够灵活地控制这些变化的、非线性的时间和天气模式，从而解开这张错综复杂的网中独立的线索。

流行病学家的工具箱：驯服幽灵

如果混杂如此普遍，我们如何才能学到任何东西？我们如何从相关性走向因果关系？科学家们已经开发出一套强大的分析策略和研究设计工具箱，以揭示和控制这种偏倚。

调整：统计学的解剖刀

最直接的方法是调整。如果我们能测量混杂因素，我们就能在分析中控制它们。在某种意义上，我们可以在相似人群的内部进行比较。例如，我们可以比较一个接触了某种化学物质的吸烟者与另一个没有接触的吸烟者。

这个想法的一个更复杂的版本是倾向性评分。想象一下，你可以为研究中的每一个人计算出他接受某种治疗的概率——或倾向——基于他所有的测量特征（年龄、健康状况等）。倾向性评分将所有这些复杂信息提炼成一个单一的数字。然后，你可以比较那些具有相同治疗倾向的已治疗者和未治疗者。这就像为每个人找到一个“统计学双胞胎”，创造一个公平的比较，平衡掉所有已测量的混杂因素。当然，这种方法有一个关键的局限性：它只能控制你已经测量的混杂因素。未测量混杂因素——真正的“幽灵”——的影响依然存在。

诊断：用阴性对照追捕幽灵

那么那些未测量的混杂因素呢？我们是否束手无策？不完全是。有时，我们无法测量幽灵，但我们可以设计一个测试来看看它是否存在。这就是阴性对照背后优雅的思想。

其逻辑简单而优美。你测试一个根据生物学或物理学原理你知道绝不可能是因果的关系。如果你的有偏倚的数据分析仍然产生了一个关联，你就检测到了混杂的迹象。例如，在一个受“健康使用者”效应困扰的COVID-19疫苗研究中，研究人员可能会测试疫苗接种是否与像意外伤害或骨折这样的阴性对照结局相关联。没有合理的生物学原因表明疫苗能预防骨折。因此，如果数据显示疫苗对骨折有“保护作用”，你就抓住了混杂的现行。该分析显然存在偏倚，将接种疫苗者普遍较低的风险状况归因于疫苗本身。

人们也可以使用阴性对照暴露。假设你想测试一项2020年实施的新政策的效果。作为阴性对照，你可以假设该政策是在2019年实施的来运行你的分析。由于该政策当时并不存在，它不可能有因果效应。如果你的分析显示在2019年有“效应”，这告诉你你的方法论是有缺陷的，很可能捕捉到了预先存在的趋势——一种混杂形式。这些巧妙的测试就像是内置的偏倚警报系统。

量化：测量幽灵的影子

即使我们检测到未测量的混杂，我们还可以更进一步。我们可以问：“混杂需要多严重才能改变我的结论？”这就是定量偏倚分析（QBA）的目标。这是一种敏感性分析，你对未测量的混杂因素做出明确的、定量的假设。

你可能会说：“假设存在一个未测量的混杂因素 $U$ 。我们假设它使结局的风险增加 $RR_{UY}$ 倍，并且它在暴露组中的流行率高于非暴露组（流行率分别为 $p_1$ 和 $p_0$ ）。”使用一个简单的公式，你可以计算出一个“偏倚因子”，并用它来校正你观察到的结果。通过代入一系列关于混杂因素属性的合理值，你可以看到你的发现有多稳健。你可能会发现，只有一个强大到离谱的混杂因素才能解释掉你的结果，这会增加你的信心。或者，你可能会发现，即使一个非常弱的混杂因素也能颠覆你的结论，从而敦促你保持谨慎。这是一种智力上的诚实练习，迫使我们不仅要为随机机会设定误差范围，还要为我们自己的无知设定误差范围。

高级设计：绕开幽灵

最后，有时最聪明的技巧是完全改变游戏规则。工具变量（IV）分析就是这样一种方法。其目标是找到暴露变异的一个来源，这个来源是随机的——或者至少不受与暴露本身相同的混杂影响。例如，如果一些医生偏好新药，而另一些医生偏好旧药，且原因与患者健康无关，那么这种偏好可以作为一个“工具变量”。然而，像所有方法一样，IV分析有其自身的假设，这些假设也必须受到审视。如果工具变量本身受到混杂（例如，使用患者到诊所的距离作为工具变量，而距离也与社会经济地位相关），该方法可能会失败。

另一个巧妙的设计是活性对照研究。你不是比较服用某种药物的人和什么都不服用的人，而是将他们与服用另一种治疗相同适应证的药物的人进行比较。通过比较PPIs使用者和H2RAs（另一种减酸药）使用者，研究人员可以研究两个在潜在健康状况上已经更为相似的群体，从而从一开始就减少了指示混杂。

一门通用学科

从外科医生选择手术刀到全球空气污染分析，混杂的挑战是普遍的。为应对这一挑战而开发的工具——从像ROBINS-I这样用于系统评价的严格评估框架到对个别研究的详细批判——不仅仅是统计技巧。它们是一种深刻而严谨的思维方式的体现。它们迫使我们保持谦逊，质疑我们的观察，想象替代解释，并严格测试我们的假设。在不断探求区分原因与巧合的过程中，理解混杂不仅仅是一项学术练习；它是科学推理的根本基础。