依时混杂

玻尔百科

核心要点

当一个随时间变化的变量影响未来的治疗决策，同时又受到过去治疗的影响时，就会发生依时混杂。
这产生了一个悖论，因为该变量既是需要校正的混杂因素，又是不应被校正的既往治疗的中介因素。
像回归分析这样的标准统计方法无法解决这个悖论，往往会导致对治疗真实因果效应的有偏估计。
先进的 g-方法，如治疗权重倒数法 (IPTW)，通过创建一个加权伪人群来解决这个问题，在伪人群中，混杂因素在统计上被消除。
这一挑战并非医学领域所独有，而是任何具有反馈回路的动态系统中的一个基本问题，包括人工智能、卫生政策和气候科学。

引言

科学的根本目标是理解因果关系。虽然随机对照试验 (RCT) 是建立因果关系的黄金标准，但研究人员通常必须依赖现实世界中的观察性数据。这就带来了混杂的挑战，即第三个变量可能在暴露与结局之间制造虚假的关联。尽管统计学家早已知道如何校正简单的固定混杂因素，但当混杂因素并非固定不变，而是随时间变化时——通常是对所研究的治疗本身做出反应——一个远为复杂的问题便出现了。这就是依时混杂这一微妙而关键的问题。该问题产生了一个悖论，它打破了标准的分析方法，并可能导致关于何种干预有效的危险误导性结论。

本文旨在揭开这一复杂挑战的神秘面纱。首先，文章将探讨依时混杂的“原理与机制”，剖析一个变量同时作为混杂因素和中介因素的悖论，并解释为何传统模型会失效。然后，在“应用与跨学科联系”部分，讨论将扩展到更广阔的领域，揭示这同一个统计问题如何出现在从临床医学、卫生政策到人工智能和环境科学等不同领域，并彰显统一的因果框架在解决该问题上的力量。

原理与机制

因果之箭与对“假如”的探求

所有科学的核心都存在一个简单而深刻的问题：“如果我这样做，会发生什么？” 这就是对因果关系的探求。为了找到一种新药、一项公共卫生政策或一个个人习惯的真实效果，我们需要进行公平的比较。这方面的黄金标准是随机对照试验 (RCT)。在 RCT 中，我们选取一群相似的人，将他们随机分配到接受治疗的组和接受安慰剂的组，然后观察其结局。随机化的魔力在于，平均而言，它能创造出除了治疗本身之外，在所有可以想象的方面——无论是已知的还是未知的——都完全相同的两个组。因此，结局的任何差异都可以被确信地归因于治疗。

但我们不能总是进行 RCT。它可能不符合伦理、不切实际或极其昂贵。更多时候，我们必须依赖观察性数据——从现实世界中收集的大量信息流，如电子健康记录或保险理赔数据。在这里，我们的探求之路变得更为险峻。在现实世界中，选择做某件事的人通常与选择做另一件事的人不同。喝咖啡的人可能也更倾向于吸烟。如果我们观察到喝咖啡的人心脏病发病率更高，这是咖啡的错，还是香烟的错？

这就是经典的混杂问题。混杂因素是第三个变量，例如吸烟，它既与暴露（喝咖啡）相关，也与结局（心脏病）相关，从而在二者之间制造了虚假或扭曲的联系。传统的统计解决方法是“校正”。我们可以通过分层分析来尝试进行公平比较。我们将喝咖啡的吸烟者与不喝咖啡的吸烟者进行比较，并将喝咖啡的非吸烟者与不喝咖啡的非吸烟者进行比较。通过“控制”混杂因素，我们希望能分离出暴露的真实效果。这种方法可以处理基线混杂，即在故事开始前特征就已固定的情况。但当故事随时间展开，混杂因素本身也加入这场“共舞”时，会发生什么呢？

治疗与时间的共舞

思考一下像艾滋病 (HIV) 这类慢性病的管理。这不是一次性的决策，而是医生与患者之间，在身体反应的指引下持续进行的“共舞”。每次门诊时，医生都会测量一个关键的生物标志物，比如 CD4 细胞计数 ( $L_t$ )，它反映了免疫系统的健康状况。如果计数偏低，医生可能会开具或加强抗逆转录病毒药物 ( $A_t=1$ )。如果药物有效，它会在下个月提高 CD4 细胞计数 ( $L_{t+1}$ )。在下一次就诊时，看到改善的 CD4 细胞计数，医生可能会决定继续当前方案，甚至减少剂量。

这就形成了一个动态的治疗-混杂因素反馈循环。患者的状态 ( $L_t$ ) 影响治疗决策 ( $A_t$ )，而治疗 ( $A_t$ ) 又影响患者未来的状态 ( $L_{t+1}$ )。这种精妙的“共舞”在医学中不断发生，无论是根据低密度脂蛋白胆固醇 (LDL cholesterol) 调整他汀类药物，用抗高血压药管理血压，还是为自身免疫性疾病发作调整皮质类固醇剂量。这是优质个性化医疗的标志。但对于试图回答“这种药物在一年内的总效果是什么？”这个简单问题的科学家来说，这场“共舞”制造了一个深刻的悖论。

依时混杂因素的悖论

让我们在 HIV 的例子中剖析时变生物标志物 CD4 细胞计数 ( $L_t$ ) 所扮演的角色。

首先，在任何给定的月份 $t$ ，CD4 细胞计数 $L_t$ 是一个典型的混杂因素。它影响医生的治疗决策 ( $L_t \rightarrow A_t$ )，同时也是最终结局（年末的病毒载量）的一个强预测因子 ( $L_t \rightarrow Y$ )。低的 CD4 细胞计数使得治疗更有可能发生，并且也预示着不良结局的风险更高，这与当时给予的治疗无关。为了公平比较在月份 $t$ 接受治疗与未接受治疗的患者会发生什么，我们的统计直觉告诉我们必须校正 $L_t$ 。

但转折点在于此。CD4 细胞计数 $L_t$ 还扮演着第二个相互冲突的角色：它是既往治疗的中介因素。上个月给予的药物 $A_{t-1}$ 是通过将 CD4 细胞计数提高到当前水平 $L_t$ 来起作用的。 $L_t$ 的改善是 $A_{t-1}$ 对最终结局 $Y$ 产生有益效果所经过的因果链中的关键一环。这条因果路径形如 $A_{t-1} \rightarrow L_t \rightarrow Y$ 。

这就是那个悖论。为了估计当前治疗 $A_t$ 的效果，我们觉得必须校正 $L_t$ 。但为了估计先前治疗 $A_{t-1}$ 的总效果，我们又不能校正 $L_t$ ，因为这样做意味着有意忽略了早期治疗发挥作用的关键部分。这就像戴着耳塞去评判一位音乐家的演奏；通过“控制”声音，你恰恰阻断了你想要测量的效果。

像多元回归这样的标准统计方法就陷入了这个陷阱。它们无法同时对一个变量进行校正和不进行校正。通过将完整的 CD4 细胞计数历史作为条件，一个简单的回归模型会有效地阻断这些中介路径，从而导致对药物总效果的有偏估计。这个根本性问题被称为受先前治疗影响的依时混杂。

规避陷阱：时间偏倚的“罪恶展览”

这个悖论是时间欺骗我们最微妙的方式之一，但并非唯一的方式。纵向研究的领域充满了让粗心者失足的潜在陷阱。

适应证混杂 (Confounding by Indication)： 这是医学研究中最常见和最直观的偏倚。医生开出治疗处方是出于某种原因（即“适应证”），而这个原因通常是患者生病了。病情更重的患者更有可能获得药物，也更有可能出现不良结局。如果你天真地比较接受治疗和未接受治疗的人，药物可能看起来无效甚至有害，这仅仅是因为它被给予了那些本已处于最糟糕状况的患者。
永生时间偏倚 (Immortal Time Bias)： 这是一种尤其隐蔽的错分偏倚。想象一项研究，如果在门诊后 30 天窗口期内的任何时间点开始用药，患者就被标记为“暴露”。要被分入该组，患者必须在足够长的时间内生存且未发生结局事件（如住院），才能开始用药。这个初始的无事件期就是“永生时间”。当分析错误地将这个保证安全的时期归类为“暴露”时间时，缺陷就产生了。这会人为地降低暴露组的事件发生率，从而制造出一种保护效应的假象，而这种效应可能根本不存在。这是一个研究设计上的结构性错误，与依时混杂的反馈循环不同。
简单时间趋势 (Simple Time Trends)： 有时，事物只是随着时间的推移对每个人都发生了变化。也许是临床指南得到改善，或者出现了一种新的病毒变种。如果一种治疗方法的使用恰好在同一时期增加或减少，我们可能会将背景时间趋势误认为是治疗效果。这与我们的主要悖论不同，因为日历时间本身并不受患者接受的治疗的影响。

解法一瞥：重赋历史权重

如果标准回归分析被依时混杂因素的悖论所攻破，我们又怎能希望能找到真实的因果效应？由 James Robins 等统计学先驱设计的解决方案，其优雅程度不亚于问题的棘手程度。从某种意义上说，它涉及到重写历史。

请记住，问题在于，在我们的观察数据中，治疗不是随机的；它是由患者的 CD4 细胞计数所引导的。像治疗权重倒数法 (IPTW) 这类方法的关键思想是在统计上打破这种联系。我们从原始数据中创建一个新的、加权的“伪人群”。

其直觉在此。在我们的真实数据中，一个 CD4 细胞计数低却没有得到药物的患者是出乎意料的。一个 CD4 细胞计数高却确实得到药物的患者也是出乎意料的。这些出人意料的观察结果信息量极大，因为它们打破了常规的混杂模式。IPTW 方法在分析中给予这些出人意料的个体更大的权重。相反，遵循预期临床路径（低 CD4 细胞计数导致治疗）的个体则被赋予较小的权重。

通过在每一个时间点应用这些权重，我们神奇地构建了一个伪人群，在这个人群中，CD4 细胞计数不再能预测谁会接受治疗。混杂被消除了。在这个新的、平衡的世界里，这就好似治疗在每一步都是随机分配的。

由于混杂的链条被打破，我们就不再需要在最终的结局模型中“校正”时变的 CD4 细胞计数。并且因为我们不校正它们，我们就不再有阻断来自既往治疗的关键中介路径的风险。悖论得以解决。这个强大的思想是边际结构模型 (MSMs) 和一系列被称为 g-方法的相关技术的基础，这些方法让我们能够以时间这场复杂“共舞”所要求的审慎和严谨来提出“假如”的问题 [@problemid:4580947]。它们代表了因果思维的一大胜利，使我们能在时间带来的混杂复杂性中找到清晰的答案。

应用与跨学科联系

在努力理解了依时混杂的原理之后，我们可能会感觉自己仿佛穿行在一个棘手的逻辑迷宫中。但我们努力的回报是一把万能钥匙，它能开启横跨众多科学领域的深刻见解。时间线交织的问题并非某种晦涩的统计学难题，而是我们这个动态世界的一个基本特征：行动会产生随时间向前涟漪式传播的后果，而这些后果反过来又塑造我们未来的行动。现在，让我们踏上一段旅程，去看看这同一个核心思想是如何无处不在地体现出来的——从私密的医生诊室到浩瀚的地球气候。

医生的困境：适应证混杂

依时混杂最经典和最重大的表现可能是在医学领域，它通常被称为“适应证混杂”。想象一位医生正在治疗患有糖尿病或哮喘等慢性病的患者。每次就诊时，医生都会评估患者的临床状态——他们的实验室结果、症状、整体健康状况，我们可以称之为 $L_t$ 。基于这个状态，医生决定是否开始、停止或继续某项治疗 $A_t$ 。

困境的关键在于：状态 $L_t$ 较差的患者更有可能接受更积极的治疗 $A_t$ 。但同样是这个较差的状态 $L_t$ ，也使得患者未来出现不良结局的可能性更大。此外，上个月给予的治疗 $A_{t-1}$ 可能已经改善（或恶化）了患者本月的状态 $L_t$ 。因此，患者的临床状态 $L_t$ 是一个依时混杂因素，但它也是从既往治疗到未来结局的因果路径上的一个中间步骤 ( $A_{t-1} \to L_t \to Y$ )。

如果我们使用标准的统计分析，就会陷入一个陷阱。如果不校正 $L_t$ ，我们的分析将混杂得无可救药。但如果我们在传统回归模型中确实校正了 $L_t$ ，我们就在人为地将一个本身就受我们试图研究的治疗影响的变量保持恒定。这会阻碍我们看清治疗的真实效果，导致有偏和误导性的结论。药物可能看起来无效甚至有害，仅仅因为它被给予了病情最重的患者。

正是在这里，g-方法的天才之处得以展现。像治疗权重倒数法 (IPTW) 这样的方法施行了一种非凡的统计“炼金术”。通过根据患者历史计算接受观察到的治疗的概率来确定权重，它们创建了一个“伪人群”。在这个重新加权的世界里，就好像治疗决策不再由患者不断变化的临床状态所决定。混杂因素与治疗之间的联系被打破，使我们能够估计治疗的真实因果效应。另一种方法，即参数 g-公式，不是通过加权而是通过模拟来解决问题。它为整个系统建立一个模型——治疗如何影响身体，以及身体状态如何影响下一次治疗——然后模拟在不同治疗策略下会发生什么。加权和模拟这两种方法都是解开临床因果关系这个“戈尔迪之结”的强大工具。

现代前沿：从智能手机应用到国家政策

医生的困境仅仅是个开始。依时混杂的特征出现在任何系统进行适应和学习的地方。

思考一下移动健康 (mHealth) 的现代世界。一个旨在增加体育活动的智能手机应用可能会向你发送一条激励性提示。但它今天 ( $A_t$ ) 发送该提示的决定通常是基于你昨天 ( $L_{t-1}$ ) 的步数。然而，你昨天的活动量也是你今天活动量的一个强有力的预测因素，并且它本身也受到了你前天 ( $A_{t-2}$ ) 收到的提示的影响。这个应用自身的自适应逻辑创造了我们在诊所里看到的那个依时混杂的反馈循环！

这种结构在人工智能领域，特别是在强化学习 (RL) 中，有一个引人入胜的平行之处。RL 算法旨在通过分析数据来学习一个最优“策略”（采取行动的方案）。一项关键任务是“离策略评估” (off-policy evaluation)，它要回答：利用旧策略生成的数据，一个新的、假设性的策略会产生什么结果？这恰恰是流行病学家提出的因果问题。事实证明，RL 中的解决方案，一种称为重要性采样的技术，在数学上与流行病学中使用的 IPTW 是相似的。这是一个趋同进化的绝佳例子，两个不同的科学领域，在努力解决从混杂的、按时间排序的数据中学习这一相同的根本问题时，独立地得出了相同的概念性解决方案。

这个框架也可以扩展到整个卫生系统的层面。假设一个政府想要评估一个大规模、动态的糖尿病护理管理项目的“价值”。将整个州随机分配到不同的医疗政策是不可能的。取而代之的是，研究人员可以使用一个强大的框架，称为目标试验模拟。他们首先在纸上设计出他们希望能够进行的理想随机试验。他们精确定义资格标准、要比较的动态治疗策略（例如，“如果患者的预测风险评分超过阈值，则将其纳入项目”），以及主要结局（例如，净货币效益，一个结合了健康结局和成本的指标）。然后，利用来自健康登记处的观察性数据，他们使用 g-方法来分析这些数据，就好像它来自那个理想的试验一样。这种严谨的方法使他们能够严格地估计复杂卫生政策的因果效应，为影响数百万人的决策提供坚实的证据基础。

隐藏的偏倚：当时间本身具有欺骗性

有时，因果与时间的纠缠更为微妙，它被编织在我们观察世界的方式之中。

这一点在怀孕研究中表现得最为明显。想象一项评估怀孕期间因恶心而服用的药物安全性的研究。大多数研究在女性第一次产前检查时（通常在妊娠 12 周左右）将其纳入。这个看似无害的决定带来了一个深远的影响：研究人群只包括那些存活到 12 周的妊娠。如果该药物以及一些未测量的因素（如潜在的胎儿脆弱性）都影响早期流产的几率，那么存活到 12 周就成了一个“对撞因子”。通过将我们的分析局限于这些存活者，我们可能会在药物和未测量的脆弱性之间制造出一种虚假的统计关联。这种“活产偏倚”可以使安全的药物显得危险，或使危险的药物显得安全，这是一个发人深省的提醒：我们能够研究的对象本身就可能从根本上使我们的结论产生偏倚。

在临床试验中，另一种微妙的错觉也可能出现 [@problem-id:4776360]。假设在一个 Cox 比例风险模型中，一种新药的效果似乎随时间减弱。是药物正在失去效力吗？不一定。治疗可能会影响一个内部生物标志物（例如，炎症指标），而这个标志物也随时间演变。根据定义，分析是在仍然存活并参与研究的患者上进行的。治疗、演变的生物标志物以及存活的选择效应之间的相互作用，可能会制造出时变治疗效果的数学假象，即使真实的因果效应是恒定的。揭示这一点需要复杂的侦探工作，使用诸如标志物与生存结局的联合模型，或界标分析等方法，后者在不同时间点重复评估效果。

全球视角：气候、健康与交织的时间线

我们探讨的原则不仅限于生物学和医学，它们是普适的。让我们将思维扩展到整个地球。一位环境流行病学家想要了解每日热浪 ( $X_t$ ) 与儿科哮喘急诊就诊次数 ( $Y_t$ ) 之间的因果联系。简单的相关性是不够的。导致今天热浪的气象条件与昨天的相关，而昨天的热浪 ( $X_{t-1}$ ) 助长了今天的空气污染 ( $Z_t$ )。现在，这种空气污染成了一个混杂因素：它与今天的热浪相关（通过共同的天气模式），并且它独立地导致哮喘发作。但它也是昨天热浪的中介因素。我们又一次看到了它：同样纠缠不清的因果与反馈之网。为了分离出温度对儿童健康的真实影响，我们需要与帮助我们理解一颗药丸对单个患者效果完全相同的知识工具包。

统一视角的魅力

我们的旅程从单个患者延伸到全球气候，从医生的决策到人工智能的逻辑。在每个领域，我们都发现了相同的基本模式：一个行动与后果随时间交织的反馈循环。为解决依时混杂而开发的方法不仅仅是统计上的修正。它们代表了一种统一的思维方式，一种在复杂、动态系统中提出“假如”问题的严谨语法。认识到这一共享结构贯穿于如此多截然不同的领域，证明了科学推理的统一性与力量。它使我们能够从过去中学习，窥探可能的未来，并在一个持续不断运动的世界中做出更好的决策。