
在医学研究中,探究一种疗法是否有效的过程充满了潜在的陷阱。对患者数据看似直接的分析可能会产生虚幻的效应,使无用的药物显得神奇,或使有害的药物显得安全。在这些统计错觉中,最隐蔽和常见的一种便是“永生时间偏倚”(immortal time bias),这是一种逻辑错误,源于让未来的事件来对过去的经历进行分类。这种偏倚已导致了大量误导性的研究结果,凸显了研究人员在处理观察性研究中的时间问题上存在关键的知识空白。本文旨在阐明这个复杂的问题。在“原理与机制”一章中,我们将剖析该偏倚的核心逻辑,通过清晰的例子来演示它是如何产生并扭曲结果的。随后,在“应用与跨学科联系”一章中,我们将探讨这种偏倚隐藏在各种研究设计中的情况,并回顾研究人员为尊重不可逆转的时间之箭而必须使用的各种先进的现代方法,从时间依赖性模型到目标试验模拟。
想象一下,你收到一封来自某位金融大师的信。信中说:“周一,投资 A 公司。它注定会成就伟大。”你没有理会。一周后,你看到 A 公司的股价飙升。这时,又一封信寄来了:“你错过了机会。但我再给你一次机会。我的方法完美无瑕。”这次,她开始推销她的订阅服务。你可能会动心。但如果我告诉你她的秘密呢?在那个周一,她寄出了 封信。其中一千封,像你收到的那样,推荐了 A 公司。另外一千封则推荐了 B 公司,而 B 公司的股价随即暴跌。事后,她只是扔掉了关于 B 公司的记录,只与那些收到正确预测的“赢家”进行后续联系。
这不是金融天才,而是一个骗局。这位大师利用了未来的信息——哪只股票最终成功——来定义她过去“成功”的预测组。这是一种微妙的作弊,一种追溯性的预言。在医学研究领域,一个惊人相似的错误也可能发生。它不涉及欺骗,而是在我们如何随时间分析数据时陷入的一个逻辑陷阱。这个陷阱被称为永生时间偏倚,它导致了无数虚假的发现,制造了不存在的医学奇迹的幻象。这一切都归结为一个根本性错误:让未来对过去进行分类。
让我们从股票转向患者。想象一项研究,在数千人经历心脏病发作后对他们进行随访。其中一些患者在随访的不同时间点,决定开始一项新的锻炼计划。我们想知道这个计划是否能降低第二次心脏病发作的风险。
一个简单、直观且极其错误分析方法是,在研究结束时将患者分为两组:“锻炼者”(所有参加过该计划的人)和“非锻炼者”(从未参加的人)。然后,我们比较这两个固定组之间的死亡率。这听起来很合理,对吗?
但请仔细想一想。要被分入“锻炼者”组,每个人必须满足什么条件?他们必须存活足够长的时间以开始锻炼。如果一个患者决定在第三个月开始锻炼计划,但不幸在第二个月就去世了,他将不会被分入“锻炼者”组。他会在死后被分配到“非锻炼者”组。
这意味着,从最初的心脏病发作到他们开始锻炼的那天,这段时间对“锻炼者”组来说是一段特殊的时间。这是一个保证存活的时期。根据我们构建该组的定义,组里没有一个人可能在这段时间内死亡。这个被保证的、无事件发生的时期就是永生时间(immortal time)。
分析上的罪过发生在我们错误分类这段永生时间的时候。有缺陷的分析将这段时间计为“暴露”或“治疗”时间。我们实际上是在为锻炼者组在他们甚至还没有开始锻炼期间的存活给予了“功劳”,更重要的是,这段时间的存活是他们能被分入该组的先决条件。这就像给一个学生的期末考试评分,但仅仅因为他来参加了考试,就给前三道题打了满分。这人为地抬高了该组的表现。
让我们用一些数字来看看这个统计学上的鬼故事是如何展开的。考虑一个假设性研究,对 名患者在诊断后随访 天。
现在,让我们戴上一位天真分析师的帽子,犯下我们刚才描述的错误。
有缺陷的分析(制造虚假奇迹):
该分析师定义了两个固定的组:“曾治疗组”(开始服用药物 P 的 人)和“未治疗组”(从未服用的 人)。
为了比较他们,我们计算率比(),即治疗组的率除以未治疗组的率。 。 结论令人震惊!治疗组的死亡率仅为未治疗组的一半。药物 P 似乎是一种奇迹药物,能将死亡率降低 。
正确的分析(奇迹消失):
现在,让我们成为时间的严谨记账员。我们不能标记一个人,我们必须标记一段段的时间。一个人可以先是未暴露,然后变为暴露。
让我们计算正确的率比: 。 奇迹消失了。事实上,数据现在表明该药物与死亡率增加 相关。这个“奇迹”不过是一个统计错觉,它是通过将 人日的保证无死亡的“永生”时间错误分类并加到治疗组的记录中而产生的。这人为地稀释了他们的死亡率,使得药物看起来效果很好。
为了更清楚地看到这一点,考虑一个仅有四名患者的微型队列:
有缺陷的分析会将患者 1、2 和 4 从第零天起就归入“暴露”组,给予他们 周的“暴露”时间,其中有 2 例死亡。患者 3 是“未暴露”组,有 7 周时间和 1 例死亡。率比为 ,这是一个虚假的保护效应。正确的分析仔细地分配时间:暴露时间仅为开始服药后( 周),而未暴露时间包括开始服药前的时期( 周)。暴露组的率为 ,未暴露组为 ,得出的率比为 ——风险增加了一倍。结论完全反转。
这个错误不仅仅是教科书上的奇闻轶事;它是现实世界研究中一个持续存在的陷阱。它可能隐藏在各种场景的显眼之处。
医学的数字时代: 借助海量的电子健康记录(EHR),研究人员可以追踪成千上万的患者。一个常见的分析可能将“暴露”组定义为“诊断后 30 天内配取了药物 X 处方的患者”。这听起来很具体,但却是经典的陷阱。它含蓄地选择了那些存活了最初 30 天以配取处方的患者,并将那第一个月的永生时间错误地归因于药物的效果。
金标准的盲点: 即使是随机对照试验(RCTs),这一证据的黄金标准,也无法幸免。RCT 的主要分析通常是“意向性治疗”(intention-to-treat),即患者按照他们被随机分配到的组别进行分析,无论他们是否真的服用了药物。这保留了随机化的好处。但有时研究人员想知道实际服用药物的效果,于是他们进行“符合方案”(per-protocol)分析。如果他们将“依从者”定义为“在最初四周服用了药物的患者”,他们就为依从者组创造了四周的永生时间,从而使结果产生偏倚。这表明该偏倚是分析中的缺陷,而不必然是数据收集或研究设计中的缺陷。
一个令人困惑的近亲:健康工人效应: 在职业研究中,我们经常发现工厂工人比普通人群更健康。这种健康工人效应是一种选择偏倚:人们必须足够健康才能首先获得并保住一份工作。这与永生时间偏倚不同。然而,如果我们随后在该工厂内部进行一项研究,比如评估一个自愿性健康计划,我们可能在其上再引入永生时间偏倚。如果我们比较最终参加计划的工人与从未参加的工人,我们就回到了基于未来事件(参加计划)来定义分组的同一个陷阱中。厘清这些不同的偏倚是流行病学的巨大挑战和魅力之一。
那么,我们如何逃离这个时间陷阱呢?解决方案在概念上很简单,尽管它需要更复杂的工具。我们必须停止将人视为固定类别中的一员。相反,我们必须将暴露视为一种可以随时间变化的动态状态。我们必须尊重时间之箭。
在我们的分析中,患者的状态在开始时并不是固定的。它是一个时变协变量。从第 0 天到第 29 天,我们的患者处于“未暴露”状态。在第 30 天,他们转变为“暴露”状态。他们的人时被分割并在每个时刻贡献给正确的类别。
现代统计模型正是为此设计的。生存分析的主力工具——Cox 比例风险模型,非常适合这项任务。Cox 模型的魔力在于它看待时间的方式。在每一个事件(如死亡)发生的瞬间,该模型都会对研究中所有仍然存活的人进行一次快照。然后它会问一个简单的问题:“在这一特定的幸存者群体中,刚刚死亡的人在这个确切时刻处于‘暴露’状态的可能性,与其他人相比是更高还是更低?”
通过使用一个时变的暴露指标,比如 ,它可以在治疗时从 变为 ,模型就能得到正确的答案。而有缺陷的分析,使用一个固定的“曾经暴露”变量 ,在治疗实际开始前的每一个快照中都向模型输入了错误信息,从一开始就注定了分析的失败。 正确方法的美妙之处在于它忠实地将现实表现为一个随时间展开的过程,而不是一张静态的图片。
永生时间偏倚是科学推理中一个深刻的教训。它是一个源于简单错误的悖论:让未来的知识污染我们对过去的理解。它作为一个至关重要的提醒,告诫我们在探寻因果关系时,时间之箭必须永远指向前方。正确的分析尊重这一基本原则,仔细追踪每个个体随时间展开的叙事。这样做,它使我们能够驱散统计学的幽灵,看到世界的真实面貌,摆脱虚假奇迹的幻象。
既然我们已经见识了“机器中的幽灵”——这个我们称之为永生时间偏倚的、奇特而微妙的时间把戏——你可能开始好奇它还潜伏在何处。在剖析了它的解剖结构之后,我们现在可以去它的自然栖息地进行一场“狩猎之旅”。你会发现,正如科学中常有的情况一样,一旦你学会看清某样东西,你就会开始到处看到它。其原理总是一样的:未能尊重时间之箭。但它的伪装多种多样,其后果波及医学、数据科学,乃至我们如何从观察中学习的哲学本身。
永生时间偏倚最常见也最危险的猎场是在医学领域,特别是在药物流行病学中,即研究药物在广大人口中的效果。在这里,赌注不仅仅是学术上的;一个有偏倚的分析可能使有害的药物显得安全,或使无用的药物看似灵丹妙药。
想象一个简单的观察性研究。我们跟踪一组从医院出院后的患者。其中一些人在不同的时间点开始使用一种新的预防性药物。其他人则从未开始使用。我们想知道这种药物是否能降低死亡率。一种天真的方法,也是在真实研究中被无数次使用过的方法,是将患者分为两个固定的组:“治疗组”(所有曾经接受过该药的人)和“未治疗组”(所有从未接受过该药的人)。然后,我们从患者出院时开始为每个人计时,并计算每组的死亡人数。
会发生什么呢?假设一位名叫 Ben 的患者注定要在第 30 天开始服药,并不幸地在第 40 天去世。在这种天真的分析中,他整个 40 天的随访时间都被扔进了“治疗组”的人时中。但请仔细观察!前 30 天是特殊的。为了让 Ben 能被纳入“曾治疗组”,他必须存活过最初的 30 天。根据我们分析的设计,那段时间是永生的。在这段时间里,治疗组不可能有任何死亡被计算在内。通过将这个保证无事件发生的人时错误地归类为“暴露”,我们人为地夸大了治疗组事件率的分母,使治疗看起来比实际更安全。
这不仅仅是一个理论上的奇谈。考虑一下关于头颈癌诱导化疗的研究,其中治疗在诊断后、但在其他疗法(如放疗)之前进行。或者关于心脏病发作后为预防未来事件而启动的药物研究。在所有这些案例中,随访开始(诊断、入院)和治疗开始之间都存在一个时间窗口。将这个“永生”窗口包含在治疗组的经历中会产生强烈的错觉。在许多真实世界和假设的情景中,这种偏倚是如此强大,以至于可以完全颠覆结论,使有害的治疗显得有保护作用,或使有益的治疗看起来效果更佳。
正如我们所见,解决方案在概念上很简单:我们必须迫使我们的分析遵循时间之箭。一个患者在接受治疗之前是未暴露的,在接受治疗的那一刻,他们切换为暴露状态。这被称为时间依赖性分析。通过正确地分类人时——将治疗前时期归属于未暴露的风险集,将治疗后时期归属于暴露的风险集——永生时间的幽灵便消失了。
队列研究,即我们随时间向前追踪群体,是这种时间谬误最明显的发生地。但同样的逻辑错误也可能在其他研究设计中表现出来,比如病例对照研究。在这种设计中,我们从结果开始:我们确定一组“病例”(例如,发生过心脏病的患者)和一组“对照”(没有发生过的患者)。然后我们回顾过去,比较他们之前对某种药物的暴露情况。
想象一个天真的设计,我们收集了病例,而对于对照组,我们只是在研究结束时从源人群中那些没有心脏病发作的人中进行抽样。然后我们问:“谁曾暴露于药物 X?”问题立刻就出现了。一个在与其匹配的病例发生心脏病发作日期之后才开始使用药物 X 的对照受试者,将被错误地归类为“暴露”。但要让这个对照者能被称为“暴露”,他必须在病例事件日期之后存活且没有心脏病发作。他的暴露状态是由未来的信息定义的,他在此期间的存活是有保证的。这系统性地夸大了对照组的暴露普遍率,从而产生了一个虚假的保护效应。
这里的优雅解决方案是时间依赖性原则的一个美丽体现。我们不是在研究结束时抽样对照组,而是执行发病密度抽样(或风险集抽样)。可以把它想象成在每次有病例发生时,暂停整个人群的“电影”。在那个确切的时刻——病例的指标日期——我们对所有仍在风险中(存活且无事件)的人进行快照,并从该组中随机抽样我们的对照组。然后,我们仅根据快照拍摄之前的历史来评估病例和对照组的暴露情况。这种方法确保了对照组在病例发生的那一刻,能真实地代表产生该病例的人群,从而完美地对齐了时间线,驱除了永生时间偏倚。
随着研究问题和数据的日益复杂,挑战以及应对挑战的工具也变得更加复杂。世界并非总是像“暴露”与“未暴露”那样简单。
也许为对抗永生时间偏倚及其他相关问题而开发的最强大的概念工具是目标试验模拟(target trial emulation)。这个想法的简单性中蕴含着深刻的智慧:在你接触观察性数据之前,你先写下你希望能运行的、用以回答你问题的完美、假设性随机对照试验(RCT)的方案。这个“目标试验”方案以绝对精确的方式规定了:
通过定义这些组成部分,永生时间偏倚从一开始就被设计排除了。每个人的随访都在同一时刻开始:即“随机化”的时刻(零时刻)。没有空间让一段保证存活期悄悄溜进一个组而另一个组没有。在制定了这份蓝图之后,你再使用观察性数据(通常来自电子健康记录,或 EHR)来尽可能地模拟这个试验,使用诸如逆概率加权等复杂的统计方法来调整因缺乏实际随机化造成的影响。这种规范化的做法强迫了思路的清晰,并防止了一整类与时间相关的偏倚。
当面临一个时间依赖性治疗时,研究人员通常面临两种有效策略的选择,但这两种策略回答的问题略有不同。一种是我们已经讨论过的时间依赖性模型。另一种是界标分析(landmark analysis)。
在界标分析中,你在随访开始后选择一个固定的时间点,比如第 30 天。然后,你的分析仅限于在第 30 天仍然存活且处于风险中的患者。你比较在 30 天这个节点上正在接受治疗的患者与未接受治疗的患者的结局,并从第 30 天开始为这个比较计时。这种方法巧妙地回避了界标点之前的永生时间。然而,它是有代价的:你扔掉了第 30 天之前的所有信息,并且你的结论不再是关于从基线开始的治疗效果,而是关于在存活到界标点这个条件下的效果。对于一个预测性问题来说,这是一个完美的方法:“对于一个已经撑到第 30 天的患者,他的预后如何?”
相比之下,时间依赖性模型使用所有数据,并试图回答一个更具病因学(因果)性质的问题,即关于治疗在整个过程中的效果。两者之间的选择是一个绝佳的例子,说明了正确的工具完全取决于你所问的问题。
真实世界是混乱的。有时,患者面临多种结局的风险。例如,在一项癌症研究中,患者可能死于他们的癌症(感兴趣的事件),也可能死于心脏病发作(一个“竞争风险”)。永生时间偏倚在这里仍然可能发生,其校正方法——将治疗建模为时变变量——仍然是核心原则。然而,它必须在一个更复杂的框架内应用,如特定原因风险(cause-specific hazards)或子分布模型(subdistribution models),这些模型是为处理竞争事件的纠结之网而设计的。
为什么这种偏倚感觉如此难以捉摸?因果关系的语言,特别是有向无环图(DAGs),为我们提供了一张地图,以惊人的清晰度将问题可视化。DAG 是一种图形,其中节点是变量,箭头代表因果效应。
想象一下,一个患者无法测量的“脆弱性”()既影响他存活到决策点()的几率,也影响他的最终死亡率()。存活到决策点()是在那个时间点接受治疗()的先决条件。天真的分析,通过错误地将永生时间归入治疗组,实际上是在对 和 的组合进行条件限制。在 DAG 的语言中,这种类型的条件限制会引发对撞偏倚(collider bias)。对撞偏倚是因果推断中的一个大忌;它在治疗 和结果 之间打开了一条非因果的“后门路径”,产生了一个我们误认为是治疗效果的虚假关联。
这种优雅、抽象的表述揭示了永生时间偏倚不仅仅是一个统计上的怪癖;它是因果推理中的一个根本性错误。它也解释了为什么那些解决方案是有效的。界标分析或目标试验模拟通过将整个研究限制在一个单一的层(例如,所有 的人)来起作用,这打破了对撞结构。而像边际结构模型(Marginal Structural Model)这样的时间依赖性分析,则通过正确地对人群进行加权,以重新创造一个仿佛每个时刻的治疗决策都不受混杂因素影响的世界,从而关闭了后门路径。
从病床边到黑板前,永生时间偏倚的教训是深刻的。它教导我们,时间,在数据分析中正如在物理学中一样,不是一个简单的背景。它是一个具有严格、向前方向的活跃维度。为了得到正确的答案,为了找到真正的因果效应,我们别无选择,只能跟随它的箭矢。