try ai
科普
编辑
分享
反馈
  • 竞争风险

竞争风险

SciencePedia玻尔百科
关键要点
  • 将竞争事件视为简单删失会导致对事件概率的高估,因为它忽略了信息性删失。
  • 竞争风险分析迫使我们在两个问题之间做出选择:一个是关于潜在机制的病因学问题(为什么?),另一个是关于现实世界结果的预后问题(会发生什么?)。
  • 原因别风险模型用于病因学研究,而亚分布风险模型(如 Fine-Gray 模型)用于为预后建模累积发生率。
  • 一个因素可能会增加特定原因的风险率,但同时通过增加竞争事件的风险,反而降低了该事件的累积概率。

引言

在任何事件发生时间数据的研究中,无论是追踪患者生存期还是预测机械故障,我们常常面临一个复杂情况:并非所有结局都生而平等。我们关心的事件可能会被另一个完全不同的事件所阻碍。这就是竞争风险的挑战,它是统计学中的一个基本概念,改变了我们解释概率、因果关系和现实世界结果的方式。传统的生存分析方法,如 Kaplan-Meier 估计量,在这种情况下常常力不从心。将竞争事件视为简单的“删失”观察——就好像研究对象只是退出了研究——是一个严重错误,可能导致有偏的结论和危险的乐观预测。这里的关键知识差距不仅在于理解为什么这是一个问题,更在于如何正确地构建问题以获得有意义的答案。

本文为驾驭这一复杂领域提供了清晰的指南。我们将首先探讨竞争风险的核心​​原理与机制​​,对比有缺陷的方法与两种主要的有效框架:一种用于理解潜在原因(病因学),另一种用于预测现实世界的概率(预后)。随后,在​​应用与跨学科联系​​部分,我们将看到这些强大的概念如何应用于解决从医学、公共卫生到工程学和人工智能等领域的关键问题。

原理与机制

想象一下,你正在追踪一支在火星上执行任务的探测车队。你的主要任务是确定一辆探测车成功完成其五年任务的概率。然而,探测车可能因多种方式发生故障。我们感兴趣的主要事件是电池耗尽,我们称之为“任务结束”。但探测车也可能遭遇灾难性的机械故障,比如轮子陷进深沙里。一个事件(陷车)的发生,永久地阻止了另一个事件(电池在任务结束时自然耗尽)的发生。这就是​​竞争风险​​的本质:一个事件的发生阻止了我们感兴趣的事件的发生。

理解如何思考这些相互竞争的可能性,是统计学中最微妙也最美丽的挑战之一。一种天真的方法会让你误入歧途,而正确的路径则揭示了关于概率和因果关系的更深层次的真理。

简单删失的诱惑

在标准的生存分析中,当一个研究对象因与所研究事件无关的原因离开研究时(例如,他们搬家了或研究经费耗尽),我们称其为​​删失​​。我们只是停止观察他们,但我们做出了一个关键假设:这种删失是​​非信息性的​​。这意味着我们假设退出研究的人与留在研究中的人未来发生事件的风险是相同的。

将竞争事件(比如我们的火星探测车被困)视为另一种形式的删失是很有诱惑力的。毕竟,一旦探测车被困,我们就再也无法观察其电池寿命了。那么,为什么不直接将其标记为“删失”然后继续分析呢?这是一个危险的错误。一辆陷在沙里的探测车,其电池耗尽的未来概率恰好为零——它已经从仍然可以完成任务的探测车的“风险集”中被永久移除了。这是终极的​​信息性删失​​,它打破了像 Kaplan-Meier 估计量这类标准方法的基本假设。

如果我们忽略这一区别,将竞争事件视为非信息性删失,我们就会系统性地​​高估​​我们感兴趣事件的概率。为什么?因为标准方法实际上假装那些经历了竞争事件的个体仍在游戏中,只是从我们的视线中隐藏了。它计算的是在一个竞争风险不存在的假想幻想世界中,我们所关注事件发生的概率。这有时被称为​​净风险​​。但在现实世界中,探测车可能会被困,实际概率,即​​粗风险​​,会更低。例如,一个简单的计算可能显示,在一个没有机械故障的世界里,五年内电池耗尽的概率是 18%。但在现实世界中,一些探测车会被困住,观察到电池耗尽的真实机会可能只有 16%。这种天真的方法通过忽视现实世界的风险,夸大了我们的期望。

那么,我们如何才能正确处理呢?事实证明,没有一种唯一正确的方法,而是有两种——每一种都对应一个不同但同样重要的问题。

病因学视角:什么是潜在过程?

第一种方法关注潜在的机制。让我们提出一个病因学问题:“考虑到一辆探测车仍在运行,其电池在当前瞬间发生故障的瞬时风险是多少?”这就是​​原因别风险​​。它是对内在故障过程的一种度量,与其他可能出错的事情隔离开来。可以把它想象成单一故障路径的强度。对于人类而言,这可能是心脏病发作的瞬时风险,与癌症风险分开。

为了模拟某个因素(比如一种新型太阳能电池板)对电池故障原因别风险的影响,我们使用​​原因别 Cox 模型​​。这个过程出人意料地直接:为了模拟电池故障的风险,我们将所有陷在沙里的探测车在它们被困的时刻视为删失。

这听起来就像我们刚刚批评过的天真方法!但关键区别在于:我们现在完全清楚,我们正在估计的量是原因别风险率,而不是事件的总概率。我们正在问一个集中的、机械性的问题。这种方法对于研究生物学或物理机制非常强大。某种药物是否降低了肿瘤进展的瞬时速率?一种新合金是否降低了发动机金属疲劳的速率?这些都是关于病因学的问题,而原因别风险是回答它们的正确工具。

然而,即使在这里,也潜藏着一个微妙的陷阱。如果我们的新太阳能电池板不仅影响电池寿命,还使探测车更重,从而增加了其被困的风险,我们的分析就可能被扭曲。那些装有新电池板且在任务后期仍在运行的探测车,是那些没有被困的。它们是一个经过筛选的、或许更稳健的子群体。将我们的分析局限于“无事件”的探测车,可能会引入​​选择偏倚​​,使我们对太阳能电池板单独对电池寿命影响的纯粹因果解释变得复杂。

预后视角:实际会发生什么?

让我们换个问题。我们不再问关于潜在速率的问题,而是问一个实际的、预后性的问题:“一辆探测车在其五年任务结束时因电池故障而报废的实际概率是多少?”这是现实世界的概率,是我们进行预测和评估总体结果所需要的量。这就是​​累积发生函数 (CIF)​​。

CIF 的美妙之处体现在一个单一而优雅的思想中。在某个时间点之前因 A 原因失败的概率,是在此之前每个瞬间发生此事的概率之和(或者更正式地说,是积分)。而在特定时刻 ttt 因 A 原因失败的概率是什么呢?它是两件事的乘积:

  1. 到那一刻为止,从所有事件(原因 A、原因 B 等)中存活下来的概率,S(t)S(t)S(t)。
  2. 恰好在那个时刻因原因 A 失败的瞬时风险,也就是原因别风险,hA(t)h_A(t)hA​(t)。

因此,CIF 是一个美妙的综合体:

FA(t)=∫0thA(u)S(u)duF_A(t) = \int_0^t h_A(u) S(u) duFA​(t)=∫0t​hA​(u)S(u)du

这个方程揭示了竞争风险的深层真理:事件 A 的概率不仅取决于其自身的风险率(hAh_AhA​),还取决于所有竞争事件的风险率,因为它们被融入了总生存概率 S(u)S(u)S(u) 中。

这种相互作用导致了一个有趣的悖论。想象一种强效的化疗药物。假设它极大地提高了癌细胞被杀死的瞬时速率(对于“治愈”有很高的原因别风险)。然而,这种药物也有严重的毒副作用,增加了因治疗并发症死亡的瞬时速率(对于竞争风险有很高的原因别风险)。完全有可能,由于通过副作用杀死了太多的病人,这种药物反而降低了一年内被治愈的总概率。尽管治愈的过程更强烈,但能活得足够长久从中受益的人却更少了。更高的瞬时风险可能导致更低的累积概率。

模拟现实世界:亚分布的巧妙技巧

如果我们想直接对 CIF——即现实世界的概率——进行建模,我们需要一种不同的模型。这就是 ​​Fine-Gray 模型​​发挥作用的地方,它使用了一种巧妙的、反直觉的技巧,涉及一种叫做​​亚分布风险​​的东西。

为了理解这个技巧,让我们回顾一下“风险集”的概念。对于原因别风险,任何时间的风险集只包括那些仍然存活且无事件的个体。Fine-Gray 模型重新定义了风险集。为了模拟电池故障的概率,它将被困在沙里的探测车保留在风险集的分母中。

这似乎很奇怪。一辆被困的探测车怎么可能“有风险”发生电池故障呢?它不可能。但是通过将这些“注定失败”的个体保留在分母中,模型正确地“稀释”了电池故障的速率。它承认了电池故障的候选池正在缩小,不仅因为电池故障本身,也因为机械故障。这种数学操作确保了得到的速率——亚分布风险——恰好是直接模拟 CIF 所需的速率。

这给了我们两个主要工具:

  • ​​原因别模型:​​ 最适合​​病因学​​研究。它们问“为什么”,并探索一个因素对特定生物或机械路径的直接影响。
  • ​​Fine-Gray(亚分布)模型:​​ 最适合​​预后​​。它们问“如果……会怎样”,并预测在一个充满竞争可能性的世界中一个事件的总概率。

这两个世界遵循不同的规则。一个暴露因素对原因别风险的影响可能随时间保持不变(恒定的原因别风险比),但对亚分布风险的影响却是时变的。这是因为亚分布风险是所有起作用的原因别过程的复杂混合体。最终,没有单一的“正确”模型。只有不同的问题。竞争风险统计学的美妙之处不在于找到一个单一的答案,而在于欣赏通过提出正确问题所带来的清晰。

应用与跨学科联系

在探索了支配竞争风险世界的原理和机制之后,我们现在来到了探索中最激动人心的部分:看这些思想在实践中的应用。一个科学基本概念的真正美妙之处不仅在于其内在的优雅,还在于它能够照亮和连接广阔的、看似无关的问题领域。生命,以其美丽而时而悲剧的复杂性,不是一条单轨铁路上的旅程;它是一片分岔路的风景。竞争风险的数学是我们在这片风景中的地图和指南针,其应用从医生的诊所延伸到人工智能的前沿。

医生的两难:病因学与预后

医学的核心存在着一种根本性的双重目的。一方面,科学家-医生试图理解病因学:“是什么生物过程导致了这种疾病?这种药物或风险因素如何影响该过程的瞬时速率?”另一方面,临床医生和患者需要一个预后:“综合来看,我未来五年内患上这种疾病的实际机会是多少?我的命运将如何?”

这两个问题并不相同,而竞争风险分析提供了精确的工具来回答这两个问题。

思考一下治疗一名接受了造血干细胞移植 (HSCT) 后的患者所面临的挑战。患者面临两种主要的、相互竞争的命运:他们原来的癌症可能复发,或者他们可能死于非复发死亡率 (NRM),这可能是由治疗本身的严酷性造成的。为了开发更好的治疗方法,研究人员可能希望分离出一种新疗法对复发这一生物过程的影响。对于这个病因学问题,他们会模拟​​原因别风险​​:即在那些仍然存活且尚未复发的患者中,复发的瞬时风险。这就像测量汽车的速度,但你只记录仍在比赛中的汽车。使用标准的 Cox 比例风险模型,将其他原因导致的死亡视为删失事件,是回答这个特定的“机械性”问题的完全有效的方法。

然而,坐在诊所里的患者想知道他们的总体预后。对他们来说,复发和与治疗相关的死亡是不同的结局,但因治疗而死并非一个可以被“删失”的抽象事件——它是一个非常真实的可能性,它使他们永远不必再担心复发。要回答患者的问题,“到圣诞节时我复发的绝对风险是多少?”,我们需要​​累积发生函数 (CIF)​​。该函数通过考虑一些患者将因 NRM 这一竞争事件而永久从风险中移除这一事实,来计算复发的概率。Fine-Gray 亚分布风险模型正是为此目的而设计的工具。它使我们能够理解患者的特征如何预测他们的绝对风险,即他们在现实世界中发生特定结局的概率。原因别和亚分布这两种方法不是竞争对手;它们是合作伙伴,各自为这个谜题提供了不同且至关重要的一块。

揭示隐藏的真相:从癌症发病率到健康公平

竞争风险带来的最深刻的见解之一是它能够揭示那些原本被隐藏甚至看似矛盾的真相。一个经典的应用是在癌症流行病学中。想象一下追踪一群老年人,以测量某种特定癌症的发病率。有些人会得癌症,而另一些人会先死于心脏病等其他原因。如果我们天真地分析癌症风险,仅仅将其他原因的死亡当作那些人只是退出了研究(即删失他们),我们将不可避免地高估癌症的真实风险。为什么?因为 Kaplan-Meier 方法,这种天真方法中使用的标准工具,实际上是在一个假想的、无人会死于心脏病的世界里估计风险。通过忽略大部分人口已从风险中移除,它夸大了其他所有人的概率。

这一原则在健康差异研究中产生了最引人注目且最重要的后果。让我们来猜一个谜:一个弱势社区怎么可能与一个优势社区在某种疾病(如终末期肾病 ESKD)上拥有完全相同的潜在生物学风险,但最终其成员在十年内实际被诊断出患有该病的百分比却更低?

答案就在于竞争风险。生活在结构性弱势社区的人们通常面临着更重的其他健康问题负担,并且因其他原因的死亡率更高。虽然他们患 ESKD 的瞬时生物学风险(原因别风险)可能与更健康的群体相同,但他们因竞争原因(心脏病、中风、其他疾病)死亡的风险更高,这意味着他们中能活到足以发展出 ESKD 的人更少。更高的“死亡风险”更快地耗尽了他们的风险人群。一个天真的分析可能会错误地得出结论,认为弱势群体的 ESKD 风险较低。然而,一个正确的竞争风险分析却讲述了真实而悲惨的故事:ESKD 的绝对风险之所以较低,是因为过早死亡的绝对风险要高得多。这不是一个统计学上的奇闻趣事;它是一个清晰、可量化的重大公共卫生危机的证明,一个没有竞争风险语言就无法讲述的故事。

设计更优结果:从药物剂量到临床决策

除了揭示真相,竞争风险分析还是一个用于设计更优医疗结果的实用工具。

在​​临床药理学​​中,为一种新药找到合适的剂量是一种微妙的平衡艺术。对于患有慢性肾脏病等药物清除能力受损的患者来说尤其如此。更高的剂量可能更有效,但它也增加了药物暴露,可能导致毒性。此外,疾病和药物都可能增加最终的竞争事件——死亡的风险。为了找到安全有效的剂量,我们必须理清这些效应。我们需要知道:在给定的剂量下,在患者也可能因其他原因死亡的现实世界中,发生毒性副作用的风险是多少?只有竞争风险框架才能正确评估这种权衡。

在​​随机临床试验​​这个医学证据的黄金标准世界里,竞争风险不再被仅仅看作是一种麻烦。它们被正式承认为“伴随事件”——即试验开始后发生并影响结局解释的事件。现代试验方案,遵循如 ICH E9 (R1) 附录等指南,要求研究人员预先明确他们将如何处理竞争事件。它们是将被视为复合失败的一部分?还是目标估计量将针对一个它们不发生的假设情景?这种正式的认可表明,这个概念对于医学证据的定义本身已经变得何等核心。

这种严谨性延伸到了新的​​临床预测模型​​的开发。假设我们开发了一个能预测患者心脏病发作风险的复杂模型。我们如何知道这个模型在临床环境中是否真的有用?决策曲线分析 (DCA)是回答这个问题的强大工具。它量化了在一系列风险阈值下,使用模型来做治疗决策的净收益。但要使分析有效,所评估的“风险”必须是患者真实的、绝对的风险。这意味着它必须是在存在非心脏性死亡这一竞争风险的情况下正确计算的心脏病发作的累积发生率。一个预测有偏的、基于 Kaplan-Meier 风险的模型在纸面上可能看起来很 impressive,但可能导致糟糕的临床决策,要么过度治疗那些本会死于其他原因的患者,要么对那些处于真实风险中的患者治疗不足。

新前沿:人工智能时代下的竞争风险

随着医学拥抱机器学习和人工智能的力量,竞争风险的原则变得比以往任何时候都更加重要。人们很容易将像​​随机生存森林​​这样的先进算法看作一个“黑匣子”,认为它可以从你输入的任何数据中找到模式。但要让该算法产生有意义的结果,它必须建立在正确的统计原则基础上。

一个标准的用于生存分析的随机森林通过生长数千棵决策树来学习,每棵树都试图将数据分成具有不同生存结果的组。为了将其应用于竞争风险,算法的核心——分裂规则——必须改变。在每棵树的每个分支处,算法必须问一个原因别的问题:“哪种数据划分最能将死于败血症的患者与不会死于败血症的患者分开,同时正确考虑那些可能死于心脏病的患者?”然后,在树的最终“叶子”中,它必须为每个单独的原因估计累积发生率。必须教会算法竞争命运的法则,才能做出明智的预测。

这种经典原则与现代算法的结合在​​影像组学​​等领域得到了完美体现,该领域通过医学图像中的复杂模式来构建模型以预测患者结局。为了建立一个可信赖的模型来预测,例如,癌症复发的 2 年绝对风险,研究团队必须做出正确的选择:对于这个预后目标,Fine-Gray 模型比原因别 Cox 模型更直接。此外,他们必须根据 TRIPOD 等指南透明地报告其过程的每一步,确保科学界确切了解他们如何定义结局以及如何处理始终存在的竞争风险现实。

从医生的直觉到算法的逻辑,竞争风险的概念提供了一个统一的框架。它是一个使现实变得更清晰的镜头,让我们能够提出更精确的问题,揭示更深刻的真相,并最终,在面对充满多种可能路径的不确定未来时,做出更好的决策。