首次事件发生时间分析

玻尔百科

定义

首次事件发生时间分析是一种跨学科的统计框架，用于研究特定事件发生的时间而非仅仅是否发生，广泛应用于医学、社会计划及生物化学领域。该方法利用 Kaplan-Meier 估计量等技术处理不完整的截尾数据，并在临床试验中通过复合终点来提高统计效能。在分析过程中，必须谨慎处理竞争风险，以准确建模事件的生物学发生率或预测现实世界的累积发病率。

关键要点

首次事件发生时间分析是一个统计框架，研究的不是事件是否发生，而是何时发生，它使用 Kaplan-Meier 估计量等技术来处理不完整（删失）数据。
在临床试验中，复合终点结合了多个结果以提高统计功效，但也存在稀释效应、掩盖危害以及忽略疾病总负担的风险。
竞争风险的存在要求在对事件的生物学速率（特定原因风险率）进行建模与预测事件的真实世界概率（累积发生率）之间做出谨慎选择。
这种分析方法具有高度的跨学科性，应用范围从医学领域预测患者结局，到社会项目中确立因果关系，再到生物学和化学领域为现象建模。

引言

从医学到工程学，许多领域的问题往往不是事件是否会发生，而是何时发生。这种对事件发生前持续时间的关注，是首次事件发生时间分析的核心主题。这是一个强大的统计框架，用于理解随时间展开的过程。然而，研究这些过程带来了一个根本性的挑战：我们很少能观察到它们的终结，从而导致数据不完整或“删失”。如果忽略这些删失信息，将会导致严重的结论偏倚，低估生存期或寿命。

本文剖析了为应对这一挑战而发展的精妙解决方案。在第一章原理与机制中，我们将深入探讨删失的核心概念，探索经典的 Kaplan-Meier 方法来估计生存率，并审视在临床研究中复合终点和竞争风险的策略性使用及其潜在陷阱。随后，在应用与跨学科联系一章中，将展示该框架卓越的通用性，说明相同的原理如何应用于医学中预测疾病风险、评估社会政策、描绘进化历程，乃至为单个化学反应计时。通过探讨这些主题，读者将全面理解我们如何能够在知识不完整的情况下，对未来进行统计推理。

原理与机制

在我们理解世界的征程中，我们通常不仅关心事件是否发生，更关心何时发生。这颗恒星在变成超新星之前会燃烧多久？患者在确诊后能活多久？一种新药需要多长时间才能显示效果？这种对“事件发生时间”的关注，是一个兼具优雅与实用的研究领域的核心，它是概率论、医学和工程学的美妙交集。但要掌握其原理，我们必须首先面对一个根本性的挑战：我们很少能永远观察下去。

看不见的挑战

想象一下，你负责一家生产新型长寿命灯泡工厂的质量控制。你的任务是确定它们的典型寿命。你取一批100个灯泡，打开开关，并启动秒表。随着时间流逝，灯泡开始熄灭。你尽职地记录下每个灯泡熄灭的时间。但一年后，你的老板告诉你实验必须结束。那一刻，还有30个灯泡仍然亮着。它们的寿命是多久？你不知道。你只知道它们的寿命至少是一年。

在这一年里，也许有10个灯泡卖给了需要替换的顾客。你和他们失去了联系。你不知道它们的灯泡是一天后烧坏了，还是仍在工作。你所知道的只是，它们一直持续到离开你视线的那一刻。

这种不完全观察的问题，是事件发生时间分析的核心挑战。用统计学的语言来说，这些观察——那些在研究结束时仍在工作或失访的灯泡——并非“失败”。它们是删失的。具体来说，它们是右删失的，因为真实的事件时间位于我们在时间轴上最后观察点的右侧。

人们很容易将此视为缺失数据并将其丢弃。那将是一个严重的错误。一个能完整存活一年而未失败的灯泡提供了至关重要的信息。它告诉我们长寿是可能的。忽略这些存活者，就像仅通过研究患病者来判断一个群体的健康状况；你将严重低估该群体的整体健康水平。生存分析的伟大见解在于如何利用每一丝信息，尤其是来自存活者的信息。

概率的阶梯：Kaplan-Meier 方法

那么，当部分数据被删失时，我们如何计算“平均”寿命呢？简单的平均值是行不通的。解决方案是现代统计学中最优雅的思想之一。我们不问“存活五年的概率是多少？”这个大问题，而是将其分解为一系列更小、更易于处理的问题。

想象一下我们所有的研究对象——无论是病人还是灯泡——在时间零点都从一个梯子的顶端开始。梯子的横档代表至少发生一次事件（失败）的时刻。在每一级横档，我们都停下来问一个简单的问题：“目前还在梯子上的所有人中，有多少比例能安然度过这紧接着的一步？”

存活到任何时间点 $t$ 的总概率，就是成功走完到该时间点为止每一步的概率之积。如果存活过第一步的几率是 $0.99$ ，存活过第二步（前提是已存活过第一步）的几率是 $0.98$ ，那么同时存活过这两步的几率就是 $0.99 \times 0.98$ 。这就是 Kaplan-Meier 估计量的核心逻辑，一种从第一性原理估计生存概率的优美方法。

其著名的公式如下： $\hat{S}(t) = \prod_{t_{i} \le t} \left(1 - \frac{d_{i}}{n_{i}}\right)$ 让我们将此从数学语言转化为直观理解。符号 $\hat{S}(t)$ 是我们对存活超过时间 $t$ 的概率的估计值。大的 $\Pi$ 符号只是一个表示乘法的数学符号——代表我们一步一步的过程。在每个事件时间 $t_i$ ，我们关注“从梯子上掉下来”的受试者比例，即 $d_i$ （死亡或事件数）除以 $n_i$ （在该时刻之前处于风险中的受试者总数）。因此，存活过这一步的比例是 $1 - d_i/n_i$ 。我们只需将截至时间 $t$ 的所有事件时间的这些存活比例相乘。

真正的魔力在于 $n_i$ 这一项，即风险集。在任何给定时间，谁处于“风险中”？风险集包括所有已进入研究且尚未发生事件或被删失的受试者。当一个病人被删失时——比如说，他们在第6个月移居到另一个国家——他们不被算作失败。他们只是优雅地走下梯子。在未来的计算中，如第7、8个月及以后，他们将不再被包含在风险集 $n_i$ 中。通过这种方式，他们截至第6个月的存活信息对估计做出了贡献，但他们未知的未来并不会使估计产生偏倚。同样，如果一项研究的入组时间是交错的，那么一个人在入组之前不能被计入风险集；这被称为左截断。风险集是一个动态变化的群体，随着时间的推移，因事件和删失而不断缩小。

一体式赌注：复合终点

在临床试验的世界里，我们通常不仅关心预防一种不良结局，而是关心一整族不良结局。对于一种新的心脏病药物，我们可能关心预防心血管死亡、非致死性心肌梗死（MI）和非致死性卒中。为每一种结局单独进行试验效率会很低。因此，研究者们通常使用复合终点，即关注的事件是这些组成部分中任何一个的首次发生。

这样做的主要动机是统计功效。事件，特别是像死亡这样的严重事件，可能很罕见。如果我们只关注一种类型的事件，可能需要一项规模巨大、长达十年的研究才能观察到足够多的事件以得出确切的结论。通过将几个相关的事件捆绑在一起，我们增加了观察到的事件总数。这使得试验可以规模更小、速度更快、更具可行性，这意味着我们可以更有效地评估新疗法。

魔鬼在细节中：复合终点的陷阱

然而，这种优雅的简化伴随着隐藏的复杂性。就像在一场多匹马的比赛中下注一样，复合终点可能出人意料地难以解释。其表面的简单性可能掩盖了更为复杂的现实。

首先是稀释问题。想象一个复合终点由一个非常频繁但次要的事件（组分B）和一个罕见但关键的事件（组分A）组成。如果一种新药对组分A有强大的保护作用，但对组分B没有影响，那么复合结果将是一个加权平均值。组分B的大量事件（药物在其中无效）可能会“淹没”或稀释来自组分A的重要信号。矛盾的是，向终点添加一个组分有时反而会使检测真实效应变得更加困难，尽管事件数量增加了，统计功效却降低了。

其次是掩盖问题。这甚至更危险。如果一种药物对一个组分有益，但对另一个组分有害呢？例如，反映著名的糖尿病药物 rosiglitazone 的 RECORD 试验的数据表明，它可能与心肌梗死风险持平或略有降低相关，但却增加了心力衰竭的风险。当合并成一个单一的复合数字时，这些相反的效应可能会相互抵消，导致得出“无总体效应”的误导性结论，这既掩盖了真实的益处，也掩盖了真实的危害。这就是为什么监管机构坚持要求单独报告每个组分的结果。

最后，是“仅首次事件”问题。根据定义，标准的首次事件发生时间分析在患者发生第一次事件后就结束了。考虑一个患有慢性病的患者，在使用安慰剂的情况下，一年内住院五次。而使用一种新药后，他们只有一次轻微的住院。在首次事件发生时间分析中，这两名患者几乎被同等对待——他们各自都发生了一次事件。该分析对药物在疾病总负担和复发事件上的深远影响是视而不见的 [@problem_id:4541888, @problem_id:5001517]。

十字路口：竞争风险

当事件不仅仅是一个方便的捆绑，而是在根本上相互竞争时，最后一层复杂性便出现了。一个癌症患者如果已经死于癌症，就不可能再死于心脏病发作。一个事件的发生排除了另一个事件的发生。这些被称为竞争风险。

这个看似简单的事实迫使我们必须极其精确地定义我们所问的问题，因为它分裂为两条截然不同的路径：

病因学问题： 一项治疗对特定事件（比如心肌梗死）的潜在生物学发生率有何影响？这是在当前存活且可能发生该事件的人群中提出的问题。这是一个关于过程本身的机理问题，通过对特定原因风险率进行建模来回答。
预后问题： 一位65岁的患者在未来五年内经历心肌梗死的实际概率是多少？这需要考虑到他们可能先死于其他原因的现实。这是一个真实世界的预测问题，通过对累积发生率函数进行建模来回答。

这两个问题有不同的答案，并需要不同的统计工具。混淆它们可能导致严重错误。例如，一个常见的错误是使用 Kaplan-Meier 方法分析心肌梗死风险，同时将其他原因导致的死亡视为简单的删失。这在根本上是错误的，因为它估计的是在一个假设无人会死于其他原因的世界里心肌梗死的风险——一个不存在的世界。

进入首次事件发生时间分析的旅程始于一个简单的问题，但它引导我们穿越一个充满深刻统计学乃至哲学思考的领域。它迫使我们直面不完整的知识、简单性与准确性之间的权衡，以及我们对未来所提问题的精确本质。认识到这些挑战，推动了新方法的发展，例如复发事件分析或像赢率 (win ratio) 这样的分层终点，后者根据临床重要性对结局进行优先排序。这个领域提醒我们，在科学中，如同在生活中一样，理解何时发生通常与理解什么发生了同等重要。

应用与跨学科联系

在经历了首次事件发生时间分析的原理与机制之旅后，我们可能会留下一种印象，认为它是一个优美但抽象的数学框架。事实远非如此。这种思维方式并非局限于教科书的页面；它是科学家、医生、工程师乃至社会科学家观察和解释世界的强大透镜。它是回答生命中最持久的问题之一的科学：何时？

我们所开发的工具每天都被用于做出可能关乎生死的决策，用于揭示地球上生命的演化历史，以及用于设计未来的技术。在本章中，我们将探索这一广阔的应用领域，看看“事件风险率”这一个统一的概念如何为范围惊人的各种现象带来清晰的认识。

基因与人的寿命：医学与公共卫生

或许，事件发生时间分析最直观的应用是在医学领域，那里的问题往往是个人化且深刻的。思考一下水痘-带状疱疹病毒，它在童年引起水痘后，便潜伏在我们的神经中。对许多人来说，它永远保持沉默。但对另一些人来说，它会重新激活，导致一种被称为带状疱疹的痛苦病症。这个风险不是恒定的。一个健康的30岁年轻人重新激活的几率非常低，但随着我们年龄的增长，免疫系统减弱，风险也随之攀升。流行病学家可以通过定义一个特定年龄的风险函数来对此建模——这就像一个个人风险刻度盘，随着岁月流逝而缓慢调高。通过在一生中对这个变化的风险进行积分，他们可以计算出在某个特定年龄之前（比如从40岁到80岁）患上带状疱疹的累积风险。这不仅仅是一项学术活动；它为疫苗接种策略和公共卫生规划提供了信息。

然而，生活很少如此简单。一个人的健康旅程不是一场只有一个终点的赛跑。想象一个接受了肺移植的儿科患者。医生和家人焦急地观察着移植物衰竭的迹象。但这不是孩子面临的唯一风险；不幸的是，他们也可能因感染或与移植物本身无关的其他并发症而死亡。这些就是竞争风险。如果我们想知道一个孩子到五岁时经历移植物衰竭的“真实世界”概率，我们不能简单地忽略那些因其他原因死亡的孩子。这样做就像观看一场马拉松比赛，看到一个选手因中暑倒下后，却假装他们仍在比赛中争夺胜利。这不诚实地夸大了我们所关注事件的发生几率。

事件发生时间分析为这种情况提供了诚实的记账方法。恰当的度量是累积发生率函数 (CIF)，它计算特定事件（如移植物衰竭）在某个时间点前发生的概率，同时正确地考虑到其他事件（如死亡）可能会使一个人永久退出风险集。

同样的原则在遗传医学中也至关重要。考虑一个携带 Lynch 综合征基因突变的携带者，该突变赋予了结直肠癌的高风险。为了给这个人提供咨询，遗传学家需要估计其终生风险——即在50岁、60岁或70岁前患上癌症的概率。这正是癌症的 CIF，其中由其他原因导致的死亡是竞争风险。在这种情况下，CIF 通常被称为基因的外显率。统计学家可以拟合优雅的参数模型，如 Weibull 分布，或更灵活的半参数模型，如 Cox 模型，来从登记数据中估计这种特定年龄的风险，为患者关于筛查和预防性手术的决策提供宝贵信息。

随着我们医疗技术的进步，我们对预测的雄心也在增长。在影像组学领域，研究人员从CT扫描等医学影像中提取数千个细微特征，希望找到能预测患者未来的模式。对于一个头颈癌患者来说，关键问题是：“我的癌症在两年内复发的个人概率是多少？”同样，其他原因导致的死亡是一个竞争风险。在这里，统计工具的选择取决于目标。如果目标是理解生物学机制——即某个特定特征如何影响那些仍处于风险中的人癌症复发的瞬时速率——那么特定原因风险模型是合适的。但如果目标是纯粹的预测——给患者一个关于他们绝对两年风险的最准确估计——那么一个旨在直接估计 CIF 的模型，如 Fine-Gray 模型，是更直接和自然的选择。

最后，这些原则是现代临床试验赖以建立的基石。当一家制药公司测试一种新的心力衰竭药物时，其主要目标通常是看它是否能减少复合终点——即心血管死亡、心力衰竭住院或紧急门诊等事件组合——的首次发生时间。虽然合并终点可以增加事件数量，使试验更高效，但它也充满了风险。如果药物只减少了最轻微的组分（紧急就诊），而对住院或死亡没有影响怎么办？像 FDA 和 EMA 这样的监管机构要求严格的标准来防止这种误导性结果。他们要求所有组分都必须明确预先指定，事件必须由一个独立的、盲态的委员会来核实，并且每个组分的结果都必须透明地报告。这确保了一种新药的统计学“胜利”代表了对患者真实、有意义的益处。

超越医学：行为与社会科学

追踪疾病进展的相同逻辑也可以用来描绘人生的轨迹。社会科学家和精神病学家常常对关键生命转折的发生时点感兴趣。例如，哪些因素影响年轻人重度抑郁症（MDD）的发病年龄？这种风险不是静态的；它会受到不断变化的生活环境的急剧影响，例如在特定年份经历同伴欺凌或父母患有抑郁症。

在这里，事件发生时间分析能很好地适应。研究人员可以使用年度调查收集的数据来构建离散时间生存模型。他们构建一个所谓的“人-时期”数据集，这基本上是逐年为每个人的生活拍摄快照。然后可以使用 logistic 回归模型来估计在特定年份发生 MDD 的概率——即风险，前提是该个体在该年度有其独特且不断变化的境况。这为青春期这一关键发展窗口期内风险如何展开提供了一幅动态的图景。

从观察转向干预，引出了科学中最具挑战性的问题之一：确立因果关系。一个社会项目是否真的导致了预期的结果？考虑一个像“积极社区治疗”（ACT）这样的项目，它旨在帮助患有严重精神疾病的成年人，并减少他们与司法系统的接触。研究人员想知道，更多地参与 ACT 是否会导致再逮捕率的降低。这个问题极难回答，因为存在一个反馈循环：一个人参与项目的程度可能会因为一次逮捕而改变，而这反过来又影响了他们未来的逮捕风险。

标准回归在这里会失效。取而代之的是，统计学家采用边际结构模型（MSMs）等先进技术。从本质上讲，MSM 通过一个巧妙的加权方案创建了一个“伪人群”。每个“人-月”数据根据其在给定过去历史的情况下实际接受的参与水平的概率的倒数进行加权。这个过程打破了反馈循环，创建了一个虚拟数据集，在这个数据集中，参与度不再被先前的结果所混淆。通过分析这个加权数据，研究人员可以分离出该项目对再逮捕风险的真实因果效应，即使在处理复发事件和监禁等竞争风险时也是如此。这代表了事件发生时间分析的前沿，它在这里成为循证公共政策的强大工具。

宏观与微观尺度：从进化到分子

当我们把时间和尺度的界限从进化的万古长存推向单个化学反应的飞秒瞬间时，这个框架的真正普适性就显现出来了。

在进化生物学中，一个核心问题是种群中出现的新有益突变的命运。它会传播开来成为物种的新特征，还是会在随机机会的无情统计中消失？这是一个最宏大尺度上的首次事件发生时间问题。“事件”是灭绝（突变个体数量降至零）或确立（数量达到某个大值 $K$ ）。这个动态过程可以被建模为一个生灭分支过程，这是人均出生率 $\lambda$ 和死亡率 $\mu$ 之间的一场决斗。灭绝状态是一个吸收壁。一个来自第一性原理的优美结果表明，在灭绝前达到有限规模 $K$ 的概率总是大于最终、无限存续的概率。一个达到规模 $K$ 的谱系赢得了一场战斗，但并未赢得战争；它仍然面临非零的灭绝机会。只有当我们将成功的门槛推向无穷大（ $K \to \infty$ ），“达到K”的概率才会收敛到真正的最终存活概率。这为每一个新的进化适应的脆弱开端提供了严谨的数学理解。

从最宏大的尺度，我们现在放大到最小的尺度。我们能为一个单一的化学反应计时吗？借助现代技术，我们可以做到非常接近。想象一个实验，有大量的孤立纳米反应器，每个反应器中含有精确、少量的反应物分子。对于反应 $A + B \rightarrow P$ ，我们可能在每个反应器中放入固定数量的 $A$ 分子，但放入随机变化的、遵循已知统计分布（如泊松分布）的 $B$ 分子数量。然后我们启动时钟，等待第一个“咔哒”声——即每个反应器中第一个产物分子 $P$ 的出现。

通过测量这些等待时间在整个反应器群体中的分布——例如，通过找到一半反应器看到其首次反应的中位时间 $t_{1/2}$ ——我们可以反向推算。任何单个反应器中“存活”（无反应）的概率取决于恒定的风险，而风险又取决于存在的 $A$ 和 $B$ 分子的数量。通过在已知的 $B$ 分子分布上对这个存活概率进行平均，我们可以推导出一个方程，将宏观测量值 $t_{1/2}$ 直接与基本反应的微观速率常数 $k$ 联系起来。这是一个惊人的演示，说明了首次事件发生时间原理如何弥合了单个分子的概率性、随机性世界与我们在实验室中测量的可预测速率之间的鸿沟。

一种统一的视角

我们的旅程已经完成。我们看到了同样的基本逻辑在各种令人惊叹的情境中发挥作用。无论我们是估计患者的癌症风险，评估一个社会项目对累犯率的影响，描绘一个基因的进化命运，还是测量单个化学反应的速度，所用的知识工具都是相同的。我们对事件的瞬时速率——风险——进行建模，并随时间追踪其后果。事件发生时间分析不仅仅是统计学的一个子领域；它是一种统一而深刻的观察世界的方式，一个在其核心上由一连串事件构成的世界。