Kaplan-Meier 方法

玻尔百科

定义

Kaplan-Meier 方法是一种用于估计随时间变化的生存概率的非参数统计方法，它能够正确处理研究结束时未观察到事件的删失数据。该方法属于生存分析领域，通过计算风险集中发生事件的比例来生成仅在事件发生时变化的阶梯函数曲线。该方法的有效性基于非独立删失假设，其原理已广泛应用于医学、工程学、经济学和社会学等多个领域的事件发生时间分析。

核心要点

Kaplan-Meier 方法通过正确地纳入删失数据（即研究结束时仍未观察到目标事件的数据）来估计随时间变化的生存概率。
它生成一条阶梯函数形式的生存曲线，该曲线仅在事件发生的确切时刻发生变化，变化的依据是“风险集”中经历事件的受试者比例。
该方法的有效性取决于非信息性删失的假设，即受试者被删失的原因与其未来发生事件的风险无关。
尽管起源于医学，其原理普遍适用于工程学、经济学和社会学等领域的时间-事件分析。

引言

分析一个事件发生所需的时间——无论是患者康复、机器故障还是贷款违约——是许多科学和工业领域面临的一个根本性挑战。当我们无法观察到每个研究对象的事件时，例如研究结束或参与者退出，简单的平均值计算便会失效。这种不完整的信息被称为删失数据，如果被忽略，可能会严重扭曲我们的结论。当数据中充满这些观测空白时，我们如何才能准确地描绘生存或失败的全貌呢？

本文深入探讨 Kaplan-Meier 方法，这是一个专为解决此问题而设计的优雅而强大的统计工具。该方法于 1958 年被提出，提供了一种从删失数据中真实地估计时间-事件概率的方法。我们将首先探究其基础性的“原理与机制”，分步解析其工作方式及其所依赖的关键假设。随后，在“应用与跨学科联系”部分，我们将看到该方法的实际应用，追溯其从关键临床试验到可靠性工程的使用，并发现当面对复杂的现实世界情景时，它如何与更高级的统计概念联系起来。

原理与机制

想象你接到了一个看似简单的问题：事物的寿命有多长？这个事物可能是一种预防疾病复发的新药，一个在失效前的髋关节置换物，甚至是恒星的寿命。让我们从一个更简单的东西开始：一个灯泡。如果你拿 100 个全新的灯泡，把它们点亮，然后等待它们全部烧坏，计算它们的平均寿命是轻而易举的。你可以绘制一条“生存曲线”，显示在任何给定时间点仍然亮着的灯泡所占的比例。这条曲线会从 100% 开始，最终降至 0%。

但如果你的老板告诉你实验必须在 30 天内结束呢？在第 30 天，你走进实验室，发现还有 15 个灯泡在发光。你该如何处理它们？你不能假设它们在第 30 天坏了。你也不能直接忽略它们；它们至少存活了 30 天，这是宝贵的信息！这就是生存分析的基本难题。由于失访或研究提前结束，我们一些研究对象的最终命运是未知的。我们称这种现象为右删失：我们知道个体在某个时间点之前的情况，但之后就不得而知了。他们真正的“事件时间”位于我们时间轴上最后一次观测点的右侧某处。

当我们的数据中充满这些漏洞时，如何才能真实地描绘出生存状况？丢弃删失数据就如同丢弃成功案例——那些坚持最久的个体——这会使我们的灯泡或患者看起来远不如实际那样有韧性。我们需要一种更聪明、更诚实的方式来处理这些缺失的信息。这正是 Kaplan-Meier 方法闪亮登场的舞台。

作为一连串小步骤的生存

由 Edward L. Kaplan 和 Paul Meier 于 1958 年提出的 Kaplan-Meier 方法的天才之处在于，它不再试图为整个生存曲线寻找一个单一、宏大的公式。相反，他们提出了一个不同的问题：我们如何随着时间的推移来更新我们对生存的估计？

把生存想象成一系列小步骤，而不是一次性的飞跃。存活一整年的概率等于存活第一天的概率，乘以在存活第一天的条件下存活第二天的条件概率，再乘以在存活前两天的条件下存活第三天的概率，以此类推。

这计算起来似乎是个噩梦。但这里有一个绝妙的洞见：在大多数日子里，什么也没发生。没有灯泡烧坏，没有病人复发。在这些平静的区间里，生存概率不会改变。唯一重要的时刻是事件实际发生的特定时间点。如果在第 50 天和第 80 天之间没有事件发生，那么估计的生存概率在此期间将保持完全平坦。

这改变了我们的问题。我们无需担心每一纳秒。我们只需要关注那些离散的事件时间点。让我们称它们为 $t_1, t_2, \dots, t_k$ 。存活超过某个时间 $t$ 的概率可以看作是一系列条件概率的链条：

$S(t) = \Pr(\text{survive past } t_1) \times \Pr(\text{survive past } t_2 | \text{survived past } t_1) \times \dots$

这种由序贯概率相乘构成的结构，正是该估计量常被称为乘积极限估计量的原因。现在，我们只需要弄清楚如何估计这个链条中的每一个环节。

Kaplan-Meier 方法的步骤

这就引出了该方法优雅的核心。在每一个事件时间点，我们都对当前情况进行一次快照。

确定风险集（Risk Set）： 在一个特定的事件时间 $t_j$ ，我们观察所有仍在研究中且尚未发生事件的个体。这个群体被称为风险集，我们用 $n_j$ 表示其大小。他们在此时刻正“处于”发生事件的风险中。
计数事件： 我们计算风险集里在时间 $t_j$ 实际经历事件的人数。我们称这个数字为 $d_j$ 。
计算条件生存概率： 如果有 $n_j$ 个人处于风险中，其中 $d_j$ 个人发生了事件，那么在此刻未发生事件的概率的一个简单直观的估计是 $\frac{n_j - d_j}{n_j}$ ，也就是 $\left(1 - \frac{d_j}{n_j}\right)$ 。

这为我们链条中的一个环节提供了估计。为了得到任意时间 $t$ 的总生存概率 $\hat{S}(t)$ ，我们只需将截至时间 $t$ 已发生的所有事件时间的条件生存概率全部乘起来。这就得到了著名的 Kaplan-Meier 公式：

$\hat{S}(t) = \prod_{t_j \le t} \left(1 - \frac{d_j}{n_j}\right)$

让我们通过一个简单的例子来看看它是如何运作的。假设一项试验中有六名患者。我们有以下数据（1=事件，0=删失）：（2天，事件），（3天，删失），（4天，事件），（5天，事件），（6天，删失），（7天，事件）。

在 $t=2$ 时： 全部 6 名患者都处于风险中 ( $n_1=6$ )。一人发生事件 ( $d_1=1$ )。生存概率变为 $1 \times (1 - \frac{1}{6}) = \frac{5}{6}$ 。
在 $t=3$ 时： 一名患者被删失。他们退出了研究。没有事件发生，因此生存曲线保持在 $\frac{5}{6}$ 。但是我们未来的风险集变小了。
在 $t=4$ 时： 有多少人处于风险中？我们开始时有 6 人，一人在 $t=2$ 时发生事件，一人在 $t=3$ 时被删失。所以， $n_2=4$ 。一人发生事件 ( $d_2=1$ )。生存概率更新为： $\hat{S}(4) = \frac{5}{6} \times (1 - \frac{1}{4}) = \frac{5}{6} \times \frac{3}{4} = \frac{5}{8}$ 。
在 $t=5$ 时： 风险集现在有 3 人。一人发生事件 ( $d_3=1$ )。生存概率更新为： $\hat{S}(5) = \frac{5}{8} \times (1 - \frac{1}{3}) = \frac{5}{8} \times \frac{2}{3} = \frac{5}{12}$ 。

最终的估计值 $\hat{S}(5) = \frac{5}{12} \approx 0.417$ 。一种忽略删失机制的幼稚方法可能只是计算被随访超过 5 天的人数（两人，分别在第 6 天和第 7 天），然后计算 $\frac{2}{6} = \frac{1}{3} \approx 0.333$ 。这种幼稚的方法低估了生存率，因为它含蓄地惩罚了提早退出的被删失者。Kaplan-Meier 方法通过正确利用被删失者至少存活到第 3 天这一信息，给出了一个更忠实的估计。

结果是一个阶梯函数。它从 1 (或 100%) 开始，在第一个事件发生前保持平坦，然后在事件发生时下降。然后它保持平坦直到下一个事件。下降代表事件；平坦的平台期是平安生存的时期。删失的观测值通常在曲线上用小刻度线或十字标记；它们表示风险集的减少，但本身不会导致生存率下降。所以，如果有人告诉你一种新药的 Kaplan-Meier 估计值为 $\hat{S}(36) = 0.85$ ，他们是在告诉你，根据现有数据，估计一名患者至少 3 年内不发生事件的概率是 85%。

风险集的精妙之处

该方法的真正力量在于其对风险集的简单而灵活的定义。它优雅地处理了现实世界研究的复杂性。

交错进入（Staggered Entry）： 在许多研究中，患者并非都在同一天开始。有些人可能在研究开始数月甚至数年后才入组。Kaplan-Meier 方法轻松处理了这一点。一个人在自己入组时间之前发生的任何事件，都不会出现在风险集中。对每个人来说，时间“零点”是他们个人的开始日期。在任何一个日历时间点，风险集就是所有已经入组但尚未发生事件或被删失的人的集合。
时间结（Tied Events）： 如果有几个事件在同一时间被记录下来（例如，三名患者在同一天复发），该怎么办？这个公式能完美地处理这种情况。如果在时间 $t_j$ 时，一个大小为 $n_j$ 的风险集中发生了 $d_j$ 个事件，生存概率就乘以 $(1 - d_j/n_j)$ 。这相当于假设，大自然从 $n_j$ 个处于风险中的人中，“不放回地”随机选择了 $d_j$ 个人发生事件。这简单、合乎逻辑且稳健。

隐形契约：独立删失

这个美妙的机制依赖于一个关键的、不可协商的假设：非信息性删失。这是细则，是统计学家与数据之间的核心契约。它意味着参与者被删失的原因必须与他们未来发生事件的风险无关。

好的删失（非信息性）： 一个典型的例子是管理性删失，即研究在某个固定日期结束。对于任何给定的参与者来说，在这个日期被删失与他们个人的健康预后无关。同样，如果一个参与者因为与健康无关的工作原因搬到另一个城市，这也同样被认为是非信息性的。
坏的删失（信息性或依赖性）： 想象一下一项针对晚期心力衰竭药物的试验。如果症状正在恶化的患者更有可能退出研究去寻求其他治疗，那么他们的删失就与他们的高死亡风险直接相关。这就是信息性删失。

当这个假设被违反时，Kaplan-Meier 估计量就会产生偏差。如果病情较重的参与者被优先删失，那么剩余的风险集就会比原始群体人为地更健康。该方法将观察到比应有数量更少的事件，并会产生一条过于乐观的生存曲线，位于真实曲线之上。这是生存分析中最微妙和危险的陷阱之一。一个常见的误解是，临床试验中的随机化能自动防止这种情况；事实并非如此。随机化确保了各组在研究开始时具有可比性，但它无法阻止研究期间发生的使删失变为信息性的事件。

工具的边界：竞争风险及其他注意事项

和任何工具一样，Kaplan-Meier 估计量有其特定的用途和明确的局限性。了解这些边界与知道如何使用它同等重要。

竞争风险（Competing Risks）： 考虑一项关于老年患者的研究，其主要结局是心血管疾病死亡。一些患者可能会死于癌症。这是一个竞争风险——一个阻止我们感兴趣的事件发生的事件。如果我们简单地将癌症死亡视为标准的删失事件，Kaplan-Meier 方法将估计在一个假设无人会死于癌症的世界里，死于心脏病的概率。这与在所有死因都存在的情况下，死于心脏病的真实世界概率是不同的。这种方法系统地高估了目标事件的真实概率，需要更先进的方法来正确处理这种情况。
区间删失（Interval Censoring）： Kaplan-Meier 方法要求知道事件的确切时间。但如果我们只是定期检查患者，比如在年度体检时，该怎么办？我们可能了解到一位患者在第 2 年和第 3 年的就诊之间某个时候出现了某种状况，但我们不知道确切的时间。这被称为区间删失。标准的 Kaplan-Meier 方法在这里不适用，因为它无法处理这种模糊性。其他方法，如 Turnbull 估计量，正是为这类数据而开发的。有趣的是，Turnbull 估计量是一个泛化；对于只有确切时间和右删失时间的数据，它给出的结果与 Kaplan-Meier 估计量完全相同。
不确定性与尾部不稳定性（Uncertainty and Tail Instability）： Kaplan-Meier 曲线是一个估计值，和所有估计值一样，它具有不确定性。我们可以为它计算一个方差（使用所谓的 Greenwood 公式），并在曲线周围绘制置信带。然而，随着时间的推移，这种不确定性会增加。在曲线的末端，风险集 $n_j$ 变得非常小。只剩下少数几个人时，单个事件就可能导致估计生存率的大幅下降。曲线变得不稳定和不规律。因此，对 Kaplan-Meier 图的远右尾部进行解释时要非常谨慎，这已成为标准做法。

Kaplan-Meier 方法不仅仅是一个公式；它是一种思维方式。它证明了将一个复杂问题分解为一系列简单、可管理步骤的力量。它提供了一种诚实而优雅的方式，从本质上不完整的数据中讲述一个故事，让我们能够看到在生活不确定性的噪音中本会隐藏的生存与失败模式。

应用与跨学科联系

在揭示了 Kaplan-Meier 估计量精妙的机制之后，我们现在要超越理论的工坊。你可能会倾向于认为这个方法是一个小众工具，一个处理缺失数据的聪明技巧。但这就像把望远镜看作只是一堆镜片的集合。一个伟大思想的真正力量不在于其内部的复杂性，而在于它让我们能够看到的新世界。Kaplan-Meier 方法就是这样一架望远镜。它是一种关于时间、风险和变化的深刻思考方式，一旦你掌握了它，你就会开始看到它的故事在各处展开——从抗击癌症到为我们世界提供动力的机器的可靠性。

医学的核心：描绘疾病与健康的进程

Kaplan-Meier 估计量最自然的家园是医学，在那里我们提出的问题几乎总是关于时间。患者能存活多久？治疗需要多久才能生效？我们能将疾病的缓解状态维持多久？这些都不是简单的问题，因为每个患者的故事都是独特的，而且当我们的研究结束时，他们的最终篇章常常尚未写就。

想象一个比较两种治疗方案的临床试验。假设我们正在比较一种标准降压药和一种新药，看哪种在预防重大心血管事件方面更优。我们不能简单地在五年结束时计算每组的事件数量。一些患者可能已经退出；另一些在研究结束时可能完全健康。我们该怎么办？我们对每个组分别应用 Kaplan-Meier 方法——这个过程称为分层分析。这会在同一张图上生成两条截然不同的生存曲线，让我们能一目了然地看到每个队列的历程。

新疗法的曲线是否持续高于旧疗法？这表明其具有持续的益处。然后我们可以通过比较曲线上的关键标志点来量化这种益处。一个常见的标志点是中位生存时间：生存概率首次降至 0.5 的时间点。例如，在一项关于戒烟复吸的研究中，我们可能会发现复吸的中位时间是 9 个月，这意味着所有将要复吸的参与者中有一半会在此时间点之前复吸。比较两种亚型的皮肤病达到缓解的中位时间，可以揭示哪种形式的疾病恢复得更快。在一项比较两种角膜移植技术的外科试验中，一种手术的中位移植物存活期为 50 个月，而另一种为 25 个月，这传递了关于长期疗效的有力信息。

有时，最激动人心的结果是我们找不到的标志点。考虑一项旨在预防妄想症复发的新精神疗法的试验。我们可能会发现在标准治疗组中，复发的中位时间是 11 个月。但在接受新疗法的组中，在整个为期两年的研究期间，生存曲线从未降至 0.5 的线。这是一个惊人的结果！这并不意味着中位时间是无限的；它意味着根据我们的数据，复发的中位时间比整个研究持续时间还要长。在该组中，超过一半的患者在研究结束时仍然状况良好。这不是计算的失败；这是治疗的胜利。

超越生死：“事件”的定义

这种方法的力量在于其灵活性。我们追踪的“事件”不必是死亡。它可以是任何明确定义的、一次性的发生。在外科手术中，事件可以是伤口的完全愈合，我们可以使用 Kaplan-Meier 曲线来估计愈合的中位时间。

此外，“生存”和“成功”的定义本身也可以根据手头的问题进行定制。在一项关于牙科修复体的研究中，我们可能会定义两个不同的终点。“生存”可以是一个宽松的结果：修复体仍在患者口中，即使它经过了小修小补。“成功”则可能是一个严格得多的结果：修复体不仅在口中，而且没有任何生物学或技术上的并发症。我们可以为每个终点生成一条单独的 Kaplan-Meier 曲线。很自然地，“成功”曲线将始终位于“生存”曲线之上或之下，但比较两者能让我们对修复体的性能有更丰富的理解。这种细致入微的方法突显了简单分析中的一个关键错误：一种仅仅用期末完好修复体数量除以初始数量的天真计算方法会产生误导性的乐观结果，因为它未能恰当考虑那些失访的患者，他们的最终命运是未知的。Kaplan-Meier 方法正是为了纠正这类有缺陷的推理而诞生的。

普适的时钟：可靠性、工程学与经济学

现在，我们必须挣脱医院的围墙。时间-事件分析的逻辑是普适的。一个工业泵并不知道自己不是一个病人。它同样有“寿命”。一个研究新型泵可靠性的工程师面临着与医生相同的问题：寿命测试实验可能在所有泵都失效之前就结束了。当研究在 40 周时终止，一些泵仍在完美运行。这些是右删失观测值。工程师可以为这些泵绘制一条 Kaplan-Meier“生存”曲线，估计生存时间的第一个四分位数（即 25% 的泵会在此时间点前失效的时间），并就维护计划和保修期做出明智的决策。其数学原理是完全相同的。

这种普适性令人叹为观止。经济学家可以用它来模拟小企业贷款违约前的时间。社会学家可以用它来估计假释人员再次犯罪前的时间。软件工程师可以用它来分析新版本中出现关键错误前的时间。在每一种情况下，核心挑战都是相同的：我们随时间追踪一个群体，一些成员经历了一个离散事件，而另一些成员的观察期被缩短了。Kaplan-Meier 方法提供了通用的语言和严谨的框架来讲述这些迥然不同的故事。

当现实反戈一击：前沿与高级关联

当然，世界很少像我们引言中的例子那样井然有序。一个科学工具的真正魅力，在于我们将其推向极限，并观察它如何与一个更宏大的思想宇宙相连时才得以显现。

交叉曲线：当“更优”取决于“何时”

在我们简单的临床试验中，一条治疗曲线舒适地位于另一条之上。但如果它们交叉了呢？想象一项研究，比较一种非常激进的治疗方案，如高风险手术加化疗（CRS-HIPEC），与标准化学疗法治疗晚期癌症的效果。这种激进的手术有很高的前期风险；更多的患者可能在最初几个月内死亡。因此，最初它的生存曲线会骤降到标准疗法曲线之下。但对于那些度过了初期阶段的患者来说，长期益处可能是巨大的，它能以标准疗法无法做到的方式清除疾病。然后，他们的曲线可能会趋于平缓，最终交叉到标准疗法曲线之上，而标准疗法曲线则继续其缓慢而稳定的下降。

这种交叉曲线现象意味着非等比例风险。风险比——在任何给定时刻事件的相对风险——不是恒定的。新疗法在初期更差（风险比 > 1），而在后期更好（风险比 < 1）。这具有深远的意义。一个简单的统计比较，如对数秩检验（log-rank test），其隐含假设是风险比恒定，可能会产生误导。交叉的曲线告诉我们一个更复杂、更有趣的故事。这迫使我们使用更复杂的工具，例如比较限制性平均生存时间 (RMST)——截至某个时间点的平均寿命——或者采用明确允许治疗效果随时间变化的模型。在这里，Kaplan-Meier 图不是最终答案，而是一个至关重要的诊断工具，它引导我们走向更深入的分析。

竞争风险：选择你的命运

另一个复杂情况是竞争风险问题。假设我们正在研究具有遗传易感性（如 Lynch 综合征）的个体患结直肠癌的风险。我们感兴趣的事件是癌症诊断。但是，如果研究中的一个人在 60 岁时死于心脏病，且从未患上癌症，会发生什么？他们没有得癌症，但他们也不再处于风险之中。这不是一个简单的删失观测。心脏病发作是一个“竞争事件”。

如果我们天真地将心脏病死亡视为标准的删失事件，并使用 Kaplan-Meier 方法来估计不患癌症的概率，我们就在做一个隐含且不正确的假设。我们是在估计一个假设无人会死于心脏病的虚拟世界中的癌症风险。由此得到的癌症风险估计值 $1 - \hat{S}(t)$ 会过高，因为在现实世界中，一些人会因为竞争风险而被移出风险池。

这迫使我们区分两个量：事件的边际概率（在没有竞争的世界中的风险），这是 $1-\hat{S}_{KM}(t)$ 所估计的；以及特定原因累积发生率（在充满竞争风险的真实世界中事件发生的概率）。为了正确估计后者，统计学家使用诸如 Aalen-Johansen 估计量之类的方法。这并没有使 Kaplan-Meier 方法过时；它将其置于一个更大的理论背景中。此外，这正是它与其他强大的建模工具完美结合的地方。半参数模型如 Cox 比例风险模型和全参数模型（例如，假设时间-事件数据服从 Weibull 分布）可用于分析这些复杂数据，估计不同基因间的相对风险，并生成绝对癌症风险（外显率）的平滑估计。

从一套处理不完整数据的简单规则出发，我们已经踏上了遗传流行病学和临床试验方法学的前沿。Kaplan-Meier 曲线不仅仅是一个总结；它是一个故事。一个关于概率、时间与命运的故事。这个故事以非凡的诚实讲述，因为其独特的、锯齿状的阶梯是对其所源自的离散、不确定且往往不完整数据的不断提醒。而正是在这种诚实中，蕴含着其持久的力量。