
接受新疗法的患者能存活多久?用户何时会从订阅服务中流失?一种新合金在失效前能承受多少次应力循环?这些都是“事件发生时间”问题,是无数科学和工业研究领域的核心。然而,回答这些问题并非易事。通常,我们的观察在事件发生前就结束了——研究结束时,患者仍然存活,用户仍然订阅,或者合金仍然完好无損。这种现象被称为右删失 (right censoring),它带来了一个根本性的挑战:我们如何从不完整的数据中得出准确的结论?忽略这些“幸存者”会导致危险的偏倚结果,但我们又无法知道他们真实的事件发生时间。本文将揭开解决这一普遍问题的统计学方法的神秘面紗。首先,在原理与机制部分,我们将探讨允许我们正确纳入删失数据的核心统计思想——似然函数。我们将看到这一原理是生存分析中基础方法的引擎。然后,在应用与跨学科联系部分,我们将游历这些方法不可或缺的各个领域,从临床试验和材料科学到现代人工智能和算法公平性问题,揭示利用不完整信息进行推理的深刻而统一的力量。
想象一下,你正试图确定一种新型灯泡的平均寿命。你打开一百个灯泡并启动计时器。一些在 10 小时后烧坏,一些在 50 小时后,还有一些在 200 小时后。但你的实验总得有个结束的时候。1000 小时后,你必须停下来写报告。那一刻,还有 30 个灯泡仍然亮着。你该如何处理它们?你不能简单地忽略它们;它们是“冠军”,是持续时间最长的灯泡!你也不能假装它们在 1000 小时的时候烧坏了,因为它们没有。你只知道它们的寿命至少是 1000 小时。
这就是右删失挑战的精髓。这是一个根本性问题,每当我们研究“事件发生时间”时都会出现——无论是机器的故障、患者的康复、软件功能的采纳,还是恒星的死亡。在我们观察结束时,感兴趣的事件就是没有发生。这可能是因为研究期结束(就像我们的灯泡实验),也可能是因为研究对象因无关原因失访——患者搬到另一个城市,用户取消了他们的订阅。这些都是右删失数据的例子。
必须明白,右删失只是不完整数据的一种类型。有时我们会面临左截断 (left truncation),即我们只观察那些已经存活了一段时间的研究对象(例如,通过标记成年植物来研究植物存活率,从而错过了所有在幼苗期死亡的植物)。其他时候我们有区间删失 (interval censoring),即我们知道事件发生在某个时间窗口内,但不知道确切的时刻(例如,一株植物在去年的探访中还活着,但在今年的探访中已经死亡)。现在,让我们专注于科学处理普遍存在的右删失问题的优雅方式。
那么,我们该如何处理那 30 个仍在发光的灯泡呢?第一个、最诱人也是最错误的做法是简单地丢弃它们,只用那 70 个烧坏的灯泡来计算平均寿命。这是一个严重的错误。通过丢弃这 30 个幸存者,你系统性地忽略了寿命最长的个体,这将人为地、错误地缩短你估计的平均寿命。在一场正在蔓延的流行病中,这个错误可能带来致命的后果。如果你用迄今为止的死亡人数除以确诊病例数来计算病死率,你就忽略了一个事实:许多近期确诊的患者是右删失的——他们的最终结局尚不清楚。这将导致一个危险的乐观和被低估的病死率。
第二个错误是把删失时间当作事件时间。说那 30 个灯泡在 1000 小时时失效是明显错误的。它们幸存了下来!
关键的洞见在于:一个删失观测值不是一个缺失值。它包含着宝贵的信息。对于那 30 个灯泡中的每一个,我们都得知了一个关键事实:它的真实寿命 大于 1000 小时。这不是无知,而是一个边界。它是一条数据。一个灯泡在 1000 小时被删失的概率,就是它存活超过 1000 小时的概率,我们称这个量为生存函数 (survival function),。在一个跟踪患者 10 年的临床试验中,一个患者数据被右删失的概率,恰好就是生存函数在 10 年时的值,。
我们如何将观测到的事件信息与未观测到的事件信息结合起来?答案是整个统计学中最优美、最强大的思想之一:似然函数 (likelihood function)。似然函数会问:“给定一个特定的现实模型(例如,一个特定的平均寿命),我们观测到现有数据的概率是多少?”然后我们找到使我们观测到的数据“最可能”出现的模型参数。
让我们看看这对删失数据是如何工作的。对于我们研究中的每个个体,我们有两条信息:一个观测时间 和一个指示符 ,如果事件发生则为 1,如果观测被删失则为 0。
如果事件发生 ():一个灯泡在恰好 小时烧坏。它对我们似然函数的贡献是在那一刻发生这件事的概率。这由概率密度函数 (probability density function) 描述,我们称之为 。
如果观测被删失 ():一个灯泡在 小时仍然亮着。我们知道它的真实寿命 大于 1000。它对我们似然函数的贡献是这件事为真的概率。这恰好是生存函数 (survival function),。
我们整个数据集的总似然函数就是所有观测值的个体贡献的乘积。对于任何给定的观测值 ,其贡献 可以用一个绝妙而紧凑的表达式来书写:
如果事件发生,,表达式变为 。如果观测被删失,,表达式变为 。这个公式完美地捕捉了我们拥有的所有信息,精确地区分了已发生的和未发生的。
让我们用一个小例子来具体说明。假设我们观察 5 个项目。事件在时间 2、5 和 7 发生。两个项目在时间 3 和 6 被删失。总似然 是各个概率的乘积:
通过找到使该函数最大化的模型参数(例如平均寿命),我们得到最大似然估计 (Maximum Likelihood Estimate, MLE)。对于一个简单的指数寿命模型,这个过程会得出一个非常直观的结果:平均寿命的最佳估计是总测试时间(所有观测到的失效时间和删失时间之和)除以观测到的失效次数。删失观测值对分子有贡献(它们增加了总存活时间),但对分母没有贡献,完美地反映了它们的局部信息。
这种基于似然的方法几乎是所有现代生存分析的引擎,从为我们提供熟悉的阶梯状生存曲线的非参数Kaplan-Meier 估计量,到让我们能够理解药物剂量或血压等协变量如何影响生存时间的强大Cox 比例风险模型。
这一切看起来非常巧妙,但我们怎么知道它是正确的呢?这仅仅是一个临时的技巧吗?答案是响亮的“不”。这种方法之所以有效,是因为删失数据的似然是随机过程的一个有效且有原则的表示。正因如此,整个强大的统计理论体系都适用。
一个好的估计量的一个关键属性是一致性 (consistency):当你收集越来越多的数据时,估计值应该越来越接近真实值。删失数据的最大似然估计是一致的。这不是偶然,也不是指数分布等特定分布的特殊属性。它之所以成立,是因为底层的统计模型满足某些“正则性条件”。其中最重要的一条是,“得分函数”(对数似然的导数)在真实参数值处的期望值为零。这确保了平均而言,似然函数在正确的位置达到最大值。
这并不是说因删失而丢失的信息被以某种方式神奇地恢复了。信息确实丢失了。费雪信息 (Fisher Information) 是衡量数据包含多少关于参数信息的指标,对于同样大小的样本,删失样本的费雪信息总是低于完整样本。其美妙之处不在于凭空创造信息,而在于从你确实拥有的数据中榨取每一滴信息,并以一种在数学上保证能长期引导你走向真理的方式进行。
我们讨论过的这些强大方法都依赖一个微妙但关键的假设:删失是无信息的 (non-informative)。这意味着删失的原因与个体的未来结局无关。患者因为搬到新城市而退出研究是无信息的。研究在预定日期结束是无信息的。
但是,如果临床试验中的患者因为健康状况迅速恶化,觉得实验药物无效而退出呢?这就是信息性删失 (informative censoring)。退出的行为本身就告诉你一些关于他们可能预后的信息。在这种情况下,标准方法将会失效,因为删失机制与事件机制纠缠在一起。
统计学家对此有一个框架。如果删失的原因依赖于其他可观测的变量(比如研究期间测量的生物标志物),我们或许能够解开其中的影响。这被称为随机缺失 (Missing At Random, MAR) 的情况。但如果删失依赖于患者真实的、未被观测到的健康轨迹——一些我们无法测量的东西——我们就处于一个更棘手的境地,称为非随机缺失 (Missing Not At Random, MNAR)。在这些情况下,我们无法仅从数据中找到一个“正确”的答案。相反,我们必须进行敏感性分析 (sensitivity analysis),即检验在关于信息性删失性质的不同假设下,我们的结论会如何变化。
这就是科学从计算走向判断的地方。它提醒我们,即使是最优雅的数学工具也应用于一个混乱的世界。右删失提供了一个美丽的例子,说明统计学如何让我们在面对不确定性时进行严谨的推理,将部分知识转化为深刻的洞见,并谦卑地意识到我们所能知晓的极限。
在我们迄今的旅程中,我们已经深入探讨了右删失的原理。我们看到,当我们观察和等待一个事件时,我们的观察常常被中断。病人可能搬走了,研究可能结束了,或者一个部件在我们的观察窗口内就是拒绝损坏。我们得到的不是一个事件时间,而是一个悬念——一个故事在某个时间点之后变得未知。人们可能倾向于将此视为数据中的一个缺陷,一个需要被丢弃或忽略的麻烦。但对于物理学家,或者任何科学家来说,一个明显的局限往往是通往更深层次理解的大门。为处理右删失数据而开发的统计工具不仅仅是补丁;它们是一个深刻而统一的、看待世界的镜头,适用于那些彼此之间很少交流的、极为不同的领域。
生存分析的故事,顾名思义,始于医学和公共卫生领域。医生想知道:接受一种新的癌症治疗后,患者通常能活多久?要回答这个问题,我们不能简单地平均已故患者的生存时间;那会忽略来自仍存活患者的宝贵信息。我们从第一性原理推导出的 Kaplan-Meier 估计量,使我们能够利用研究中每个人的信息——包括那些经历了事件的人和那些被删失的人——来更准确地描绘生存函数 。这是一种非常基础的方法,不仅可以用于模拟生存,还可以用于模拟临床试验中的患者依从性,其中“退出”是事件,仍在试验中的参与者则被删失。追踪患者生存的完全相同的逻辑,可以为商业智能提供动力,通过模拟移动应用上的“用户存活”来理解用户流失并衡量新功能的影响。从统计学的角度来看,患者离开研究和用户删除应用是“近亲”。
这种思维方式并不仅限于脆弱的生物学世界。思考一下坚固的材料科学和工程领域。设计桥梁或飞机机翼的工程师需要知道金属部件在反复应力下能持续多久。为了找出答案,他们进行疲劳测试。但是,对于那些经受了数百万次循环而没有失效的样本该怎么办呢?将它测试到断裂可能需要极长的时间,并且成本高得令人望而却步。解决方案是宣布一个“续跑 (run-out)”——在比如 次循环后停止测试。这个“续跑”不过是一个右删失的观测值。用于评估新药的完全相同的统计方法,被用于认证构建我们现代世界的材料的安全性。这一原则甚至延伸到纯粹的数字领域——网络安全。为了比较两种网络配置的弹性,我们可以测量“被攻破时间”。在研究结束时仍未被入侵的服务器提供了一个右删失数据点,而像对数秩检验 (log-rank test) 这样的工具可以告诉我们新的、加固过的设置是否真的更安全。无论是人的生命、钢梁,还是计算机网络,根本问题——“事件发生前能持续多久?”——以及不完整观察的挑战,始终是相同的。
用 Kaplan-Meier 曲线描述事物持续多长时间是里程碑式的第一步。但科学是永不满足的;它想知道为什么。哪些因素会影响事件发生的时间?这就是著名的 Cox 比例风险模型发挥作用的地方。它将一组协变量或特征 与事件的瞬时风险联系起来,这个风险被称为风险率 (hazard rate) 。该模型有一个优美的结构:
这里, 是一个未知的“基准风险 (baseline hazard)”——一个所有协变量都等于零的假设个体的风险。指数项作为一个乘数,告诉我们风险如何因个体的特定特征而被放大或缩小。像年龄这样的特征,如果其系数 为正,意味着年长个体的风险率更高;而治疗变量的负系数 则表明该治疗具有保护作用。Cox 模型的魔力在于,它允许我们估计系数 ,而无需知道基准风险 的形状。
这个强大的思想让我们能够窥探自然的机制。例如,在免疫学中,科学家可以使用活体显微镜实时观察 T 细胞与其他细胞的相互作用。这种“突触”的持续时间对正常的免疫反应至关重要。为了检验像 PD-1 阻断剂这样的癌症免疫治疗药物是否通过稳定这些相互作用来发挥作用,研究人员可以模拟突触的“解离时间”。在这里,突触解离是事件,而当显微镜影片结束时仍然接触的细胞对是右删失的。Cox 模型可以确定药物是否显著改变了解离的风险,从而为其作用机制提供直接证据。虽然 Cox 模型是最著名的方法,但用于删失数据的底层似然框架非常灵活,甚至可以被整合到完全的贝叶斯分析中,让我们能够将关于组件失效率的先验信念与观测到的(和删失的)寿命数据相结合,以更新我们的知识。
源于 20 世纪中期统计学的生存分析原理,在人工智能和大数据时代正经历着一场引人注目的复兴。现代机器学习建立在最小化数据集上的“损失函数”的思想之上。但是,当你的许多数据点的结果因删失而未知时,你如何定义损失?
答案是一次美妙的知识交叉授粉。David Cox 爵士开发的那个负对数偏似然函数,完全可以被重新构建为一个适合训练深度神经网络的损失函数。这使我们能够将现代人工智能的全部力量应用于事件时间预测问题。为了让这些模型工作并正确评估它们,统计学家们开发了一些巧妙的技巧,如删失概率逆加权 (Inverse Probability of Censoring Weighting, IPCW)。该方法通过对观测数据进行加权,以在统计上弥补因删失而丢失的信息,使得即使在存在删失数据的情况下,也能使用 K 折交叉验证等无偏的模型评估技术。
也许这些思想最深刻的应用位于技术与社会的交汇点:算法公平性。用于比较癌症治疗方法的对数秩检验,同样可以作为一种审计工具,来调查一个自动化招聘系统是否对不同的人口群体产生不同的“获得工作机会时间”。在这里,获得工作机会是“事件”,而退出申请或仍在流程中的候选人是右删失的。生存分析提供了一个严谨的框架来提问:这个算法公平吗?
这将我们引向了该学科最前沿的领域,在这里,统计模型不仅仅用于理解世界,还用于在其中做出高风险的决策。想象一家医院使用 Cox 模型得出的风险评分来对患者进行分流,以分配像 ICU 床位这样的稀缺资源。这个评分 实际上是按预测风险对患者进行排序。这似乎合乎逻辑——优先考虑那些最需要的人。但一个微妙的危险潜伏其中。Cox 模型最大的优势在于估计系数 而无需知道基准风险 。但是,如果两个人口亚群(例如,来自不同社区或具有不同遗传背景的亚群)系统性地具有不同的基准风险呢?该模型对此视而不见,它产生的评分可以正确地对每个组内的患者进行排序,但在比较一个组的患者与另一个组的患者时,可能会出现严重失败。一个处于高基准风险组的人可能得分较低,但其绝对死亡风险却高于一个低基准风险组的人。基于此评分的政策,虽然看起来客观,却可能系统性地使整个群体处于不利地位。这揭示了一个关键教训:一个模型的排序能力(其区分度)与其预测绝对概率的能力(其校准度)并不相同。当生命攸关时,理解我们模型的假设和局限性不仅仅是一个学术练习,更是一项伦理责任。
从钢铁的强度到抗击癌症的斗争,从我们手机上的用户参与度到塑造我们社会代码的公平性,对未见事物的挑战是永恒的。右删失不是我们数据中的缺陷,而是我们经验的一个基本特征。通过以数学的巧思直面它,我们构建了一套工具,它们不仅揭示了自然的隐藏模式,也迫使我们更深入地思考我们选择用它们来构建的世界。