
在许多科学领域,我们试图根据当前的测量数据来预测未来的事件。一种常见的方法是使用静态的信息快照——例如患者的基线体重或一个国家的初始 GDP——来预测结果。然而,世界并非静止不变;它是一个动态过程,关键因素会随时间而变化。患者的血压会波动,治疗方案会被调整。忽略这些信息的流动意味着我们的模型是不完整的,就像试图通过一张静态照片来理解一部电影一样。构建更准确、更现实的模型的关键在于拥抱这种复杂性。
本文旨在解决将随时间展开的信息纳入统计模型这一根本性挑战。我们引入了时变协变量(time-varying covariates)的概念——即在研究期间其值会发生变化的预测变量——并探讨了能让我们正确使用这些变量的稳健框架。我们将深入探讨其中的统计学原理,这些原理可以防止我们不合逻辑地使用未来信息来预测过去事件,从而确保我们的模型既强大又有效。
首先,在“原理与机制”部分,我们将深入探讨问题的数学核心,探索风险函数以及处理动态数据的优雅的 Cox 比例风险模型。我们将剖析该模型的工作原理、不同类型协变量之间的关键区别,以及其假设中的细微之处。随后,“应用与跨学科联系”一章将展示这些概念在现实世界中的应用,从改善医学和流行病学领域的临床预测,到为因果推断和机器学习中的先进方法奠定基石。
在我们探索世界的征途中,从行星的轨道到疾病的进展,我们通常从拍摄快照开始。我们在某个时间点测量患者的血压、体重和胆固醇,希望这些测量值能告诉我们一些关于他们未来健康的信息。这是一种强大且通常有用的方法,但这就像试图通过观看单个画面来理解一部故事片一样。故事——即动态变化的过程——丢失了。
生命,尤其是在生物学和医学领域,更像一部电影,而不是一张照片。患者的病情会演变,治疗会开始和停止,环境暴露水平也会波动。要建立一个真正具有预测性的健康模型,我们必须拥抱这种变化。我们需要一种方法,将信息随着时间的推移而展开的过程纳入其中。
在统计学语言中,我们用于预测的这些测量值被称为协变量。在研究开始时固定不变的协变量——比如一个人的基因编码或其出生国家——被称为静态或时不变协变量。但那些真正让我们的模型栩栩如生的变量是那些会变化的变量。我们称之为时变协变量或动态预测变量。
想象一下,医生们试图预测一个患有罕见免疫缺陷症的儿童的住院风险。一个静态协变量可能是该儿童自出生起就固定的特定基因突变。但其他因素却在不断变化:他们对预防性药物的依从性可能每个月都不同,他们接受的类固醇剂量可能每周调整一次,血液中的炎症标志物可能在每次就诊时都会测量。这些都是时变协变量。一个忽略了它们动态性质的模型,就是一个部分失明的模型。
那么,我们如何建立一个尊重时间之箭的数学框架呢?有一条基本法则:我们不能使用未来的信息来预测过去或现在。这似乎显而易见,但却是一个非常容易掉入的陷阱。例如,使用患者一年内的平均用药剂量来预测发生在第三个月的住院事件,就是一种统计学上的“作弊”。它使用了第 4 到第 12 个月的剂量信息,而这些信息在事件发生时是不可获取的。这样的模型在纸面上可能看起来异常准确,但在现实世界中将毫无用处。
我们故事中的主角,那个能让我们以极其优雅的方式驾驭时间流的数学工具,就是风险函数,记为 。直观上,你可以将风险理解为,在事件尚未发生的情况下,在精确的 时刻发生该事件的瞬时风险。它是每个时间点的“危险等级”。
著名的 Cox 比例风险模型,经过调整以适应一个动态的世界,为我们提供了一种优美的方式来将这个危险等级与我们的协变量联系起来:
让我们来剖析这个优雅的方程。它主要包含两个部分:
: 这是基线风险。可以把它想象成潜在的风险节律,是对于一个所有协变量都等于零的假设的“平均”个体而言,事件随时间变化的自然脉动。它可能开始时较低,然后上升,再然后下降,捕捉了疾病的自然病程。Cox 模型的精妙之处在于,我们甚至不需要知道这个函数具体是什么样的。
: 这是风险乘数。它告诉我们一个个体的独特特征集 如何使其风险相对于那一刻的基线风险进行放大或缩小。向量 包含了每个协变量的“效应大小”,而指数函数确保了该乘数始终为正。
其中的奥妙在于 旁边的小 。这表示我们承认世界是动态的。协变量向量 不是一组固定的数字,而是时间的函数。在任何时刻 ,我们代入患者测量指标的当前值,以计算其当前的风险乘数。
此时,你可能正在挠头。如果协变量随时间变化,基线风险也随时间变化,这怎么能被称为“比例风险”模型呢?究竟是什么成比例?
这是一个微妙而美妙的要点。“比例性”指的是两个不同个体在同一瞬间的风险如何比较。让我们比较两个人,Alice 和 Bob。在任何时间 ,他们的风险比率为:
请注意,基线风险 完全抵消了!他们在时间 的风险比率只取决于他们在同一时间 t 的协变量差异。这就是比例性。他们的风险始终与同一个潜在的基线函数成比例。
然而,由于他们的协变量 和 会随时间变化,风险比本身不一定是恒定的。如果 Alice 在第 6 个月开始服用一种新药,她与 Bob 的风险比将在那一刻发生变化。比例性在每个瞬间都成立,但整体的比较会随着协变量的演变而演变。
那么,模型是如何从不断变化的数据中“学习”到 的值的呢?这个被称为偏似然的机制,可谓是神来之笔。
Cox 模型并不试图对整个复杂的时间线进行建模,而是只关注事件实际发生的那些时刻。在每个事件时间点,比如一个患者在时间 发生心脏病,模型会对当时的整个世界拍一张快照。它会识别出所有在 前一刻仍然“有风险”发生心脏病的人——这个群体被称为风险集。
然后模型会问一个简单的问题:“假定这个风险集中的某一个人发生了心脏病,那么事件发生在特定这个人身上的概率是多少?”这个概率就是这个人的风险除以风险集中所有人的风险之和。正如我们之前看到的,未知的基线风险 出现在每一项中并被抵消,留下的表达式只依赖于风险集中人们的协变量和未知的参数 。通过将研究中所有事件时间的这些概率相乘,我们构建了偏似然。然后我们找到使这个总似然尽可能大的 值——即那些能够最好地解释为什么特定的人在特定的时间发生了事件的值。
为了让这个过程行之有效,我们需要以一种特定的方式组织数据,通常称为“开始-停止”或“计数过程”格式。个体的随访期被分解为一系列区间。每当时变协变量的值发生变化时,一个新的区间就开始。对于每个区间,我们的数据集中都有一行记录:“受试者 1,从开始时间 到停止时间 ,具有这些协变量值,并且在 时发生(或未发生)事件。”这种精心组织的数据使模型能够始终知道在任何事件时间点风险集中每个人的正确协变量值。然后,一个人的总累积风险就是其整个历程中瞬时风险的总和(或积分),这条路径反映了他们独特的协变量历史。
随着我们深入研究,我们发现并非所有时变协变量都是生而平等的。两类协变量之间存在着关键的区别:外部协变量和内部协变量。
外部协变量是在个体之外产生的过程,其路径不受个人健康状况或事件风险的影响。一个经典的例子是城市每日的空气污染水平 或区域热指数。某个特定的人今天是否会心脏病发作,与明天城市的气温无关。生理年龄是最简单的确定性外部协变量。
另一方面,内部协变量产生于个体内部,或是对其健康的直接反应。这些是像血清钠水平或心脏酶这样的生物标志物,它们本身就是我们正在研究的疾病过程的一部分。关键是,这一类别还包括治疗,例如医生为应对患者症状而调整的利尿剂剂量。内部协变量的路径是一个反馈循环的一部分:患者健康状况的恶化可能导致某个生物标志物升高,而同样的恶化也增加了他们发生事件的风险。
这种区别不仅仅是学术上的;它对我们如何解释结果具有深远的影响,特别是当我们试图理解因果关系时。与外部协变量(如空气污染)相关的风险比,或许可以(在某些强假设下)被解释为因果效应。但对内部协变量的解释则要复杂得多。假设我们发现服用高剂量某种药物的患者死亡风险更高。这是否意味着该药物有害?还是仅仅意味着只有病情最严重的患者——那些本身死亡风险就很高的人——才会被开具高剂量药物?这种现象被称为依时指示混杂,是在利用观察性数据对治疗进行因果推断时面临的最大挑战之一。内部和外部协变量之间的区别迫使我们在阐述模型真正能告诉我们什么时,必须保持谦逊和精确。
时变协变量的框架功能极其强大,但我们可以更进一步。到目前为止,我们允许协变量的值随时间变化,模型形式如 。但如果协变量的效应或效力随时间变化呢?
这就需要一种不同类型的模型,一种具有时变系数的模型,通常写作 。在这里,协变量 可能是固定的(例如,遗传标记或基线治疗分配),但其相关系数 现在是时间的函数。这使我们能够对这样一种情况进行建模:例如,一种治疗在早期有很强的保护效应,但其益处会随着时间的推移而减弱。
这两种模型解决了不同的生物学和临床现实。时变协变量模型 探讨的是随着患者状态的变化,风险如何变化。时变系数模型 探讨的是在疾病过程中,某一特定特征的重要性如何变化。通过理解和区分这些复杂的工具,我们可以创建更忠实地反映世界复杂、动态本质的模型。
掌握了时变协变量的原理和机制后,我们就像一位终于掌握了音阶与和弦的音乐家。现在,真正的乐趣开始了:演奏音乐。在本章中,我们将探索这些思想得以应用的“交响乐”,它们改变了我们对随时间展开过程的理解。我们将看到,为变化建模不仅仅是一项技术练习;它对于提出并回答医学、流行病学,乃至人工智能前沿领域中一些最重要的问题至关重要。
时间的至关重要性,在对健康和疾病的研究中体现得最为淋漓尽致。患者不是一个静态的数据点,而是一个动态的故事。他们的生命体征波动,实验室结果演变,未来患病的风险也随着每一次心跳而改变。时变协变量为准确地讲述这个故事提供了语言。
想象一位医生正在监测一位接受了肺移植的患者。一个关键问题是急性细胞排斥反应 (ACR),这是一种可能在术后任何时间点发生的免疫反应,甚至可能发生不止一次。医生想知道:一次 ACR 发作是否会增加移植失败的直接风险?
一种天真的方法可能是比较那些曾经经历过排斥反应的患者和那些从未经历过的患者。但这设下了一个微妙的逻辑陷阱。要被分入“排斥”组,患者必须(根据定义)存活足够长的时间,直到排斥反应发生。这段等待期,即患者保证存活的时期,被称为“不朽时间”。将这段“不朽”的生存期归功于排斥组会产生一种偏倚,可能使排斥反应看起来没有它实际上那么有害。
正确的方法是将排斥状态视为一个时变协变量。患者的记录从“无排斥”状态开始。当他们经历第一次 ACR 发作时,他们的状态就会翻转。他们对分析的贡献被正确地划分:在 ACR 发生前,他们为未暴露组贡献人-时;发生后,则为暴露组贡献人-时。这种使用我们讨论过的计数过程框架的方法,干净利落地避免了不朽时间偏倚,并提供了在 ACR 发生那一刻风险如何变化的真实估计。同样的原则也适用于任何内部、演变的生物标志物,确保我们只使用截至时间 可用的信息来模拟时间 的风险。
除了解释风险,医生的目标通常是预测风险。一位今天坐在诊室里的患者,在时间 时可能会问:“根据我的病史,我在未来两年内心脏病发作的个人风险是多少?”这是一个动态预测问题,而且极具挑战性,因为患者的关键风险因素,比如他们的血压 ,将在这两年中以未知的方式继续变化。
仅仅使用一个基于他们多年前基线血压的模型可能是不准确的。而使用一个需要知道他们未来血压的模型是不可能的——我们不能用未来的信息来预测未来!这是另一个错误逻辑可能导致虚假结论的地方。
解决这个问题的一个强大而实用的策略是地标分析法 (landmarking)。我们设定一个“地标”时间 ,即当前时刻。然后,我们从历史数据中创建一个新的队列,该队列仅包含在时间 时也存活且无事件的患者。利用这个群体在 时可用的信息(例如,他们最近一次的血压),我们为接下来的两年建立一个预测模型。通过将预测时间、信息集和风险人群对齐,地标分析法提供了一种有效且无偏的方式来进行个性化预测,而无需“欺骗”时间流。
世界很少是简单的,我们使用的工具必须足够灵活以应对其复杂性。时变协变量框架并非一招鲜的把戏;它是一种多功能工具,可以适应各种具有挑战性的统计情景。
患者常常面临多种可能“相互竞争”的结局。癌症患者可能死于癌症,也可能死于治疗副作用,或者死于车祸。这些都是竞争风险。如果我们想了解一个时变生物标志物如何具体影响因癌症死亡的风险,我们不能简单地忽略其他死因。
时变协变量框架允许我们建立特定原因风险模型。在这种方法中,当我们为一个原因(例如,癌症死亡)的风险建模时,我们将竞争事件(例如,致命性心脏病发作)的发生视为一个删失事件。患者在那一刻就退出了“风险”池。这使我们能够为每个原因拟合一个单独的模型,每个模型都有其自己的基线风险和自己的一套协变量系数,包括时变协变量。这种方法提供了一种细致的理解,即像一个演变的实验室值 这样的因素如何影响在仍然易感的人群中某一特定事件的具体发生率。它还让我们能够将这个病因学问题与预测性问题区分开来,后者可能更关注在面对其竞争者时,某一事件发生的总体概率。
科学真理是通过累积多项研究的证据而建立的。然而,在荟萃分析中合并这些研究可能很棘手。不同的研究可能在患者疾病的不同阶段招募他们,或者对他们的随访时间长短不一。一阶段个体患者数据 (IPD) 荟萃分析,即汇集所有研究的原始数据,必须直面这种异质性。
想象一下,一种疾病的通用时间尺度是“诊断后时间”。一项研究可能在诊断时刻招募患者,而另一项研究则在两年后招募他们。这种延迟进入,或称左截断,意味着第二项研究中的患者在合并数据集中直到他们诊断两年后才处于风险中。作为时变协变量的天然归宿,计数过程公式完美地处理了这个问题。通过将“风险中”指示符 定义为仅在患者进入研究后才为 1,我们确保了分析的有效性。这使我们能够跨越不同的研究,连贯地对基线和时变预测变量的效应进行建模,从而得出更稳健、更具可泛化性的科学结论。
一个基本概念的真正力量在于它能够连接并赋能其他领域。时变协变量的思想为经典生存分析与现代因果推断和人工智能前沿领域之间架起了一座至关重要的桥梁。
也许最深刻的应用是在从观察性数据中解开因果关系的探索中。考虑一位医生正在治疗一名慢性病患者。患者的疾病严重程度 恶化,因此医生增加了药物 的剂量。反过来,药物可能会改善未来的严重程度评分。严重程度和药物都可能影响最终结局。
这就产生了一个反馈循环。给予治疗的原因与结局本身交织在一起,这个问题被称为依时指示混杂。一个简单地包含 和 的标准回归模型将产生一个有偏且无法解释的治疗效应估计。
认识到这种结构是迈向解决方案的第一步。像边际结构模型 (MSM) 这样的先进方法,可以在某些假设下,估计出治疗的真实因果效应。它们通过一种巧妙的重加权技术,即治疗概率倒数加权 (IPTW) 来实现这一点,该技术实质上创建了一个伪人群,在这个伪人群中,治疗不再受到混杂。建立这个问题和计算必要权重的整个机制,都关键性地依赖于对治疗和混杂因素的时变性质的正确建模。同样的加权逻辑也可以用来校正当删失本身依赖于不断变化的患者特征时产生的偏倚。
我们生活在一个“大数据”时代,电子健康记录 (EHRs) 捕获了海量信息:数以百计的实验室值、生命体征和用药记录,所有这些都随着时间为数百万患者而变化。我们如何在这压倒性的噪音中找到有意义的信号?
这就是机器学习发挥作用的地方。但是,标准算法通常需要一个简单的、静态的特征表——每个患者一行。时变协变量框架提供了至关重要的桥梁。通过将纵向数据重组为 (开始, 停止) 格式,我们可以将强大的机器学习技术应用于生存数据的动态世界。
例如,我们可以扩展像 LASSO 这样的惩罚回归模型,从成千上万个预测变量列表中自动选择最重要的变量,同时考虑到它们的时变性质。我们甚至可以教更复杂的非参数算法,如随机生存森林,来处理这种数据结构。通过修改树的核心分裂规则以正确处理动态风险集,我们可以构建高度准确的预测模型,从数据中学习复杂的非线性关系——这些模式对于传统方法来说是完全不可见的。
从单个患者的床边到对大规模人群数据集的分析,时变协变量的概念是解锁对世界更深入、更动态理解的关键。它使我们能够超越静态快照,创造出一幅风险如何演变的动态画面,从而使我们能够做出更好的预测,得出更可靠的因果结论,并构建科学和医学领域的下一代智能系统。