
在从临床医学到气候科学的许多科学领域中,我们观察到的过程都是深度交织的。患者不断变化的生物标志物水平与其发生重大健康事件的风险密不可分;电池的内部状态与其材料特性直接相关。为了简化分析,人们常常将这些组成部分孤立开来,但这可能导致有偏倚的结论和对整个系统的错误理解。这就产生了一个巨大的知识鸿沟,我们的模型无法反映我们试图理解的相互关联的现实。
联合模型提供了一个强大的统计框架,用于整体分析这些相互关联的系统。它建立在一个核心原则之上:如果两个或多个过程是相关的,它们就应该在一个统一的框架中一起建模。本文将深入探讨联合模型的世界,阐明其强大之处与精妙之处。以下章节将引导您了解其基本概念和多样化的应用。
“原理与机制”一节将探讨融合纵向数据与事件发生时间分析的核心统计思想。我们将揭示共享随机效应如何在不同过程之间建立起一条统一的纽带,并且至关重要的是,为何更简单的两阶段方法因测量误差和生存者偏倚等统计陷阱而注定失败。“应用与跨学科联系”一节将展示这种方法的多功能性,从个性化医疗和癌症基因组学到电池工程和全球天气预报,揭示了联合模型作为理解我们复杂世界的基本工具。
要真正领会联合模型的强大,我们必须首先理解它试图描述的世界——一个由动态过程组成、随时间推移而相互交织、不断展开的世界。想象一下,我们正在追踪患有帕金森病 或糖尿病 等慢性病的患者。我们关心的不仅仅是一次血液检测或一次性的测量。我们关心的是整个过程:他们的症状如何演变?他们的血糖趋势如何?以及最关键的,这个不断演变的过程如何与重大临床事件(如跌倒、并发症发作或需要住院)的风险相关联?联合模型提供了用数学语言讲述这个故事的方法,将患者健康的连续演变与塑造其生命的关键离散事件联系起来。
从本质上讲,联合模型是两种不同统计思想的结合,将它们融合成一个单一、连贯的叙述。
首先,我们有纵向过程。这是模型中描述某个量如何随时间变化的部分。想想有糖尿病风险的患者其糖化血红蛋白(HbA1c)水平,或者帕金森病患者在每次门诊时测量的运动评分。这些测量值并非遵循一条完美平滑的路径;由于自然的生物变异性和测量噪音,它们会上下波动。这就像试图用一把稍有弹性的卷尺测量某人的真实身高——每次读数都与真实值略有不同。
联合模型明确承认这一点,它设想了一条潜在轨迹(latent trajectory),即一条未被观察到的真实路径,代表了患者潜在的健康状况,记为 ,表示患者 在时间 的状态。我们实际看到的测量值 只是这条真实路径的带噪近似:
在这里, 是测量误差(measurement error),即分隔我们观察值与现实的随机“噪音”。真实轨迹 的模型通常包含两个关键组成部分:固定效应(fixed effects),描述整个群体的平均趋势(例如,糖尿病前期患者HbA1c的平均增长率);以及随机效应(random effects),捕捉每个个体与该平均趋势的独特偏离。这个人的疾病进展比平均水平快还是慢?他们的基线严重程度是高还是低?这些个体的“人格特质”由随机效应 捕捉。
其次,我们有事件发生时间过程(time-to-event process),通常称为生存过程。模型的这一部分描述了关键事件发生的“时间点”。这里的关键概念是风险函数(hazard function) 。你可以把它看作是在事件尚未发生的情况下,在时间 发生的瞬时风险。如果一个患者的风险很高,他们就处于一个危险时期;如果风险很低,他们暂时相对安全。一种常见的建模方式是使用比例风险结构:
其中 是基线风险(baseline hazard)——一个“普通”人的潜在风险——而指数项则根据患者的具体特征向上或向下调整这个风险。
那么,我们如何将纵向故事与生存故事联系起来呢?联合模型的核心精妙思想是提出事件的风险与生物标志物的真实、潜在轨迹直接相关,而非其带噪的测量值。这是关键的连接。方程如下所示:
在这里,参数 是关联参数(association parameter)。它量化了连接的强度:患者的真实潜在生物标志物值 每增加一个单位,其事件发生的瞬时风险就乘以一个因子 。
真正的魔力在于,潜在轨迹 是由个体特定的随机效应 定义的。这意味着随机效应在两个子模型之间是共享的。那些使患者生物标志物轨迹更陡峭的个人特征(即斜率的随机效应较大),同时也动态地增加了他们随时间推移发生事件的风险。这种共享随机效应(shared random effect)是将两个过程缝合成一个单一、统计上强大的模型的统一纽带。通过在一个“联合”似然函数中同时估计所有参数,我们让纵向数据为生存预测提供信息,反过来,也让生存数据为我们理解纵向趋势提供信息。
你可能会问:“这看起来很复杂。为什么不采取更简单的两步法呢?”例如,为什么不直接使用观察到的生物标志物值作为预测变量来拟合一个生存模型?或者为什么不先拟合纵向趋势,然后将预测值代入生存模型?不幸的是,这些直观的想法充满了统计陷阱。当我们看到这些简化方法为何失败时,联合方法的优越性便彰显无遗。
假设我们忽略潜在轨迹,天真地将我们的带噪测量值 直接代入风险模型。这是一个经典的“变量误差”问题,它有两个有害的后果。
首先,它导致衰减偏倚(attenuation bias),也称为回归稀释(regression dilution)。随机噪音 模糊了生物标志物与事件风险之间的真实关系。结果是,估计出的关联参数 会系统性地偏向于零,使得生物标志物的预测能力看起来比实际要弱。
其次,它会导致风险的系统性校准失误。即使我们知道真实的关联 ,使用带噪的标志物也会导致错误的风险估计。对于真实标志物值为 的患者,其期望的朴素风险并非真实风险。由于指数函数的数学特性,均值为零的噪音的平均效应不为零。相反,它会按一个特定因子夸大风险:
其中 是测量误差的方差。这个优美的小公式揭示了一个深层问题:噪音不仅增加了随机性,还给我们的风险估计带来了系统性的向上偏倚。联合模型通过关注潜在的 ,完全避开了这个陷阱。
第二个,或许也是最关键的陷阱,是信息性脱落(informative dropout)。想象一下,我们正在研究一种进展性疾病。疾病进展最快的患者——即那些潜在轨迹最高的患者——也最有可能经历我们感兴趣的事件,从而“脱落”出研究的纵向部分。
如果我们试图单独分析纵向数据,就会面临严重的生存者偏倚。在较晚的时间点,我们的数据集优先充满了尚未脱落的较健康的患者。一个拟合于这个有偏倚样本的模型会错误地得出疾病进展比实际慢的结论。用缺失数据理论的语言来说,这种情况被称为非随机缺失(Missing Not At Random, MNAR),因为数据缺失的原因(脱落事件)取决于你希望拥有但未观察到的值(高的潜在轨迹)。
一个两阶段方法,即先分析纵向数据再分析生存数据,无法摆脱这种偏倚。这类似于试图通过只研究从未发生故障的引擎来理解引擎故障。然而,联合模型在这里胜出。通过同时对纵向过程和脱落(生存)过程进行建模,它明确地解释了高轨迹导致高脱落风险这一事实。事件发生时间本身提供了信息,有助于纠正纵向趋势估计中的偏倚。这是一个深远的优势,将一个统计问题转化为信息的来源。这个一般原则——当各组成部分相关时,序贯拟合会失败——是统计学中的一个普遍真理,同样适用于其他技术,如广义加性模型(Generalized Additive Models)。
那么,我们已经构建了这个复杂而优美的模型。我们能用它做什么呢?主要的应用,也是最令人兴奋的应用,是动态预测。
一旦联合模型使用来自大型队列的数据进行拟合,它就成为对新个体的预测工具。想象一位患者来到诊所。我们采集了一些生物标志物测量值。利用他们特定的数据历史,我们可以更新我们对他们个人随机效应 的信念。这为我们提供了他们整个潜在轨迹——过去、现在和未来——的个性化估计。
有了这个个性化的轨迹,我们就可以计算出个性化的、随时间变化的风险概况,并预测他们在某个未来时间窗口内(例如,未来5年)经历事件的概率。当这位患者回来复诊,新的测量值可用时,我们可以不断更新我们的预测,用每一条新信息来完善它们。这就是个性化医疗的精髓——一种随患者情况演变的预测。
这种能力与仅使用基线信息的简单生存模型形成鲜明对比,后者的预测是静态且永不改变的。它也不同于其他动态预测技术,如界标法(landmarking),后者虽然有用,但采取了不同的方法,即在特定的“界标”时间点,仅使用截至该点可用的数据来拟合新的、更简单的模型,而不是指定整个过程的完整生成模型。
联合模型框架的美妙之处不仅在于它对特定问题的解决方案,还在于其核心原则的普适性:如果两个过程是相关的,就一起建模。这个思想可以扩展到处理更复杂的场景。
例如,在一些研究中,门诊的时间可能不是随机的。病情较重的患者可能更频繁地去看医生。这就产生了另一层“信息性”——观察时间本身就携带着关于患者潜在健康状况的信息。一个标准的联合模型会因此产生偏倚。但联合原则可以再次应用。我们可以构建一个更大的模型,其中包括第三个组成部分:一个关于就诊过程的子模型,与同一个潜在轨迹相关联。这显示了该方法深刻的统一性和灵活性。从处理简单的状态和参数估计 到复杂的临床数据,指导原则是承认并明确地建模自然界呈现给我们的依赖关系,而不是为了简化而忽略它们。
有一个精彩的故事,或许是杜撰的,说的是一群学者试图理解一台复杂的机器。第一位学者拿起一个齿轮,把它擦亮,测量到微米级别,并以精美的细节描述其特性。第二位对弹簧做了同样的事,第三位对杠杆。经过多年的工作,他们拥有了一个图书馆,里面有对每个独立部件的完美描述,但他们仍然不知道机器是如何工作的。他们犯了分析的大忌:他们忘记了部件是被设计来协同工作的。
科学在追求简化的过程中,常常陷入这个陷阱。我们为一个过程建立一个模型,然后为第二个过程建立另一个模型,然后试图将它们粘合在一起。结果往往是笨拙、有偏倚,或者干脆就是错误的。它错过了本质要点,即在自然界中,事物很少是独立的。患者 deteriorating 的健康状况既影响其生物标志物水平,也影响其生存前景。电池单元的物理特性决定了其内部状态和材料属性是同一枚硬币的两面。联合模型是一个优美、统一的思想,即我们应该像自然构建世界那样构建我们的模型:从一开始就把所有活动部件连接起来。这是对理解交响乐的承诺,而不仅仅是分析单个音符。
没有什么地方比医学更能体现事物的相互关联性。思考一下开发一种新的抗癌药物所面临的挑战。我们给患者用药,并随时间追踪他们血液中的一种分子“药效动力学”(PD)生物标志物。我们还追踪他们的疾病需要多长时间才会进展。一种幼稚的方法是分开分析这两件事:“生物标志物下降了吗?”和“患者活得更长了吗?”但这忽略了整个故事!一个健康状况正在恶化的患者,更有可能同时出现生物标志物趋势恶化和疾病进展事件。此外,他们更有可能退出研究,这意味着他们的生物标志物测量 просто停止了。这两个过程——生物标志物的旅程和临床事件的倒计时——是深度交织的。
联合模型接受了这一点。它不仅仅是将两个分析粘合在一起;它构建了一个单一、统一的框架。模型的一部分描述了每个个体生物标志物的纵向轨迹,考虑了随机波动和测量误差。另一部分描述了随时间推移发生临床事件的风险。魔力在于它们之间的联系。模型为每个人设定了一个隐藏的或“潜在的”变量——你可以把它想象成他们潜在的真实健康状况。这个单一的潜在因素既影响他们生物标志物的路径,也影响他们疾病进展的风险。通过同时估计所有东西,模型可以了解真实、潜在的生物标志物轨迹的变化——而不仅仅是带噪的测量值——如何与临床结果相关联。它正确地理解了,一个停止提供数据的患者之所以这样做是有原因的,这个原因与我们试图建模的东西密切相关。
这个强大的思想不仅限于分子标志物。当我们研究患者自我报告的生活质量(QoL)时,同样的原则也适用。患者对自己幸福感的感知,随时间测量,也是一个与其发生重大健康事件风险深刻相关的带噪信号。联合模型让我们能够穿透噪音,提出一个深刻的问题:“一个人生活质量的持续下降是否预示着一场即将到来的临床危机?”
该原则延伸到了疫苗开发的最前沿 [@problemid:2892899]。当我们测试一种新疫苗时,我们想知道它诱导的抗体水平是否真正具有保护作用。仅仅看到接种疫苗的人平均抗体水平更高、感染更少是不够的。我们想把这些点连接起来。联合模型通过同时追踪每个人抗体水平的升降和他们被感染的瞬时风险来做到这一点。这使我们能够量化抗体本身的保护效果,并且更强大的是,能够进行动态预测。我们可以问:“对于这个特定的人,考虑到他们到今天为止的抗体历史,未来几周他们的感染风险是多少?”这就是个性化医疗的实践,所有这一切都通过将两个过程作为一个整体来建模而成为可能。
有时,我们希望建模的事件本身就是一个级联。在慢性病中,患者可能会经历复发性事件,如疾病发作,同时还面临着终末事件的风险,如死亡。一个“联合脆弱模型”通过假设每个人都有一个潜在的“脆弱性”——一个未观察到的风险水平——来处理这个问题。这种脆弱性同时增加了他们的发作率和死亡风险。这揭示了一个有趣的微妙之处:即使疾病发作并不因果地增加死亡风险,观察到一个经历了多次发作的患者也为我们提供了强有力的证据,表明他们潜在的脆弱性很高。因此,我们对他们死亡风险的预期应该向上修正。该模型从整个事件历史中学习,以理解患者风险的全貌。
联合建模的哲学超越了随时间追踪过程;它是一种解码复杂数据的基本策略。我们寻求的信息常常隐藏在被多个重叠效应混淆的信号中。解开它们的唯一方法就是联合建模。
考虑一下癌细胞中的基因组混乱。根据 Knudson 的“二次打击”假说,一个肿瘤抑制基因通常必须失去其两个功能性拷贝才能驱动癌症。患者可能遗传了一个坏拷贝(第一次打击),我们想看看第二个健康的拷贝是否在肿瘤中丢失——这一事件称为杂合性丢失(Loss of Heterozygosity, LOH)。当我们对肿瘤活检的 DNA 进行测序时,数据是一团糟。样本是肿瘤细胞和健康正常细胞的不纯混合物。此外,LOH 事件可能是“亚克隆的”,仅存在于一部分肿瘤细胞中。当我们查看来自两个不同等位基因(A 和 B)的读段比例时,信号是模糊的。一个弱信号可能意味着 LOH 是真实的,但肿瘤样本不纯。或者它可能意味着样本是纯的,但 LOH 仅存在于一个小亚克隆中。或者它可能意味着根本没有 LOH!
我们如何解决这个难题?我们寻找另一个线索。LOH 事件通常涉及染色体片段的物理删除。这不仅改变了等位基因比例,还减少了该区域的 DNA 总量。这两个可观察量——等位基因比例和总读段深度——受纯度、亚克隆性和 LOH 特定类型的影响是不同的。一个联合生成模型就像一位侦探大师。它创建了一个单一的数学故事,根据纯度、克隆性和拷贝数等基本参数,同时预测预期的等位基因比例和预期的读段深度。通过将这个单一模型同时拟合到两种数据类型,它可以成功地解开混杂因素,并对第二次打击是否真的发生做出稳健的判断。
这种“一次性建模所有数据”的逻辑同样出色地应用于医学成像。想象一位放射科医生试图从 MRI 扫描中分割出肿瘤。为了追踪其生长,他们首先需要将今天的扫描与上个月的扫描对齐——这个过程称为配准。一种常见但有缺陷的方法是序贯流程:首先,运行一个配准算法,然后,在对齐的图像上,运行一个分割算法。问题在于,配准步骤中的任何小错误都会被向下传递并固化到分割中,导致有偏倚的结果。
一个联合配准-分割模型避免了这个陷阱。它构建了一个单一的目标函数,同时评分配准的质量和分割的质量。这两个过程现在可以进行“对话”。分割中一个新兴的、貌似合理的肿瘤形状可以提供信息,帮助 refining 配准。反过来,配准带来的更好对齐,使得分割能够更清晰地贴合肿瘤的边界。通过同时优化两者,模型找到了一个相互一致且不易受传播误差偏倚影响的解决方案。
联合建模的原则是如此基本,以至于它不仅出现在生物学和数据分析中,也出现在我们理解和控制物理及工程世界的尝试中。
让我们缩小到锂离子电池的尺度。工程师们创建了复杂的基于物理的模型来预测电池的性能。这些模型包含固定参数(如锂离子的扩散系数,一种材料属性)和动态内部状态(如电极颗粒内锂的浓度梯度,它不断变化)。为了使模型有用,我们必须从实验数据中识别其参数。但在这里我们面临一个难题。在某些常见的实验条件下,一个参数的影响和一个未知初始状态对测量电压的影响几乎无法区分。较慢的扩散速率(一个参数)可能产生一个电压降,看起来与从一个更陡峭的浓度梯度(一个状态)开始所产生的电压降一模一样。这是一场“可识别性”危机。
一种序贯方法——猜测初始状态,然后找到最佳参数——注定会失败。参数估计将会有偏倚,被扭曲以补偿对状态的错误猜测。解决方案是联合估计。我们把参数和状态都视为待同时估计的未知量。使用像扩展卡尔曼滤波器(Extended Kalman Filter)这样的工具,在一个“增强”系统(其中参数只是不随时间改变的状态)上,我们让数据来决定。随着每个新的电压测量值的到来,算法会更新其对当前内部状态和真实参数值的信念,正确地划分误差并解开它们的混淆效应。
力学与统计学之间的这种协同作用也是现代药理学的核心。药物在血液中的浓度(药代动力学,PK)与其对身体的影响(药效动力学,PD)之间的关系由一个复杂的生理学网络支配。例如,患者的肝血流量既可能影响药物从体内清除的速度,也可能影响下游酶生物标志物的合成方式。为了对此进行机理建模,我们可以从一个微分方程组构建一个联合模型。在这里,一个对每个人都独特的单一潜在“生理变量”——比如代表他们整体代谢能力——可以同时驱动模型中 PK 和 PD 组件的参数。这超越了简单的统计相关性;这是一个其联系由物理定律之铁铸就的联合模型。
还有什么比为整个地球预测天气更宏大的应用呢? 现代天气模型是通过一个称为 4D-Var 的过程初始化的,该过程旨在找到最能解释近期卫星观测的大气初始状态。但这里有一个复杂问题:卫星看到的东西(辐射率)不仅取决于大气状态(温度、湿度),还取决于不确定的参数,如云的特性以及下方陆地和海洋表面的发射率。如果我们假定的表面发射率值是错误的,我们对大气温度的估计就会有偏倚。解决方案再次是,联合求解它们。在这个大规模优化问题中,控制向量被扩充,不仅包括描述大气初始状态的数百万个变量,还包括观测模型的参数。系统同时调整两者,找到与现实最一致的状态和参数组合。这是行星尺度的联合建模。
从单个细胞到全球气候,一个优美、统一的主题浮现出来。世界不是一系列可以逐一解决的独立问题。它是一个联系丰富的 interconnected 系统。理解它的最有效、最优雅、最真实的方法是建立能反映这一深刻现实的模型——能够看到整体而非仅仅是部分的模型。这就是联合模型的承诺及其深邃的智识满足感。