
在科学和政策领域,我们不断追问“如果……会怎样?”如果病人接受了另一种药物会怎样?如果实施了一项新的公共卫生政策会怎样?从真实世界的数据中回答这些因果问题是出了名的困难。简单的组间比较常常会产生误导,因为存在混淆——即“苹果与橘子”问题,其中潜在的差异(而非干预本身)驱动了观察到的结果。多年来,统计学家面临着两种主要策略之间的艰难选择:结果建模或逆概率加权。每种方法都很强大,但也很脆弱,完全依赖于单个统计模型的完全正确性。该模型中的一个错误就可能导致整个结论都是错误的。本文介绍了一种克服这一困境的革命性方法:双重稳健估计量。我们将探讨使因果推断成为可能的核心概念,并解析这种估计量的巧妙构造,它为我们提供了两次获得无偏倚答案的机会。在此基础上,我们将看到这个强大的思想如何在不同领域中找到卓越的应用,将医学、生态学和人工智能的前沿联系起来。
想象一下,你是一位医生,正试图判断一种新药是否有效。你观察了一组服用该药的患者和一组未服用的患者。接受治疗的组别似乎更健康。但你停下来思考:他们一开始就更健康吗?也许医生只给那些更强壮、更可能康复的患者开了这种新药。直接比较这两个组别,就像比较专业短跑运动员和业余慢跑者的赛跑时间,然后得出结论说他们花哨的鞋子让他们跑得更快一样。问题的核心在于我们试图回答一个“如果……会怎样”的问题:那些接受了药物治疗的患者,如果他们没有接受治疗,会发生什么?这正是因果推断的根本挑战。
在科学中,我们常常被“反事实”所困扰——即本可能发生但未曾发生的结果。对于任何个体患者,我们只能观察到他们在实际接受的治疗下的结果。我们可以看到他们服药后发生了什么,但我们永远无法看到同一个人在同一时刻,如果没有服药会发生什么。这个未被观察到的结果存在于一个平行的、看不见的世界中。整个因果推断学科就是关于寻找有原则的方法,利用我们能观察到的世界的数据来窥探那个看不见的世界。
为此,我们依赖于一套基本假设。这些不仅仅是统计上的挑剔;它们是使在观察世界和反事实世界之间穿梭成为可能的物理定律。没有它们,任何关于因果关系的断言都建立在沙滩之上。
要估计像平均处理效应()这样的因果效应,即群体中所有人接受处理与所有人都不接受处理时结果的平均差异,我们必须相信关于我们数据的三件事。
首先,我们需要一致性 (Consistency)。这个假设是说,如果一个人观察到的处理是(比如说)新药,那么他观察到的结果就等同于他在该药物下的潜在结果。这听起来显而易见,但却是一个至关重要的联系。它意味着“新药”是一个定义明确的事物,并且一个病人的治疗不会溢出并影响另一个病人的结果。它断言我们在数据中看到的,是其中一个潜在现实的真实反映。
其次,我们需要条件可交换性 (Conditional Exchangeability),或称“无未测量混淆”。这是问题的核心。它指的是,在我们考虑了患者所有相关的基线特征——他们的年龄、合并症、实验室值等等(我们将这组因素称为 )之后——他们接受何种治疗基本上是随机的。在任何一组相似的患者中(例如,65岁患有高血压的男性),接受药物治疗的那些人和没有接受的那些人,就其潜在结果而言,平均是可互换的。这个假设使我们能够使用未治疗组作为有效替代,来代表治疗组在未接受治疗情况下会发生什么。这是我们确保我们正在进行“苹果对苹果”比较的方式。
第三,我们要求正定性 (Positivity)。这意味着对于任何特征集 ,接受任一处理的概率都非零。例如,如果医生从不给超过80岁的患者开这种新药,那么我们就不可能从我们的数据中了解该药物在该年龄组中的效果。这个组别中没有接受治疗的患者可以与未治疗的患者进行比较,更根本的是,数据中根本没有关于一个80岁老人服用该药的反事实信息。正定性确保了我们为需要进行的每一次比较都有数据支持。
在这三条规则的基础上,统计学家发展出两种主要策略来估计因果效应。每种策略本身都很巧妙,但也都极其脆弱。
第一种策略是结果回归 (Outcome Regression),也称为 G-computation。其思想是建立一个“如果……会怎样”的机器。你使用你的数据来训练一个统计模型,该模型学习患者特征()、处理()和结果()之间的关系。这个模型实质上变成一个函数,,用于预测具有特征 的人在处理 下的结果。为了估计 ATE,你使用这个模型为每一个人预测他们在接受处理()下的结果以及他们在作为对照()下的结果。然后你对每种情景下的结果求平均,并计算差值。这是一个很棒的想法,但它有一个致命的缺陷:你的“如果……会怎样”机器必须被完美地设定。如果你的结果模型是错误的,你的整个反事实模拟就是错误的,你的估计就会有偏倚。
第二种策略是逆概率加权 (Inverse Probability Weighting, IPW)。这种方法完全忽略结果,而专注于处理分配。它问:“为什么这个人得到了药物?”它对给定患者特征下接受处理的概率进行建模,这个量被称为倾向性得分 (propensity score),。然后它使用这些概率来创建权重。那些接受了对其而言“不太可能”的处理的人会获得较大的权重,而那些接受了“很可能”的处理的人则获得较小的权重。这种重新加权的魔力在于它创建了一个新的伪总体,在这个伪总体中,患者的特征在处理组和未处理组之间是完美平衡的,模拟了一场随机实验。然后你就可以直接比较这个平衡的伪总体中的平均结果。但这个策略也很脆弱:它的成败完全取决于倾向性得分模型。如果该模型是错误的,重新加权就无法平衡各组,混淆因素就会重新涌入,导致你的估计产生偏倚 [@problem_id:5175085, 4621641]。
很长一段时间里,研究人员不得不在两种毒药中做出选择:要么冒着结果模型错误的风险,要么冒着倾向性得分模型错误的风险。然后,一个结合了这两者的革命性思想应运而生:双重稳健估计量 (doubly robust estimator)。
其构造非常巧妙。它从结果回归的预测开始,就像 G-computation 一样。但接着它增加了一个基于 IPW 逻辑的“校正项”。对于估计在处理下的平均结果 ,单个个体 的估计量大致如下所示:
在这里, 表示该个体接受了处理,否则为 。注意这个校正项。它取“残差”——即个体实际结果 与模型预测结果 之间的差值——并用逆倾向性得分进行加权。
这种结构具有一个美妙的、近乎神奇的属性 [@problem_id:4432205, 4621641]:
如果结果模型()是正确的: 残差项 将只是随机噪声,在任何患者组内,其平均值为零。整个校正项的平均值将为零,你将得到来自你完美结果模型的正确预测。
如果倾向性得分模型()是正确的: 校正项将成为一个完美加权的调整。它会利用 IPW 逻辑中完美平衡的伪总体,来精确地(平均而言)抵消你那有缺陷的结果模型所犯的错误所带来的偏倚。最终的估计值将被校正为正确答案。
这就是双重稳健性 (double robustness) 的本质:如果结果模型或倾向性得分模型中任意一个被正确设定,该估计量就能给出一个一致的(渐近无偏的)答案。你有两次机会来做对!只有在你的两个模型都错误的情况下,你才会得到一个有偏倚的答案。
这个优雅的属性并非偶然;它是深层统计理论的结果。双重稳健估计量是使用一个称为有效影响函数 (efficient influence function, EIF) 的蓝图构建的。你可以将 EIF 想象成在给定统计模型中估计一个参数的“完美配方”或“规范梯度”。它告诉你,某一个人的数据发生微小变化将如何影响整体估计值。
一个可以表示为所有个体影响函数平均值的估计量被称为渐近线性 (asymptotically linear) 的。中心极限定理告诉我们,这种估计量在大样本中将具有一个漂亮的钟形正态分布,这使得我们能够计算 p 值和置信区间。
双重稳健估计量的美妙之处在于,其结构是平均处理效应的 EIF 的直接实现。这个 EIF 配方本身就包含了结果回归和倾向性得分项,这正是双重稳健性属性的数学起源。此外,因为它基于有效影响函数,它还有另一个显著的特性:当结果模型和倾向性得分模型都正确时,该估计量是渐近有效 (asymptotically efficient) 的。这意味着在所有表现良好的估计量类别中,它实现了最小的方差(因此置信区间最窄) [@problem_id:4812172, 4544879]。它不仅是稳健的;当一切顺利时,它还是最优精确的。
尽管理论上很优雅,双重稳健估计量并非万能良药。在混乱的现实世界医疗数据中,挑战层出不穷。
一个主要问题是接近违反正定性。虽然正定性假设在技术上可能成立,但我们可能会发现,对于某些患者,估计的倾向性得分非常接近 0 或 1(例如, 或 )。看看我们估计量中的校正项:分母是 。如果这个数字很小,权重就会变得巨大,那一个个体就可能对整个估计产生巨大影响。这会导致估计值极不稳定,方差巨大。一个常见但并不完美的解决方法是“修剪”权重,即将倾向性得分的上限和下限设定在远离 0 和 1 的位置。这降低了方差,但引入了少量偏倚,迫使我们陷入经典的偏倚-方差权衡之中。
另一个挑战来自现代数据,其中协变量 的数量可能非常庞大。建立好的滋扰模型是困难的。我们经常求助于灵活的机器学习(ML)算法。然而,这些强大的模型可能会过拟合,即它们学习的是数据中的噪声而不是真实的潜在信号。如果我们使用相同的数据来训练我们的 ML 模型并计算最终估计值,这种过拟合会引入一种微妙的偏倚,破坏我们所期望的属性。现代的解决方案是一种巧妙的技术,称为交叉拟合 (cross-fitting)。数据被分成若干折。为了计算第 1 折中某个人的贡献,我们使用在所有其他折上训练的模型。这确保了一个观测值的结果永远不会用在该观测值上训练过的模型来预测,从而消除了由过拟合引起的偏倚,并恢复了双重稳健估计量的优美渐近性质。
最后,双重稳健估计量的故事是统计学独创性的一个美丽范例。它面对一个看似不可能的问题,承认简单解决方案的脆弱性,并构建出一种更具韧性、更有原则的方法。它提供了一个强大的框架,用于在一个我们一次只能观察到一个现实的世界中探求因果真相。
既然我们已经探究了双重稳健估计量的内部工作原理,我们的知识工具箱里就多了一个新工具。给自己两次做对的机会,这种统计上的保险策略是一个聪明的想法。但一个工具的好坏取决于它能解决的问题。那么,这个想法究竟在哪些地方出现?它在哪些地方产生了影响?一个深刻科学原理的真正美妙之处不在于其巧妙,而在于其普适性。让我们踏上一段旅程,看看这一个想法能带我们走多远。你可能会对我们最终到达的地方感到惊讶。
让我们从一个熟悉的世界开始:医学和公共卫生。我们不断面临因果问题。一种新药能降低胆固醇吗?一项新的筛查指南是否真的让更多人接受了癌症检查?回答这些问题似乎很简单:只需比较接受药物的人和没有接受药物的人。但是,正如我们所知,世界并非如此简单。选择服用新药的患者可能一开始就更健康,或者在健康方面更积极主动。采用新指南的卫生系统可能拥有更多资源或服务于不同的人群。这是经典的混淆问题,它可能导致我们得出危险的错误结论。
这就是双重稳健估计量大放异彩的第一个也是最根本的地方。通过结合一个关于谁接受治疗的模型(倾向性得分)和一个关于他们发生什么的模型(结果模型),它们为真实因果效应——平均处理效应(ATE)——提供了更可靠的估计。这使得研究人员能够利用来自现实世界的、内容丰富的“混乱”观察性数据,如电子健康记录,以更大的信心评估政策和治疗的有效性。
但科学很少止步于平均值。一位为患者提供建议的医生想知道更多。如果一种治疗降低了不良事件的风险,一个自然的问题是:我需要治疗多少人才能预防一个不良结局?这就是“需治数”(Number Needed to Treat, NNT),一个非常直观的指标,有助于将统计结果转化为临床实践。为了从观察性数据中计算出可靠的 NNT,你首先需要一个可靠的风险差异估计。双重稳健估计量正是产生这种可靠估计的引擎,使我们能够从原始数据走向可操作的临床见解。
此外,“平均”效应可能不是我们最关心的问题。有时,问题不是“如果每个人都服用这种药物,效果会是怎样?”而是“对于目前正在服用这种药物的这类患者,效果是怎样?”这就是处理组平均处理效应(Average Treatment effect on the Treated, ATT)。这是一个不同的问题,需要一个不同的统计目标。双重稳健框架的美妙之处在于其灵活性。通过对公式进行一些调整,我们可以构建一个专门针对 ATT 的估计量,再次为回答这个更细致的问题提供两次做对的机会。
从本质上讲,混淆问题是一个缺失数据问题。对于每个服药的人,他们不服药时的结果是缺失的。对于每个未服药的人,他们服药后的结果是缺失的。双重稳健估计量是处理这种缺失性的一种策略。因此,一个自然的问题出现了:它能帮助处理其他类型的缺失数据吗?
答案是肯定的。考虑一个典型的临床试验。患者被随访一段时间,以观察是否发生某个事件,比如说心脏病发作。但不是每个人都能完成研究。有些人搬家了,有些人因个人原因退出,有些人失访了。这被称为删失 (censoring)。如果退出的患者与留下来的患者有系统性的差异(也许他们病情更重),那么一个简单的分析可能会产生严重的偏倚。
在这里,双重稳健原则再次提供了一个优雅的解决方案。我们可以构建一个结合了两个模型的估计量:一个关于事件的模型(心脏病发作的风险率)和一个关于缺失性的模型(随时间被删失的概率)。如果我们对疾病过程的模型是正确的,或者我们对退出过程的模型是正确的,我们对治疗效果的估计将是一致的。再一次,我们有两次机会从不完整的数据中解开真相。
这个原则是如此通用,以至于它将我们带到了诊所以外的广阔天地。让我们去生态学 (ecology) 领域看看。生物学家想了解决定一个物种生活在哪里的因素。他们基于对物种的观察和温度等环境变量来构建物种分布模型(SDMs)。但他们的数据存在固有的偏倚:你只能在你寻找过的地方记录到一个物种。如果科学家倾向于在容易到达的区域进行搜索,他们的数据将不具代表性。这种“信息性抽样努力”正如你所猜想的,是一个缺失数据问题。
而解决方案是相同的。我们可以构建一个双重稳健估计量,它结合了一个物种真实栖息地偏好的模型(“结果”)和一个生态学家搜索模式的模型(被观察到的“倾向性”)。这使我们能够校正抽样偏倚,从而更真实地了解物种与其环境的关系。从患者的生存到黑豹的栖息地,同样的基本统计思想为我们提供了一条通往更稳健答案的道路。
到目前为止,我们一直在问一种治疗是否有效。但更深层次的科学问题是它如何起作用。一种降压药可能通过直接作用于血管来降低血压,但它也可能通过影响一个关键的生物标志物来间接实现。我们能分清这些效应吗?
这是因果中介分析 (causal mediation analysis) 的领域,它涉及估计像自然直接效应(Natural Direct Effect, NDE)这样的量——即药物不通过生物标志物路径起作用的效应。估计这些特定路径的效应是出了名的困难,因为它涉及到思考“跨世界”的反事实(如果你接受了药物,但你的生物标志物的反应却像你没有接受药物一样,会发生什么?)。然而,双重稳健框架可以扩展到应对这一挑战。它需要更复杂的模型——针对治疗、中介变量和结果——但其核心原则,即增广和提供多次正确机会,依然存在,使我们能够窥探因果机制的黑箱。
现在,让我们实现一个真正非凡的飞跃。用于探索生物学路径的完全相同的数学工具,可以用来研究一个深刻的社会问题:公平性 (fairness)。想象一个银行用来批准贷款的人工智能模型。我们担心该模型可能基于申请人的性别等敏感属性而存在偏见。一个简单的分析可能会显示男性和女性获得贷款的比率不同,但银行可能会辩称这是由于收入或信用记录等合法因素的差异所致。
反事实公平性提出了一个更精确的问题:性别对贷款决策的直接影响中,有多少是不能用其对收入等允许因素的影响来解释的?这个“不允许”的效应在数学上等同于我们在生物学中看到的自然直接效应。通过将敏感属性定义为“处理”,将合法因素定义为“中介变量”,我们可以使用双重稳健估计量来量化不公平的程度。这将一个关于公平性的哲学辩论转变为一个可检验、可量化的假设,为审计我们的算法和建设一个更公平的世界提供了严谨的工具。
联系还不止于此。双重稳健估计不仅与现代人工智能和机器学习兼容;在许多方面,它正成为推动它们向前发展的关键引擎。
个性化医疗 (personalized medicine) 的梦想是超越平均效应,为每个个体患者找到合适的治疗方法。机器学习模型在预测这类条件平均处理效应(CATEs)方面表现出色,但它们必须在充满混淆的真实世界数据上进行训练。解决方案是什么?我们将双重稳健(DR)结构直接嵌入到学习目标中。我们使用机器学习来灵活地建模倾向性得分和结果,然后使用双重稳健公式为模型生成一个校正过的“伪结果”以供学习。这让我们获得了机器学习的预测能力和因果推断的严谨性。
然而,这需要我们保持一份重要的谦逊。如果我们想估计一种治疗对某一类患者的效果,而这类患者在我们的数据中几乎从未接受过这种治疗,会发生什么?这违反了正定性 (positivity) 假设。这些患者的倾向性得分将接近于零,导致 DR 公式中的权重爆炸。虽然 DR 估计量的“增广”部分通过以结果模型的预测为中心来帮助抑制这种爆炸,但它无法创造奇迹。在数据稀疏的区域,我们变得严重依赖于结果模型的正确性——我们失去了“双重”稳健性。这是一个至关重要的提醒:没有任何统计工具可以在没有信息的地方创造信息。
DR 估计的影响也在改变强化学习 (Reinforcement Learning, RL),这是教导智能体做出最优决策序列的人工智能分支。将 RL 应用于医疗保健等现实世界问题的一个核心挑战是离线策略评估(off-policy evaluation):我们如何能利用在现有临床策略下收集的数据,来安全地评估一种新的、可能更好的 AI 驱动策略(如脓毒症警报系统)?在将任何新 AI 部署到高风险环境之前,回答这个问题至关重要。用于离线策略评估的最广泛使用和最受信任的方法,其核心是序贯双重稳健估计量。它们将环境模型(Q-函数)与源自新旧策略的重要性权重相结合,为新策略的价值提供稳健的估计。
最后,关于使用海量敏感数据集的实际挑战又该如何应对?现代医学研究依赖于整合多家医院的数据,但隐私法规和患者信任阻碍了原始数据的共享。这时联邦学习 (Federated Learning) 就派上了用场。双重稳健估计量的结构,作为每个患者贡献的简单平均,非常适合这种范式。每家医院可以在本地计算自己患者的贡献。然后,使用诸如加性秘密共享或同态加密等安全聚合技术,他们可以将这些贡献结合起来,计算出一个全局的、双重稳健的处理效应估计,而无需共享任何单个患者的数据。
从单个患者到全球联盟,从药物疗效到算法公平性,双重稳健原则为从不完美的世界中学习提供了一个统一而强大的框架。它证明了一个简单而优雅的思想,有能力连接不同领域,并推动我们认知边界的力量。