
当我们无法进行完美的实验时,如何确定一种新药是否真正能拯救生命,或一项公共政策是否有效?这个问题是因果推断的核心。虽然随机对照试验(RCT)是金标准,但其应用常常受到伦理、实践或财务上的限制。这使得研究人员只能依赖大量的观察性数据,这些数据信息丰富,但充满了严峻的挑战:混杂。在现实世界中比较不同组别时,预先存在的差异,而非处理本身,可能会扭曲我们的发现。本文通过介绍一种强大的统计工具——平衡得分,来正面解决这个问题。原理与机制部分揭开了因果推断核心概念的神秘面纱,解释了混杂问题,并介绍了倾向性得分——一种从不公平的数据中创造公平比较的绝妙方法。在这一理论基础之上,应用与跨学科联系部分展示了这一优雅思想如何被应用于解决从医学、药理学到公共卫生等领域的复杂问题,揭示了其多功能性和影响力。
想象一下,你是一名医生,面对一位患有严重疾病的病人。你可以开一种新的强效药物,或者继续使用标准疗法。你选择了新药,谢天谢地,病人康复了。但你心中留下了一个令人遐想的问题:如果当初选择了标准疗法,会发生什么?病人是否同样会康复?会康复得更慢吗?还是根本不会康复?
这种“如果……会怎样”的情景,就是我们所说的反事实(counterfactual)。它是看不见的、无法观测的,并且永远无法触及。对于任何个体,我们只能观察到一个现实——我们所做选择的结果。我们永远无法同时看到我们未曾做出的选择所带来的结果。这就是因果推断的基本问题(fundamental problem of causal inference)。我们想要将现实世界与一个可能存在但未发生的世界进行比较,但我们只能窥见其中之一。那么,我们究竟如何才能了解处理与结局之间真正的因果关系呢?
解决这个难题的经典方案,也是科学证据的金标准,就是随机对照试验(randomized controlled trial, RCT)。在RCT中,我们选取一大群符合条件的患者,通过抛硬币(或其复杂的计算机等效方法),将他们随机分配到接受新药或标准疗法的组中。
为什么这种方法如此强大?因为随机化是一个伟大的均衡器。只要样本量足够大,它能确保在治疗开始前,处理组和对照组这两组在平均意义上,在所有可以想象的方面都几乎是相同的。他们的年龄、疾病严重程度、遗传倾向、生活习惯,甚至是我们尚未想到去测量的因素,其分布都将相似。这两个组在统计意义上是可交换的(exchangeable)。由于它们之间唯一的系统性差异就是所接受的处理,因此它们结局上的任何差异都可以被确信地归因于处理本身。随机化使得对照组可以作为处理组反事实的可靠替代。
但是,RCT并非总是可行。它们可能成本高昂、耗时漫长,或在伦理上存在问题。因此,我们常常必须转向观察性数据——那些从电子健康记录、患者登记库或公共卫生调查等现实世界中收集的海量信息。在这里,没有随机化。医生根据他们的临床判断做决定;患者根据自身情况做选择。
这时,事情就变得复杂了。在一项关于新型心脏药物的观察性研究中,病情较重的患者可能更有可能接受这种新的、更具进攻性的治疗,而较健康的患者则坚持使用标准疗法。如果我们天真地比较这两组的结局,我们可能会错误地得出结论,认为新药有害,而这仅仅是因为接受新药的群体一开始病情就更重。这种一个变量(疾病严重程度)同时与处理和结局纠缠在一起的现象,被称为混杂(confounding)。我们这种天真的比较被这种选择偏倚(selection bias)严重地带偏了。这两个组不再是可交换的。
为了取得任何进展,我们必须做出一个大胆且根本上无法检验的假设。我们必须假设我们已经成功识别并测量了所有重要的混杂变量 ——即所有同时影响处理决策和结局的因素的完整集合。这可能包括患者的年龄、合并症、基因组标记等等。
如果我们拥有这套完整的混杂因素,我们就可以提出条件可交换性(conditional exchangeability)的假设,该假设也被称为无混杂性(unconfoundedness)或强可忽略性(strong ignorability)。它指出,在共享所有混杂因素 相同值的任何特定患者亚组内部(例如,65岁、不吸烟、具有特定合并症评分的女性),处理的选择实际上是随机的。在这些细粒度的分层中,处理分配机制“如同随机化”一般。这个假设是我们试图通过计算来重现随机化免费提供的平衡性。这是一个巨大的信念飞跃,而且至关重要的是,要记住没有任何统计方法(包括倾向性得分)能够校正未被测量的混杂因素。
所以,我们已经测量了所有的混杂因素。现在该怎么办?如果我们只有少数几个混杂因素,比如年龄和性别,我们可以简单地对数据进行分层。我们可以比较60多岁的处理组男性和非处理组男性,70多岁的处理组女性和非处理组女性,以此类推。但如果我们有几十个甚至几百个混杂因素,就像在拥有转录组谱的现代医学数据中那样常见,该怎么办?“维度灾难”降临了:随着我们创建越来越具体的亚组,每个亚组中的人数会锐减至零。我们可能无法找到一个65岁、不吸烟、具有特定基因谱和Charlson合并症指数为3的女性,来与她接受治疗的对应者匹配,因为这样的人可能在我们的数据集中根本不存在。
这时,统计学家 Paul Rosenbaum 和 Donald Rubin 的一个绝妙见解应运而生。他们问道:我们能否将来自混杂因素 的所有高维信息压缩成一个单一的数字?他们提出了倾向性得分(propensity score)。倾向性得分 的定义看似简单,实则巧妙:它是一个具有给定特征集 的人接受处理的条件概率。
重要的是不要将其与预后得分(prognostic score)混淆,后者是基于协变量 预测临床结局()的模型。倾向性得分完全关乎处理分配()。它回答的问题是:“对于这样一个的人,他们有多大可能性会得到新药?”
这就是倾向性得分的“魔术”。Rosenbaum 和 Rubin 证明了它是一种平衡得分(balancing score)。这意味着,如果你取任意两个拥有完全相同倾向性得分的个体,一个接受了处理,一个未接受处理,那么在平均意义上,用于计算该得分的所有协变量 的分布在他们之间将是相同的。
想一想这意味着什么。一个倾向性得分很高(比如 )的患者,其特征使他们极有可能接受治疗。一个得分很低(比如 )的患者,则极不可能接受治疗。如果我们找到一个接受治疗的人和一个未接受治疗的人,他们的倾向性得分都是(比如说),我们就找到了两个对于他们而言,治疗决策可能性相等的人。 中所有促使医生倾向于治疗的因素星座,都在他们之间达到了平衡。倾向性得分,这个单一的数字,就像一个统计指纹,让我们能从混乱的观察性数据中找到一个合适的反事实比较对象。它优雅地解决了维度灾难,因为它表明,如果在给定所有 的条件下无混杂性成立,那么在仅给定一维倾向性得分 的条件下,无混杂性也同样成立。
一旦我们为研究中的每个个体估算出了倾向性得分,我们就可以用几种方式来使用它,以估计处理的因果效应。
匹配(Matching): 这是最直观的方法。对于每个接受治疗的个体,我们找到一个或多个倾向性得分非常相似的未接受治疗的个体。这样就创建了一个新的、更小的数据集,其中匹配对的观察协变量得到了很好的平衡,非常像一个随机试验。然后,我们只需比较这个匹配样本中处理组成员和非处理组成员的结局。这种方法通常估计的是处理组平均处理效应(ATT),即对于那些实际接受了治疗的人群类型所产生的效应。
分层(Stratification)或亚组分析(Subclassification): 一种稍显粗略但通常很稳健的方法。我们根据倾向性得分将人群切分成几个层次(例如,五个组,即五分位数)。在每个层次内,个体的倾向性得分大致相似,因此协变量也近似平衡。我们在每个层次内计算处理效应,然后计算所有层次的加权平均值。
逆概率处理加权(Inverse Probability of Treatment Weighting, IPTW): 这是一个更强大但不那么直观的思想。它通过统计加权来创建一个“伪人群”(pseudo-population)。想象一个接受了治疗但倾向性得分非常低()的人,这意味着他本不太可能得到治疗。这个人很稀有,提供了宝贵的信息。在IPTW中,我们给他一个很大的权重(与 成正比)。相反,一个接受了治疗且很可能得到治疗()的人则不足为奇;他得到的权重很小(与 成正比)。通过给每个个体赋予其接受实际所受处理的概率的倒数作为权重,我们创建了一个合成样本,其中协变量不再与处理相关联。这打破了混杂,从而可以直接比较加权平均结局,以估计整个人群中的平均处理效应(ATE)。
倾向性得分的力量并非绝对。它关键性地依赖于另外几个条件。
首先是正性(positivity)假设,也称为共同支撑(common support)假设。这意味着对于任何一组协变量 ,被处理和不被处理的概率都必须非零。如果某一类型的患者(例如,病情最重的患者)总是接受新药,他们的倾向性得分就是1。我们没有特征相似的未处理个体可以与之比较。对于这个群体,不存在“共同支撑”。当这种情况发生时,匹配变得不可能,而在IPTW中,权重( 或 )会趋向无穷大,导致估计值极不稳定。在实践中,我们常常面临“近似违规”,即倾向性得分非常接近0或1。一个常见的解决方案是修剪(trim)样本,将我们的分析限制在倾向性得分有良好重叠的人群子集上。这使我们的估计更可靠,但代价是牺牲了可移植性(transportability);我们现在估计的是一个更有限的“重叠人群”中的效应,而不是整个原始队列。
其次是稳定单元处理值假设(SUTVA)。这个拗口的术语意味着两个简单的事情:无干扰(一个人的处理不影响他人的结局)和一致性(处理是明确定义的,并且对每个人都相同)。例如,如果一个诊所的患者共享同一位社工,为一名患者提供的强化护理计划可能会“溢出”并使其他人受益,这就违反了无干扰假设。
最后,倾向性得分必须被正确估计。如果我们的倾向性得分模型被错误设定(misspecified)——例如,当真实关系高度复杂时,我们却使用了一个简单的线性模型——我们估计出的得分将无法恰当地平衡协变量,留下残余的混杂。这促使研究人员使用更灵活的机器学习方法来估计倾向性得分。然而,这些强大的方法有时在预测上可能过于出色,导致许多倾向性得分非常接近0或1,这又带回了正性违规的实际问题。这揭示了因果推断中一个深刻而有趣的权衡:在控制混杂和维持一个可以进行比较的人群之间的张力。
在领略了平衡得分的优雅原理之后,我们可能感觉自己有点像一个刚学会国际象棋规则的学生。我们懂得了棋子的走法、逻辑和目标。但是,只有当我们看到大师们在千变万化的对局中运用它时,这项游戏的真正美感,其无穷而微妙的策略,才会显现出来。所以,现在让我们步入科学的宏大舞台,看看这一个强大的思想——平衡得分——是如何被用来解决许多领域中真实、具有挑战性且引人入胜的问题的。
所有这些应用的核心追求是相同的:寻找一种公平的比较。在混乱、不受控制的现实世界中,不同组别几乎从不具有直接可比性。新药被给予病情更重的患者;公共卫生项目被更具健康意识的公民所采纳;选择某种饮食的人也可能选择更多地锻炼。简单地比较这些组别的结局,就像是评判一场比赛,其中一个赛跑者获得了领先起跑的优势、一双更轻的鞋和一条更平坦的跑道。这不是一个公平的比较。平衡得分是我们用来铲平赛场的统计工具——它将所有那些不同的起步优势总结成一个单一的让分数值,然后只比较那些让分相似的个体。它让我们能够发问:如果这两个群体在所有重要方面从一开始就是相似的,那么他们的结局会有什么不同?
平衡得分最常见和最关键的应用或许是在医学和公共卫生领域,在这些领域,因果问题的答案可能关乎生死。想象一下,一个公共卫生部门推出了一项激励计划——比如说,一张食品杂货券——以鼓励某些社区的疫苗接种。年底时,他们发现这些社区的疫苗接种率更高。成功了吗?别急。可能这些地区的人们本来就有所不同——也许更年轻,或者有不同的健康史——这些差异使他们本来就更有可能接种疫苗。
为了找出激励措施本身的真实效果,研究人员可以使用平衡得分。他们为每个人测量一系列特征——年龄、先前的健康行为、慢性病状况——无论他们是否在激励社区内外。然后为每个人计算倾向性得分,即我们的平衡得分:在给定其特征的情况下,他们本应处于激励社区的概率。接着,通过将每个获得激励的人与一个没有获得激励但倾向性得分几乎相同的人进行匹配,他们创造了一种极其公平的比较。他们在统计上抹去了预先存在的差异,从而能够分离出代金券计划的效果。
在药理学中,这种纠正虚幻差异的需求甚至更为显著。考虑一种治疗高血压的新型强效药物。由于它既新又强,医生可能会将其保留给最严重的病例——那些血压高得危险且对旧药无反应的患者。这被称为适应症混杂(confounding by indication)。如果你天真地比较服用新药和旧药患者的结局,你可能会发现新药组的表现更差!看起来新药似乎有害。这是一个经典的统计幻觉,是辛普森悖论的一种形式。新药确实更好,但它从一开始就被给予了一群病情严重得多的患者。
平衡得分是打破这种幻觉的关键。通过对倾向性得分进行调整——该得分捕捉了患者可能获得新药的所有原因,包括年龄、疾病严重程度,甚至影响药物代谢的遗传因素——我们可以比较具有相似基线风险状况的患者。当我们这样做时,悖论常常会消失,药物真实的、有益的效果便会显现出来。为了使这种比较更加公平,研究人员通常采用“新用户、活性对照”设计(new-user, active-comparator design):他们将新开始使用新药的人与新开始使用针对同一病症的既有替代药物的人进行比较。这确保了两组中“治疗原因”的基本一致性,使得平衡操作更加合理和强大。
同样的逻辑远不止于药理学。用植物蛋白替代动物蛋白能降低心血管风险吗?这样做的人可能在许多其他方面也不同——他们可能吸烟较少或锻炼更多。为了分离出饮食的效果,我们可以使用倾向性得分加权来创建一个统计上的“伪人群”,在这个人群中,处理组(植物蛋白采纳者)和对照组的年龄、BMI和其他生活方式因素的分布完全平衡。在这个伪人群中,唯一剩下的系统性差异就是饮食,从而使其效果得以凸显。
现实世界不是静止的。患者的病情可能会突然恶化,他们对药物的依从性可能会减弱,医生也可能相应地调整治疗方案。这就产生了一个令人眩晕的反馈循环:治疗影响患者的状态,而状态又反过来影响下一次的治疗决策。标准的平衡得分方法只关注单个时间点的决策,已不足以应对。
然而,平衡的核心思想是如此强大,以至于它成为了专为这些情境设计的更先进方法的基石。在对两种治疗慢性皮肤病(如特应性皮炎)的生物制剂进行复杂比较时,研究人员必须应对时变混杂因素,如疾病发作或使用其他药物。他们将平衡得分作为边际结构模型(Marginal Structural Models)等复杂技术的关键组成部分。本质上,他们在每个时间点反复应用加权,以创建一个在整个过程的每一步都不受混杂影响的伪人群,从而能够估计整个治疗策略随时间推移的效果。
此外,一种治疗可能并非对每个人都同样有效。一种新的糖尿病药物对某些患者可能是奇迹,但对患有慢性肾病的患者来说,效果可能较差,甚至有不同的副作用。问题从“平均效果是什么?”转变为“对于这种特定类型的人,效果是什么?”这是个性化医疗的前沿。为了回答这类问题,我们不能仅仅平衡总人口中的协变量。我们必须在每个感兴趣的亚组内部实现平衡。通过分别为有或没有肾病的患者拟合倾向性得分模型,我们可以估计每个组的治疗效果,从而提供更为细致和具有临床实用性的证据。
当一种科学方法面对混乱的数据现实时,其优雅才真正受到考验。当我们用来创建平衡得分所需的协变量在某些个体中缺失时,会发生什么?这似乎是一个无法逾越的难题。然而,平衡得分框架与其他统计工具完美结合,提供了一套解决方案。使用一种称为多重插补(Multiple Imputation)的技术,我们不只是一次性地猜测缺失值。相反,我们创建多个看似合理的“完整”数据集,其中的缺失值是根据我们确实拥有的数据中的模式(包括处理和结局)填充的。然后,我们在每个完整的数据集中执行倾向性得分分析,并在最后将结果汇总起来。这种有原则的方法考虑了我们插补的不确定性,并允许我们在信息不完美的情况下继续进行分析。
这种整合和综合的能力在“大数据”时代甚至更为关键。我们被来自非代表性来源的信息所淹没,比如基于志愿者的移动健康应用程序。这些数据集规模庞大但存在偏倚——注册健康应用的人并非人口的随机切片。我们究竟如何能利用这些数据来了解整个人口呢?答案是新旧方法的完美结合。我们采用一个规模小、成本高但真正具有代表性的概率调查作为人口真实特征的“金标准”。然后,我们使用一个倾向性得分——这次是给定个人特征后,其出现在有偏“大数据”样本中的概率——来对大数据样本进行重新加权,使其协变量分布与我们的金标准调查完全匹配。我们使有偏的样本在统计上“看起来像”我们关心的目标人群,从而解锁其所包含的宝贵信息。
到目前为止,我们一直使用平衡得分来估计已知原因对已知结局的影响。但如果我们想更进一步呢?如果我们想构建因果网络本身的地图——让计算机从原始数据中发现因果关系网络呢?这是因果发现(causal discovery)的宏伟目标。一个主要障碍是那句老话:相关不蕴含因果。两个变量可能仅仅因为它们有一个共同的原因而相关。
正是在这里,倾向性得分可以扮演一个截然不同的角色。想象一下,你正在向一个因果发现算法(如PC算法)输入数据。该算法通过测试变量之间的依赖关系来工作。原始数据充满了由混杂引起的虚假的、非因果的依赖关系。但是,如果你首先使用逆概率加权来创建一个伪人群,在这个人群中,处理与其已测量的原因在统计上是独立的,情况会怎样?在这个加权的世界里,你已经抹去了混杂路径。发现算法现在有了一个更干净的工作平台;它不太可能被虚假的相关性所迷惑,并且能更好地识别出真正的潜在因果结构。在这里,平衡得分不仅仅是一个估计工具;它是一种根本性的数据转换技术,有助于自动化科学推理。
最后,对于终极挑战——我们未曾测量的混杂因素,又该如何处理?比如患者的“求医行为”或“心理弹性”等几乎无法量化的因素。在这里,平衡得分也在一系列精妙的方法中扮演着至关重要的辅助角色。一种称为工具变量(IV)分析的先进技术,在特殊情况下可以处理未测量的混杂。IV的关键假设通常是“工具”(一个类似随机变异的来源)与混杂因素独立。但通常,这个假设只有在已测量的混杂因素的条件下才成立。解决方案是一个两步走的杰作:首先,我们使用倾向性得分加权来创建一个伪人群,以调整所有已测量的混杂。在这个新创建的、更干净的统计世界里,IV假设现在更简单地成立了,IV分析可以接着处理剩余的、未测量的混杂。
从评估一个城市健康项目到实现自动化因果发现,平衡得分被证明不仅仅是一种统计技巧。它是一个基本概念,用于在不公平的比较中强加公平,用于看透数据中的幻象,以及将零散的信息整合为一个连贯的整体。它证明了一个单一、优雅的思想在为复杂而美丽的可观察世界带来清晰和严谨方面所具有的强大力量。