倾向性评分法：从观测数据中进行因果推断

玻尔百科

定义

倾向性评分法：从观测数据中进行因果推断指的是一种因果推断领域的统计方法，其核心是通过将多个混杂变量转化为单一的概率得分，从而在非随机研究中实现组间均衡。该方法利用匹配、分层和加权（IPTW）等技术创建具有可比性的样本组，进而从观测数据中估算因果效应。倾向性评分模型的优化目标是实现协变量在组间的平衡，而非追求预测的准确性。

核心要点

倾向性评分将多个混杂变量转换为一个单一的概率评分，以在非随机研究中平衡各组。
匹配、分层和加权（IPTW）等常用技术利用该评分创建可比较的组，以估计因果处理效应。
该方法的有效性取决于关键假设，包括测量了所有混杂因素（条件可交换性）以及各组之间有足够的重叠。
倾向性评分模型的独特之处在于其优化目标是实现组间的协变量平衡，而非预测准确性。

引言

确定因果关系是科学探究的一个根本目标，但其黄金标准方法——随机对照试验（RCT）——常常由于伦理、实践或财务原因而无法实施。研究人员必须频繁地转向观测数据，而在这些数据中，处理并非随机分配。这就引入了一个关键挑战：混杂。这是一种偏倚，当被比较的组别从一开始就存在系统性差异时便会发生，从而使得将处理的真实效应与预先存在的差异分离开来变得困难。这可能导致对干预措施的有效性或安全性得出危险的错误结论。

倾向性评分法提供了一个强大的统计框架来解决这一问题。它们提供了一种严谨的方法来分析观测数据，通过模拟RCT的设计，使研究人员能够得出更可靠的因果推断。本文旨在为理解和应用这一重要工具提供指南。第一章“原理与机制”，将深入解析倾向性评分背后的核心理论，从其由Paul Rosenbaum和Donald Rubin提出的精妙构思，到用于分析的实用技术。随后的“应用与跨学科联系”一章将探讨这些方法如何在现实世界中得到应用——从临床医学到监管科学——同时也会讨论其局限性及其在更广泛的因果推断生态系统中的位置。

原理与机制

假设我们想知道一种新的心脏病药物是否能拯救生命。在理想世界中，我们会进行一项随机对照试验：为每位患者抛硬币，正面朝上他们获得新药，反面朝上他们获得旧药。一年后，我们统计结果。因为抛硬币是随机的，两个组——“处理组”和“对照组”——平均而言，在研究开始时互为镜像。我们在研究结束时看到的任何差异都可以自信地归因于药物本身。这是黄金标准。

但如果我们只有观测数据呢？如果我们回顾成千上万份电子健康记录呢？在这些记录中，医生选择了开哪种药。也许他们把效力强大的新药给了病情最重的患者，而没有给较健康的患者使用。如果我们天真地比较这两个组，我们可能会发现新药组的死亡人数更多！我们可能错误地得出结论，认为这种药是有害的。这是经典的混杂陷阱。我们比较的不是苹果和苹果，而是病苹果和健康的橙子。药物的效果与患者的初始健康状况纠缠在一起。这个特殊的问题，即医生的决策基于患者的预后，在医学中非常普遍，它有自己的名字：指示混杂（confounding by indication）。

那么，我们如何解开这个结呢？我们的目标是模拟我们希望当初能够进行的那项随机试验——这个想法通常被称为模拟目标试验（target trial）。我们希望使两个组具有可比性，至少在我们能测量的所有患者特征上是如此：年龄、性别、血压、合并症等等。

维度灾难与天才之举

你可能会想：“简单！对于每个接受新药的75岁吸烟男性高血压患者，我们找一个接受旧药的75岁吸烟男性高血压患者进行比较。”这是一个好主意，但它很快就会失效。随着你增加更多的特征，你试图匹配的“单元格”会变得微乎其微。在几十个变量上找到一个精确匹配的概率几乎为零。这就是维度灾难。

这正是倾向性评分的天才之处。在1983年一篇里程碑式的论文中，Paul Rosenbaum和Donald Rubin提出了一个惊人而优雅的解决方案。与其试图一次性平衡几十个协变量（ $X$ ），我们是否可以将所有这些信息压缩成一个单一的数字？这个数字就是倾向性评分。

倾向性评分，记为 $e(X)$ ，定义为在给定个体所有基线协变量的情况下，其接受处理的条件概率。

$e(X) = P(\text{Treatment}=1 \mid X)$

简单来说，它是一个人接受处理的倾向或可能性，基于我们在处理决定做出之前所知道的关于他们的一切。例如，我们可能建立一个简单的统计模型，如逻辑回归，来根据患者的年龄和某个生物标志物水平来预测处理分配。一个具有强烈预测会接受处理的特征的患者，其倾向性评分会接近1；一个具有预测其将进入对照组的特征的患者，其评分会接近0。

平衡之术：倾向性评分的魔力

接下来是美妙的部分。Rosenbaum和Rubin证明了一个非凡的定理：如果我们能使处理组和对照组具有相同的倾向性评分分布，那么我们也就延伸性地使它们在构成该评分的所有协变量（ $X$ ）上具有相同的分布。以这个单一的数字 $e(X)$ 为条件，就如同以 $X$ 中所有单个协变量为条件一样好。这就是倾向性评分的平衡性质。

$T \perp X \mid e(X)$

这个公式表示，一旦我们在具有相同倾向性评分 $e(X)$ 的人群切片内，处理分配（ $T$ ）就与协变量（ $X$ ）无关。可以这样理解：如果一个病情很重的人（他“应该”得到新药，评分高）和一个非常健康的人（他“不应该”得到新药，评分低）在我们的研究中，我们不能比较他们。但是，如果我们找到两个人——一个得到了药，一个没有——他们根据各自的详细资料都有70%的可能性得到这种药，那么这两个人在统计意义上是可交换的。他们就是我们的“苹果和苹果”。倾向性评分给了我们一种有原则的方法来找到他们。

用于比较的工具箱

一旦我们为研究中的每个人估算出了倾向性评分，我们就拥有了一个强大的工具箱来进行公平的比较。主要有三种策略：

匹配（Matching）： 这是最直观的方法。对于处理组中的每个人，我们在对照组中找到一个或多个倾向性评分非常相似的人。我们用这些“统计双胞胎”创建一个新的、更小的数据集。未处理的匹配对象作为处理个体的反事实。通过这样做，我们主要在问：“对于实际接受了处理的这类人，处理的效果是什么？”这个量被称为处理组平均处理效应（ATT）。
分层（Stratification，或Blocking）： 我们可以根据倾向性评分将人群分成，比如说，五个或十个“箱子”（例如，所有评分在0-0.2之间的人，0.2-0.4之间的人，依此类推）。在每个箱子内，处理组和对照组的受试者现在相当均衡。我们可以在每个箱子内计算处理效应，然后将这些效应在所有箱子间取平均，得到一个单一的总体估计值。
逆概率处理加权（Inverse Probability of Treatment Weighting, IPTW）： 这可能是最强大但不太直观的方法。其思想是创建一个不存在混杂的伪群体。我们给每个人分配一个权重。一个倾向性评分较低的处理组个体（例如，一个得到高风险新药的健康人，评分=0.1）是“出乎意料的”。他们被赋予一个大的权重（ $1/0.1 = 10$ ），以代表其他九个按预期未得到该药的类似健康人群。相反，一个倾向性评分较高的未处理组个体（例如，一个未得到新药的重病患者，评分=0.9）也是出乎意料的。他们得到的权重是 $1/(1-0.9) = 10$ 。这个重新加权的过程放大了“出乎意料”的案例，缩小了“符合预期”的案例，从而创建了一个新的、合成的群体，在这个群体中，协变量完全平衡，处理看起来像是随机分配的。这种方法通常回答的问题是：“如果我们将处理措施给予整个人群，平均效应会是什么？”这就是平均处理效应（ATE）。

ATT和ATE之间的选择不仅仅是学术性的；它取决于政策问题。如果你想知道项目对参与者的效果如何，你想要ATT。如果你想决定是否向所有人推广该项目，你想要ATE。

规则与前提：诊断和假设

这个强大的工具箱并非凭空生效。它在严格的规则下运行，并需要仔细的诊断性检验。

首先是正性（positivity）的关键假设，也称为重叠（overlap）或共同支撑（common support）。这意味着对于任何给定的特征集，被分到处理组或对照组的概率都必须非零。换句话说，不存在“确定性”的处理。如果所有80岁以上的患者都得到新药，而80岁以下的患者都没有得到，那么就不存在重叠。你看不到的就无法比较。我们通过绘制处理组和未处理组的倾向性评分分布图来诊断这一点。如果分布不重叠，我们就有问题了。标准的解决方案是“修剪”样本，将我们的分析限制在共同支撑的区域。这解决了统计问题，但也改变了我们的研究问题：我们现在只能对具有重叠的亚群体提出主张，而不能对整个人群。

其次，我们必须假设条件可交换性，即我们测量的协变量 $X$ 足以捕捉处理和结果之间的所有混杂。这引出了所有规则中最重要的一条：倾向性评分法只能控制你已经测量的混杂因素。这是它们的致命弱点。

最后，在应用倾向性评分法后，我们必须检查它是否真的起作用了！我们必须进行协变量平衡检验。我们在新的匹配或加权样本中比较我们的协变量（ $X$ ）的均值、方差和其他分布属性。一个常用的度量是标准化均数差（SMD）。在调整之前，我们预计存在大的不平衡。在成功的倾向性评分调整之后，所有协变量的SMD都应该接近于零，表明我们的“苹果和橙子”已经被转换成了两个可比较的“苹果”组。如果未能实现平衡，我们的倾向性评分模型很可能设定有误，我们必须回到起点重新设计。

构建评分的艺术与科学

什么样才是好的倾向性评分模型？这里出现了一个微妙而美妙的见解。我们构建模型不是为了尽可能准确地预测处理分配。事实上，一个能完美预测处理的模型（曲线下面积，即AUC，为1.0）将意味着完全没有重叠——这是正性假设的灾难性失败！

目标不是预测，而是平衡。这意味着我们应该选择能在最终调整后的样本中产生最佳协变量平衡的模型。对于具有许多非线性关系的复杂数据集，简单的逻辑回归可能不够。现代机器学习方法，如广义增强模型（GBM），通常更优，因为它们可以灵活地捕捉这些复杂的模式。然而，它们必须谨慎地进行调整——不是为了最大化预测准确性，而是为了找到使组间不平衡最小化的点，例如，通过在平均SMD最低时停止迭代。

现实世界的数据也常常是混乱的，某些协变量存在缺失值。这些不能被忽略。必须在倾向性评分分析之前使用有原则的方法，如多重插补（MI）。至关重要的是，为了使程序有效，插补模型必须包含处理和结果变量，以保留我们正试图研究的那些关系。

房间里的大象：未测量的混杂因素

我们必须以谦逊的态度结束。倾向性评分是处理可测量混杂的强大工具。但它们无法修复它们看不到的东西。如果存在一个强大的、未测量的混杂因素——比如说，医生能察觉但数据中未记录的“衰弱”指数——倾向性评分方法仍然会产生有偏倚的结果。它们可以减少偏倚，但如果条件可交换性假设为假，它们无法消除偏倚。对于这个特别棘手的问题，研究人员必须转向其他高级方法，例如工具变量（IV）分析，这些方法在另一套不同的假设下运作。

理解倾向性评分，就是理解在一个充满不完美、非随机数据的世界里，什么是可能的艺术。它们让我们能够以谨慎和严谨的方式，将原因从相关性中解开，并模拟随机试验的美妙简洁性，使我们离真相更近一步。

应用与跨学科联系

在掌握了倾向性评分的精妙机制之后，我们现在从理论的工坊走向熙攘的应用世界。这个工具在何处找到其用武之地？你会发现它的触角无远弗届，从临床医学的前线延伸到科学方法本身的根基。这段旅程不仅仅是一次案例巡礼，更是对如何从一个很少会为我们进行完美实验的世界中得出可靠结论这一本质问题的更深层次探索。

超越水晶球：预测与解释

在我们的机器学习时代，我们习惯于颂扬预测的力量。我们构建复杂的算法来预测股价、天气模式或者我们可能喜欢的电影。这些是“水晶球”问题：它们的成功取决于它们对我们最终观察到的未来的预测有多好。

倾向性评分方法所要解决的问题，在本质上是完全不同的，甚至可以说更为深刻。它们关乎的不是预测，而是解释。目标不是建造一个水晶球，而是一种“时间机器”。我们想问关于过去的“如果……会怎样？”的问题。如果一个病人接受了不同的药物会怎样？如果实施了不同的公共政策会怎样？这些是关于因果关系的问题，我们将现实世界与一个可能存在的世界进行比较。

这种区别并非学术性的；它决定了我们构建和评估模型的整个方法。为预测而建的模型，其评判标准是准确性——它在测试集上的误差有多小。然而，为因果推断而建的模型，其评判标准是它能否产生对因果效应的无偏估计，而这是一个我们永远无法直接观察到的量。它的成功取决于那些无法检验但经过深思熟虑的关于世界的假设，比如著名的“无未测量混杂”规则。这是一项远为精细和智力要求更高的任务，而正是在这里，倾向性评分方法为严谨的推理提供了关键的框架。

流行病学家的工具箱：驯服观测数据的混乱

在医学和公共卫生领域，推断因果关系的挑战尤为紧迫。出于伦理或实践原因，我们不能总是进行随机对照试验（RCT）——因果证据的黄金标准。相反，我们必须常常从观测数据中学习，这些数据是现实世界医疗保健中凌乱、混沌的记录。正是在这里，倾向性评分成为了不可或-缺的工具。

医生的困境：指示混杂

想象一位医生在两种降压药之间做出选择。对于一个已有肾脏疾病的患者，医生可能会避免使用其中一种药物，担心会造成进一步的伤害。如果我们后来分析健康记录，可能会发现使用“更安全”药物的患者预后更好。这是因为这种药物真的更优越，还是仅仅因为它被给予了更健康的患者？这就是经典的指示混杂问题。给予治疗的原因（“指示”）与我们试图测量的结果混杂在一起。

倾向性评分方法直面这个问题。通过根据每位患者的基线特征（年龄、合并症、疾病严重程度）估计他们接受特定治疗的概率，我们可以创建一个“公平的比较”。像匹配或加权这样的方法允许我们构建一个合成的对照组，这个对照组在所有可测量的方面都看起来与接受治疗的组一样。例如，在一项关于降压药的研究中，我们可以将使用药物X的患者与一个倾向性评分匹配的、使用药物Y且基线肾损伤风险相似的患者组进行比较，从而分离出药物的真实效果。这个过程赋予我们模拟随机试验的能力，即使在治疗已经给出很久之后。

这种逻辑延伸到了个性化医疗的前沿。在一项比较氯吡格雷和替格瑞洛这两种抗血小板药物的研究中，医生可能优先为携带特定CYP2C19基因变异的患者开具替格瑞洛，因为这种变异会使氯吡格雷的效果降低。在这里，基因型既是一个混杂因素（它影响治疗选择），又是一个效应修饰因子（药物的效果取决于它）。倾向性评分让我们能够理清这种关系。我们可以用它来调整混杂，然后分别估计药物对携带和不携带该基因变异的患者的有效性，这是朝着根据个体基因构成量身定制治疗方案迈出的关键一步。

超越两种选择：治疗的真实世界

现实世界中的决策很少是二元的。一位处理心房颤动患者的医生可能会在抗血小板药、抗凝药、两者联用或完全不治疗之间做出选择。倾向性评分平衡的原理可以完美地扩展到这种多项设置中。我们不再是估算一个单一的倾向性评分，而是可以估算一个接受四种可能治疗中每一种的概率向量。利用这些广义倾向性评分，我们可以再次创建一个加权的伪群体，在这个群体中，患者的基线出血风险平均而言并不决定他们会走上四条治疗路径中的哪一条。这使我们能够估计每种策略相对于所有其他策略的因果效应，反映了临床决策的真实复杂性。

评估拯救生命的疗法：合成对照组

对于一些革命性的疗法，比如用于晚期癌症的CAR-T细胞疗法，进行一个有安慰剂或标准治疗组的试验在伦理上是站不住脚的。所有符合条件的患者都在单臂试验中接受了新疗法。那么，我们如何评估其益处呢？倾向性评分提供了一个强有力的解决方案。通过利用大型观测数据集，如国家登记库或电子健康记录，我们可以识别出一批“外部比较组”——来自真实世界、本有资格参加试验但接受了现有标准治疗的患者。然后，我们可以使用倾向性评分来选择或加权这些外部比较组，以创建一个“合成”对照组，该对照组完美地反映了试验中患者的基线特征。这使得进行严谨的、尽管非随机的比较成为可能。这项技术现在是现代药物开发、监管科学和卫生技术评估（HTA）的基石，使我们能够比以往更快地评估针对罕见病如脊髓性肌萎缩症（SMA）的突破性疗法的有效性。为确保此类研究的完整性，每一步——从估计量（通常是处理组平均处理效应，ATT）的定义到平衡性的诊断性检验——都必须在分析开始前记录在统计分析计划（SAP）中，以防止确认偏倚和数据挖掘。

数据科学家的挑战：真实世界的数据是混乱的

从原始数据到因果洞见的旅程充满了危险。真实世界的数据，特别是来自电子健康记录（EHR）等来源的数据，是出了名的不完整和复杂。倾向性评分的应用不是一个简单的即插即用的练习；它需要对数据的现实情况进行深思熟虑的考量。

机器中的幽灵：缺失数据

当用EHR数据模拟目标试验时，我们可能会发现一个关键的基线协变量——比如某个特定的实验室值——对许多患者来说是缺失的。我们不能简单地忽略这一点。数据缺失的原因往往是信息性的。医生可能不会为看起来健康的患者开具某项检查，但会为生病的患者开具。这意味着数据缺失这一事实本身就与患者的潜在健康状况有关。

这把我们带到了缺失机制的统计概念上。如果数据是完全随机缺失（MCAR），那么完整病例分析可能是有效的，尽管效率不高。更可能的情况是，数据是随机缺失（MAR），即一个值缺失的概率取决于其他可观测的信息。在这种情况下，幼稚的倾向性评分模型会失败，我们必须转向更复杂的技术，如多重插补或针对缺失值的逆概率加权，以一种有原则的方式“填补漏洞”，然后才能开始调整混杂。如果数据是非随机缺失（MNAR），即缺失的概率取决于未观测到的值本身，那么在没有做出强有力的、无法检验的假设的情况下，识别因果效应就变得不可能。对于任何希望从真实世界数据中得出有效结论的人来说，理解这些区别至关重要。

知识的边缘：当倾向性评分不足以应对时

倾向性评分分析最关键的假设是条件可交换性——即我们已经测量并调整了所有处理和结果的共同原因。但如果有一个我们无法测量的重要混杂因素呢？想象一下，使用观测数据研究一种新药，但存在一个未测量的“衰弱”或“健康寻求行为”，它既影响谁会获得新药，也影响他们的最终结果。在这种未测量混杂的情况下，倾向性评分会失效。对我们能看到的变量进行再多的统计魔术，也无法修正由我们看不到的变量引起的偏倚。

这就是该方法的科学谦逊之处，也是它与更广泛的因果工具生态系统相连接的地方。当未测量混杂是一个主要担忧时，我们必须寻求其他策略。其中一种策略是工具变量（IV）方法，它依赖于找到一个治疗分配的变异来源（“工具”），这个来源被认为是随机的，并且只通过治疗来影响结果。例如，不同医院对新指南的采纳差异可以作为新给药策略的工具。在满足其自身一系列强有力的假设下，IV分析即使在倾向性评分因未测量混杂而产生偏倚时，也能提供一个有效的因果估计。

连接两个世界的桥梁

倾向性评分方法远不止是一种统计技术。它们代表了一种严谨的思维方式——一个试图从观测世界中近似模拟随机实验的框架。它们在收集到的数据的混乱现实与因果问题的理想化世界之间架起了一座桥梁。

这一个单一想法的力量是惊人的。它帮助我们评估药物的安全性和有效性，理解基因变异的影响，评估突破性疗法，并为公共卫生政策提供信息。但这种力量是有代价的：对整个事业所依赖的假设的深刻和持久的尊重。在可测量的协变量上实现良好的平衡是一个必要的诊断步骤，但它永远无法将我们从我们未测量的混杂因素所带来的偏倚中拯救出来。归根结底，倾向性评分不是一个制造确定性的工具，而是一个为从我们所发现的世界中学习这一困难而又必不可少的任务带来清晰、严谨和诚实的工具。