协变量平衡

玻尔百科

核心要点

协变量平衡旨在使观测研究中的各组在统计上具有可比性，从而模拟随机对照试验中通过随机化实现的平衡。
倾向性得分，即在给定一组特征的情况下接受处理的概率，是利用匹配和加权等方法实现平衡的关键工具。
倾向性得分模型的目标是实现平衡，而不是完美预测处理分配；一个在预测上“过于出色”的模型可能表明组间缺乏重叠。
应使用标准化均值差异 (SMD) 等指标来评估平衡性，该指标衡量不平衡的程度，而非 p 值，因为 p 值对样本量敏感。
实现协变量平衡是满足条件可交换性假设的实际步骤，而这一假设是从观测数据中提出有效因果主张所必需的。

引言

在几乎所有实证科学领域，最终目标都是理解因果关系。虽然随机对照试验 (RCT) 是建立因果关系的黄金标准，但执行起来往往不切实际或不符合伦理。因此，研究人员必须依赖观测数据，而观测数据存在一个根本性问题：我们希望比较的群体往往从一开始就有所不同。这个问题被称为混杂 (confounding)，它会严重偏倚我们的结论，使我们无法区分处理效应与个体间预先存在的差异。本文直面因果推断中的这一核心挑战，探讨了通过实现协变量平衡，从混乱的真实世界数据中创造“公平比较”所使用的原则和方法。

首先，在“原则与机制”部分，我们将深入探讨混杂问题，并引入倾向性得分作为一种巧妙的解决方案，解释匹配和加权等技术如何近似 RCT 的平衡状态。我们还将介绍评估平衡是否真正实现的关键且常被误解的过程。随后，在“应用与跨学科联系”部分，我们将看到这些原则的实际应用，展示对协变量平衡的追求如何在临床医学、基因组学和社会科学等不同领域成为一个统一的主题，使研究人员能够得出更可信的因果结论。

原则与机制

寻求公平比较：混杂与理想实验

假设我们想知道一个新的工作场所戒烟计划是否真的能帮助人们戒烟。一个简单的方法是比较参加该计划的员工与未参加者的戒烟率。但稍加思索就会发现一个深层问题。谁最有可能报名参加这样的计划？也许是那些最积极主动的人，他们本来就更有可能戒烟。或者，也许是烟瘾最重的人，他们迫切需要帮助，但戒烟难度也最大。无论哪种情况，这两个群体——计划参与者和非参与者——很可能从一开始就不同。这种初始差异是我们数据中的一种污染，是可能扭曲我们结果的“机器中的幽灵”。统计学家称之为 混杂 (confounding)。

我们如何驱除这个幽灵？科学界的黄金标准是 随机对照试验 (Randomized Controlled Trial, RCT)。在 RCT 中，我们不会让员工自己选择，而是通过随机分配（或许通过抛硬币）的方式，将他们分到接受计划组或不接受计划组。为什么这种方法如此强大？因为硬币不关心你是否有动力、是否烟瘾重、是年轻还是年老。随机化起到了巨大的均衡作用。在一个足够大的群体中，它能确保，在平均意义上，两个群体在所有可以想象的方面——无论是我们可以测量的特征（如年龄和吸烟史），还是我们无法测量的特征（如毅力或家庭支持）——都几乎是彼此完美的镜像。它们是 平衡的 (balanced)。有了平衡的组，研究结束时出现的任何戒烟率差异，我们都可以自信地归因于计划本身，而不是某些预先存在的差异。

但我们不能总是进行随机化。这可能不道德、不切实际或成本太高。我们常常必须处理 观测数据 (observational data)，即真实世界中人们自行做出选择所产生的混乱数据。因此，核心挑战是巨大的：当我们无法进行随机化时，如何近似 RCT 的魔力并实现公平比较？我们如何从不平衡中创造平衡？

倾向性得分：一个统领全局的数字

一个最初的想法可能是寻找成对的人，一个参加了计划，一个没有，他们在所有基线特征上都完全相同。我们可以尝试将计划组中一个 42 岁、烟瘾重、积极性高的男性，与非计划组中一个 42 岁、烟瘾重、积极性高的男性进行匹配。但如果还需要匹配饮食、锻炼、收入以及其他几十个因素呢？这些特征的数量，我们可以称之为协变量向量 $X$ ，可能非常庞大。“维度灾难”很快就会使我们无法为任何人找到精确的匹配。

这时，由 Paul Rosenbaum 和 Donald Rubin 提出的一个绝妙想法应运而生。与其尝试匹配 $X$ 中的几十个协变量，不如将所有这些信息压缩成一个强大的单一数字？这个数字就是 倾向性得分 (propensity score)。倾向性得分，通常表示为 $e(X)$ ，就是具有一组给定特征 $X$ 的人接受处理的概率。在我们的例子中，它是 $e(X) = \mathbb{P}(T=1 \mid X)$ ，其中 $T=1$ 表示他们参加了该计划。

这个得分并不能告诉我们某人是否会接受处理；它告诉我们他们接受处理的可能性有多大。现在，考虑两个人，一个参加了计划，一个没有，但他们都有完全相同的倾向性得分，比如 $0.3$ 。这意味着，根据我们所知的关于他们的一切，他们两人最终进入计划的几率都是 30%。这就像命运为他们每个人都抛了一枚有偏的硬币，只是恰好一个“正面朝上”，另一个“反面朝上”。如果他们接受处理的概率相同，那么有理由认为，他们的潜在特征 $X$ 在平均上也必然是相同的。

这就是著名的倾向性得分的 平衡性质 (balancing property)：在一组具有相同倾向性得分的受试者中，原始协变量 $X$ 的分布与处理状态 $T$ 是独立的。形式上，这写作 $X \perp T \mid e(X)$ 。这个单一的数字 $e(X)$ ，完成了看似不可能的任务。它打破了协变量与处理之间的联系，有效地平衡了两个组，就像随机化一样。从这个意义上说，它是一个平衡得分。

从理论到实践：实现与评估平衡

拥有这个理论工具是一回事；使用它则是另一回事。倾向性得分为几种调整混杂的强大技术提供了基础：

匹配 (Matching)： 我们可以找到具有非常相似倾向性得分的处理组和未处理组个体配对，从而创建一个新的、更小但平衡良好的数据集。
分层 (Stratification)： 我们可以根据倾向性得分将我们的总体分成（例如）五个层次（如 0-0.2、0.2-0.4 等），并在每个层次内分析处理效应，此时受试者更具可比性。
逆概率处理加权 (Inverse Probability of Treatment Weighting, IPTW)： 这是一种特别巧妙的方法，允许我们使用整个样本。它通过加权创建一个实现了平衡的“伪总体”。想象一个积极性很高的人，他很可能加入计划（比如 $e(X)=0.9$ ）并且确实加入了。他的出现并不令人意外。但另一个积极性很高的人（同样 $e(X)=0.9$ ），出于某种原因没有加入，情况又如何呢？他的出现就非常令人意外！这个人在未处理组中代表性不足。为了创造平衡，我们必须在分析中给予这个人更大的权重。这个权重是接受其所受处理的概率的倒数。对于一个处理组的人 ( $T=1$ )，权重是 $\frac{1}{e(X)}$ ；对于一个未处理组的人 ( $T=0$ )，权重是 $\frac{1}{1-e(X)}$ 。这个方案给“令人意外”的个体赋予更高权重，给“意料之中”的个体赋予更低权重，通过这样做，它迫使两组的协变量分布趋于一致。

在这里出现了一个关键点，这也是一个常见的困惑来源。什么才是一个“好”的倾向性得分模型？由于得分是处理的概率，人们可能会认为目标是建立一个最能预测谁会接受处理的模型。我们可以使用标准的统计指标，如 AIC 或 AUC（也称为 c-statistic），来选择“最佳”模型。这是一个陷阱！在因果推断中，倾向性得分的目标 不是预测，而是平衡。

想象一下，我们的模型非常出色，以至于它能完美预测谁会加入计划。它的 AUC 值为 1.0。这意味着它找到了一组能够将处理组和未处理组完美分开的特征。这远非一件好事，对于因果推断来说，这是一场灾难。它意味着两个组差异如此之大，以至于它们的特征没有任何重叠！我们在未处理组中找不到任何一个看起来像处理组中任何一个人的个体，这使得比较变得不可能。这严重违反了 正性 (positivity) 假设，该假设要求对于任何给定的特征集，个体被分到任一组的概率都必须非零。一个在预测上“过于出色”的倾向性得分模型，可能只是突显了我们数据中 重叠 (overlap)（正性假设的有限样本版本）的致命缺失。

那么，我们如何知道我们选择的方法——无论是匹配、加权还是其他方法——是否真的奏效了呢？我们必须检查我们的工作。我们必须进行 平衡性评估 (balance assessment)。思路很简单：比较调整后的处理组和控制组中每个协变量 $X$ 的分布，看看它们是否相似。要完成这项任务，我们需要正确的工具。人们可能想使用标准的统计检验，比如 t 检验，来看一个协变量的均值在两组之间是否存在“显著差异”。这是另一个陷阱。

这类检验得出的 p 值极度依赖于样本量。在一项有数千人的研究中，即使一个协变量存在微不足道的、无关紧要的不平衡（比如平均年龄相差 0.1 岁），也会被标记为“统计显著”，让你白费力气去修正一个不存在的问题。相反，在一个小规模研究中，一个巨大且真正重要的不平衡可能因为统计功效低而“不显著”，从而给你一种虚假的安全感。

合适的工具是那种能够衡量不平衡程度，且不受样本量影响的工具。最常用的这类工具是 标准化均值差异 (Standardized Mean Difference, SMD)。对于一个给定的协变量，它是处理组和控制组之间的均值差，除以一个合并的标准差。例如，在一项比较两种疗法的医学研究中，我们可能发现在匹配后，处理组中糖尿病患者的比例是 $0.38$ ，而控制组是 $0.36$ 。原始差异很小，但 SMD 将其置于一个通用尺度上。在这种情况下，SMD 大约是 $0.04$ ，一个非常小的数字。一个广泛使用的经验法则是，绝对 SMD 值低于 $0.1$ 表示不平衡可以忽略不计。一个良好平衡性评估的完整蓝图是一个迭代过程：预先指定你的混杂因素，建立你的倾向性得分模型，应用你的调整方法，然后使用 SMD 和可视化图表检查所有协变量的平衡性。如果未达到平衡，你需要完善你的模型再试一次，所有这些都必须在查看结果数据之前完成。

更深层的目的：从统计平衡到因果推断

让我们退一步问：为什么如此执着于平衡？答案将我们带到因果推断的核心。要从观测数据中提出因果主张，我们需要做的基本假设被称为 条件可交换性 (conditional exchangeability)。它指出，在混杂因素 $X$ 的各个层级内，处理的分配与潜在结果是独立的。形式上，即 $Y(a) \perp A \mid X$ 。这意味着，如果我们能够比较，比如说，一组接受处理的 42 岁吸烟者和一组未接受处理的 42 岁吸烟者，这将是一个公平的、“如同随机”的比较。

倾向性得分的真正魔力在于，它证明了如果条件可交换性在给定（通常是高维的）向量 $X$ 的情况下成立，那么它在给定（一维的）倾向性得分 $e(X)$ 的情况下也成立。也就是说， $Y(a) \perp A \mid e(X)$ 。这是一个巨大的简化！通过基于倾向性得分进行匹配或加权来实现协变量平衡，我们创造出的组不仅在协变量 $X$ 上是平衡的，而且也是可交换的。我们创造了一个公平的比较。这些现在已经平衡的组之间，在结果 $Y$ 上存在的任何差异，都可以归因于处理的真实因果效应，而不是混杂。其目标从来就不是简单地消除一个统计关联，而是为得出一个有效的因果结论创造条件。

当平衡难以实现时：先进与自动化的平衡方法

当平衡仍然难以实现时会发生什么？我们可能会尝试在倾向性得分模型中加入更复杂的项（如交互项或平方项）并重新检查平衡，但有时，这些组就是难以对齐。这引发了思想上的一个重要演变：如果我们的目标是平衡，为什么不使用一种明确设计用来实现平衡的方法呢？

这就是 协变量平衡倾向性得分 (Covariate Balancing Propensity Score, CBPS) 背后的逻辑。像逻辑回归这样的标准方法通过最大化预测准确性（似然）来估计倾向性得分。CBPS 采取了不同的途径。它通过直接强制满足平衡条件来估计倾向性得分的参数。它被构建为一个 广义矩估计 (Generalized Method of Moments, GMM) 估计器，用于求解一个方程组。这个系统不仅包括拟合预测模型的常规方程，还增加了一组至关重要的平衡方程。这些附加方程明确要求，每个协变量的加权平均值在处理组和未处理组中必须相等。

从本质上讲，CBPS 告诉估计过程：“你的首要任务不是完美地预测处理分配。你的任务是找到能够产生一个平衡的伪总体的倾向性得分。”这种双重目标的方法——同时考虑模型拟合和协变量平衡——提供了一种更稳健、更自动化的方式，以从混乱的真实世界数据中实现创造公平比较这一基本目标。它代表了一种美妙的综合，将因果推断的最终目标——平衡——直接嵌入到统计工具本身的机制之中。

应用与跨学科联系

对公平比较的普遍追求

世界以其辉煌而又令人沮丧的复杂性运行，并不会为了方便我们而进行受控实验。当我们提出一个问题时——这种新药能拯救生命吗？这个教育项目有效吗？这个基因会导致疾病吗？——我们常常被迫通过观察一个处理并非由抛硬币决定的世界来寻找答案。服用新药的人可能一开始病情更重；自愿参加工作坊的学生可能更有动力；不同人群之间除了我们感兴趣的那个方面外，可能在无数方面都存在差异。在每种情况下，我们都面临着同样根本的挑战：我们如何进行公平的比较？我们如何将我们关心的效应与成千上万种其他混杂影响分离开来？

答案在于一个优美、简单而强大的思想：协变量平衡。如果我们想知道一种处理的效应，我们必须比较在所有其他重要方面都相同的组。如果自然界没有为我们提供这样完美匹配的组，我们的任务就是在统计上构建它们。这种对“公平比较”的追求，不仅仅是统计学家的技术性杂务；它是一个贯穿几乎所有实证科学领域的统一原则，从医生的诊所到基因组学的前沿。这是将实验的逻辑强加于观测数据混乱之上的一门艺术。

医生的困境：从混乱数据中做决策

考虑一个无数医生和准妈妈们面临的决定：在第一次剖腹产后，尝试阴道分娩——即“剖宫产后尝试阴道分娩”(Trial of Labor After Cesarean, TOLAC)——是否比安排重复剖腹产更安全？进行一项随机试验来强迫女性选择其中一种方式是不道德的。相反，我们必须依赖观测数据，在这些数据中，选择是由患者和医生根据他们独特的健康状况和偏好做出的。一个更年轻、更健康、病史良好的患者可能更倾向于尝试 TOLAC。简单比较其结果将具有深度误导性，因为它会将手术的效果与患者预先存在的健康状况混为一谈。

为了进行公平的比较，我们必须问：对于一个尝试了 TOLAC 的特定女性，如果一个和她完全一样的女性选择了计划性剖腹产，结果会怎样？倾向性得分方法使我们能够回答这个问题。通过基于所有已知的混杂因素——年龄、BMI、既往病史等——来建模尝试 TOLAC 的概率（即“倾向性”），我们可以为每位患者创建一个“统计双胞胎”。倾向性得分的魔力在于它将一个高维的协变量向量压缩成一个单一的数字。通过匹配具有相似倾向性得分的患者，我们创建了新的处理组和控制组，作为一个整体，它们在我们测量的所有协变量上都是平衡的。从本质上讲，我们构建了自然界未能提供的公平比较。

同样的逻辑也适用于评估新的医院政策或技术。想象一下，一家医院实施了一种脓毒症（一种危及生命的疾病）的早期预警系统。该系统并非随机部署；病情更重的患者或某些病房的患者可能更容易受到监控。为了评估该系统，我们同样可以运用平衡原则，采用两种主要策略：

匹配 (Matching)： 如同 TOLAC 的例子，我们可以创建一个更小的、由相似患者组成的匹配数据集，其中一些人受到了系统的监控，而另一些人则没有。这通常估计的是 处理组的平均处理效应 (Average Treatment Effect on the Treated, ATT)——也就是说，该系统对于那些实际接受了它的患者类型所产生的效应。
加权 (Weighting)： 另一种同样巧妙的方法是重新加权整个群体。我们可以给一个与处理组患者非常相似（因此“出乎意料地”未被处理）的控制组患者赋予更大的权重，反之亦然。具体来说，每个患者对分析的贡献度，都通过其接受实际所受处理的概率的倒数进行加权。这创建了一个“伪总体”，在其中处理分配不再与协变量相关。这种被称为逆概率处理加权 (IPTW) 的方法，通常使我们能够估计 平均处理效应 (Average Treatment Effect, ATE)——即如果我们将该处理应用于整个群体将会看到的效应。

这些工具在现代医学中不可或缺，从药品上市后的安全性研究到理解生命早期抗生素暴露对婴儿肠道微生物组的影响，无不应用。但我们如何知道我们的统计平衡操作是否成功呢？我们必须检查我们的工作。标准方法是计算调整前后每个协变量的 标准化均值差异 (SMD)。在匹配或加权之前，我们预计会有很大的差异。在成功调整后，所有协变量的 SMD 都应接近于零（通常小于 $0.1$ ），这让我们相信，我们的比较终于变得公平了。

诊所之外：社会与科学中的平衡

对公平比较的需求绝不仅限于医院。考虑一所大学提供一个自愿参加的心理健康工作坊。它能改善学生的幸福感吗？报名的学生可能与不报名的学生不同——也许他们有更多的空闲时间，对心理健康有更强的预先兴趣，或者基线焦虑水平不同。简单的比较将毫无意义。为了找到真正的效果，我们必须再次构建一个由未参与的学生组成的比较组，这些学生在所有其他可测量的方面都与参与者相似。这需要仔细地对参与倾向性进行建模，只包括工作坊前的特征，并在事后勤奋地检查平衡性。

平衡原则是如此基础，以至于它也成为其他研究设计的关键诊断工具。回归断点 (Regression Discontinuity, RD) 设计是一种强大的准实验方法，用于评估具有明确分界点的政策。例如，某项政策可能恰好在 65 岁时提供一项福利，比如免费流感疫苗。RD 的逻辑是，年龄略低于 65 岁的人（比如 64.9 岁）可能与刚满 65 岁的人（65.1 岁）非常相似。因此，在分界点周围的一个极小窗口内，被分配到“合格”组是如同随机的。但这个“局部随机化”的假设是否可信？我们可以通过检查协变量平衡来检验它。如果我们在 65 岁这个分界点上发现预先存在的特征——如收入或基线健康状况——出现了突然的、不连续的跳跃，这将表明人们在某种程度上围绕这个阈值操纵了他们的处境，从而使该设计失效。没有出现这种跳跃——即在阈值处确认了协变量平衡——是证明该设计有效的一个关键证据。

平衡之美甚至延伸到了完全受控的实验世界。在一项使用 fMRI 或 EEG 的神经科学研究中，我们可能想比较大脑对三种不同类型刺激的反应。我们可以在两个层面上确保公平比较。首先，在将参与者分配到不同实验组时，我们可以使用 分层随机化 (stratified randomization) 来确保重要的协变量，如性别或利手性，在各组之间完全平衡。这通过设计消除了它们的混杂影响。其次，在每个参与者的实验阶段内，我们必须呈现不同的刺激。如果我们先呈现所有一种类型的刺激，最后再呈现所有另一种类型的刺激，我们的结果可能会被疲劳或学习效应所混杂。我们可以使用 置换区组随机化 (permuted block randomization) 来确保各种条件以时间上平衡的顺序呈现。在这里，我们看到的平衡不再是一种事后的统计修正，而是一种严谨实验设计的主动原则。

新前沿：大数据与基因组学时代的平衡

随着科学进入“大数据”时代，混杂的挑战成倍增加，但平衡的核心原则仍然是我们坚定的指南。电子健康记录 (EHR) 提供了关于数百万患者的信息宝库，但我们通常对每个人都有数千个潜在的混杂因素——在这种情况下，变量数量 $p$ 可能远大于受试者数量 $n$ 。要在如此高维的环境中估计倾向性得分，经典的逻辑回归会失效。我们必须转向现代机器学习方法，如正则化回归（例如 LASSO 或弹性网络），这些方法可以从数千个变量中筛选出信息来建立预测模型。然而，目标不仅仅是预测，而是平衡。最佳的预测模型并不总是最适合平衡协变量的模型，因此我们必须以明确最小化不平衡为目标来调整我们的模型，并使用像 SMD 这样的相同诊断工具来检查我们的工作。

在现代基因组学中，混杂的挑战无处不比这里更微妙、更关键。科学家们计算 多基因风险评分 (Polygenic Risk Scores, PRS) 来总结一个人对某种疾病的遗传易感性。一个紧迫的问题是，这些通常在欧洲血统人群中开发的评分，在其他人群中是否有效。在非洲和欧洲血统的个体之间对 PRS 进行简单比较充满了风险。构成 PRS 的遗传标记本身就嵌入在不同祖先群体之间存在差异的复杂遗传变异背景中（这种现象被称为群体分层）。为了从这种背景混杂中分离出真实的风险差异，我们必须在遗传祖先本身上实现平衡。我们通过计算能够捕捉遗传变异主要轴线的“主成分”，然后使用倾向性得分匹配来创建在这些成分和其他协变量上平衡的祖先群体来实现这一点。我们甚至可以使用巧妙的诊断方法，如“阴性对照”——一个经过置换的、生物学上无意义的 PRS，如果我们的平衡是成功的，它在各组之间应该没有差异——来检查残留的混杂。

平衡原则在其最抽象、最强大的形式中体现在 可移植性 (transportability) 问题上。假设一项完美的随机试验证明了一种药物在其特定的试验人群中有效。我们如何知道它在更广泛、更多样化的“真实世界”中也会有效？试验人群和真实世界人群是不同的；他们的年龄、合并症和其他因素的分布不匹配。我们可以通过对试验参与者进行加权，使其协变量分布与我们的目标人群相匹配来解决这个问题。再一次，我们正在创造平衡——不是在处理组和控制组之间，而是在源样本和目标人群之间——以便将一个因果主张从一个领域移植到另一个领域。

从一个简单的临床选择到最宏大的普适性问题，对公平比较的追求是贯穿始终的主线。协变量平衡是使我们能够在我们所居住的混乱的、观测性的世界中，近似随机实验的清晰性的工具，它将相关性转变为洞察因果关系的窗口。