双重稳健估计

玻尔百科

定义

双重稳健估计是因果推断领域中的一种统计方法，只要结果模型或倾向得分模型中有一个被正确指定，它就能提供对处理效应的一致估计。这种方法通过提供两次准确建模的机会，增强了观察性数据推断在面对模型设定错误时的可靠性。当结果模型和倾向得分模型均正确时，双重稳健估计量还具备渐近有效性，能够实现最低的方差。

核心要点

如果结果模型或倾向性得分模型中有一个被正确设定，双重稳健估计就能提供处理效应的一致估计。
这种“两次机会做对”的特性创造了一个统计安全网，使得从观测数据中进行的因果推断在面对模型误设时更为可靠。
当结果模型和倾向性得分模型都正确时，双重稳健估计量也是渐近有效的，能达到最低的可能方差。
该方法的有效性取决于测量了所有混淆变量以及满足正值假设，并且如果其两个基础模型都设定错误，该方法将失效。

引言

从现实世界的数据中得出可靠的结论是贯穿所有科学领域的一项根本挑战。与在受控实验中不同，当我们分析观测数据时——从医院记录到生态调查——我们总是面临着“拿苹果和橘子作比较”的风险。这是由混淆变量造成的，它们在不同组别之间产生系统性差异，从而使我们的结果产生偏倚。例如，如果病情较重的患者更有可能接受一种新药，那么对结果进行简单比较就会产生误导。我们如何才能进行公平的比较，并分离出处理或干预的真实效果呢？

本文探讨了一种强大的统计解决方案，即双重稳健估计。它提供了一种精妙的方法来处理混淆问题，为我们的计算提供了一个独特的“安全网”。我们将通过两个关键章节深入探讨其核心概念。首先，“原理与机制”将剖析该方法背后的统计引擎，解释它如何巧妙地结合两种不同的策略——结果建模和倾向性得分加权——从而为我们提供两次机会来获得正确答案。然后，“应用与跨学科联系”将展示这一优雅的理论如何应用于解决从个性化医疗、公共卫生到强化学习和工程学等领域的关键问题，彰显其在从不完美数据中探求知识的过程中所产生的深远影响。

原理与机制

想象你是一位园丁，想确定一种昂贵的新肥料是否真的能让你的番茄植株长得更高。你将它施用于一些植株，而另一些则不施用。在季节结束时，你发现施肥的植株平均更高。成功了吗？别急。如果在你甚至没有意识到的情况下，你把施肥的番茄种在了花园里阳光最充足的地方呢？现在你的比较就不公平了。你比较的不是施肥与不施肥，而是“施肥加充足阳光”与“不施肥加较少阳光”。阳光的量就是一个混淆变量，它通过同时与处理（肥料）和结果（植株高度）相关联，扰乱了你的比较。

这是从大多数现实世界数据（无论是在园艺、经济学还是医学领域）中得出结论的根本挑战。在一项观测研究中——比如利用医院的电子健康记录来观察一种药物是否有效——我们不能简单地比较接受药物的患者和未接受药物的患者。这些组别从一开始就很少是相似的。病情最重的患者可能更有可能接受一种有风险的新疗法，或者也许只有最富有的患者才能负担得起。实际上，我们一直面临着拿苹果和橘子作比较的风险。我们如何才能进行公平的比较？

两种策略的故事（及其缺陷）

统计学家已经发展出两种主要的方法来处理这个混淆问题。每种方法本身都很出色，但每种方法也都有一个单一的、致命的弱点。

策略1：“如果……会怎样？”机器

第一种方法基于对结果进行建模。让我们构建一个复杂的机器学习模型——一个“结果模型”——它学习患者的基线特征（ $X$ ）、他们接受的处理（ $A$ ）和他们的最终健康结果（ $Y$ ）之间的关系。这个模型，我们可以称之为 $m(X, A)$ ，旨在成为现实的完美模拟器，学会预测任何类型的患者在任何处理下的结果。

一旦我们有了这个数字神谕，我们就可以进行一个宏大的思想实验。我们取整个患者数据集，然后问模型：“如果每个人都接受了处理，每个患者的结果会是怎样？”我们记录下平均值。然后，我们再问：“如果没有人接受处理，结果又会是怎样？”这两个模拟平均值之间的差异就是我们对处理真实效果的估计。这种方法通常被称为标准化或G-计算。

这种方法的美妙之处在于其直接性。然而，它的致命弱点是，它完全依赖于我们“如果……会怎样？”机器的完美性。如果我们的结果模型 $m(X, A)$ 有缺陷——比如它遗漏了一个关键的交互作用或函数形式错误——我们整个模拟就成了一场幻想，我们最终的估计就会有偏倚。它只有一次做对的机会。

策略2：伟大的再平衡法

第二种方法完全忽略结果，而专注于处理的分配。它问：为什么我们的处理组一开始就不公平？因为不同类型的人接受处理的概率不同。那么，让我们来解决这个问题。

我们构建一个不同的模型，这次是为了预测患者在给定其特征 $X$ 的情况下接受处理的概率。这个概率， $e(X) = \mathbb{P}(A=1|X)$ ，就是著名的倾向性得分。

有了这些概率，我们就可以进行统计上的再平衡。核心思想是，一个观测值应该用其所接受处理的概率的倒数来加权。例如，一个病情很重、很可能会接受药物但实际上没有的患者，是一个“意外”。这个患者对于了解重病患者在没有药物情况下的状况非常有信息价值，所以我们给其结果一个很大的权重。相反，一个按预期接受了药物的重病患者，则不那么令人意外，其权重就较小。这种技术，称为逆概率处理加权（IPTW），创造了一个新的“伪总体”，在这个伪总体中，处理不再与协变量 $X$ 混淆。这就好像我们进行了一次完美的随机实验。

IPTW的优雅之处是不可否认的。然而，它也有一个单一的弱点。整个再平衡法只有在我们的倾向性得分模型 $e(X)$ 被正确设定的情况下才有效。如果我们对概率的估计是错误的，我们的再平衡就会不正确，我们的结果同样会有偏倚。又是一个单一的弱点。

双重稳健的综合：为你的计算提供一个安全网

所以，我们有两种聪明的策略，每一种都容易受到一个关键建模错误的影响。这时，统计学领域出现了一个真正美妙的想法：如果我们能将它们结合起来呢？如果我们能构建一个估计量，它在结果模型正确，或倾向性得分模型正确的情况下都能工作呢？

这就是双重稳健估计的承诺。它给你两次机会得到正确答案。

双重稳健估计量（如增广逆概率加权（AIPW）估计量）的一般形式是统计设计的杰作。它可以被看作一个两步过程：

做出预测： 从结果模型对每个个体结果的预测开始。这是我们来自策略1的初步但可能有缺陷的猜测。
添加一个修正项： 使用倾向性得分模型创建一个“增广”或“修正”项。这个项着眼于真实数据，并计算每个人的“预测误差”（他们的实际结果 $Y_i$ 与结果模型的预测 $\hat{m}(X_i)$ 之间的差异）。然后，它用逆倾向性得分为这个误差加权。

对于在存在缺失数据（一个在数学上与因果推断相似的问题）的情况下估计总体均值，其公式如下：

\hat{\psi}_{\mathrm{DR}} = \frac{1}{n} \sum_{i=1}^n \left\{ \underbrace{\hat{m}(X_i)}_{\text{Outcome Model Prediction}} + \underbrace{\frac{R_i}{\hat{\pi}(X_i)} \big(Y_i - \hat{m}(X_i)\big)}_{\text{Weighted Prediction Error}} \right\}

在这里， $R_i$ 是一个指示我们是否观察到结果 $Y_i$ 的指示变量，而 $\hat{\pi}(X_i)$ 是观察到它的估计概率。对于估计平均处理效应（ATE），其结构是相同的，但应用于处理组和对照组之间的差异。

安全网的内部工作原理

为什么这种构造是“双重”稳健的？让我们来看两种情景。

情景A：你的结果模型（ $\hat{m}$ ）是完美的。 如果你的“如果……会怎样？”机器被完美设定，那么它的预测 $\hat{m}(X_i)$ 平均而言将等于真实结果 $Y_i$ 。这意味着预测误差项 $(Y_i - \hat{m}(X_i))$ 的平均值将为零。整个修正项就消失了！你剩下的就是来自结果模型的完美初始预测。在这种情况下，你的倾向性得分模型 $\hat{\pi}(X_i)$ 可能完全是错的，但这无关紧要，因为它被乘以了一个平均为零的项。你的估计是一致的。

情景B：你的倾向性得分模型（ $\hat{\pi}$ ）是完美的。 现在，假设你的结果模型 $\hat{m}(X_i)$ 是错误的，但你的倾向性得分模型是完美的。这就是奇迹发生的地方。修正项活跃起来，并同时做两件事。它的一部分，涉及加权结果 $\frac{R_i Y_i}{\hat{\pi}(X_i)}$ ，变成了来自策略2的一致的IPW估计量。另一部分，涉及加权预测 $\frac{R_i \hat{m}(X_i)}{\hat{\pi}(X_i)}$ ，其作用是精确地抵消你最初有缺陷的猜测 $\hat{m}(X_i)$ 所带来的偏倚。你第一个猜测中的错误被增广项完美地修正了。你的最终估计同样是一致的。

这不仅仅是一个聪明的技巧；它是一种深层次的结构特性。这个估计量是围绕一个称为有效影响函数的特殊数学对象构建的，我们可以把它看作是最佳可能估计量的理论蓝图。双重稳健估计量的设计就具有这种结构，从而保证了其非凡的安全网特性。

追求完美：效率与现代工具包

“双重稳健性”这一特性关乎得到正确的答案（一致性）。但精确度又如何呢？在所有能得到正确答案的估计量中，我们想要那个统计噪声最小的——即方差最小的那个。在统计学中，这被称为有效性。

这里还有另一个美妙的特性：当你的结果模型和倾向性得分模型都正确时，双重稳健估计量不仅是一致的，而且是渐近有效的。这意味着它达到了精确度的理论“速度极限”；在足够大的样本中，没有其他行为良好的估计量能比它更精确。

在机器学习时代，这个特性变得更加重要。我们现在有极其灵活的工具来估计我们的冗余模型 $\hat{m}$ 和 $\hat{\pi}$ 。但这种灵活性也带来了一个危险：过拟合。如果你在同一份数据上训练你的复杂模型并对其进行评估，模型基本上可以“记住”数据，导致一种微妙但破坏性的偏倚。

解决方案是一个称为交叉拟合的程序。想象一下把你的数据分成五块。为了对第一块数据进行预测，你在第二到第五块数据上训练你的模型。为了对第二块数据进行预测，你在第一、三、四、五块数据上进行训练，以此类推。这确保了模型对任何给定数据点的预测都是在训练时没有见过该数据点的情况下生成的。这种简单而强大的样本分割思想打破了过拟合的循环，使得双重稳健估计量的优雅理论特性即使在使用最强大的机器学习算法时也能成立。

知其局限：当魔法失效时

尽管双重稳健估计功能强大，但它并非万灵丹。它的保证仅在特定条件下成立，理解其局限性与欣赏其优点同样重要。

正值性问题： 逆概率加权的再平衡法依赖于一个关键假设：正值性。这意味着对于任何给定的特征集，接受处理或不接受处理的概率都必须非零。如果对于某一组患者（例如，那些有机械心脏瓣膜的患者），医生总是开某种药物呢？他们不被治疗的概率是零。对于这些患者，我们没有关于反事实的数据，也无法计算权重。这是一个结构性正值性违背。

在实践中，我们经常遇到“接近违背”的情况，即倾向性得分非常接近0或1。这会导致逆概率权重爆炸，使得最终估计极其不稳定，对数据的微小变化非常敏感。虽然与纯粹的IPW估计量相比，双重稳健结构可以减轻这种不稳定性，但它无法消除它。如果在这些数据稀疏的区域，结果模型也设定错误，那么巨大的权重会放大预测误差，导致巨大的偏倚。

未测量的混淆： 这是观测研究中最可怕的猛兽。整个混淆调整框架，包括双重稳健估计，都假设你已经测量并包含了所有重要的混淆变量（ $X$ ）在你的模型中。如果有一个你没有测量的关键混淆变量（例如，遗传倾向或生活方式选择），任何统计魔法都无法修复它。双重稳健性保护的是模型设定错误，而不是未能测量正确的变量。

当两个模型都错误时： 安全网有两根绳子。如果两根都断了——如果你的结果模型和倾向性得分模型都设定错误——双重稳健估计量就无法提供任何保护。它通常会产生偏倚。这个方法是双重稳健，而不是无限稳健。

即使有这些局限性，双重稳健估计的原理仍然代表着我们在从不完美数据中获取可靠知识的探索中迈出的重要一步。它是统计理论为普遍存在的问题提供实用、优雅且强大解决方案的一个美丽范例，给了我们不是一次，而是两次做对的机会。

应用与跨学科联系

我们已经探索了双重稳健估计的巧妙机制，看到了它如何构建一种统计上的安全网。通过结合两种看待问题的不同方式——一个关于谁接受处理的模型和一个关于之后发生什么的模型——它给了我们两次机会得到正确答案。这当然很优雅。但一个工具真正的美不在于其设计，而在于它让我们能够构建、发现和理解什么。这个聪明的想法究竟能带我们走向何方？它能解决什么问题？

现在，让我们从抽象的方程世界走向纷繁复杂、引人入胜的现实科学世界。我们将看到，双重稳健的原则不仅仅是统计学上的一个奇观；它是在医学、生态学、人工智能，乃至寻求清洁能源等不同领域中探求真理的强大透镜。

在医学和公共卫生领域探求因果真理

想象一下，一个公共卫生机构推出了一项新指南，以鼓励更多人接受癌症筛查。一些地区采纳了，另一些则没有。一年后，我们查看数据：新指南真的提高了筛查率吗？我们不能简单地比较采纳指南的地区和未采纳的地区。这些地区可能在无数方面有所不同——更多的资金、更年轻的人口、更好的基础设施。这些混淆因素会彻底搅浑这潭水。

这是观测数据的经典挑战。我们想要随机对照试验那样干净、清晰的答案，但我们面对的是现实世界的纠缠不清。双重稳健估计是我们解开这团乱麻的最强大的工具之一。通过建立一个模型来解释为什么一些地区采纳了政策（倾向性得分， $e(X)$ ），再建立另一个模型来预测基于地区特征我们预期的筛查率（结果模型， $m_a(X)$ ），我们可以进行更公允的比较。双重稳健估计量 $\hat{\psi}_{DR}$ ，在采纳模型或结果模型之一被正确设定的情况下是一致的。它给了我们两次机会获得正确答案，当我们知道我们的模型充其量只是对现实的深思熟虑的近似时，这是一个至关重要的优势。

但是问“它有效吗？”只是第一步。一个更实际的问题是“它帮助了多少？”在医学上，这通常用需治疗人数（NNT）来量化，它告诉我们需要多少人接受治疗才能让一个人受益。通过使用双重稳健估计量首先找到因果风险差（ $RD$ ），我们就可以直接从观测数据中计算出NNT，为医生和决策者提供一个衡量疗法真实世界影响的切实指标。

当然，没有估计是完美的。我们应该在多大程度上信任我们的数字？这时统计学为我们提供了置信区间的概念。通过利用双重稳健估计量的结构，特别是其影响函数，我们不仅可以计算出处理效应的单个数值，还可以计算出其可能的范围。关键是，因为该估计量对某些形式的模型误设是稳健的，所以得到的置信区间本身也更值得信赖。它们更有可能具有所声称的覆盖率——意味着一个 $95\%$ 的置信区间在 $95\%$ 的重复实验中确实会包含真实值——即使我们的一个基础模型是有缺陷的。

这种“两次机会做对”的特性，使得双重稳健估计量与其更简单的同类相比极具吸引力。仅基于倾向性得分的估计量（逆概率加权，或IPW）的成败完全取决于那一个模型。仅基于结果模型的估计量（G-计算）同样受其单一假设的束缚。双重稳健估计量则分散了风险。更重要的是，当它的两个模型都恰好正确时，它不仅是一致的，而且是有效的，在广泛的一类估计量中实现了最低的可能方差。从某种意义上说，它集两者之长。

从群体到个体：个性化医疗的曙光

到目前为止，我们讨论的都是平均效应。这种药对“普通人”有效吗？但在大数据和人工智能时代，我们梦想着一个更宏大的目标：个性化医疗。我们想知道，“考虑到我特定的年龄、基因和生活方式，这种药对我有效吗？”这个问题关乎条件平均处理效应（CATE），即 $\tau(x)$ ，也就是对于具有特定特征集 $X=x$ 的个体的效应。

在这里，双重稳健方法再次大放异彩，特别是当与机器学习的力量相结合时。我们可以利用电子健康记录中的丰富数据，构建灵活的倾向性得分和结果模型，来估计不同类型患者的CATE。这为量身定制治疗方案打开了大门，只将药物给予那些最有可能受益的患者亚群。

但这种能力也伴随着谨慎行事的深远责任。想象一下，我们正在评估一项有风险的手术对老年患者的效果。在我们的数据中，我们可能会发现医生几乎从不对80岁以上的患者进行这种手术。一个80岁老人的倾向性得分 $e(x)$ 将非常接近于零。我们正处于数据的边缘，一个“重叠性差”的区域。

在这种情况下，一个IPW风格的估计量会给那一个或两个碰巧接受了手术的80岁老人赋予巨大的权重。整个结论将完全依赖于这几个可能存在异常的个体。双重稳健估计量通过将其依赖性转移到结果模型来提供帮助。带有巨大权重 $1/e(x)$ 的项被乘以一个残差 $Y - m_1(x)$ 。如果结果模型 $m_1(x)$ 很好，这个残差就很小，估计值保持稳定。然而，我们是用一个问题换了另一个问题：我们的结论现在几乎完全依赖于结果模型在几乎没有数据可供学习的区域进行外推的能力。双重稳健性是一个强大的护盾，但它不是一根能凭空创造信息的魔杖。理解其局限性与理解其优势同样重要。

审慎科学的艺术：建立信心与信任

一个好的科学家，就像一个好的侦探，必须对自己的结论持怀疑态度。考虑到这些估计量的复杂性，我们如何建立信心，确信我们的结果是现实的一个特征，而不是我们方法的人为产物？这时，一套有原则的敏感性检验就派上用场了——这是为持怀疑态度的科学家准备的工具包。

与其依赖单一分析，我们可以让我们的结果经受一系列考验：

更换学习器： 如果处理效应是真实的，那么当我们把统计模型（比如逻辑回归）换成更灵活的机器学习模型（比如梯度提升机或神经网络）时，我们的估计值不应发生剧烈变化。在不同合理模型间的稳定性增强了我们的信心 [@problem_id:4612572, option A]。
检验你的假设： 我们可以运行正式的统计检验，看我们的倾向性得分模型是否合理。这些检验检查在建模后，协变量和处理分配之间是否还存在任何剩余的相关性 [@problem_id:4612572, option B]。
使用“安慰剂”检验： 最强大的检验之一是使用一个阴性对照结果——一个我们确信不会受处理影响的结果（例如，在施加处理之前进行的实验室测试）。我们运行整个双重稳健分析流程，来估计对这个安慰剂结果的“效应”。答案应该是零。如果我们发现一个非零效应，这是一个巨大的警示信号。它告诉我们，我们的模型可能未能调整某些未测量的混淆，我们不应该信任我们对真正关心的结果的分析结果 [@problem_id:4612572, option E]。
与朋友比较： 双重稳健估计是一个原则，有不同的算法可以实现它，例如增广IPW（AIPW）估计量和目标最小损失估计（TMLE）。运行这两种算法并检查它们是否给出相似的答案，是确保我们的发现对具体算法实现具有稳健性的另一种方法 [@problem_id:4612572, option I]。

这个探索、检验和质疑的过程正是科学的核心。双重稳健方法并没有消除审慎思考的必要性；它们提供了一个框架，使这种思考能够最富有成效地应用。

更广阔的宇宙：超越临床

双重稳健估计解决的核心问题——从有偏倚或不完整的数据中学习——是普遍存在的。因此，它的应用远远超出了医学领域也就不足为奇了。

生态学：计算未见之物

一个森林里生活着多少某种鸟类？为了找出答案，生态学家进行调查。但他们去哪里寻找？他们倾向于沿着道路和小径，或者在他们认为是良好栖息地的区域进行调查。这造成了抽样偏差：我们不知道一个区域没有鸟是因为它们不在那里，还是仅仅因为没有人去看。这是一个“缺失数据”问题，观测努力本身就带有信息。双重稳"健估计量可以校正这种偏差，它结合了一个关于生态学家可能搜索地点的模型（“努力的倾向性”）和一个关于物种可能栖息地的模型。这使得物种分布图更加准确，而这对于保护工作至关重要。
强化学习：教机器做出明智选择

想象一下训练一个人工智能，为患有慢性病的患者推荐一系列医疗方案。这个AI有一个它想评估的新策略。我们不能直接在真实患者身上部署它——那太危险了。我们必须使用过去医生如何治疗相似患者的历史数据，对其进行“离策略”评估。这正是双重稳健估计量的用武之地。通过观察患者轨迹中的一系列决策，估计量可以评估新策略的总价值，它结合了医生行为的模型和患者可能健康进展的模型。因果推断与强化学习之间的这种联系是人工智能最令人兴奋的前沿之一，其应用从个性化医疗到机器人学和游戏领域。
工程学：驯服一颗恒星

也许最引人注目的应用将我们带到了核聚变反应堆——托卡马克——的心脏。在里面，比太阳还热的等离子体被磁场约束。一次“破裂”——即等离子体变得不稳定——可能会严重损坏机器。工程师们开发了复杂的控制算法（策略）来防止这种情况。他们如何测试一个新的、可能更好的控制策略呢？他们当然不能在一个价值数十亿美元的机器上冒险。

利用过去实验的日志数据，他们可以进行高置信度的离策略评估。在这里，目标不仅仅是获得新策略性能的最佳猜测。对于安全关键系统，我们需要一个保守的估计。我们想以高置信度（比如 $99\%$ ）知道，我们可能预期的最坏情况性能是什么？通过将双重稳健估计量与经验伯恩斯坦不等式等强大的统计工具相结合，工程师可以计算出策略价值的高置信度下界。如果这个可证明安全的下界仍然优于旧策略，他们就可以充满信心地做出部署决策。正是在这里，统计的稳健性直接转化为物理上的安全性和可靠性。

从宁静的保护工作到动态的人工智能世界，再到聚变反应堆的巨大威力，同样的基本思想都适用。双重稳健估计远不止一个公式。它是一种推断的哲学——一种承认我们模型不完美，却又提供了一条有原则的路径，让我们从世界提供的丰富、凌乱而又美妙的观测数据中学习。它证明了数学思想在解决整个科学领域问题的统一力量。