try ai
科普
编辑
分享
反馈
  • 双重差分法:一种因果推断指南

双重差分法:一种因果推断指南

SciencePedia玻尔百科
关键要点
  • 双重差分法通过从处理组结果的变化中减去对照组结果的变化,来估计干预的因果效应。
  • 该方法的有效性依赖于关键的平行趋势假设,即假定在没有处理的情况下,处理组的结果趋势本应与对照组相同。
  • 支持平行趋势假设的证据是通过在处理前时期检查和检验各组之间相似的结果趋势来建立的。
  • DiD 是一个多功能框架,应用于公共卫生、生态学和行为科学等不同领域,以评估政策、事件和干预措施的影响。

引言

区分因果是科学和政策制定中最根本的挑战之一。当引入一项干预措施时——无论是新法律、公共卫生运动,还是环境变化——我们如何能确信其真实影响?简单的前后比较常常具有误导性,因为它们会受到潜在趋势的干扰,从而掩盖真实情况。本文介绍了双重差分法(DiD),这是一种强大而直观的准实验设计,用于克服这一挑战,并从观测数据中得出可靠的因果结论。

在两个综合性章节中,我们将踏上掌握这一基本工具的旅程。首先,在“原理与机制”中,我们将解构该方法的精妙逻辑,从其寻求反事实的概念基础,到其关键支点:平行趋势假设。我们将探讨如何为这一假设建立论证,并理解其被违反的后果。随后,“应用与跨学科联系”将展示 DiD 卓越的通用性,阐明同样的核心推理如何被应用于回答公共卫生、行为科学和生态学等不同领域中的关键问题。读完本文,您将拥有一个坚实的框架,以理解如何从动态世界的噪音中分离出变化的信号。

原理与机制

对反事实的求索

想象一下,你是一名公共卫生官员。一项新的、影响广泛的政策已经颁布——比如全州范围内禁止在公共场所吸烟——而你的工作是判断它是否奏效。它减少心脏病发作了吗?这个问题似乎很简单。你可以查看该州在禁令实施前的心脏病住院人数,并将其与实施后的人数进行比较。假设你发现,在法律通过后,急性心肌梗死(AMI)的发病率从每 10 万人 210 例降至 180 例。这算成功吗?

没那么快。你怎么能确定这种下降是由于你的政策?也许在同一时期,新的医疗方法变得普及,或者一场全国性的健康运动鼓励了更健康的饮食。世界并不会在我们进行实验时静止不动。这种持续变化的潮流,科学家称之为​​长期趋势​​(secular trend),污染了我们简单的前后比较。你观察到的 30 个单位的下降是政策真实效果和这种背景趋势的混合物。你发现的仅仅是​​相关性​​(association),而不一定是​​因果关系​​(causation)。

问题的核心在于:要真正了解政策的效果,你需要知道如果在完全相同的州、完全相同的时间段内,该政策没有被颁布,会发生什么。这种“如果……会怎样”的情景,我们称之为​​反事实​​(counterfactual)。它让我们得以一窥一个我们永远无法访问的平行宇宙。因果推断的全部要义,就是寻找巧妙、可信的方法来估计那个平行世界里发生的事情,而无需真正去到那里。

第二重差分的精妙之处

如果我们无法直接观察到反事实,也许我们可以找一个替代品。邻近的一个州怎么样?它和我们的州非常相似,但没有颁布禁烟令。我们可以简单地将我们处理州在政策实施后的心脏病发作率与邻近未处理州的发生率进行比较。但这同样充满风险。如果我们的州由于人口结构或工业历史的差异,心脏病发作率本来就一直更高呢?比较两个州的水平可能仅仅反映了这些先前存在的差异,而不是政策的效果。

在这里,一个绝妙简单而强大的想法应运而生。我们不把对照州当作处理州的直接复制品,而是用它来达到一个更微妙的目的:衡量“时间之河”。我们用它来估计我们之前无法分离出来的长期趋势。这个逻辑是一个优美的两步舞。

首先,我们计算处理州随时间的变化。我们称之为第一个“差分”。我们知道,这个差分是处理效应和趋势的混合体。

Change in Treated State=Treatment Effect+Secular Trend\text{Change in Treated State} = \text{Treatment Effect} + \text{Secular Trend}Change in Treated State=Treatment Effect+Secular Trend

其次,我们计算对照州随时间的变化。由于这个州没有接受处理,原则上,它的变化应该仅仅是长期趋势。

Change in Control State=Secular Trend\text{Change in Control State} = \text{Secular Trend}Change in Control State=Secular Trend

现在,是最后也是最精彩的一步。如果我们从处理州的变化中减去对照州的变化,“长期趋势”这一项就会被抵消,剩下我们一直想要的:处理效应。这就是​​双重差分法​​(Difference-in-Differences,DiD)。我们是在取两个差分的差分。

让我们通过一个旨在降低收缩压的假设性健康项目来实际操作一下。假设在实施该项目的诊所,血压平均下降了 5 毫米汞柱。在没有实施该项目的诊所,血压仍然下降了,但只下降了 2 毫米汞柱,这可能是由于更广泛的公众意识宣传活动。在处理组中进行的简单前后比较得出的答案是 -5 毫米汞柱。但 DiD 方法讲述了一个不同的故事。真正的因果效应是处理组的变化减去对照组的变化:(-5 毫米汞柱) - (-2 毫米汞柱) = -3 毫米汞柱。另外 2 毫米汞柱的改善无论如何都会发生!DiD 方法让我们得以将项目的效果从背景趋势中分离出来。

这个逻辑被浓缩在经典的 DiD 公式中。如果我们让 Yˉ\bar{Y}Yˉ 表示平均结果,下标表示组别(1 为处理组,0 为对照组)和时间(后或前),那么处理效应的 DiD 估计量 τ^DiD\hat{\tau}_{DiD}τ^DiD​ 为:

τ^DiD=(Yˉ1,post−Yˉ1,pre)−(Yˉ0,post−Yˉ0,pre)\hat{\tau}_{DiD} = (\bar{Y}_{1,post} - \bar{Y}_{1,pre}) - (\bar{Y}_{0,post} - \bar{Y}_{0,pre})τ^DiD​=(Yˉ1,post​−Yˉ1,pre​)−(Yˉ0,post​−Yˉ0,pre​)

在我们的禁烟令例子中,处理州的变化是 180−210=−30180 - 210 = -30180−210=−30。在邻近的对照州,发病率也发生了变化,从 205205205 降至 195195195,变化了 −10-10−10。因此,该政策效果的 DiD 估计是 (−30)−(−10)=−20(-30) - (-10) = -20(−30)−(−10)=−20 例住院/每 10 万人。该政策似乎起作用了,导致了 20 例的减少,这与 30 例的粗略估计不同。

关键假设:平行世界

这种优雅的相减方法似乎好得令人难以置信。和科学中所有强大的工具一样,其有效性依赖于一个关键假设。在这种情况下,它就是​​平行趋势假设​​(Parallel Trends Assumption)。

该假设是:​​在没有处理的情况下,处理组本会经历与对照组相同的结果趋势。​​ 我们假设时间之河对两个组都以相同的速度和方向流动。对照组实际走过的路径,是处理组本会走过的路径的有效替代。在没有政策的世界里,我们的两个州是平行世界。

我们可以使用现代因果推断的基石——​​潜在结果​​(potential outcomes)的语言来更正式地陈述这一点。对于任何时间点的任何组,让我们想象存在两种潜在结果:Y(1)Y(1)Y(1),即接受处理时的结果;以及 Y(0)Y(0)Y(0),即未接受处理时的结果。对处理组的因果效应是 E[Y1,post(1)−Y1,post(0)]\mathbb{E}[Y_{1,post}(1) - Y_{1,post}(0)]E[Y1,post​(1)−Y1,post​(0)]。第一项 E[Y1,post(1)]\mathbb{E}[Y_{1,post}(1)]E[Y1,post​(1)] 正是政策实施后在处理组中观察到的平均结果。第二项 E[Y1,post(0)]\mathbb{E}[Y_{1,post}(0)]E[Y1,post​(0)] 是不可观察的反事实。

平行趋势假设使我们能够识别这个反事实。它指出,处理组在没有处理的情况下本会经历的趋势,等于对照组在没有处理的情况下确实经历的趋势:

E[Y1,post(0)−Y1,pre(0)]=E[Y0,post(0)−Y0,pre(0)]\mathbb{E}[Y_{1,post}(0) - Y_{1,pre}(0)] = \mathbb{E}[Y_{0,post}(0) - Y_{0,pre}(0)]E[Y1,post​(0)−Y1,pre​(0)]=E[Y0,post​(0)−Y0,pre​(0)]

由于对照组从未被处理,其观察到的趋势等于等式的右边。这使我们能够解出反事实,并通过一些代数运算,回到我们简单的 DiD 公式。该假设是连接我们可观察数据与我们希望了解的不可观察因果量的关键。

我们能信任这个假设吗?一套侦探工具箱

平行趋势假设如此关键,以至于正确应用 DiD 的很大一部分工作就是扮演侦探,为其合理性收集证据。我们永远无法证明这个假设——因为它是一个关于反事实世界的陈述——但我们可以建立一个强有力的间接证据。

最重要的证据来自于观察​​处理前趋势​​。如果我们有政策颁布前多个时间点的数据,我们就可以问:这两个组是否已经走在平行的轨道上?如果是,这就增加了它们在没有处理的情况下会继续保持平行的可信度。如果它们已经开始分化,那么这个假设就非常可疑。

例如,在一项关于疫苗接种运动的研究中,研究人员不仅查看了流感样疾病(ILI)发病率在一年前的情况,还查看了两年前的情况。他们计算了处理区和对照区在-2年和-1年之间 ILI 发病率的变化。趋势并非完全相同,但非常接近,这表明在这种情况下平行趋势假设是合理的。

这种视觉检查可以被形式化。研究人员经常使用​​事件研究图​​(event-study plots),它显示了政策前后几个时期的估计“效应”。一个看起来健康的事件研究图会显示,在政策前时期,所有系数都接近于零,而在政策后时期则出现变化。如果在处理发生之前就看到非零的“效应”,这是一个重大的警示信号!为了进行更严格的检查,可以执行正式的统计检验,如​​瓦尔德检验​​(Wald test),以联合检验所有处理前系数是否在统计上与零无法区分。其他巧妙的检查方法包括使用安慰剂日期(假装政策比实际发生得更早)或安慰剂结果(检查对一个本不应受政策影响的结果是否存在效应)。

当世界碰撞:偏差的危害

如果平行趋势假设被违反会发生什么?例如,如果在对照地区的一项独立药店运动导致那里的疫苗接种率上升得比原本应有的速度更快,会怎么样?我们的对照组趋势现在被“污染”了;它不再代表处理组的反事实趋势。

结果就是​​偏差​​(bias)。我们的估计将是错误的。但奇妙的是,DiD 的数学原理让我们能够准确地描述它将如何出错。如果处理组的真实潜在趋势(无处理情况下)与对照组的趋势相差某个量,我们称之为 Δ\DeltaΔ,那么 DiD 估计量的偏差就精确地等于 Δ\DeltaΔ。

Bias(τ^DiD)=E[τ^DiD]−τ=Δ\text{Bias}(\hat{\tau}_{DiD}) = \mathbb{E}[\hat{\tau}_{DiD}] - \tau = \DeltaBias(τ^DiD​)=E[τ^DiD​]−τ=Δ

这是一个深刻的结果。它告诉我们,我们的估计不仅是“偏离的”,而且如果我们知道趋势的差异,它偏离的量是可预测的。例如,在流感疫苗的情景中,如果对照地区的药店运动使其趋势额外增加了 δ=0.03\delta = 0.03δ=0.03,那么 DiD 估计量将有 −δ=−0.03-\delta = -0.03−δ=−0.03 的偏差。它会系统性地低估授权令的真实效果,因为它使用的对照组趋势被人为地抬高了。这种假设违背与由此产生的偏差之间的直接联系,是一个成熟且被充分理解的科学方法的标志。

一些提醒:尺度、谬误与效应的性质

在我们结束这段旅程时,值得注意一些开启了更深远视野的微妙之处。

首先,我们所讨论的 DiD 方法估计的是对群体或地区的平均效应。当我们发现一项政策使哮喘住院率降低了 7/100,000 时,我们必须小心,不要犯​​生态谬误​​(ecological fallacy)。这个结果并不意味着每个个体的风险都降低了。它是对人口层面比率的平均效应,要推断个体层面的效应,需要个体层面的数据或更强的假设。

其次,我们推导的简单 DiD 公式衡量的是​​加性​​效应:政策导致感染风险降低了(比如说)2.5 个百分点。但如果真实效应是​​乘性​​的呢?——例如,政策将感染风险降低了 20%?尺度很重要。当研究人员使用更复杂的模型,如逻辑回归或泊松回归来执行 DiD 时,交互项不再代表均值的简单差分。相反,它捕捉的是一个乘性效应。对于一个使用对数连接的泊松模型,该系数代表率比的比率的对数。对于一个逻辑模型,它代表优势比的比率的对数。这不是一个缺陷;这是一个特性。它揭示了“效应”这个概念本身取决于我们用来描述它的数学语言。DiD 框架的美妙之处在于其适应性,无论我们相信世界是通过加法还是乘法运作,它都允许我们探索因果关系。

双重差分法以其优雅的简洁性,是人类智慧的证明。它是一个工具,当谨慎使用并深刻理解其核心原理时,能让我们窥探反事实的平行世界,并带回关于塑造我们自身世界的因果关系的可靠知识。

应用与跨学科联系

走过了双重差分法的原理与机制之旅,我们或许会感觉像是戴上了一副新眼镜。世界,这个一度由相互关联的事件构成的混乱模糊体,开始解析成一幅充满潜在实验的图景。其核心思想——将处理组的变化与对照组的变化进行比较——是如此基本、如此直观,以至于我们开始在各处看到它的身影。它不仅仅是一种统计技巧;它是一种结构化的方式,用以探寻科学中最深刻的问题之一:“若非如此,又将怎样?”

在本章中,我们将探索这一工具卓越的通用性。我们将看到这一个单一、优雅的思想如何跨越学科,将公共卫生先驱们的历史侦探工作与生态学前沿以及人类行为的微妙复杂性联系起来。这证明了科学推理的统一性——同样的逻辑可以帮助我们理解一根下水管道、一条安全带、一个捕食者,以及一项旨在伸张正义的政策所带来的影响。

基础:政策与公共卫生

双重差分法的精神家园是公共卫生领域,我们必须不断在信息不完善的情况下做出事关生死的决定。想象一下,你身处 19 世纪中叶,当时城市被霍乱肆虐,这是一种起源成谜的可怕疾病。当时流行的“瘴气理论”认为疾病是由污浊的空气传播的。遵循这一逻辑,城市规划者们进行了大规模的公共工程项目。其中一个项目就是安装地下下水道,将废物及其恶臭带走。

现在,假设一个城市在一个区安装了下水道,但在邻近的、相似的另一个区没有。之后,安装了新下水道的区的霍乱死亡人数下降了。这是一场胜利吗?也许是。但如果整个城市的死亡人数都在下降,原因可能是天气变化或疫情的自然周期呢?我们如何才能单独分离出下水道的效果?在这里,DiD 逻辑大放异彩。我们测量下水道区的霍乱死亡率变化,并减去同一时期内非下水道区的变化。剩下的数字就是我们对该特定干预措施所拯救生命的最佳估计,它已从背景噪音中被分离出来。这不仅是一个历史性的思想实验;它正是当今流行病学家和卫生官员评估大规模干预措施的精髓所在。

同样的逻辑也适用于无数现代政策。思考一下强制性安全带法的引入。在法律通过后,该地区的交通死亡人数可能会下降。但汽车也变得越来越安全,急救医学在进步,驾驶习惯也可能因其他原因而改变。为了分离出法律的效果,我们可以将颁布法律地区的死亡率变化与未颁布法律的可比地区的变化进行比较。在此过程中,我们必须小心。如果我们处理的是地区数据,我们不能简单地对不同规模地区的比率进行平均;我们必须用人口来适当地加权它们,忠实于比率的基本定义,即总事件数除以总暴露量。这种对细节的关注,正是一份可靠的科学估计与粗略猜测之间的区别。

探索人类心灵:行为与福祉

DiD 的力量不仅限于简单地问“它奏效了吗?”它还让我们能够探寻关于人类行为的更微妙、更有趣的问题。让我们回到安全带法。其主要效果是机械性的:在车祸中系了安全带的人死亡的可能性更小。但是否存在次要的行为效应呢?​​风险补偿​​(risk compensation)理论,有时也称为佩兹曼效应(Peltzman effect),提出人类有一种内在的“风险恒温器”。如果你让一项活动感觉更安全,人们可能会无意识地通过更鲁莽的行为来进行补偿。

我们怎么可能检验这样的事情呢?我们不能用车祸伤害作为我们的结果变量,因为那会把机械性的安全益处与行为变化混在一起。一个好的研究设计的精妙之处在于选择一个巧妙的结果变量。与其看伤害,我们不如看一个代表危险驾驶的代理指标,比如超速罚单率?利用我们的 DiD 框架,我们可以比较实施新法地区的超速罚单率(每公里驾驶)的变化与对照地区的变化。如果我们发现处理地区的罚单率相对于对照地区增加了,这将是风险补偿的有力证据——即安全带带来的感知安全让司机们更用力地踩下了油门。

这种衡量我们内心世界——我们的行为和感受——变化的能力,是该方法最重要的应用之一。思考一下医疗专业人员中紧迫的职业倦怠问题。一个医院联合体可能会实施一项限制住院医师工作时长的政策,希望减少情绪衰竭。要看它是否奏效,一个简单的前后比较是不够的。士气可能本来就在提高,或者新一波的压力可能掩盖了政策的好处。通过应用 DiD 设计——比较采纳该政策的医院与未采纳的医院——我们可以分离出政策对职业倦怠评分的真实影响。

这个例子也为我们提供了一个绝佳的机会来处理我们方法的阿喀琉斯之踵:​​平行趋势假设​​。我们如何能确定这两组医院在政策实施前处于相同的发展轨迹上?虽然我们永远无法证明这个反事实,但我们可以建立信心。如果我们有干预前多年的数据,我们可以进行一次“安慰剂检验”。我们假装政策比实际早一年实施,然后运行我们的 DiD 分析。如果趋势真的是平行的,我们应该发现没有效果。当我们看到这个安慰剂检验的结果接近于零时,我们对平行趋势假设的信念——以及我们对主要结果的信念——就大大增强了。

从简单相减到灵活框架

随着我们处理更复杂的问题,我们简单的四数相减法演变成一个强大而灵活的回归框架。这种“现代 DiD”使用统计模型以更高的精度和稳健性来实现相同的目标。

想象一下,我们正在评估一项反歧视政策对医疗保健利用的影响。我们想看看该政策是否改善了预防性保健的可及性,特别是对历史上被边缘化的群体。一个问题出现了:我们的处理州和对照州的人口构成可能随时间变化。如果使用更多医疗保健的子群体在处理州增长得更快,我们的结果将被这种成分变化所污染。解决方案是优雅的:我们可以通过使用固定的、政策前的人口权重来计算政策后的均值,从而创建成分调整后平均值。这确保了我们是在进行同类比较,将政策效果与人口变化的混淆影响分离开来。

回归框架优雅地处理了这类复杂性。在一个典型的现代 DiD 模型中,我们可能会用一系列变量来预测结果:

  • 一组“个体固定效应”(例如,对每个人或每家医院),它们吸收了该单位所有不随时间变化的特征。
  • 一组“时间固定效应”(例如,对每年),它们吸收了在那个时间影响每个单位的所有共同冲击。
  • 关键的交互项,指明了哪些单位在何时被处理。

这个交互项的系数就是我们的 DiD 估计值。这个框架让我们能够评估细致入微的问题,例如清洁燃料校车政策对儿童呼吸系统健康的影响。在这里,选择正确的对照组至关重要。将处理区的乘车儿童与同区的不乘车儿童进行比较将是一个错误,因为这两组可能在很多方面都不同(例如,基线健康状况、社会经济地位)。正确的设计是比较处理区的乘车儿童与对照区的乘车儿童,回归框架可以自然地处理这种比较。

这个框架也迫使我们面对一系列对我们推断的潜在威胁。如果对照州的人为了购买更便宜的、新征税的酒而开车越境到处理州怎么办?这种“溢出效应”违反了我们的假设,即对照组是真正未受处理的。如果一项政策是为了应对一个上升的趋势而制定的(例如,亲密伴侣暴力事件激增导致了新的酒税)怎么办?这将违反平行趋势假设。一项全面的 DiD 研究涉及一系列诊断性检验来探查这些问题,例如使用事件研究来直观检查处理前趋势,以及使用敏感性分析来检查来自邻近地区的溢出效应,。

从城市街区到生态系统

也许双重差分法最令人叹为观止的方面是其纯粹的普适性。追踪伦敦霍乱的逻辑同样可以用来追踪地球的健康状况。

考虑一下通过建立一个新的保护区(PA)来遏制森林砍伐的努力。我们如何知道它正在起作用?保护区边界内的森林状况可能比远处的森林要好,但这不是一个公平的比较;被保护的土地很可能因为其本身就与众不同而被选中。一个更巧妙的方法是使用来自卫星的空间数据。我们可以将保护区边界内的森林像素定义为“处理”组,将边界外一个狭窄缓冲区内的像素定义为“对照”组。这些相邻的像素很可能共享相同的土壤、坡度、降雨和市场压力。通过比较内部像素与外部像素森林覆盖率随时间的变化,我们可以估计出保护的真实“处理效应”,将其与背景森林砍伐率分离开来。

这一旅程在 DiD 最优雅的应用之一中达到高潮:检测整个生态系统中由一个变化引起的微妙、级联的效应。当狼被重新引入黄石国家公园时,有人假设它们的存在会引发“营养级联”。通过捕食麋鹿,狼不仅会减少它们的数量,还会改变它们的行为,使它们不敢在开阔的山谷中逗留。这反过来会减轻对柳树等幼小灌木和树木的啃食压力。

人们如何能证明这样一个无形的因果链呢?生态学家转向了 DiD 逻辑。他们可以将重新引入捕食者的流域视为“处理组”,将其他没有重新引入捕食者的类似流域视为“对照组”。结果变量是什么?是幼柳树林的密度。通过比较处理流域在重新引入前后柳树密度的变化与对照流域的变化,他们可以找到狼效应的印记,这种印记是用植物的语言写成的。DiD 估计分离出了顶级捕食者的间接效应,这是一个在食物网中向下涟漪式传播的信号。

从工业时代伦敦的街道到国家公园偏远的河谷,双重差分法的逻辑始终如一。它是一个强大、统一的原则,用于向世界学习。它提供了一种严谨的方式,将观察转化为洞见,在一个动态且不断变化的现实的巨大噪音中,找到单一变化的信号。从本质上讲,它是一个讲述因果故事的科学框架。