双重差分法分析

玻尔百科

定义

双重差分法分析是一种在经济学和社会科学领域广泛使用的因果推断方法，通过计算干预组与对照组在政策干预前后结果变量的变化差值来评估干预效果。该方法的核心机制是通过两次差分同时控制了不随时间变化的样本差异以及共同的时间趋势。双重差分法的有效性高度依赖于平行趋势假设，即如果没有干预发生，干预组的变动趋势应与对照组保持一致。

核心要点

双重差分法（DiD）通过从处理组结果的变化中减去控制组结果的变化来估计干预的因果效应。
该方法的有效性完全取决于关键的“平行趋势假设”，即如果干预未发生，处理组本会遵循与控制组相同的发展趋势。
通过比较两个组（第二个“差分”）随时间的变化（第一个“差分”），DiD同时控制了不随时间变化的组间差异和影响两组的时间趋势。
DiD是一种多功能工具，广泛应用于公共卫生、经济学和社会政策领域，以评估禁烟令、医疗补贴和环境法规等政策的实际影响。

引言

我们如何确定一项新政策、计划或干预措施是否真正导致了所观察到的变化？这个因果关系问题对科学和社会至关重要，但回答起来却异常困难。要真正了解一项干预措施的效果，我们需要观察两个平行的宇宙：一个发生了干预，另一个没有。这种未被观察到的“假如”情景被称为反事实。双重差分法（DiD）是一种强大而巧妙的统计工具，它能让研究人员近似这种不可能的比较，为在现实世界中估计因果效应提供了一种可信的方法。本文旨在揭开这项关键技术的神秘面纱。

本文探讨双重差分法分析的世界。第一部分“原理与机制”将解析该方法的核心逻辑，将其与更简单但有缺陷的方法进行对比，并解释其对关键的平行趋势假设的依赖。第二部分“应用与跨学科联系”将遍览其多样化的实际应用，从19世纪的公共卫生难题到现代经济政策和环境保护，展示其揭示隐藏因果链条的强大能力。

原理与机制

反事实的艺术：洞见未发生之事

所有科学探究的核心都有一个看似简单的问题：“如果我做X，Y会发生什么？”如果一个州颁布了无烟政策，它是否导致了心脏病发作率的下降？如果一个城市提供住房补贴，它是否导致了抑郁症的减少？挑战在于，要真正知道答案，我们需要同时生活在两个宇宙中。在一个宇宙里，政策得以实施；在另一个宇宙里，则没有。然后我们会比较结果。这第二个未被观察到的宇宙，科学家称之为反事实——即本会发生什么。由于我们无法在宇宙之间穿梭，科学的艺术，尤其是在公共卫生和经济学等我们不能总是把人关在实验室里的领域，就在于找到巧妙的方法来近似这种不可能的比较。

让我们想象一下，我们想知道一个城市的一项新住房干预措施——比如，扩大租金补贴——是否能减少抑郁症，我们用一种名为PHQ-9的工具来衡量抑郁程度，分数越低越好。我们该如何找出答案呢？

第一次幼稚的尝试：前后快照对比

最直接的方法是测量该项目实施前和实施一年后城市中的平均抑郁分数。假设我们发现项目前平均分数为 $10.2$ ，项目后为 $8.7$ 。分数下降了 $1.5$ 分。看起来这个项目奏效了！

但等一下。科学家的工作就是要保持怀疑。我们怎么知道即使没有这个项目，分数就不会下降呢？也许是国家经济好转，减轻了每个人的财务压力。或者可能是一款流行的新心理健康应用发布了。又或者仅仅是季节的变化。世界并非静止不变。这种简单的前后比较被同期发生的所有其他变化所污染。它显示了项目与结果之间的关联，但并不能证明因果关系。

第二次幼稚的尝试：并排比较

好吧，那我们需要考虑那些背景趋势。如果我们找到一个邻近城市，它与我们的处理城市相似，但没有实施住房项目，会怎么样？我们可以称之为我们的“控制”城市。在第一个城市运行项目后，我们比较它们的抑郁分数。我们的处理城市分数为 $8.7$ ，而控制城市为 $9.5$ 。差异是 $-0.8$ 分。这就是效果吗？

我们同样必须保持怀疑。我们怎么知道这两个城市一开始就是完全相同的？也许处理城市的环境一直压力更大。查看项目开始之前的数据，我们发现这确实是真的：处理城市的初始分数为 $10.2$ ，而控制城市为 $9.8$ 。它们起点不同。事后进行简单的并排比较会受到这些预先存在的、不随时间变化的组间差异的污染。

双重差分：神来之笔

所以，我们有两种简单的方法，但都有缺陷。前后比较受到时间趋势的偏误影响。处理组-控制组比较受到基线差异的偏误影响。这时，一个真正绝妙的想法出现了，这个想法被称为双重差分法（DiD）。如果我们能用每一块有缺陷的信息来修正另一块呢？

让我们再看看我们的控制城市。它没有实施项目，所以其抑郁分数随时间的变化为我们提供了关于背景趋势的线索——即“无论如何都会发生”的部分。它们的分数从 $9.8$ 下降到 $9.5$ ，变化了 $-0.3$ 分。这是我们对所有人都在发生的自然改善的估计。

现在，让我们回到处理城市。它们的分数从 $10.2$ 下降到 $8.7$ ，变化了 $-1.5$ 分。这个观察到的变化是项目效果和同样背景趋势的混合体。

奇妙之处就在于此。为了分离出项目的效果，我们只需从处理城市观察到的变化中减去背景趋势。我们取处理组的“差分”（ $-1.5$ ），然后减去控制组的“差分”（ $-0.3$ ）。

$\text{效应} = (\text{处理组的变化}) - (\text{控制组的变化}) = (-1.5) - (-0.3) = -1.2$

这个“差分的差分”就是我们对真实因果效应的估计。我们利用控制组的经历“差分掉”了时间趋势，并且通过关注变化，我们也“差分掉”了城市之间预先存在的差异。

这个逻辑被一个简洁而优雅的公式所捕捉。如果我们用下标 $1$ 表示处理组，用 $0$ 表示控制组，时间段表示为pre（前）和post（后），那么DiD估计量 $\hat{\tau}_{DID}$ 是：

$\hat{\tau}_{DID} = (\bar{Y}_{1,post} - \bar{Y}_{1,pre}) - (\bar{Y}_{0,post} - \bar{Y}_{0,pre})$

让我们通过另一个例子来看看它的实际应用：评估一项全州范围的无烟政策对急性心肌梗死（AMI）住院率的影响。

处理州：AMI发生率从每 $100{,}000$ 人中 $210$ 例下降到 $180$ 例（变化为 $-30$ ）。
比较州：AMI发生率从每 $100{,}000$ 人中 $205$ 例下降到 $195$ 例（变化为 $-10$ ）。

在处理州，幼稚的前后比较显示了 $30$ 的大幅下降。但比较州告诉我们，无论如何，发生率都在下降 $10$ ，这可能是由于更好的医疗保健或全国性的健康宣传活动。DiD估计值是这两个差分之差： $(-30) - (-10) = -20$ 。该政策似乎额外导致了每 $100{,}000$ 人中 $20$ 例住院的下降，这一效果是简单方法无法看到的。

关键假设：平行宇宙的世界

这个绝妙的技巧并非没有代价。它依赖于一个重大、关键且根本无法检验的假设：平行趋势假设。

简单来说，这个假设指出，在没有处理的情况下，处理组本会遵循与控制组相同的发展趋势。这是一个关于反事实的假设。我们假设控制组随时间变化的轨迹，是处理组在那个它们从未被处理的平行宇宙中本会经历的轨迹的有效替代。

使用更精确的潜在结果语言，其中 $Y_{it}(0)$ 是组 $i$ 在时间 $t$ 如果未被处理时的结果，该假设为：

$E[Y_{1,post}(0) - Y_{1,pre}(0)] = E[Y_{0,post}(0) - Y_{0,pre}(0)]$

这表示未处理潜在结果的趋势对两组是相同的。注意这是一个关于趋势而非水平的假设。两组可以从非常不同的起点开始，只要在干预开始前它们的路径是平行的。

为什么这如此重要？想象一下这个假设是错误的。假设处理组由于其他原因本已处于更陡峭的下降轨道上。比如说，它们的自然趋势比控制组多负了 $\Delta$ 。当我们计算DiD估计值时，我们将无法解释这种预先存在的趋势差异。后果惊人地直接：我们的DiD估计量的偏差将恰好等于 $\Delta$ 。我们的估计值将是 $(\tau + \Delta)$ ，其中 $\tau$ 是真实的因果效应。我们会将差异化的趋势误认为是处理效应。DiD的强大与危险之处在于，其准确性完全取决于这个平行路径的假设。

检查镜中的裂痕：如何建立信心

如果平行趋势假设无法检验——因为它关乎一个反事实世界——我们是否就束手无策了？并非如此。一个好的科学家不只是做出假设，他们会去探查假设。虽然我们无法证明假设为真，但我们可以寻找证据使其或多或少显得合理。

最常见且最有效的检验方法是查看政策实施前几年的趋势。如果我们有多个处理前时期的数据，我们可以问：这两个组是否已经走在平行的轨道上？如果是，这会让我们更有信心，相信在没有处理的情况下，它们本会继续沿着平行的轨道发展。

考虑一项关于扩大溪边缓冲区对昆虫物种数量影响的环境研究。该政策在时间 $t=0$ 实施。研究人员拥有政策实施前两年， $t=-2$ 和 $t=-1$ 的数据。他们计算了在此预处理期间，处理组和控制组溪流的物种丰富度变化。

处理组溪流：丰富度从 $25.0$ 变为 $24.6$ （趋势为 $-0.4$ ）。
控制组溪流：丰富度从 $24.8$ 变为 $24.9$ （趋势为 $+0.1$ ）。

这些预处理趋势平行吗？乍一看，它们有些不同。但这是具有自然变异的真实世界数据。研究人员进行了一项统计检验，看这两个趋势之间的差异是否具有统计显著性。得出的检验统计量很小，表明观察到的差异很可能只是随机偶然造成的。这个结果并不能证明趋势是平行的，但它表明数据与该假设是一致的，从而增强了我们对最终DiD估计值的信心。

除了检查预处理趋势，研究人员还有一整套其他诊断性检验工具。他们通过假装政策在实际发生之前就已实施来检验“安慰剂”效应。他们检查处理组的人是否预见到政策并提早改变了行为。他们调查处理区域的政策是否“溢出”并影响了控制区域，这将违反组间无干扰的背景假设（通常称为单位处理值稳定假设，或SUTVA）。

双重差分法是科学推理的一大胜利。它是一个强大的透镜，使我们能够在一个复杂的、非随机化的世界中估计不可见之物，量化政策的效果。它将一个不可能的问题——比较平行宇宙——变成了一个简单的减法。但它的优雅建立在一个坚固而精巧的基础之上。有效使用它不仅需要计算一个数字，更需要进行细致的侦探工作，以建立一个令人信服的案例来证明其核心假设成立。它是现代科学中“统计学转向”的一个完美例子，证明了巧妙的思维如何帮助我们了解世界，即使完美的实验遥不可及。

应用与跨学科联系

我们如何知道我们所做的事情是否真的有效？这似乎是一个简单的问题，但却是科学和社会中最深层的问题之一。如果一个城市通过了一项新法律，建造了一家新医院，或清理了一条受污染的河流，我们如何能确定之后看到的变化是由于该行动，而不仅仅是同时发生的上百件其他事情的结果？

要真正知道答案，我们需要一台时间机器。我们必须观察行动后事件的展开，然后倒转时间，选择不行动，再观察一遍。这两条时间线之间的差异就是我们所做事情的真实因果效应。由于我们没有时间机器，我们必须变得聪明。我们必须用数据构建一条“反事实”时间线。双重差分法是我们发明过的最优雅、最强大的方法之一。在理解了其原理之后，让我们现在来探索它所开启的各种奇妙世界。

从瘴气到微生物：一种公共卫生工具

双重差分法的逻辑是如此基础，以至于我们可以在公共卫生的历史中看到它的影子。想象一下，你是19世纪中叶的一位城市规划师，那时“瘴气理论”——即疾病由污浊空气传播的观点——占主导地位。为了对抗霍乱，你决定在一个区安装一个巨大的地下下水道系统，以冲走散发恶臭的废物。果然，该区的霍乱死亡率直线下降。这是瘴气理论的胜利！但一个怀疑论者可能会问：“等等。如果是一个更温和的冬天或更清洁的食品供应导致整个城市的霍乱减少呢？”要回答这个问题，你需要一个类似的、但没有建造下水道的区。通过比较你的处理区死亡率的下降与控制区较小的下降，你就可以分离出下水道的额外效果，剔除全市范围的趋势（）。这个历史性的思想实验揭示了该方法永恒的核心：利用控制组随时间的变化来估计反事实的“无论如何都会发生什么”。

同样的逻辑在现代公共卫生中也是一匹任劳任怨的“老黄牛”。当一个城市禁止在公共场所吸烟时，我们看到随后哮喘发作的住院人数下降。但是否有其他因素在起作用？也许一种新药上市了，或者一场公众意识运动鼓励了更好的哮喘管理。通过比较禁烟城市哮喘入院人数的变化与邻近一个没有禁烟令的类似城市的变化，流行病学家可以减去背景趋势，从而分离出无烟法律的真实影响（）。

我们生活的“环境”不仅仅是我们呼吸的空气，也是我们构建的世界。考虑一项用清洁燃料替代品替换污染严重的柴油校车的政策。我们可能希望这能减少儿童的呼吸系统问题。仅仅比较政策前后喘息率是不够的；季节会变化，流感病毒会传播。关键是找到一组没有升级校车的类似学区。这些控制区乘坐校车的儿童喘息率的趋势提供了至关重要的反事实基线。在清洁校车学区的儿童中看到的额外改善，就可以归因于政策本身（）。

这个想法甚至可以扩展到全球层面，使用从太空传送的数据。为了衡量一个新的国家公园保护区在防止森林砍伐方面的有效性，我们不能只看公园指定后内部的森林覆盖情况。我们必须问，如果那片土地没有被保护，它会发生什么。在这里，控制组可以是紧邻公园边界的一圈“甜甜圈”状土地。通过比较公园内森林覆盖率的变化与未受保护的缓冲区在同一年份内的变化，保护科学家可以估计出政策真正拯救了多少树木，从而将其效果与干旱或经济发展等更广泛的区域压力分离开来（）。从19世纪的城市到卫星对地球的俯瞰，其逻辑保持不变。

经济学家的工具箱：揭示隐藏的联系

虽然源于直觉逻辑，但双重差分法在经济学和社会政策领域被打磨成一种精密仪器。在这里，它不仅用于评估政策，还用于揭示支配我们生活的基本机制。

想象一个旨在减轻贫困家庭医疗费用负担的政府项目。一个公私合作伙伴关系可能会提供代金券，使诊断测试更加实惠。它奏效了吗？我们可以在有代金券项目的地区追踪“灾难性卫生支出”——即家庭将收入中致残性的一部分用于健康——的发生率。但要知道该项目的真正效果，我们需要一个没有代金券的控制区。控制区的变化告诉我们背景经济趋势。双重差分估计随后揭示了由代金券项目带来的财务崩溃的具体、因果性减少（）。

该方法的美妙之处在于它能够超越简单的“是的，它奏效了”，并量化更深层次的真相。考虑在一个健康食品选择匮乏的社区对水果和蔬菜进行补贴。一项DiD分析可以如预期那样，显示与没有补贴的类似社区相比，该补贴是否改善了居民的饮食质量得分。但我们可以做得更多。通过同时追踪价格的变化和消费的农产品数量的变化，我们可以使用价格和数量的DiD估计值来计算一个基本的经济参数：需求价格弹性。这精确地告诉我们，人们的购买习惯对价格变化的敏感程度（）。一个用于政策评估的工具变成了一个用于经济发现的工具。

也许最深刻的应用是那些揭示了我们社会看似无关部分之间隐藏联系的应用。一项劳动政策会影响公共健康吗？考虑一项旨在缩小性别薪酬差距的要求工资透明化的法律。减少财务压力和改善工作场所公平性，有可能减轻女性心理健康不佳的负担，这是合乎情理的。通过比较采纳该政策的省份与未采纳该政策的省份中女性自我报告的心理健康不佳天数的变化，研究人员可以检验这一假设。这使我们能够看到经济正义如何成为一种公共卫生干预形式，从而在薪水和心理健康之间建立起因果联系（）。

发现的前沿：磨砺工具

现实世界是混乱的，好的科学需要一种健康的偏执。DiD最前沿的应用不仅仅是使用这个工具，而是不断地检查它、完善它，并确保它没有在欺骗我们。

一家医院可能会实施一项政策，限制使用像fluoroquinolone这样的强效抗生素，以对抗日益增长的耐药性。政策实施后，他们可能会看到耐药率下降。但如果医院治疗的病人类型也发生了变化呢？如果他们开始接诊更多感染不那么复杂的病人，这些人本身就不太可能携带耐药菌，那么耐药率的下降可能只是这种变化的“病例组合”造成的假象。为了防止这种情况，研究人员可以使用一种称为标准化的统计技术来调整原始数据，在应用双重差分逻辑之前创造一个更诚实的比较。这确保了他们是在随时间比较同类事物（）。

现代DiD分析，尤其是在政策评估中的实践，是这种智力严谨性的大师课。在研究像医疗补助计划（Medicaid）扩张这样重大政策对产前护理率的影响时，研究人员不只是比较两个数字。他们使用包含固定效应的强大回归模型。一个“州固定效应”就像在比赛中给每个州一个独特的起跑线，解释了一个州与另一个州所有稳定的、未被观察到的差异。一个“年份固定效应”则解释了像经济衰退或大流行病这样同时影响所有人的全国性冲击（[@problem_-id:4448505]）。

为了更加确定，科学家会进行诊断性检验。其中最有效的一种是事件研究。他们不只是看“之前”和“之后”，而是逐年观察政策变化前的趋势。如果平行趋势假设有效，那么在政策颁布之前的几年里，处理组和控制组的趋势应该看起来几乎完全相同。看到这一点让我们有信心，相信控制组确实是反事实的一个良好替代。

然后是有趣的部分：安慰剂检验。如果你的方法是可靠的，那么当你确定没有效果时，它应该也找不到效果。科学家会运行他们的整个分析，但使用一个比真实干预日期早几年的虚假干预日期。如果他们发现了一个不存在的“效应”，他们就知道自己的模型是有缺陷的（）。另一个聪明的技巧是使用一个伪证结果——一个本不应受到政策影响的结果。如果一项旨在减少医生职业倦怠的干预措施似乎也减少了疫苗冰箱门被遗忘打开的次数，那么很可能是分析出了问题，而不是干预措施（）。

最后，当干预的“发令枪”在不同时间为不同群体响起时会发生什么？这种“交错采纳”在现实世界中很常见。一个简单的DiD在这里可能会产生误导，因为早期采纳的群体不能作为晚期采纳群体的干净对照组。这一直是计量经济学研究的热点，催生了新的、更稳健的方法，这些方法能够为每个群体在每个时间点上仔细构建正确的比较（）。这个研究前沿表明，即使是一个简单而优美的想法，也必须不断被打磨，以应对它试图理解的世界的美丽复杂性。