
我们如何衡量一项新政策、医疗方法或社会项目的真实影响?回答这个问题是科学与社会最根本的挑战之一。我们可以轻易地观察到干预之后发生了什么,但我们永远无法看到反事实——在一个干预从未发生的平行世界里,会发生什么。我们知识上的这一空白,使得我们难以将真正的因果效应与简单的巧合或背景趋势区分开来。双重差分 (DiD) 法为这个问题提供了一个精妙而强大的解决方案,它提供了一种严谨的方法,用以从观测数据中估计因果关系。
本文为研究人员和实践者全面概述了DiD方法。在第一部分“原理与机制”中,我们将剖析该方法的核心逻辑,探讨“双重差分”如何帮助分离出处理效应。我们将深入探讨其基石——平行趋势假设,并讨论建立对这一无法检验的信念之跃的信心的实用方法。第二部分“应用与跨学科联系”将带领我们穿越不同领域——从公共卫生、经济学到生态学和历史学——展示这同一个思想如何被用来回答关键的现实世界问题。读完本文,您不仅将理解DiD的技术细节,还将掌握如何严谨地应用它来揭示塑造我们世界的力量的艺术。
我们如何知道某件事是否真的有效?想象一个州实施了一项新的公共卫生政策,以减少与阿片类药物相关的住院治疗。一年后,他们发现住院率下降了。成功了吗?人们很容易宣布胜利,但一个棘手的问题应该依然存在:如果住院率无论如何都会下降呢?也许是一场全国性的宣传活动正在改变人们的行为,或者经济状况正在改善。
问题的核心在于我们永远无法观测到反事实——在同一时间、同一个州,如果该政策没有实施,会发生什么。这是一趟进入一个看不见的平行世界的旅程。我们无法让时间倒流,让历史重演。那么,我们怎么能指望衡量一项干预的真实影响呢?这正是双重差分 (DiD) 法试图巧妙解决的核心难题。
让我们试着推理出一个解决方案。第一个简单的想法是进行“前后”比较。在实施新政策的州,假设阿片类药物住院率从每1000名居民例下降到例。这是每1000人减少了例。这就是政策的效果吗?这种方法天真地假设世界上没有其他任何事情发生变化,而这几乎永远不会是真的。
那么,让我们试试另一个想法:“有无”比较。我们找一个没有实施该政策的邻近州作为我们的“控制”组。政策实施后,处理州的住院率是例,而控制州是例。这是否意味着该政策实际上增加了住院率?这也是一个陷阱。这两个州一开始可能就不同。事实上,在政策实施前,它们的住院率分别是例和例。处理州一直有更高的住院率。
在这里,我们领悟到了双重差分法的绝妙之处。我们不假设没有其他事情发生变化,也不假设两个州完全相同,而是使用控制州作为我们通往那个看不见的世界的向导。我们观察控制州的情况如何变化,以估计背景的“长期趋势”——也就是可能影响住院率的世界上所有其他正在发生的事情。
在我们的例子中,控制州的住院率从例变为例,下降了例。DiD方法的核心思想是假设我们的处理州,在没有实施新政策的情况下,会经历完全相同的趋势。所以,从例的基线开始,我们本应预期处理州的住院率会下降到例。
但实际上并没有。它的实际住院率是例。我们观察到的(例)和我们在反事实世界中期盼的(例)之间的差异,就是该政策的估计效应:每1000名居民减少了例住院。
这个简单的算术就是“双重差分”:
对于我们的例子:
我们先计算每个组随时间的变化(差分),然后再计算这两个差分之间的差分。这个双重减法巧妙地从我们的估计中清除了两个主要的混淆因素:组间任何预先存在的、不随时间变化的差异(比如处理州一开始就有更高的住院率),以及随时间影响两组的任何背景趋势(比如全国范围内住院率的普遍下降)。
然而,这个巧妙的技巧依赖于一个至关重要的、无法检验的假设——一个被称为平行趋势假设 (PTA) 的信念之跃。我们必须假设,如果处理从未发生,处理组的结果变量的变化方式将与控制组完全相同。两组的轨迹必须是平行的。
为了更正式地说明,我们可以使用潜在结果的语言。对于任何个人或州,在未来的任何时间点都存在两种潜在结果:如果他们接受处理,其结果可称为;如果不接受处理,其结果为。根本问题在于,对于任何给定的单位,我们永远只能观察到其中一种。DiD方法通过观察控制组来为处理组构建一个对未被观察到的反事实 的估计。
对于处理组的平均处理效应,PTA的正式表述是,未处理的潜在结果的期望变化对于两组是相同的:
右边的项就是控制组观察到的变化,因为对他们来说,就是他们观察到的结果。左边的项是处理组无法看到的的反事实趋势。PTA大胆地断言这两者是相等的。这个假设是整个DiD分析所依赖的基石。
如果平行趋势假设是关于处理后时期的一个无法检验的信念之跃,我们如何才能相信它呢?我们无法证明它,但我们可以寻找证据使其更具合理性。最有力的方法是审视过去。如果两组在处理引入之前就已经在平行移动,这会让我们更有信心它们本会继续如此。
这是一个关键的诊断步骤,称为事前趋势检验。想象一项研究使用电子健康记录来评估一种新药,其中包含了给药前几个月的疾病特征评分数据。我们可以进行一个“安慰剂检验”:让我们假装处理比实际发生的时间早了一个月,并对处理前的数据运行DiD分析。如果趋势确实平行,我们应该发现没有效应;DiD的估计值应该在统计上与零无法区分。
进行此检验的一个极具视觉冲击力的方法是使用事件研究图。该图绘制了处理引入前后几个时间段的估计“效应”。如果平行趋势假设成立,我们应该看到所有处理前时期的估计值都在零附近徘徊。然后,在干预发生的那一刻,我们希望能看到真正的效应出现。这张图可以讲述一个引人入胜的故事,为我们的核心假设提供视觉检查,并揭示处理效应如何随时间展开。
在许多现实世界的场景中,简单的平行趋势假设可能过于苛刻。也许并不是整个处理州都与控制州趋势一致,而是处理州的城市县与控制州的城市县趋势一致,而农村县则遵循不同的路径。这就引出了一个更细致入微的想法:条件平行趋势假设。这个版本的假设认为,只有在我们考虑或“控制”了某些关键特征之后,趋势才是平行的。
在实践中,这通常通过一个回归模型来完成,该模型不仅包括处理组和处理后时期的指标,还包括一组控制变量(如年龄、收入或人口密度)。一种特别强大的技术是包含固定效应——为每个单位(例如,每个州)和每个时间段(例如,每年)设置的虚拟变量。州固定效应吸收了各州之间所有不随时间变化的差异,而时间固定效应则吸收了在特定年份影响所有州的共同冲击。这使我们能够更有信心地分离出处理效应。
我们甚至可以增加更多的灵活性。如果每家医院或每个州都有其自己独特的、与处理无关的潜在线性改善趋势呢?我们可以将这一点直接构建到我们的模型中。这样,处理效应不仅被识别为相对于控制组的变化,而且是在干预时刻该单位自身预测路径的急剧偏离。这种复杂的方法可以提高模型与现实的拟合度,但它也带来了经典的偏差-方差权衡:它对数据的要求更高,并可能使估计值不那么精确。它还凸显了正确设定趋势函数形式的重要性,从而强调了仔细进行诊断性检查的必要性。
在简单的因果模型中,一个深刻且常常被忽略的假设是,一个单位的处理状态不会影响另一个单位的结果。统计学家称之为稳定单位处理价值假设 (SUTVA)。但如果我们的世界并非如此泾渭分明呢?
想象一下,一家医院推出了一项新的管理计划,以改善抗生素处方实践。即使该计划只针对少数医生,他们改变的行为也可能影响整个医院的处方规范。处理效应从官方指定的处理对象“溢出”到了官方指定的未处理对象。患者的结果现在不仅取决于其主治医生是否直接接触到该计划,还取决于整个医院的行为。
这种世界的碰撞会破坏我们的DiD机器吗?如果我们足够聪明,就不会。干扰发生在医院内部,但我们可以合理地假设它不会溢出到医院之间。解决方案是改变我们的分析单位。我们不再比较单个患者,而是“放大视野”来比较医院本身。我们可以将我们的结果变量汇总到医院-季度的层面(例如,不当处方的平均率),并进行DiD分析,比较处理医院与控制医院。
我们现在估计的效应是该计划在医院层面的总影响,它正确地捆绑了直接效应和间接的溢出效应。通过将我们的观察点移至干扰被包含的层面,DiD的基本逻辑得以恢复。这证明了一个简单思想的力量和灵活性,它让我们能够谨慎而富有创造性地在一个复杂且相互关联的世界中衡量我们行动的效应。
我们已经看到,双重差分 (DiD) 法在其核心上是一个逻辑自展的奇迹。当世界不给我们一个完美的随机实验时,我们不放弃。我们变得更聪明。我们找到一个“控制组”,希望它在时间长河中描绘的轨迹能与我们的“处理组”平行。通过观察这个控制组的自然演变,我们得以一窥反事实世界——即我们的处理组在没有处理的情况下会发生什么。通过减去这个“背景趋势”,我们分离出了我们对处理真实效应的最佳估计。这就像在一个嘈杂的房间里辨别特定的旋律,方法是先录下房间的环境噪音,然后将其减去。
但是,这个精妙的逻辑仅仅是统计学家的一个奇思妙想吗?远非如此。这同一个思想是一把强有力的钥匙,解开了科学和社会中一些最重要问题的答案。它是为好奇者、决策者、医生、生态学家和历史学家准备的工具。让我们踏上一段旅程,穿越这些世界,看看这个方法的实际应用。
或许在任何领域,正确判断因果关系的赌注都没有在公共卫生领域那么高。想象一个州,在应对阿片类药物危机时,颁布了一项新政策,以指导医生更谨慎地开具止痛药。在接下来的一年里,过量用药率下降了。这是一场胜利吗?也许是。但也许由于更广泛的宣传活动或其他因素,全国各地的过量用药率本来就在下降。为了理清这一点,我们可以使用DiD。我们找到了一个邻近的州,它没有颁布该政策,但在政策实施前有着相似的过量用药率趋势。我们观察到,这个控制州的用药率也下降了,但降幅没有那么大。处理州的降幅与控制州的降幅之差,就为我们提供了该政策真实的、拯救生命的效应的估计。
现实世界中的医学往往更为复杂。考虑一家医院试图对抗抗生素耐药菌的兴起。它限制了一种强效抗生素——氟喹诺酮类药物的使用,希望减少导致尿路感染 (UTI) 的*大肠杆菌*的耐药性。一个简单的DiD可能会将这家医院与另一家没有此限制的医院进行比较。但如果在同一时期,第一家医院开始接诊更多患有复杂性UTI的病人,而这些病人本来就更有可能携带耐药菌呢?这种“病例组合”的变化可能会掩盖政策的成功。在这里,DiD的美妙简洁性通过另一种经典的流行病学工具得到了增强:标准化。研究人员可以创建一个“标准”的患者群体,并用它来调整两家医院的原始耐药率,实际上是在问:“如果两家医院治疗的患者组合完全相同,耐药率会是多少?”这种方法的结合使得比较更加公平和准确。
有时,一项政策的效果可能会令人惊讶。为了提高患者安全,一家医院可能会实施“公正文化” (Just Culture) 政策,鼓励员工在不担心受惩罚的情况下报告错误和险些发生的事故。政策开始后,一位经理惊恐地发现报告事件的数量增加了。新政策失败了吗?医院变得更不安全了吗?DiD为这一悖论提供了一条出路。通过比较干预单位与控制单位报告率的变化,我们可以确定原因。如果控制单位的报告事件变化不大,而干预单位的报告事件大幅增加,这就有力地证明了该政策正在按预期发挥作用——它不是在制造更多错误,而是在鼓励更诚实的报告,这是解决系统性问题的第一步。
DiD的逻辑并不仅限于医学。它诞生于经济学,并已传播到几乎所有处理因果关系的领域。想象一下,您正在尝试设计一项研究,以探究改变我们支付给医生的方式——从“按服务收费”模式转变为“按人头付费”模式(即每位患者获得固定金额)——是否可以降低总体医疗成本。一个好的DiD研究的关键在于设计。您需要一个处理组(转为按人头付费的诊所)和一个精心选择的控制组(同一市场中未转换的类似诊所)。您需要转换前后的数据。最重要的是,您将依赖于关键的平行趋势假设:即在没有支付改革的情况下,两组诊所的成本会以类似的方式变化。整个研究事业都建立在这种比较的质量之上。
现在,让我们进行一次飞跃。评估支付模式的相同逻辑能否告诉我们,重新引入狼群是否有助于森林恢复?是的,可以。这就是科学方法的美妙与统一。在一个著名的营养级联例子中,重新引入像狼这样的顶级捕食者被假设可以控制像麋鹿这样的食草动物种群,从而让像柳树这样被过度啃食的植物重新生长。为了检验这一点,生态学家可能会使用DiD设计。“处理组”是重新引入捕食者的流域。“控制组”是一个没有捕食者的类似流域。结果变量是幼柳树的密度。
通过测量重新引入前后两个流域的柳树密度,生态学家可以减去像天气模式这样会影响所有地方柳树生长的共同因素的影响。剩下的是对捕食者真实效应的估计。这个应用凸显了科学家所需的深度思考。例如,您绝不能在模型中“控制”食草动物的数量。为什么?因为您想要测量的因果路径正是:狼 → 食草动物减少 → 柳树增多。控制食草动物的数量就像是挡住了您自己观察该机制的视线。
DiD的力量不仅限于研究现在和未来;它还可以作为一种时间机器,对过去进行实验。在20世纪初,Flexner报告引发了美国医学教育和执照制度的全面改革。这些改革真的培养出了能拯救更多生命的更好的医生吗?我们无法对历史进行随机试验,但我们可以使用DiD。历史学家可以比较改革前后接受培训的医生群体的死亡率。“处理组”将是早期采用新的、严格的执照标准的州,而“控制组”将是那些很晚才采用这些标准的州。通过比较这两组之间死亡率结果的变化,我们可以估计医学史上最重要事件之一的因果效应。
这种历史的视角也可以转向社会一些最黑暗的篇章。历史学家和经济学家在探究,导致20世纪初国家支持的强制绝育运动的优生运动的可怕遗产能持续到今天。例如,这种历史创伤是否会造成根深蒂固的医疗不信任,导致几十年后同一社区的生殖健康服务使用率降低?这是一个深刻而困难的问题。研究人员正在使用先进的DiD方法来调查它。他们利用了这些可怕政策被不同县在不同时间采纳(“交错采纳”)这一事实。这创造了一个复杂的自然实验,而要正确分析它,需要超越简单的DiD模型,转向更现代的技术,这些技术能仔细选择有效的比较组。这项工作表明,我们的量化工具不仅可以用来衡量政策效果,还可以用来寻求对历史不公的更深层次的理解。
正如我们所见,DiD的应用非常广泛。从一个简单的、两组、两时期的比较,到这些先进的历史和生态学研究的旅程,揭示了该方法本身的发展演变。基本的计算,,可以在一个回归框架内更通用、更强有力地表达出来。在这里,我们可以使用如下模型来为州 在时间 的结果 建模:
在这个方程中, 项是“州固定效应”——它们吸收了我们各州之间所有稳定的、不随时间变化的差异。 项是“时间固定效应”——它们吸收了在特定年份影响所有人的共同冲击和趋势。交互项上的系数 ——它只对处理组 () 在处理后时期 () “开启”——就是我们的DiD估计值。这个框架不仅优雅,而且灵活,允许我们添加其他控制变量以提高精确度。
但能力越大,责任越大。科学的第一原则是你不能欺骗自己——而你自己是最容易被欺骗的人。一个好的科学家是自己最严厉的批评者。因此,应用DiD的核心部分是一套挑战假设的诊断性检验。
检查事前趋势: 整个方法都依赖于平行趋势假设。虽然我们永远无法证明它(这是一个关于反事实世界的假设),但我们可以检查它在处理之前是否合理。使用“事件研究”,我们可以绘制政策实施前几年的趋势图。如果处理组和控制组已经开始分化,我们的假设就岌岌可危了。如果它们是平行移动的,我们就可以有更多的信心。
运行安慰剂检验: 如果我们假装政策在实际发生前五年就发生了,并运行我们的DiD分析会怎样?如果我们发现了一个很大的“效应”,我们就知道我们的设置出了问题,因为我们在一个不可能存在效应的地方发现了效应。
考虑溢出效应: 一个州的酒精税是否导致人们驾车越过边境到控制州购买更便宜的酒?这种“溢出”违反了我们的控制组不受影响的假设。一个谨慎的研究人员可能会通过将边境县排除在分析之外,看看结果是否仍然成立,以此来检验这一点。
这个假设、估计和不懈自我批判的过程是科学的核心。双重差分法不仅仅是一种统计技巧;它是一个进行因果思考的框架。它提供了一种严谨的方法,让我们从我们周围不断发生的自然实验中学习,使我们能够从简单的相关性走向对塑造我们世界的力量的更深层次的理解。