
我们如何才能知道一项新政策、一种新疗法或一个社会项目带来的真正影响?要回答这个问题,我们需要解开一个根本性的难题:我们永远无法观察到一个没有实施干预的世界会是什么样子。这种无法观察到的情景,即“反事实”,使得简单的“前后”对比或“并排”分析变得不可靠,因为它们很容易受到其他变化因素的污染。这一知识鸿沟为寻求循证决策的研究人员和政策制定者带来了重大挑战。
为了克服这一难题,社会科学家们开发了双重差分法(Difference-in-Differences, DiD),这是一种巧妙的方法,它将处理组随时间的变化与未处理的控制组随时间的变化进行比较。然而,DiD的整个逻辑结构都建立在一个单一而强大的理念之上:平行趋势假设。这一理念相信,在干预之前,两个组处于相似的轨迹上,并且在没有干预的情况下,它们本会继续保持这种状态。本文旨在阐释这一基础概念,解释其作用、重要性以及我们如何建立对它的信心。在接下来的章节中,我们将探讨该假设背后的原理和用于检验它的侦探工作,然后遍览其在公共卫生、法律和环境科学等领域的广泛应用,揭示这一个统计学理念如何帮助我们理解复杂世界中的因果关系。
想象一下,你是一位城市规划师,刚刚为一个我们称之为“T”的社区投入巨资修建了一条新的轻轨(LRT)线路。你希望这种新的便捷交通方式能鼓励居民更多地步行,从而改善公共健康。一年后,你想知道:这个方法奏效了吗?新开通的列车真的增加了人们的身体活动量吗?
这个看似简单的问题背后隐藏着一个巨大的挑战。要真正了解列车的效果,你需要测量T社区有列车时的身体活动量,然后,在另一个平行宇宙中,测量完全相同的社区在完全相同的时间但没有列车时的活动量。这两种情景之间的差异就是真正的因果效应。这第二种无法观察的情景——没有列车的世界——就是科学家所说的反事实。它是那条未选择的路,其本质决定了它无法被直接观察到。
那么,我们能做些什么呢?我们可以尝试简单的比较。我们可以测量T社区在LRT建成前后的平均每周身体活动量。假设我们发现活动量每周增加了35分钟。这是列车的效果吗?不一定。在同一年里,也许市政府开展了一场公共健康运动,或者一个异常温和的冬天鼓励了全城的每个人都更积极地活动。一个简单的“前后”对比会错误地将所有这些其他变化归因于列车。
或者,我们可以将T社区与一个没有修建LRT线路的类似社区“C”进行比较。列车建成后,我们发现T社区的居民比C社区的更活跃。这种差异是由于列车造成的吗?同样,不一定。也许T社区本来就更有健康意识,或者一开始就有更多的公园。这些预先存在的差异会污染一个简单的“横截面”比较。
面对无法观察反事实的困境,以及这些简单比较的明显缺陷,我们似乎束手无策。我们究竟如何才能将列车的效果从世界上所有其他噪音中分离出来呢?
在这里,我们找到了一个优美而巧妙的解决方案,它已成为现代政策评估的基石:双重差分法(Difference-in-Differences, DiD)。DiD的神奇之处在于,它将两种有缺陷的方法——“前后”对比和“处理-控制”比较——结合起来,使得它们各自的偏误相互抵消。
让我们回到我们的城市。假设我们拥有LRT建成前后T社区(处理组)和C社区(控制组)的数据。
在没有建车的控制社区C,假设平均每周身体活动量从分钟增加到分钟。变化量是分钟。这20分钟的增长是我们对“背景趋势”的估计——即温和的冬天和全市范围的健康运动的综合影响。
在接受处理的T社区,活动量从分钟增加到分钟。变化量是分钟。
现在是关键一步。T社区增加的35分钟是LRT效果和影响了C社区的相同背景趋势的混合体。为了分离出LRT的效果,我们只需减去从控制组估计出的背景趋势。这个“差分的差分”是:
这就是我们的DiD估计值。通过使用控制组的变化作为处理组反事实趋势的代理,我们剔除了共同冲击,分离出了LRT的影响。我们找到了一种估计未发生之事的方法。
然而,这个巧妙的技巧依赖于一个深刻而关键的假设。它是支撑整个DiD结构的无形支柱。我们假设,在控制社区(C)中测得的“背景趋势”,可以有效地替代处理社区(T)在没有修建列车的情况下本应经历的背景趋势。
这就是平行趋势假设。
它并不假设两个社区一开始就必须有相同水平的身体活动量。在我们的例子中,它们就没有(分钟对分钟)。它只假设,在没有处理的情况下,它们的结果会平行发展。在视觉上,如果你在图表上绘制它们随时间变化的活动水平,代表两个社区的两条线在干预前应该是平行的。DiD方法衡量的是干预后处理组的线偏离这条平行路径的程度。
用潜在结果的语言来更正式地表述,设为组在时间处于“未处理”状态时的结果(例如,身体活动量)。平行趋势假设为:
这个方程精确地陈述了这样一个思想:处理组的未处理潜在结果的变化,等于控制组的未处理潜在结果的变化。正是这个假设,允许我们用可观察到的控制组变化来替代不可观察到的处理组反事实变化,从而识别出处理组的平均处理效应(ATT)。
但是,我们如何能对一个关于我们看不见的平行宇宙的假设有信心呢?我们无法证明它,但我们可以像侦探一样,收集线索,看看它是否合理。
线索一:回顾过去 最直观的检验是查看干预之前的数据。如果在政策变化前的几年里,两个组的趋势是平行的,那么它们之后会继续保持平行的说法就更可信了。在我们的LRT例子中,假设我们有多一年前()的数据。我们发现从到,T社区的活动量从增加到(变化量为),而C社区的活动量从增加到(变化量也为)。干预前的趋势完全相同!这是对我们假设的有力支持证据。 绘制所有可用的处理前时期的组平均值是一个基础且不可或缺的诊断步骤。
线索二:安慰剂检验 一个更正式的检验是“安慰剂”或“证伪”检验。想象一下,你有好几年的处理前数据。你可以假装政策的实施时间比实际更早。例如,如果政策于2020年开始,而你有2015-2019年的数据,你可以进行一次DiD分析,假装政策始于2018年。如果平行趋势假设成立,你应该发现什么?什么都没有。估计出的“效应”应该为零。如果你在一个本不应存在效应的地方发现了统计上显著的效应,这就是一个重要警示,说明趋势从一开始就不是平行的。如果安慰剂估计值接近于零,且其置信区间包含零,这会增强我们对该方法的信心。
线索三:事件研究图 这是一个结合了前述思想的强大视觉和统计工具。我们不是只得出一个单一的DiD估计值,而是估计处理组和控制组在相对于干预日期的每个时期的差异。由此产生的图表显示了差异随时间如何演变。在干预前,我们期望这些估计值在统计上与零无异,随机地在零线附近波动。这证实了没有系统性的“前置趋势”。然后,在干预发生时,我们应该看到估计值开始偏离零,揭示政策在时间推移中展开的动态效应。对所有干预前系数进行联合统计检验,可以为它们作为一个整体是否异于零提供一个正式的结论。
这些诊断性检查至关重要。发现处理组和控制组的结果基线水平不同并不违反该假设。但发现它们有不同的处理前趋势则是一个严重问题,这表明控制组不是一个有效的反事实基准。
在此我们必须停下来,注入一剂理智上的谦逊,这是所有科学探究所必需的品质。当我们的侦探工作一无所获时——当我们的安慰剂检验和前置趋势系数都为零时——这意味着什么?这是否证明了平行趋势假设是正确的?
不。这是一个极其重要的一点。在统计学中,未能找到反对一个假设的证据,并不等同于找到了支持它的证据。问题在于统计功效。我们的检验可能只是太弱了——样本量太小,数据噪音太大——以至于无法检测到一个实际存在的、非零的前置趋势。
想象一个前置趋势检验,其中估计的趋势差异是个单位,但标准误很大,为。该检验未能发现统计上显著的差异。人们很容易宣告胜利,并说假设成立。但让我们计算一下这个检验的功效。如果潜在的真实趋势差异实际上是个单位,这个检验大约只有30%的机会能检测到它!这意味着有70%的可能会犯第二类错误——未能发现一个确实存在的违规情况。在低功效的情况下,一个“不显著”的p值并不能让人放心;它是不确定的。
这告诉我们,“通过”前置趋势检验并不能给我们声称确定性的许可。它给我们的是一致性、合理性和一定程度的信心,但它并不能消除偏误的可能性。好的科学要求我们承认这些局限性,诚实地报告我们的检验结果,并考虑我们的结论对我们核心假设的潜在、未被发现的违规有多敏感。[@problem_-id:5174979]
平行趋势假设是一个优美、强大的理念,它开启了一种向世界提出因果问题的方法。但它仍然是一个假设,一个关于我们无法看到的世界的陈述。我们为支持它所做的侦探工作增强了我们的论证,但就像任何优秀的侦探一样,我们必须始终意识到我们不知道什么,并对我们结论的确定性保持谦逊。这种在巧妙设计和批判性自我评估之间的不断互动,正是科学之旅的精髓所在。
在深入探讨了平行趋势假设的原理之后,我们可能会觉得手中掌握了一个坚实但略显抽象的工具。但科学不仅仅是抽象工具的集合;它是一种探究世界的方式。一个强大理念(如平行趋势假设)的真正美妙之处,并非体现在其形式化的定义中,而在于它能够穿透混乱无序的现实世界,揭示出清晰的因果链条。它让我们能够搭建一座从“已然”通往“或然”的桥梁——这是一项了不起的结构化想象的壮举。那么,让我们踏上一段旅程,看看这一个理念如何在医学、法律、环境科学等殿堂中回响。
让我们回到十九世纪中叶。城市在发展,疾病也在蔓延。在伦敦,霍乱是一种可怕而神秘的杀手。当时盛行的智慧——瘴气理论——认为疾病是由污秽和腐烂物散发的“坏空气”传播的。基于这一理论,某区的一位公共卫生改革家倡导了一项激进的干预措施:在1860年建造一个全面的地下排污系统,以排走废物,净化空气。在随后的几年里,霍乱死亡率从每10万人300例降至220例。这是科学的胜利吗?
也许是。但一个怀疑论者可能会指出,疾病通常有其自然周期。也许那一年霍乱疫情本就比较温和。我们如何才能将排污系统的效果从历史的背景噪音中分离出来?这正是我们故事变得有趣的地方。想象一个邻近的区,其社会和环境构成相似,但直到很久以后才建造新的排污系统。在同一时期,区的死亡率也下降了,从280例降至260例。这是解开谜题的关键一环。由于与区的排污系统无关的原因,各地的死亡率都在下降,降幅为每10万人20例。这就是“长期趋势”。区的变化是下降了80例。如果我们减去本应发生的变化(即在区观察到的20例下降),剩下的就是可归因于排污系统的额外下降:,即每10万居民减少60例死亡。
这个简单的减法——处理组的变化减去控制组的变化——正是双重差分法(DiD)的核心所在。控制组,即区,为我们提供了“平行宇宙”,是我们对区在没有干预的情况下会发生什么的最佳猜测。当然,关键的假设是,两个地区的趋势确实是平行的——即如果没有排污系统,区的霍乱死亡率变化量会与区相同。
这个逻辑框架是现代政策评估的基石。公共卫生官员们经常使用它。一项新的无烟法案是否降低了急性呼吸道疾病的发病率?我们可以比较通过该法案的城市与未通过法案的类似城市的疾病率变化,从而将政策效果与季节性流感模式或其他混淆因素分离开来。一项为医疗事故赔偿设定上限的州法律是否真的降低了对患者的赔付额?同样,我们可以比较采用上限的州与未采用上限的州的赔付额变化,从中减去全国诉讼的趋势。
但该方法的应用范围超越了单纯的有效性评估,延伸到正义问题。想象一个州扩大了其健康保险计划,以覆盖更多低收入公民,这一群体在获取医疗服务方面历来处于劣势。研究人员后来发现,该州的死亡率下降幅度比未扩大计划的邻州更为显著。DiD的估计值——趋势的差异——为一项政策对分配正义的影响提供了经验证据,表明该改革为弱势群体带来了切实的生存改善,向着更伟大的健康公平迈进了一步。当评估提供可负担住房并配备现场医疗服务能否减少资源匮乏社区可预防的住院情况时,同样的逻辑也适用。平行趋势假设让我们能够将一个统计工具转变为评估社会进步的仪器。
一个抽象概念的力量在于其普适性。我们分析中的“组”不必是人,甚至不必是政治辖区。它们可以是任何我们能够随时间测量的事物。思考一下保护地球森林的挑战。一个政府宣布建立一个新的保护区,在地图上画出一条线。线内是“处理区”;线外是“控制区”。我们如何知道这个公园在防止森林砍伐方面是否有效?
在这里,我们的分析单位变成了卫星图像上的一个像素。利用多年的Landsat数据,我们可以测量公园建立前后数百万个像素的森林覆盖率。我们可以比较公园边界内像素的森林覆盖率变化与边界外像素的变化。在这种情境下,平行趋势假设是指,在没有保护的情况下,边界内的像素会面临与边界外邻近像素相同的来自伐木、农业或火灾的压力。DiD分析通常在包含每个像素和每个时间段固定效应的回归框架中实施,它将“地图上的那条线”的效果与所有这些其他动态力量分离开来。从人类肺部的健康到地球之肺的健康,同样的逻辑结构提供了清晰度。
此时,你应该会感到一种健康的怀疑。这个平行趋势假设听起来很方便,但我们如何能确定它就是真的呢?毕竟,这是一个关于我们永远无法访问的反事实世界的假设。我们无法证明它,但我们能够——而且必须——“反复检验”。
最有力的方法是查看干预发生之前的数据。如果两个组真的在平行的路径上,那么它们在处理前时期的趋势也应该是平行的。想象一下,为处理组和控制组绘制多年来的结果图。如果在引入处理之前,两条线几乎以完美的平行形态上下移动,我们对该假设的信心就会大增。如果它们急剧地发散或收敛,那么这个假设就岌岌可危了。研究人员通过进行“事件研究”或“安慰剂检验”来将其形式化,实质上是在处理前数据上运行DiD分析,看结果是否如预期的那样为零。
这种批判性思维至关重要,因为现实世界总会抛出可能违背该假设的意外情况。想象我们正在研究一项无烟法案对哮喘住院率的影响。我们的控制区域看起来很完美。但如果在我们处理后时期的中途,控制区域自己发起了一场大规模的反电子烟运动呢?这场运动可能也会减少呼吸系统问题,导致控制组的趋势因与我们研究无关的原因而下降。控制组不再是一个有效的“平行宇宙”,我们的DiD估计值就会有偏误。这个方法虽然强大,但并非魔法;它需要对背景有深刻、批判性的理解。
有时,简单的“之前”和“之后”比较是不够的。政策可能会产生随时间展开的复杂效应。一项关于处方药的新政策是导致了危险的联合处方出现一次性的骤降,还是改变了长期趋势,使曲线逐月向下弯曲?
为了回答这些问题,我们可以将我们的DiD逻辑与一种称为中断时间序列(ITS)的方法结合起来。想象我们拥有一个实施了新警报政策的医疗系统(系统)和一个未实施的系统(系统)多年来的月度处方数据。我们可以对每个系统的潜在趋势进行建模。在系统中,我们观察到这些处方随着时间的推移逐渐减少,这可能是由于全国意识的提高。然而,在系统中,在政策引入的确切时刻,我们看到两件事:处方量急剧、即时地下降,然后出现了一个新的、更陡峭的下降趋势。
通过从处理系统()观察到的变化中减去控制系统()观察到的变化,我们可以分离出政策的真实效果。例如,我们可能会发现,该政策导致每1000名参保人立即减少了2.2个案例,并且使下降速度每月额外增加了0.38个案例。这种强大的组合使我们能够更丰富地描绘政策的影响,将其即时冲击与持续影响区分开来。
从简单的减法到复杂的时间序列模型,平行趋势假设始终是概念之锚。它是一个统一的原则,让我们能够通过仔细观察一个比较组,构建一个合理的“如果”故事,一个反事实。它证明了结构化思维的力量,是一个让我们能像科学侦探一样,在充满噪音、相互关联的世界的雪地里,找到隐藏的因果踪迹的工具。