
人类的大脑天生就是一台“如果……会怎样”的机器,它不断思索各种可能的现实,以理解这个世界。从思忖另一条职业道路是否会带来更多幸福,到质疑某种药物是否真的治愈了疾病,我们都在本能地进行着反事实推理。这种将现实与“倘若如此”进行比较的能力,正是建立因果关系的核心所在。然而,直觉可能是一个危险的向导,它很容易被巧合和虚假的相关性所欺骗。在科学和生活中,关键的挑战在于,如何从随意的推测转向一种严谨、规范的方法,来回答“如果……会怎样”的问题,并揭示真正的因果关系。
本文将全面介绍反事实的正式科学。在第一章原理与机制中,我们将解构因果推斷的核心逻辑。我们将探讨反事实总是无法被观察到的“基本问题”,了解简单的相关性为何可能具有误导性,并介绍科学家们用以构建可靠的“如果……会怎样”机器的强大框架——从随机对照试验到有向无环图。随后,在应用与跨学科联系一章中,我们将展示这一框架非凡的通用性。我们将看到,这同一个推理模式如何成为医生的诊断工具、工程师的水晶球、人工智能的公平性标准以及法庭上的责任检验,从而揭示反事实思维是理性探究的通用语法。
想象一下你头痛欲裂。你服用了一片阿司匹林,一小时内疼痛消失了。一个既深具哲理又异常实际的问题出现了:是阿司匹林导致头痛消失的吗?你可能会忍不住说“当然是!”但你如何确定呢?也许头痛注定会自行消退。要真正知道答案,你需要窺視一個平行宇宙——一个在各方面都与我们的世界相同,仅有一个关键差异的宇宙:在那个世界里,你没有服用阿司匹林。
这种想象一个“与事实相反”的世界的行为,正是反事实推理的精髓。它是所有因果探究的引擎。要理解任何行动的效果,无论是服用一片药丸还是推行一项公共卫生政策,我们都必须将现实世界与我们采取不同行动后本应会呈现的世界进行比较。
这立即给我们带来了所谓的因果推断的基本问题:对于任何个体,我们永远只能观察到一种现实。我们看到了服用阿司匹林后的结果,但不服用它的结果则永远对我们关闭,它成了时间机器中的幽灵。
为了将其形式化,科学家们使用潜在结果的思路。对于任何个体和任何处理,都存在两种潜在的未来。我们称为您接受处理(例如,阿司匹林)后的结果,而为您未接受处理的结果。对您而言,真正的因果效应是二者之差:。可悲的是,我们永远只能看到这两个值中的一个。另一个则始终是未被观察到的反事实。整个因果推断科学就是一系列旨在解决这个基本问题——即估计那不可见之物——的巧妙方法的集合。
试图解决此问题时最常见的错误,就是简单地比较不同组别。我们观察服用了阿司匹林的人和未服用的人,然后比较他们的平均结果。这是“相关性”的逻辑,它如同海妖的歌声,已将无数研究引入歧途。发生在不同人群中的情况之间的差异,与发生在相同人群在不同条件下会发生什么之间的差异,不是一回事。
设想一个医疗系统为心力衰竭患者推出了一个新的远程医疗项目。他们观察到,选择使用该应用程序的患者30天内再入院率为,而坚持标准线下就诊的患者再入院率为。这是技术的胜利吗?别急着下结论。事实证明,注册使用远程医疗的患者平均更年轻、更富有,且初始症状较轻。他们本来就更有可能获得更好的结果。这的差异是由于该应用程序,还是由各组之间 preexisting 的差异所造成的“幻影”?这个幻影就是我们所说的混杂。一个旨在预测败血症死亡率的人工智能系统也面临着同样的陷阱。如果人工智能观察到接受早期抗生素治疗的患者死亡率更高,它可能会学到一个负相关关系。但这是因为医生凭其智慧,会紧急为病情最严重的患者使用抗生素——而这些患者本就处于更高的死亡风险中。相关性是真实的,但其背后的因果故事却与表面上看起来的正好相反。
让我们用一个清晰的数值例子来驱散这些幻影中的一个。有传言称一种新疫苗会导致儿童癫痫发作。一个法律团队进行调查后发现,在一个有名儿童接种了疫苗的城市里,有例在接种后三天内报告的癫痫发作。这是典型的“此后发生,故因此发生”的案例。但这是因果关系吗?在这里,反事实推理成为我们的工具。我们必须问:“如果这群儿童没有接种疫苗,在三天的时间里,我们本应预期会发生多少例癫痫发作?”
幸运的是,我们有关于基线风险的数据:在该年龄组中,癫痫的每日风险约为。因此,反事实计算很简单。在我们“如果……会怎样”的世界里,预期的癫痫发作次数是:
突然间,情况完全变了。在如此庞大的人口中,我们本就预期在任意三天窗口期内,仅因随机 chance,就会发生大约例癫痫发作。观察到的数字不仅在同一数量级上,甚至还略低于基线预期。时间上的相关性只是一个巧合,一个由大数法则召唤出的幻影。反事实分析表明,没有证据支持存在因果联系。
如果我们不能简单地比较组别,那我们该如何构建一台可靠的“如果……会怎样”的机器呢?我们如何才能为反事实世界创建一个有效的替代品?
黄金标准是随机对照试验(RCT)。通过将个体随机分配到处理组()或对照组(),我们创建了两个在平均意义上,在所有方面——无论是已测量还是未测量的——都统计上相同的组。对照组成为了处理组反事实世界的近乎完美的统计代理。当对于哪条路径更优存在真正的不确定性时,即处于一种称为临床均衡(equipoise)的状态时,随机化不仅在科学上是强大的,在伦理上也是合理的。
但我们不能总是进行实验。对于许多问题,我们只能使用混乱的、真实世界的观察性数据。此时,任务就是通过统计手段重现随机化的魔力。目标是实现可交换性(exchangeability)(或可比性(comparability))。我们希望能够说,我们的暴露组和非暴露组在潜在结果方面是可比的或可交换的,或许是在我们对混杂因素进行调整之后。
为此,我们需要一张我们因果假设的地图。完成这项工作的最优雅的工具是有向无环图(Directed Acyclic Graph, DAG)。DAG是一张简单的图,它编码了我们关于什么导致什么的信念。箭头表示因果影响。考虑一家医院实施一个新的培训项目()以减少药物不良事件()。DAG帮助我们 navigating 因果之网:
混杂路径(Confounding Paths):假设病房工作负荷()既影响一个病房是否接受培训,也影响其发生事件的风险( 和 )。这就创建了一条“后门路径”。这条路径是混杂的来源,我们的DAG告诉我们必须通过统计上调整来“阻断”它。
因果路径(Causal Paths):培训()可能会提高员工对核查清单()的遵守度,从而减少事件()。这是一条因果通路:。如果我们想知道培训的总效果,我们的DAG会警告我们不要调整中介变量,因为那会阻斷我們想要衡量的機制之一。
对撞偏倚(Collider Bias):这是因果推理中最微妙和危险的陷阱之一。假设事件()和培训()都会触发安全官员()的审查。结构是。变量是一个对撞因子(collider),因为有两个箭头汇入它。一个奇异的统计现象发生了:如果你将分析仅限于被审查过的案例(即,你在对撞因子上进行条件化),你就会在和之間創造一個虛假統計關聯。DAG清晰地显示了这一点并警告你:不要在对撞因子上进行条件化。
最后,为了将我们的理论模型与混乱的世界联系起来,我们还需要一个更简单的假设:一致性(consistency)。它指出,我们观察到的实际接受了某项处理的个体的结果,实际上就是他们在该处理下的潜在结果。正是这座桥梁,让我们的观察数据能够讲出反事实的语言。
一个计算机模型需要具备什么才能进行这种推理?一个简单的、被训练来发现相关性的预测性人工智能是不够的。要回答“如果……会怎样”的问题,一个模型必须是系统的因果生成表征。它必须编码系统工作方式的机制。用工程术语来说,这通常意味着一个状态空间模型,包括:
只有一个具有这种结构的模型才能模拟干预的效果——因果科学家称之为do-算子,如。这是一个仅描述世界与一个能解释世界的模型之间的区别。
有了这个强大的框架,我们能做的就不仅仅是估计平均效应。我们可以触及在单个案例中进行原因归属的棘手问题。在一个模仿沙利度胺悲剧的场景中,假设一种新的镇静剂与出生缺陷的可怕增加有关。在未暴露的怀孕中,风险微乎其微,比如,但在暴露的怀孕中,风险高达惊人的。对于一个暴露后出生并带有缺陷的孩子,我们能说这种药物是原因吗?利用我们的框架,我们可以计算因果概率(Probability of Causation, PC)。在这种情况下,它将超过。这意味着,对于从暴露组中随机挑选的一个受影响的孩子,如果有超过的 chance,如果药物未被服用,他们本不会有这个缺陷。我们已经将一个群体层面的统计数据与一个深刻的个体层面概率性声明联系起来。
这段通往因果关系的旅程也教会了我们谦逊。那些我们没有测量的因素呢?未测量混杂的问题始终伴随着我们。但即便如此,反事实框架也提供了一条前进的道路。我们不必假装问题不存在,而是可以进行敏感性分析。我们问:“一个未测量的混杂因素,在其与处理和结果的关联性上需要有多强,才能完全消除我们估计出的效应?”这种分析为我们的不确定性设定了界限,是科学诚信的标志。
这种整个思维方式代表了科学方法的一次美妙演进。早期的框架,如Robert Koch用以识别疾病微生物原因的法则,是“因果推断机器”的杰出首次尝试。它们坚持要在患病而非健康的宿主中找到病原体,将其分离,并重现疾病。但我们现在知道,这些法则可能会失败。一些病原体由健康人携带(无症状携带),而一些则无法在实验室中培养。反事实框架提供了一个更稳健和通用的逻辑。它允许我们使用像PCR这样的现代工具来检测病原体,并通过一个更根本的标准来定义因果关系:证明移除或灭活病原体的干预措施会导致疾病减少。它没有取代Koch的观点,而是丰富了它们,将它们置于一个更宏大、更统一的因果理论之中。反事实推理,归根结底,是 disciplined 地想象“倘若如此”的艺术,以便我们能更好地理解现实,并明智地塑造未来。
在掌握了反事实的原理之后,我们可能会觉得自己学到了一套新的、有些抽象的规则。但如果工具只放在工具箱里,又有什么用呢?事实是,一旦你学会用反事实的视角看世界,你就会开始发现它的应用无处不在。它不是一种小众的统计技巧;它是一种基本的推理语法,一台我们可以指向任何问题的“如果……会怎样”的机器,从单个病人的痛苦到更公平的人工智能的设计。让我们参观一下这台机器的工坊,看看它能造出些什么。
反事实思维在医学领域最为直接和个人化。病床边的医生就像一名侦探,不断筛选线索以揭示疾病的根源。他们最强大的调查工具就是“如果……会怎样?”这个问题。
想象一位患者在服用一种抗抑郁药一年后病情稳定。他们停药后,两天之内出现了一系列令人痛苦的新症状——头晕、恶心和奇怪的“电击感”。医生面临一个关键的抉择:这是原发抑郁症的复发,还是一个新问题——由药物缺失引起的戒断综合征?答案决定了下一步的治疗。
此时,医生的头脑变成了一个反事实模拟器,运行着他的药理学知识。复发假说做出了一个预测:如果这是真正的复发,重新服用抗抑郁药应该会开始起效,但作用会很慢,需要两到六周的时间,这是已知这些药物发挥治疗效果的生物学时间尺度。而戒断假说则预测了完全不同的情况:如果症状是由药物的急性缺失引起的,那么重新引入药物应该几乎立即解决问题,在几小时或一两天内,随着药物水平和受体活性的恢复。
医生建议重新开始服药。患者的新症状在24小时内消失了。案件告破。病情的迅速改善直接反驳了复发假说的预测;观察到的结果证伪了它。医生实际上进行了一项单人实验,一次强大的“n-of-1”试验。通过将观察到的世界(重新服药)与一个基于充分推理的反事实世界(在复发假说下会发生什么)进行比较,他得出了因果结论和正确的诊断。
同样的逻辑可以从单个患者扩展到整个人群。在20世纪初,一种名为糙皮病的毁灭性疾病在美国南部肆虐,当时主流理论认为它是一种传染病。美国公共卫生服务的医生Joseph Goldberger怀疑它是由不良饮食引起的。为了检验他的反事实假说——“如果人们有充足的营养,他们就不会得糙皮病”——他进行了一系列精彩的准实验。在一个该病高发的孤儿院,他只是改变了菜单,增加了牛奶、鸡蛋和肉类。结果令人震惊。糙皮病病例几乎降至零。而在附近一个饮食未变的机构中,该病继续肆虐。这第二个机构充当了对照组,是干预措施未发生的世界的活生生的体现。通过比较两者,Goldberger使反事实变得可见,证明了饮食不仅与糙皮病相关;它就是原因,而充足的营养就是治愈方法。
这些故事不仅仅是历史轶事。它们阐明了现代流行病学所依据的严谨基础。当今天的科学家宣布某种细菌导致溃疡,或者一种新药拯救生命时,他们正在做出一个深刻的反事实声明。他们断言,在一个没有该细菌或未给予该药物的平行世界里,结果会有所不同。为了充满信心地做出这样的声明,他们必须穿越一个充满混杂变量和偏倚的雷区。这催生了一种强大的形式化语言——潜在结果框架——它规定了研究的规则。为了估计干预措施的平均因果效应,例如,必须满足关键假设,如一致性(干预措施被明确定义)、正性(任何人都有可能接受或不接受干预),以及最关键的可交换性(处理组和未处理组在开始时是可比较的)。随机对照试验之所以是黄金标准,正是因为它通过随机分配干预,创造了两个在平均意义上可交换的组,从而在我们可以看到的世界和我们希望了解的反事实世界之间架起了一座桥梁。
如果说医学用反事实来理解现实世界,那么工程和技术则用它们来设计我们想要的世界。工程师的工作室里充满了字面意义上的“如果……会怎样”的机器,从计算机辅助设计软件到复杂的模拟器,它们都充当我们创造物的水晶球。
考虑维护一件复杂机械的挑战,比如喷气发动机或发电厂的涡轮机。我们希望维护的时机既不要太早(浪费资源),也不要太晚(造成灾难)。理想的情况是在故障发生前采取行动。为实现这一点,工程师们构建了一个“数字孪生”——一个物理资产的高保真计算机模型,由实时传感器数据驱动。这个孪生体是一个反事实模拟器。工程师可以问:“如果我们改用一种新的、更积极的维护策略,这台发动机的预期剩余使用寿命是多少?”数字孪生可以在这个假设性策略下运行数千次模拟的未来,从而给出反事实结果的估计,而无需冒险使用一台真实的发动机。这就是离策略评估(off-policy evaluation)的领域,一个前沿领域,工程师利用过去策略产生的数据来预测新策略的效果,通常采用复杂的“双重稳健”估计器(doubly robust estimators),这种估计器提供了一层安全网:如果要么世界模型(数字孪生)是正确的,要么过去行为的模型是正确的,它都能给出正确答案。
这种模拟反事实的能力也正在革新我们创造科学工具本身的方式。在影像组学领域,科学家从医学图像(如CT扫描)中提取微妙的特征,希望找到能预测疾病进展的生物标志物。一个主要问题是,这些特征可能对扫描仪的具体设置敏感——切片厚度、辐射剂量、重建算法。一个特征在一家医院的扫描仪上看起来很有前景,但在另一家医院的扫描仪上可能毫无用处。这个特征是肿瘤生物学的真实反映,还是仅仅是机器的人为产物?
为了回答这个问题,研究人员可以使用基于物理的模拟器。他们拿一个真实病人的扫描数据,在保持底层生物学不变的情况下,问模拟器:“如果我们使用B医院的扫描仪设置,这张图像及其特征会是什么样子?”通过生成一系列这样的反事实图像,他们可以直接测试一个特征的稳定性。一个稳健的生物标志物是那种无论扫描仪设置如何,都基本保持不变的标志物。这使得科学家能够将真实的生物信号与仪器噪声分离开来,这是构建可靠诊断工具的关键一步[@problem-id:4544655]。
这些思想的终极融合正在发生,它位于人工智能、数据和临床实践的交叉点上。想象一下,一家医院想要部署一个人工智能系统,帮助医生决定哪些心脏病发作后的患者应该接受β-受体阻滞剂治疗。原始数据是混乱的;病情较重的患者可能不太可能接受该药物,从而产生一种“适应症混杂”(confounding by indication),这使得药物在简单分析中看起来有害。要构建一个负责任的人工人工智能,我们必须首先建立一个系统的因果模型——通常是一个有向无环图(DAG)——来描绘患者风险因素、治疗和结果之间的关系。
利用这个模型,我们可以提出正确的反事实问题:“在调整了所有治疗前的混杂因素后,与无人接受β-受体阻滞剂相比,如果每个人都接受β-受体阻滞剂,死亡率的平均降低量估计是多少?”在计算出这个因果效应后,如果效益显著,我们就可以设计一个临床决策支持(CDS)工具。但工作还未完成。我们还必须应用CDS的“五项正确原则”:在正确的时间(做决策时),通过正确的渠道(电子健康记录),以正确的格式(一个可操作的警报),将正确的信息(估计的效益和禁忌症)传递给正确的人(处方医生)。这就是完整的旅程:从混乱的数据到因果模型,再到反事实估计,最后到一个拯救生命、以人为本的人工智能策略。
反事实的逻辑远远超出了医学和工程领域。它构成了我们如何思考正义、责任乃至历史本身的基石。
在法庭上,当确定被告的疏忽是否导致了伤害时,陪审团通常被要求应用“若无”检验("but-for" test)。这不过是用通俗英语表述的反事实问题:“若无被告的行为,伤害是否会发生?”考虑一个困难的医疗事故案件。一名外科医生使用了一种过时的、违反国家护理标准的手术程序——这 jelas 是一种失职。不幸的是,病人死亡了。然而,死亡原因被发现是一种罕见的并发症,即使使用了正确、现代的手术程序也无法避免。法院会判决外科医生对死亡负责吗?反事实分析给出了答案。虽然外科医生对违规负有责任,但他们并非损害的原因。因为若无此违规行为,病人无论如何都会死亡。因果链在此断裂。这种将不法行为与其后果清晰分离的方法,是结构化反事实推理的胜利,几个世纪以来一直是我们法律体系的基石。
今天,同样古老的逻辑正被用来应对21世纪最紧迫的挑战之一:确保人工智能的公平性。当我们构建能够决定贷款、招聘甚至医疗分诊的人工智能系统时,我们如何防止它们延续历史偏见?关于公平性最有力的定义之一是明确地反事实的:如果一个人的受保护属性(如种族或性别)发生改变,但所有其他相关的、允许的因素都保持不变时,算法的决策不会改变,那么这个算法就是公平的。设计满足此条件的系统,并测试它们是否做到了这一点,需要对因果路径有深刻的理解。我们正在进入一个新时代,能够进行这种形式化的反事实推理,对于那些在高风险领域构建和部署人工智能的人来说,已不再是学术练习,而是一项必需的专业能力。
最后,我们可以将反事实的镜头转向历史本身。对过去追问“如果……会怎样?”的冲动是无法抗拒的。但这也充满了危险。我们很容易陷入“厚今薄古主义”(presentism)的陷阱——用现在的标准评判过去——或者“目的论”(teleology),即相信我们的现在是历史的必然终点的谬误。一个写道“即使X没有发生,现代社会无论如何都会出现”的历史学家,并不是在进行严肃的分析。他只是在讲述一个结局早已注定的故事。
严谨的历史分析使用反事实,不是为了想象幻想世界,而是为了以手术般的精确度检验因果主张。一个好的历史反事实是一种“最小化重写”(minimal rewrite)。它问的是:“考虑到1854年行动者们的实际知识、约束和可用选择,如果John Snow能提前两天说服当局,那么随后可能发生的结果范围是什么?”这种方法尊重历史的偶然性和路径依赖性。它是一种探索在特定时刻真正开放的可能性分支的工具,帮助我们理解事件为何如此发展。这是一种源于谦逊的方法,承认我们所居住的世界只是众多可能世界中的一个。
从医生的直觉,到工程师的模拟,再到律师的辩护,以及历史学家的探究,逻辑都是相同的。反事实推理是对想象力的 disciplined 运用。它告诉我们如何从我们能看到的这一个世界中学习,以理解那无限个可能的世界,以及我们明天如何可能选择一个更好的世界。