try ai
科普
编辑
分享
反馈
  • 结构因果模型:探寻“为什么”的艺术与科学

结构因果模型:探寻“为什么”的艺术与科学

SciencePedia玻尔百科
核心要点
  • 结构因果模型 (SCM) 提供了一个系统底层机制的形式化蓝图,使我们能够区分因果关系与相关关系。
  • do算子允许进行“模型手术”,通过模拟干预来计算一个行动的真实因果效应,这与被动观察不同。
  • SCM 支持反事实推理,这使得通过改变模型中过去的事件,来回答关于特定个体的“如果……会怎样”的问题成为可能。
  • SCM 框架具有广泛的应用,为人工智能公平性、医疗诊断和气候科学等领域的因果问题提供了统一的语言。

引言

我们不断寻求理解的,不仅是世界上发生了什么,更是为什么会发生。从诊断疾病的医生到预防故障的工程师,将真实原因与纯粹的统计关联区分开来的能力至关重要。然而,“相关不蕴含因果”这句古老的格言凸显了传统数据分析中的一个根本性差距,这种分析常常给我们留下一些关联,而当我们依据这些关联采取行动时,它们可能会产生误导,甚至带来危险。本文介绍结构因果模型 (SCM) 作为一个强大的框架,旨在弥合这一鸿沟,为稳健的因果推理提供形式化语言和数学引擎。在接下来的章节中,您将发现使 SCM 能够超越相关性的核心原则,以及展示其变革性影响的多样化应用。我们将首先深入探讨 SCM 的基本原则和机制,探索它们如何构建现实模型以进行虚拟实验。随后,我们将巡览其激动人心的应用领域,从确保人工智能公平性、个性化医疗到理解气候变化,揭示一个统一的因果理论如何正在重塑现代科学和技术。

原则与机制

超越相关性:构建能够提问“如果……会怎样?”的机器

我们天生都是因果推理者。我们推一个杯子,它会掉落。我们按一下开关,灯会亮。然而,在科学和医学领域,从观察到因果的飞跃是充满风险的。想象你是一位医生。你注意到体内某种生物标志物 XXX 水平较高的患者,其健康结果 YYY 通常较差。这种统计相关性是明确的。下一步是否应该开发一种降低 XXX 的药物?

这就是“相关不蕴含因果”的经典陷阱。也许存在一个隐藏的生物状态 UUU——比如说,一个基因变体——它既独立地提高了生物标志物 XXX 的水平,又导致了较差的结果 YYY。在这种情况下,生物标志物 XXX 只是一个信使,而非原因。一种攻击信使的药物将是悲剧性的无用功。一项观察性研究可能会发现强烈的相关性,但它本身无法区分信使与原因。

让我们想象一下这个情况的一个简单模型。假设隐藏状态 UUU 根据某些潜在的生物学法则影响 XXX 和 YYY,我们可以写成简单的方程式:X=U+ϵXX = U + \epsilon_{X}X=U+ϵX​ 和 Y=0.2X+0.5U+ϵYY = 0.2 X + 0.5 U + \epsilon_{Y}Y=0.2X+0.5U+ϵY​,其中 ϵ\epsilonϵ 项代表微小的、随机的生物噪声。如果我们分析来自该系统的数据,我们可能会发现 XXX 和 YYY 之间的统计相关性约为 0.510.510.51。这看起来像是一个中等强度的关系,诱使我们去干预 XXX。但 XXX 对 YYY 的真实、直接的因果效应由方程中的系数给出:仅为 0.20.20.2。大部分观察到的关联都是虚假的,是由共同原因 UUU 的“后门”影响所产生的。

为了摆脱这个陷阱,我们需要一种新的科学工具——一种超越拟合数据,转而理解数据生成过程本身的工具。我们需要构建能够代表世界真实机制的模型。这就是​​结构因果模型 (SCM)​​ 的宏伟目标。SCM 不仅仅是数据的统计摘要;它是现实机制的蓝图,是世界如何创造我们所观察到的现象的配方。它为我们提供了一种形式化语言来陈述我们关于事物如何运作的假设,然后提供一个数学引擎来提出深刻的“如果……会怎样?”的问题。

因果模型的剖析

那么,这些现实的蓝图之一究竟是什么样子的呢?一个结构因果模型由三个关键要素优雅地构成。

  • ​​内生变量​​:这些是我们模型中的齿轮和传动装置——我们想要解释和预测其行为的变量。在我们的医学例子中,生物标志物 XXX 和结果 YYY 是内生变量。在机器人手臂的物理模型中,其位置、速度和加速度将是由运动定律支配的内生变量。

  • ​​外生变量​​:这些是“机器中的幽灵”。它们代表所有外在于我们模型但仍对其产生影响的力量、因素和波动。它们是随机性、个体性和不确定性的最终来源。可以把它们想象成未测量的遗传倾向、随机的环境冲击或微小的传感器误差。对于任何特定的个体或单次实验运行,我们可以想象所有外生变量的值被固定在一个单一的向量 uuu 中。这个向量 uuu 就像一个指纹;它使得该个体独一无二,并与所有其他个体区别开来。它捕捉了关于那个人的所有信息——他们的个人历史、独特的生理状况、特定的背景——而这些是我们的内生变量所没有捕捉到的。

  • ​​结构方程​​:这些是我们微型宇宙的基本法则。每个内生变量都有自己的方程,这是一个确定性规则,说明其值是如何根据其直接原因(其“父节点”)和其自身独特的外生噪声计算出来的。例如,在一个简单的经济模型中,你当前的“幸福感”(happiness)可能是你的“收入”(income)、“健康”(health)以及一些个人的、无法解释的生活热情(UhappinessU_{\text{happiness}}Uhappiness​)的函数。这将是一个类似于 happiness:=f(income,health,Uhappiness)\text{happiness} := f(\text{income}, \text{health}, U_{\text{happiness}})happiness:=f(income,health,Uhappiness​) 的方程。这些方程不是拟合数据的统计回归公式;它们是关于现实如何构建的大膽断言。它们被假定为稳定、独立的机制,可以一次只改变一个。

当我们画出由结构方程定义的关系——从每个原因到其直接结果画一个箭头——我们就创建了一个​​有向无环图 (DAG)​​。这个图不仅仅是一张漂亮的图片;它是对我们因果假设的清晰、透明的声明。如果有一个从 ZZZ到 XXX 的箭头,我们就断言 ZZZ 是 XXX 的一个直接原因。如果没有箭头,我们则做出同样强烈的断言,即它不是一个直接原因。这个图形化的蓝图使我们所有的假设都变得可见、可辩论和可检验。

干预的魔力:do算子

随着我们的因果机器构建完成,我们现在可以做一些非凡的事情:我们可以在模型内部进行实验,而不是在实验室里。这是区分因果与相关的关键步骤。关键在于理解被动地看见和主动地行动之间的深刻区别。

让我们想象一个简单的信息物理系统,比如一个温控加热器。控制器根据室内环境温度 TTT 来设定执行器的输入 UUU,或许遵循简单的规则 U=TU=TU=T。设备最终的温度 YYY 由执行器和环境空气共同加热,遵循物理定律 Y=U+TY = U+TY=U+T。在这个小世界里,我们可以看到 Y=T+T=2TY = T+T = 2TY=T+T=2T。如果我们被动地观察到执行器被设置为 U=10U=10U=10,我们可以推断出环境温度也必定是 T=10T=10T=10。因此,我们对设备温度的最佳猜测是 Y=2×10=20Y=2 \times 10 = 20Y=2×10=20。这就是条件化:E[Y∣U=10]=20E[Y \mid U=10] = 20E[Y∣U=10]=20。

但如果我们干预呢?如果我们走到机器前,手动将旋钮调到 101010,覆盖了它与室内温度传感器的自动连接,会怎么样?这是一个完全不同的行动。我们正在执行一次干预,我们正式地写为 do(U=10)do(U=10)do(U=10)。

在 SCM 框架中,干预是一种“模型手术”。我们拿到原始的结构方程组,并进行一次精确的、局部的修改。我们将我们正在干预的变量的方程——在这个例子中是 U=TU=TU=T——替换为一个新的方程,U:=10U := 10U:=10。至关重要的是,所有其他方程,代表世界上其他机制的方程,保持不变。设备的物理原理 Y=U+TY=U+TY=U+T 不会因为我们摆弄控制器而受到影响。在图形上,这就像拿一把剪刀剪断从 TTT 到 UUU 的因果箭头。

现在,在这个新的、被操纵的世界里,预期的温度是多少?系统由 U=10U=10U=10 和 Y=10+TY=10+TY=10+T 描述。预期的温度是 E[Y∣do(U=10)]=E[10+T]=10+E[T]E[Y \mid do(U=10)] = E[10+T] = 10 + E[T]E[Y∣do(U=10)]=E[10+T]=10+E[T]。如果平均环境温度是,比如说,000,那么预期的系统温度就只是 101010。

注意这个鲜明的差异!看见 U=10U=10U=10 使我们预测 Y=20Y=20Y=20。行动 U=10U=10U=10 使我们预测 Y=10Y=10Y=10。看见与行动之间的差异就是因果效应。do算子给了我们行动的纯粹、无混杂的影响。这使我们能够通过比较两种不同干预下的预期结果,来精确定义和计算​​平均因果效应 (ACE)​​,例如,E[Y∣do(X=x+1)]−E[Y∣do(X=x)]E[Y \mid do(X = x + 1)] - E[Y \mid do(X = x)]E[Y∣do(X=x+1)]−E[Y∣do(X=x)]。这个计算分离出了仅仅由于我们强加给 XXX 的改变而导致的 YYY 的变化。

从群体平均到个体故事:反事实的逻辑

干预告诉我们,如果我们对整个群体进行处理,平均会发生什么。但我们常常想问一个更个人化、更深刻的问题。一位病人在服用新药后康复了,他问道:“我很高兴我好转了,但即使我没有吃药,我会不会也康复了?” 这不是一个关于平均值的问题;这是一个​​反事实​​问题。它关乎一个特定的个体,在一个从未发生过的世界里。

值得注意的是,SCM 为这类推理提供了一种形式化且优雅的逻辑。还记得外生向量 uuu 吗?那个个体的独特指纹?它掌握着关键。要回答一个反事实问题,我们只需遵循一个三步逻辑舞:

  1. ​​溯因(Abduction):​​ 我们获取我们所知道的关于这个个体的事实——他们的基线特征、他们实际接受的治疗以及他们实际经历的结果。然后,我们利用我们的 SCM 像侦探一样,反向工作,以求解他们独特的外生指纹 uuu。我们问:“根据我们观察到的关于这个人的所有情况,他们特定的、未被观察到的背景因素必定是什么?”

  2. ​​行动(Action):​​ 我们执行与之前相同的“模型手术”,但在这个个性化的模型上进行。我们采用带有现已知的指纹 uuu 的 SCM,并替换我们想要改变的历史事件的方程。对于那位病人的问题,我们会将他们治疗的方程替换为反事实的方程:X:=0X := 0X:=0(没有用药)。

  3. ​​预测(Prediction):​​ 我们求解这个新的、经过修改的方程组,使用该病人固定的身份 uuu,以找到他们反事实结果的值 YX←0(u)Y_{X \leftarrow 0}(u)YX←0​(u)。结果就是我们的答案:“根据我们从您的历史中推断出的您独特的生理构成,如果您没有服用该药物,您的结果将会是这样。”

这种惊人的能力——在改变个体过去某个单一决定的同时,保持其身份恒定——代表了最深层次的因果推理。它是性化医疗、法律责任和可解释人工智能的数学基础。

混杂、效应修饰以及对因果真相的追求

这个强大的机制使我们能够澄清一些经验科学中最古老、最困难的问题。

正如我们所见,​​混杂(Confounding)​​是由一个共同原因造成的非因果统计关联——在我们的 DAG 中表现为连接两个变量的“后门路径”。do算子通过手术般地切断这条混杂路径来分离出真实的因果效应。在许多现实世界的环境中,我们无法进行理想的实验。然而,如果我们足够聪明,能够测量一组变量 ZZZ 来共同阻断所有这些后门路径,我们就可以使用统计调整来模拟干预。著名的​​后门调整公式​​,P(Y∣do(X=x))=∑zP(Y∣X=x,Z=z)P(z)P(Y \mid do(X=x)) = \sum_z P(Y \mid X=x, Z=z) P(z)P(Y∣do(X=x))=∑z​P(Y∣X=x,Z=z)P(z),可以直接从 SCM 的第一性原理中推导出来。它表明,在特定的、可检验的假设下,我们可以从纯粹的观察数据中撬出因果效应。

然而,​​效应修饰(Effect Modification)​​则是另一回事。它不是一种需要消除的偏误,而是现实中需要理解的一个本质特征。它意味着干预的因果效应对于人群中不同的子群体是真正不同的。一种药物可能对具有某种基因型的人是救命的,但对具有另一种基因型的人则无效或有害。在 SCM 中,这由结构方程内部的交互作用来表示,其中一个变量的效应取决于另一个变量的水平(例如,Y:=β1A+β2Z+β3(A×Z)+…Y := \beta_1 A + \beta_2 Z + \beta_3 (A \times Z) + \dotsY:=β1​A+β2​Z+β3​(A×Z)+…)。统计调整不会消除这种真实的异质性;它揭示了它,通过让我们能够估计每个不同子群体内的效应。科学的目标并非总是找到单一的、普适的因果法则,而是要描绘出这幅丰富的交互作用的图景。

这就引出了 SCM 框架的最终优点:​​认知透明性(epistemic transparency)​​。通过强制我们绘制图形和写下方程,它迫使我们明确和诚实地陈述我们的因果假设。每一个箭头都是一个断言;每一个缺失的箭头都是一个同样强烈的断言。这个透明的蓝图允许严谨的科学辩论和改进。它还帮助我们理清我们的不确定性:哪部分是​​随机的(aleatoric)​​,源于世界内在的随机性(由 UUU 捕获),哪部分是​​认知的(epistemic)​​,源于我们自己对真实模型函数(fif_ifi​)的知识匮乏?。因此,结构因果模型不仅仅是一个计算工具;它是一个促进清晰、诚实和强大科学思维的框架。

应用与跨学科联系

我们花了一些时间探索结构因果模型的齿轮和杠杆——强大的do算子、充满想象力的反事实世界,以及绘制因果图的优雅逻辑。这是必要的基础工作。现在是有趣的部分。这就像学习了国际象棋的规则后,终于得以观摩大师们的精彩对局。我们即将看到,这个用于思考“为什么”的机制远不止是一种学术上的好奇心。它是一个革命性的视角,科学家、工程师、医生,甚至伦理学家正用它来提出——并开始回答——我们这个时代一些最具挑战性的问题。

这个框架之所以如此特别,是因为它提供了一种统一的语言来谈论因果关系,无论主题是什么。适用于你手机中电路的原则,同样可以用来理解你身体里的细胞或我们星球的天气模式。让我们一起游览这些多样化的领域,看看因果视角在实践中的应用。

工程可靠性:超越纯粹的预测

在工程领域,尤其是在维护复杂机械方面,一个共同的目标是进行预测与健康管理(prognostics):预测一个部件何时可能失效。几十年来,这一直是一个关于相关性的游戏。我们观察到当某个传感器读数上升时,机器很可能在不久后发生故障。一个诱人的结论是简单地迫使该传感器读数下降。但这个传感器读数是故障的原因,还是仅仅是更深层次问题的另一个症状?

想象一下发电厂中的一个关键资产,操作员监控其运行负载和内部温度,试图防止故障。他们注意到一个强烈的相关性:更高的负载似乎导致更高的故障率。显而易见但可能错误的建议是:“以较低的负载运行它,让它寿命更长!”

一个拥有 SCM 的因果思考者会停下来问:是否存在一个隐藏的共同原因,一个混杂因子?在这种情况下,是存在的:环境温度 (AAA)。在炎热的日子里,环境已经更暖,这直接加速了导致故障的材料退化。在同样炎热的日子里,操作员可能会谨慎地决定以较低的负载 (LLL) 运行机器以防止过热。一个忽略了因果结构的分析会看到“低负载”与“高故障率”相关(因为两者都是由炎热天气引起的),并可能得出完全错误的结论!

SCM 解决了这个困惑。通过绘制一个图,其中环境温度 (AAA) 是负载 (LLL) 和内部温度 (TTT) 的原因,而内部温度又影响退化 (XXX) 和故障 (YYY),SCM 使得混杂路径 L←A→T→X→YL \leftarrow A \to T \to X \to YL←A→T→X→Y 变得明确。利用后门准则,工程师可以通过调整环境温度的影响,在数学上“关闭”这条虚假的路径。这使他们能够分离出负载对故障的真实因果效应,这个量我们记为 p(y∣do(L=ℓ))p(y \mid do(L=\ell))p(y∣do(L=ℓ))。这是迷信——比如避开从你面前走过的黑猫——与科学——理解故障的真实机制——之间的区别。

医学与人工智能:一把因果手术刀

在医学领域,相关与因果的丛林最为棘手。是新药治愈了病人,还是他们本来就会好转?某个基因是导致了疾病,还是仅仅与最易受感染的人群相关?SCM 提供了一种形式化语言,为这些关乎生死的问题带来了严谨性。

疾病的机制

让我们深入到一个癌性肿瘤的微观世界。肿瘤学中的一个关键挑战是理解癌症的顽固抗性,这通常归因于一小群“癌症干细胞” (CSCs)。是什么让这些细胞茁壮成长?我们可以建立一个结构因果模型来描绘肿瘤微环境内部复杂的生物网络。基于生物学实验,我们可以绘制一个因果图:缺氧(低氧,HHH)驱动基质信号 (SSS) 和细胞因子产生 (CCC)。基质细胞和细胞因子又共同影响最终的癌症干细胞比例 (YYY)。

有了这张因果地图,研究人员可以超越简单的观察。他们可以使用干预来提出精确的“如果……会怎样”的问题。例如:“如果我们能够通过一种假设的完美药物进行干预,并将细胞因子浓度钳制在特定水平 c0c_0c0​,那么预期的癌症干细胞比例会是多少?” SCM 使我们能够计算这个反事实量 E[Y∣do(C=c0)]\mathbb{E}[Y \mid \mathrm{do}(C=c_{0})]E[Y∣do(C=c0​)],提供一个定量的预测。这通过帮助科学家区分针对真实因果驱动因素与针对下游效应,来指导有效疗法的探索。

临床中的人工智能:避免危险的捷径

人工智能有望彻底改变医疗诊断。但是,如果我们的 AI 非常聪明,却不那么智慧,会发生什么?想象一个 AI,它被训练用来从两家不同医院 A 和 B 拍摄的数千张胸部 X 光片中检测肺炎。假设 A 医院作为一个主要的城市创伤中心,其肺炎患病率远高于规模较小的 B 医院。现在,假设出于管理原因,所有来自 A 医院的 X 光片都被 subtly 标记上一个微小的、几乎看不见的数字标记。

这个 AI 为了最大化预测准确性,可能会有一个绝妙的发现:这个标记是肺炎的一个极好的预测指标!它学会了将这个标记与疾病联系起来。在训练数据上,它的表现非常出色。但它学到医学知识了吗?没有。它学到了一个“捷径”。它混淆了相关性与因果性。

SCM 使这个错误变得透明。医院 (HHH) 是标记 (MMM) 和真实肺炎状态 (PPP) 的共同原因。这在因果图上创建了一条“后门路径” M←H→PM \leftarrow H \to PM←H→P,从而引入了一种虚假的统计关联。AI 学到的是观察概率 P(P=1∣M=1)P(P=1 \mid M=1)P(P=1∣M=1),这个值很高。但因果真相,我们可以写成 P(P=1∣do(M=1))P(P=1|\mathrm{do}(M=1))P(P=1∣do(M=1)),是标记对疾病根本没有任何影响。如果这个 AI 被部署到一个使用不同标记系统的新医院,它的性能将会崩溃。SCM 提供了诊断和预防这些潜在危险算法错误的基本工具。

对公平的追求:正义的因果定义

AI 捷径的问题将我们引向 SCM 最深刻、最紧迫的应用之一:公平性的形式化。当一个算法对贷款、工作申请或监禁刑期做出决定时,它对于像种族或性别这样的受保护属性来说是“公平的”,这意味着什么?

简单的统计度量,比如检查不同群体是否具有相同的平均结果(人口统计均等),通常是不够的。它们告诉我们发生了什么,但没有告诉我们为什么。然而,SCM 允许我们提出一个更深刻的、个体层面的问题,从而引出了​​反事实公平性​​(Counterfactual Fairness)的概念。问题是这样的:“对于某个特定个体,如果他们受保护的属性不同,而他们身上所有并非由该属性导致的其他方面都保持不变,那么算法的预测会不同吗?”

这是一个反事实问题。在 SCM 框架中,一个个体由外生变量集合 U=uU=uU=u 捕获,这些变量代表了使他们独一无二的所有背景因素和特质细节。如果对于任何个体 uuu,无论我们将其受保护属性 AAA 设置为何值,预测 Y^\hat{Y}Y^ 都相同,那么反事实公平性就得到了满足。形式上,我们问:预测 Y^A←a(u)\hat{Y}_{A \leftarrow a}(u)Y^A←a​(u) 是否等于 Y^A←a′(u)\hat{Y}_{A \leftarrow a'}(u)Y^A←a′​(u)?如果这对每个人都成立,那么该算法就是反事实公平的。它保证了对于任何给定的人,属性 AAA 本身对预测没有因果影响。

我们甚至可以增加 nuanced 的处理。SCM 允许我们对算法的决策过程进行一种“因果手术”。考虑一个预测健康风险的 AI。像种族 (AAA) 这样的受保护属性可能会通过许多不同的路径影响风险评分 (Y^\hat{Y}Y^)。一条像 A→社会经济地位→医疗保健可及性→Y^A \to \text{社会经济地位} \to \text{医疗保健可及性} \to \hat{Y}A→社会经济地位→医疗保健可及性→Y^ 这样的路径可能代表了系统性的社会偏见。另一条路径,A→遗传因素→疾病→Y^A \to \text{遗传因素} \to \text{疾病} \to \hat{Y}A→遗传因素→疾病→Y^,可能代表了生物学现实。社会可以使用 SCM 框架来明确定义哪些因果路径是“不公平的”,哪些是“公平的”。利用​​路径特定效应​​的数学方法,我们然后可以设计出能够中和不公平路径影响的算法,创造一个不是对现实视而不见,而是对偏见视而不见的系统。

从纳米世界到整个地球:一个通用工具

SCM 框架最引人注目的特征之一是其惊人的尺度不变性。同样的逻辑既适用于看不见的微小事物,也适用于难以想象的巨大事物。

窥探纳米世界

让我们放大到原子尺度,一个原子力显微镜探针滑过一个表面。是什么决定了它所经历的摩擦力?我们可以建立一个 SCM 来模拟其物理过程。探针的化学性质 (CCC) 和环境湿度 (HHH) 在因果上影响粘附功 (WWW)。粘附功又影响真实接触面积 (AAA),而接触面积是摩擦力 (FFF) 的主要决定因素。

现在,假设一个实验测量到特定的摩擦力 FobsF_{\text{obs}}Fobs​。SCM 允许我们提出一个强大的反事实问题:“对于这个确切的物理情境,如果探针的化学性质不同(例如,疏水性而不是亲水性),摩擦力会是多少?” 这是我们无法用标准统计学回答的问题。但是有了 SCM,我们可以执行三步的溯因-行动-预测之舞。首先(溯因),我们使用我们的观察值 FobsF_{\text{obs}}Fobs​ 来推断所有导致该特定事件的未观察到的随机因素 εF\varepsilon_FεF​ 的值。其次(行动),我们对模型进行干预,将 CCC 设置为其反事实值。第三(预测),我们计算在这个反事实条件下新的摩擦力,同时保持 εF\varepsilon_FεF​ 不变。这就像在计算机内部进行了一次完美的、不可能的实验。

归因极端天气

现在,让我们把视野扩大到整个地球的尺度。我们遭遇了一场破纪录的热浪。每个人心中的一个问题是:“这是气候变化造成的吗?” 回答这个“事件归因”问题是一个经典的因果挑战。SCM 为这个问题带来了非凡的清晰度。

气候科学家可以构建一个因果模型,其中外部辐射强迫 (FFF,主要来自温室气体) 是一个根本原因。这种强迫影响大尺度大气环流模式 (CCC) 和局部热力学 (TTT),它们共同决定了极端事件 (EEE) 发生的概率。

SCM 框架允许我们将我们当前的世界与一个反事实的世界进行比较。我们可以模拟在当今条件下,包含所有人类活动造成的强迫时热浪发生的概率,我们称之为 do(F=fall)do(F=f_{\text{all}})do(F=fall​)。然后我们可以运行第二个模拟,模拟一个可能存在的假设世界,一个只有自然来源强迫的世界,do(F=fnat)do(F=f_{\text{nat}})do(F=fnat​)。通过计算风险比 P(E=1∣do(F=fall))/P(E=1∣do(F=fnat))\mathbb{P}(E=1 \mid \mathrm{do}(F=f_{\mathrm{all}})) / \mathbb{P}(E=1 \mid \mathrm{do}(F=f_{\text{nat}}))P(E=1∣do(F=fall​))/P(E=1∣do(F=fnat​)),科学家可以就人类活动在多大程度上增加了这类灾难发生的几率,做出精确、定量的陈述。

前沿:设计智能与量化伦理

SCM 的触角正不断延伸到一些最复杂和传统上被认为是“软科学”的人类探究领域。

设计更好的AI

如何设计一个更好的神经网络?这通常被视为一门玄学,一个依赖直觉和昂贵的试错过程。SCM 可以为这门艺术带来一些科学性。我们可以创建一个因果模型,将架构选择——比如网络的深度 (ddd) 和宽度 (www)——与其最终性能,如验证准确率 (AAA) 联系起来。这个模型允许设计者提出明确的因果问题:“如果我将深度从4层加倍到8层,同时保持宽度不变,对准确率的预测影响是什么?” 这正是一个干预对比,Δ=Ado(d=8)−Ado(d=4)\Delta = A_{\mathrm{do}(d=8)} - A_{\mathrm{do}(d=4)}Δ=Ado(d=8)​−Ado(d=4)​。通过对性能的因果结构进行建模,神经架构搜索可以从随机游走转变为一个有原则的、由因果驱动的设计过程。

伦理学的因果视角

我们能用这种数学机制来推理人类伦理吗?让我们思考一下双重效应原则 (DDE),这是道德哲学中的一个原则,帮助医生处理痛苦的临终决策。一个经典的例子是给一个身处剧痛中的晚期病人使用阿片类药物。预期的效果是好的:缓解疼痛。但一个可预见但非预期的副作用是坏的:呼吸抑制,这可能会加速死亡。DDE 提供了在这种情况下该行为是可允许的条件。

这似乎是不可思议的主观和定性。然而,我们可以建立一个 SCM 来赋予它形式化的结构。我们可以定义阿片类药物剂量 (OOO)、疼痛 (PPP)、呼吸功能 (RRR) 和存活 (SSS) 等变量。SCM 的天才之处在于,我们可以将 DDE 的条件转化为因果图上精确的、可检验的数学谓词。例如,关键的“手段-目的”条件——即好的效果(缓解疼痛)不能是通过坏的效果(呼吸抑制)来实现的——转化为一个特定的结构要求:模型中从 RRR到 PPP 的因果路径强度必须为零(γRP=0\gamma_{RP} = 0γRP​=0)。这并不能取代人类的判断,但它提供了一个惊人清晰和严谨的框架来剖析伦理论证的结构。

从原子的舞蹈到气候的机制,从微芯片的逻辑到人类选择的伦理,结构因果模型的语言是一份礼物。它给了我们一种方法来为我们的世界绘制地图,质疑我们的假设,并区分什么是仅仅相关的,什么是真正因果的。它不仅是科学家的工具,也是任何希望更清晰地思考塑造我们宇宙和生活的错综复杂的因果之网的人的工具。