
从数据中推断因果关系是科学探究的基石。我们观察复杂系统中的相关性——从基因调控网络到金融市场——并试图揭示其运作的隐藏蓝图。然而,从统计关联走向因果理解充满了挑战。“相关性不意味着因果关系”这句简单的格言仅仅暗示了一个更深刻、更结构化的问题:有时,根本不同的因果故事可以在观测数据中产生完全相同的统计足迹。这种现象被称为马尔可夫等价性,是现代因果推断中的一个核心概念。
本文将阐释马尔可夫等价性原理及其对科学的深远影响。我们将探讨为什么仅仅观察一个系统,往往会留给我们一系列同样合理但相互矛盾的因果解释。在两个主要章节中,您将学习支配这种模糊性的规则以及我们克服它的工具。第一章 “原理与机制” 介绍了因果图的语言,展示了不同结构如何变得不可区分,并揭示了提供确定性因果线索的特殊“v-结构”模式。第二章 “应用与跨学科联系” 将这些思想置于从生物学到医学的真实场景中,强调了这种模糊性的高风险后果,并展示了科学家如何利用主动实验来区分相关性与因果关系。通过理解马尔可夫等价性,我们可以把握从观察中学习的局限性,并体会干预在我们探寻真理过程中的不可或缺的作用。
想象一下,你是一名侦探,站在一台极其复杂的机器前——一个活细胞、一个金融市场、一个生态系统。你唯一的线索是一本巨大的观测记录,记录了机器所有组件随时间一起运动和变化的方式。你的目标不仅仅是预测接下来会发生什么,而是要理解机器的内部工作原理。你想要它的蓝图,即显示哪个杠杆拉动哪个齿轮的因果图。在科学语言中,我们通常将这个蓝图表示为有向无环图 (DAG),这是一张节点为变量(如基因或股价)、箭头表示直接因果影响的地图。
但是,我们如何从一堆观测数据走向这张因果蓝图呢?数据说的是一种非常特殊的语言:依赖和独立的语言。
因果图不仅仅是一个简单的图表;它是信息如何在系统中流动的紧凑而优雅的表示。其箭头的排列决定了哪些变量相关,哪些不相关,以及在何种情况下相关。它提供的最基本规则是条件独立性。
让我们用一个简单的类比。考虑遗传的因果链:祖辈的基因 () 影响父辈的基因 (),而父辈的基因又影响子代的基因 ()。这个图是一个简单的链式结构:。如果你有父辈的 DNA 样本,你可以了解到关于祖辈和子代基因的一些信息。但这里的关键洞见是:如果你已经知道了父辈的基因 (),那么获取祖辈 () 的 DNA 样本并不会告诉你任何关于子代基因 () 的新信息。所有来自祖辈并影响子代的遗传信息都已经通过父辈传递了。我们说,在给定父辈基因的条件下,子代的基因与祖辈的基因是条件独立的。用数学简写,我们表示为 。
这就是因果结构在数据中留下的“指纹”。因果发现的目标就像一名侦探:我们收集数据中能找到的所有条件独立“指纹”,然后尝试重建唯一可能产生这些指纹的图。
在这里,我们遇到了一个深刻而美妙的挑战,这是我们仅从观察中学习所能达到的一个根本极限。有时,不同的因果故事——不同的图——可以在数据中留下完全相同的指纹。这就是马尔可夫等价性原理。
让我们从最简单的模糊性案例开始,这个案例引出了“相关性不意味着因果关系”这句经典格言。假设我们观察到携带打火机的人更容易患上肺癌。数据显示出明确的相关性。但因果故事是什么呢?
如果我们只观察打火机和癌症,我们看到了相关性,但我们无法确定箭头的方向,甚至无法确定它是否存在。现在,考虑一个更简单的双变量案例,其中直接的因果联系是合理的。我们观察到变量 和 是相关的。真实的因果模型是 还是 ?仅凭观测数据,我们无法判断。两个图具有相同的骨架 (),没有更复杂的特征。它们是马尔可夫等价的。任何仅基于这些观测数据的分析方法,从简单的回归到具有“可解释性”特征(如 SHAP 值)的复杂机器学习模型,都将无法确定方向。
当变量更多时,这种模糊性变得更加微妙。想象一位生物学家正在研究一个包含三个组分的基因调控模块:一个基因 、一种蛋白质 和一种疾病 。她从一个大型观测数据集中发现,基因 和疾病 是相关的,但如果她考虑了蛋白质 的水平,这种相关性就完全消失了。数据的指纹很清晰:。但因果故事是什么呢?
这三种截然不同的因果现实都在观测数据中产生了完全相同的指纹。它们构成了一个马尔可夫等价类。不干预系统,我们就束手无策。我们无法区分中介变量和共同原因。
是不是所有的希望都破灭了?我们永远无法从观察中学习到关于因果箭头的任何确定性信息吗?幸运的是,并非如此。存在一种特殊的模式——一种独特、明确的指纹——它允许我们有信心地确定某些箭头的方向。这种模式被称为v-结构,或对撞结构。
让我们用一个直觉泵来思考。想象两种在普通人群中完全独立的技能:艺术天赋 () 和量化技能 ()。知道某人是位伟大的艺术家,并不能告诉你任何关于他们数学能力的信息。现在,考虑被一所著名建筑学院 () 录取的学生。要被录取,学生需要在艺术或数学方面很强,或者两者有足够的结合。这所学校对这两条因果路径起到了“对撞”作用:。
现在,假设你遇到了这所学校的一名学生。你了解到她的艺术天赋很差。你能推断出她的数学技能如何吗?你可以推断她可能是一位数学天才,因为她必须用数学能力来弥补艺术天赋的不足才能进入这所学校。通过知道共同结果 () 和一个原因 () 的状态,你突然了解了另一个原因 () 的情况。当我们以它们的共同效应为条件时,两个独立的原因变得相互依赖。
这种模式——两个变量无条件独立,但在以第三个变量为条件时变得依赖——是 v-结构的独特指纹。当我们在数据中发现这一点时,比如 但 ,我们就可以确定箭头必须指向 :。这样的箭头被称为强制边,因为数据强制了它的方向。
因此,一个因果发现算法从观测数据中实际能产生的是一个诚实的总结,说明了什么是已知的,什么仍然是模糊的,而不是一个单一、完美的 DAG。这个总结本身也是一个图,称为完全部分有向无环图 (CPDAG)。
CPDAG 是整个马尔可夫等价类的图形表示。在理想条件下,这是我们仅从观察中能学到的最多的东西。
这种模糊性不仅仅是学术上的好奇心;它关系到生死存亡。让我们回到那位生物学家和她的三变量问题 ( vs. )。这两个模型在观测上是等价的,但在因果上却天差地别。
这就是为什么干预的概念(由 -算子形式化)如此关键。一次干预,比如施用一种药物,相当于获取因果图并物理上切断所有指向我们正在操纵的变量的传入箭头,强制设定它的值。这个行为打破了观测等价性。在我们的例子中,一个 do(X) 的实验将区分链式结构和分叉结构,揭示出真实的因果管道。
当我们构建算法来执行因果发现时,我们需要一种方法来衡量它们的表现。考虑到马尔可夫等价性的现实,简单地将学习到的图与“真实”图逐个箭头进行比较可能会产生误导。一个聪明的度量标准不应该因为一种无法从数据中解决的模糊性而惩罚算法。
结构汉明距离 (SHD) 就是一个常见的度量标准,它通过将学习到的 CPDAG 与真实的 CPDAG 进行比较来做到这一点。这是一个简单直观的错误计数:
同样,当使用基于分数的学习方法时(我们试图找到最“拟合”数据的图),我们希望我们的评分度量是分数等价的。这意味着该度量应该为马尔可夫等价类中的所有图分配完全相同的分数,承认观测数据没有提供偏好其中任何一个的依据。流行的 BDeu 分数就是为此特性而设计的。
因此,马尔可夫等价性原理是现代因果推断的基石。它定义了已知与未知之间的界限,迫使我们诚实面对观测数据的局限性,并突出了实验在我们探索理解周围世界复杂机制的过程中不可替代的价值。
想象一位侦探抵达犯罪现场。线索散落各处:一个脚印、一个被打翻的花瓶、一个停在午夜的时钟。侦探的工作是重建产生这些线索的事件序列——即因果故事。但这是一件棘手的事情。是闯入者打翻了花瓶,还是受惊的房主在逃跑时掉落了它?不同的故事有时会产生相同的线索集合。
这就是科学的根本挑战。我们观察世界,以数据的形式收集线索——相关性、统计关联、模式。从这些观测线索中,我们希望推断出现实的隐藏线路,即支配从基因调控到行星轨道的一切事物的因果机制。但就像那位侦探一样,我们面临一个深刻的问题:线索可能是模糊的。两个事件同时发生,它们相关联这一简单事实,并不能告诉我们一个是否导致了另一个。这就是古老的格言“相关性不意味着因果关系”,但现实比这更深刻、更结构化。事实证明,根本不同的因果故事可以在我们的观测数据中留下完全相同的统计足迹。这就是马尔可夫等价性问题,理解它,是迈向真正因果科学的第一步。
让我们把这个问题具体化。考虑在一群动物中测量的三个性状:近端骨的长度 ()、远端骨的长度 (),以及整体运动性能 ()。假设我们收集数据并发现这三者都相关,且具有特定的协方差模式。两个非常合理的生物学故事可以解释这种模式。
故事1(链式结构):近端骨的发育因果性地影响远端骨的发育,而远端骨的发育又决定了运动性能。这是一个简单的因果链:。
故事2(分叉结构):一个中央发育模块,由远端骨的生长 () 代表,独立地影响近端骨 () 和运动性能 ()。这是一个共同原因结构,或称为分叉结构:。
仅从观测数据来看,这两个故事互为幻影。它们产生完全相同的相关矩阵。数据对于 是链中的简单信使,还是分叉中的共同来源,都同样满意。这不是侥幸或我们测量工具的失败;这是一个根本性的限制。所有在统计上与观测数据不可区分的因果故事集合被称为马尔可夫等价类。
这不仅仅是一个玩具问题。当系统生物学家试图从海量的基因表达数据中逆向工程基因调控网络 (GRN) 时,他们正面面临这个问题。他们看到成千上万个基因的活动水平协同地上升和下降。是基因 A 调控基因 B,还是两者都受一个隐藏的主控基因 C 调控?不同的计算方法,无论是基于分数的还是基于约束的,都必须努力应对这样一个事实:它们的输出,充其量只能是这个等价类的一个代表,通常是一个图中某些箭头有确定方向,而其他箭头则令人沮丧地保持无向。
那么,所有的希望都破灭了吗?我们注定要永远凝视着一系列同样合理但相互矛盾的故事吗?不完全是。大自然以其微妙的方式,留下了一些独特的线索——一种统计上的“确凿证据”,让我们能够找到方向。这个线索是一种被称为对撞结构(collider)或v-结构的结构。
想象两个独立的原因,比如说,一个促生存基因高度表达 () 和一个赋予抗性的突变存在 ()。在癌细胞的一般群体中,这两个事件可能完全不相关。现在,假设这两者都可以独立地帮助一个细胞在药物治疗中存活下来 ()。因果结构是 。 是一个对撞结构,因为两个因果箭头在它那里相撞。
神奇之处就在于此。假设我们只研究存活下来的细胞;换句话说,我们通过以 为条件来选择我们的数据。在这个存活的群体中,出现了一种奇怪的新统计关系。如果我们发现一个存活的细胞,我们知道它缺乏抗性突变 (),我们可以推断它更可能表达了促生存基因 ()。毕竟,它必须以某种方式存活下来!这种现象被称为“解释消除”。通过以共同效应为条件,我们在两个先前独立的原因之间诱导了一种负相关关系。
这种诱导出的关联是一个独特的标志。如果我们发现两个变量是独立的,但在以第三个变量为条件时变得依赖,我们可以相当确定第三个变量是一个对撞结构。这使我们能够有信心地确定箭头的方向:。我们仅从观察中就学到了真实因果故事的一部分!像 Peter-Clark (PC) 算法这样的基于约束的算法正是建立在这个原理之上的。它们系统地测试数据中的条件独立性,首先构建图的无向骨架,然后寻找这些 v-结构来尽可能多地确定箭头的方向。最终的输出通常是一个部分有向图,一张诚实地描绘了我们所知以及因马尔可夫等价性而仍然模糊不清之处的地图。
所以,对撞结构帮助我们确定了一些边的方向。但是那些模糊的部分,比如我们的 链式结构与 分叉结构,该怎么办呢?要解决这个问题,我们必须从我们的观测高台上走下来,成为系统的积极参与者。我们必须进行一个实验。
在因果推断的语言中,我们必须应用一个-算子。一个干预 do(A),与观察到 碰巧处于某个状态是不同的。它意味着我们深入到宇宙的机制中,强制 处于该状态,切断其所有的自然原因。这种“图手术”行为是科学家拥有的最强大的工具,因为它打破了马尔可夫等价性的对称性。
让我们回到两个等价的基因调控网络,一个其中 ,另一个其中 。从观察来看,它们是不可区分的。但如果我们进行一个实验,其中我们 do(A),例如,通过使用 CRISPR 激活基因 A 呢?
在 的世界里,强制开启 会导致 做出反应。
在 的世界里,我们的干预切断了指向 的传入箭头。 现在与 的影响断开了。扰动 不会对 产生任何影响。
通过简单地观察 是否对我们对 的干预做出反应,我们就可以明确地区分这两个模型。
这个强大的思想可以在联合评分框架中被形式化。当我们混合了观测数据和来自实验(如基因敲除)的数据时,我们可以写下一个单一的似然函数,该函数尊重系统的“因果模块性”——未被干预靶向的机制保持不变,而被靶向的机制则被替换。通过优化这个联合分数,我们可以梳理可能的图空间,并且通过一组足够丰富的干预,收敛到唯一的真实因果结构。
世界很少如此干净。通常,存在隐藏的参与者,即未测量的混杂因素,它们编排了我们所看到的相关性。一个未测量的转录因子 () 可能同时控制基因 和 ,创造了一种我们可能错误地画成它们之间直接箭头的依赖关系。此外,我们收集数据的方法本身就可能引入偏见。只研究存活细胞的例子是一种选择偏倚,它在数学上等同于以一个对撞结构为条件,并可能在我们的数据集中创造出虚假的关联。
在这些更现实的场景中,等价性问题变得更加困难。可能的解释集合扩展到包含带有隐藏变量的图。在这里,需要更先进的算法,如快速因果推断 (FCI) 算法。FCI 是逻辑谨慎的奇迹。它对条件独立性进行更详尽的搜索,并产生一个图(一个部分祖先图,或 PAG),明确地描绘出我们的不确定性。它的边标记可以区分直接的因果联系、被隐藏变量混杂的联系,或纯粹的不确定性。即使在存在隐藏混杂因素和选择偏倚的浑浊环境中,它也被设计用来给出可靠的,尽管有时不完整的答案。
这段旅程,从一个三变量链的简单模糊性到隐藏混杂因素的复杂性,不仅仅是一个学术练习。这些原则是回答科学和医学中一些最关键问题的核心。
考虑一下疫苗试验的巨大挑战。科学家测量了数千个疫苗接种后的免疫标志物 ()。目标是弄清楚哪些仅仅是保护的相关物,哪些是疫苗对感染 () 影响的真正因果中介。这个问题充满了我们已经讨论过的陷阱。可能存在未测量的主体脆弱性 (),它既影响免疫反应又影响易感性,从而创造了一条混杂路径 。社区中可能存在不同水平的病毒暴露 (),这可能影响免疫标志物和感染风险,从而创造另一条混杂路径 。
为了解决这个问题,研究人员必须部署因果思维的全套武器库。这个问题设置 展示了一种前沿方法。它使用疫苗接种前的标志物作为未测量混杂因素 的代理,这是一种称为近端推断的巧妙技术。它利用跨社区不同群体免疫水平的自然实验,来测试 关系是否不变,或者它是否只是暴露 的副产品。它将所有这些结合在一个受背景知识(如疫苗本身的随机化)约束的逻辑框架内。
马尔可夫等价性这个抽象概念,最初只是一个关于区分链式与分叉结构的哲学家难题,如今已发展成为一个丰富、实用的框架。它为指导实验设计、构建从复杂数据中学习的算法以及做出关于支配我们健康的隐藏因果路径的救生发现提供了语言和工具。这是一个美丽的证明,展示了严谨、基本的原则如何能够照亮我们理解世界的道路。