G-公式

玻尔百科

定义

G-公式是一种因果推断方法，用于在存在随时间变化的混杂因素的情况下评估持续治疗策略的效果。该方法通过逐步模拟反事实情景来估算特定干预措施下的总体结果，其基本理念与人工智能和强化学习相通。其准确性依赖于顺序可交换性和正值性等核心假设，以确保涵盖了所有关键混杂因素并拥有足够的数据支持。

核心要点

G-公式是一种因果推断方法，它克服了时变混杂因素带来的挑战。时变混杂因素是指某个变量既是结局的风险因素，又是过去治疗效应的中介因素。
它通过逐步、序贯地模拟一个反事实世界来运作，以估计在特定、持续的治疗策略下，一个群体会发生什么情况。
该方法的准确性依赖于一些关键假设，包括测量了所有关键混杂因素（序列可交换性）以及对所有情景都有足够的数据（正定性）。
它被用于评估复杂的卫生政策，制定个性化动态治疗方案（DTR），并与人工智能和强化学习共享基本概念。

引言

评估慢性病治疗的长期有效性是一项复杂的挑战。干预措施并非单一事件，而是一系列决策过程，其中每次治疗都会影响患者未来的健康状况，而该健康状况又反过来指导下一次治疗。这就产生了一个被称为时变混杂的反馈循环，标准的统计方法在处理此问题时常常会失效，导致对治疗真实影响的结论产生偏倚和误导。这一知识鸿沟凸显出，我们需要一种更复杂的工具来驾驭这张因果之网。

本文介绍了 G-公式，一种为解决此问题而设计的强大而直观的方法。通过将因果推断概念化为一种模拟，G-公式允许研究人员估计持续治疗策略的效果，就好像他们在进行一项完美的、假设性的实验一样。接下来的章节将引导您了解这种创新方法。首先，“原理与机制”将揭示 G-公式的工作原理、传统方法为何不足，以及支撑其有效性的假设。随后，“应用与跨学科联系”将展示其在公共卫生、个性化医疗领域的实际影响，以及其与人工智能和工程学领域令人惊讶的联系。

原理与机制

想象一下，你是一位治疗高血压等慢性病患者的医生。你的任务不是一个单一的、一次性的决定。你开出一种药物，等待一个月，测量病人的血压，然后根据读数，你可能会调整剂量、继续疗程或更换药物。这个过程会重复数月甚至数年。你给予的治疗会影响病人未来的健康状态（他们的血压），而该健康状态又反过来影响你的下一次治疗决策。这就产生了一个复杂的反馈循环，一个干预与演化之间错综复杂的舞蹈。

现在，假设你想回答一个看似简单的问题：与较宽松的治疗策略相比，积极的治疗策略（例如“始终以尽可能低的血压为目标”）的总体长期益处是什么？这个问题极其困难。当病人所走的路径本身就是由他们一路上接受的治疗所塑造时，我们如何理清一个策略的净效应？这就是时变混杂的挑战，也是现代医学科学中最微妙和最重要的问题之一。标准的统计方法在这里常常会失灵，可能导致我们得出灾难性的错误结论。为了走出这个迷宫，我们需要一个更强大、在概念上更优美的工具：G-公式。

为何标准方法会失效：一顶双帽的故事

要理解为什么需要新工具，我们必须首先认识到旧工具为何会失效。让我们继续以高血压为例。在每次复诊时，病人的血压（我们称之为 $L_t$ ）扮演着双重角色——它同时戴着两顶帽子。

首先，它戴着混杂因素的帽子。今天血压高的病人（高 $L_t$ ）更有可能接受更大剂量的药物（我们称之为治疗 $A_t$ ）。同时，血压高的病人本身在未来发生心脏病（结局 $Y$ ）的风险也更高。如果我们简单地比较接受大剂量药物的人和没有接受的人，我们就在进行不公平的比较；因为治疗组一开始的病情就更重。标准的统计实践告诉我们要“调整”或“控制”血压，以创造一个公平的竞争环境。

但问题就在这里。今天复诊时的血压 $L_t$ ，也戴着第二顶帽子：中介因素的帽子。在上一次复诊时开出的药物 $A_{t-1}$ 作用是降低今天的血压。也就是说， $A_{t-1}$ 对 $L_t$ 有因果效应。这意味着 $L_t$ 是从过去治疗到最终结局的因果路径上的一个关键步骤。

悖论就在于此。为了消除当前治疗的混杂，我们觉得必须对 $L_t$ 进行调整。但这样做，我们实际上是在对过去治疗效应的中介因素进行条件化。这就像试图确定浇水是否有助于植物生长，却坚持只比较土壤湿度完全相同的植物。你这样做会使浇水起作用的机制——增加土壤湿度——完全失效！在传统的回归模型中对 $L_t$ 进行调整，实际上阻断了我们试图测量的部分长期因果效应。

这不仅仅是一个理论上的吹毛求疵。这种分析错误可能导致估计值不仅是略有偏差，甚至可能偏倚到逆转治疗的表观效果。一种有益的药物可能显得无用甚至有害。例如，在一个简化的情景中，一个简单的分析可能显示某治疗策略的风险差为 $-0.20$ （风险降低20个百分点），而正确计算的真实因果效应是 $-0.44$ （风险降低44个百分点）。这种简单的方法低估了药物一半以上的益处，仅仅因为它无法正确处理时变混杂因素戴着的两顶帽子。

一项思想实验：模拟一个完美世界

如果我们不能使用标准的调整方法，我们能做什么呢？让我们借鉴物理学家的做法，进行一项思想实验，即 Gedankenexperiment。如果我们拥有终极能力：克隆我们整个研究群体，会怎么样？

为了找到“始终治疗”策略的真实因果效应，我们可以取我们群体的一个副本（称之为队列1），在每一步都进行干预，无论他们的健康状况如何，都给予他们指定的治疗。我们会观察他们随时间的演变——他们的血压随着每次治疗而变化——并在最后测量平均结局，比如说心脏病发作率。这将告诉我们，在一个每个人都“始终被治疗”的世界里，真实的风险是多少。我们可以称之为潜在结局，记作 $\mathbb{E}[Y^{\text{always treat}}]$ 。

同时，我们可以取我们群体的第二个副本（队列2），即“从不治疗”组，在每一步都给予他们安慰剂。我们会观察他们的演变，并测量他们的平均结局 $\mathbb{E}[Y^{\text{never treat}}]$ 。

这两个完美的、平行的宇宙中平均结局之间的差异，就是该策略真实的、纯粹的因果效应。这里没有混杂，因为是我们这些实验者分配了治疗。这就是我们追求的理想。

当然，我们不能克隆人。但如果我们能在计算机上（in silico）执行这个精确的实验呢？如果我们能利用来自我们那个混乱的、观察性世界的数据来学习“自然法则”，然后构建一个这些完美的、平行宇宙的模拟呢？这正是 G-公式允许我们做的事情。

G-公式：模拟宇宙的配方

G-公式，或称 G-计算，与其说是一个静态的公式，不如说是一个动态的配方——一个执行我们刚才描述的思想实验的算法。让我们以一个简单的两步治疗策略为例，比如“基线时始终接受咨询（ $A_0=1$ ）和季中始终接种加强针（ $A_1=1$ ）”，来逐步了解这个模拟过程。

第 0 步：起点线。 我们从现实世界的队列开始。我们采用他们的基线特征——他们最初的健康风险 $L_0$ 。这是我们模拟宇宙的初始状态。

第 1 步：第一次干预。 我们想模拟“始终治疗”的世界。所以，我们忽略人们实际接受的治疗。相反，我们在计算上声明模拟中的每个人都接受第一次治疗， $A_0=1$ 。

第 2 步：让自然演化。 世界如何响应？我们知道第一次治疗会影响人们在下一个时间点的健康状况 $L_1$ 。从我们的真实世界数据中，我们可以建立一个统计模型来学习这个规则：“给定一个人的基线风险 $L_0$ 和他们接受了治疗 $A_0=1$ 的事实，他们出现季中健康状况 $L_1$ 的概率是多少？” 利用这个学到的规则，我们为计算群体中的每个个体模拟一个新的健康状况 $L_1$ 。这是关键的一步：我们正在模拟混杂因素的分布，就好像它是在我们的干预下发生的那样。

第 3 步：第二次干预。 现在是下一次治疗的时候了。我们选择的策略是“始终治疗”，所以我们再次进行干预，在计算上为每个人分配第二次治疗 $A_1=1$ 。

第 4 步：最终结局。 我们的每个模拟个体现在都有一个完整的历史：他们真实的基线状态（ $L_0$ ）、我们强制的治疗序列（ $A_0=1, A_1=1$ ）以及作为第一次治疗结果而演变出的健康状态（ $L_1$ ）。他们的最终结局 $Y$ 是什么？我们再次求助于我们的真实世界数据，为自然的最终规则建立一个模型：“给定一个人的完整治疗和健康状态历史，他们出现最终结局的概率是多少？”我们用这个模型来预测我们模拟中每个人的结局。

压轴大戏。 在对大量人群进行此模拟后，我们只需计算他们所有预测结局的平均值。这个平均值就是我们对 $\mathbb{E}[Y^{(1,1)}]$ 的估计——即在一个每个人都遵循“(1,1)”策略的世界里，我们期望看到的风险。我们可以为“从不治疗”策略（ $a_0=0, a_1=0$ ）重复整个过程，得到 $\mathbb{E}[Y^{(0,0)}]$ ，然后计算因果风险差。

这个“干预，让世界按其规则演化，再干预……”的序贯过程是 G-公式的核心。它尊重事件的时间顺序。它通过对混杂因素如何受先前治疗影响进行建模，正确地处理了反馈循环。G-公式的数学表达式初看起来令人生畏，但它不过是这个模拟故事的精确、符号化的表示。

对于一个在 $T$ 个时间点上的一般治疗策略 $\bar{a}$ ，其公式为： $\mathbb{E}[Y^{\bar{a}}] = \sum_{l_0} \dots \sum_{l_T} \mathbb{E}[Y | \bar{A}=\bar{a}, \bar{L}=\bar{l}] \times P(L_0 = l_0) \times \prod_{t=1}^{T} P(L_t = l_t | \bar{A}_{t-1} = \bar{a}_{t-1}, \bar{L}_{t-1} = \bar{l}_{t-1})$ 让我们来解释一下：总体平均结局（ $\mathbb{E}[Y^{\bar{a}}]$ ）是所有可能的混杂因素生命路径（ $\sum_{l_0} \dots \sum_{l_T}$ ）的总和。对于每条路径，我们将给定该路径和固定治疗策略下的最终结局风险（ $\mathbb{E}[Y | \dots]$ ）乘以在该策略下该生命路径发生的概率。这个概率是序贯分解的：从 $L_0$ 开始的概率，乘以给定过去情况下演化到 $L_1$ 的概率，依此类推，每一步都尊重我们施加的治疗。

附加条款：假设与现实

这个模拟是一个强大的工具，但它并非魔法。其有效性依赖于几个关键假设——这些“附加条款”定义了知识与推测之间的界限。

无隐藏混杂因素（序列可交换性）： 我们的模拟要求我们从数据中学习“自然法则”。这只有在我们测量了所有在每一步都同时影响治疗决策和结局的重要因素（ $L_t$ ）时才可能。如果存在某个未测量的因素，比如遗传倾向，它既使医生对病人的治疗方式不同，又影响他们的结局，那么我们的模拟就会有缺陷，因为它的规则不完整。
正定性： 为了学习规则，我们需要看到它们在实际中发生。例如，要知道一种治疗对非常健康的人有何影响，我们必须至少有一些健康人在现实世界中实际接受过该治疗的数据。如果在我们的数据中，医生从不给健康人使用某种药物，我们就遇到了正定性违背。我们没有模拟将会发生什么的经验基础。我们的模型将被迫进行推断——仅仅基于数学形式而非数据进行猜测。
一致性： 我们必须假设，在假设的治疗计划下我们会看到的结局，与一个人实际遵循该计划时所看到的结局是相同的。这将我们思想实验中的潜在结局与现实世界联系起来。
正确的模型： G-公式是参数化的；它依赖于我们为“自然法则”建立的统计模型。如果我们为治疗如何影响血压，或血压如何影响最终结局建立的模型与现实相差甚远（例如，我们假设是直线关系，而实际上是曲线关系），那么我们模拟的宇宙将是真实世界的扭曲反映，我们的结果也会有偏倚。

这些挑战是巨大的。事实上，整个统计学领域都在致力于开发对这些问题更具稳健性的方法。例如，边际结构模型 (MSM) 处理这个问题的方法不是模拟一个新的人群，而是通过对我们现有数据中的个体进行重加权，来创建一个平衡的伪群体。更先进的技术，如目标最大似然估计 (TMLE)，巧妙地结合了 G-公式和 MSM 的特点，做到了“双重稳健”，即如果自然法则的模型或治疗分配的模型中有一个是正确的，它就能给出正确答案。

即便如此，G-公式仍然是一个基础概念。它为思考和估计随时间变化的因果效应提供了一个清晰、直观且强大的框架。它将棘手的反馈循环问题转化为一个可管理的、一步一步的模拟过程。它证明了这样一个理念：即使面对现实复杂、动态的本质，我们仍然可以问“如果……会怎样？”，并在适当的条件下，找到一个严谨而有意义的答案。

应用与跨学科联系

在了解了 G-公式的原理和机制之后，人们可能会问：这仅仅是一个优雅的数学机器，还是它有能力改变我们看待和塑造世界的方式？答案，就像公式本身一样，既优美又深刻。G-公式不仅仅是一种计算；它是一面透镜，一个用于窥探反事实世界未来的计算实验室。它是一个工具，让我们能够提出科学中最强大的问题之一：“如果……会怎样？”

为了建立对这样一个工具的信心，我们可以先在一个由我们自己创造的世界里测试它。想象一个在计算机内部模拟的宇宙，在那里我们自己编写因果关系的基本法则。我们可以精确定义基线条件 $L_0$ 如何影响治疗 $A_0$ ，两者又如何影响后来的条件 $L_1$ ，依此类推，直到最终结局 $Y$ 。从这个宇宙中，我们可以生成“观察性”数据，一本关于自然发生事件的历史书。如果我们随后让 G-公式分析这段历史，并预测一个我们从未实际执行过的干预的结局，它能显著地恢复出我们从一开始就编码在模拟法则中的真实答案。在受控环境下的成功，给予了我们将它应用于我们所居住的、远为混乱的世界的勇气，在那里，真实的法则是我们寻求发现的东西。

公共卫生与政策评估：如果我们能改变世界会怎样？

G-公式最直接的应用是评估公共卫生政策的潜在影响。考虑一个问题：禁止在食品供应中使用人造反式脂肪以减少心脏病。在现实世界中，摄入高水平反式脂肪的人与不摄入的人在许多方面都不同——他们可能有不同的锻炼习惯、社会经济背景或其他饮食模式。这些都是混杂因素，它们混淆了脂肪本身的真实效果。

G-公式让我们能够解开这个结。它基于标准化的原则运作。我们首先拟合一个模型，从观察数据中学习暴露（反式脂肪）、混杂因素（年龄、吸烟等）和结局（心肌梗死）之间的关系。然后，我们进行一个宏大的思想实验：我们取整个研究人群，在我们的计算世界里，我们强制执行该政策。我们为每个人将反式脂肪暴露设置为零。对于每个个体，我们使用我们的模型，利用他们独特的混杂因素集，预测他们在这种新条件下的心脏病发作风险。通过平均这些预测的风险，我们得出了一个在没有反式脂肪的世界里的总体心脏病发作率的估计值。这使我们能够估算出一项禁令可以预防的心脏病发作数量，为决策者提供具体证据。

这种逻辑不仅限于简单的“开/关”政策。在全球卫生领域，我们可能想知道一个更细微的干预措施的效果，比如将儿童的饮食质量评分提高一个单位。G-公式可以轻松处理这个问题，模拟一个每个儿童的饮食都略有改善的世界，并计算一个关键结局（如他们的年龄别身高Z评分，一个衡量发育迟缓的关键指标）的预期变化。

时间之舞：驾驭慢性病与行为

当我们从单一时间点转向慢性病或长期行为改变的展开故事时，G-公式的真正力量和美感才最闪耀。在这里，我们遇到了一个极其复杂的问题：受先前治疗影响的时变混杂。

想象一个鼓励体育锻炼的项目。病人在第一次就诊时接受辅导。这种辅导可能会增强他们的动力。这种增强的动力，作为一个时变混杂因素，会做两件事：它使病人更有可能锻炼（影响结局），同时也使他们更有可能遵守项目并参加下一次辅导（影响未来的治疗）。治疗影响了混杂因素，而混杂因素反过来又影响未来的治疗。这是一个反馈循环，是干预与人性的微妙之舞。

试图一次性调整所有混杂因素的标准统计方法在这里会惨败。调整动力可能会阻碍我们想要测量的辅导效果本身的一部分！G-公式以其序贯、迭代的特性优雅地回避了这个悖论。它逐月模拟病人在项目中的旅程。

它从病人的基线状态开始。
它应用第一个月的干预规则（例如，“每个人都接受辅导”）。
然后，它使用从数据中学到的模型，在给定刚接受的辅导的情况下，模拟病人下个月的新动力水平。
它进入第二个月，再次应用干预规则，并模拟下一个状态。它一帧一帧地重复这个过程，生成一个完整的反事实历史。这就像观看一部本可能发生的人生的电影。通过模拟成千上万个这样的反事实人生并平均他们的结局，我们可以估计整个项目的真实效果，正确地解释了其中纠缠的反馈循环。

追求个性化医疗：打造智能治疗策略

G-公式的逐步模拟使我们能够走得更远。我们不必评估一个固定的计划；我们可以评估智能的、适应性的策略。这就是动态治疗方案 (DTRs) 的领域，也是个性化医疗的算法核心。

DTR 不是一刀切的处方，而是一套规则：“如果病人的生物标志物水平高于某个阈值，则升级治疗；否则，继续当前剂量”。或者，在行为科学中：“如果吸烟者处于‘沉思’阶段，则提供强化咨询；如果他们处于‘前沉思’阶段，则提供简短建议”。

用传统的临床试验来评估这样一种策略将是极其复杂的。但对于 G-公式来说，这很简单。模拟过程在每个时间步骤只需遵循 DTR 的规则。对于每个模拟的病人，它“检查”他们当前的状态（他们的生物标志物水平或心理阶段），并应用该状态下规则指定的治疗。通过模拟不同竞争性 DTR 下的整个病人旅程，我们可以比较它们的长期有效性，并确定哪种适应性策略效果最好，从而指导真正个性化疗法的发展。

超越简单终点：生存分析与竞争风险

生命和健康并不总是通过单一时间点的单一结局来衡量。通常，我们关心的是事件何时发生，以及在此过程中可能发生的其他事情。考虑一项关于心脏病风险的流行病学研究。一名参与者可能在有机会经历心脏病之前就死于癌症。这被称为竞争风险，它会严重偏倚简单的分析。

G-公式的框架可以与生存分析的工具无缝集成，以处理这些复杂性。我们不只是预测一个最终结局，而是可以使用 G-公式来标准化一个完整的时间到事件分布。通过将其与为竞争风险情景设计的估计量（如 Aalen-Johansen 估计量）相结合，我们可以估计干预下的累积发生率函数。这个函数告诉我们在某个时间点之前发生心脏病的概率，同时正确地考虑了那些失访或经历竞争事件的人。这为评估暴露或干预如何随时间推移改变风险提供了一个更完整、更真实的评估。

统一的线索：与人工智能和工程学的联系

也许 G-公式在智识上最令人满足的方面是看到它如何与其他科学学科的深刻思想联系起来，揭示了我们探索复杂系统过程中的一种隐藏的统一性。

其中一个联系是与动态贝叶斯网络 (DBNs)，一种来自机器学习的用于建模时间序列数据的工具。DBN 可以被看作是随时间变化的因果关系的“接线图”。在这种观点下，G-公式的模拟过程等同于对这个图进行外科手术。我们正在剪断代表自然治疗过程的连接，并接入我们的新政策。G-公式就是计算这种重新布线在整个系统中产生的后果的算法。

一个更深刻的联系存在于人工智能和强化学习 (RL) 领域。一位使用 G-公式评估治疗策略的流行病学家和一位编程机器人学习任务的人工智能研究员，在根本层面上，正在解决同一个问题。流行病学家研究的系统（病人）是一个马尔可夫决策过程 (MDP)，这与用来模拟机器人环境的数学对象是相同的。

医生遵循的“策略”与机器人执行的“策略”是相同的。
“期望反事实结局”与 RL 中的“期望折扣回报”或“价值函数”是相同的。
RL 中用于策略评估的著名后向递归算法，实际上是 G-公式迭代期望结构的一个特例。

这种惊人的趋同揭示了，用于寻找最佳癌症疗法的逻辑与用于构建智能游戏机器的逻辑有着深刻的亲缘关系。两者都是在动态世界中对因果关系的探索。

最后，从这个更广阔的背景下看待 G-公式，有助于我们欣赏其独特的哲学方法。其他有效的方法，如边际结构模型 (MSMs)，从不同角度解决相同问题。它们不是模拟一个新的、反事实的世界，而是巧妙地对我们观察到的世界中的个体进行重加权，以创建一个混杂被打破的“伪群体”。G-公式的方法是直接模拟；MSM/IPTW 的方法是重加权。两者都很强大，理解其中一种会加深我们对另一种的欣赏。

从思想实验到政策制定，从慢性病到个性化医疗，从流行病学到人工智能，G-公式远不止是一个公式。它是一种思维方式——一种严谨、强大且统一的方法，用于在一个复杂多变的世界中，推断我们行动的后果。