归因风险分数

玻尔百科

定义

归因风险分数是公共卫生与流行病学领域的一个衡量指标，用于量化特定暴露因素在特定群体或整个人群中所导致的疾病案例比例。该框架通过结合相对风险度与风险差，评估特定暴露对社会造成的总负担。这一概念具有高度的通用性，被广泛应用于评估健康社会决定因素、遗传风险因子，甚至用于分析气候变化与极端天气事件之间的关联。

核心要点

归因风险超越了简单的关联，旨在量化特定暴露在一个群体或整个人群中导致的疾病病例比例。
人群归因分值（PAF）是一项关键的公共卫生指标，它结合了暴露的风险强度（相对风险）及其流行率，以评估其总体社会负担。
该框架区分了相对风险（关联强度）和风险差（绝对超额病例），为评估暴露影响提供了互补的视角。
这一强大概念用途广泛，可用于评估健康的社会决定因素、遗传风险因子，甚至将极端天气事件归因于气候变化。

引言

我们通常知道某种行为或环境因素存在风险，但如何衡量其对整个人群健康的真实影响？从简单地观察暴露与疾病之间的联系，到精确量化如果消除该暴露可以预防多少病例，这是一个关键挑战。这种从相关性到归因的转变，需要一个正式的框架来筛选数据并确定责任，而这项任务正是公共卫生决策的核心。

本文旨在为这一强大的流行病学工具集提供指南。它深入剖析了归因风险的概念，这对于任何试图了解疾病成因和干预潜在收益的人来说都是一块基石。接下来的章节将首先解构其核心原理，然后展示其广泛的实用性。在“原理与机制”部分，我们将探讨从相对风险和风险差到具有重要影响力的人群归因分值等基本度量指标，揭示连接暴露与结局的精妙数学原理。随后，“应用与跨学科联系”部分将展示这一思想惊人的多功能性，说明它不仅用于确定医学领域的优先事项，还用于理解社会不平等、评估遗传风险，甚至将极端天气事件归因于气候变化。

原理与机制

想象一下，你是一名公共卫生侦探。一种新疾病出现了，你注意到它在有某种暴露的人群中似乎更为常见——比方说，在某个工厂的工人中。你的第一个问题很简单：它到底有多常见？但这个简单的问题很快引发了一系列更深入、更有力的问题。风险中究竟有多大比例是由工厂工作导致的？对整个社区而不仅仅是工人的影响是什么？如果我们能消除这种暴露，可以预防多少疾病？

流行病学为回答这些问题提供了一套极其精妙的工具。它是一种思维方式，使我们能够从简单的观察转向对人群健康的深刻洞见。让我们从头开始，探索这套工具的核心原理。

相对风险与绝对风险：风险的两个侧面

我们的首要任务是比较两组人群的风险：暴露组（我们称其风险为 $R_1$ ）和非暴露组（风险为 $R_0$ ）。有两种基本方法可以做到这一点，它们讲述了非常不同但同等重要的故事。

第一种方法是使用比率。我们可以问：“暴露者患病的可能性是非暴露者的多少倍？” 这就得到了相对风险（Relative Risk），或称风险比（Risk Ratio, $RR$ ）：

$RR = \frac{R_1}{R_0}$

以早期避孕药的历史性争论为例。研究发现，与非使用者相比，使用者发生危险性血栓（静脉血栓栓塞，VTE）的风险增加了4倍。 $RR=4$ 的相对风险听起来相当惊人。这是一个强有力的数字，能吸引注意力，并表明潜在的联系值得深入调查。

但还有另一种看待它的方式。我们可以不看比率，而是看差值。我们可以问：“在暴露人群中，我们看到了多少额外的疾病病例？” 这就得到了风险差（Risk Difference, $RD$ ），有时也称为归因风险：

$RD = R_1 - R_0$

在同一个VTE的例子中，不服用避孕药的女性的基线风险（ $R_0$ ）非常低，大约为每年每10,000名女性中出现2例。使用者的风险（ $R_1$ ）是其4倍，即每年每10,000名女性中出现8例。因此，风险差为 $R_1 - R_0 = 8 - 2 = 6$ ，即每年每10,000名女性中多出6例。这个数字给人不同的感觉。它告诉我们超额风险的绝对大小。对于单个女性而言，它以更具体的方式界定了风险；对于卫生系统而言，它有助于预测预期增加的实际病例数。

这两种衡量标准没有优劣之分；它们是互补的，就像用两个不同的镜头观察同一片风景。相对风险告诉我们关联的强度，而风险差则以绝对值告诉我们公共卫生负担。

归因思想：向因果关系的飞跃

“归因风险”一词意味着某种深刻的含义：超额风险是由暴露引起的。这是从简单的关联到因果关系陈述的飞跃。为了正式地实现这一飞跃，我们必须想象一个不存在的世界——一个反事实世界。对于那群暴露的工人，我们问：如果他们没有暴露，他们的风险会是多少？

我们可以做出的最简单且最强大的假设是，如果他们没有暴露，他们的风险将与非暴露组相同，即 $R_0$ 。这个被称为可交换性（exchangeability）的假设是一个重大假设。它意味着我们确信，暴露组和非暴露组在所有其他重要方面都是可比的，没有其他隐藏因素（混杂因素）扭曲结果。

如果我们愿意做出这个因果推断的飞跃，就可以提出一个引人入胜的问题：对于那些暴露并生病的人来说，他们的不幸有多大比例可归因于该暴露？这就是暴露人群归因分值（Attributable Fraction among the Exposed, $AF_e$ ）。

一个暴露者的总风险是 $R_1$ 。他们无论如何都会有的“背景”风险是 $R_0$ 。由暴露引起的超额风险是差值 $R_1 - R_0$ 。归因分值就是超额风险与总风险的比率：

$AF_e = \frac{R_1 - R_0}{R_1}$

这里有一个代数上非常简洁的变换。我们可以将其重写为 $1 - \frac{R_0}{R_1}$ ，并且由于 $\frac{R_1}{R_0} = RR$ ，它就变成了：

$AF_e = 1 - \frac{1}{RR} = \frac{RR - 1}{RR}$

这个公式非常直观。如果一项暴露使风险增加三倍（ $RR=3$ ），那么 $AF_e = (3-1)/3 = 2/3$ 。这意味着在暴露组中，三分之二的病例可归因于该暴露。在我们的因果假设下，这意味着如果我们仅为这个群体消除该暴露，我们将预防他们三分之二的病例。这是一个非常有用的指标，可用于决定是否实施针对性干预，比如为那些工厂工人提供防护装备。

宏观视角：从个体到群体

到目前为止，我们都聚焦于暴露组。但对整个社区的影响呢？一项暴露可能具有很高的相对风险，但如果只有一小部分人口暴露其中，其整体社会影响可能很小。相反，一个极其普遍的弱风险因素（如广泛存在的空气污染物）可能导致全国范围内大量的病例。

为了捕捉这一点，我们还需要知道一件事：人群中的暴露率（prevalence of exposure, $p_e$ ）。人群的总风险 $R_p$ 是暴露组和非暴露组风险的加权平均值：

$R_p = (p_e \times R_1) + ((1 - p_e) \times R_0)$

现在我们可以提出终极的公共卫生问题：“在我们整个人群中看到的所有疾病病例中，有多大比例可归因于这种暴露？” 这就是人群归因分值（Population Attributable Fraction, $PAF$ ）。

其逻辑与之前相同。我们将我们当前的现实（人群风险为 $R_p$ ）与一个反事实世界进行比较，在那个世界里，暴露被完全消除。在那个世界里，每个人的风险都会是基线风险 $R_0$ 。人群中的总超额风险是 $R_p - R_0$ 。 $PAF$ 就是这个超额风险占总人群风险的比例：

$PAF = \frac{R_p - R_0}{R_p}$

通过一些代数运算，这个定义可以转换成一个公式，它巧妙地结合了两个关键要素：风险因素的强度（ $RR$ ）及其在人群中的流行率（ $p_e$ ）：

$PAF = \frac{p_e (RR - 1)}{1 + p_e (RR - 1)}$

这个公式揭示了一个深刻的真理。一种暴露对社会造成的负担共同取决于它的危险程度和普遍程度。让我们想象一下，工厂的暴露使疾病风险增加了三倍（ $RR=3$ ）。如果镇上只有10%的人在那里工作（ $p_e=0.1$ ），那么 $PAF$ 大约为16.7%。但如果一家新的、更大的工厂开业，镇上30%的人都暴露其中，那么 $PAF$ 会飙升至37.5%，尽管对任何一个工人的风险根本没有改变。这就是为什么在为污染法规或公共卫生运动等大规模、覆盖整个人群的政策提供理由时， $PAF$ 是最重要的单一数字。

一体两面：当“暴露”是好事时

当暴露是保护性的，比如接种疫苗或系安全带时，会发生什么？在这种情况下，“暴露”组（例如，已接种疫苗者）的风险 $R_1$ 低于非暴露组的风险 $R_0$ 。

奇妙的是，我们整个数学框架仍然适用。相对风险 $RR$ 将小于1。风险差 $RD$ 将为负值。而归因分值 $AF_e$ 和 $PAF$ 也将是负值。一个负的 $PAF$ 实际上就是一个预防分值（Prevented Fraction）——它告诉我们当前有多少比例的疾病负担正被这种保护性暴露所预防。

我们也可以反过来提问以指导政策。我们可以不问当前预防了什么，而是问：“如果我们将这项干预措施（如疫苗接种）推广到整个人群，我们能预防当前病例的多大比例？” 这就是人群可预防分值（Population Preventable Fraction, $PF_p$ ）。它将当前的人群风险 $R_p$ 与每个人都受到保护时的理想风险 $R_1$ 进行比较：

$PF_p = \frac{R_p - R_1}{R_p}$

对于一种覆盖率为30%、能将风险减半的疫苗，我们可能会发现，虽然现有项目已经预防了本会发生的15%的病例，但如果我们实现全民接种，我们仍然可以消除当前所见病例的另外41%。这为公共卫生工作提供了一个清晰、量化的目标。

科学探案：在现实中发现风险

你可能会想，“这些初始的风险数值 $R_1$ 和 $R_0$ 是从哪里来的？” 流行病学家有两种主要策略来进行这项侦探工作。

最直接的方法是队列研究（cohort study），即招募一大群健康人，记录他们的暴露情况，并随访他们，观察谁会患上疾病。这种设计允许直接测量风险（ $R_1$ 和 $R_0$ ），因此可以直接计算我们讨论过的所有指标。

但如果疾病非常罕见怎么办？你可能需要随访数百万人几十年才能看到少数几个病例。这时，第二种更巧妙的策略就派上用场了：病例对照研究（case-control study）。在这种研究中，你从侦探的线索开始：一群已经患有该疾病的人（病例）。然后，你从同一个人群中招募一组可比的健康人（对照）。接着，你回顾性地比较两组过去的暴露情况。

虽然用这种方法不能直接测量风险，但你可以计算一个叫做优势比（Odds Ratio, $OR$ ）的指标。统计学中有一个美妙的事实：对于罕见疾病，病例对照研究得出的优势比是大型队列研究本可以得出的相对风险（ $RR$ ）的一个非常好的近似值。此外，健康对照组中的暴露率可以很好地估计总人群的暴露率 $p_e$ 。有了这两个拼图碎片—— $RR$ 和 $p_e$ ——你就可以使用我们的总公式来估计人群归因分值，即使从未直接测量过风险。这证明了科学方法的独创性，使我们能够量化和理解我们世界中疾病的根源。

应用与跨学科联系

既然我们已经拆解了归因风险的引擎，看清了其齿轮和杠杆如何运作，现在是时候开着它兜一圈了。这真是一趟奇妙的旅程！这个单一而优雅的思想并不仅限于流行病学教科书的篇章；它是一本护照，让我们得以理解从单个细胞的微观战场到地球气候宏大而动荡的舞台等一系列惊人现象。人群归因分值（PAF）回答了一个具有深远实际意义的问题：“在我们看到的所有问题案例中，如果我们能消除这一个特定原因，可以摆脱多大比例的案例？” 让我们踏上征程，看看这个问题在各种各样的情境中是如何被回答的。

公共卫生的腹地

自然，我们的旅程始于医学和公共卫生，这是归因风险的发源地。在这里， $PAF$ 是确定优先事项和衡量抗击疾病潜在战果的主要工具。

以抗击病毒所致癌症为例。几十年来，我们已知持续感染高危型人乳头瘤病毒（HPV）可导致宫颈癌。但在这个故事中，HPV究竟是多大的反派？通过结合感染流行率数据和其带来的相对风险，流行病学家可以计算出 $PAF$ 。在一个典型人群中，这个数字可能高得惊人——通常超过 $0.75$ 。这不仅仅是一个学术计算；它是一个响亮的号召。 $PAF$ 为 $0.77$ 意味着超过四分之三的宫颈癌病例都归因于这一种病毒。它用最清晰的语言告诉我们，一个成功的HPV疫苗接种计划不只是在解决问题的皮毛；它是对问题核心的致命一击。同样的逻辑也适用于其他病原体，比如某些菌株的幽门螺杆菌，它们是胃癌的主要风险因素。通过量化最危险菌株的 $PAF$ ，公共卫生官员可以估计通过有针对性的筛查和根除计划可以预防多少癌症。

对于慢性非传染性疾病，这个概念同样强大。想一想一种常见病症，如未受控制的高血压（hypertension）及其与血管性痴呆的联系。高血压患者患痴呆症的相对风险可能不像病毒致癌的风险那样惊人——也许 $RR$ 为 $1.8$ ，意味着风险增加 $80\%$ 。然而，由于高血压在许多人群中非常普遍，它对痴呆症总负担的贡献可能是巨大的。计算可能表明，即使相对风险不大，高血压也可能导致人群中近四分之一的血管性痴呆病例。这阐明了流行病学的一个基本教训：施加于大量人群的小风险，可能比只施加于少数人的大风险造成更大的总伤害。

归因风险的触角延伸到我们日常生活的非常具体的场景中，比如工作场所。想象一个工厂，工人们暴露于一种可能导致疼痛皮疹的新型化学粘合剂。公共卫生官员可以追踪暴露和非暴露工人中皮疹的发病率。由此，他们不仅可以计算出暴露工人中由该化学品导致的病例比例，还可以计算出如果消除该暴露，在整个工厂队列中可以预防的确切病例数。这将 $PAF$ 从一个群体层面的抽象概念，转变为一个具体、可操作的数字：“今年在我们的工厂里，移除这种粘合剂将预防40例皮炎。”。

拓宽视野：社会、基因与相互作用

一个基本概念的真正魅力，在于它挣脱其原始领域之时。 “暴露”或“风险因素”这一概念远比人们想象的要灵活。

如果“暴露”不是病菌或化学物质，而是一种社会状况呢？流行病学家早就观察到，受教育程度较低的个体心血管疾病发病率更高。通过将“低教育水平”视为暴露，我们可以计算其 $PAF$ 。结果可能显示，一个社区约 $17\%$ 的心血管疾病可归因于较低的教育水平。这是一个变革性的结果。它提供了量化证据，表明社会政策——在这种情况下，是改善教育机会和质量的干预措施——是一种公共卫生干预。 $PAF$ 为我们提供了一个框架，来证明和优先考虑这些解决健康问题根源的“上游”策略的合理性。

同样的逻辑也为理解和解决健康不平等问题提供了一个强大的工具。考虑到不同人群群体之间健康结果的悲剧性差异，例如在某些地区，原住民母亲的早产率高于非原住民母亲。通过计算 $PAF$ ，我们可以量化这种不平等的负担。这个计算回答了这样一个反事实问题：“如果与原住民身份相关的超额风险被消除，总人口中所有早产的比例可以避免多少？” 产生的结果，比如说 $0.13$ ，代表了由健康差距直接导致的问题所占的比例。这是衡量实现健康公平潜在收益的一个指标。

从社会层面，我们可以一直深入到我们自己的DNA。随着全基因组关联研究的出现，科学家可以识别出增加克罗恩病等疾病风险的特定遗传变异。利用风险等位基因在人群中的频率作为“暴露率”，并利用遗传研究中的优势比作为相对风险，我们可以计算出某个基因的 $PAF$ 。这通常会揭示一个有趣的见解：即使对于一个已确立的遗传风险因素，其 $PAF$ 可能也相对较小，或许低于 $0.10$ 。这告诉我们，虽然该基因是拼图中的重要一块，但远非故事的全部，这强调了大多数常见疾病复杂、多因素的本质。

当然，在现实世界中，风险很少单独起作用。它们会相互作用，有时产生毁灭性的协同效应。考虑慢性乙型肝炎病毒（HBV）感染和膳食中黄曲霉素（一种来自霉变食物的毒素）暴露对肝癌风险的联合效应。单独来看，每一个都是风险因素。但它们共同作用时，其综合效应可能远远大于各部分之和。归因风险的框架可以扩展以处理这种复杂性。通过观察所有四组（同时暴露于两者、暴露于其中一个、暴露于另一个或均未暴露）的风险，我们可以计算出归因于HBV的肝癌比例，同时正确考虑黄曲霉素这一共存的威胁。这为评估在两种风险因素同时存在的地区开展HBV疫苗接种运动的潜在影响，提供了一个更稳健和现实的估计。

应对变化世界的动态工具

$PAF$ 不仅仅是当前的一个静态快照；它还是一个模拟未来的动态工具。它允许我们推演“如果……会怎样”的情景，并预测我们行动的影响。

想象一个旨在控制艾滋病病毒（HIV）传播的公共卫生项目。我们知道，由其他有症状的性传播感染（STIs）引起的炎症会使个体更容易感染HIV。因此，治疗STIs应有助于降低HIV的发病率。但能降低多少呢？通过模拟一个治疗项目将如何运作——覆盖一定比例的人群并减少他们有症状STI的持续时间——我们可以计算出干预后新的有症状STIs的流行率。将这个新的、较低的流行率代入我们可靠的 $PAF$ 公式，就能得出归因于STIs的HIV的新比例，这个比例更低。这直接量化了STI治疗项目对HIV疫情的次要益处，为其资金投入和实施提供了有力的论据。

最后的疆域：归因气候变化

现在，让我们来进行一次最激动人心的飞跃。我们从流行病学走向气候科学，从研究人群中的疾病转向研究地球本身。在这里，科学家们面临着我们这个时代最关键的归因问题之一：这次极端天气事件——这场破纪录的热浪，这场毁灭性的洪水——是人为气候变化的结果吗？

他们使用的逻辑与我们一直在探讨的逻辑完全相同。气候科学家运行大规模的地球气候计算机模拟。他们创建了两组集合。一组是“事实”世界，包含了我们实际排放的所有温室气体（ $A=1$ ）。另一组是“反事实”世界，一个从未存在过的、没有我们工业和农业排放的世界（ $A=0$ ）。在这些虚拟世界中，他们观察特定极端事件（如超过特定温度的热浪）发生的频率。

在事实的、“全强迫”世界中，热浪发生的概率是 $P_1(E)$ 。在“仅自然”的反事实世界中，热浪发生的概率是 $P_0(E)$ 。

听起来耳熟吗？应该很耳熟。 “全强迫”世界就是我们的“暴露”组，而“仅自然”世界是我们的“非暴露”组。然后，科学家计算一个他们称为“归因风险分数”（Fraction of Attributable Risk, 或 $FAR$ ）的指标，其定义为：

$FAR = 1 - \frac{P_0(E)}{P_1(E)}$

这个公式与暴露人群归因分值（ $AF_e$ ）完全相同。它告诉我们事件风险中可归因于“暴露”（在这里指人为强迫）的比例。当一项研究得出结论，某次热浪的FAR为 $0.9$ 时，它正在发表一个极其重要的声明，其使用的逻辑与流行病学家将病毒与癌症联系起来的逻辑完全相同：即该热浪发生风险的 $90\%$ 可归因于人类活动。没有我们的影响，该事件发生的可能性会极低。

从工人的皮疹到地球的发烧，归因风险的旅程揭示了科学推理中惊人的一致性。它是一个简单而深刻的工具，让我们能够筛选复杂性、分配责任，最重要的是，识别出我们能拉动的最有效的杠杆，以创造一个更美好、更健康、更安全的世界。