风险集

玻尔百科

定义

风险集指流行病学研究中处于观察状态且在生物学上有可能发生所研究健康结果的一组特定个体。为了准确测量发病率和风险，定义风险集时必须排除已患病案例及不具有易感性的个体。该概念是队列研究、病例对照研究以及生存分析等流行病学研究设计的核心基础。

核心要点

风险集是在观察下，生物学上可能经历所研究健康结局的特定个体群体。
准确测量疾病（如风险和发病率）取决于通过排除现患病例和非易感个体来正确定地义风险集。
在个体不断进入和离开的动态人群中，使用人时作为分母，以准确反映群体处于风险中的总时间。
风险集定义不当可能导致显著的研究偏倚，包括对撞偏倚、健康工人效应和易感者耗竭。
该概念是流行病学研究设计（如队列研究和病例对照研究）以及高级生存分析和复发事件分析的基础。

引言

在探索健康与疾病的征程中，最根本的挑战之一是准确的测量。我们如何量化一种新病毒的危险、一种新药的益处或一种环境暴露的危害？答案往往不在于计算病患数量，而在于首先正确定地义谁有可能会生病。这个“分母问题”是健康科学中的一个核心难题，而其解决方案是一个被称为风险集（risk set）的强大概念。

本文深入探讨了风险集的核心，这是流行病学中的一个基本原则，它定义了真正面临事件风险的个体群体。如果对这个概念没有清晰的理解，我们对风险的测量可能会产生误导，我们关于因果关系的结论也可能存在严重缺陷。

通过接下来的章节，您将全面理解这一关键思想。“原理与机制”部分将使用清晰的类比来解构这一概念，解释如何定义风险集，如何使用它来计算发病率，并识别因其应用不当而产生的常见偏倚。随后的“应用与跨学科联系”部分将展示风险集在公共卫生监测、队列研究和病例对照研究设计中的重要作用，及其在免疫学等领域出人意料的相关性。

原理与机制

想象一下，你是一名赛跑裁判。你的工作是确定一场100米短跑的冠军。这看起来很简单。但具体来说，谁在比赛中呢？看台上的观众？当然不是。去年赢得这项赛事但今天受伤的运动员？不是。那么，抢跑被取消资格的赛跑者呢？他们曾在赛道上，但已无法获胜。唯一“有风险”获胜的，是那些正站在起跑线上、有资格参赛并等待发令枪响的赛跑者。

这个简单的想法是流行病学最基本概念之一的核心：风险集。它是我们正在观察且有能力经历我们感兴趣的结局的、经过仔细定义的个体群体。它是我们的分母。它是疾病与健康故事上演的舞台。正确地定义它至关重要。

起跑线：谁真正处于风险之中？

让我们从赛道转向医院。假设我们想研究一个社区五年内首次心脏病发作（心肌梗死，或 MI）的发病情况。我们招募了数千人参与研究。谁应该属于我们的风险集？我们的第一反应可能是包括所有人。但就像赛场上的观众一样，有些人根本不符合资格。

首先，有些人研究开始前就已经得过心脏病。这些是现患病例。他们没有发生首次心脏病的风险，因此将他们纳入分母，就像把去年的冠军算进今天的比赛一样。这会人为地扩大我们的分母，使首次心脏病发作的风险看起来低于真实水平。新发事件的风险集，根据定义，必须排除该事件的现患病例。

其次，个体必须在生物学上可能经历该事件。一个接受了全人工心脏的人没有心肌组织可以梗死。他们不再具有生物学易感性。他们不可能发生心脏病，因此不属于风险集。

你可能会想进一步推演这个逻辑。那些非常健康、没有吸烟或高血压等风险因素的人呢？或者那些服用他汀类等强效预防药物的人呢？他们心脏病发作的概率非常低。我们是否也应该排除他们？答案是响亮的“不”。跑得慢并不会让你失去比赛资格。低概率不等于零可能性。这些个体在生物学上仍然是易感者，仍然站在起跑线上。排除他们将是科学上的一大禁忌：我们将在挑选研究人群，使结果产生偏倚，并失去在整个人群谱系中理解该事件的能力。定义风险集关乎可能性，而非概率。

秒表：测量比赛

一旦我们的赛跑者在起跑线上正确集结，我们就需要一种方法来测量他们的表现。最简单的度量是我们所说的累积发病率（cumulative incidence），或更简单地称为风险（risk）。它是在指定时期内，风险集中经历该事件的个体所占的比例。

\text{Risk} = \frac{\text{Number of new cases during follow-up}}{\text{Number of individuals in the population at risk at the start}}

想象一下我们之前提到的关于吸烟与中风的队列研究。在正确排除了基线时已经患有中风的个体后，我们得到了真正的风险集：比如说，700名吸烟者和1150名非吸烟者。如果在两年内，这些吸烟者中有90人、非吸烟者中有60人首次发生中风，我们可以计算每组的风险：

吸烟者风险: $R_1 = \frac{90}{700}$
非吸烟者风险: $R_0 = \frac{60}{1{,}150}$

这使我们能够通过计算风险比（RR）来比较他们，即 $R_1/R_0$ 。这个单一的数字告诉我们，在我们的研究期间，吸烟者发生中风的可能性是非吸烟者的多少倍。整个计算都取决于正确定地义分母——即风险集。

一场动态的比赛：来来往往的赛跑者

100米短跑是一个干净的封闭队列：在开始时确定一个固定的参与者群体，并跟踪他们直到结束。但生活中的许多情况更像一场熙熙攘攘的城市马拉松。这是一个动态或开放队列。新的赛跑者（出生、迁入）可以随时加入比赛，而其他人则可能在没有完成比赛的情况下离开（死亡、迁出）。

我们如何能为整个城市一整年的人口定义一个风险集？我们不能简单地计算1月1日的人数。到12月31日时，这个分母就错了。解决方案是流行病学中最优雅的思想之一：我们不再计算人，而是开始计算时间。

这就是人时（person-time）的概念。我们的分母不再是“风险人群”，而是“人群处于风险中的总时间”。我们研究中的每个人都贡献了他们存活、无病且处于观察期内的时间量。如果一个人在心脏病发作前被随访了5年，他们就为分母贡献了5人年。如果另一个人在搬到另一个城市（并失访）前被随访了3年，他们就贡献了3人年。

我们现在计算的度量是发病率（incidence rate）：

\text{Incidence Rate} = \frac{\text{Number of new cases}}{\text{Total person-time at risk}}

这是一个极其稳健和灵活的工具。对于一个封闭的工作场所队列，我们可以通过汇总每个个体的随访时间，并考虑他们何时生病或失访，来精确计算人时。对于一个庞大的、动态的城市人口，我们可以通过取一个时间段内的平均人口规模（例如，来自季度人口普查），并将其乘以该时间段的长度来近似计算。将这些加总起来，可以得到该人群中总风险人年的可靠估计。这种从计算人数到计算时间的简单转换，使我们能够在真实、复杂、动态的世界中研究健康问题。

隐藏的陷阱：当比赛定义出错时

风险集这个简单的概念可能会引出惊人深刻且违反直觉的难题。世界充满了给粗心分析者设下的隐藏陷阱，而理解风险集就是我们的地图和指南针。

陷阱1：免疫的旁观者

想象一下我们正在测试一种新疫苗。我们天真地将风险集定义为所有接种疫苗的人（接种组）和所有未接种的人（未接种组）。但如果两组中都有一大部分人已经因先前的感染而免疫了呢？这些免疫的个体就像是误入赛道的观众；他们不会得病，所以风险为零。如果我们未能将他们从风险集中排除，我们就会稀释我们的分母。

如果两组间的免疫人群比例不同（例如，如果先前生过病的人或多或少地更倾向于接种疫苗），问题就变得非常有害。严格的数学分析表明，风险集中这种被非易感个体“污染”的情况会造成显著的偏倚。观察到的疫苗效力，计算为 $VE_{\text{obs}} = 1 - RR_{\text{obs}}$ ，可能与真实的生物学效力大相径庭。偏倚 $VE_{\text{obs}} - VE_{\text{true}}$ 被证明直接取决于两组间先前免疫率的差异。这不仅仅是一个学术上的好奇心；它是评估公共卫生干预措施时一个关键的现实世界问题。

陷阱2：幸存者的比赛

让我们回到赛道。假设一种暴露——比如一种新型跑鞋——具有强大的效果，让所有穿上它的人都跑得更快。我们的队列由天生高风险（快）和低风险（慢）的赛跑者混合组成。开始时，穿鞋组和未穿鞋组有相同的混合比例。

在比赛的前半段，暴露的效果是显而易见的。但一些微妙的事情正在风险集中发生。因为鞋子非常有效，穿鞋组中的高风险个体正在完成比赛（即，发生“结局”）并很快地从“风险”人群中被移除。在未穿鞋组中，高风险个体也在完成比赛，但速度较慢。

到我们观察比赛后半段时，两组的构成已经改变。仍在赛道上的穿鞋组现在不成比例地由最初的慢跑者组成。未穿鞋组则有更丰富的剩余赛跑者组合。如果我们天真地只在后半段比较两组，鞋子的效果会显得小得多，甚至可能消失！这种现象被称为易感者耗竭（depletion of susceptibles），是选择偏倚的一种形式，即暴露本身改变了风险集的未来构成。真实的效果是恒定的，但观察到的效果随时间变化，因为“处于风险中”的人在两组中以不同方式变化。

陷阱3：就诊者悖论

最后一个陷阱在于我们如何选择研究人群。想象一个城市在社区诊所启动了一个新的锻炼项目（ $E$ ），我们想知道它是否减少了急诊室就诊次数（ $Y$ ）。将我们的风险人群定义为仅那些去诊所的人（ $S=1$ ）似乎很有效率，因为我们可以轻松地跟踪他们的项目参与情况。

这是一个被称为对撞偏倚（collider bias）的经典错误。假设一个未测量的因素，如潜在的健康状况（ $U$ ），既影响诊所就诊也影响急诊就诊。例如，非常注重健康的人和非常虚弱的人可能都更倾向于去诊所。因果结构看起来像 $E \rightarrow S \leftarrow U \rightarrow Y$ 。在这里， $S$ （诊所就诊）是一个“对撞因子”，因为有两个因果箭头指向它。

在普通人群中，没有理由认为锻炼状况与潜在的虚弱程度有关。但是，当我们将分析仅限于诊所就诊者（即，我们以对撞因子 $S$ 为条件）时，我们制造了一种伪关联。在诊所内部，那些没有参加锻炼项目的人中，虚弱者的比例会更高（因为健康的人去那里是为了锻炼）。我们人为地使“不锻炼”与我们选定群体内的“虚弱”相关联。这扭曲了锻炼与急诊就诊之间的真实关系。基于设计的解决方法是首先避免这种选择：将风险人群定义为所有符合条件的居民，而不仅仅是诊所就诊者。

一个更复杂的世界：多重终点与复发旅程

当超越单一、不可逆事件时，风险集概念的力量才真正显现出来。

多重终点线（竞争风险）： 如果在我们的心脏病研究中，有人死于癌症怎么办？他们就再也不能得心脏病了。癌症是一个竞争风险。为了正确估计心脏病发作率——即特定原因风险率（cause-specific hazard）——我们在任何特定时刻的风险集必须只包括那些仍然存活且尚未经历心脏病发作或癌症死亡等竞争事件的个体。无论何种原因，风险集都会随着每一个事件的发生而缩小。
重复旅程（复发事件）： 考虑住院。一个人可以多次住院。风险集在个体层面上是动态的。一个人处于风险中，然后他们入院，此时不处于新入院的风险中。出院后，他们重新进入风险集。我们可以在标准日历时间线上分析这一点，但将每个人的时钟在每次出院时重置为零可能会更有洞察力。这种新的时间尺度，称为间隙时间（gap time），以一种让我们能够提出诸如“出院30天后再入院的速率是多少？”之类问题的方式重新定义了风险集。
状态之间的旅程（多状态模型）： 这是最终的概括。生命不是一场单一的比赛，而是一段在不同状态之间穿梭的旅程：从healthy到ill，从ill到recovered，从ill到dead。风险集框架优雅地处理了这种复杂性。从healthy到ill的转变，其风险人群很简单，就是所有当前处于healthy状态且在观察中的个体。从ill到dead的转变，其风险人群是所有当前处于ill状态的人。风险集这个简单的概念为生命和疾病的复杂动态提供了一个完整的核算系统。

从起跑线上赛跑者的简单计数到生命多重路径的复杂演算，原则始终如一。风险集不仅仅是一个分母；它是我们观察现实窗口的严谨、深思熟虑的定义。

应用与跨学科联系

在掌握了风险集的基本性质之后，我们现在可以开始一段旅程，看看这个简单而优雅的思想如何在整个科学领域绽放成为一个强大的工具。风险集不仅仅是流行病学家的一个术语；它是在复杂世界中清晰思考因果关系的一个透镜。它是我们建立对疾病、健康以及生命与机遇随时间交织的复杂舞蹈的理解的基石。

公共卫生的指南针：测量重要之事

在其最基本的层面上，风险集的概念迫使我们在任何健康调查中提出最重要的问题：“我们在谈论谁？”想象一下，你的任务是测量一个拥有一万人口的小镇在一年内患上某种新疾病的风险。在这一年里，有120人得病。风险是多少？你可能会想说，风险就是 $\frac{120}{10{,}000}$ ，即 0.012。但风险集原则要求更严格的考量。首先，在年初时，这一万人都真的“处于风险中”吗？如果有些人已经患有该病，他们就不能再次患上。他们不属于新病例的风险集。我们必须首先减去这些“现患病例”，以定义我们真正的风险人群。

那么，如果在这一年里，最初人群中有200人死于车祸或其他不相关的原因呢？我们应该把他们从最初的一万分母中移除吗？答案是坚决的“不”。在年初，那200人和其他人一样，都面临着患病的风险。事后将他们移除，等同于用后见之明重新定义我们的队列，这在预期性测量中是不可饶恕的错误。我们计算的风险是对于那些在时间零点存在并处于风险中的人发生事件的概率。分母在开始时就固定了；它是起跑阵容，而不是完成比赛的选手名单。

这个看似简单的准则具有深远的现实影响。以婴儿死亡率（IMR）为例，这是一个国家健康状况的关键指标。它衡量的是生命第一年内的死亡风险。要计算这个，我们是用婴儿死亡数除以该国的总人口吗？当然不是。那就像试图通过用事故数量除以整个州的人口来了解某段道路的危险性一样。得出的数字会微不足道且毫无意义。婴儿死亡的风险是对婴儿的风险。恰当的风险人群——正确的风险集——是那个时期内的活产婴儿队列。IMR 的力量直接来源于这种将分子（事件）与正确的分母（风险人群）精确对齐的做法。

发现的蓝图：队列研究与病例对照研究

风险集概念的真正天才之处，体现在流行病学研究的设计中——这是我们寻找疾病原因的主要方式。黄金标准是队列研究，它是风险集概念的生动体现。我们确定一个处于风险中的人群（队列），测量他们对各种因素的暴露情况，并随时间跟踪他们，看谁会患上疾病。这种前瞻性设计使我们能够直接测量随时间推移的绝对风险，或累积发病率。通过比较暴露组与非暴露组的风险，我们可以估计暴露的效果。

当然，现实是复杂的。人们会搬走、停止回应，或经历“竞争风险”（比如在患上我们研究的癌症之前死于心脏病）。这些都是“删失”的形式。只要删失的原因与我们研究的结局无关（“非信息性删失”），像 Kaplan-Meier 估计量这样的统计方法就可以优雅地解释随时间变化的风险集大小，并仍然提供对真实风险的无偏估计。然而，如果风险较高的人更有可能退出（“信息性删失”），我们的风险集就会产生偏倚，标准方法就会失效。为了纠正这一点，已经发展出像删失概率倒数加权（IPCW）这样的先进技术，其本质上是重新加权剩余的个体，以重构原始完整风险集的特征。

尽管队列研究功能强大，但可能耗时且昂贵。这催生了流行病学中最杰出的创新之一：病例对照研究。我们不是随着时间向前追踪一个庞大的风险集，而是从终点开始。我们确定“病例”（患病者），然后选择一组“对照”。在这里，风险集的概念至关重要。对照应该是谁？现代流行病学的洞见在于，对照不应仅仅是“健康的人”。他们必须是产生病例的同一来源人群——同一潜在风险集——的样本。在一个长时期的动态人群中，这意味着对照应代表风险集的人时分布。这被称为发病密度抽样。通过这种方式选择对照，我们可以使对照组中的暴露比值成为整个风险人群中暴露分布的有效代表，从而使我们计算的比值比成为我们从完整队列研究中得到的发病率比的有效估计。这是一项智力效率的奇迹，完全建立在对风险集的正确构想之上。

超越单一事件：时间、复发与无形的历史

世界并非一个人们经历一次事件就被移出赛场的简单地方。许多疾病，从哮喘发作到癌症复发，都可能发生多次。风险集概念如何处理这种情况？以惊人的灵活性。在复发事件分析中，风险集不是静态的。在每个事件发生的瞬间，我们冻结时间并提问：“在整个队列中，谁在此时此刻有发生事件的风险？”上周发生过事件的个体，今天再次成为新事件风险集的一部分。这种在每个事件时间点对风险集的动态重新评估，使我们能够使用像 Cox 比例风险模型这样的方法来分析复发事件的速率，即使暴露随时间变化也是如此。

这种在每个事件时间点检查风险集的框架，也是生存分析检验背后的引擎。著名的对数秩检验（log-rank test），用于比较两组（例如，在临床试验中）的生存曲线，就是这一思想的优美应用。它从一个事件时间移动到下一个。在每个点上，它查看两组合并的总风险人数和刚刚发生的总事件数。然后，它根据各组在风险集中的比例，计算出每组的预期事件数。通过将所有事件时间点的观察事件数与预期事件数之差相加，它构建了一个统计量，告诉我们其中一组是否持续地比偶然预期的经历更多或更少的事件。这是一个基于在旅程的每一步向风险集提出的一系列简单的条件性问题而构建的强大比较。

也许最引人注目的应用出现在风险集本身的定义揭示了关于世界的隐藏真相之时。思考健康工人效应（Healthy Worker Effect）。如果你将一群在职矿工的死亡率与普通人群进行比较，你可能会发现矿工更健康！这并非因为采矿对你有益。而是因为要成为一名矿工，你必须首先足够健康才能工作。普通人群包括许多病得无法从事高要求工作的人。你比较了两个根本不同的风险集。研究采矿风险的正确方法是进行内部比较：在所有足够健康可以成为矿工的人群队列中，暴露程度较高的人是否比暴露程度较低的人有更高的死亡率？这个听起来简单的问题，在正确定地义可比风险集的指导下，是获得有意义答案的唯一途径。

这一原则延伸至免疫学的微观世界。为什么不同年代的人对同一种新流感病毒的反应结果有时会截然不同？答案在于免疫印记（immune imprinting），或称“抗原原罪”（original antigenic sin）。这里的风险集不仅仅由当前年龄定义，而是由出生队列定义。一个人首次显著暴露于像流感这样的病毒会“印记”其免疫系统，终生塑造其 B 细胞记忆。当一种新的、抗原相关的变体出现时，免疫系统会优先回忆起这种原始记忆。如果新变体与印记株接近，反应会迅速且具有保护性，风险较低。如果相差甚远，旧的记忆可能无效甚至起反作用，风险就很高。因此，要预测一个群体的脆弱性，我们不能将其视为一个统一的整体，而应看作是一个由不同风险集组成的马赛克，每个风险集都由其免疫史定义。一个在 1970 年代出生并被 H3N2 病毒印记的队列，对于一种新出现的 H7N9 病毒株的风险状况，将不同于一个在 1980 年代出生并被 H1N1 印记的队列。风险集是我们与病原体过去斗争的集体活记录。

从计算一个简单的风险，到设计跨越大陆的研究，再到理解我们免疫系统中的历史回响，风险集的概念证明是一个不可或缺的指南。它是一条简单的指令，却蕴含着深远的意义：定义你在谈论谁，理解他们穿越时间的旅程，你就走上了发现真理的道路。