发病率

玻尔百科

定义

发病率是流行病学中用于衡量特定时期内人群中新病例出现动态变化的指标。该指标在分母中使用人时来精确计算观察时间长短不一的个体，适用于研究动态人群中的疾病发生情况。准确测量发病率通常需要采用队列研究等纵向研究设计，通过追踪随访无病人群来记录新发病例。

核心要点

发病率衡量的是某一时期内新发病例的动态流量，这与衡量特定时间点现有病例静态存量的患病率不同。
发病率在分母中使用人时，从而能够准确测量动态人群中的疾病发生情况，因为在动态人群中，个体的观察时间长短不一。
对于稳定人群中的罕见病，患病率约等于发病率与平均病程的乘积（ $P \approx I \times D$ ）。
准确测量发病率需要采用纵向研究设计，如队列研究，该设计随访一个无特定疾病的人群，以记录新发病例。

引言

在公共卫生领域，理解疾病如何出现和传播至关重要。这不仅仅是简单地计算患病人数，更要求对新病例出现的速率有细致的理解。一个常见的挑战在于区分疾病负担的静态快照（患病率）和新发病例的动态流量（发病率）。本文通过聚焦流行病学中的一个基本测量指标——发病率，来揭开这一关键区别的神秘面纱。我们将首先探讨发病率背后的核心“原理与机制”，对比风险的简单概念与使用人时计算的更稳健的发病率。然后，在“应用与跨学科联系”部分，我们将看到这个强大的工具如何应用于真实世界场景，从追踪传染病暴发到确保药物安全，揭示对时间和事件的精确测量如何为复杂的健康与疾病领域带来清晰的认识。

原理与机制

要理解疾病如何传播和得到控制，我们必须学会计数。但不仅仅是像孩童数玩具那样。我们必须学会以一种尊重时间、风险和人口动态特性的方式来计数。在我们称之为流行病学的这门科学的核心，存在一个根本性的区别：疾病的静态快照与新发病例的动态流量之间的差异。

想象一下，你正从一座天桥上俯瞰一条繁忙的高速公路。你可以拍下一张照片，计算那一瞬间可见的红色汽车数量。这便是患病率（prevalence）——在某个时间点上，所有汽车中红色汽车所占的比例。它告诉你当前道路上红色汽车的负担。但它并不能告诉你新红色汽车出现的频率。要了解这一点，你必须观察入口匝道，计算每小时有多少辆红色汽车驶入高速公路。这便是发病率（incidence）——衡量新事件在一段时间内发生的指标。它衡量的是流量，而非存量。

发病率的两种形式：风险与率

现在，假设我们想量化新发疾病病例的这种“流量”。事实证明，有两种主要的方式来思考这个问题，每种方式都适用于不同的情况。这种选择不仅仅是一个技术细节，它反映了两种截然不同的看待世界的方式。

风险的简单概念（累积发病率）

让我们从可以想象的最直接的情景开始。我们召集一组人，比如1000名个体，他们都没有我们正在研究的疾病。我们称之为一个封闭队列（closed cohort）。然后，我们在一个固定的时期内观察他们所有人，比如恰好一年，并计算他们中有多少人患上了这种疾病。假设我们发现有80人患病。

我们可以将发病情况表示为一个简单的比例：

\text{Cumulative Incidence (Risk)} = \frac{\text{Number of new cases}}{\text{Number of people at risk at the start}} = \frac{80}{1000} = 0.08

这个量通常被称为累积发病率（cumulative incidence）或简称为风险（risk），它是一个比例。它是一个介于0和1之间的数字，可以被看作是这个群体中个体在特定时期内患上该疾病的平均概率。

但请注意一个至关重要的点：这个数字， $0.08$ ，本身是毫无意义的。一年内患某种疾病的风险为 $0.08$ ，与一生中风险为 $0.08$ 是截然不同的。因此，陈述风险时必须始终附带其适用的时间区间。“一年期风险为 $0.08$ ”是一个有意义的科学陈述；而“风险为 $0.08$ ”则不是。

复杂世界的挑战

风险的概念因其简洁而美好，但它依赖于一个非常清晰、理想化的世界：一个固定的人群，所有人都被随访相同的时间。现实很少如此合作。

考虑一个现实世界的公共卫生诊所研究季节性农民工中的结核病，或者一家医院追踪其重症监护室的感染情况。人们并非都在1月1日加入研究，并恰好待满一年。他们于不同时间进入“风险”人群。有些人提前离开。有些人不幸失访或因其他原因死亡。这是一个开放（open）或动态人群（dynamic population）。

如果一项研究中有8个人，但有些人只被观察了5或6个月，而另一些人则被观察了2年，我们如何计算“一年期风险”？用病例数除以8会产生误导，因为它将一个被观察5个月的人与一个被观察24个月的人同等对待。累积发病率的基石——一个共同的群体在共同的时间段内被随访——已经崩塌。我们需要一个更稳健的工具，一个能够包容现实世界复杂性的测量指标。

人时的力量：发病率

解决方案是一个极其优雅的想法：如果我们无法计算人数，因为他们各不相同，那么让我们计算一些他们都能贡献的东西——时间。

我们不再将人数放在分数的的分母中，而是将每个人被观察并保持在风险状态下的时间长度之和放在分母中。我们称这个量为人时（person-time）。如果一个人被随访了3年，另一个人被随访了2年，他们总共贡献了 $3 + 2 = 5$ 人年的观察时间。这就产生了发病率（incidence rate），有时也称为发病密度（incidence density）。

\text{Incidence Rate} = \frac{\text{Number of new cases}}{\text{Total person-time at risk}}

想象一个监测项目观察一个动态人群，这些人总共贡献了500人年的观察时间，在此期间发现了25例新发疾病。发病率将是：

\text{Incidence Rate} = \frac{25 \text{ events}}{500 \text{ person-years}} = 0.05 \text{ events per person-year}

这个数字与风险有着本质的不同。它不是一个比例；它的分子（人数）与分母（时间）的单位不同。它是一个真正的率（rate），就像速度（单位时间内的距离）一样。它的单位是事件数/人时。而且因为它是一个率，它不受1的限制。在一个高风险环境中，短期内的率可能轻易超过1（例如，1.25事件/人年）。

发病率的美妙之处在于，它自然地处理了来自动态人群的复杂数据。每个个体都精确地贡献了他们所能给予的：他们的风险时间。一个晚加入的人贡献的时间较少。一个患病或失访的人在那一刻停止贡献时间。所有这些时间都被加总在分母中，从而得出一个公平且稳定的对疾病发生潜在速度的测量。

更深层次的审视：作为瞬时风险率的率

让我们更深入地探讨。我们测量的这个“率”到底是什么？当我们计算出像 $0.05$ 事件/人年这样的单个数字时，我们计算的是整个研究期间的平均值。但如果风险不是恒定的呢？如果它在冬季更高，或者随着年龄增长而变化呢？

在物理学中，我们区分一次行程中的平均速度和你在任何给定时刻速度计上看到的瞬时速度。我们在这里也可以这样做。我们可以想象一个瞬时风险率（instantaneous hazard rate），用希腊字母lambda $\lambda(t)$ 表示。这是在特定时间瞬间 $t$ 疾病发生的理论“速度”。它是在下一个极小的时间间隔 $\Delta t$ 内成为病例的概率，前提是你到时间 $t$ 为止一直保持健康。

\lambda(t) = \lim_{\Delta t \to 0} \frac{P(\text{event in }[t, t+\Delta t) \mid \text{event-free at }t)}{\Delta t}

那么，我们从数据中计算出的那个发病率——分母为人时的那个——是什么呢？事实证明，这个实用的、可测量的量，正是在我们研究期间，这个潜在的、不可观察的瞬时风险函数 $\lambda(t)$ 的人时加权平均值。这个复杂的、现实世界的计算直接与一个优美的、连续的数学理想联系起来。它是对个体随访时间变化期间“平均”瞬时风险的最准确总结。

宏伟的统一：连接流量与存量

我们开始时区分了疾病的“存量”（患病率， $P$ ）和新发病例的“流量”（发病率， $I$ ）。如果让这两个基本概念彼此孤立，那将是一种遗憾。浴缸里的水位与水龙头进水的速率之间有关系吗？当然有——它还取决于水排出的速度。

对于疾病而言，“排水口”是康复或死亡。一个人患病的平均时间称为疾病的病程（duration）， $D$ 。在一个情况相对稳定的人群中——即发病率和病程不随时间发生剧烈变化（一种稳态（steady state））——我们可以写出一个简单而深刻的关系。

每年进入“患病”人群的人数是发病率（ $I$ ）乘以可能患病的人数。离开该人群的人数是患病人数除以平均病程（ $D$ ）。在稳态下，流入必须等于流出。

\text{Inflow} = \text{Outflow}

I \times (\text{Number Susceptible}) \approx \frac{\text{Number Diseased}}{D}

如果我们现在再做一个合理的假设——即该疾病是罕见病（rare）（比如，影响不到10%的人口）——那么易感人数约等于总人口规模（ $N$ ）。这样，我们可以将两边都除以人口规模 $N$ ：

I \approx \frac{(\text{Number Diseased} / N)}{D} = \frac{P}{D}

重新整理后，我们得到著名的公式：

P \approx I \times D

这个方程式是流行病学的基石。它表明，患病率（正在患病的人的比例）约等于发病率（新发病人得病的速度）与平均病程（他们持续患病的时长）的乘积。例如，如果一种疾病的发病率（ $I$ ）为 $0.002$ 例/人年，平均病程（ $D$ ）为 $5$ 年，我们可以立即估算出其患病率约为 $P \approx 0.002 \times 5 = 0.01$ ，即1%。

这个简单而强大的关系，将静态的、横断面的患病率视角与动态的、纵向的发病率视角统一起来。它揭示了疾病在人群中行为的美妙内在逻辑，将简单的计数行为转变为对公共卫生的深刻理解。

应用与跨学科联系

在前面的讨论中，我们揭示了发病率的本质。我们看到，它不仅仅是事件的简单计数，更是一种对节奏的测量，即新事件在人群中发生的韵律。其魔力在于分母：人时。这个简单而深刻的概念——按暴露时间的单位（每人年、每患者日、每小时游泳时间）来测量事件——将发病率从一个粗略的统计数据转变为一种精密仪器。手握此工具，我们便可走向世界，以一种全新的、更锐利的眼光看待各种现象，穿透混杂因素的迷雾，揭示风险的真正本质。这是一段由一个统一原则引导的旅程，它将我们从病毒暴发的中心带到处方药的微妙危险之中。

流行病学家的工具箱：从暴发到终身性疾病

在传染病暴发中，事件的脉搏最为清晰可感。想象一种病毒席卷一所大学的宿舍楼。衡量其影响的一种方法是计算罹患率（attack rate）：在整个两周内，风险人群中患病学生的总比例。这为我们提供了损害的最终快照。但它并未告诉我们攻击的速度。这是一场缓慢的燃烧，还是一场爆炸性的连锁反应？

这正是发病率大放异彩之处。通过计算每人日风险下的新发病例数，我们获得了一幅动态图景。我们可以看到感染率在第3天激增，在第7天达到顶峰，然后减弱。发病率捕捉了每个时刻的“感染力”，为公共卫生官员提供了关于疫情速度及其控制措施实时有效性的关键理解。

同样的原则也允许我们模拟整个人群中疾病的宏观模式 [@problem_-id:4638554]。在流行病期间，我们目睹发病率急剧增加——患病的风险飙升。发病率的上升是浪潮的前沿。当前患病的人数，即患病率（prevalence），也会上升，但有明显的滞后。患病率就像浴缸里的水位；发病率则是水龙头出水的速率。当你调大水龙头时，水位不会瞬间上升。这种由发病率支配的动态相互作用，是传染病建模的基石。

但发病率的用途并不仅限于快速传播的病原体。考虑一种慢性、发作性疾病，如斑秃，这是一种导致脱发的自身免疫性疾病。通过追踪一个包含数百万人的庞大队列，研究人员可以计算出首次诊断的年发病率。这不仅告诉我们这种疾病有多普遍（那是患病率），还告诉我们每年有多少新人进入患病状态。此外，通过计算年龄别发病率，他们可以发现发病风险最高的不是在儿童期或中年，而是集中在青春期和成年早期。这种洞见对于理解疾病的自然史和靶向研究其触发因素具有不可估量的价值。从稍纵即逝的病毒到终身性疾病，发病率是我们用来描述疾病出现的通用语言。

揭露隐藏的危险：从公共泳池到处方药

或许，发病率最美妙、最强大的应用在于它能够通过恰当考虑暴露来揭示隐藏的真相。我们的直觉常常被原始数据所欺骗。

让我们去一个城镇，那里正在决定应将溺水预防工作的重点放在何处。数据显示，在整个夏天，有八名儿童在该镇的开放水域湖泊中发生溺水事件，而在有监督的公共泳池中只有六名。乍一看，这些地方似乎同样危险。但这个结论是一个陷阱。我们没有考虑到儿童在每个地方游泳的时间。

该镇还收集了人时数据：儿童在开放水域游泳的总时间为 $200{,}000$ 人时，但在泳池中的时间要长得多，为 $450{,}000$ 人时。现在我们可以计算发病率了。结果发现，在开放水域中，每小时游泳的溺水率是泳池中的三倍。发病率比（Incidence Rate Ratio, IRR）为 $3.00$ 。泳池表面上的安全感是由那里巨大的游泳量所造成的假象。在湖中游泳这个活动本身就危险得多。通过按人时测量风险，发病率剥离了暴露时间的混杂效应，并指向了真正的危险源头。政策含义清晰明了：优先为开放水域区域采取干预措施，如配备救生员和开展安全宣传。

同样的逻辑在药物安全（即药物警戒 pharmacovigilance）这个高风险领域也至关重要。一种新药上市后，开始陆续出现严重副作用的自发报告，如肝损伤。生产商知道卖出了多少药片。通过将报告数除以售出的药片数来计算“风险”是否诱人？这很诱人，但也是大错特错。这就像试图通过将遇难者人数除以湖中总水量来衡量溺水风险一样。

基于销售数据的“报告率”问题重重。分子（报告数）存在大量且未知的漏报。分母（售出的药片数）无法告诉你究竟有多少患者服用了该药、服用了多久或剂量如何。它不是人时。为了得到真实情况，研究人员必须采用严谨的方法，如分析大型电子健康记录（EHR）数据库。在那里，他们可以建立一个合适的队列研究，识别每一位开始服药的患者，并 meticulous 地计算他们的暴露人日。通过将确认的肝损伤事件数除以真实的风险人时，他们可以计算出一个有效的发病率。只有这样，他们才能将其与未暴露个体的发病率进行比较，以了解该药物的真实风险。发病率是抵御错误恐慌或虚假安慰的堡垒，它要求达到保护公众健康所必需的科学严谨水平。

发现的语言：量化关联与影响

一旦我们能够可靠地计算不同群体的发病率，我们就开启了提出一些科学中最重要问题的能力。暴露——无论是化学物质、生活方式选择，还是创伤经历——如何影响疾病风险？

用于此目的的主要工具是发病率比（Incidence Rate Ratio, IRR）。在队列研究中，我们比较暴露组的发病率（ $IR_E$ ）与非暴露组的发病率（ $IR_U$ ）。这个比值， $IRR = IR_E / IR_U$ ，告诉我们暴露使基础疾病发生率增加了多少倍。如果一项研究发现某个结局对于某项暴露的IRR为 $4.000$ ，这意味着暴露组的疾病发生率是非暴露组的四倍。这个相对测量是病因学研究——寻找原因的探索——的基石。它量化了关联的强度。

然而，关联的强度只是故事的一部分。从公共卫生的角度来看，我们还需要知道暴露的绝对影响。这就需要用到风险差（Risk Difference, RD）或率差（Rate Difference）。我们不再是除以率，而是将它们相减： $RD = CI_E - CI_U$ ，其中 $CI$ 是特定时期内的累积发病率。这个值代表了可归因于暴露的超额风险。

考虑一项关于严重创伤后抑郁症的研究。IRR可能会告诉我们，创伤幸存者的抑郁症发病率是未暴露个体的 $1.67$ 倍。这指向一个强有力的因果联系。但风险差可能会告诉我们，在一年内，每 $100$ 名创伤幸存者中会额外出现 $5$ 例抑郁症。这个数字直接说明了公共卫生负担。它使我们能够计算“伤害需治数”，并为决策者提供可能需要心理健康服务的人数信息。IRR告诉我们原因的效力；RD告诉我们后果的规模。两者都源于相同的基本发病率数据，展示了其在科学发现和公共政策中的多功能性。

设计问题：赢得观察率的权利

一个单一的概念能让我们对如此多不同的问题有如此深刻的见解，这无疑是美妙的。但我们必须以一句谨慎和谦卑的话来结束。测量发病率的能力并非凭空而来；它必须通过精心和审慎的科学设计来赢得。

如果你只是在某个时间点对一个人口进行快照——即横断面研究（cross-sectional study）——你可以测量患病率（现在有多少人患病）。但你看不到变化。你看不到新发病例的流量。你没有人时。要测量发病率，你必须随时间观察一个人口。

你必须组建一个队列（cohort），一群最初没有该疾病的人，并向前随访他们，记录每一个新病例，并 meticulous 地记录每个人在患病或从研究中失访之前所处的风险时间。这种纵向观察是收集两个基本要素的唯一方法：一个真正的新发（incident）病例的分子和一个风险人时的分母。而病例对照研究（case-control study），它从抽样已经患病的人开始，并将他们与未患病的人进行比较，虽然在调查病因方面很强大，但它本身无法测量人群中的绝对发病率。

概念与方法之间的这种联系是深刻的。发病率，其核心是动态的测量。因此，为了测量它，我们的观察方法本身也必须是动态的，随时间追踪个体，这是再合适不过的了。这个简单率的力量，证明了深思熟虑、耐心观察的力量——这正是科学的灵魂。从病毒的节奏到一小时游泳的危险，发病率提供了一个统一的韵律，一个共同的节拍，我们可以据此衡量在广阔的健康与疾病领域中事件的展开。