
在健康科学中,一个基本目标是量化风险——回答这样一个问题:“如果某人暴露于某一特定因素,其发生某一结局的可能性会增加多少?”虽然这个问题看似简单,但答案却十分微妙,需要一套复杂的工具来处理现实世界数据的复杂性。相对风险的概念并非单一、固化的实体,而是一个由相关度量组成的家族,每种度量都是为特定的研究背景而设计的。本文旨在解决选择和解释恰当关联度量这一关键挑战,这是一个常见的混淆点,可能导致对研究结果的误读。
本文将引导您了解相对风险的基本度量。首先,在“原理与机制”部分,我们将解析风险比(RR)、发病率比(IRR)、比值比(OR)和风险率比(HR)的数学和概念基础,阐明每种度量旨在解决的不同情境。然后,在“应用与跨学科联系”部分,我们将探讨这些工具在实践中的应用,从临床试验到公共卫生研究,展示研究设计和研究问题如何决定度量的选择及其结果的解释。
想象一下,你是一名公共卫生侦探。一家工厂引入了一种新化学品,工人们开始报告出现皮炎病例。核心问题很简单:这种化学品是否会让你更容易出皮疹?但就像任何好的侦探故事一样,一个简单的问题可能引向一段出人意料的深刻而美妙的旅程。我们的任务是揭示“更容易”的真正含义,在此过程中,我们将发现一个工具家族,其中每一种工具都为问题的不同方面而精心设计。
解决我们这个问题最直接的方法是在一个设定的时期内(比如一年)观察两组人。一组暴露于该化学品,另一组则没有。我们从每组固定数量的人开始,他们在开始时都没有皮疹。这就是流行病学家所说的封闭队列。在年底,我们只需计算每组中有多少人出现了皮疹。
假设我们跟踪了1000名暴露工人和1200名非暴露工人。到年底,60名暴露工人和36名非暴露工人患上了皮炎。现在我们可以计算每组中患病人群的比例。这个比例就是该组中个体在特定时间段内的平均风险,或称累积发病率。
为了比较它们,我们可以计算它们的比率。这就得到了风险比(RR),也称为相对风险。
其解释非常简单:在这一年中,暴露工人患皮炎的可能性是非暴露工人的两倍。RR是两个概率的比值,是一个纯数字,告诉我们关联的倍数强度。
我们也可以从另一个角度来看待这个问题。我们可以用减法代替除法。风险差(RD)给出了绝对超额风险。
这意味着,每100名暴露于该化学品一年的工人中,会额外出现3例皮炎病例,否则这些病例不会发生。RR告诉我们病因(etiology)的强度,而RD则告诉我们公共卫生方面的影响。两者都源于同一个简单的想法:在固定时间内对固定人群中的病例进行计数。
封闭队列是一个干净、完美的世界。但现实世界是混乱的。在我们的工厂里,工人们可能在不同时间被雇佣。有些人可能几个月后就辞职了,而另一些人则工作了多年。对一个固定群体进行完整的随访往往是不可能的。我们现在面对的是一个开放队列,即一个动态的人群。
当人们被观察的时间长度不同时,我们如何比较不同组别?如果一个人被观察了10年,另一个人被观察了1年,仅仅把他们当作分母中的两个人是不公平的。解决方案是将我们的思维从计算人数转变为计算人们处于风险中的时间总量。这就是人时的概念。一个人被随访10年贡献10人年;十个人被随访一年也贡献10人年。
我们不再计算风险(一个比例),而是计算发病率——新发病例数除以总观察人时。这不再是一个介于0和1之间的概率。它是一个速度,就像千米每小时一样。它告诉我们疾病在人群中发生的速度有多快。
假设我们工厂的记录显示,在几年内,暴露组累积了2400人年的观察时间,并有120例病例,而非暴露组则有3000人年的观察时间,并有90例病例。
这些率的比值就是发病率比(IRR)。
这告诉我们,在任何给定时间,暴露组患皮炎的发病率比非暴露组高出约67%。IRR是速度之比,非常适合随访时间不等的开放队列这种动态现实 [@problem_id:4632623, 4511156, 4582008]。
有时我们甚至无法进行队列研究。想象一种非常罕见的疾病。我们可能需要跟踪数百万人几十年才能得到少数几个病例。这不切实际。因此,我们反其道而行之。我们不按时间向前跟踪人群,而是从结局开始。我们找到一群已经患有该疾病的人(“病例”)和一组没有患病的相似人群(“对照”)。然后,我们回顾过去,看他们的暴露史是否不同。这就是病例对照研究。
但在这里我们面临一个难题。我们无法计算风险。我们不知道人群中暴露的总人数,所以我们没有计算风险所需的分母()。我们似乎陷入了困境。
这时,一点数学上的巧思就能解救我们。让我们把数据整理成一个标准的2x2表格:
| 病例 | 对照 | |
|---|---|---|
| 暴露 | a | b |
| 非暴露 | c | d |
这里,'a' 代表暴露的病例,'b' 代表暴露的对照,'c' 代表非暴露的病例,'d' 代表非暴露的对照。
我们不问疾病风险,而是问一个不同的问题:“一个病例曾暴露的比值,与一个对照曾暴露的比值相比如何?”
这两个比值的比率就是我们可以从研究中计算出的比值比(OR):
接下来是见证奇迹的时刻。事实证明,这个量——暴露比值的比率——在数学上等同于疾病比值的比率(如果你暴露了,患病的比值 ,相对于未暴露者患病的比值 )。这被称为比值比的不变性,它是解锁病例对照研究的关键。由于这种恒等性,通过测量我们能够测量的东西(暴露比值),我们得到了我们关心的关联的一个有效估计。
但这与我们钟爱的风险比有何关系?谜题的最后一块是罕见病假设。当一种疾病很罕见时,患病的风险(例如,)与患病的比值()几乎相同。因此,对于罕见疾病,比值比可以很好地近似风险比()。更巧妙的是,如果对照组是在病例出现时从风险人群中抽样(一种称为密度抽样的方法),那么OR可以直接估计发病率比(),无需罕见病假设![@problem_id:4582008, 4638782]。
我们的IRR给出了一个长时期内疾病的平均速度。但如果这个速度发生变化怎么办?对于我们工厂的工人来说,也许化学品的影响初期很强,但随着身体适应或引入更好的防护装备,其影响会逐渐减弱。一个平均率可能会掩盖这一重要细节。我们需要一个速度计,而不仅仅是平均行程速度。
这就是风险率比(HR)的工作。风险率(hazard)是在特定时间点,鉴于你到那一刻为止一直无事件存活的条件下,发生事件的瞬时风险。它是此刻发生事件的可能性。HR通常通过Cox比例风险模型估计,是两组之间瞬时风险率的比值。
关键的洞见在于,HR是瞬时率的比值,而不是累积概率的比值。一个恒定的HR为2.0并不意味着到研究结束时你的累积风险是两倍高。你的最终风险取决于在整个研究期间对这些风险率进行积分。
考虑一个戏剧性的例子。想象一种新疗法,其风险率在最初非常高(由于危险的副作用),但之后非常低。瞬时风险率比可能在第一个月是 ,但在剩下的一年里是 。相比之下,安慰剂组的风险率稳定且中等。到年底,HR是一个非常有利的0.1。但由于许多人在早期因副作用而退出,治疗组事件的总体累积风险可能仍然更高。瞬时视角和累积视角可以讲述不同的故事。
HR和IRR是近亲。HR是瞬时速度,而IRR是整个行程的平均速度。如果风险率随时间恒定(就像汽车开启巡航控制),那么HR将等于IRR [@problem_id:4545582, 4639090]。
我们已经为理解相对风险构建了一个强大的工具包,其中每个工具都为特定任务而设计:
这些度量都相互关联,在某些条件下(罕见病、恒定风险率)常常可以相互近似。但它们之间存在一个最终的、令人费解的特性,使它们与众不同。
让我们想象一下,你测试一种药物,发现男性发生不良事件的风险率比为2.0。你进行另一项独立分析,发现女性的风险率比也是2.0。现在,你将数据合并,对所有人进行整体分析。总的风险率比是多少?逻辑上它必须是2.0。
但令人惊讶的是,它不是。这个属性被称为不可坍缩性(non-collapsibility)。为什么会这样?风险率比是一个动态度量。它是在任何给定时刻仍在风险中的人群中计算的。假设男性的基线风险远高于女性。在非暴露组中,高风险的男性会先发生事件并相对较快地从风险池中“脱落”,留下一个越来越多由低风险女性组成的群体。在暴露组中(HR为2),所有人脱落得都更快,但风险池的构成也在变化。随着时间的推移,暴露组和非暴露组的构成会产生分歧。当你合并数据时,你不再是同类比较了。你是在比较一个混合组与一个不同构成的混合组,所得的比值是一个被扭曲的平均值,它不等于统一的层特异值2.0。
这是HR和IRR固有的数学属性,因为它们是率的比值。它不是一种统计混杂;即使在基线没有混杂的情况下,它也依然存在。
然而,风险比的表现却如我们所预期。作为一个固定时期内比例的简单比值,层特异RR的加权平均值会得到正确的边际RR。RR是可坍缩的(collapsible)。
这最后的转折揭示了我们看似简单的问题背后深刻的微妙之处。衡量“可能性增加多少”并非一刀切。工具的选择——从简单的RR到复杂的、不可坍缩的HR——塑造了我们对现实的看法,揭示了暴露与结局之间随时间推移的复杂舞蹈的不同侧面。这是一个美丽的例证,说明在科学中,测量的精心构建本身就可以像测量结果一样富有启发性。
在掌握了区分各种关联度量的原则之后,我们现在可以踏上一段旅程,看看这些思想在实践中的应用。现实世界与教科书不同,很少是整洁有序的。数据以各种形式和规模呈现给我们,从精心策划的临床试验到庞大、混乱的电子健康记录档案。流行病学和生物统计学的真正魅力在于其多功能的工具包,它允许我们以多种不同的方式提出同一个基本问题——“这项暴露与此结局有何关联?”——每种方式都针对手头证据的具体性质量身定制。让我们来探索这个工具箱,看看选择正确的工具如何照亮我们在医学、公共卫生及其他领域的理解。
想象一组临床研究人员正在研究癌症结局。他们的唯一首要目标是找到预测复发或转移的因素,但他们收集数据的方式将决定他们必须使用的统计语言。这种情况反映在皮肤癌 或孕产妇死亡率 的研究中,揭示了一个优美的原则:研究设计与关联度量密不可分。
假设我们的研究人员有幸进行了一项完美设计的队列研究。他们招募了一组(比如说)免疫抑制患者和另一组非免疫抑制患者,并对他们中的每一个人进行整整两年的随访,以观察谁出现了转移。这是一个具有固定时间窗口和完整随访的“封闭队列”。
在这种干净、理想的情景下,我们可以直接计算每组中结局发生的概率,即风险。风险就是发生事件的人数除以该组开始时的人数。风险比 (RR),或相对风险,是最直接和直观的度量:
RR为意味着在随访期结束时,暴露组经历该事件的概率是原来的两倍。这是一个关于在确定时期内累积危险的简单、有力且易于解释的陈述。这是我们可能用来比较创伤事件后12个月内抑郁症的风险与无创伤情况下的风险,或一种抗抑郁药与另一种抗抑郁药的副作用风险 的度量。
但如果疾病非常罕见,比如一种特定类型的癌症呢?为了观察少数几个病例而对庞大队列进行长达数年的跟踪将是极其低效和昂贵的。相反,研究人员可能会进行病例对照研究。他们找到少数已经患有该疾病的患者(“病例”),并将他们与一组没有该疾病的类似人群(“对照”)进行比较。然后他们回顾过去,通常是通过记录,看暴露在其中一组中是否比另一组更常见。
在这种设计中,我们不能再直接计算风险,因为我们不知道病例所来源的总人群的大小。我们是刻意挑选了病例。在这里,一个不同的工具来拯救我们:比值比 (OR)。一个事件的“比值”是它发生的概率除以它不发生的概率,即 。OR是病例中暴露比值与对照中暴露比值的比率。
OR的魔力在于,它是我们能够从病例对照研究中计算出来的,并且在“罕见病假设”下,它为我们最初想要的风险比提供了一个极好的近似!这种数学上的便利是现代流行病学的基石,使我们能够有效地研究罕见疾病。
现在我们来到了最现实的场景。在大多数长期研究中,无论是临床试验还是对来自健康记录的真实世界数据的分析,人们的随访时间都不同。一些参与者搬走了,一些人退出了,一些人死于其他原因,还有一些人比其他人晚加入研究。这被称为“删失”和“可变随访”。
在这种混乱的现实世界背景下,在研究结束时计算的简单风险比将存在偏倚。一个只被随访了一年的人,与被随访了五年的人相比,没有相同的“机会”发生事件。解决方案不是从最终的累积风险角度思考,而是从随时间变化的瞬时风险角度思考。这种瞬时风险被称为风险率 (hazard)。
风险率比 (HR),通常使用Cox比例风险模型估计,它在任何给定时间点比较暴露组与非暴露组的风险率。其核心假设是这个比率在研究期间是恒定的。HR为意味着,在任何时间点,暴露组中尚未发生事件的个体,其此刻发生事件的瞬时风险是非暴露组同类个体的两倍。HR是现代临床试验中用于时间-事件结局分析的主力,因为它优雅地处理了删失并利用了所有可用信息。
一个近亲是发病率比 (IRR)。我们可以不考虑瞬时变化,而是将所有参与者处于风险中的总时间(“人时”)相加,然后用事件数除以这个总数。这样就得到了一个发病率(例如,每100人年的事件数)。IRR就是这些率的比值。对于罕见事件,在类似的假设下,IRR和HR通常非常接近,并且当随访时间不相等时,它们是最合适的度量。
虽然像RR、OR和HR这样的相对度量对于确定是否存在因果联系及其强度至关重要,但它们并不能说明全部情况。临床医生和患者通常需要问一个不同的问题:不是“可能性高多少倍”,而是“最终的差异是多少?”
这就是相对风险和绝对风险之间的区别。想象一种药物能将事件风险降低,相对风险为0.50——即降低了50%。这听起来很了不起。但如果事件非常罕见,比如说基线风险为0.002,那么这种药物将风险降低到0.001。风险差 (RD),即绝对风险降低值,仅为0.001,或0.1个百分点。你需要治疗1000人才能预防一个事件(需治疗人数,NNT)。
现在考虑另一种药物,它对一个非常常见的事件具有温和的RR值0.75,就像在一个心力衰竭试验中,基线12个月风险为40%。这种药物将风险降低到30%。RD是10个百分点(0.10)。在这里,NNT仅为10。
对于公共卫生影响和临床决策,绝对风险差通常是最关键的度量。它量化了暴露的真实世界负担或干预措施的实际益处,将统计结果转化为受影响的生命和所需资源的语言。
这些概念的应用不仅仅是将数字代入公式;它需要科学判断和技艺来应对数据的实际限制和不完美之处。
如果你有一个包含人血液样本的队列,但对每个人进行生物标志物检测过于昂贵,该怎么办?流行病学家发明了巧妙的抽样策略来克服这个问题。在巢式病例对照设计中,研究者找到队列中发生的所有病例,并为每个病例从当时仍处于风险中的人群中抽取几个匹配的对照。在病例队列设计中,研究者分析所有病例,但将它们与整个基线队列的一个随机子样本进行比较。通过正确的统计调整,这些高效的设计能够以一小部分成本产生有效的风险率比估计,使大规模分子流行病学成为可能。
另一个现实是我们的测量很少是完美的。当使用电子健康记录来识别如心脏病发作之类的结局时,用于定义病例的算法可能具有不完美的敏感性(它会漏掉一些真实病例)和不完美的特异性(它会错误地标记一些非病例)。这对我们的结果有什么影响?一个有趣的原则出现了:如果这些分类错误是非差异性的——也就是说,算法在暴露组和非暴露组中犯错的频率相同——结果通常是趋零偏倚。我们观察到的风险比或率比会比真实值更接近1.0。效应会显得比实际更弱。了解这一点有助于研究人员批判性地解释他们的发现,明白他们可能看到的是真实效应的低估值。
最后,这些度量之间的关系可以揭示深刻的真理。风险率比可以随时间保持不变,而风险比却在变化吗?是的。这在存在竞争风险的情况下可能发生。想象一种暴露,它极大地增加了因A原因死亡的瞬时风险(一个高的HR)。因为暴露组中有如此多的人因A原因死亡而提前被移出观察,所以留下来因B原因死亡的人就更少了。在较晚的时间点,B原因的累积风险(RR)在暴露组中甚至可能显得更低,即使该暴露对B原因没有直接影响。HR捕捉了直接的生物学效应,而RR则捕捉了对人群随时间累积概率的净结果。
这段从简单的风险比到风险率与竞争风险之间微妙相互作用的旅程,展示了流行病学思维的力量和优雅。这些不仅仅是抽象的数学概念;它们是让我们能够将原始、复杂和不完美的数据转化为可以解释疾病和拯救生命的知识的基本工具。