
在探索疾病的长期原因和人类行为影响的过程中,队列研究是科学武库中最强大的工具之一。我们如何确定一种日常习惯、一种环境暴露或一种新的医疗方法是否会在数年后导致特定的健康结局?队列研究通过随访观察人群,为回答此类问题提供了一个直观且逻辑上稳健的框架。这种设计解决了在实验室实验的受控环境之外,将现实世界中潜在原因与其效应联系起来的根本挑战。
本文将对队列研究进行全面探讨。在第一部分“原理与机制”中,我们将解构这种研究设计的基本逻辑,探索其核心原则、前瞻性与回顾性方法之间的关键区别,以及用于衡量风险的统计学语言。我们还将直面其最大的弱点——混杂,并理解其在更广泛的科学证据等级中的位置。随后,“应用与跨学科联系”部分将使这些原则变得生动起来,展示队列研究如何被用于解决医学谜题、评估治疗方法、塑造公共卫生政策乃至法律论证,从而揭示其在现代科学中不可或缺的作用。
假设你想查明某个特定习惯,比如每天早上喝咖啡,是否会导致长期健康结局,如心脏病。你会如何调查这件事?最直接、最直观的方法是找到一群喝咖啡的人和另一群不喝咖啡的人,然后对他们进行多年观察,看哪一组更常患上心脏病。如果你这么做了,你就自己发现了队列研究背后的基本思想。
队列(cohort)就是一群有着共同经历或特征,并被一同随访观察的个体。这个词本身源自罗马军队,其中一个cohors是军团的十个师之一,是一群共同行军和战斗的士兵。在科学中,我们的队列是那些在时间上共同前行的人。
建立队列研究最关键的规则是:在研究的最开始,即我们称之为的基线时间点,所有入组的个体都必须未患有你感兴趣的结局。如果我们研究的是心脏病,那么我们整个队列在第一天都必须没有心脏病。为什么这如此重要?因为我们感兴趣的不是谁有病,而是谁得病。我们想要测量新发病例的出现,这个概念称为发病率(incidence)。
一旦我们有了无特定疾病的队列,我们根据他们的暴露情况进行分类。他们是喝咖啡的人还是不喝的人?他们是在化工厂工作、接触了特定化合物的工人,还是未暴露的办公室职员?。然后,计时开始。我们对这些组进行前瞻性随访。这种前瞻性的方向是该设计最大的优势。它使我们能够确立时序性(temporality):暴露必须发生在效应之前。如果一个喝咖啡的人在我们研究开始十年后患上了心脏病,我们可以确定他们的咖啡习惯先于他们的诊断。这种简单的逻辑顺序——因在果前——是任何关于因果关系主张的绝对基石。
“对人群进行前瞻性随访”这个想法可能会让人联想到一个科学家拿着写字板,耐心地等待几十年,让未来慢慢展开。这确实是一种方法,被称为前瞻性队列研究(prospective cohort study)。我们今天定义我们的队列,测量他们现在的暴露情况,然后在未来对他们进行随访,记录发生的结局。著名的Framingham心脏研究就是一个经典的例子,该研究始于1948年,随访了马萨诸塞州Framingham市的几代居民,我们关于心血管疾病的许多知识都来源于此。
但如果我们没有几十年的时间等待呢?如果相关的暴露发生在很久以前呢?在这里,流行病学家设计了一种非常巧妙的方法,就像一台科学的时间机器:回顾性队列研究(retrospective cohort study)(也称为历史性队列研究)。
想象一下现在是2025年,你想知道20世纪90年代一家工厂使用的某种化学物质是否导致了某种特定疾病。在回顾性设计中,你会使用历史记录——比如旧的雇佣名册和职业健康档案——来重建一个1995年的工队列。你会用同样的记录来确定当时谁暴露于该化学物质。至关重要的是,你1995年队列中的每个人在那时都必须未患有该疾病。然后,你会使用后续的医疗记录(同样来自过去)来“随访”这个队列在时间上前进——从1995年到比如2010年——看看谁患上了这种疾病。
请注意其中的精妙之处:尽管研究者在2025年工作,所有事件都已发生,但研究的逻辑结构与前瞻性研究完全相同。你仍然从过去一个基线时间点()的一组无病个体开始,对他们过去的暴露进行分类,并在逻辑时间上向前随访,看谁出现了结局。唯一的区别是研究者在日历时间上相对于事件的位置。
那么,我们正在随访我们的队列,新的疾病病例不断出现。我们如何以有意义的方式计算它们?科学使用两种主要的“通货”来衡量发病率,它们回答了略有不同的问题。
第一种是累积发病率(Cumulative Incidence),也称为风险(risk)。这是最直接的度量:在指定时期内,队列中患病的人口比例。如果我们从名无哮喘的工人开始,三年后,其中人患上了职业性哮喘,那么3年累积发病率为:
这是一个简单的无量纲比例。它回答了这个问题:“这个群体中的个体在这段时间内患上这种疾病的平均风险是多少?”。
但这个简单的度量有一个复杂之处。那些搬家后失访的名工人怎么办?或者因其他原因死亡的人?他们没有被完整观察三年。简单地将他们从计算中排除是不对的,因为他们在部分时间内是处于风险中的。这个问题引导我们使用第二种、更稳健的通货:发病率(Incidence Rate),也称为发病密度(incidence density)。
发病率不是从人的角度思考,而是从人时(person-time)的角度。它精细地累加了队列中每个个体被随访并保持在患病风险中的总时间。一个无病地完成整个3年随访的工人贡献了3人年。一个在1.5年后失访的工人贡献了1.5人年。一个在1年后患上哮喘的工人贡献了1人年,此时他们不再处于风险中,停止贡献时间。
通过将所有这些贡献相加,我们得到了整个队列的总风险人时。假设在我们的例子中,这总计为人年。那么发病率是:
这是一个真正的率,单位是。它衡量了人群中新病例出现的速度[@problem__id:4585369]。虽然风险是一个直观的概率,但在一个人们在不同时间进入和离开观察的动态人群中,发病率是一个更精确的度量。
队列研究的全部意义在于比较。我们想知道暴露组的发病率是否与非暴露组不同。最自然的方法是使用相对风险(Relative Risk),或风险比()。它就是暴露组风险与非暴露组风险的比值。
队列研究的美妙之处在于它允许我们直接测量这些风险,从而直接计算风险比。一个为的解释非常清晰:与非暴露组相比,暴露组患病的风险是其两倍。
你可能听说过另一个关联性度量指标,即比值比(),这是另一种称为病例对照研究的研究设计中的主要度量。比值比比较的是暴露组的患病比值与非暴露组的患病比值。现在,这里有一个微妙但深刻的观点。假设一项队列研究发现某个基因与一种疾病相关,其为。但另一项针对相同基因和疾病的病例对照研究报告的为。谁是正确的?。
两者都是正确的!它们只是在测量不同的东西。比值比和风险比在数学上是相关的,只有当疾病在人群中非常罕见时,它们才约略相等。当疾病更常见时,比值比的数值总是比风险比更远离(“无效应”值)。因此,对于一个风险因素,。这不是偏倚;这是一个数学属性。队列研究能够直接估计风险比——一个直接反映事件概率的量——是其在传达科学发现方面的巨大优势之一。
我们随访了我们的队列,计算了病例数,并得出了风险比。假设我们发现喝咖啡的人患心脏病的风险是不喝咖啡者的两倍()。就这样结案了吗?咖啡会导致心脏病发作吗?
别那么快。这就是我们遇到所有观察性科学巨大挑战的地方:混杂(confounding)。混杂因素是与你的暴露(喝咖啡)和你的结局(心脏病)都有关的第三方因素,从而在它们之间制造了一种伪关联。如果喝咖啡的人也更可能是吸烟者呢?众所周知,吸烟会导致心脏病。现在我们有了一个难题:是咖啡、香烟,还是两者兼而有之?吸烟的效应与咖啡的效应混杂在了一起。
这就是队列研究与临床研究黄金标准——随机对照试验(RCT)——之间的根本区别。在一个RCT中(如果我们能合乎伦理地进行),我们会找一大群人,随机分配一半人喝咖啡,另一半人戒咖啡。因为分配是随机的,这两个组在平均上会在所有其他方面保持平衡:年龄、遗传、饮食,以及至关重要的吸烟习惯。随机化神奇地切断了与我们已知和未知的混杂因素的联系。它创造了一个公平的竞争环境。
在队列研究中,我们没有随机化的力量。人们自己选择他们的暴露。因此,为了处理混杂,我们必须测量潜在的混杂因素(如吸烟),并使用统计方法来“调整”其效应。但这导致了观察性研究的阿喀琉斯之踵:我们只能调整我们测量的混杂因素。未测量的混杂的幽灵总是萦绕在我们的结果周围。
这种易受混杂影响的脆弱性,是为什么研究设计常被置于一个“证据等级”中,其中RCT的系统评价位于顶端,其次是单个RCT,然后是像队列研究这样的观察性设计。然而,将这个等级视为一个僵化的阶梯是错误的。科学的现实世界更为微妙。
想象一个只有一百名参与者的小型RCT,其执行得很差:随机化有缺陷,许多人退出(且一组比另一组多),研究人员在研究中途改变了他们的主要结局。现在,将其与一个庞大、精心设计的队列研究相比较,该研究涉及数十万人,对数百个潜在混杂因素进行了详细测量,并且有预先发表的分析计划以防止报告偏倚。你会更相信哪项研究?在这种情况下,大型、高质量的观察性研究可能比小型、存在严重缺陷的试验提供更可信的证据。教训是,一项研究的执行质量与其在理论等级中的位置同样重要。
此外,流行病学家已经开发出强大的工具来应对观察性数据的局限性。其中最优雅的一种是敏感性分析(sensitivity analysis),它产生一个E值(E-value)。E值回答了一个关键问题:“一个未测量的混杂因素需要多强,才能使我观察到的关联消失?”
例如,如果我们的研究发现风险比为,E值可能是。这告诉我们,一个未测量的混杂因素必须与暴露和结局都分别关联至少倍的风险比,才能完全解释我们的发现。然后我们可以退一步问一个定性问题:“是否存在如此强大的混杂因素,而我们尚未测量和调整它,这合理吗?”如果答案是否定的,我们对一个真实因果关联的信心就会增强。E值并不能解决未测量混杂的问题,但它为判断我们对此的脆弱性提供了一个定量标尺,将一个模糊的威胁变成一个可测量的威胁。
在科学证据的宏伟织锦中,队列研究是一条不可或缺的线索。它是我们观察因果随时间展开的最直接的观察工具。它植根于直观而强大的逻辑,虽然它面临着混杂的持续挑战,但现代统计方法的深思熟虑的应用使其仍然是我们了解疾病原因和公共卫生基础的基石。
在掌握了队列研究的原理之后,我们现在超越教科书的定义,看看这个非凡的工具在实践中的应用。要真正欣赏它的力量,我们必须不把它看作一个静态的公式,而是一个动态的镜头,通过它我们可以观察未来的展开。队列研究好比拍摄一部电影。我们在一个特定的时间点集结一批角色——即队列——然后让摄像机滚动,观察他们的生活、他们的暴露和他们的命运。为什么一些角色走上了一条路,而另一些角色走了另一条路?队列研究就是我们理解人类健康故事的脚本。
在我们能够理解某事为什么发生之前,我们必须首先准确地描述什么正在发生以及发生的频率。这是一个比表面上看起来更微妙的挑战。想象一下,公共卫生官员想了解一个城市的抑郁症负担。他们可以进行一次“快照式”调查,这就像为人群拍摄一张单幅照片。这能给他们患病率(prevalence)——即在那个确切时刻患有抑郁症的人口比例。但这无法告诉他们这些人是如何走到这一步的。是失业导致了抑郁,还是抑郁导致了失业?一张快照对于事件的顺序是沉默的。
要看到这个故事,我们需要电影。一项前瞻性队列研究招募了一群没有抑郁症的人,并对他们进行前瞻性随访。现在,我们可以计算新出现的新病例。这给了我们发病率(incidence),即我们演员阵容中抑郁症故事开始的速率。通过设计,我们在抑郁症发生之前测量潜在的原因,比如失业,从而确立了时序性的关键要素——这是任何因果主张的先决条件,即时间之箭。
但要使这部“电影”在科学上站得住脚,需要一种严谨的核算形式。对于每个人,我们的摄像机究竟在何时是“开启”的?在我们这个拥有海量电子健康记录的现代世界里,一个人可能在某个卫生系统中可见几年,然后消失,之后又重新出现。要计算准确的发病率,我们不能只计算事件;我们需要一个精确的分母:我们队列真正处于风险中并处于我们观察下的总“人时”。这正是医学信息学为我们的故事叙述提供基本语法的地方。通用数据模型,如观察性医疗结局合作项目(Observational Medical Outcomes Partnership, OMOP),通过一个名为OBSERVATION_PERIOD的结构将这个概念形式化。这不仅仅是一个技术细节;它是有效性的基石。它确保我们不会因为包含了个人“不在镜头前”的时间而稀释我们的发现,这种错误会使风险看起来比实际要小。它还保护我们免受奇怪的时间旅行悖论的影响,比如“永生时间偏倚”(immortal time bias),在这种偏倚中,患者似乎神奇地免受某种结局的影响,仅仅因为我们在他们甚至还没进入电影之前就开始计时了。
当我们的时钟同步、摄像机开始转动,我们就可以开始真正的侦探工作:追寻病因。这是队列研究的经典应用,它渗透到医学的各个领域。考虑一个医院里的谜题:接受抗生素万古霉素治疗的患者,如果同时使用另一种常见抗生素哌拉西林-他唑巴坦,是否更容易遭受肾损伤?临床医生注意到了一个模式,但轶事并非证据。
为了调查,研究人员进行了一项队列研究。他们随访一组使用万古霉素加哌拉西林-他唑巴坦的患者,并将他们的肾损伤率与一组使用万古霉素加另一种抗生素(如头孢吡肟)的类似患者进行比较。在考虑了其他“嫌疑人”(如年龄或病情严重程度等混杂因素)后,一个清晰的信号出现了:哌拉西林-他唑巴坦组的肾损伤风险持续地大约是另一组的两倍。这一强有力的观察性证据,在多项研究中保持一致,改变了临床实践,保护了患者,而所有这些都无需进行复杂的随机实验。
同样的逻辑从医院病床延伸到全球健康领域。我们如何知道一种新疫苗在现实世界中是否有效?虽然随机试验提供了初步证明,但它们是在理想条件下进行的。观察性队列使我们能够观察疫苗在日常生活杂乱现实中的表现。但这也是我们必须最谨慎的地方。我们必须警惕混杂,比如“健康使用者效应”(healthy user effect),即选择接种疫苗的个体在其他方面也可能更有健康意识,从而使疫苗看起来比实际更有效。
有时,故事并非简单的“A导致B”。如果A和B像在跳舞一样纠缠在一起呢?是照顾他人的压力导致了抑郁,还是有潜在抑郁倾向的人觉得照顾他人更有压力?经典的队列研究在这里可能会遇到困难。但我们可以升级我们的摄像机。通过使用面板设计(panel design)——一种我们频繁地重复测量暴露(照顾时间)和结局(抑郁症状)的队列研究——我们可以一帧一帧地观看这场舞蹈。这使我们能够提出更复杂的问题,比如一月份的照顾时间是否能预测二月份的抑郁,反之亦然。这是一种通过关注每个个体内部随时间的变化来解开这些复杂的双向关系的强大方法,这自动控制了所有使他们独特的、稳定不变的因素。
最终,这种科学叙事的目的是做出更好的决策。队列研究是循证实践的基石,指导着手术室的外科医生、治疗罕见疾病的精神科医生,甚至是法庭上的法官。
想象一位外科医生在决定如何治疗一位患有小型甲状腺癌的病人。他们应该进行甲状腺全切除术(切除整个腺体)还是更保守的半甲状腺切除术(只切除一半)?来自随机试验的“完美”证据并不存在。外科医生必须求助于次优选择:来自队列研究的证据。他们可能会发现两项结果冲突的研究。一项大型回顾性研究表明,更激进的手术有微小的好处。另一项规模较小但设计更严谨的前瞻性研究则发现没有差异。一位明智的临床医生知道如何评估这些证据,他们明白前瞻性研究凭借其预先计划的设计和标准化的方法,可能更不容易受到那些可能困扰回顾性数据的隐藏偏倚的影响。这种对研究质量的细致理解对于做出改变人生的决策至关重要。
在罕见疾病领域,例如某些形式的自身免疫性脑炎,可能表现为突发、严重的精神病,随机试验通常是不可能的。在这些病例中,用于挽救生命的免疫疗法的证据基础几乎完全建立在观察性数据之上——即对队列研究和病例系列的系统评价。在这里,队列研究并非一种“次等”的证据形式;它是指引医生的主要光源。
这种证据等级的影响远远超出了诊所。考虑一个立法机构通过一项法律,要求医生警告患者堕胎会导致不孕,其理由仅仅是一份单一的、轶事性的病例报告。这项规定在科学上站得住脚吗?在这里,对队列研究的理解成为一种公民和法律推理的工具。当一项代表了最高级别观察性证据的大型系统评价,综合了多项队列研究,显示合并风险比基本上为(无效应)时,它直接驳斥了该法律的前提。理解堆积如山的一致队列数据比单一轶事更有分量,这不仅仅是一个学术练习;它是制定公正、理性公共卫生政策的基础。
尽管队列研究功能强大,但它也伴随着深远的伦理责任。所谓的证据“金标准”,随机对照试验(RCT),涉及一项实验——主动将一些人分配到治疗组,另一些人分配到安慰剂或替代疗法组。但如果治疗方法已知有益,而拒绝提供它会有害呢?
这是许多领域的一个关键困境,例如为患有性别烦躁的成年人提供性别肯定激素治疗。主要的医疗指南承认这是一种有效的、标准化的治疗方法。进行一项RCT,将一组随机分配到“延迟治疗”组,很可能违反了临床均势(clinical equipoise)原则——即对哪个组别更好存在真正的不确定性,这是证明实验合理性的必要条件。在这种情况下,观察性队列研究不仅仅是一种方法论上较弱的替代方案;它是伦理上更优越的选择。它使我们能够从患者及其临床医生的真实世界经验中学习,而无需强迫任何人参与潜在有害的实验。
这种强大的观察能力要求对透明度有同样大的承诺。因为我们不是在实验中控制变量,所以我们更容易受到偏倚的影响。例如,一项关于医学影像的回顾性研究可能会受到来自不同扫描仪的“批次效应”(batch effects)或仅包括有完整记录的患者所带来的选择偏倚的困扰。前瞻性设计可以减轻许多这些问题,但诚实永远是至高无上的。
这就是为什么科学界制定了报告指南,例如STROBE(加强流行病学观察性研究报告的声明)。这不仅仅是官僚主义的繁文缛节;这是科学家与读者之间的契约。这是一个承诺,承诺准确描述研究中有谁,他们是如何被随访的,偏倚是如何被处理的,以及发现了什么——无论是在统计调整之前还是之后。正是这种透明度将观察转化为可信的证据,使我们能够更清晰地一点点看清世界和我们的未来。