try ai
科普
编辑
分享
反馈
  • 观察性研究:从数据中推断因果关系

观察性研究:从数据中推断因果关系

SciencePedia玻尔百科
核心要点
  • 科学研究的根本挑战是超越单纯的关联,建立真正的因果关系,这一问题可通过各种研究设计来解决。
  • 尽管随机对照试验(RCT)是确定因果关系的金标准,但在实验不符合伦理或不切实际时,观察性研究至关重要。
  • 关键的观察性研究设计,如队列研究、病例对照研究和横断面研究,各有其独特的优势,但也容易受到特定偏倚的影响,例如混杂、回忆偏倚和反向因果关系。
  • 观察性研究在公共卫生和政策等领域不可或缺,它们被用于疾病监测、风险因素识别以及评估大规模干预措施的效果。
  • 包括准实验设计和有向无环图(DAG)在内的现代方法,为从观察性数据中增强因果论证提供了强有力的工具。

引言

科学探索从根本上说,是在探寻事物发生的原因——一场旨在超越简单关联、理解真正因果关系的追寻。我们观察到某个人群的疾病发病率高于另一个人群,但这个观察结果到底意味着什么?建立因果联系充满了挑战,其中最突出的便是“因果推断的基本问题”:我们永远无法观察到一个个体在不同情境下的另一种可能。尽管随机对照试验(RCT)通过随机方式创建可比较的组群,提供了一种巧妙的解决方案,但在科学和医学领域,无数关键问题无法通过实验来回答。

本文深入探讨观察性研究的世界,这是一门从我们观察但无法控制的数据中得出因果结论的艺术与科学。它旨在弥合“看到一种模式”与“证明一个原因”之间的关键知识鸿沟。在接下来的章节中,我们将首先探讨不同观察性研究设计(从队列研究到病例对照研究)的核心原则和机制,并审视像混杂这样威胁其有效性的偏倚。然后,我们将遍览其多样化的应用和跨学科联系,探索为何这些方法不仅是次优选择,更是从揭示烟草危害到评估现代公共政策等一切事务所不可或缺的工具。

原则与机制

探寻“为什么”:从关联到因果

科学是一场宏大的探索,不仅要理解宇宙中发生了什么,更要理解为什么会发生。我们看到喝咖啡的人似乎更长寿。我们注意到高速公路附近哮喘病例集中出现。我们观察到一种新药似乎能降低血压。这些都是​​关联​​,是我们在世界中注意到的模式。但它们是因果关系吗?是咖啡导致了更长的寿命,还是喝咖啡的人恰好有其他更健康的习惯?这就是关联与因果之间的鸿沟,而跨越这条鸿沟是科学中最深远的挑战之一。

想象一下,我们想知道一种新型降压药的真实因果效应。对于任何一个人来说,都存在两种平行的现实,即两种“潜在结局”。在一种现实中,他们服用了这种药物并度过一生;我们可以将其结局(例如,一年内是否发生中风)称为 Y(1)Y(1)Y(1)。在另一种现实中,他们没有服用这种药物,其结局为 Y(0)Y(0)Y(0)。对那个人而言,真实的因果效应就是这两种状态之间的差异,Y(1)−Y(0)Y(1) - Y(0)Y(1)−Y(0)。但问题在于,这也就是一些人所说的​​因果推断的基本问题​​:我们永远只能观察到其中一种现实。一个人要么服药,要么不服药。我们永远无法看到如果不这样做会发生什么。

那么,我们到底该如何期望回答我们的问题呢?我们无法知道对个体的因果效应,但或许我们可以估计整个群体的平均因果效应,E[Y(1)−Y(0)]E[Y(1) - Y(0)]E[Y(1)−Y(0)]。要做到这一点,我们必须从观察一个人转向巧妙地观察多组人。

选择的专制与随机的魔力

假设我们简单地比较一组选择服用新药的人和一组选择不服用的人。我们几乎肯定会发现他们的中风率存在差异。但我们不能将这种差异归因于药物。为什么?因为这些组从一开始就不一样。也许选择服用新药的人是那些血压极高、本已面临更高中风风险的人。这被称为​​混杂​​,它是我们故事中的核心反派。这些组是不可比较的。

如果我们拥有一种魔力呢?如果我们能找到成千上万符合条件的人,并为每个人抛掷一枚完美的硬币?人头,你得到新药。字,你得到安慰剂。这就是​​随机对照试验(RCT)​​的精髓。它的力量——它的魔力——在于抛硬币这个动作对这个人的所有情况都是盲目的。它不在乎你是老是少,是吸烟者还是不吸烟者,是贫是富。根据大数定律,随机化创造了两个在所有可能特征上(无论是我们能测量的还是不能测量的)总体上完全平衡的组。

这个奇妙的特性被称为​​可交换性​​。这两个组是可以互换的。它们之间唯一的系统性差异就是我们引入的那一件事:药物。因此,它们结局的任何差异都可以自信地归因于药物。随机化打破了患者的潜在预后与他们接受的治疗之间的联系,从源头上击败了混杂。 这就是为什么RCT常被称为建立因果关系的“金标准”。

观察的艺术:五花八门的设计

但我们不能只生活在一个抛硬币的世界里。将人们随机分配去吸烟或居住在工厂附近是不道德的。对于公共卫生和医学中无数至关重要的问题,我们必须依赖于对世界现状的仔细观察。这就是​​观察性研究​​的领域。在这里,研究者不是一个操纵木偶的大师,而是一名侦探,从并非为他所用的数据中拼凑线索。挑战是巨大的,因为“选择的专制”又回来了——人们自我选择进入暴露组,混杂无处不在。

为了驾驭这个复杂的现实,流行病学家开发了一套不同观察性研究设计的工具包,每一种设计都是观察世界的不同“镜头”,各有其独特的优势和劣M。

队列研究:见证故事的展开

想象一下,你想研究暴露于家庭空气污染是否会导致慢性支气管炎。在​​队列研究​​中,你会招募一大群人——即队列——他们在研究开始时都没有患支气管炎。你会测量他们暴露于空气污染的程度,然后对他们进行长达数年甚至数十年的随访,看谁会患上这种疾病。

队列研究的一大优点是其清晰的​​时序性​​。你在结局发生之前测量暴露。这与我们对因果关系的基本理解相符:因必须在果之前。这种设计就像从头到尾观看一个故事展开,这赋予了它其他观察性研究所缺乏的逻辑力量。然而,它可能耗时、昂贵,并且仍然容易受到混杂的影响(例如,暴露程度较高的人可能也有其他风险因素)。它也容易陷入一个微妙但危险的陷阱,即​​不朽时间偏倚​​,在这种偏倚中,定义暴露“开始”时间的错误可能会创造一个参与者被人为地视为“不朽”(即不可能出现结局)的时期,从而使结果偏向于支持暴露。

病例对照研究:从终点线回溯

现在,想象一下你想调查一种非常罕见的神经退行性疾病的病因。进行队列研究几乎是不可能的;你将不得不追踪数百万人数十年才能获得少数几个病例。这时,​​病例对照研究​​的惊人效率就体现出来了。

在这里,你反向工作。你从终点线开始,收集你的“病例”——一群已经患有该罕见疾病的人。然后,你选择一组可比较的“对照”——来自同一来源人群但没有患该病的人。侦探工作开始了:你回顾性地调查两组人的过去,比较他们之前的暴露情况。在病例组中,过去接触某种职业溶剂的情况是否比对照组更常见?

这种设计的主要弱点在于它对过去的依赖。如果你让人们回忆多年前的暴露情况,你可能会遇到​​回忆偏倚​​。一个患有先天性异常儿童的母亲可能会比一个健康孩子的母亲更彻底地在记忆中搜寻任何可能的原因,导致暴露报告方式出现系统性差异。这不是随机误差;这是一种系统性偏倚,它可能在没有关联的地方创造出关联,或夸大真实的关联。 例如,如果病例组回忆其真实暴露的准确率为 85%85\%85%,而对照组仅为 65%65\%65%,那么一个真实的优势比 2.332.332.33 可能会被扭曲成一个观察到的优势比 3.033.033.03,这是一个显著的夸大。使用客观记录,如药房日志,可以通过对两组应用相同(不完美)的测量工具来减轻这种偏倚,将差异性误差转化为损害较小的非差异性误差。

横断面研究:时间快照

最简单的设计是​​横断面研究​​。你在一个单一时间点上对一个群体进行“快照”,同时测量暴露和结局。它快速、廉价,并且非常适合确定一种疾病的患病率——比如,目前这个城市慢性支气管炎的普遍程度如何?

然而,它在因果推断上的致命缺陷是​​时序模糊性​​。快照显示了高血压和低体力活动之间的关联,但它无法告诉你哪个在先。是高血压导致锻炼困难,还是缺乏锻炼导致了高血压?这个​​反向因果关系​​问题使其成为探究“为什么”的设计中最薄弱的一种。

证据等级

鉴于这五花八门的设计,我们如何权衡它们的发现?这就引出了​​证据等级​​的概念,这是一个根据研究类型在调查治疗的因果问题时固有的防范偏倚的能力对其进行排名的框架。

位于最底层的是​​病例报告和病例系列​​。这些是对一个或少数几个患者的详细描述,比如一份报告描述了七名年轻成年人在接种一种新疫苗后出现心肌炎。它们没有对照组。它们无法告诉我们风险,因为它们缺少分母(七个病例来自多少接种者?)。它们无法证明因果关系。但它们的价值是巨大的:它们是点燃探究之火的火花。它们是​​产生假说​​的机器,提醒我们存在某种可能性,而这种可能性必须通过更严谨的研究来检验。

顺着阶梯往上,我们找到了我们讨论过的观察性研究:横断面研究、病例对照研究,然后是队列研究。更高层级的是强大的RCT。而位于顶峰的是​​系统评价和荟萃分析​​,它们不进行新的实验,而是严谨地收集和综合关于某一主题的所有可信研究的结果,提供最全面的视角。

必须强调的是,“生物学合理性”或“机制推理”也处于这个等级的底部。虽然一个提出的因果联系在生物学层面上讲得通是件好事,但医学史上充斥着那些“本应奏效”但在实际人体中测试时却被发现无效甚至致命的疗法。人体的复杂性常常超出我们简单的模型。没有什么能替代经验数据。[@problem_g_id:4957157]

驯服偏倚的现代工具

观察性研究的艺术和科学不是静止的。研究人员在不断开发更复杂的方法来思考和控制偏倚。最强大的现代工具之一是​​有向无环图(DAG)​​。DAG是我们对问题因果结构假设的可视化地图。它让我们能够看到偏倚可能潜入的路径。

例如,在一项关于疫苗有效性的观察性研究中,DAG可能会显示一条“后门路径”,其中一个潜在因素如“体弱”使得某人既更容易接种疫苗,也更容易生病,从而产生混杂。DAG清楚地表明我们必须设法阻断这条路径。更微妙的是,它能揭示​​选择偏倚​​。如果我们只研究那些因严重症状而去诊所接受检测的人,我们就是在对一个“对撞因子”变量进行条件限制。DAG显示了这种看似无害的选择如何能在疫苗和疾病之间打开一条虚假的、非因果的路径,从而无可救药地扭曲结果。

因此,观察性研究是科学谦卑与智慧的深刻实践。它们承认我们无法控制世界,因此我们必须在观察世界的方式上变得异常聪明。通过理解每种设计的原则和威胁它们的偏倚的性质,我们可以开始拼凑出一幅可靠的因果图景,将简单的观察转化为拯救生命的知识。

应用与跨学科联系

在了解了观察性研究的原则和机制之后,你可能会留下一个挥之不去的问题:如果随机实验是发现因果关系的金标准,为什么还要理会这个混乱、复杂的观察世界呢?为什么不为所有事情都进行实验?这是一个极好的问题,其答案为我们打开了一扇全景窗,让我们看到科学在现实世界中如何运作,揭示出观察性研究并非一个拙劣的替代品,而是一种本身就不可或缺且功能强大的工具,拥有其独特的美感和精巧。其应用范围从医学史延伸到公共政策的前沿,可以说,无处不在。

一桩历史侦探案:烟草的罪证

想象一下,你是20世纪中叶的一名牙医。你开始注意到一些奇怪的现象:你接诊的许多口腔内有白色斑块(白斑病,一种癌症前兆)的患者,都是烟斗吸食者。你细致地记录了二十个这样的病例,并注意到大多数人都是烟草使用者。你刚刚完成了一份​​病例系列​​。你捕捉到了一个信号,一个可疑的事件聚集,激发了一个假说。但你证明了什么吗?还没有。你没有比较组。也许在那个时代,大多数男性都吸烟斗!你缺少一个分母;你不知道吸烟者与非吸烟者的风险。你的观察是至关重要的第一步,是一缕暗示火灾的烟雾,但它并非火灾本身。

几十年后,研究人员在你的直觉基础上,采用了一种更复杂的设计:​​病例对照研究​​。他们确定了一组新诊断为口腔癌的患者(病例),以及一组经过精心挑选的、没有患癌的类似人群(对照组)。然后他们回溯过去,询问两组人过去的生活习惯。他们以惊人的一致性发现,癌症病例组中曾为烟草使用者的几率远高于对照组。在一个假设性的研究中,优势比可能高达惊人的5.05.05.0,这意味着病例组是吸烟者的几率是对照组的五倍。这是一份强有力的量化证据,是因果链中更为坚实的一环。

最终,科学界着手进行一项里程碑式的​​前瞻性队列研究​​。研究人员招募了数千名健康人,在研究开始时仔细记录了他们的吸烟习惯。然后,他们只是等待和观察,对整个队列进行长达数年甚至数十年的跟踪。他们观察谁患上了口腔癌,谁没有。现在他们可以直接计算风险:吸烟组与非吸烟组的癌症发病率。至关重要的是,这种设计确立了​​时序性​​——暴露(吸烟)发生在结局(癌症)之前。这个从简单的病例系列到病例对照研究,最终到大规模队列研究的演进过程,是流行病学中的一个经典叙事。它展示了不同的观察性设计,各自凭借其优缺点,如何随着时间的推移协同工作,像侦探锁定嫌疑人一样,一步步地构建起一个无可辩驳的证据链。

流行病学家的“恶棍画廊”:揭开偏倚的面纱

这项侦探工作不适合胆小的人,因为世界充满了幻象和陷阱,稍有不慎便会落入其中。其中最大的陷阱是混杂,即一个隐藏的第三方因素制造了虚假的关联。其中一种最微妙和危险的形式是​​指征混杂​​。

想象一下,一种新药被开发出来用于治疗孕妇的严重高血压。研究人员查看医院记录发现,服用该药的女性比未服药的女性有更高的不良妊娠结局率。是药物造成的伤害吗?不一定!女性之所以接受这种药物,恰恰是因为她患有严重的疾病,而严重的疾病本身就是导致不良结局的主要风险因素。药物被给予了病情最重的患者,而她们本就处于最高风险之中。在一个精心构建的(尽管是假设的)数据集中,粗略的分析可能会显示该药使不良结局的风险增加了三倍。但当研究人员对数据进行分层分析时——将接受治疗的重病女性与未接受治疗的重病女性比较,将接受治疗的较健康女性与未接受治疗的较健康女性比较——这种明显的风险就完全消失了。“伤害”是由潜在疾病造成的假象。解开这个结,完美地展示了细致分析揭示真相的力量。

一种更难以捉摸的偏倚是​​反向因果关系​​,在这种关系中,时间之箭本身似乎在捉弄我们。思考一下咖啡因摄入与帕金森病之间的联系。一些研究发现,喝咖啡较少的人似乎在晚年患帕金森病的风险更高。难道咖啡具有保护作用吗?也许吧。但帕金森病有一个很长的前驱期,即疾病在大脑中发展但典型的运动症状尚未出现的数年时间。在这个亚临床阶段,患者可能会经历非运动症状,如嗅觉或味觉减退。完全有可能是这些早期未被察觉的症状, subtly 改变了一个人的行为,导致他们不那么喜欢喝咖啡,从而减少了饮用量。在这种情况下,是即将发生的疾病导致了暴露的改变,而非反之。这就是反向因果关系,它凸显了研究具有长潜伏期疾病的巨大挑战,以及为什么即使是前瞻性队列研究也必须以极其审慎的态度来解读。

当观察是唯一的出路

如果观察性研究如此具有挑战性,我们回到最初的问题:为什么要做它们?有时,答案很简单:我们在伦理上或实践上没有其他选择。

再考虑一下那位怀孕的患者。一种新药被提议用于治疗孕吐,但已知它能穿过胎盘,其对发育中胎儿的影响尚不确定。我们能进行随机试验吗?从伦理上讲,答案是断然的“不”。将一个胎儿随机分配给一种具有未知但非零致畸风险的物质,尤其是在对胎儿没有直接益处的情况下,这违反了指导人类研究的“不伤害”基本原则。我们不能以这种方式对未出生的生命进行实验。我们唯一合乎伦理的前进道路是观察:我们研究那些为自身健康而选择服药的女性,并将她们的结局与那些未服药的女性进行比较,同时使用大型​​妊娠登记系统​​和队列研究,并仔细调整诸如她们初始病情严重程度等混杂因素。

同样,考虑一种非常罕见的癌症,如唾液腺的腺样囊性癌。这种疾病不仅罕见,而且病程可能非常漫长且不可预测,复发有时会在初次治疗后十年或二十年才出现。为一种新疗法进行RCT,需要从世界各地招募数千名患者,并对他们进行几十年的随访,才能收集到足够的数据得出有意义的结论。后勤和财务上的障碍是不可逾越的。在这种情况下,大型、多中心的观察性登记研究不是次优选择;它们是推进知识的唯一选择。

现代前沿:从公共卫生到公共政策

观察性研究的逻辑远不止于临床。它是现代公共卫生和政策评估的基石。卫生部门每天都必须决定如何分配有限的资源。为此,他们需要一张问题地图。他们进行大型​​横断面调查​​——时间的快照——来测量其城市中未控制的高血压或糖尿病等疾病的患病率。这些研究无法告诉我们因果关系,但它们是监测、识别疾病热点以及长期监控人口整体健康状况不可或缺的工具。

近年来,该领域见证了“自然实验”的激动人心的复兴,这是对John Snow在布罗德街工作的现代回响。当政府或机构制定政策时,他们有时会无意中创造出“如同”随机的条件。一项政策可能在一个州推出,但在邻近的州则没有;一项新的福利可能只对某个日期之后出生的人开放。经济学家和流行病学家已经开发出一套强大的​​准实验方法​​工具包——如双重差分法、回归断点设计和中断时间序列分析——来利用这些自然实验,获得非常可信的因果效应估计。

这一点变得如此重要,以至于对于许多大规模的社会问题,传统的证据等级正在被重新思考。在研究健康的社会决定因素——如住房券或学校营养计划——的影响时,对个人进行随机化往往不符合伦理或不可能实现。在这里,一项精心实施的准实验可能是我们能获得的最强有力的证据,优于其他观察性设计。

想象一下,一个城市通过了一项含糖饮料税。两年后,争论激烈:它奏效了吗?一项精心实施的准实验研究,将该城市的肥胖趋势与一组经过仔细匹配的、没有该税收的城市进行比较,结果显示新发肥胖病例有微小但明确的减少。与此同时,几项大型队列研究观察个人自我报告的苏打水摄入量,结果却不一致且令人困惑。你相信哪一个?准实验直接探究的是政策的效果,这正是我们关心的问题。而队列研究探究的是个人消费的效果,这是一个相关但不同的问题,并且很可能受到测量误差(人们不擅长报告自己的饮食)和残余混杂的困扰。在这种情况下,严谨的、以政策为中心的准实验,尤其是在有机制性证据(我们知道糖如何影响新陈代谢)支持时,提供了更可信的答案。

最后,至关重要的是要记住,没有一项研究是完美的。即使是我们“金标准”的强大RCT,也有其局限性。一项RCT可能证明一种新的手术设备在一组高度筛选的患者和理想条件下是有效的。但一个大型的观察性登记研究可能会揭示,同样这个设备在混乱的现实世界中,在更广泛、更多样化的患者群体中的表现如何 [@problem_g_id:4648107]。前者为我们提供了高的​​内部效度​​(对因果论断的信心),而后者则能给我们带来更大的​​外部效度​​(普适性)。最深刻的理解来自于明智地综合所有来源的证据。

观察性研究的世界充满了谜题、悖论和巨大的智力挑战。它要求怀疑精神、创造力以及对现实复杂性的深刻尊重。它是一门不完美的科学,但却是不可或缺的科学。它是从世界本来的样子,而非我们希望的样子中学习的艺术,通过这种细致的观察,我们找到了拯救生命、构建更健康社会的线索。