try ai
科普
编辑
分享
反馈
  • 真实世界证据

真实世界证据

SciencePedia玻尔百科
核心要点
  • 真实世界证据(RWE)是通过对真实世界数据(RWD)进行严谨分析而得出的临床证据,旨在克服混杂等挑战。
  • 随机对照试验(RCT)具有较高的内部效度,而真实世界证据则旨在通过研究常规实践中治疗方案的运作方式来提供较高的外部效度。
  • 先进的统计方法,如倾向性评分匹配和新使用者设计,对于模拟试验和从观察性数据中生成可信的真实世界证据至关重要。
  • 真实世界证据通过监测上市后安全性、研究罕见病、解决健康差异问题以及推动学习型卫生系统的愿景,对随机对照试验形成补充。

引言

在现代医疗保健时代,我们正被海量数据所淹没。每一次临床就诊、每一张处方和每一次实验室检测,都汇入了一个被称为真实世界数据(Real-World Data, RWD)的浩瀚数字海洋。虽然这些信息蕴含着巨大潜力,但其本身并非知识。当今医学面临的关键挑战是如何将这些原始、混乱的数据转化为能够指导临床决策、改善患者结局的可信见解。这正是真实世界证据(Real-World Evidence, RWE)的核心宗旨——一个致力于理解在日常环境中,何种方法对真实患者真正有效的学科。本文旨在探讨传统临床试验的理想化结果与医疗服务复杂现实之间的关键差距。首先,在“原则与机制”部分,我们将探讨区分数据与证据的基本概念,对比随机对照试验的受控世界与观察性研究,并概述用于生成可靠真实世界证据的复杂方法。随后,“应用与跨学科联系”部分将揭示真实世界证据如何被用于监测药物安全、研究罕见病、促进健康公平,并为构建一个能持续学习和改进的未来医疗系统奠定基础。

原则与机制

在19世纪中叶,生物学正努力解开一个基本谜题:活细胞从何而来?伟大的生物学家 Robert Remak 通过艰苦的观察,注视着鸡胚胎中的细胞分裂。他亲眼看到一个细胞变成了两个。这是一个深刻的观察,一条原始数据。几年后,颇具影响力的医生 Rudolf Virchow 将这一观察锻造成一条强大而普适的定律:​​*omnis cellula e cellula​​*——所有细胞均源自其他细胞。Virchow 将一个具体的观察转化为整个生物学的基础原则。他将数据变成了证据,将观察变成了理论。

这个故事抓住了我们主题的精髓。我们同样面临着来自医学界的大量观察数据。而我们的任务,就像 Remak 和 Virchow 一样,是从原始、杂乱的数据中分辨出清晰、可信的证据,从而改变我们照顾患者的方式。这便是从真实世界数据到真实世界证据的旅程。

原始材料:何为真实世界数据?

想象一下,你能够窥探数百万人的健康旅程。你可以看到每一次医生就诊、每一张配药处方、每一次化验结果以及每一次住院记录。这个庞大且持续增长的信息集合,是在人们生活和接受医疗护理过程中作为自然副产品收集而来的,我们称之为​​真实世界数据(RWD)​​。它是现代医疗保健的“数字尾气”。

RWD 来自多种来源,每种来源都有其独特的个性和特点:

  • ​​电子健康记录(EHRs):​​ 这是医生或医院保存的数字病历。可以把 EHR 想象成一份丰富详尽的健康日记,包含医生的笔记、诊断、生命体征和化验结果。它的优势在于其临床深度。它的劣势呢?它常常是孤立的。你的心脏病专家的 EHR 不知道你那使用不同系统的初级保健医生上周给你开了什么药。这是一个详细的章节,但并非整本书。

  • ​​医保理赔数据:​​ 这是你的医疗保险公司为结算而收集的信息。它就像一张涵盖你所有医疗保健的信用卡账单。它知道你看了哪些医生、做了哪些检查、配了哪些药,无论你在保险网络内的何处就医。它的优势在于其追踪医疗事件的广度和完整性。它的劣势是缺乏临床细节。一笔理赔记录可以告诉你做了一项血液检查,但无法告知结果;它知道你被诊断为“高血压”,但缺乏导致该诊断的血压读数。

  • ​​疾病或产品登记库:​​ 这些是为特定目的而精心整理的数据集,例如追踪患有某种罕见病的患者或使用某种新医疗设备的患者。这些数据通常被一丝不苟地收集,为该疾病最重要的变量提供高质量、一致的信息。其代价是它们可能不具代表性,因为它们通常招募来自特定诊所的患者或志愿者,这可能限制了其普适性。

  • ​​患者自生数据:​​ 这是最新且或许最激动人心的前沿领域,包括来自智能手表等可穿戴设备、移动应用或患者调查的数据。这为我们提供了一个了解患者在两次门诊之间生活的窗口。

这片 RWD 的海洋是原始材料。它就是 Remak 观察到的细胞分裂。它充满潜力,但其本身还不是证据。要理解其中缘由,我们必须首先探访临床试验那纯净、受控的世界。

证据的两个世界:受控实验与真实环境

几十年来,检验一种新药的金标准一直是​​随机对照试验(RCT)​​。RCT 的高明之处在于一个简单而强大的行为:​​随机化​​。想象一下,你想测试一种治疗心脏病的新药。你召集了1000名志愿者,并通过类似于抛硬币的方式,将500人分配到接受新药组,另外500人分配到接受安慰剂或标准治疗组。

随机化这一行为具有神奇的效果。它不仅在年龄和性别等我们看得见的因素上平衡了两组,而且在平均意义上,也平衡了所有我们看不见的因素——遗传倾向、饮食习惯、生活方式以及成千上万的其他因素。它创造了两个在所有意图和目的上都完全相同的组,唯一的区别在于他们接受的药物。用因果推断的正式语言来说,随机化确保了治疗分配(AAA)与潜在结局(Y(a)Y(a)Y(a))是独立的,这一条件写作 A⊥{Y(0),Y(1)}A \perp \{Y(0), Y(1)\}A⊥{Y(0),Y(1)}。

由于各组被完美平衡,如果在研究结束时我们观察到结局存在差异,我们就能非常有信心地认为这是由药物引起的。这就是我们所说的高​​内部效度​​——结论在研究内部是可靠的。

但问题也随之而来。为了实现这种纯粹的内部效度,RCT 通常在一个类似人工“实验室”的环境中进行。它们招募高度特定的患者(通常排除老年人、孕妇或患有多种健康问题的人),这些患者受到严密监控,被提醒服药,并获得远超常规的精心护理。这就引出了一个关键问题:从这个完美的、受控的世界得出的结果,是否适用于混乱、复杂的真实世界?这是一个关乎​​外部效度​​或普适性的问题。RCT 告诉我们一种药物在理想条件下能否起作用,但它并不总能告诉我们它在常规实践中是否起作用。

从数据中锻造证据:科学家的炼金术

我们的真实世界之旅由此开始。目标是获取混乱、庞杂的 RWD,并将其锻造成​​真实世界证据(RWE)​​——即关于某种医疗产品获益或风险的、尽可能可靠的临床证据。这就是将观察转化为原则的过程。

这并不像运行一个统计分析那么简单。最大的挑战在于,在真实世界中,治疗方案并非通过抛硬币来分配。医生选择何种疗法是经过深思熟虑的,基于患者的独特情况。这就导致了一个流行病学家称之为​​混杂(confounding)​​的根本问题。

这个故事中最臭名昭著的反派是​​适应证混杂(confounding by indication)​​。想象一种新的、强效(且昂贵)的抗凝药获批上市。医生很可能会将其留给病情最重的患者——那些卒中风险最高的患者。如果你天真地比较使用新药和旧药患者的结局,你可能会发现新药组的卒中或出血事件更多。这是因为新药有害吗?不!这是因为你从一开始就在比较一组病情非常严重的患者和一组病情较轻的患者。你在比较苹果和橘子。

要生成可信的 RWE,我们必须找到纠正这种偏差的方法。我们必须努力使比较变得公平,以模拟随机试验中可能发生的情况。这就需要一个复杂的工具箱,一套通常被称为​​模拟目标试验​​的策略:

  • ​​一个明智的起点:​​ 我们可以采用​​新使用者、活性对照设计​​,而不是比较所有新药使用者和所有旧药使用者。这意味着我们只关注患者在开始治疗那一刻的情况,比较开始使用新药的患者与开始使用标准替代药物的患者。这个简单的步骤有助于确保各组在开始时更具可比性。

  • ​​统计学平衡:​​ 我们可以使用诸如​​倾向性评分匹配​​之类的方法。本质上,我们为每位患者计算一个“倾向性评分”,即基于他们所有可测量的特征(年龄、性别、实验室检查值、其他疾病等)接受新药的概率。然后,我们可以将一名接受新药的患者与一名接受旧药但倾向性评分几乎完全相同的患者进行匹配。通过创建数千对这样的“统计双胞胎”,我们可以构建出两个看起来非常平衡的大组,就像在 RCT 中一样。

  • ​​对透明度的承诺:​​ 也许最重要的工具是学术上的诚实。在接触数据之前,科学家必须公开预先注册他们的整个研究方案。他们必须明确定义自己的假设、研究人群、方法和分析计划。这可以防止他们进行“p值操纵”(p-hacking)——即通过折磨数据直到它承认某些东西,或者挑选一个看起来有趣的结果。这种对预设方案的承诺是科学诚信的基石。

置信度的谱系:从功效到效果

证据不是一个简单的“开”或“关”的开关,而是一个置信度的谱系。现代证据体系的美妙之处在于,我们现在拥有一系列工具来帮助我们理解一种新疗法在这个谱系上的位置。

介于解释性 RCT 的理想化世界和观察性 RWD 的真实世界之间的是​​实效性试验(pragmatic trial)​​。实效性试验仍然使用随机化——金标准的抛硬币方法——但它是在常规临床实践的环境中进行的。入选标准宽泛,随访不那么密集,药物的使用方式也与常规无异。它牺牲了一点内部效度,换来了外部效度的巨大提升,从而更真实地描绘出一种药物的效果。

最终,公共卫生机构等决策者必须权衡所有可用信息。他们使用像​​GRADE(推荐、评估、发展和评价分级)​​这样的框架来规范化这一过程。来自高质量 RCT 的证据始于“高”确定性。来自观察性研究的证据始于“低”确定性。但这仅仅是开始。

思考这个真实世界的难题:一种新的哮喘吸入剂在两项完美无瑕的解释性 RCT 中进行了测试。结果非常好,显示它能大幅减少严重发作(风险比 RRRRRR 约为 0.780.780.78)。我们对该药功效的信心很高。但随后,在真实世界的诊所中进行了一项大型实效性试验。结果呢?效果小得多,且在统计上不确定(RRRRRR 为 0.950.950.95)。一项使用大型登记库的观察性研究发现效果大小介于两者之间(RRRRRR 为 0.800.800.80)。

我们该如何解读这一切?GRADE 框架告诉我们要谨慎。理想世界试验与真实世界试验之间的明显​​不一致性​​是一个重要的警示信号。解释性试验对于我们真正想知道的问题——这种药物对普通患者的效果如何——可能只是​​间接​​证据。一个指南制定小组可能会将其总体确定性从“高”降至“中等”。这种药物显然具有生物学效应,但其在真实世界中的获益可能远小于最初的预期,原因可能是依从性较低或患者人群不同。

这便是真实世界证据的最终作用。它不是要取代 RCT,而是要补全整个图景。它充当了从实验室到生活的关键桥梁,检验在试验的受控熔炉中锻造出的疗法承诺,在我们所有人生活的这个美丽复杂而又混乱的世界中是否依然有效。

应用与跨学科联系

在探索了让我们能从日常临床实践的混乱中得出可信结论的原则之后,你可能会问:这一切究竟是为了什么?这仅仅是一场巧妙的统计游戏,还是它改变了我们实践医学、理解疾病,甚至定义健康的方式?我想你会发现,真实世界证据(RWE)的应用既深刻又实用。它们代表了一种根本性的转变,从一种静态的医学知识观——印在教科书上,每隔几年更新一次——转变为一种动态的、活生生的科学,能够从每一位患者身上学习。

我们不要迷失在抽象的概念中。从实验室里的一个新分子到能拯救生命的药片,其间的道路漫长而艰辛。一种药物获批前的最后、也是最关键的考验是随机对照试验(RCT)。这是最纯粹的科学。我们选取两组尽可能相同的人,一组给予新药,另一组给予安慰剂。凭借随机化的魔力,他们结局的任何差异都可以被确信地归因于该药物。RCT 给了我们一个具有高内部效度的答案——我们可以非常肯定,该药物对该试验中那些经过精心挑选的特定人群有效。

但随后,药物被投放到真实世界中。它被开给爱达荷州一位同时服用其他五种药物的80岁老奶奶,一位迈阿密的30岁马拉松运动员,以及一位东京患有罕见合并症的患者。它还管用吗?还安全吗?RCT那干净、受控的世界已不复存在。这便是RWE首要且最根本的使命:充当我们设在真实世界中的眼睛和耳朵,观察RCT的承诺是否依然成立。

为此,我们求助于现代医疗保健留下的浩如烟海的数字足迹:电子健康记录、医保理赔数据以及来自医疗设备的数据。但这股真实世界数据(RWD)的洪流还不是证据。它是一团混乱、无序的杂烩。一个患者用了药,病情好转了;另一个没用药,也好了。第三个用了药,病情却恶化了。要将这团乱麻变成证据,我们必须化身为侦探。我们必须运用因果推断的工具——那些复杂的统计方法,让我们得以发问:“如果这位特定患者没有接受这种药物,可能会发生什么?”通过在几十个因素上仔细匹配患者,或对其结局进行加权以创造公平的比较,我们便能开始模拟那项从未进行的RCT。我们可以估算药物的真实效果,并通过扫描数百万人的记录,搜寻那些在几千人规模的试验中无法发现的罕见副作用。这就是上市后监测的核心:确保理论上有效的方法在实践中对每个人都有效。

填补我们的知识空白

然而,RWE的作用远不止于验证我们已有的猜想。它使我们能够涉足我们传统的制图工具——RCT——根本无法进入的领域。

设想一个孩子生来就患有一种毁灭性的罕见遗传病,这种病每年在全世界仅影响一百名儿童。你怎么可能进行一项随机试验?你永远找不到足够的患者,而且当一种有希望但未经证实的疗法存在时,给一个患有致命疾病的孩子服用安慰剂在伦理上是不可想象的。几十年来,在这些情况下,医学除了希望和最佳猜测外,几乎无能为力。

正是在这里,RWE提供了一条新途径。我们不必放弃证据,而是可以创造证据。我们可以设计一个结构化的、前瞻性的登记库,其中每个接受超说明书用药的儿童都在严格的方案下被仔细随访。通过一丝不苟地记录他们的病程,并使用“目标试验模拟”框架将其结局与我们已知的疾病自然史进行比较,我们可以在此前毫无证据的地方生成真实、可信的证据。这并非RCT的完美替代品,但却是比无知好上无限倍的选择。这是一个平衡了治疗的伦理责任与学习的科学义务的框架。

RWE还可以回溯并完善我们对生物学最基本的理解。例如,携带像BRCA基因这样的致病性变异(该基因与乳腺癌和卵巢癌相关)的真实风险究竟有多大?多年来,我们对这种风险(即“外显率”)的估计来自高风险家庭的登记库——这些家庭之所以引起遗传学家的注意,正是因为他们家族中癌症频发。这造成了严重的查明偏倚(ascertainment bias),好比仅通过测量职业篮球运动员来估算人类的平均身高。风险估计值高得吓人,因为数据源过度抽样了那些生病的人。

现在,通过将这些有偏倚的登记库与覆盖整个卫生系统的、更具代表性的庞大数据相关联,我们可以找到那些携带这些变异但活得长久健康的人。通过应用逆概率加权(Inverse Probability Weighting)等校正性统计技术——这种技术给予原始登记库中代表性不足的人群类型更高的“权重”——我们得以洗去历史性的偏倚,得出一个更真实、更细致的遗传风险估计。我们了解到,故事并非我们曾经担心的那样具有决定性。这是一个RWE不仅评估治疗,而且加深我们对疾病本身认识的绝佳例子。

一门关于公平与综合的科学

或许,RWE在我们这个时代最重要的角色之一是作为伸张正义的工具。临床试验中的“平均患者”在历史上一直是中年白人男性。我们常常可耻地对我们最好的药物是否在女性、老年人或不同种族和族裔群体中同样有效,或具有相同的副作用一无所知。

RWE为解决这些健康差异提供了一个强有力的视角。我们现在可以专门设计研究来分析历史上代表性不足人群的结局。但这需要更高的审慎标准。我们必须提出更深层次的问题:诸如邻里或收入等健康的社会决定因素是否在混杂结果?结局本身在所有群体中的测量准确性是否相同?我们波士顿卫生系统的数据是否真的适用于阿拉巴马州农村的患者?严谨地回答这些问题,能使RWE支持对药物官方说明书的修改,提供确保疗法对最需要的特定社区安全有效的指导。这是一门确保医学为每个人服务的科学。

最终,RWE并非存在于真空中。它是科学证据宏大合唱中的一个声部。当今最先进的方法力求将所有知识线索编织成一幅连贯的织锦。想象一个单一的层级贝叶斯模型,一个宏大的数学结构,它始于我们从培养皿中的细胞学到的知识,加入来自动物研究的认知,融合早期临床试验的精确数据,最终整合来自真实世界使用的庞杂但广泛的数据。在这个框架中,每一份证据——从临床前到上市后——都在相互印证、相互校准,并以一种有原则的方式传递不确定性。这就是模型引导的药物开发(Model-Informed Drug Development)的范式,一种对我们所知一切的真正综合。

当然,并非所有证据都生而平等。我们需要一种方法来批判性地审视我们面前的证据体系。像GRADE(推荐、评估、发展和评价分级)这样的框架为此提供了正式的“交通规则”。它们迫使我们从最好的证据(通常是RCT)开始,系统地检查其弱点:研究中是否存在高偏倚风险?不同研究的结果是否极不一致?效果是否小到可能具有统计学意义但无临床意义?一项大型RWE研究可能显示出显著效果,但如果其基础的RCT存在缺陷且结果不一致,我们知识的总体确定性可能仍然很低。这种正式的、持怀疑态度的评估是良好科学的标志,确保我们不被一时的热情所误导。这种基于证据的思维不仅适用于药物,也适用于任何新技术的验证,从外科手术机器人到正在彻底改变我们如何通过组织切片诊断癌症的数字病理系统。

愿景:一个能够学习的系统

这就引出了最终的应用,即驱动整个领域的宏大愿景:创建一个​​学习型卫生系统(Learning Health System)​​。这个理念是,一家医院,乃至整个医院网络,可以从一个仅仅应用知识的地方,转变为一个不断产生知识的地方。它是一个带有反馈回路的系统。

想象一个系统,它利用自身的实时数据注意到,五年前根据一项旧研究设定的某项筛查测试阈值,现在正导致过多的假阳性并耗费资源。利用决策理论,它可以计算出一个能更好地平衡获益与危害的新阈值,然后部署它。它可能会使用贝叶斯更新来发现,某种 ранее被认为仅中等有效的康复疗法,在卒中患者的某一特定亚组中显示出更强的获益信号,然后改变其默认方案。每一位患者的旅程都汇入一个知识库,这个知识库将为下一位走进大门的患者提炼和改善护理。

这就是真实世界证据的承诺。它是一个能够学习的系统的引擎。它弥合了研究与实践之间的巨大鸿沟,将每一次临床接触都转化为发现的机会。这正是医学将如何演进的方式,变得更精确、更公平、更智能,从人类健康那丰富而复杂的现实中学习,一次一位患者。