真实世界证据 (RWE)

玻尔百科

定义

真实世界证据 (RWE) 是通过对真实世界数据进行严谨分析而产生的关于医疗产品在临床应用中的见解。该领域常采用目标试验仿真框架来减少观察性研究中的偏差，旨在提供传统受控试验之外的临床证据。真实世界证据通过提供更高的外部有效性来补充随机对照试验，广泛应用于监管决策、药物警戒以及促进精准医学和健康公平。

核心要点

真实世界证据 (RWE) 是通过对真实世界数据 (RWD) 进行严谨分析而产生的，旨在提供在对照试验之外有关医疗产品的临床见解。
目标试验模拟框架是通过明确模仿一项假设的随机试验的设计，来减少观察性研究中偏倚的关键方法。
RWE 通过提供更高的外部效度、支持长期安全性监测以及为罕见病提供证据，对随机对照试验 (RCT) 形成了补充。
关键应用包括监管决策、药物警戒、推动精准医疗以及通过研究代表性不足的人群来促进健康公平。

引言

在对医学知识的探求中，随机对照试验 (Randomized Controlled Trial, RCT) 长期以来一直是无可争议的金标准，凭借其受控的设计，其结论具有无与伦比的可信度。然而，RCT 的纯净环境往往无法反映日常临床实践中复杂而混乱的现实。这就产生了一个关键的知识鸿沟：我们如何理解医疗干预措施在真实世界中被不同人群使用时的真实有效性和安全性？这正是真实世界证据 (Real-World Evidence, RWE) 所要解决的挑战。RWE 是一个快速发展的领域，它将常规的医疗保健数据转化为可靠的科学见解。本文将作为理解 RWE 的综合指南。在“原则与机制”部分，我们将深入探讨使科学家能够在真实世界数据的混沌海洋中航行的核心概念，解释数据与证据的区别、偏倚的挑战，以及为发现因果真相而开发的精妙方法。之后，“应用与跨学科联系”部分将展示 RWE 在整个医学领域的变革性影响，从监管决策和患者安全，到精准医疗、人工智能和健康公平的前沿。

原则与机制

想象你是一名物理学家。你可以建造一个纯净的真空室，完美地隔离一个粒子，并在你完全控制的条件下用激光照射它。由此，你可以推导出基本定律。这就是随机对照试验 (RCT) 的世界，它是医学证据的传统金标准。现在，想象你是一名天文学家。你无法移动恒星，也无法在实验室里创造一颗超新星。你只能观察宏大、混乱而壮丽的宇宙本身，并从这些观察中推导出完全相同的基本法则。这就是真实世界证据的世界。作为科学家，我们的任务是发展一种“观察性航海术”，以驾驭真实世界健康数据的广阔海洋，并带回可靠的知识。

生的与熟的：数据与证据

首先，让我们理清我们的语言，因为精确是科学的核心。我们必须区分真实世界数据 (Real-World Data, RWD) 和真实世界证据 (Real-World Evidence, RWE)。它们不是一回事。

真实世界数据是原材料。它是人们在日常生活中与医疗系统互动时，作为副产品收集到的庞大、杂乱且通常混乱的健康信息集合。RWD 不是在受控实验中收集的，而是在“野外”收集的。其来源极其多样，并且与日俱增。它们包括：

来自医生就诊和住院的电子健康记录 (EHRs)。
来自保险公司的行政管理理赔与账单数据。
追踪患有特定疾病或接受特定治疗的患者的疾病或产品注册登记。
记录配发了哪些药物的药房配药数据库。
来自可穿戴传感器、移动健康应用和患者报告结局调查的患者生成数据。

这是“原始”数据。它是观察的海洋。但仅有观察并非知识。要获得知识，我们需要将这些原材料转化为经过提炼、值得信赖的东西。这种提炼后的产品就是真实世界证据。RWE 是通过对 RWD 应用严谨的研究设计和分析方法而产生的关于医疗产品的使用、益处或风险的临床推断——即知识。数据是线索；证据是案件的答案。

控制的优雅与选择的混乱

为什么从 RWD 到 RWE 如此困难？要理解这一挑战，我们必须首先欣赏随机对照试验 (RCT) 的优美简洁性。在 RCT 中，我们可能选取 10,000 人，随机分配 5,000 人接受一种新药，5,000 人接受一种标准药物。随机化的魔力在于，平均而言，这两个组在所有可以想象的方面都是相同的——年龄、性别、疾病严重程度、遗传、生活方式等等。无论是已测量的还是（至关重要的）未测量的因素，在两组之间都是平衡的。

用因果推断的语言来说，如果 $T$ 是治疗分配（ $1$ 代表新药， $0$ 代表标准药物），而 $Y(1)$ 和 $Y(0)$ 是一个人在接受新药或标准药物后的潜在结局，随机化确保了治疗分配独立于这些潜在结局： $T \perp (Y(1), Y(0))$ 。我们之后观察到的任何组间差异都可以自信地归因于药物本身。

现在，走出 RCT 纯净的实验室，进入真实世界混乱的诊所。在这里，医生不会掷硬币做决定，而是做出选择。他们可能会将更新、更强的药物给予病情最重的患者，即那些对其他疗法无效的患者。这就产生了一种被称为适应证混杂 (confounding by indication) 的根本性扭曲。如果接受新药的病情较重的患者结局更差，这是因为药物有害，还是因为他们一开始病情就更重？没有随机化，我们无法轻易分辨。这两个组从一开始就不再具有可比性。

这是困扰真实世界数据的核心幽灵。而且它并非孤身一人。还有其他幽灵潜伏在机器中：

选择偏倚 (Selection Bias)： 谁被纳入了我们的数据库？他们与未被纳入的人有何不同？如果经历副作用的患者更有可能脱离医疗系统，我们剩下的样本就会产生偏倚。
时间相关偏倚 (Time-Related Biases)： 这些是微妙但致命的陷阱。一个著名的例子是不死时间偏倚 (immortal time bias)。为了接受一种药物，患者必须存活足够长的时间才能拿到处方。这段最初的“不死”存活期可能会被错误地归因于药物的效果，使其看起来比实际更具保护作用。

驯服混乱：“目标试验”构想

面对这种混乱，科学家该怎么办？放弃吗？不。我们用智慧反击。观察性数据的问题不在于数据本身，而在于缺乏研究设计。因此，一个绝妙的想法是强加一个设计。这就是目标试验模拟框架 (target trial emulation framework)，一个在野外寻找因果关系的深刻概念工具。

该策略的优雅之处在于其简洁性：我们明确描述我们希望能够进行以回答我们问题的那个完美的、假设的随机试验的方案。然后，我们使用观察性数据尽可能地模拟该试验。这个严谨的过程将一个混乱的数据挖掘练习转变为一个结构化的科学探究。关键步骤如下：

明确目标试验方案： 在接触数据之前，我们写下我们假设实验的规则。我们精确的因果问题（估计量 (estimand)）是什么？谁符合入选资格？我们比较的确切治疗策略是什么？时钟何时开始（时间零点 (time zero)）？我们随访人们多久？我们如何测量结局？
用 RWD 模拟方案：
- 活性药物比较者、新用户设计 (Active-Comparator, New-User Design)： 为了最大限度地减少适应证混杂，我们进行同类比较。我们比较药物 A 的新用户和药物 B 的新用户，这两种药物都是出于相同原因开出的，而不是将一种药物与无治疗进行比较。这使得各组从一开始就更具可比性。
- 对齐时间零点： 我们找到每个人开始各自治疗的时刻，并在那个精确的瞬间为每个人启动随访时钟。这一个步骤就斩除了不死时间偏倚这条恶龙。
- 伟大的校正 (The Great Adjustment)： 这是关键所在。我们没有随机化，所以我们必须尝试在统计学上达到其效果。我们在时间零点之前测量一组丰富的患者特征，或称协变量 ( $L$ )——所有可能影响医生选择治疗和患者结局的因素。然后，我们使用统计方法对这些协变量进行校正，试图使两组具有可比性。这整个事业都建立在一个宏大且无法检验的假设之上，即条件可交换性 (conditional exchangeability)：在我们的已测量协变量 $L$ 为条件的的情况下，治疗选择独立于潜在结局 ( $Y^a \perp A \mid L$ )。用通俗的话说，我们必须相信我们已经测量并校正了所有重要的混杂因素。

工具箱一瞥

要建立可信的证据，你需要高质量的工具和高质量的材料。

首先，数据本身必须是“监管级别”的。这意味着它必须具有完整性（我们是否拥有关于患者的必要信息？）、可追溯性（我们能否记录数据从来源到分析的全过程？）和可审核性（独立方能否验证我们的结果？）。你不能用腐烂的木材建造一艘适航的船只。

其次，我们必须对数据中的不完美之处保持极度的诚实。考虑一个看似简单的问题：测量结局。假设我们正在寻找中风事件，但我们的 EHR 数据中的诊断代码并不完美。假设这些代码的敏感性为 $0.80$ （它们能发现 $80\%$ 的真实中风），特异性为 $0.98$ （它们能正确识别 $98\%$ 的非中风）。现在，想象一下使用旧药 (warfarin) 的真实中风风险是 $0.030$ ，而使用新药 (一种 DOAC) 的真实中风风险是 $0.020$ 。真实的风险比是 $RR_{\text{true}} = \frac{0.020}{0.030} \approx 0.667$ 。

使用我们不完美的代码，我们观察到了什么？每组观察到的风险都被扭曲了：

观察到的风险（新药）： $r_1^* = (\text{敏感性})(\text{真实风险}) + (1-\text{特异性})(1-\text{真实风险}) = (0.80)(0.020) + (0.02)(0.980) = 0.0356$
观察到的风险（旧药）： $r_0^* = (0.80)(0.030) + (0.02)(0.970) = 0.0434$

我们观察到的风险比现在是 $RR_{\text{obs}} = \frac{0.0356}{0.0434} \approx 0.82$ 。真实的保护效应 ( $RR=0.667$ ) 已经被削弱，或称衰减，趋向于“无效应”值 $1.0$ ，这仅仅是由于不完美的测量所致 [@problem_id:4833468, E]。这表明，即使两组的测量误差相同，它仍然可能使我们的结果产生偏倚。

最后，我们需要复杂的工具来解决复杂的问题。当一个混杂因素，比如患者的出血风险评分 ( $L_t$ )，随时间变化，并且本身也受到先前治疗 ( $A_{t-1}$ ) 的影响时，会发生什么？标准的校正方法在这里会失效。这时就需要像边际结构模型 (Marginal Structural Models) 这样的高级“g方法 (g-methods)”来正确处理这种反馈循环并解开因果效应 [@problem_id:4833468, A]。

两个世界：效度与实用性

那么，在所有这些工作之后，我们处于什么位置？我们正在两种类型的效度之间进行根本性的权衡。

内部效度 (Internal Validity) 问的是：研究的结论对于参与研究的特定人群是否正确？一个良好执行的 RCT 具有非常高的内部效度，因为随机化消除了混杂。整个目标试验模拟框架的目标就是将观察性研究的内部效度提升到可以信赖的水平。

外部效度 (External Validity) (或可推广性 (Transportability)) 问的是：研究的结论是否适用于其他人，比如我诊所里的患者？RCT 通常有狭窄的入选标准——它们可能会排除老年人、孕妇或患有多种合并症的人。因此，它们的研究结果可能无法推广到这些更混乱的真实世界人群。因为 RWE 研究正是从这些患者开始的，所以它们通常具有高得多的外部效度。

此外，我们必须考虑伦理维度。将一个人随机分配到我们已知较差的治疗组，或分配到一种潜在有害的暴露（如吸烟）中，是不道德的。当不存在真正的临床不确定性——即临床均势 (clinical equipoise)——时，RCT 就无法进行。在这些情况下，或者在研究非常罕见的疾病或长期结局时，高质量的 RWE 不仅仅是一个“最好能有”的替代品。它是通往知识的唯一合乎伦理的途径。

最终，RWE 并不寻求取代 RCT。它寻求成为其必要的伙伴。这个领域的美在于其方法的思想严谨性——一个思维框架，它允许科学家将设计强加于数据，解释偏倚，并在常规医疗护理那美丽、混乱且充满人情味的数据中发现隐藏的因果真相。

应用与跨学科联系

在了解了赋予真实世界证据 (RWE) 科学支柱的原则和机制之后，我们现在来到了我们探索中最激动人心的部分：理论与实践的结合。如果说前一章是关于引擎，那么这一章就是关于车辆以及它让我们能够探索的新领域。这种思维方式究竟如何改变医学？它如何与人类努力的其他领域，如法律、经济学和追求社会正义相联系？

RWE 的美妙之处在于它不是一个抽象的理论构建。它是一个实用的工具包，用以回答那些曾经令人沮丧地遥不可及的问题，是实验室纯净受控的环境与人类健康光荣复杂、混乱现实之间的一座桥梁。让我们来探讨其中的一些应用，从监管机构的大厅到人工智能和个性化医疗的前沿。

新的规则手册：在真实世界中监管医药

几十年来，证明一种新药有效的金标准一直是随机对照试验 (RCT)。这是有充分理由的！通过将患者随机分配到新疗法组或安慰剂组，RCT 就像一台优美的、能打破偏倚的机器。它确保了，平均而言，两组之间唯一的系统性差异就是治疗本身，这让我们对观察到的任何结局差异都归因于治疗这一点抱有极大的信心。这赋予了 RCT 我们所说的高内部效度。

但是，当 RCT 根本不可能进行时，情况又会如何呢？想象一种罕见的儿童白血病，它如此罕见，以至于一项传统的试验需要几十年的时间才能招募到足够多的患者来产生有意义的结果。我们能告诉那些家庭等待四十年吗？或者考虑一种已经上市药物的新用途。为一种已经广泛使用的疗法重新进行一项全新的安慰剂对照试验，是否总是在伦理上或实践上可行？

这就是 RWE 在监管规则手册中提供新篇章的地方。研究人员可以不必设立同期的对照组，而是将目光投向真实世界。通过精心分析来自大型疾病登记库或电子健康记录的数据，他们可以构建一个由具有相似特征、接受标准护理的患者组成的“合成”或“外部”对照组。利用复杂的统计方法来校正组间的差异——努力达到条件可交换性的状态——即使没有传统的 RCT，我们也可以对药物的有效性得出可信的结论。这就是 RWE 如何支持现有药物新用途的批准，这一过程被称为标签扩展，为患者，特别是罕见病患者，开辟了关键的治疗选择。

当然，这种新的力量也伴随着巨大的责任。一项观察性 RWE 研究的证据，无论其规模多大或分析得多好，其基础都与 RCT 不同。它可以有力地证明一种关联，但要明确声称因果关系则是一个更高的门槛，因为隐藏的偏倚（未测量的混杂）可能始终存在。这种区别不仅仅是一个科学上的细微差别；它具有深远的法律和伦理意义。制造商不能简单地拿一份积极的 RWE 研究报告就声称“我们的药物能治愈适应证 B”。这样的声明可能被视为误导。相反，科学诚信原则要求，主张的强度必须与证据的强度相匹配。一个真实且无误导性的沟通必须对其数据来源、方法以及观察性证据的内在局限性保持透明。

警惕的守护者：密切关注安全性

一个医疗产品的旅程并不会在批准时结束。从某种意义上说，这仅仅是个开始。将要使用某种药物或器械的人群，远比临床试验中精心挑选的参与者规模更大、更多样化。我们如何确保这些产品在长期使用中保持安全？

在这里，RWE 再次提供了一个强大的解决方案：一个动态、警惕的监察系统。可以把它想象成具有两种模式。第一种是“近乎实时”的烟雾探测器。通过持续监控来自医院和保险理赔的数据流，可以构建系统来寻找不良事件的意外模式。这并非为了获得确切的证据，而是为了快速进行信号检测。一种新的植入式器械是否在其上市后的头几个月内与高于预期的并发症发生率相关？检测到这样一个信号的总时间是数据可用性延迟（数据延迟， $L$ ）和处理分析时间（分析窗口， $\Delta t$ ）的总和。目标是使这个过程尽可能快，以保护公众健康。

一旦标记出潜在信号，第二种模式就会启动：严谨的“火灾调查”。这涉及更正式、周期性的研究，进行更深入的探讨以确认或驳斥最初的信号。这些研究速度较慢，也更审慎，但它们提供了监管行动所需的稳健证据。这种双速方法——快速监察后进行深入确认——是现代药物警戒的基石，使我们能够了解医疗产品在实际使用中的安全性概况。

行业工具箱：数据、资金与决策

如果说 RWE 是分析，那么真实世界数据 (RWD) 就是原材料。但是这些数据从何而来，我们又该如何为正确的问题选择正确的来源呢？想象一下，试图了解一个患者的完整就医历程；不同的数据源就像是观察他们经历的不同窗口，每个窗口都有其独特的视角。

保险理赔数据： 这个窗口向我们展示了医疗保健的财务轨迹。它对于理解提供了哪些服务以及成本是多少非常有帮助。它覆盖了庞大的人群和很长的时间段，这使其在估算新疗法的经济影响方面具有不可估量的价值。它的弱点是什么？临床信息稀疏。它告诉你患者做了一项实验室检查，但没有结果；它告诉你他们被诊断为心力衰竭，但没有说明病情的严重程度。
电子健康记录 (EHRs)： 这是临床医生的窗口。它富含医疗故事的细节：诊断、实验室值、医生笔记、生命体征。这种临床深度对于校正混杂因素和理解疾病的细微差别至关重要。它的弱点是什么？它通常是碎片化的。它只显示在一个卫生系统内提供的护理，遗漏了在别处发生的任何就诊、处方或事件。
疾病或产品注册登记： 这是专家的窗口。注册登记旨在收集关于特定病症或产品的深入、标准化的数据。它们通常包含患者报告的结局和其他在别处找不到的详细信息。它们的弱点是什么？它们可能受到选择偏倚的影响——选择参与的患者和诊所可能不代表所有人。

一位熟练的 RWE 科学家就像一位工匠大师，知道为哪项工作使用哪种工具——哪种数据源。通常，最有力的见解来自于将这些来源链接在一起，从而创造出一幅比任何单一来源所能提供的都更完整的图景。这在卫生经济学与结局研究 (HEOR) 中尤为关键，因为其核心问题不仅仅是“它有效吗？”，而是对于支付方和卫生系统来说，“它的成本效益如何？”

医学前沿：个性化、人工智能与公平

除了这些基础应用之外，RWE 正在推动医学可能性的边界。它是现代医疗保健领域三场最激动人心的革命的关键推动者。

首先是精准医疗 (Precision Medicine) 的革命。长期以来，医学一直采用“一刀切”的模式。RWE 使我们能够打破这一模式。通过将基因组数据 ( $G$ ) 与临床数据相结合，我们终于可以开始提出这样的问题：“这种治疗对谁最有效？”例如，在肿瘤学中，我们可以使用 RWE 来观察一种靶向疗法是否对肿瘤具有特定基因突变的患者特别有效。这是在寻找治疗效果的异质性，或估计特定亚组的因果效应， $\mathbb{E}[Y(1) - Y(0) \mid G=g]$ 。这将我们从人群平均水平推向个性化推荐。

其次是医学领域的人工智能 (AI in Medicine) 的革命。一种检测疾病的 AI 算法不是一颗静态的药丸；它是一个动态的软件，可以而且应该被更新和改进。但是，你如何监管一个随时间变化的医疗设备呢？RWE 提供了答案。它可以用来生成关于 AI 真实世界性能（其在多样化人群中的敏感性和特异性）的初步证据，并且至关重要的是，建立一个持续监控的框架。这使得所谓的算法变更协议 (Algorithm Change Protocol, ACP) 成为可能，这是一个预先指定的验证和部署更新的计划，确保 AI 在其整个生命周期中变得更好、更安全。

也许最深刻的前沿是对健康公平 (Health Equity) 的追求。临床试验历来在女性、老年人以及种族和族裔少数群体中的代表性不足。其结果是，我们的证据基础并不能完全代表我们医疗系统所服务的人群。RWE 提供了一个强大的工具来开始纠正这个问题。就其本质而言，RWD 捕捉了接受护理的全部患者群体。我们可以利用它来专门研究治疗在这些历史上被排斥的群体中的有效性和安全性。但这需要一个新的严谨水平。一个健康公平框架必须超越标准的调整。它必须积极寻找并减轻可能损害这些人群的偏倚，例如检查结局在不同种族群体间的测量是否存在差异（差异性错分），或将健康的社会决定因素作为关键混杂变量纳入考虑。如果深思熟虑地使用，RWE 可以成为促进正义的有力工具，帮助我们建立一个真正服务于每个人的医疗保健系统。

宏大的综合：一幅证据的织锦

人们很容易将 RWE 的兴起描绘成一场与 RCT 旧势力的斗争。但这是一个错误的二分法。真正的希望不在于取代，而在于综合。未来不是“RCT 对决 RWE”，而是“RCT 与 RWE”。

对于最具创新性和前景的新疗法，如细胞和基因疗法，我们面临一个共同的困境：短期效果惊人，但长期效应深具不确定性。在这里，RWE 从第一天起就成为开发计划的一部分。开发者可以使用复杂的模型来外推短期数据，但他们必须谦逊地这样做，透明地承认不确定性。同时，他们承诺进行一项前瞻性的 RWE 研究——比如患者注册登记——在产品上市后对患者进行多年的跟踪，随着时间的推移将不确定性转化为知识。

最终的愿景是创建一个“学习型健康系统”，在这个系统中，每一次患者就诊都为我们的集体知识做出贡献。在这个愿景中，我们可以将所有信息来源编织成一幅单一、连贯的证据织锦。RCT 那强大、清晰的线条（具有高内部效度），可以与 RWE 那宽广、纹理丰富的线条（具有高外部效度和规模）交织在一起。先进的统计框架，如分层贝叶斯模型，为这种编织提供了数学织机。它们使我们能够结合不同的研究，正式地考虑每个来源的独特优势、弱点和潜在偏倚，并将研究结果推广到我们关心的特定人群。

这就是真实世界证据的真正之美与统一性。它是一种哲学，要求我们在思想上严谨，在方法上创新，并对我们的不确定性保持谦逊。它使我们能够从人类健康体验的每一部分中学习，为所有人建立一个更完整、更公平、最终更有效的医学体系。