真实世界数据：原则、挑战与应用

玻尔百科

定义

真实世界数据：原则、挑战与应用是一个跨学科框架，通过与物理世界的反馈循环，使数字模型能够演进为交互式的数字孪生。该领域致力于利用先进的统计方法以及严格的验证与确认流程，解决真实世界数据中固有的混杂偏倚和序列相关等数据杂乱问题。这些原则广泛应用于电网管理和医疗器械安全等领域，并利用统计检验来持续监测概念漂移。

核心要点

真实世界数据促成了从静态数字模型到实时数字映像，并最终演进为交互式数字孪生，从而与物理世界建立起反馈回路。
RWD 本质上是混乱的，带来了诸如混杂偏倚、数据不完整和序列相关等挑战，需要采用先进的统计方法来确保得出可靠的结论。
基于 RWD 构建的模型的信任度是通过一个严谨的过程建立的，该过程包括验证（正确实现）和确认（正确表示现实）。
维持信任需要对“概念漂移”保持持续警惕，利用统计检验来检测真实世界何时发生变化以及模型何时失效。
RWD 的原则适用于不同学科，使得从电网管理、软件优化到医疗设备安全等领域都能获得数据驱动的洞见。

引言

在一个日益互联的世界里，我们被海量数据所包围。这些数据并非产生于纯净的实验室，而是在日常生活的混乱、复杂的过程中产生的。这种真实世界数据（RWD）带来了弥合我们抽象模型与物理现实之间鸿沟的变革性希望。然而，利用其力量远非易事。理论模型提供了一个清晰的蓝图，而 RWD 更像是一个扭曲的映像，被隐藏的偏倚、缺失的部分和纠缠的时间之箭所扭曲。核心挑战，也是本文的重点，在于学习如何解读这种扭曲的映像，以构建不仅智能而且可信赖的系统。

本文旨在揭开真实世界数据的神秘面纱。首先，在原则与机制部分，我们将探讨其基本概念，描绘从简单的数字模型到完全交互式的数字孪生的发展路径。我们将直面那些使 RWD 如此难以处理的严峻统计挑战——混杂、数据不完整和相关性——并概述建立信任所需的严格过程：验证（verification）、确认（validation）和警惕（vigilance）。随后，应用与跨学科联系部分将把这些原则付诸实践，展示这一统一的不确定性推理框架如何应用于工程、医学和计算机科学等高风险领域。通过这次探索，您将深刻体会到我们的模型与世界本身之间永恒而动态的对话。

原则与机制

设想您想了解一个复杂、繁华的城市。您可以研究一张精心绘制的地图——一个理论模型。这张地图可能基于旧的蓝图和城市规划的一般原则。它是一个数字模型，对某些类型的分析很有用，但它与城市鲜活的现实完全脱节。它知道街道，但不知道交通。

现在，如果您能将交通摄像头的实时画面、气象传感器和公共交通数据直接整合到您的地图上呢？您的地图将会变得生动起来，显示正在形成的交通拥堵、移动中的公交车和聚集的人群。它将成为城市的一面镜子，一个完美的数字映像。这是真实世界数据（RWD）的第一个伟大前景：创造一个与现实永久同步的计算产物，一个反映世界状态演变的实时镜像。这种持续更新，即模型通过每一条新信息来完善其对世界的理解，是一个被称为数据同化的过程。

但如果您能更进一步呢？如果您的地图不仅能看到交通拥堵，还能改变交通信号灯的时序来疏导拥堵呢？如果它能根据实时需求重新规划公交线路呢？现在，信息流不再是单向的。城市为地图提供信息，而地图反过来作用于城市。这种感知、思考和行动的闭合双向回路创造了一个真正的数字孪生。它不仅仅是一个被动的镜像，而是一个主动的参与者，一个与物理系统共同演进的伙伴。这段从静态地图到交互式伙伴的旅程，展示了使用真实世界数据日益增长的力量和雄心。

哈哈镜：为什么真实世界数据难以处理

一个完美的、实时的现实镜像的想法很美好，但事实是，真实世界数据与其说是一面完美的镜子，不如说更像哈哈镜中的映像：弯曲、扭曲，并且有缺失的部分。它是“发现”的数据，是在生活的混乱过程中收集的，而不是在受控实验的纯净环境中“制造”的数据。为了从中得出可靠的结论，我们必须首先学会识别其扭曲之处。

“苹果与橘子”问题：混杂

设想您是一名医生，正在使用医院记录的数据研究一种新的救命药物。您注意到，接受新药的患者比接受标准治疗的患者预后更差。一个幼稚的结论是新药有害。但一位明智的医生知道得更多。也许这种新药，作为一种实验性且强效的药物，只被给予了病情最重的患者——那些本就可能预后不佳的患者。您不是在比较同类事物；您是在比较一群病情非常严重的患者和一群病情较轻的患者。

这是适应症混杂的典型问题。在真实世界中，选择并非随机做出。存在着隐藏的原因，即混杂因素，它们既影响我们看到的数据（给予了何种治疗），也影响我们测量的结果。RWD 的挑战在于，这些混杂因素通常未经测量或未知。从这些数据中提取真正的因果效应，就像试图通过观察一个阳光最充足的地方恰好也施了最多肥料的花园来判断肥料是否有效。阳光和肥料的效果纠缠在一起。为了解开它们，我们需要复杂的统计方法，以便在事后创造一个“公平的比较”，这项任务通常很困难，有时甚至不可能。

缺失部分的问题：不完整数据

真实世界的数据集以充满漏洞而臭名昭著。在一项医学研究中，患者的实验室检测结果可能会缺失。为什么？这个“为什么”的答案至关重要。统计学家将数据缺失划分为一个谱系，其“狡猾”程度各不相同：

完全随机缺失 (Missing Completely At Random, MCAR): 缺失与患者或其数据完全无关。这就像一本书中随机掉落了一页。它减少了我们的样本量，但不会扭曲故事。
随机缺失 (Missing At Random, MAR): 缺失取决于我们确实拥有的其他信息。例如，也许年长的患者不太可能完成某个问卷。如果我们知道患者的年龄，我们可以在统计上对此进行解释。缺失的原因存在于观测到的数据中。
非随机缺失 (Missing Not At Random, NMAR): 这是最危险的情况。缺失取决于缺失值本身。例如，血压非常高的人可能不太愿意报告他们的血压读数。缺失的原因存在于我们没有的数据中。

这导致了数据分析最深刻、最令人谦卑的局限之一。事实证明，一般情况下，你无法仅凭观测数据来区分 MAR 和 NMAR 的世界。可以构建两种完全不同的情景——一种是良性的 MAR 机制，另一种是险恶的 NMAR 机制——它们会产生完全相同的你能看到的数据集。这被称为不可识别性。这意味着，因为两种情景下的观测数据完全相同，所以无论多么巧妙的统计检验都无法告诉你你身处哪个世界。你被迫做出一个假设，一个无法检验的信仰之跃。这揭示了仅从不完整数据中可以知晓的知识的根本边界。

时间之箭的问题：相关数据

来自真实世界的数据，特别是随时间推移收集的数据，很少由独立事件组成。今天的股价与昨天的有关；患者某一时刻的心率与前一时刻的心率有关。这些数据点是序列相关的。

忽略这种相关性是一个严重的错误。这就像你认为你有一百个独立的犯罪目击者，而实际上你只有一个人的故事被重复了一百遍。你会对那一个故事变得过于自信。在统计学上，相关性减少了有效独立样本数量。一个包含一千个数据点的时间序列可能只含有与十个真正独立样本相同的信息量。如果你忽略这一点，并使用假设独立性的标准统计公式，你将大大低估你的不确定性，有时会低估几个数量级。你会在应该充满怀疑的时候却相信自己已经确定无疑。为了正确处理这类数据，我们需要特殊的技术，比如分块自助法 (block bootstrap)，它通过对故事的片段进行重采样，而不是将书页撕开并随机洗牌，从而尊重数据的时间线。

建立信任：验证、确认与警惕

既然 RWD 如此混乱，我们如何才能构建我们能够信任的模型，尤其是在医学或自主系统等高风险应用中？答案在于一个严谨的、多层次的建立信心的过程。

正确地解方程 vs. 解正确的方程

首先，我们必须区分两个基本活动：验证（verification）和确认（validation）。

验证关乎内部正确性。它问：“我是否在正确地解我选择的方程？” 这是一个数学和软件工程的学科。我们检查代码中的错误。我们确认我们的数值算法是否以其理论速率收敛。一种优美的技术是制造解方法，我们发明一个解，将其代入我们的方程中看它解决了什么问题，然后检查我们的代码是否能解决那个问题并恢复我们发明的解。这就像给你的计算器一个你已经知道答案的问题。这个过程不会告诉我们任何关于真实世界的事情，但它确保了我们的工具是精确和真实的。

另一方面，确认关乎外部现实。它问：“我是否选择了正确的方程来解？” 这是一门实证科学。在这里，我们必须直面真实世界。我们用我们经过验证的模型，并用它从未见过的新真实世界数据进行测试。我们检查它的预测是否与实际发生的情况相符。我们评估其声称的不确定性是否诚实——如果它声称有 95% 的置信度，它是否在大约 95% 的情况下是正确的？这就是 RWD 变得不可或缺的地方，它不仅是构建模型的原材料，也是确认模型的最终仲裁者。

统一原则：作为近似的模型

支撑整个过程的是一个来自信息论的优美、统一的思想。当我们从数据——任何数据，无论是真实世界的还是其他的——建立一个统计模型时，我们通常在做的，是隐含地试图找到一组模型参数，使得我们观察到的数据尽可能地可能。这被称为最大似然估计（MLE）。但为什么这样做是好的呢？

答案是，最大化似然在数学上等同于最小化真实世界数据分布与我们模型分布之间的Kullback-Leibler (KL) 散度。KL 散度是“惊奇”或“距离”的度量。它量化了一个模型对实际数据的惊奇程度。因此，当我们执行 MLE 时，我们在深层意义上是在我们选择的模型族中寻找那个与现实“最接近”的模型，那个对世界本来的样子最不感到惊奇的模型。

警惕：世界不会静止不动

最后，即使一个经过完美验证和确认的模型也不是永远可信的。真实世界在变化。交通、疾病或金融市场中的统计模式会随时间推移而改变。一个基于去年数据训练的模型可能对今天的情况是一个糟糕的指导。这种现象被称为概念漂移。

为了维持信任，一个依赖 RWD 的系统必须保持警惕。它需要一个“烟雾探测器”来在世界发生变化时发出警报。其中一种最优雅的探测器是序贯概率比检验（SPRT）。它持续监听传入的数据流，并计算似然比：这些数据在一个“漂移”模型下的可能性与在原始“标称”模型下的可能性相比高出多少？该检验维持两个阈值。如果漂移的证据变得压倒性地强，它就会越过上阈值并发出警报。如果“无漂移”的证据变得压倒性地强，它就会越过下阈值并重置，准备再次监听。

这种探测器的一个具体实现可能会使用一个几何度量，如马氏距离 (Mahalanobis distance)，它计算一个新数据点距离训练数据中心的距离，同时考虑到数据的形状和相关性。当新数据的平均距离开始增大时，这是一个迹象，表明我们不再处于我们所认为的那个世界里。这种持续的警惕是安全有效地使用真实世界数据的最后一个关键原则，完成了从静态地图到活生生的、适应性的、可信赖的数字伙伴的旅程。

应用与跨学科联系

既然我们已经探讨了处理真实世界数据的原则和机制，让我们踏上一段旅程，看看这些思想在实践中的应用。在抽象层面讨论偏倚、混杂和确认等概念是一回事；而在工程、医学和计算机科学的核心领域见证它们则是另一回事。您会发现，无论在哪个领域，同样的基本挑战和同样优雅的不确定性推理原则都会一再出现。这就是科学内在的美和统一性：我们的模型与现实之间的同样舞蹈在任何地方都在上演，从发电厂的嗡嗡声到救生算法的无声逻辑。

将我们的模型根植于现实

从本质上讲，科学是我们关于世界的想法与世界本身之间的一场对话。我们的想法以模型的形式出现——一组方程、一个计算机模拟，甚至只是一份制造商的规格表。真实世界数据是世界在这场对话中的回应。它是最终的仲裁者，是使我们的理论保持诚实的基石。

设想您是电网控制中心的一名工程师。一家发电机制造商提供了一份规格表，一个简单的模型，说明了发电机可以增加或减少其功率输出的最大速率——即其“爬坡率”。这是理想情况。但在电网混乱的现实中，发电机真的会这样运行吗？通过分析实时运行数据流——即每时每刻的功率输出——我们可以测量观察到的爬坡率。几乎可以肯定，它们不会与规格表完全匹配。

真实世界数据可能会揭示，发电机的爬坡速度总是比其标明的最大值要慢。为什么？数据迫使我们提出更深层次的问题并改进我们的模型。也许操作员出于安全考虑，施加了他们自己更保守的限制。也许控制系统中编写了一个“安全裕度”。通过对运行数据进行统计分析，我们可以估计这些隐藏的参数——操作员限制和安全裕度——并建立一个新模型，将理想的规格与观察到的现实协调起来。这种简单的工程模型与来自现场的丰富数据集之间的对话，使我们能够从纸面规格转向对系统行为的、基于证据的真正理解。

同样的原则可以扩展到极其复杂的模型。考虑一个流行病学家用来模拟传染病传播的基于代理的模型。成千上万的数字“代理”在计算机中移动、互动和传播疾病，其行为受我们认为是人类行为的规则所支配。这个模拟是我们对现实的复杂模型。但它正确吗？这种模拟的输出不是一个单一的数字，而是一个丰富的统计模式——例如，平均发病率和平均社交接触次数。从公共卫生监测中收集的真实世界数据，为我们提供了来自现实的完全相同的统计模式。

我们如何比较它们？我们不能只比较平均值；我们还必须比较不同指标之间的变异性和相关性。一个强大的统计工具——马氏距离 (Mahalanobis distance)，允许我们测量模拟输出与经验数据之间的“距离”，同时考虑到测量的完整协方差结构。如果这个距离很小，我们就会对我们的模型捕捉到了关于世界的某些真实情况更有信心。如果距离很大，真实世界数据就在告诉我们模型是错的，迫使我们回到绘图板上重新思考我们的假设。模拟是我们的假设；真实世界数据是检验它的实验。

从被动观察到主动智能

确认我们的模型是深刻且必要的一步，但我们可以更进一步。我们可以创建一些系统，它们利用持续的真实世界数据流，不仅是为了检查一个静态模型，而且是为了实时更新它、从中学习，甚至基于它采取行动。这就引出了数字孪生这一激动人心的概念。

设想一个智能制造生产线上的工业机器人手臂。我们可以有：

一个数字模型：一个离线模拟。我们可以在上面测试各种情景，但它与真实的机器人没有实时连接。
一个数字映像：现在，我们建立一个单向数据流。真实的机器人不断地将其位置、电机电流和循环次数等数据发送到模拟中。数字模型现在“映像”着物理资产的状态，其对现实的理解被真实世界数据不断更新。
一个数字孪生：最后，我们闭合回路。模拟系统，在实时数据流的告知下，分析机器人的健康状况、预测磨损并计算最优控制参数。然后，它自动地将这些新参数发送回机器人，调整其行为。

从模型到映像再到孪生的转变，是由与真实世界数据整合的深度所定义的。这就像一张照片、一个实时视频流和一个完全互动的、远程驾驶的化身之间的区别。

这种智能回路的想法不仅适用于大规模工业系统；它也发生在您的计算机内部。当编译器优化一段代码时，它常常必须在一种慢但安全的方法和一种快但可能存在风险的方法之间做出选择。例如，使用特殊的“向量化”指令可以一次执行多个计算，但这仅在某些内存访问模式不冲突或“混叠”时才可行。静态分析——编译器的内置模型——可能不确定，将情况分类为“可能混叠”。

在这里，基于性能剖析的优化（PGO）创建了一个学习回路。编译器对代码进行插桩，以收集关于其如何实际运行的真实世界数据。这个性能剖析文件可能会揭示，在数千次运行中，混叠事件只发生了寥寥数次。利用这一经验证据，编译器可以做出一个基于统计的明智决策。它可以使用贝叶斯框架，从其静态分析中得出的一个弱“先验”信念开始，并用来自真实世界剖析数据的似然来更新它，从而形成一个关于混叠概率的“后验”信念。基于成本效益分析，它可以自信地选择高性能的向量化代码，因为它知道发生代价高昂的混叠事件的风险是可接受的低。这是一个完美的数字孪生缩影：观察、建模、决策和行动以提高性能。

同样一个实时的、由数据驱动的回路原则也可以成为安全的守护者。在一个自动化仓库中，机器人四处穿梭，搬运货物。一个关键的危险是“不受控制的运动”，这可能在机器人在斜坡上时刹车失灵时发生。传统的安全分析，如失效模式与影响分析（FMEA），可能会根据制造商的数据来估计刹车的失效率。但实际的风险是什么？一个记录每个事件的仓库数字孪生可以提供答案。它记录了总运行小时数、每个机器人在斜坡上花费的时间，以及每次刹车失灵的实例。

凭借这股丰富的真实世界数据流，我们可以将安全从一个静态的、理论性的练习转变为一门活生生的、基于证据的科学。我们可以凭经验计算出危险的发生率，并检查我们的模型（预测的发生率）是否与现实一致。我们还可以在持续的基础上验证观察到的风险是否在我们最初的危害分析和风险评估（HARA）设定的可接受安全目标之内。如果数据显示风险有向更高方向漂移的趋势，系统可以在灾难性事故发生前很久就发出警报。

健康与可靠性的高风险世界

在生命和关键基础设施岌岌可危的领域，与真实世界数据的对话没有比这更关键的了。在这里，标准更高，挑战更大，方法必须极其严谨。

考虑预测电动汽车或太阳能逆变器中关键电力电子模块寿命的任务。故障可能是灾难性的。为了建立一个预测模型，我们面临一个两难的境地。我们可以在实验室进行加速测试，让模块承受高温和高压，使其迅速失效。这为我们提供了干净、受控的数据，非常适合“校准”一个失效物理模型，并理解压力与寿命的关系。然而，实验室并非真实世界。在正常操作的较低、更多变的压力下，失效机制会相同吗？

为了回答这个问题，我们需要来自真实世界中已部署模块的现场数据。这些数据是最终的基石真相，但它很混乱。它通常是“删失”的——当我们检查时，许多模块仍在完美工作，所以我们只知道它们的寿命至少是某个值。操作条件是可变的，并且可能没有被完美记录。现代可靠性工程的精妙之处在于结合这两种数据源。我们使用干净的实验室数据来建立和校准我们的模型，然后使用混乱但至关重要的现场数据来确认它，以证实其预测在预定使用的复杂环境中仍然成立。

这种“证据层级”的思想在医学中变得更加关键。一个人工智能算法，一个“作为医疗设备的软件”（SaMD），被开发出来用于从智能手机的传感器中检测心房颤动，从而可能预防中风。我们如何证明它有效且安全？黄金标准是随机对照试验（RCT），但这些试验昂贵且缓慢。制造商转而求助于从电子健康记录（EHR）和患者登记库中收集的大量真实世界数据（RWD），以进行其上市后临床随访。

这才是真正的困难所在。在这个观察性数据中，使用该设备的患者并非随机样本；他们可能比不使用该设备的人更年轻、更精通技术或更注重健康。这是选择偏倚。使用设备的决定和发生中风的结果都受到一个由年龄、合并症和生活方式等“混杂”变量组成的网络的影响。如果我们天真地比较用户和非用户之间的中风率，我们几乎肯定会得到错误的答案。

为了解开这个结，我们必须运用最复杂的因果推断工具。像边际结构模型这样的方法使用统计魔法，通过创建逆概率权重来构建一个“伪群体”，在这个群体中，偏倚已被数学上平衡掉。只有这样，我们才能提出因果问题：“设备本身对中风风险有什么影响？”这个过程充满了危险，需要深厚的专业知识、对隐藏偏倚的持续警惕，以及一个监管监督框架，以确保分析是透明和预先指定的。

高质量、有标签的医疗数据的稀缺性催生了另一个引人入胜的发展：合成数据的使用。利用生成对抗网络（GANs）等技术，我们可以在一组真实的医学图像上训练一个模型，然后让它生成无数新的、人工的图像。这些可以用来扩充我们的训练集，特别是对于罕见疾病。

但这为我们与现实的对话增添了一个新的层次。这些合成数据不是基石真相；它是它所学习的真实数据的高保真回声。在训练医疗设备时使用它需要新水平的可追溯性和确认。我们必须记录创建每个合成图像所用的确切模型版本和参数。我们必须有专家审查这些图像的临床合理性，确保 GAN 没有“幻觉出”病理。最重要的是，最终的 AI 模型，在真实和合成数据的混合体上训练而成，其性能必须在一个独立的、未见过的、纯粹由真实世界数据组成的测试集上进行严格的确认。合成数据帮助我们构建更好的模型，但真实世界数据仍然是其临床效用和安全的最终、不容置疑的评判者。

从最简单的工程规格到最复杂的人工智能，故事都是一样的。真实世界数据是将我们的抽象模型与现实结构联系起来的线索。它挑战我们的假设，加深我们的理解，并使我们的系统变得更智能、更高效、更安全。这段旅程不是为了找到一个完美的、最终的模型，而是为了参与一场与世界本身永恒、动态且硕果累累的对话。