从叙事到数字：解锁非结构化临床数据

玻尔百科

核心要点

非结构化临床数据（如医生笔记）包含关键的叙事细节，可利用自然语言处理（NLP）技术将其转换为可计算信息。
结合结构化数据录入和叙事文本的混合方法最为有效，它在机器可读性与必要的临床表达力之间取得了平衡。
从文本中提取结构化洞见有助于创建可计算表型，从而改进研究和临床试验的患者队列识别。
将非结构化文本与图像和基因组学等其他数据模态相结合，可以创建全方位的患者视图，为先进的临床决策支持系统提供动力。
人工智能在医学领域的伦理部署要求透明、可解释的模型和健全的元数据策略，以确保问责制并维护医生的信托责任。

引言

在医疗保健领域，患者护理的丰富叙事语言与计算机的严谨逻辑世界之间长期存在着一道鸿沟。患者健康的真实故事——他们独特的背景、医生的推理过程以及微妙的观察——通常被锁定在电子健康记录的非结构化文本中，无法进行计算分析。这造成了巨大的知识鸿沟，限制了我们从绝大多数临床数据中学习的能力。本文旨在通过探索理解非结构化临床信息的科学来弥合这一鸿沟。首先，我们将深入探讨“原理与机制”，审视临床数据的谱系以及将散文转化为精确信息的自然语言处理（NLP）技术。随后，“应用与跨学科联系”一章将展示这些提取出的洞见如何驱动变革性应用，从识别患者队列到构建能够彻底改变临床决策的可信赖人工智能。

原理与机制

在开始我们的旅程之前，让我们思考一下医学核心的一个基本二元性。一方面，我们有临床实践中丰富、细腻且充满人情味的语言——患者的病史、医生的缜密推理。另一方面，我们有计算机精确、无歧义且合乎逻辑的语言。几十年来，这两个世界在很大程度上是相互分离的。患者的真实故事被锁在纸质病历中，而计算机则被降级用于处理账单和排班。在许多方面，医学信息学就是一项宏大的科学与工程探索，旨在在这两种语言之间架起一座桥梁，教会机器理解故事。

结构的谱系：从文件柜到患者故事

人们很容易将数据视为结构化或非结构化的，像一个简单的二进制开关。但正如自然界中的许多事物一样，现实是一个美丽的谱系。想象一下，你正在尝试了解一位患者的健康状况。

在这个谱系的一端，我们有结构化数据。可以将其想象成一个组织完美的数字文件柜或电子表格。例如，患者的生命体征被记录在固定字段中：体温为 $36.8^\circ\text{C}$ ，心率为每分钟 $88$ 次，血压为 $178/96$ 毫米汞柱。一份钾的实验室结果有特定的数值、计量单位和标准的参考范围。当开具药物时，它会在一个包含患者、药物、剂量和日期等固定列的表格中，与一个通用代码（如 RxNorm 标识符）相关联。这种数据的美妙之处在于其直接的可计算性。我们可以问计算机：“显示所有血压超过 $140/90$ 且正在服用药物 X 的患者”，并在毫秒内得到答案。这种精确性是现代安全警报、质量测量和大规模研究的基石。

在谱系的另一端是非结构化数据，这才是患者故事真正所在的地方。这是临床医生在电子健康记录（EHR）中输入的叙事性散文。它包括记录患者病情日常演变的病程记录，通常遵循经典的“主观（Subjective）、客观（Objective）、评估（Assessment）和计划（Plan）”（SOAP）格式。它包括放射科报告，专家在其中解读 X 光片上微妙的阴影。它还包括至关重要的出院小结，其中综合了整个住院期间的情况——入院原因、复杂的诊断和治疗过程，以及未来的计划。这样的摘要中的一句话可能是：“患者出院后继续服用 Toprol XL；卡维地洛（carvedilol）不适用”。这种语言富含背景、判断和推理。它不仅告诉我们发生了什么，还告诉我们为什么。它的美在于其表达力，但缺点是计算机在没有帮助的情况下无法理解 “Toprol XL” 是什么，也无法理解 “continue”（继续）意味着一种正在使用的药物。

在这两个极端之间是半结构化数据，这是一种务实且日益重要的折衷方案。想象一个现代网页表单，上面有带标签的字段，其中一些是下拉菜单（结构化），另一些是开放式文本框（非结构化）。这就是半结构化的本质。一份放射学报告可能有固定的标签，如“适应症”、“技术”和“印象”，但每个部分内的文本都是叙事性散文。像健康七层快速医疗互操作性资源 (Health Level Seven Fast Healthcare Interoperability Resources, FHIR) 这样的现代数据标准通常采用这种模式。例如，一个关于用药声明的 FHIR 资源有明确定义的键，如“status”和“subject”，但药物本身可能仅被记录为一个简单的自由文本字符串。这些标签起到了路标的作用，为我们提供了部分结构，使数据更易于导航，即使核心内容仍然是人类的叙事。

罗塞塔石碑：将散文转化为精确信息

那么，我们如何解锁被困在非结构化叙事中的宝贵信息呢？我们如何教计算机阅读医生的笔记？这是被称为自然语言处理（NLP）的领域的核心任务。让我们通过追踪一段护士笔记中微小、几乎微不足道的片段来探索这一转变：“K+ low”。

对你我而言，其含义显而易见。但对计算机来说，这只是一个由五个无意义字符组成的序列。为了将这些原始数据转化为可计算的信息，计算机必须执行一系列步骤，就像用罗塞塔石碑破译密码一样。

缩写扩展与标准化： 系统必须首先查阅临床俚语和缩写词典。它会了解到“K+”是钾的标准符号。
实体识别： 接下来，它必须识别关键概念。它将“potassium”（钾）识别为一种化学物质（分析物），将“low”（低）识别为对该物质的定性评估。
情境化与编码： 这一步需要一些“临床常识”。这个钾是在哪里测量的？在一般笔记的情境下，极大概率是指在血清或血浆中的测量值。这使得系统能够将该分析物映射到一个通用的、无歧义的标识符——在本例中，是用于“血清/血浆中钾[摩尔/体积]”的逻辑观察标识符命名和编码系统（Logical Observation Identifiers Names and Codes, LOINC）代码 2823-3。类似地，“low”（低）这个词被映射到一个标准的 HL7 解释代码“L”。
结构化： 最后，系统将这些精确编码的元素组装到一个结构化容器中，比如一个 FHIR Observation 资源。该资源现在正式声明：“存在关于患者 X 的一项观察，其有效时间为笔记记录时间，涉及分析物 LOINC 2823-3，解释为‘L’”。

注意发生了什么。我们没有创造任何数据；这里没有数值，因为原始笔记中没有。相反，我们忠实地将一段模糊的人类语言片段翻译成了一个精确的、机器可读的事实。我们已经从原始数据攀升到了可互操作信息的阶梯。这个过程可以扩展到更复杂的现象，例如提取事件之间的时间关系——例如，记录血培养是在给予抗生素之前进行的，而给予抗生素又发生在体温开始下降之前。

临床医生与计算机：必要的伙伴关系

此时，一个自然的问题出现了：如果我们如此擅长从文本中提取结构，为什么不让临床医生把所有东西都写成叙事形式呢？反之，如果结构化数据对计算机如此友好，为什么不强制临床医生用结构化表格和清单来记录一切呢？答案在于表达力与可计算性之间的根本权衡，以及认知负荷这一非常现实的人为因素。

强迫医生仅使用一系列下拉菜单和复选框来描述一种复杂的、不断演变的多系统疾病，不仅效率低下，而且可能很危险。它增加了记录所需的脑力劳动——即臭名昭著的“点击疲劳”——更重要的是，它剥夺了临床记录中的细微差别、背景以及临床医生的推理故事。书写叙事这一行为本身有助于医生组织思路。

这就是混合方法作为最优雅和有效的解决方案出现的地方。对于那些明确无误、对安全至关重要且质量报告所需的事项，我们强制要求进行结构化数据录入：过敏史、用药清单、实验室结果和生命体征。但对于医学中那些本质上是故事的部分，我们保留了叙事的力量：患者的病史、鉴别诊断以及复杂的评估和计划。我们使用 NLP 并非为了取代结构化数据，而是作为一个强大的补充工具，以解锁叙事中蕴含的智慧。

在一个美妙的平行中，这种使用 NLP 在叙事中寻找结构的过程，反映了专家级临床医生的认知过程。当医生倾听患者的故事时，他们不会仅仅在脑海中逐字记录每个词。他们会进行信息压缩。他们使用语义限定词来抽象关键特征。一个描述身体一侧突然无力的患者，不仅仅是一系列症状的集合；他们变成了一个“问题表征”：一种急性、局灶性、半球性运动功能缺损。这些限定词——急性与慢性、局灶性与弥漫性——是高价值的特征，能让临床医生迅速将庞大的可能疾病范围缩小到少数几个最可能的候选者，这个过程可以被认为是一种直觉式的贝叶斯推理。NLP，在其最先进的形式中，是我们试图在计算上模仿这种非凡的人类技能的尝试。

超越文字：临床数据的物理学

我们的讨论主要集中在文本上，但临床数据的范围要广泛得多。结构化和非结构化信息的概念适用于所有数据模态，每种模态都有其自身的内部“物理学”，我们必须理解这些才能构建智能系统。

医学图像： CT 扫描是一个代表组织密度的三维数字数组。虽然数组本身是结构化的，但其医学意义并非如此。图像的基本统计特性是空间自相关性：一个体素的值与其相邻体素的值高度相关。解剖结构的存在是因为其构成的体素是相互关联的。卷积神经网络（CNNs）的架构巧妙地利用了这一局部性原理，它们使用局部滤波器来学习特征。
生理时间序列： 心电图（ECG）是随时间变化的电压测量序列。其决定性属性是时间自相关性：某一时刻的值是下一时刻值的强预测因子。这种序列依赖性，以及信号属性可能随时间变化（非平稳性，通常由干预引起）的事实，正是循环神经网络（RNNs）等模型如此有效的原因。
基因组数据： “组学”（Omics）数据，如基因表达测量，带来了另一个独特的挑战。在这里，我们通常有大量的特征（例如，20,000个基因的表达水平），而患者数量相对较少。这是经典的 $p \gg n$ 问题（参数远多于样本），这使得模型极易过拟合和发现虚假相关性。这种数据的“物理学”要求使用正则化和对多重假设检验进行仔细校正等技术。

每一种数据类型——具有信息丰富的缺失模式的结构化 EHR 记录、具有重尾词分布的文本、具有空间局部性的图像以及具有时间流的时间序列——都需要一种不同的视角、一种不同的模型。现代医学信息学的美妙之处在于认识到这种多样性，并开发了一个统一的框架，该框架可以整合这些不同的信息来源，从而构建一个单一、连贯且可计算的患者模型。这就是最终目标：将患者视为一个整体，而不仅仅是孤立数据点的集合。

应用与跨学科联系

在我们了解了处理非结构化临床数据的基本原理之后，你可能会想：“这一切都很巧妙，但我们能用它来做什么呢？”这是一个合理且至关重要的问题。科学原理之美不仅在于其优雅，更在于其改变世界的力量。而在医学领域，“改变世界”意味着改善并拯救人类的生命。因此，让我们来探索一下，当我们教会机器阅读和理解医生的语言时，所涌现出的非凡应用前景。

想象一下患者的病历。其中一部分就像一张整洁有序的表格：用于记录心率、体温、实验室结果的结构化字段。它干净、精确，易于计算机处理。但真正的故事，关于你健康的细腻叙述，通常存在于医生的笔记中——那是用自由文本写下的丰富、复杂且极具个人色彩的记录。这就是非结构化数据。它包含了医生的推理、你独特的处境以及无法用复选框容纳的微妙观察。几十年来，这个充满洞见的宝库一直无法被自动分析。现在，我们终于在打造打开它的钥匙。

理解叙事：对结构的探索

第一个也是最根本的应用，就是将丰富的人类叙事翻译成计算机可以处理的清晰、逻辑化的语言。这不仅仅是把词语变成数字，而是要提取意义。

想象一下社工描述一位患者生活的笔记：他们的食物快吃完了，付不起去复诊的公交车费。这些不是疾病，却是健康的强大决定因素。通过教会机器阅读这份笔记，我们可以自动分配标准化代码，比如针对食物或交通无保障的国际疾病分类（ICD-10）Z代码。这使得医疗系统能够首次看到其患者所面临社会挑战的大规模、可量化的图景，这是解决这些问题的关键一步。

这种“自动编码”的原则是现代医疗运营的基石。每当你看医生时，这次就诊都必须被转换成计费和诊断代码。这在传统上是一个手动的、劳动密集型的过程。现在，我们可以部署能够读取临床医生文档并建议相应代码的系统。这些系统可以基于不同的理念构建。有些像一丝不苟的图书管理员，使用手工制定的逻辑规则来寻找模式。有些像速读者，使用庞大的词典将短语与代码匹配。而最先进的则像学徒，通过机器学习从数百万个例子中学习，根据整个笔记的上下文来辨别正确的代码。

这种提取意义的能力使我们能够以编程方式定义和识别复杂的医疗状况，创造出我们所说的可计算表型。假设我们想在医院系统中找出所有患有慢性肾病的患者。仅仅依赖结构化的诊断代码可能会漏掉很多人。但一个可计算表型可以执行一个复杂的算法：“找出所有拥有特定诊断代码，并且其肾功能实验室结果（如估算肾小球滤过率，即 $eGFR$ ）持续低于某一阈值，或者医生在其笔记中提及‘终末期肾病’的患者。”通过将结构化数据与使用自然语言处理（NLP）从非结构化叙事中提取的洞见相结合，我们可以以更高的准确性和完整性识别患者队列。这对于研究、临床试验和公共卫生监测具有巨大的威力。

即使在肿瘤学这样的高度专业化领域，这种转换也至关重要。癌症分期决定了治疗方案，它依赖于一个精确的算法。临床医生综合体格检查、影像报告和病理学的结果。一个算法可以形式化这个过程，接收诸如肿瘤的测量大小、放射科医生报告中估计的浸润深度，以及专家注意到的“临床明显的结外侵犯”等输入，并将它们映射到精确的临床分期，如口腔癌的 TNM 分期。这为关键的临床决策带来了连贯性和可重复性。

然而，要实现真正的理解，我们有时需要的不仅仅是模式匹配。我们需要为系统注入一个正式的医学知识模型——一个本体。可以把它想象成构建医学的逻辑骨架。我们可以使用像 Web 本体语言（OWL）这样的框架来定义概念（“HyperglycemiaSymptom”）、它们的属性（“hasNumericValue”）以及它们之间的关系。建立在此基础上的系统可以回答一个复杂的问题，比如：“哪些患者符合美国糖尿病协会的糖尿病标准？”它通过对数据进行逻辑推理来实现这一点，检查患者是否有高于某个阈值的实验室值并且是在空腹样本的背景下，或者他们是否有高的随机血糖值并同时在笔记中提到了典型症状。这不仅仅是文本处理，而是真正的知识表示和推理。

构建更宏大的图景：数据融合与临床决策支持

一旦我们能够可靠地从临床叙事中提取意义，下一个伟大的前沿就是将其与其他信息来源融合。一个患者不仅仅是一个故事；他们也是一个基因组、一堆图像、一串实验室数值。要看到完整的个人，我们必须整合这些不同的“模态”。

这就像指挥一场交响乐。影像数据，也许是 MRI 扫描，就像弦乐部分——一个连续的、空间相关的信号，有其独特的噪声特性。基因组数据，可能来自 RNA 测序，是打击乐部分——遵循不同统计规则的离散基因表达计数。而临床数据，是结构化数值和非结构化笔记的混合，是管乐部分，有其自身的节奏和特点。多模态数据整合是指挥家的艺术和科学，理解每种乐器的特性，并将它们组合起来，创造出一幅和谐而完整的患者状态图景。你不能简单地把所有的音符都扔在一张纸上；你必须懂得如何融合各种声音。

当这种融合做得很好时，它可以为复杂的临床决策支持（CDS）系统提供动力——成为医生的专家助手。在精准肿瘤学中，推荐靶向治疗的决定可能取决于来自多方来源的证据。一个 CDS 系统可能会结合来自基因测试的分数、来自肿瘤图像放射组学分析的发现、一个关键的实验室生物标志物，以及从患者临床笔记中得出的表型分数。这是一种后期融合，即每种模态都对最终决策进行“投票”。通过以有原则的方式（例如，将它们的对数似然比相加）组合这些投票，系统可以得出一个稳健的建议，即使其中一部分证据——比如影像数据——缺失了。

执行这些任务的系统是复杂的工程奇迹。例如，一个基于规则的 CDS 不是一个简单的“如果-那么”脚本。它是一个精心构建的架构，包含用于接收和验证数据的组件、一个用于存放临床规则的版本化存储库、一个用于执行逻辑推断的推理引擎、一个确保警报在临床工作流程中正确时间触发的协调器、一个用于防止冲突建议（例如，“使用抗凝剂”和“停用抗凝剂”）的解决器，以及一个用于追溯每一个决策所依据的数据和规则的审计记录器。这个架构是使医学人工智能安全可靠的无形支架。

前沿：迈向因果与可信赖的人工智能

这一切将走向何方？最终的目标不仅仅是构建准确的系统，而是要构建可信赖、可解释、并能进行因果推理的系统。

最激动人心的研究方向之一是概念瓶颈模型的开发。这种方法不是直接从原始数据（例如胸部 X 光片）到诊断（例如“肺炎”）的“黑箱”模型，而是强制模型首先识别人可解释的临床概念——与放射科医生在其报告中寻找的概念相同。模型首先学习检测诸如“胸腔积液”、“浸润”或“肺泡混浊”之类的事物，然后利用这些概念的存在与否做出最终诊断。这种结构意义深远，因为它使模型的推理过程变得透明。如果它犯了错误，我们可以查看“引擎盖下”，找出是哪个概念出错了。这也为因果推理打开了大门，让我们不仅能问概念和诊断是否相关，还能理解连接它们的因果路径。

对透明度的追求将我们引向了最重要的联系：人工智能与伦理和职业责任的交汇点。当一个人工智能系统辅助临床决策时，它就成为了医患神圣关系的一部分。这援引了医生的信托责任——即关怀、忠诚和坦诚的义务。为了履行这些义务，我们不能将人工智能视为绝不出错的神谕。我们必须持续监控其表现。

这就是为什么一个健全的元数据策略不是官僚主义的负担，而是一种伦理上的必需。对于人工智能影响的每一个决策，我们都必须记录它所看到的输入（ $X$ ）、它提出的建议（ $Y$ ）、它自己声明的置信度（ $P$ ），以及它提供的基本原理（ $R$ ）。至关重要的是，当真实结果（ $C$ ）变得可知时，这条记录必须与之关联。这些数据创建了一条可审计的轨迹。它使我们能够进行事后错误分析，提出关键问题，例如：“这个人工智能在特定人群亚组中表现不佳吗？” 这对于确保公平至关重要。它还允许我们构建校准曲线，以检查人工智能的置信度是否合理——当它说有 $90\%$ 的把握时，它是否真的在 $90\%$ 的情况下是正确的？这种“信任校准”对于临床医生安全地使用该工具至关重要。没有这些数据，我们就是在盲目飞行。有了它，我们就能履行我们的关怀义务，确保问责制，并参与定义现代医学的持续质量改进。

非结构化临床数据的旅程证明了跨学科科学的力量。这是一个关于计算机科学、语言学、统计学和医学如何融合的故事。我们正在学习阅读人类健康的故事，不仅仅是作为词语的集合，而是作为深刻的、能拯救生命的洞见的来源。这条道路是复杂的，但目的地——一种更智能、更安全、更人性化的医学形式——是一个值得我们最深刻科学好奇心去追求的目标。