国际医学用语词典 (MedDRA)

玻尔百科

定义

国际医学用语词典 (MedDRA) 是一个全球标准化的五级分层医学词典，旨在将多样的临床描述转化为统一且明确的监管术语。该词典通过统一术语体系，实现了对不良事件数据的准确汇总与分析，是药物警戒领域中监测药品安全信号的关键工具。为了提高信号检测的准确性，分析人员通常结合标准化 MedDRA 查询语句 (SMQs) 和贝叶斯统计方法对 MedDRA 数据进行深入分析。

核心要点

MedDRA 是一部全球标准化的五层层级结构医学词典，它将多样化的临床描述转化为单一、明确的语言，以满足监管目的。
通过协调术语，MedDRA 能够对不良事件数据进行准确的汇总和分析，这对于检测那些否则会淹没在语言噪音中的药品安全信号至关重要。
其层级结构允许分析师在宽泛或具体的层级上查看数据，但数据汇总也带来了“信号稀释”的风险，即真实的安全信号可能被不相关的数据所掩盖。
诸如标准化 MedDRA 查询 (SMQ) 和贝叶斯统计方法等先进工具与 MedDRA 结合使用，以提高安全信号检测的精确度和可靠性。

引言

在医学这个高风险领域，确保患者安全需要一种精确、通用且被所有人理解的语言。人类语言的巨大多样性，使得“肚子疼”和“胃部不适”可能描述的是同一事件，这为理解一种药物的真实安全性概况制造了重大障碍。这种“疾病的巴别塔”会掩盖危险的模式，使得将来自不同来源的安全性数据整合成一个连贯的整体几乎不可能。我们如何才能将这种临床描述的嘈杂之音转化为清晰的信号，确保在世界某处发现的潜在风险能在全球范围内得到认知？

本文深入探讨了国际医学用语词典 (MedDRA)，这一为解决上述问题而制定的国际公认标准。首先，在“原则与机制”部分，我们将剖析 MedDRA 精巧的五层层级结构，并探讨将临床叙述转化为其标准化术语的严谨技巧。然后，在“应用与跨学科联系”部分，我们将考察 MedDRA 如何在全球临床试验、上市后监测中充当通用语言，并作为连接统计学和计算机科学等先进领域的桥梁，最终促成发现那些保障我们用药安全的重要真相。

原则与机制

要认识世界，你必须为事物命名。不是任何名称，而是一个大家公认的、能抓住事物本质的名称。在人命关天的医学世界里，这种命名行为并非小事；它是整个药品安全大厦赖以建立的基石。但是，我们如何能为人类痛苦与康复那令人眼花缭乱、纷繁杂乱的交响乐带来秩序？我们如何确保东京的医生描述的“皮疹”和多伦多的护士报告的“皮肤发红”能够汇入同一个全球对话中？这正是国际医学用语词典（即 MedDRA）旨在解决的巨大挑战。

疾病的巴别塔：为何我们需要共同语言

想象一下，你肩负着一项巨大的责任：倾听来自全球每一个角落的、关于一种新药的每一份潜在副作用报告。报告如潮水般涌来，充满了各种人类语言。一位患者报告“肚子疼”，另一位报告“胃部不适”，第三位是“胃部难受”，第四位则使用更专业的语言，称为“消化不良”。这是四个不同的问题，还是描述同一个根本问题的四种不同方式？如果只是简单地统计词语，你会看到四个不同的罕见事件。但如果你能理解它们的含义，你可能会发现一个单一、更频繁且可能令人担忧的模式。

这就是自然语言的问题：它富有表现力，但对于科学统计而言却极其不精确，令人抓狂。在我们拥有共同标准之前，试图汇集来自不同试验或国家的安全性数据，就像试图用十几种不同语言、十几种不同计量系统描述的零件来组装一台机器。这项任务几乎不可能完成。

让我们具体说明。假设我们担心一种新药会引起肝损伤。我们可以尝试在数千份电子健康记录中进行简单的关键词搜索，查找任何包含“hep”（代表“hepatic”，即与肝脏相关的医学术语）的报告。这似乎是合理的第一步。然而，这种简单的方法充满了风险。一项假设性分析可能显示，在经专家确认的 $120$ 例真实肝损伤病例中，我们的关键词搜索只找到了 $90$ 例。它漏掉了四分之一的真实病例——也许是因为这些病例被描述为“黄疸”或“肝功能检测指标升高”，而没有提及“肝脏”。更糟糕的是，我们的搜索可能返回 $15$ 个“假阳性”——这些报告使用了“hep”，但原因不相关，比如一位服用该药的患者患有“疱疹”。我们找到了一部分真相，但我们的图像既不完整又被噪音污染。

现在，想象我们进行同样的搜索，但这一次，每一份不良事件报告都已被翻译成 MedDRA 的通用标准化语言。我们不再使用关键词搜索，而是使用一个预先定义的、由专家策划的“药物性肝损伤”查询。在我们的假设情景中，这个基于 MedDRA 的查询找到了 $120$ 例真实病例中的 $110$ 例，并且只包含了 $5$ 例假阳性。图像变得清晰得多。通过统一语言，我们构建了一个更好的透镜来审视数据。我们减少了歧义，同时提高了完整性（找到更多我们想找的内容）和正确性（确保我们找到的是我们真正想找的内容）。这就是 MedDRA 的根本贡献：它将临床描述的嘈杂之音转化为协调一致的信号，使我们能够检测到那些否则会淹没在噪音中的、危及生命的模式。

思想的解剖：MedDRA 的精巧结构

那么，这种特殊的语言是什么样子的呢？MedDRA 远非一本简单的逐词词典。它是信息架构的杰作，一种反映医学本身嵌套和相互关联性质的层级结构。它有五个层级，每个层级提供不同程度的放大倍率，使我们能够从最具体的表述放大到最广泛的生理系统。

让我们追踪一个单一、戏剧性事件的路径：“心脏病发作”。

低位术语 (Lowest Level Term, LLT)：这是底层，是“口头语”的层级。在这里，我们捕捉了各种各样的原始报告用语。诸如“Heart attack”（心脏病发作）、“Cardiac arrest”（心搏骤停）、“Coronary thrombosis”（冠状动脉血栓形成）甚至一些俗语都在这里有一席之地。LLT 层级承认语言的多样性，并确保每个报告的术语都有其归属。
首选术语 (Preferred Term, PT)：这是一个伟大的统一者。一个概念组中的每个 LLT 都向上链接到一个单一、明确的首选术语。“Heart attack”及其众多同义词都指向一个 PT：Myocardial infarction（心肌梗死）。PT 代表一个独特的医学概念。这是进行计数和分析的主要层级。当我们问“有多少人发生了心脏病发作？”，我们实际上是在问“有多少报告被编码到 PT Myocardial infarction？”
高位术语 (High Level Term, HLT)：PT 继而被分组成族。Myocardial infarction 属于 HLT Ischaemic heart diseases（缺血性心脏病）。这个层级开始揭示临床关系。我们现在可以问一个更广泛的问题，比如“有多少患者发生了与心脏血流受阻相关的事件？”
高位组术语 (High Level Group Term, HLGT)：这些族再被分组成更大的类别。HLT Ischaemic heart diseases 是 HLGT Coronary artery disorders（冠状动脉疾病）的一部分。视野正在变得更宽。
系统器官分类 (System Organ Class, SOC)：最后，在最顶层，我们有人体的各大系统。HLGT Coronary artery disorders 属于系统器官分类 Cardiac disorders（心脏器官疾病）。总共有 $27$ 个 SOC，对应主要的身体系统（如 Nervous system disorders [神经系统疾病]、Gastrointestinal disorders [胃肠疾病]），或特殊分组（如 Investigations [检查]、Surgical and medical procedures [外科及内科操作]）。这个层级提供了“三万英尺”的宏观视角，对于总结药物的整体安全性概况至关重要。

这种五层结构非常实用。它允许安全分析师在“森林”视角（SOC）和“树木”视角（PT），甚至“树叶”视角（LLT）之间无缝切换。这种改变视角、随意汇总和分层的能力，不仅仅是一个技术特性；它正是发现的引擎。

编码员的技艺：翻译的艺术

拥有这本强大的词典是一回事；正确使用它则是另一回事。将医生的叙述翻译成 MedDRA 的精确语言的任务，落在了医学编码员的肩上。这不是一项无需动脑的机械性任务。它是一门需要纪律、判断力和遵守几条神圣原则的技艺。

规则一：具体而非模糊。 目标是捕捉报告中可用的最高精确度。如果一项实验室检查显示患者的丙氨酸氨基转移酶 (ALT) 水平是正常上限的九倍，你不能编码模糊的术语 Liver function test increased（肝功能检查指标升高）。你必须选择与数据匹配的最具体的术语：Alanine aminotransferase increased（丙氨酸氨基转移酶升高）。这种精确性至关重要，因为不同的实验室异常具有截然不同的临床意义。此外，该事件是一个实验室结果，而不是肝病的诊断，因此应正确地归入 SOC Investigations（检查），而不是 Hepatobiliary disorders（肝胆疾病）。

规则二：报告，而非解读。 这是编码的黄金法则。编码员是忠实的记录员，而不是侦探。他们的工作是呈现报告者所说的内容，而不是编码员认为报告者想表达的意思。考虑一份报告，其中一名患者被发现无反应，伴有“短暂的肢体抽搐”。报告医生不确定，写下“晕厥还是癫痫发作”。如果编码员选择其中之一，将是一个严重的错误。编码为 Seizure（癫痫发作）是添加了医生没有做出的诊断。编码为 Syncope（晕厥）则忽略了报告的抽搐。正确、保守的方法是只编码可观察到的事实：Loss of consciousness（意识丧失）和 Limb jerking（肢体抽搐）作为独立的术语。这保留了原始的不确定性，并允许分析师在癫痫发作和晕厥两个领域中都能搜索到该病例，而数据不会被编码员的过早判断所污染。

规则三：诊断优先于症状（当提供时）。 如果报告者，一位合格的临床医生，已经提供了明确的诊断，那么该诊断就成为需要编码的最重要信息。想象一份复杂的报告，描述一名患者感到头晕，然后摔倒并导致手腕骨折。但关键的是，医生还记录了一个诊断：“体位性低血压”。虽然头晕、摔倒和骨折都是事实，但临床上最有意义和解释力的概念是这个诊断。编码 Orthostatic hypotension（体位性低血压）提供了根本原因，这对于安全性分析远比仅仅编码其后果更有价值。

在噪音中发现信号：汇总的力量与风险

我们已经构建了精巧的结构，并学会了翻译的规则。现在是收获的时刻：在堆积如山的数据中找到药物引起的伤害的微弱信号。这是通过计数来完成的——比较新药患者中某一事件的频率与背景人群中的频率。

MedDRA 的层级特性提供了一个强大的工具：汇总。如果我们担心某种药物可能引起心脏问题，我们不必逐一查看每一个心脏相关的 PT。我们可以“上卷”计数，查看整个 Cardiac disorders SOC。这增加了我们的统计功效，因为我们将许多罕见事件合并成一个更大、更稳定的组。

但这种力量伴随着一个深远的风险：信号稀释。想象一下，你是一个安全监测委员会的成员，正在审查一项试验的数据。你查看 Nervous system disorders SOC 的摘要。在药物组中，有 $104$ 个事件；在安慰剂组中，有 $92$ 个。差异微乎其微，几乎不足以引起警报。你很想继续往下看。但你将犯下一个严重的错误。

如果你深入到 PT 层级，你会发现一个惊人的模式。对于 PT Peripheral neuropathy（周围神经病变），药物组的计数是 $28$ ，而安慰剂组只有 $12$ 。对于相关的 PT Paresthesia（感觉异常），药物组是 $36$ ，而安慰剂组是 $18$ 。一个清晰、临床上连贯的神经毒性信号就摆在你面前。为什么 SOC 层级的摘要掩盖了它？因为，偶然地，该 SOC 中其他不相关的 PT，如 Dizziness（头晕），在药物组中发生的频率更低。当汇总时，强烈的正信号和随机的负噪音相互抵消，产生了一个危险的、具有误导性的安全图像。

这不仅仅是一个理论上的好奇心。我们可以用冷冰冰的数字看到它。像报告比值比 (Reporting Odds Ratio, ROR) 这样的不均衡度量可以量化信号的强度。对于一个特定的肝酶 PT，一种药物可能有一个强烈的信号，其 $ROR$ 约为 $10$ （意味着该事件在该药物上的报告频率比预期高10倍）。但如果我们将该 PT 与另一个更常见但与该药物不相关的肝脏相关术语汇总，合并组的 ROR 可能会骤降到小于 $1$ ，完全掩盖甚至逆转了原始信号。这是 Simpson 悖论的一种形式，也是安全性分析中一个持续存在的危险。汇总是强大的透镜，但它也可能扭曲事实。

最后一个挑战来自人为的不一致性。当一家医院用通用术语 Infusion related reaction（输液相关反应）来编码输液事件，而另一家医院则编码具体症状如 Chills（寒战）和 Hypotension（低血压）时，会发生什么？仅搜索通用术语的查询会漏掉病例，削弱信号。一个将它们结合起来的查询会更强大。这突显了需要一种更智能的方式来查询数据库。

这就是标准化 MedDRA 查询 (Standardised MedDRA Queries, SMQ) 概念的由来。一个 SMQ 是一个由专家精心制作、预先打包的 PT 和 HLT 的“购物清单”，有时跨越多个 SOC，共同定义一个感兴趣的单一医疗状况，如“过敏性休克反应”或“药物性肝损伤”。SMQ 是 MedDRA 宗旨的终极体现。它们是智能的网络，旨在捕获特定安全问题的所有病例，无论它们是如何被编码的，或在层级结构中的位置。它们克服了编码变异和信号稀释这两个双重问题，使我们能够向数据提出一个精确、强大且可重复的问题。

因此，MedDRA 不仅仅是一本词典。它是一种动态的、逻辑的工具，用于将临床经验的混乱转化为科学知识的秩序。理解其原则——从严谨的翻译艺术到审慎的汇总使用——就是理解我们如何找到那些保障我们用药安全的、脆弱而至关重要的真相。

应用与跨学科联系

在理解了国际医学用语词典 (MedDRA) 的原则和结构之后，我们可能会倾向于将其仅仅看作一个目录，一个庞大而精心组织的医学术语库。但这样做，就好比将一架制作精美的望远镜仅仅看作是镜片和黄铜配件的集合。MedDRA 的真正奇妙之处，就像望远镜一样，不在于它是什么，而在于它让我们能够看到什么。它是一种发现的工具，一种统一了从临床医学、统计学到计算机科学和国际法等不同领域的通用语言，共同致力于使医学更安全这一人类事业。现在，让我们将注意力转向这个卓越的工具如何在这个广阔的科学领域中得到应用。

全球安全的通用语言

想象一下，一项针对新癌症疗法的大型全球临床试验，患者遍布从克利夫兰到柏林再到东京的各大医院。一名日本患者出现了严重的反应，当地医生报告了这一事件。身在美国的安全专家如何能准确理解该事件的性质，将其与来自德国的听起来相似但性质不同的事件进行比较，并及时履行在这两个司法管辖区的法律报告义务？

这不是一个假设性的难题；这是药物开发中的日常现实。从历史上看，保护研究参与者的征途漫长而艰辛，建立在 Nuremberg Code (纽伦堡法典) 和 Declaration of Helsinki (赫尔辛基宣言) 的庄严基础之上。这一演变导致了各国法规的拼凑。重大的突破是向国际协调迈进，由国际人用药品注册技术协调会 (ICH) 牵头。MedDRA 正是这种协调的语言支柱。它像医学安全领域的“罗塞塔石碑”，确保一个不良事件在任何地方都能以相同的方式被理解。通过提供单一、共享的词典，它允许申办方创建一个全球安全系统，该系统遵循最严格的适用规则，无论是欧洲的7天报告时限还是美国的15天时限，同时尊重如欧盟 GDPR 这样的复杂数据隐私法。因此，MedDRA 不仅仅是一个技术标准；它是一个全球伦理和法律共识的操作体现。

安全的语法：构建临床现实

在分析数据之前，我们必须首先准确地捕获它。临床疾病的世界是混乱的。患者不会报告一个“首选术语”；他们描述的是一系列症状、感觉和经历。MedDRA 的第一个应用就是将这种叙述转化为结构化、可分析的格式。但它如何决定将事物归档到何处？

MedDRA 的“语法”建立在一个关键原则之上：按主要表现部位分类。考虑一种药物引起的胰腺炎症，即胰腺炎。这种情况有下游效应——它可能扰乱内分泌功能或导致其他器官的连锁问题。但 MedDRA 的逻辑要求我们将事件分类到原发病理发生的部位：胰腺，它是消化系统的一部分。因此，它被编码到系统器官分类 (SOC)“Gastrointestinal disorders”（胃肠疾病）。同样，横纹肌溶解症，即肌肉组织的灾难性分解，被编码在“Musculoskeletal and connective tissue disorders”（肌肉骨骼及结缔组织疾病）下，即使其最危险的并发症通常是肾衰竭。这种严谨的、基于部位的方法可以防止歧义，并确保分析师在进行同类比较。它为所有后续分析奠定了坚实的基础。

发现的蓝图：MedDRA 在临床试验中的应用

有了可靠的语言，我们就可以从被动的描述转向主动的科学研究。在现代临床试验中，安全监测不是事后诸葛亮；它是一门主动的科学。如果非临床研究或药物的作用机制表明存在潜在风险——比如说，肝损伤或潜伏病毒的再激活——科学家们不会坐等其发生。

相反，他们会设计一个“主动监测”计划。他们定义一个“特殊关注不良事件”(AESI)，使用 MedDRA 术语结合特定的实验室值来创建一个精确、可操作的病例定义。例如，一个潜在的肝损伤 AESI 可能不仅由“肝炎”这个术语来定义，而是由一系列 MedDRA 术语和特定的、危险的肝酶升高阈值（例如，ALT $\geq 3\times$ 正常上限值加上胆红素 $\geq 2\times$ 正常上限值）的组合来定义。这使得试验能够主动而灵敏地寻找一个特定的、假设的风险。

当然，收集到的数据必须是可信的。在任何大型试验中，安全性数据通常存储在两个独立的数据库中：用于试验疗效结果的主要临床数据库，和用于安全性报告的专用药物警戒数据库。它们是否一致？一个细致的“严重不良事件 (SAE) 核对”过程将被执行，其中一个数据库中的每一条严重不良事件记录都将与另一个数据库进行匹配。数据管理员和安全科学家使用 MedDRA 编码作为匹配标准的关键部分，可以计算差异率并找出不一致之处，确保最终的数据集具有最高的完整性，并为监管机构的检查做好准备。

倾听世界：MedDRA 在上市后监测中的应用

一旦药物获批，真正的考验便开始了。它被数以百万计具有不同背景和共存疾病的人们使用。正是在这里，在真实世界的非受控环境中，罕见但严重的副作用可能首次出现。我们主要的倾听工具是分析由医生和患者提交给诸如 FDA 的不良事件报告系统 (FAERS) 等数据库的自发报告。

第一个也是最重要的教训是这些数据不能告诉我们什么。如果一种新药估计有500万用户，并有200份关于某一特定副作用的报告，那么计算发生率为200除以500万是极其诱人——但完全错误的。我们不知道真实事件中有多少比例被实际报告了；分子是一个未知数。我们对处于风险中的真实人数也只有一个粗略的估计；分母是一个猜测。自发报告可以给我们一个分子，但不能给出一个有效的分母，因此它们永远无法给出真实的发生率或风险。

那么，我们能做什么呢？我们在噪音中寻找信号。我们进行不均衡分析。逻辑简单而优美：我们探究我们感兴趣的事件在我们关注的药物上的报告频率，是否比它在数据库中所有其他药物的背景报告率更高。例如，如果一种新的化疗方案显示出一种名为“尖端扭转型室性心动过速 (torsades de pointes)”的危及生命的心律失常的报告数量在统计上异常，一个“信号”就产生了。这个统计标记并不能证明因果关系。它是一个假设。它会触发对病例报告的深入临床调查，寻找混杂因素。如果信号得到证实，它可能导致直接的监管行动，例如更新药物标签，增加新的警告并建议特定的监测，从而保护未来的患者。

这个过程已经变得异常复杂，借鉴了现代统计学和流行病学的工具。

利用层级结构： 假设一种新的抗血小板药物导致几种类型出血的风险略有增加——肠道出血、脑出血和鼻出血。每个单独的信号可能都太弱，无法在背景噪音中被检测到。但 MedDRA 的层级结构让我们能够更聪明地处理。使用像基于树的扫描方法，我们可以测试汇总的父节点，“出血事件”。通过汇集微弱但相关的信号，我们可以放大整体的“弥散信号”，并检测到一个否则会被错过的真实风险，同时仔细控制我们的统计错误率。
针对罕见事件的贝叶斯思维： 如果风险非常罕见，只有少数几份报告怎么办？一个简单的比率会极不稳定。这时，我们转向贝叶斯统计。先进的方法使用整个数据库来建立报告率的“先验期望”。然后，对一个罕见事件的估计会向这个期望“收缩”，从更大的数据集中借力，以产生更稳定和可靠的估计。这在监测高度特定的毒性时至关重要，例如一种新型抗体-药物偶联物 (ADC) 的细胞毒性“有效载荷”可能引起的肺部疾病。分层贝叶斯模型甚至可以被构建来寻找有效载荷的类别效应，将具有相似机制的 ADC 分组，以找到在孤立地看待任何单一药物时都不可见的信号。

MedDRA 与数字时代：数据科学和人工智能

MedDRA 与计算科学之间的联系是最激动人心的前沿领域之一。这部词典不仅仅是一个被动的列表；它是一个主动的信息检索工具。

智能查询： 要搜索像肝毒性这样的复杂病症，人们可以尝试猜测所有相关的术语。一个更好的方法是使用标准化 MedDRA 查询 (SMQ)，这是一套由专家策划和验证的 MedDRA 术语集，旨在检索特定医学概念的病例。我们甚至可以像评估搜索引擎一样评估 SMQ 的性能，使用精确率（检索到的病例中有多少是真实的？）和召回率（我们找到了所有真实病例的多少比例？）等数据科学指标，从而量化和优化我们的搜索策略。
从叙述到编码： 也许最具变革性的应用在于自然语言处理 (NLP)。数百万份不良事件报告包含丰富的、非结构化的叙述——医生的自由文本笔记或患者自己的故事。教会计算机“阅读”这些文本并准确分配正确的 MedDRA 编码是一项艰巨的任务。然而，现代 NLP 流水线现在可以以惊人的准确性完成这项工作。它们可以识别医学概念，区分患者经历过的事件与他们担心的事件（否定），理解时间顺序，并将概念映射到正确的 MedDRA 编码，所有这些都有可审计的记录。语言学、计算机科学和医学术语的这种融合，有望极大地加速我们处理安全信息和比以往更快地检测信号的能力。

从全球法律框架到贝叶斯统计的细微之处，再到人工智能的前沿，MedDRA 是那条统一的线索。它提供了结构、语言和逻辑，使我们能够将孤立的、个体的患者经历转化为集体的、可操作的知识。它是公共卫生领域一个安静但强大的引擎，一直在幕后工作，使我们赖以生存的药物对每个人都更安全。