try ai
科普
编辑
分享
反馈
  • 计算机辅助诊断

计算机辅助诊断

SciencePedia玻尔百科
核心要点
  • 计算机辅助诊断分为检测 (CADe) 和诊断 (CADx) 系统,它们使用不同的指标(如 FROC 和 ROC 曲线)进行评估。
  • 该领域已经从手工构建的“影像组学”特征转向深度学习模型(如 CNN),这些模型直接从图像数据中学习诊断特征。
  • 根据贝叶斯定理,一个 CAD 系统的真实世界预测价值在很大程度上取决于受试人群中的疾病患病率,而不仅仅是其固有的准确性。
  • 医疗人工智能的有效部署需要解决卫生经济学、法律、法规和伦理方面的跨学科挑战,以确保安全性和公平性。

引言

在解读医学影像中隐藏的疾病细微迹象的探索中,计算机辅助诊断 (CAD) 已成为人类专家的强大盟友。这些人工智能系统有望提高诊断准确性、更早地发现疾病并改善患者预后。然而,将这一愿景转化为可靠的临床工具面临着重大挑战。机器如何学会像放射科医生一样观察?我们如何严格衡量其性能并信任其判断?这项技术又该如何融入我们复杂的医疗保健体系,从经济学到伦理学?

本文全面概述了计算机辅助诊断领域,旨在弥合技术理论与实际应用之间的鸿沟。在第一章“原理与机制”中,我们将剖析 CAD 系统的核心组成部分。我们将探讨检测和诊断这两项基本任务,学习用于评估它们的统计学语言,并追溯它们从早期的手工模型到现代深度学习架构的演变过程。

在这一技术基础之上,第二章“应用与跨学科联系”将审视这些系统在现实世界中的运作方式。我们将看到它们在临床一线的影响,理解支配其使用的概率现实,并探讨其与卫生经济学、法律以及构建可信赖和公平的人工智能所需的伦理框架之间的重要联系。总而言之,这两章不仅将阐明计算机辅助诊断是什么,还将揭示如何使其安全、有效并惠及所有人。

原理与机制

要真正领会计算机辅助诊断的力量与精妙之处,我们必须深入其内部一探究竟。就像一位钟表大师拆解时计一样,我们将探索那些让机器能够解读隐藏在医学影像中微弱疾病信号的优雅原理和复杂机制。我们的旅程将从机器必须回答的基本问题,延伸到它用以寻找答案的精密“思维”。

两个基本问题:病灶在哪里?这是什么病灶?

想象一下,一位放射科医生正在检查胸部 CT 扫描。他们的搜寻分为两步。首先,他们必须找到任何潜在的异常。肺部是否有可疑斑点?这是“病灶在哪里?”的问题,是一项检测任务。其次,一旦发现斑点,他们必须对其进行定性。这个斑点是良性疤痕还是恶性肿瘤?这是“这是什么病灶?”的问题,是一项诊断任务。

这种根本性的区别也反映在医学人工智能领域。我们为这两项不同的任务构建了两种不同类型的系统。

​​计算机辅助检测 (CADe)​​ 系统解决的是“在哪里?”的问题。它的工作是扫描整个图像——可能由数百个单独的切片组成——并输出一个可能值得关注的候选位置列表。对于每个位置 (x,y,z)(x,y,z)(x,y,z),它会提供一个置信度分数,实质上是告诉医生:“你可能需要看看这里,我有 90%90\%90% 的把握它有问题。”这是一项定位和枚举的任务。

另一方面,​​计算机辅助诊断 (CADx)​​ 系统则处理“是什么?”的问题。它通常在病灶已被人类或 CADe 系统识别之后开始工作。给定一个特定的感兴趣区域,它会输出一个单一数值,比如恶性肿瘤的概率。它的任务不是寻找目标,而是对一个已经被发现的目标进行分类。

这种区别不仅仅是学术上的;它决定了这些系统的构建方式,以及至关重要的一点——我们如何衡量它们的性能。

评判机器:我们如何衡量“好”?

如果我们为放射科医生构建一个数字助手,我们需要一种严谨的方法来评估其性能。在一个错误代价可能极高的任务中,一个简单的“正确率”分数是远远不够的。

权衡的艺术:ROC 与 AUC

让我们首先考虑一个用于分类乳腺病灶的 CADx 系统。对于任何给定的病灶,它都会生成一个恶性程度评分。我们必须设定一个阈值:任何高于该阈值的分数都被标记为“恶性”,低于该分数的则为“良性”。我们应该将这个阈值设在哪里?

如果我们将阈值设得非常低,我们就能捕获到每一个癌症病灶,但同时也会将许多良性病灶误判为恶性,导致不必要的焦虑和活检。这是高​​灵敏度​​(我们正确识别出的真阳性比例),但低​​特异度​​(我们正确识别出的真阴性比例)。如果我们将阈值设得非常高,我们就能非常确定我们所谓的恶性确实是恶性,但会漏掉许多实际的癌症。这是高特异度但低灵敏度。

这里存在一个固有的权衡。为了将其可视化,我们绘制一条称为​​受试者工作特征 (ROC) 曲线​​的曲线。它是一张图,描绘了在所有可能的阈值下,灵敏度(真阳性率)与 1−特异度1 - \text{特异度}1−特异度(假阳性率)之间的关系。一个完美的分类器其曲线会直冲左上角(100% 灵敏度,0% 假阳性率)。一个只会随机猜测的无用分类器会产生一条对角线。

为了将整条曲线总结为一个单一的数字,我们计算​​曲线下面积 (AUC)​​。AUC 为 1.01.01.0 表示完美,而 0.50.50.5 则不比抛硬币好。AUC 有一个非常直观的含义:它指的是分类器将一个随机选择的阳性案例的分数排在一个随机选择的阴性案例之前的概率。这是一个纯粹衡量系统区分两个类别能力的指标,与任何特定的阈值无关。

超越单一答案:用于检测的 FROC

ROC 曲线非常适用于“是什么?”的问题,即每个病灶对应一个答案。但对于“在哪里?”这个问题又该如何处理呢?一个用于发现肺结节的 CADe 系统可能会在一张胸部 CT 上标出十个标记。其中一些可能是真实的结节,而另一些可能是假警报。

在这里,我们需要一个不同的工具:​​自由响应受试者工作特征 (FROC) 曲线​​。FROC 曲线绘制的不是灵敏度与假阳性率的关系,而是灵敏度与每幅图像平均假阳性数的关系。这个指标直接回答了放射科医生的实际问题:“为了找到所有真实癌症的 90%90\%90%,我需要在每次扫描中查看多少个假警报?”这是衡量系统融入临床工作流程程度的一个关键指标。

严峻的现实:贝叶斯定理与临床效用

一个拥有高 AUC 或出色 FROC 曲线的系统看起来令人印象深刻。但其在现实世界中的价值,关键取决于其使用的具体环境。这正是优雅而强大的​​贝叶斯定理​​发挥作用的地方。

一项检测的性能指标,即灵敏度和特异度,是检测本身固有的属性。然而,患者和医生真正关心的是​​阳性预测值 (PPV)​​——即在检测结果为阳性的情况下,你实际患病的概率——以及​​阴性预测值 (NPV)​​——即在检测结果为阴性的情况下,你未患病的概率。

贝叶斯定理表明,PPV 和 NPV 不仅取决于检测的灵敏度和特异度,还取决于疾病在被检测人群中的​​患病率​​ (π\piπ)。对于一种罕见病,即使是非常准确的检测,其 PPV 也可能出奇地低。这是因为大量的健康个体也会产生一些假阳性,而这些假阳性很容易在数量上超过少数患病个体产生的真阳性。理解这一点对于正确解读 CAD 系统的输出、避免过度检测和过度诊断至关重要。

最终,目标不仅仅是高 AUC 或低假阳性数,而是改善患者的预后。这需要一个整体的视角,平衡早期检测带来的益处与诊断过程本身可能造成的伤害。在结肠镜检查中使用 CADe 系统,是否能发现足够多的额外癌症,从而抵消因操作时间延长和切除被误认为癌症的良性息肉所带来的风险和伤害?基于​​决策分析​​的模型使我们能够量化这些权衡,计算出“净效益”,并确保一项新技术带来的帮助确实大于其伤害。

数字思维的内部:从手工构建到深度学习

在确定了如何定义和评判这些系统之后,让我们深入其内部,看看它们是如何“思考”的。一台机器是如何学会看到那些即使是训练有素的人眼也可能忽略的疾病细微迹象的呢?

第一代:手工特征

最早的 CAD 系统是通过尝试将放射科医生的专业知识转化为计算机代码来构建的。专家们会确定他们用来描述病灶的特征——比如大小、形状、边界锐利度和内部纹理。然后,计算机科学家会设计数学公式来捕捉这些属性。这个领域被称为​​影像组学 (radiomics)​​。这些特征通常分为几类:

  • ​​一阶特征​​:病灶内部像素强度的统计数据,如均值、方差和偏度,它们告诉你病灶的整体亮度和对比度。
  • ​​形状特征​​:描述病灶几何形状的指标,如其体积、表面积和“球形度”或“紧凑度”。
  • ​​纹理特征​​:量化像素空间模式的复杂度量。病灶内部是斑驳的、均匀的还是条纹状的?这些特征试图捕捉这一点。

这种方法是至关重要的第一步,但它有一个显著的缺陷。这些手工制作的特征往往很脆弱。如果图像是在不同的扫描仪上采集的,模糊程度不同(由​​调制传递函数​​,即 MTF 描述),甚至只是将图像重采样到不同的网格尺寸,特征值都可能发生巨大变化。这种缺乏鲁棒性的问题使得开发能够在不同医院可靠工作的系统变得困难。

革命:从经验中学习

过去十年,计算机视觉领域发生了一场革命,这得益于​​深度学习​​,特别是​​卷积神经网络 (CNNs)​​。我们不再告诉机器要寻找什么,而是直接向它展示。

一个 CNN 会被展示成千上万张医学影像,每张都由放射科专家标记(“这张包含癌症”,“这张是健康的”)。通过反复试验的过程,网络会自己学习哪些特征对于做出正确诊断是重要的。

CNN 通过构建图像的层次化表示来工作。最初的几层可能会学习识别简单的东西,如边缘和角落。接下来的层将这些组合起来,以识别简单的纹理和形状。更深的层再将它们组合,以识别更复杂的解剖结构部分,而最深的层则学习识别疾病的抽象迹象。深层中的每个神经元都有一个​​感受野​​——它“看到”的原始输入图像的一个区域。随着我们深入网络,这个感受野会变大,使网络能够理解越来越大空间尺度上的上下文。像 ​​U-Net​​ 这样的架构是医学图像分割的基石,其对称路径的设计在理解上下文和进行精确定位方面都表现出色。

这种端到端的学习方法已被证明比旧的手工特征方法强大得多,也更具鲁棒性,在特定任务上的表现常常能与人类专家相媲美,甚至超越他们。

两全其美:物理信息人工智能

对深度学习的一个常见批评是它是一个“黑箱”。它可能得出正确的答案,但我们并不总是知道为什么,而且它可能会犯一些奇怪的错误。医学人工智能研究的一个前沿领域是打开这个黑箱,并将我们对世界的知识重新注入其中。

我们有精确的数学模型来描述医学影像扫描仪的工作原理。例如,CT 或 MRI 扫描仪的操作可以用一个线性模型 Ax=bA x = bAx=b 来描述,其中 xxx 是我们想看到的真实图像,AAA 是代表扫描仪物理过程的“系统算子”,bbb 是扫描仪实际测量的原始数据。我们可以构建​​物理信息网络​​,将算子 AAA 直接整合到其架构中,而不是让网络从头开始学习所有东西。这迫使网络的输出与测量数据在物理上保持一致,防止其“幻化”出伪影,从而使系统更加可靠和值得信赖。

通用医生?泛化的挑战

部署医学人工智能最大的挑战之一是​​域漂移 (domain shift)​​。一个完全在 A 医院的 A 扫描仪图像上训练的模型,在 B 医院的 B 扫描仪图像上测试时,性能可能会很差。图像噪声、对比度和分辨率的细微差异,就像一种“方言”,会迷惑模型。我们如何才能构建一个真正的专家模型,而不仅仅是一个只懂某家医院数据的专家?

一个非常优雅的解决方案来自一个名为​​域对抗训练 (domain adversarial training)​​ 的概念。其思想是在网络内部设置一个博弈。网络的主要部分,即​​特征提取器​​,有两个目标:第一,正确识别疾病;第二,欺骗网络的第二部分,即​​域判别器​​。判别器的唯一工作就是根据提取器产生的特征,猜测图像来自哪家医院。

整个系统在一个最小-最大博弈中进行训练: min⁡θf,θy max⁡θd Ly(θf,θy) − λ Ld(θf,θd)\min_{\theta_f,\theta_y}\ \max_{\theta_d}\ \mathcal{L}_y(\theta_f,\theta_y)\ -\ \lambda\,\mathcal{L}_d(\theta_f,\theta_d)minθf​,θy​​ maxθd​​ Ly​(θf​,θy​) − λLd​(θf​,θd​) 特征提取器 (θf\theta_fθf​) 试图最小化疾病分类损失 (Ly\mathcal{L}_yLy​),同时最大化域判别器的损失 (Ld\mathcal{L}_dLd​)。与此同时,判别器 (θd\theta_dθd​) 试图最小化自身的损失。通过进行这场对抗性博弈,特征提取器被迫学习一种数据的表示,这种表示是如此通用且不含特定于某个站点的伪影,以至于判别器最终只能随机猜测。它学会了病理学的通用语言,而不是某个扫描仪的“地方方言”,从而产生了一个更鲁棒、更具泛化能力,并最终更公平的模型。

应用与跨学科联系

在窥探了计算机辅助诊断的“引擎室”,探索了其神经网络和统计学习的“齿轮”之后,你可能会倾向于认为它是一个自成体系的计算机科学奇迹。但这就像只欣赏画家的画笔,却从不看画布一样。这项技术的真正故事,是在它离开实验室,进入混乱、充满活力又异常复杂的人类健康世界时才展开的。它的原理不仅解决问题,更向外扩散,连接起不同的领域,并迫使我们对医学、经济学、正义以及我们对工具信任的本质提出更深层次的问题。

在临床一线:第二双眼睛

想象一位内窥镜医生,一位训练有素的专家,正在一丝不苟地在患者的结肠中寻找癌症的迹象。这是一项需要高度专注的任务,但无论多么熟练,人眼也会疲劳或瞬间分心。息肉,特别是那些小而扁平的息肉,可能极难发现。现在,想象一个不知疲倦的助手,一双永不眨眼的眼睛,凝视着同样的视频流。这就是计算机辅助检测 (CADe) 系统在现代结肠镜检查室中扮演的角色。

这个人工智能并不做出诊断。相反,它像一个警惕的观察员,实时在屏幕上高亮显示可疑区域,促使内窥镜医生仔细查看。结果如何?更多的腺瘤——癌前息肉——被发现。这种增益对于那些最容易被忽略的病变,即微小和非息肉样病变,通常最为显著。这并非要取代专家,而是为了增强他们的感知能力,是人类与机器智能之间一种美妙的协同作用。

而发现多一个微小息肉这个小小的举动,却有着深远的影响。在该领域,有一个公认的、近乎神奇的关系:腺瘤检出率 (ADR)——即至少发现一个腺瘤的操作所占的比例——每增加一个百分点,患者在下一次筛查前的间期内患上结直肠癌的风险就会相对下降约 0.030.030.03。一个能够提升 ADR 的 CADe 系统,即使只是微小的提升,也因此可以直接转化为未来癌症发病率的可预测且显著的降低,将一项技术壮举变成了拯救生命的成果。这一原则贯穿于整个医学领域,从光学结肠镜视频的分析到 CT 结肠成像等 объемные 数据集的解读,软件在这些领域帮助导航结肠的三维重建图像以发现异常。

数字的严峻现实:概率与预测

所以,我们有了一个能发现更多东西的工具。这似乎很简单:人工智能的阳性结果意味着我们应该担心,阴性结果则意味着我们可以放松。但在这里,自然——以及优美的概率法则——向我们抛出了一个有趣的曲线球。让我们考虑一个不同的领域:一个寻找葡萄膜黑色素瘤的专科诊所,这是一种罕见但危险的眼癌。一个 AI 模型被开发出来,从各方面看都相当不错。它具有高灵敏度(能正确识别大多数患有癌症的患者)和高特异度(能正确排除大多数未患病的患者)。

你可能会期望,当这个优秀模型将一名患者标记为高风险时,这个判断几乎肯定是正确的。但现实却令人惊讶。在一个疾病非常罕见的场景中——比如说,转诊患者中只有 2%2\%2% 真正患病——来自 AI 的绝大多数阳性警报都将是假警报。这不是 AI 的缺陷,而是贝叶斯定理所描述的一个基本事实。当你在一个巨大的干草堆里找一根针时,即使是最好的探针器,大部分时间找到的也只会是干草。阳性预测值 (PPV)——即在检测结果为阳性的情况下你实际患病的概率——深受疾病患病率 ppp 的影响。这给我们一个至关重要且令人谦卑的教训:一个诊断工具不能孤立地被理解。它在现实世界中的意义与其使用的背景密不可分。一个“阳性”结果并不能终结一个案例;它仅仅是开启一项新的、更具针对性的调查,我们必须建立我们的医疗系统,以处理即使是最好的检测在低患病率情境下也会产生的不可避免的假阳性洪流。

超越诊断:融入医疗保健的肌理

计算机辅助诊断的影响远不止于单个患者的诊疗过程。它在医院董事会、监管机构和法庭上引发了新的对话。

首先,是成本问题。一项新技术可能有效,但它值得投资吗?卫生经济学家为我们提供了一个理性的视角来看待这个问题。通过计算增量成本效果比 (ICER),我们可以为“每额外检出一个腺瘤的成本”或“每挽救一个质量调整生命年的成本”赋予一个数值。这将讨论从“它好不好?”转移到“它是否是我们有限资源的良好利用?”这是一个严峻的提醒:在现实世界中,医学创新也是一种经济活动。

然后,是法律问题。当一个软件被用于诊断或指导治疗时,它就不再仅仅是代码;它变成了一种受监管的医疗设备。在美国,美国食品药品监督管理局 (FDA) 负责监管这一领域。对于一个真正新颖的 AI 工具,一个没有现有等效物(没有“前代产品”)的工具,其上市途径通常是“De Novo”分类途径。但这引发了一个棘手的问题:你如何监管一个被设计为能够学习和随时间变化的设备?FDA 的优雅解决方案是预定变更控制计划 (PCCP),这是一种预先批准的“飞行计划”,允许 AI 在安全、协定的范围内进行更新,而无需每次变更都申请新的批准。

这个监管框架也是科学与社会正义交汇的地方。一个在某个人群数据上训练的 AI 模型,在另一个人群上可能表现不佳,这有可能加剧现有的健康差距。因此,一份现代 AI 设备的监管提交文件必须包括一个计划,以监测其在不同人口群体中的性能——按种族、民族、性别和年龄分层——以确保它对每个人都安全有效。这将监管者的角色从一个简单的安全守门人转变为算法公平的守护者。

这种法律、伦理和系统设计的交叉点也处于像欧盟《人工智能法案》这样的框架的核心。对于高风险系统,该法案强制要求有效的“人类监督”。这不是一个模糊的建议;它转化为具体的设计模式。一个​​人在回路 (HITL)​​ 系统确保一个合格的专家,如放射科医生,在每个关键决策影响患者之前做出或确认该决策。一个​​人在环路 (HOTL)​​ 系统则涉及一个主管,他在群体层面上监控 AI 的整体性能,通过控制图观察其性能是否出现漂移或偏差,并有权在系统行为异常时进行干预或关闭系统。这些不仅是技术选择;它们是伦理和法律的承诺,将不伤害原则 (nonmaleficence) 和正义原则直接融入到操作工作流程中。

幕后:构建可信赖 AI 的艺术与科学

最后,让我们拉开帷幕,问一问:从头开始构建这样一个系统需要什么?公众通常想象的是一个才华横溢的程序员发明了一种神奇的算法。事实则更加严谨、更具协作性,并且在很大程度上依赖于数据整理这项枯燥乏味的工作。

没有好的数据,就无法构建出色的 AI。想象一下,你想创建一个模型来检测结核病。你需要一个坚如磐石的“参考标准”来确定哪些患者真正患有该病。你必须收集能反映所有患者谱系的数据——年轻的和年老的,伴有或不伴有其他疾病(如 HIV)的——以避免构建一个只在“简单”案例上有效的有偏见的模型。你还必须确保数据是纯净的,图像、症状和实验室结果都与同一个临床事件在时间上对齐。如果喂给最复杂的算法一堆模棱两可、有偏见或混乱的数据,它也会失败。可信赖 AI 的基础不仅仅是数学,更是严谨的临床流行病学科学。

即使有完美的数据,构建模型本身的过程也是一个充满潜在错误的雷区,需要极大的纪律性。例如,当训练一个模型从大片皮肤图像马赛克中诊断黑色素瘤时,不能简单地将图像块随机分入训练集和测试集。为什么?因为来自同一患者的图像块是相关的。这样做就像让模型偷看考试答案。为了诚实地评估模型在新的、未见过的患者身上的表现,来自单个患者的所有图像必须全部被限制在训练集或测试集中,绝不能两者兼有。这种​​患者级别划分​​的原则是有效医学 AI 开发的基石。整个流程,从处理类别不平衡到使用多示例学习等先进架构,再到在另一家诊所的外部数据上进行验证,都是一个复杂的配方,旨在构建的不仅是一个高性能的模型,更是一个值得信赖的模型。

因此,计算机辅助诊断的旅程是一幅丰富多彩的织锦。它始于计算机屏幕上的一道闪光,一个在像素海洋中被识别出的模式。但它很快就变成了一个关于概率、经济学、法律和伦理的故事。这是一个关于一丝不苟、常常是无形劳动的的故事,这些劳动旨在构建鲁棒的系统和高质量的数据集。归根结底,这并非一个机器取代人类的故事,而是一个全新的、复杂的、强大的伙伴关系的故事,这个伙伴关系挑战我们成为更好的科学家、更深思熟虑的工程师,以及更公正的技术管理者。