
一个多世纪以来,显微镜一直是病理学的基石,让专家们通过识别染色组织中的模式来诊断疾病。然而,向数字病理学的过渡,远不止是用电脑屏幕取代显微镜那么简单。它标志着一个根本性的转变,将物理标本转化为可以进行计算化存储、共享和分析的丰富数据集。这一飞跃提出了一个关键问题:要确保数字图像能够可靠地用于做出改变人生的临床决策,到底需要什么?挑战在于,要超越简单地创建一幅图像,而是要构建一个能够保证保真度、安全性和临床有效性的稳健基础设施。
本文全面概述了这一变革性领域。我们将深入探讨支撑玻璃切片数字化的核心技术和概念,探索从像素大小到色彩再现的每一个方面是如何被精确控制的。通过审视使数字病理学成为现实的原理,我们揭示了它并非一项孤立的技术,而是众多科学和医学学科的交汇点。首先,在“原理与机制”部分,我们将探索将玻璃切片转化为千兆像素数据集的工程和计算魔力。随后,在“应用与跨学科联系”部分,我们将考察这些数据如何被验证、与人工智能整合,并融入现代医学的法律和伦理结构中,从而开启一个诊断学的新纪元。
从本质上讲,病理学一直是一门模式识别的科学。一个多世纪以来,病理学家最信赖的伙伴就是显微镜,这个工具用于在玻璃切片上染色的组织这一错综复杂的景观中导航。他们的任务是寻找疾病的微妙、有时甚至是明显的迹象:肿瘤杂乱无章的结构、受感染细胞的典型形状、损伤后的炎症反应。这个经过多年训练磨练出来的过程,可以被看作是一场优美的三步舞:首先是检测,找到看起来不对劲的“东西”;其次是表征,用丰富而专业的语言描述其特征;第三是分类,将其归入已知的疾病类别以指导治疗。
那么,什么是数字病理学呢?它仅仅是给切片拍张照片的一种花哨方式吗?这样想就完全错失了重点。数字病理学不是对病理学家精神的取代,而是对其的一种全新的、强大的形式化。想象一下,切片上的整个组织景观不是被捕捉为单张照片,而是作为一个巨大的数字画布,一个光强度函数,覆盖在一个广阔的空间坐标网格上。这就是一张全切片图像(WSI)。
现在,病理学家的三步舞可以用数学和计算的语言来描述。检测变成了一种分割图像的算法,识别出候选的感兴趣区域,我们称之为。表征变成了一个特征提取器,一个函数,它测量这些区域的可量化属性——那些病理学家用肉眼评估的东西,比如平均核面积、细胞形状的变化(多形性),或者结构紊乱程度。最后,分类变成了一个决策函数,,它利用这些量化特征来指定一个诊断类别,理想情况下是来自全球病理学家都在使用的世界卫生组织(WHO)分类体系中的一个类别。
从这个角度看,计算工具并非医学界的异类入侵者。它们是同一基本使命的延续,只是使用了新的工具,使我们能将过程变得更客观、可量化和可重复。它们在不改变病理学概念灵魂的情况下,将其核心目标付诸实践。
创建这个数字画布是一项工程奇迹。全切片扫描仪是一种机器人显微镜,它一丝不苟地扫描整张玻璃切片,捕捉成百上千张被称为“图块”的高倍率小图像,然后通过计算将它们“拼接”成一张无缝的千兆像素图像。但要使其具有任何诊断价值,这个数字表示必须忠实于切片的物理现实。两个问题油然而生:我们看到的东西有多大?图像真的是平的吗?
第一个问题将我们带到定量数字成像中最基本的概念:像素大小。我们屏幕上的一个像素代表现实世界中的多少微米()?这个值是我们数字世界的“标尺”。它由光学系统的总放大倍率决定,从显微镜物镜到相机传感器。一个标有的物镜在传感器上产生的放大倍率可能并非精确的;最终的放大倍率取决于光路中的其他透镜。一台扫描仪的相机物理像素间距可能是,比如说,。如果系统的总放大倍率为,那么一个像素捕捉到的组织区域大小就是像素的物理尺寸除以放大倍率:。精确地知道这个值是无可商榷的;它让我们能够测量一个细胞核的直径,并自信地说它是,这是一个关键的诊断信息。
第二个问题涉及一个美妙的精微之处。组织切片,即使厚度仅为,也并非一个完美的二维平面。它是一个微型的三维世界。从上方看,两个细胞核可能看起来重叠,但实际上一个可能位于另一个之上。传统显微镜通过让病理学家不断转动微调焦旋钮,使焦平面在组织的深度中上下移动来解决这个问题。数字病理学通过一种称为Z轴堆叠的技术来复制这一点。在扫描过程中,系统不仅在单个焦平面上捕捉一张图像,而是在不同、精确控制的深度上捕捉一系列图像。然后,阅片软件会呈现一个“调焦滑块”,让病理学家能够在这个平面堆栈中导航,依次将组织的不同层次清晰地聚焦。这使他们能够解决模糊之处,并理解细胞之间真实的三维关系,就像使用物理显微镜一样。
一张高倍率的WSI文件可能非常巨大,包含数十亿像素,占用数千兆字节的存储空间。我们怎么可能在一台标准计算机上查看如此庞大的文件,更不用说通过互联网,而无需等待数小时?解决方案既优雅又应该让任何使用过在线地图的人感到非常熟悉。
这项技术被称为金字塔式切片。WSI并非存储为一张巨大的图像,而是存储为一个包含多个分辨率图像的“金字塔”。金字塔的底部(第0层)是全分辨率图像,其像素尺寸非常小,比如说,。这一层被分解成一个由小图块组成的网格。然后,系统通过将图像下采样2倍来创建下一层(第1层),得到的像素尺寸为。这个过程不断重复,形成一个几何级数的分辨率序列:,依此类推,直到生成整个切片的一个非常粗略的概览图。
当你第一次在阅片器中打开一张切片时,你看到的是金字塔的顶部——低分辨率的概览图。当你放大到某个特定区域时,阅片器会丢弃该区域的低分辨率数据,并仅请求与你的视口相对应的更高分辨率的图块。这种“按需”检索的魔力使得导航流畅且即时。
这得益于JPEG2000等先进的压缩标准。与将图像分解成块的旧式JPEG不同,JPEG2000使用一种称为离散小波变换(DWT)的数学工具。DWT自然地将图像分解为不同的分辨率级别。由此产生的数据,称为码流,按分辨率和空间位置(分为“分区”)进行组织。这种结构非常适合远程病理学。阅片器可以向服务器发送一个请求,说:“我需要这个特定矩形感兴趣区域在分辨率级别3的数据。”服务器随后可以仅从码流中提取那些分区并通过网络发送,而无需处理千兆像素图像的其余部分。
要让数字切片成为值得信赖的诊断工具,我们必须绝对确定我们在屏幕上看到和测量的内容是切片的忠实再现。这在色彩、测量和整体质量方面带来了深刻的保真度挑战。
首先,考虑颜色。H&E染色的标志性粉色和紫色调对诊断至关重要。然而,你肯定注意到,同一张照片在你的手机上和笔记本电脑上看起来可能不同。这是因为每个设备——扫描仪和显示器——都有其独特的、设备相关的方式来解释红、绿、蓝()值。一个原始的三元组在一台显示器上可能看起来是紫色的,而在另一台上则是蓝色的。这对于诊断是不可接受的。
解决方案是设备无关的色彩管理。它就像一个通用翻译器。扫描仪通过一个源ICC配置文件来表征,该文件包含了将其原生的、设备相关的值转换为通用的、设备无关的配置文件连接空间(PCS)(如CIE )的指令。这个空间不是通过设备信号来定义颜色,而是通过标准人类观察者如何感知它们来定义。然后,每个显示器都有自己的目标ICC配置文件,其中包含反向指令:如何从PCS中获取一种颜色,并为那台特定显示器创建正确的、设备相关的信号以准确地再现它。由色彩管理模块(CMM)管理的整个工作流程如下:
这个优雅的两步过程确保了扫描仪捕捉到的真实色度能够在任何经过校准的显示器上得以保留,唯一的限制是显示器产生这些颜色的物理能力(其“色域”)。
其次,考虑测量。我们已经确定知道像素大小是关键。但如果切片扫描时有轻微的角度呢?相机的方形像素网格可能与切片的南北方向不完全对齐。如果我们简单地以像素为单位测量距离,可能会得到错误的答案。医学数字成像与通信(DICOM)标准提供了稳健的解决方案。一个DICOM-WSI文件不仅存储像素间距(例如,),还存储像素网格行轴和列轴的精确方向,作为一对标准正交方向向量。这就创建了一个完全定义的坐标系。由于坐标轴被定义为完全垂直,物体的物理长度与旋转无关。跨越个像素的线的长度始终是,这是勾股定理的直接应用。这个严谨的元数据框架保证了在DICOM文件中进行的测量是真实且可重复的物理测量,是科学形态计量学的基石。
最后,我们必须记住,数字图像的完美程度永远不会超过它所捕捉的物理对象。扫描仪的物镜景深非常浅,通常只有大约。任何偏离这个焦平面的情况都会导致模糊。一个微小的组织折叠,即切片中仅高的皱褶,可能是一座高山,扫描仪有限的Z轴堆叠范围无法完全攀登。盖玻片的折射率与下面的封固剂不匹配,可能会引入球面像差,这是一种微妙的模糊,会降低分辨率,而简单的重新对焦无法修复。这些“分析前”的伪影 humbling地提醒我们,数字病理学不仅仅是关于计算机;它与精细的组织学物理工艺密不可分。
有了这些技术,病理学上的地理限制开始消解。远程病理学,或称远程诊断,成为现实。它可以有多种形式,每种形式都适合不同的临床需求。
模式的选择关键取决于底层计算机网络的性能。关键指标是延迟(delay)、抖动(variability in delay)和吞吐量(data rate)。把它想象成打电话:延迟是对方听到你说话前那恼人的延迟;抖动是对方声音断断续续、变得不连贯;吞吐量是你给他们发送大文件的速度。动态远程病理学对延迟和抖动高度敏感——高延迟使远程显微镜感觉迟钝和难以控制。另一方面,WSI阅片对延迟不太敏感,但对吞吐量要求很高,以便快速下载大图像图块。
然而,这种新发现的连接性带来了深远的责任。当受保护的健康信息(PHI)被数字化并通过网络发送时,它变得脆弱。信息安全的核心原则——机密性、完整性和可用性(CIA三元组)——变得至关重要。
这些威胁并非抽象的;它们对患者安全和隐私构成了实实在在的风险。在我们拥抱数字病理学力量的同时,我们也必须拥抱建立安全、可靠、值得患者信赖的系统的责任。从玻璃到千兆像素的旅程不仅仅是一次技术飞跃,也是一次伦理飞跃。
在窥探了数字病理学的内部运作之后,我们现在退后一步,纵览全局。我们费尽周折,将一小片组织完美数字化,究竟是为了什么?仅仅是为了用高分辨率显示器取代显微镜吗?这样做就像发明了印刷机却只为复印一本书。真正的魔力始于切片不再只是一块玻璃,而是一份数据——浩瀚、丰富,并准备好以我们才刚刚开始想象的方式被探索。
从模拟到数字的转变不是一个简单的步骤;它是一次深刻的飞跃,将病理学卷入了十几个其他学科的漩涡。在这个领域里,物理学家对光的理解、统计学家的严谨、计算机科学家的抽象天赋,以及律师和伦理学家的秩序感都必须汇合。在本章中,我们将踏上穿越这些联系的旅程,看看数字病理学如何不是一项孤立的技术,而是现代科学和医学宏大网络中的一个强大的新枢纽。
数字病理学的核心是一个大胆的主张:数字图像可以成为物理对象的完美替代品,用于做出改变人生的诊断。要兑现这一主张,需要对光的物理学和信息的工程学有深刻的领悟。这是一个忠实再现的挑战。
首先,必须捕捉细节。多小才算太小?显微镜的分辨能力从根本上受限于光的衍射,这个极限由Ernst Abbe在一个多世纪前描述。这个极限告诉我们我们可能分辨的最小距离,它取决于光的波长和物镜的数值孔径(NA)。要以数字方式捕捉这些分辨出的细节,我们必须遵守另一条定律,即奈奎斯特采样定理。简单来说,它告诉我们,要忠实地表示某个尺寸的特征,我们的数字像素必须至少比它小两倍。因此,要分辨大约的精细核结构,扫描仪相机的像素尺寸在样本层面不能超过。不尊重这些物理和信息定律意味着关键的诊断细节不仅仅是模糊了;它们在数字世界中根本就不存在了。
但病理学不仅仅关乎形状;它还关乎颜色。H&E染色的经典粉色和蓝色承载着大量信息。我们必须确保在波士顿实验室看到的“粉色”与在班加罗尔显示器上看到的“粉色”完全相同。这是色彩科学的领域。解决方案是创建一种标准化的颜色语言,将每个扫描仪和显示器的特定颜色配置文件映射到一个通用的、设备无关的颜色空间,例如由国际照明委员会(CIE)定义的那些空间。这个过程确保了色彩保真度,因此诊断永远不会取决于一个校准不良的屏幕的“任性”。
再现的挑战因标本本身而变得更加复杂。典型的组织学切片,是从石蜡块上切下的一条薄组织带,相对平坦。但是细胞学涂片,比如来自细针穿刺的涂片,是细胞和细胞簇的三维混合体。试图用一张高分辨率照片捕捉这一切,就像试图一次性将一整群蜜蜂都对焦一样。因为高分辨率物镜的景深极浅,许多细胞会失焦。优雅的工程解决方案是采集一个*-stack*——在多个焦平面拍摄的一系列图像,然后可以导航或融合成一张始终对焦的图像。当然,这要以文件大小急剧增加为代价,这是数据完整性与数据存储之间经典的工程权衡。
假设我们已经制造了一台尊重物理和工程定律的扫描仪。它能生成一张细节惊人、色彩完美的切片数字复制品。它准备好用于临床了吗?还没有。现在它必须通过临床验证的熔炉。我们必须用定量的严谨性证明,病理学家使用这个数字图像的情况不比使用传统显微镜差——更重要的是,患者的情况不比使用传统显微镜差。
这是生物统计学和临床试验设计的领域。问题在于“非劣效性”。我们不需要证明数字系统更优越(虽然它可能如此),但我们必须证明它没有达到不可接受的劣效。但什么是“不可接受”?这不是一个随意的选择。我们可以用令人不寒而栗的精确度来定义它,从患者伤害开始。想象一下,一家医院的安全委员会宣布,一项新技术导致的额外有害事件不得超过每1000名患者一例。通过估计一个重大诊断错误导致伤害的概率,我们可以反向计算出重大错误率所允许的最大增量。这就成为了非劣效性界值 。然后进行一项大规模、精心设计的研究,比较数千个在玻璃和数字上做出的诊断,以高置信度证明错误率的差异不超过这个安全界值。
要进行这样的研究,我们需要一种精确的性能语言。准确性、敏感性和特异性等指标成为我们的工具。敏感性回答了这个问题:“在所有确实患有癌症的患者中,我们正确识别了多少比例?”特异性则问:“在所有未患癌症的患者中,我们正确排除了多少比例?”。当我们比较两个不同的系统时,比如WSI和静态远程病理学,我们可能还想知道它们之间的一致性如何。简单地计算它们一致的次数可能会产生误导,因为一些一致性纯属偶然。科恩kappa系数 是一个更复杂的工具,它衡量的是超出侥幸猜测所期望的一致性,从而对一致性给出一个更为诚实的评估。
当一张切片变成数据的那一刻,它就不再仅仅是人眼观察的对象了。它变成了一片等待计算探索的沃土。这就是计算病理学的诞生,一个数字病理学与数据科学和人工智能相遇的领域。
我们能做的第一件事就是开始测量。“影像组学”(radiomics)领域致力于从医学图像中提取大量的定量特征——描述肿瘤的形状、纹理和强度模式。然而,正是在这里,我们立即被提醒了底层的物理学。如果一组图像以的分辨率扫描,而另一组以扫描,对于完全相同的肿瘤,“以像素为单位的肿瘤面积”这个特征在第二组中将是四倍大。在一个5像素邻域上计算的纹理特征,实际上是在两个完全不同的物理尺度上测量关系。如果不首先将图像统一到共同的物理分辨率,提取出的特征就是扫描仪造成的无意义假象,而非生物学本身。这是一个绝佳的例子,说明了不首先理解数据科学就无法进行数据科学。
然而,真正的革命在于机器学习。人工智能能学会发现癌症吗?挑战是巨大的。要训练一个深度学习模型,通常需要数百万个带标签的例子。但我们不能要求病理学家在数千张切片上圈出每一个恶性细胞。我们通常拥有的是一个“弱标签”——对整张可能包含数百万个图块的切片只有一个标签。这就像知道一本一千页的书中有一个错字,但不知道在哪一页、哪一行或哪个词。
优雅的解决方案来自一个名为多示例学习(MIL)的框架。切片被视为一个由“实例”(图块)组成的“包”。训练规则简单而强大:如果一个包包含至少一个阳性实例,则被标记为“阳性”(癌症)。如果一个包的所有实例都是阴性,则被标记为“阴性”。然后,人工智能模型学会找到那个“大海捞针”——证明切片级别标签合理的癌变图块。但在这里,伦理和安全问题再次出现。漏诊癌症(假阴性)远比误报(假阳性)灾难性得多。因此,人工智能的决策必须进行调整,不是为了原始的准确性,而是为了最小化一个经过伤害加权的风险。此外,为了让病理学家信任人工智能,系统不能是一个黑匣子。它必须是可解释的,能够突出显示导致其结论的区域。而且它必须是谦逊的,配备了分布外检测器,使其能够知道何时看到了前所未见的东西,并呼叫人类帮助。这些不仅仅是技术附加功能;它们是任何医学人工智能必不可少的安全特性。
一台经过验证、由人工智能驱动的扫描仪是一项奇迹,但如果它是一座孤岛,那就毫无用处。要让数字病理学发挥作用,它必须被编织进医院庞大的数字网络中。这是医学信息学和互操作性的挑战。
当一张切片被扫描时,它的图像必须可靠地链接到正确的病人、正确的病例和正确的物理组织块。病理学家桌上的阅片软件需要能够找到一个给定病例的所有切片,无论使用的是哪台扫描仪,也无论图像存储在哪里。这需要一种通用语言,一套关于医学信息如何构建和交换的标准。
在现代健康信息技术中,这些标准越来越多地建立在像第七层健康信息标准(HL7)快速医疗保健互操作性资源(FHIR)这样的框架上。在这种范式中,每一条信息——病人、诊断报告、标本——都是一个具有唯一地址的独立资源。一个病理病例的中央DiagnosticReport资源可以作为一个主索引,包含病例号和指向所有相关Specimen资源的指针。反过来,这些Specimen资源可以链接到实际的数字图像,无论它们是医学成像标准(DICOM)格式(由ImagingStudy资源表示),还是供应商特定格式(由DocumentReference资源表示)。这种结构化的、类似网络的方法确保了引用完整性的维持,并使系统能够发现它们需要的数据。安全性通过像OAuth 2.0这样的现代授权协议来处理,确保只有合适的人可以在合适的时间看到合适的数据,而无需在不安全的链接中嵌入密码。
当我们传输、分析和存储这些最个人化的患者数据时,我们受到一个复杂的法律、法规和伦理义务网络的约束。技术不是在真空中运行的;它在一个社会契约内运行。
像美国食品药品监督管理局(FDA)和监督实验室实践的机构(根据临床实验室改进修正案,即CLIA)这样的监管机构制定了游戏规则。一个实验室要进行远程诊断,必须在一个全面的质量体系下运作,并持有有效的CLIA证书。这意味着从验证WSI系统用于其特定用途(例如,术中冰冻切片)到确保远程病理学家获得医院的适当许可和认证,所有事情都必须做到。每一步都必须有文件记录,从患者身份识别到设备维护,再到谁访问了图像的审计追踪[@problem-id:4507428]。当开发一个新的AI工具时,它被视为一种医疗设备,通常必须经过监管审查。一个常见的途径是FDA的510(k)流程,它要求新设备证明与一个合法上市的“参照设备”具有“实质性等效”。选择正确的参照设备是一个关键的战略和科学决策。一个用于计数乳腺癌中有丝分裂的AI,与一个现有的用于计数结肠癌中有丝分裂的AI,其实质性等效性要远大于与一个分析不同染色(如Ki-67)的AI或具有不同自主水平的设备。
法律还面临着一个远程医疗的基本问题:医疗实践发生在哪里?如果一位在Y国的病理学家为X国的病人提供诊断,那么在法律看来,他是在X国执业。因此,他们通常必须获得在患者所在司法管辖区的执业许可。仅仅在报告上标注“咨询性”并不能消除这个基本要求,当该意见被用于指导患者治疗时。
最后,我们回到患者。在这个新的数字世界里,我们对他们负有什么责任?尊重自主权的原则要求患者被告知并有选择权。然而,要求为每一张要被数字化的切片都签署一份特定的书面同意书,会让一个繁忙的医院陷入停顿。一种更平衡、更合乎伦理和实际的方法是采用一个综合的告知流程。在临床接诊时,可以用通俗易懂的语言告知患者,他们的标本可能会被数字化用于诊断,并且这可能涉及远程阅片。应该为他们提供一种明确且非惩罚性的选择退出方式,并记录他们的偏好。这在尊重自主权的同时,保持了提供及时护理所需的效率。当然,任何超出直接治疗范围的图像使用,例如用于研究或教育,都需要另外获得明确的同意。
这段从物理学到伦理学的旅程揭示了数字病理学的真正本质。它不仅仅是一个观察细胞的镜头,更是一个观察在寻求治愈的过程中,科学、技术和人性之间美丽而复杂的相互作用的镜头。