try ai
科普
编辑
分享
反馈
  • 基于图的放射组学:描绘疾病的隐藏网络

基于图的放射组学:描绘疾病的隐藏网络

SciencePedia玻尔百科
核心要点
  • 基于图的放射组学将医学图像建模为网络,其中像素是节点,它们之间的关系是边,以揭示复杂的结构模式。
  • 诸如归一化切割和模块度最大化等方法能够实现稳健的图像分割和肿瘤内异质性的定量描绘。
  • 通过将患者或特征表示为节点,诸如谱聚类等基于图的方法可以识别疾病亚型并揭示群体间的关系。
  • 该框架作为一种通用语言,整合了来自放射学、病理学和基因组学等不同领域的数据,以创建整体性的诊断模型。

引言

在从医学图像中提取更深层意义的探索中,传统放射组学提供了宝贵的工具。然而,它常常忽略一个关键维度:像素之间、肿瘤不同区域之间,甚至患者之间的复杂关系网络。本文通过引入基于图的放射组学来弥补这一不足,这是一个强大的范式,它通过将数据建模为相互连接的网络,重构了医学图像分析。通过将图像不视为像素网格,而看作一个由相互作用的元素组成的社会,我们可以解锁以前无法观察到的洞见。这种方法为理解疾病的复杂性提供了一种更为精妙的方式。本文将引导您了解这种变革性的方法论。“原理与机制”一章将奠定基础,解释如何将图像转换为图,并使用谱聚类和标签传播等概念进行分析。随后,“应用与跨学科联系”一章将展示这些原理如何应用于解决现实世界中的挑战,从描绘肿瘤异质性到整合放射学、病理学和基因组学的数据,以实现对疾病真正全面的理解。

原理与机制

要真正领会基于图的放射组学的威力,我们必须转变视角。让我们不再将医学图像仅仅看作一个静态的像素网格,一个沉默的数据点集合。相反,让我们把它想象成一个充满活力、熙熙攘攘的社会。每个像素,或在三维空间中的​​体素(voxel)​​,都是一个个体,其亮度是一个决定性的特征。和任何社会一样,它也有其结构。一些体素是亲密的朋友,是属性几乎完全相同的近邻。另一些则是远房的熟人。如果我们能绘制出这些关系的地图会怎样?这就是我们旅程简单而又深刻的起点:我们将要成为肿瘤隐藏社交网络的制图师。

从像素到网络:作为图的图像

第一步是将我们的图像转换成图的语言。这是一个非常直观的过程。我们声明,在感兴趣区域(比如一个肿瘤)内的每一个体素,都是我们网络中的一个​​节点(node)​​。现在,我们如何决定哪些节点是相连的呢?我们为任意两个节点之间绘制一条​​边(edge)​​(即连接)设定了两条简单的规则:它们必须是空间上的邻居,并且它们在外观上必须“相似”。

但“相似”究竟意味着什么?这是图构建的艺术与科学开始的地方。最简单的相似性度量是强度差异。如果绝对差异低于某个阈值,我们就画一条边。这个简单的规则已经足够强大,可以开始区分不同的区域。但我们可以做得更精细。图像中真正的边界不仅仅是亮度的变化;它可能也是纹理的变化或一个急剧的梯度。我们可以将连接的强度——即​​边权重(edge weight)​​——定义为一个结合了多种证据来源的函数。例如,我们可以定义相邻体素 ppp 和 qqq 之间的权重 wpqw_{pq}wpq​,使得当强度梯度 gpqg_{pq}gpq​ 和纹理差异 tpqt_{pq}tpq​ 都很低时,该权重很高。一个常用且有效的选择是指数函数,如 wpq=exp⁡(−(αgpq+βtpq))w_{pq} = \exp(-(\alpha g_{pq} + \beta t_{pq}))wpq​=exp(−(αgpq​+βtpq​))。 这个函数有一个优美的特性,它为非常相似的体素分配高权重(强连接),但随着它们变得越来越不相似,权重会迅速下降,从而有效地在一个区域的“内部者”和“外部者”之间创造出清晰的区分。

网络构建好后,我们能用它做什么呢?放射组学中的一个主要任务是​​分割(segmentation)​​——精确地勾勒出病灶的边界。在我们的图中,这相当于找到将网络切割成两部分的最佳方式:“病灶”和“背景”。一个自然的方法是找到切断最弱连接的切割,即最小化被切断边的总权重。这被称为​​最小割(minimum cut)​​。然而,一个朴素的最小割有一个奇怪且令人沮丧的偏好:它喜欢找到微小的、孤立的区域,仅仅因为这些区域有最短的可能边界,从而有“最便宜”的切割。

这个难题的解决方案非常优雅。我们不只是最小化切割,而是最小化一个​​归一化切割(Normalized Cut)​​。这个目标函数引入了一种平衡:它试图找到一个代价低的切割,但同时惩罚那些产生大小不成比例的小集合的划分。其代价通过每个生成部分的“体积”进行归一化,这里的体积代表了该部分内所有节点的总连接强度。本质上,我们是在告诉算法:“给我找一个便宜的边界,但绝不能给我一个微不足道的小块。” 这个简单的修改将图割转变为一个用于智能分割的稳健而强大的工具。

寻找隐藏的社群:生境与异质性

肿瘤很少是一个均匀的肿块。它是一个复杂的生态系统,有不同的邻域或​​生境(habitats)​​,其特征在于不同的细胞密度、血液供应和代谢活动。这些生物学差异通常在图像中表现为强度和纹理的变化。我们从图像的像素社会构建的图,掌握着揭示这种​​肿瘤内异质性(intra-tumor heterogeneity)​​的关键。

为了自动找到这些隐藏的社群,我们可以借鉴社交网络研究中的一个强大概念:​​模块度(modularity)​​。 模块度衡量一个网络被划分为多个社群的优劣程度。如果社群内部的连接远比随机情况下预期的要密集,而社群之间的连接则较为稀疏,那么这个划分就具有高模块度。通过搜索使体素图的模块度得分最大化的划分方式,我们可以通过算法识别出与肿瘤生物学生境相对应的不同空间区域。这为我们提供了肿瘤内部景观的定量地图,是理解其行为和对治疗潜在反应的关键一步。

思想之图:超越像素

到目前为止,我们的节点代表了图像中的物理位置。但图形式主义真正的力量和美妙之处正在于此:一个节点可以代表任何事物。这种抽象使我们能够提出全新类型的问题。

想象一下,我们有来自数百名患者的数据。对于每位患者,我们都提取了一组丰富的放射组学特征——可能有数千个——描述他们肿瘤的大小、形状和纹理。我们现在可以构建一个图,其中每个​​节点是一名患者​​。如果两个患者的放射组学特征向量高度相似,我们就在他们之间画一条带权重的边。这不再是单个肿瘤的地图;这是一个跨越整个患者群体的关系地图。我们能用这样的地图做什么呢?我们可以寻找聚类。

一个非常强大的技术是​​谱聚类(spectral clustering)​​。 其背后的数学原理很深,与物理对象的振动有关,但其直觉非常优美。通过分析图的最低频“振动模式”——一个称为​​图拉普拉斯矩阵(graph Laplacian)​​的特殊矩阵的特征向量——我们可以找到为节点分配数值的最“平滑”的方式。在网络中彼此靠近的点在这些平滑分配中自然会获得相似的值。这些新值提供了一个低维嵌入,一套新的坐标系,在这里聚类变得显而易见。这就像轻轻摇晃一张蜘蛛网,观察哪些部分会同步移动。这些部分就是聚类——在我们的例子中,就是隐藏在高维特征数据中的潜在疾病亚型。

这种抽象的力量不止于此。我们可以创建图,其中​​节点是特征本身​​。 一条边可能代表在所有患者中,一个CT纹理特征和一个PET代谢特征之间的相关性。这个“思想之图”揭示了不同测量和模态之间复杂的相互关系,提供了对疾病的统一视图。我们甚至可以用这个框架来重塑旧的工具。经典的纹理度量通常受限于像素网格的刚性几何结构。通过将问题重塑为图的形式,我们可以将相同的逻辑应用于不规则数据,例如来自数字病理切片的单个细胞位置云,其中图的连接代表物理上的邻近性。 无论底层数据结构如何,图都成为一种描述关系的通用语言。

知识的流动:在图上学习

图不仅仅是静态的地图;它们也可以是信息流动的管道。假设在我们的患者相似性图中,我们知道少数几位患者的临床结局。我们如何利用网络结构来预测其他所有人的结局呢?

这引出了一个优雅的概念:​​标签传播(label propagation)​​。 我们可以想象已知的标签——比如用“1”代表不良结局,用“0”代表良好结局——就像金属网格上的固定温度点。然后我们让这些信息在图中“流动”。指导原则是,任何未标记的节点都应该采用其邻居值的加权平均值。这个过程不断迭代,直到整个图上的标签稳定下来,达到一个平衡状态。标签的最终分布是数学家所称的​​谐波函数(harmonic function)​​,这是一种使所有边上的总“能量”或“张力”最小化的状态。这是其最直观形式的半监督学习,允许少量知识渗透到整个数据集中,从而做出智能推断。

为何这一切行之有效:流形假说

还有一个更深层次的问题。放射组学数据存在于一个数千维的空间中。在如此广阔的空间里,每个点都应该与其他所有点相距甚远;“邻域”和“距离”这些概念本身应该会失效。这就是臭名昭著的​​维度灾难(curse of dimensionality)​​。那么,为什么这些完全建立在局部邻域思想之上的基于图的方法,竟然能够奏效呢?

答案在于一个优美而深刻的概念,即​​流形假说(manifold hypothesis)​​。 它假设,虽然我们的数据嵌入在一个高维空间中,但它并非随机地填充该空间。相反,数据点位于或非常接近一个维度低得多的、平滑弯曲的曲面,即​​流形(manifold)​​。想象一根长长的线在一个大房间里缠成一团。线本身是一维的,但它上面的每个点都有一个三维坐标。

这就是驯服维度灾难的秘密。由于数据被限制在一个低维流形上,其局部结构是表现良好的。如果你放大看线上的一小段,它看起来几乎像一条直线。类似地,一个 ddd 维流形的一小块局部看起来像一个平坦的 ddd 维欧几里得空间。在这些局部区域中,点之间的直接欧几里得距离是真实“流形上”距离或​​测地距离(geodesic distance)​​的极佳近似。

这正是为什么利用局部性的算法——比如从 k-近邻构建图——能够成功的原因。它们实际上是在发现并利用这个隐藏流形的局部几何结构。这些方法的性能最终不取决于空间的高环境维度,而是取决于流形本身低得多的内在维度。我们构建的图,本质上是这个底层流形的离散近似,是一张路线图,让我们能够驾驭数据的隐藏结构并揭示其中的秘密。

应用与跨学科联系

既然我们已经探讨了基于图的放射组学的基本原理,我们可以开始一段更激动人心的旅程:看这些思想如何开花结果,成为重塑医学科学的强大应用。理解节点、边或图拉普拉斯矩阵的抽象定义是一回事;亲眼目睹它们在实践中从医学图像中破译疾病的秘密语言则完全是另一回事。正如我们将看到的,图提供了一种描述关系的通用语言,一个透镜,通过它我们可以感知定义生物系统的复杂连接网络——从单个像素的尺度到整个患者群体。

塑造数据:从原始像素到有意义的对象

在分析一个结构之前,我们必须首先定义它。在医学成像中,这第一步是分割——围绕感兴趣区域(如肿瘤)绘制边界。但现实世界是混乱的。自动化分割算法尽管功能强大,但其结果常常看起来像用颤抖的手画出的海岸线,散布着微小、无意义的岛屿和入口。这些通常只是图像噪声或伪影。如果我们从这样一个杂乱的区域计算特征,我们的结果将是不稳定和不可靠的。

我们如何以一种有原则的方式清理这些呢?图论提供了一个出奇简单而优雅的解决方案。想象每个前景体素(一个3D像素)都是一个人。我们可以定义一个“邻里”规则(例如26连通规则,即体素在面、边或角接触时即为邻居),并构建一个图,其中每对邻居都由一条边连接。现在,我们可以向图提出一个简单的问题:谁与谁相连?这使我们能够识别出所有分离、不连通的体素“岛屿”。几乎可以肯定,这些岛屿中最大的一个代表了真实的解剖结构,而较小的则仅仅是噪声。通过识别并只保留最大的单个连通分量,我们为后续分析创建了一个干净、稳健且连续的区域。这个看似微不足道的整理步骤,植根于图论中的连通分量理论,是标准化和可复现放射组学的基石。

但如果边界本身非常不确定,而我们只有放射科医生自信地标记为“肿瘤”或“非肿瘤”的几个点呢?我们能否利用图结构来绘制其余的边界?确实可以。想象图像是一个巨大的网络,每个体素都是一个节点。我们可以在看起来相似的邻近体素之间创建强连接(权重高的边)——例如,具有几乎相同强度值的体素。现在,我们可以将我们少数的标记点视为锚点,让标签在网络中“流动”或“扩散”。未标记体素的标签由其邻居的加权共识决定。这个过程,在形式上被称为求解图上的谐波函数,使我们能够从极其稀疏的用户输入中平滑地插值出一个完整的分割图。这是一个绝佳的例子,展示了图如何优雅地将人类专业知识与算法的计算能力相结合,以精炼我们研究的对象本身。

揭示无形景观:描绘肿瘤异质性

有了明确的边界,我们现在可以深入肿瘤内部。长期以来,放射组学将肿瘤视为均匀的团块,为整个体积计算一套单一的特征。但这是一个严重的过度简化。肿瘤不是一个整体;它是一个复杂、熙攘的生态系统,有其自身的内部地理。一些区域可能缺氧(低氧),另一些则充满新生血管(血管生成),还有一些处于细胞死亡状态(坏死)。这些是肿瘤的“生境”,它们的构成可以告诉我们很多关于癌症的侵袭性以及它可能如何对治疗作出反应的信息。

基于图的放射组学为描绘这一无形景观提供了完美的工具包。我们可以为每个体素分配一个多参数“护照”——一个包含来自MRI、PET和CT等各种扫描测量值的特征向量。这个护照可能描述体素的组织密度、代谢率、含水量和纹理。通过将肿瘤内所有体素的集合视为一个图,我们便可以使用无监督聚类算法来寻找具有相似“护照”的体素群组。当我们加入空间约束——即一个生境内的体素必须在地理上是连通的——我们就可以将肿瘤划分为一组独特的、具有生物学可解释性的子区域。

聚类算法的选择不仅仅是一个技术细节;它反映了我们对世界的假设。像 kkk-means 这样的简单算法隐含地假设生境在特征空间中是漂亮的、圆形的、球状的团块。但生物学很少如此整洁。基于图的方法,如谱聚类,则不做此类假设。通过将问题转化为在体素图中寻找紧密连接的社群,它们可以揭示出我们在自然界中经常看到的那种形状复杂、不规则且相互交织的生境。这种以图为中心的视角甚至可以增强经典的放射组学技术。例如,传统的纹理特征可能对噪声敏感。通过将图像的纹理“区域”建模为图中的节点,我们可以使用如图割这样的强大优化框架,将微小、不重要的区域合并到其较大的邻居中。这种正则化过程稳定了纹理特征,使我们的测量结果更加可靠和有意义。

宏大的综合:编织知识之网

也许图范式最强大的力量在于其卓越的能力,能够综合来自截然不同来源的信息,将它们编织成一幅单一、连贯的知识织锦。它为历史上一直保持独立的学科提供了一种通用语言。

放射学与病理学的交汇

思考一下放射学(在宏观尺度上看待身体)和病理学(在显微镜下检查组织)之间的鸿沟。基于图的方法可以弥合这一分歧。病理学家的切片可以被数字化并表示为一个图,其中每个节点是一个细胞,边代表它们的空间关系。一个被称为图神经网络(Graph Neural Network, GNN)的强大模型可以学习读取这种细胞结构的复杂模式。同时,一个标准的神经网络可以分析患者CT扫描中的放射组学特征。

我们如何融合这两位专家——一位着眼于森林,另一位着眼于树木——的知识呢?一种极具原则性的贝叶斯方法将每种模态视为一个独立的专家,为诊断提供一条证据(一个“logit”),同时提供其自身置信度的度量(一个“不确定性”)。最终的综合判断是证据的*精确度加权平均*,其中更自信的专家的“意见”被赋予更大的权重。这种优雅的融合创造了一个比任何单一模态都更强大的整体性诊断工具,将我们在扫描中看到的图像直接与其所代表的细胞生物学联系起来。图的视角是如此基础,它甚至有助于解决数字病理学本身的深层技术挑战,例如使用基于图的正则化器来确保从相邻组织切片中学到的特征是一致的,从而尊重组织的基本结构。

成像与基因组学的结合

这种综合可以走得更深,将我们在图像中看到的与生命的蓝图——基因组——联系起来。这就是放射基因组学领域。在这里,我们可以构建一个图,其节点不是体素或细胞,而是患者。图中任意两位患者之间的“距离”可以由他们的肿瘤图像相似度和基因组图谱相似度的组合来定义。在这个患者-患者图上,我们可以再次利用扩散的魔力。如果我们知道少数患者的基因突变状态,我们可以让这个信息在图中传播,以预测所有其他患者的状态。这开启了一个革命性的前景:使用非侵入性成像作为活检的替代品,仅通过分析肿瘤在扫描上的外观来推断其基因构成。

从器官到结局

我们可以进一步放大视野。人体是一个由相互作用的器官组成的系统。疾病过程很少局限于单个位置。我们可以将身体建模为一个图,其中节点代表器官,边代表已知的解剖或生理连接。然后,图神经网络可以学习信号如何在这个系统中传播,聚合来自多个器官的信息,从而得出关于疾病风险或进展的患者级别预测。

最终,这些模型必须通过预测真正重要的事情来证明其价值:临床结局。在这方面,患者级别的图也同样宝贵。一个患者的预测生存风险可以通过观察其“邻居”——在放射组学和临床特征方面相似的其他患者——的结局来智能地加以完善。当然,构建这样一个预测模型只是战斗的一半。我们必须使用适当的统计工具对其进行严格评估,例如一致性指数(concordance index),这些工具专为处理生存数据的复杂性而设计。这确保我们基于图的预测不仅在数学上精妙,而且在临床上具有相关性和可信度。

最后,图揭示了它远不止是一种简单的数据结构。它是一种语言,一种世界观,一种新的观察方式。它提供了一个单一、统一的框架来描述定义医学的嵌套和重叠关系——从图像中的像素,到组织中的细胞,身体中的器官,再到人口中的患者。通过学习用节点、边以及它们之间流动的信息来思考,我们便能开始驾驭人类疾病惊人的复杂性,将静态的图片转化为动态的生命信息网络,使我们更接近真正预测性和个性化医疗的梦想。