多模态配准

玻尔百科

核心要点

多模态配准通过使用互信息等统计度量来寻找有意义的对应关系，从而对齐来自不同来源（如CT和MRI）的图像。
可变形配准需要正则化来防止物理上不可能的扭曲，以确保变换是平滑且符合生物学原理的。
关键应用包括融合解剖和功能数据以用于手术导航、创建多模态脑图谱以及指导放射治疗。
现代人工智能方法使用无监督深度学习来自动寻找最优变换，或在配准前在不同模态之间进行图像转换。

引言

融合来自不同来源的信息是科学和医学领域的一个根本性挑战。例如，我们如何将擅长显示骨骼的CT扫描与详细描绘软组织的MRI扫描相结合，以获得患者解剖结构的完整视图？这正是多模态配准所要解决的核心问题，它是一种强大的计算技术，用于将不同的数据集对齐到一个单一、连贯的坐标系中。本文旨在弥合其底层理论与现实世界影响之间的鸿沟。文章将首先深入探讨基础的“原理与机制”，探索使配准成为可能的数学变换、互信息等统计度量以及优化策略。随后，“应用与跨学科联系”部分将展示这项技术如何彻底改变从手术导航、神经科学到人工智能最新进展等多个领域，揭示对齐我们世界不同视图的深远而广泛的效用。

原理与机制

想象一下，你有两张同一座城市的地图。一张是来自卫星的详细街道图，显示了建筑物、公园和道路。另一张是地质勘测图，显示了土壤类型和地下水渠。它们描绘的是同一个物理空间，但使用的却是完全不同的语言。一张使用混凝土和沥青的语言，另一张使用淤泥和石头的语言。你如何才能将它们完美叠加，使得一张地图上的每一个点都与另一张地图上的同一位置精确对应？这便是多模态图像配准的根本挑战。在医学领域，这些“地图”可能是一幅计算机断层扫描（CT）图像（它通过X射线出色地揭示骨骼密度）和一幅磁共振成像（MRI）图像（它通过观察水分子在磁场中的行为来显示软组织）。为了真正了解患者的病情，我们必须将这些不同的视图融合成一幅单一、连贯的图像。但我们该如何做到呢？

这个过程是三大核心理念之间优美的协作：一种扭曲一幅图像的方法，一种判断其与另一幅图像匹配程度的方法，以及一套确保扭曲在物理上合理的规则。

扭曲的语言：几何变换

首先，我们需要一种数学语言来描述扭曲这一行为。我们将一幅图像指定为固定图像（我们的参考框架），另一幅为浮动图像（我们将要操作的图像）。操作本身被称为变换，它是一个函数，接收浮动图像中每个点的坐标，并告诉我们它应该移动到固定图像空间中的哪个位置。

最简单的变换是刚性变换。这类变换只允许旋转和平移——就像你对一张坚硬、不可弯曲的照片所能做的移动一样。一个稍微灵活一些的模型是仿射变换，它增加了缩放（使图像变大或变小）和剪切（倾斜图像）。这种12参数的变换，通常写作 $T(\boldsymbol{x}) = A\boldsymbol{x} + \boldsymbol{t}$ ，可以解释扫描仪校准或患者体位的差异。

但真实世界并非刚性。组织会变形。肺部随着每一次呼吸而扩张和收缩，肿瘤可能随时间缩小或增长，两个不同的人的大脑形状也绝不会完全相同。为了处理这种情况，我们需要非线性或可变形变换的力量。这些变换要复杂得多，它们为图像中的每一个点 $\boldsymbol{x}$ 定义一个唯一的位移向量 $\boldsymbol{u}(\boldsymbol{x})$ ，使得最终位置为 $T(\boldsymbol{x}) = \boldsymbol{x} + \boldsymbol{u}(\boldsymbol{x})$ 。这使我们能够模拟生物系统中发生的复杂的、局部的拉伸和挤压。最终目标是找到一个足够平滑且性质良好的变换，以完美保持组织的拓扑结构——没有撕裂，没有折叠，没有“物质”被创造或毁灭。这种理想的变换是一种微分同胚，我们稍后会再谈到这个概念，它是现代计算解剖学的基石。

通用的记分卡：互信息的魔力

现在我们有了一种扭曲浮动图像的方法。但我们如何知道扭曲是否正确？我们需要一张记分卡，一个相似性度量，它为好的对齐给出高分，为差的对齐给出低分。计算机的任务就是找到能使这个分数最大化的变换参数。

如果两幅图像使用同一种语言——例如，同一个人的两幅T1加权MRI扫描图像——任务就相对简单。我们可以使用一个简单的度量，如平方差之和（SSD），它逐像素地将两幅图像相减。如果它们完美对齐，差值为零。SSD假设强度值在两幅图像中具有相同的含义（ $I_{\text{fixed}} \approx I_{\text{moving}}$ ）。一个稍好一些的度量，归一化互相关（NCC），假设存在线性关系（ $I_{\text{fixed}} \approx a \cdot I_{\text{moving}} + b$ ），这使其对简单的亮度和对比度差异具有鲁棒性。

但是，当图像使用不同语言时，比如我们的CT和MRI扫描，情况又会如何？在CT扫描中，骨骼是亮白色（高强度），因为它能强烈吸收X射线。而在T1加权MRI中，骨骼是暗色的，而某些脂肪组织可能是亮色的。水，如大脑中的脑脊液，在T1 MRI中是暗色的，但在另一种称为T2加权MRI的扫描中却是亮色的。简单的减法或线性比较毫无意义；这就像试图比较“骨骼”和“暗色”这两个词，并得出它们是不同事物的结论一样。几十年来，这一直是一个主要障碍。

突破来自信息论领域，一个名为互信息（MI）的概念。MI是多模态配准的“罗塞塔石碑”。它不关心绝对的强度值；它只关心它们之间关系的*统计一致性*。

想象一下，你从两幅图像中取出对应的像素，并绘制它们强度的散点图——这被称为联合直方图。如果图像未对齐，CT中的一个骨骼像素可能会与MRI中的一个大脑、皮肤或空气的像素配对。结果是在你的散点图上形成一团随机、分散的点云。这两幅图像在统计上看起来是独立的。

现在，当你应用一个使图像对齐的变换时，奇妙的事情发生了。CT中的骨骼像素开始与MRI中的骨骼像素持续地对齐。大脑像素与大脑像素对齐。你散点图上的随机点云凝聚成一组小的、紧密的聚类。每个聚类代表一种特定的组织类型，在两种模态中都有其独特（但现在一致！）的特征。图像在统计上变得相关了。

互信息正是衡量这种相关性的数学工具。它量化了知道一幅图像中的强度值能在多大程度上减少你对另一幅图像中强度值的不确定性。它被定义为单个图像熵之和与它们的联合熵之差， $I(X;Y) = H(X) + H(Y) - H(X,Y)$ ，或者更直观地，定义为观测到的联合分布 $p(x,y)$ 与在独立性假设下的期望分布 $p(x)p(y)$ 之间的“距离”： $I(X;Y) = \sum_{x,y} p(x,y) \log \left( \frac{p(x,y)}{p(x)p(y)} \right)$ 当图像未对齐时， $p(x,y) \approx p(x)p(y)$ ，对数内的比率接近1，MI接近0。当它们对齐时，联合分布变得尖锐，MI达到最大值。这一个强大的理念让计算机能够在不具备任何关于生成图像不同外观的复杂物理学先验知识的情况下对齐图像。

物理定律：正则化与合理的形变

有了灵活的变换和像互信息这样强大的记分卡，我们完成了吗？还没有。如果我们简单地告诉计算机不惜一切代价最大化MI，它可能会找到一些聪明但物理上不可能的方法来做到这一点。它可能会将图像的一部分折叠到自身之上，或者将其撕裂，以创造出统计上更相关的像素排列。结果会得到高分，但却是一个毫无意义的对齐。一个无约束的优化是一个不适定问题。

这就是正则化发挥作用的地方。正则化是向我们的目标函数中添加一个惩罚项的过程。这个惩罚项会抑制那些在物理上或生物学上不合理的变换。我们不再仅仅是最大化相似性；我们是在遵循物理定律的前提下最大化相似性。

正则化的美妙之处在于它可以根据我们对系统的特定知识进行定制。例如，在配准患者胸部的CT和PET扫描以追踪呼吸运动时，我们知道关于身体如何变形的几件事：

像肝脏和心脏这样的器官主要由水构成，几乎不可压缩。我们的正则化器可以惩罚那些改变这些区域体积的变换。
组织是平滑变形的。我们可以添加一个基于线性弹性的惩罚，惩罚那些意味着剧烈、不切实际应变的变换。
最有趣的是，肺部并不粘附在胸壁上；它沿着一层称为胸膜的膜滑动。一个通用的平滑度惩罚会禁止这种滑动。而一个精巧的正则化器可以被设计成允许在这个特定界面发生切向运动，同时在其他地方仍然强制平滑。

通过整合这些先验知识，我们引导配准走向一个不仅在数学上最优，而且在生物学上有意义的解决方案。其最终的体现是将变换约束为微分同胚——一个完全平滑、一一对应且具有平滑逆的映射。这个优雅的数学约束从一开始就保证了变换能保持组织的连续、连通的性质，防止任何折叠或撕裂的发生。

搜索的艺术：在崎岖的地貌中导航

我们现在拥有了所有的组件：一个变换，一个相似性度量，以及一个正则化惩罚。最后一步是实际找到最优的变换参数。这是一个优化问题，但它非常棘手。我们的目标函数的“地貌”——想象一个山峦起伏的地形，其中海拔代表相似性得分——是极其崎岖的，充满了无数的山丘和山谷，即局部最小值。一个简单的“滚下山”优化器，如果从错误的位置开始，就会陷入一个小而近的山谷，永远找不到真正的、全局的峰顶[@problem-id:4164260]。

解决方案是一种被称为从粗到精的优化的优雅策略。我们不从全分辨率、高细节的图像开始，而是从模糊、低分辨率的版本入手。这样做可以平滑目标函数的地貌，冲刷掉小颠簸，只留下最大、最突出的山脉和山谷。

这个过程是这样工作的：

粗略初始化： 首先，得到一个大致的估计。一个常见的技巧是对齐两幅图像中大脑的质心，以获得一个良好的平移初始猜测。
粗略搜索： 在低分辨率图像上，我们可以进行广泛的搜索，例如，每15度测试一次旋转，以找到最有希望的方向。
分层细化： 我们将粗略层级上得到的最佳对齐作为在稍高分辨率图像上进行搜索的起点。我们重复这个过程，逐步增加图像细节，并在每一步细化我们的对齐。

这就像在一个陌生的国家寻找一栋特定的建筑。你不会从查看街道级别的照片开始。你会先用地球仪找到这个国家，然后用地图找到城市，只有这样你才会放大到街道和建筑。这种分层的方法极大地增加了找到真正最佳对齐的几率。

对齐的局限：当地图无法匹配时

尽管图像配准功能强大，但它也有其深刻的局限性。“正确”对齐这个概念本身就依赖于一个假设，即一个真正的点对点对应关系是存在的。有时，这个假设会失效。

当我们对齐来自两个不同被试的图像时（被试间配准），我们面临一个关于可识别性的难题。如果我们看到大脑形状的差异，这究竟是两个人之间真实的解剖学差异，还是我们的配准算法的失败？一个高度灵活的可变形变换可能强大到足以将一个大脑扭曲成另一个大脑的样子，从而有效地“解释掉”了真正的生物学变异。这种真实解剖差异与变换本身之间的混淆是一个根本性的挑战。

对称性也可能造成歧义。如果你在配准一个完全对称的物体，算法如何区分正确的对齐和旋转了180度的对齐？它无法区分；这些解是不可识别的。

这些问题在跨物种配准中变得更加尖锐，例如，试图将老鼠的大脑与人的大脑对齐。虽然一些结构是保守的，但另一些则不是。老鼠大脑的嗅球要大得多，而人脑的前额叶皮层则大大扩展。将一个物种中的结构“对齐”到另一个物种中没有同源部分的区域，这又意味着什么呢？在这里，一对一映射的想法本身就失效了，我们必须转向更抽象的对应概念。

探索对齐世界不同视图的征程，将我们从简单的几何位移带到了信息论和微分几何的深处。这是一个将实用工程与关于形状、信息和生物变异性的深刻问题融为一体的领域。通过掌握这门艺术，我们便能开始阅读人体的众多不同“地图”，就好像它们是一本单一、统一的图谱。

应用与跨学科联系

在了解了多模态配准的原理和机制之后，人们可能倾向于将其视为一个巧妙但或许抽象的数学难题。事实远非如此。对齐世界不同视图的艺术和科学不仅仅是一项技术练习；它是一种根本性的发现工具，渗透到现代科学、医学和技术中。它是一条无形的线，将零散的信息片段编织成一个连贯、有意义的整体。现在，让我们来探索其应用的广阔而美丽的图景，并在此过程中见证这一理念如何为众多不同领域带来统一性。

数字外科医生的眼睛：革新医学

想象一位外科医生在人类颅底的险峻地带进行手术，这个区域比蛋壳还薄，布满了关键的神经和动脉。毫米之差便是成功与灾难之别。外科医生需要一张地图，但不是任何地图。他们需要的地图既能显示坚硬的骨性标志，又能同时显示柔软、精细的神经和血管结构。

这正是多模态配准施展其最直接、最能拯救生命的魔力之处。使用X射线的计算机断层扫描（CT）在描绘骨骼方面表现卓越。其图像基于X射线衰减原理构建，将致密的骨骼呈现为明亮的白色，提供了完美的解剖学刚性支架。另一方面，磁共振成像（MRI）扫描则是软组织对比度的大师。通过调谐到水和脂肪中质子的量子力学行为，它可以描绘出CT扫描几乎无法看到的脑、神经和肿瘤的生动图像。

单独来看，每种成像方式都只能提供不完整的画面。CT显示了骨笼，却看不到里面的珍贵内容；MRI显示了内容物，却对它们的容器的精细细节视而不见。通过使用多模态配准，我们可以在数字世界中融合这两个世界。一个计算机算法，通常以最大化*互信息*为原则，找到精确的旋转和平移，将MRI数据完美地对齐到CT支架上。结果如何？一个单一的、复合的3D视图，外科医生可以在其中看到肿瘤（来自MRI）与其在视神经骨性管道（来自CT）中的确切关系。当外科医生的器械在物理空间中被追踪并显示在这张融合图像上时，他们就如同借助一种计算上的“透视眼”在进行导航。

这种融合解剖与功能的原则贯穿整个医学领域。在放射肿瘤学中，肿瘤可能在MRI上最清晰可见，但放射治疗计划必须基于CT扫描提供的组织密度进行计算。配准是将肿瘤轮廓从MRI转移到CT的关键步骤，确保放射束精确命中目标，同时保护健康组织。在精神病学中，研究人员正在使用配准来理解脑深部电刺激（DBS）的效果。一个电极，一个微小的金属探针，被植入大脑深处以治疗抑郁症等疾病。由于金属伪影，用MRI定位这个电极是不可能的。然而，术后CT扫描可以完美地显示电极的位置。通过将这个CT配准回术前丰富的MRI扫描——包括功能性脑网络图谱（来自fMRI）和结构性连接线路图（来自弥散MRI）——科学家们终于可以回答这个关键问题：电极究竟在刺激哪些特定的脑回路？配准成为了将电极的物理位置翻译成大脑功能语言的“罗塞塔石碑”。

绘制心智图谱：神经科学的发现工具

几个世纪以来，神经解剖学家根据他们在显微镜下所见的绘制大脑图谱，依据细胞的形状和排列 painstaking 地描绘区域。如今，多模态配准给了我们一种新型显微镜，一种能够窥探活体大脑并不仅基于形态，而是同时基于功能、结构和连接性来绘制图谱的显微镜。

著名的 Human Connectome Project Multi-Modal Parcellation (HCP-MMP1.0) 就是这种力量的明证。为了创建这个现代大脑皮层区域图谱，科学家们不仅仅是观察一种类型的数据。他们收集了同一个大脑的多种视图：皮层厚度图、髓鞘含量图（通过巧妙地利用T1和T2加权MRI扫描的比率得出）、静息态fMRI的功能连接图，以及各种心理任务期间的活动图。皮层区域的基本概念是指一块脑组织，其中所有这些属性都相对均一，其边界则由急剧的变化所标记。

研究人员以一种革命性的方式使用了配准。他们没有根据大脑表面的折叠模式来对齐大脑（这种模式可以像指纹一样独特），而是开发了一种基于这些多模态特征模式来对齐大脑的方法。这种“基于区域特征的”配准将在不同个体间功能对应的区域对齐。通过叠加所有这些不同模态的空间“梯度”图，他们可以看到最急剧的变化在何处一致出现。在髓鞘、连接性和任务活动的梯度都对齐的地方，就画出了一条边界。通过这种方式，配准不仅仅是使用地图；它正是用来绘制地图的工具，揭示了每个半球的180个不同区域，其中许多是前所未见的。

这种对科学真理的追求也要求我们在知识上保持诚实，而配准教会了我们关于工具局限性的重要一课。例如，用于测量大脑活动的fMRI扫描会存在细微的几何失真，尤其是在靠近充满空气的腔体（如鼻窦）附近。这些是由测量本身的物理原理引起的非线性扭曲。当将一幅失真的fMRI扫描与一幅几何精确的解剖MRI对齐时，人们可能会倾向于使用一个高度灵活、复杂的变换模型来“修复”这些失真。但这是一个陷阱。一个具有12个自由度用于剪切和缩放的全局仿射变换，无法模拟这些局部的、非线性的扭曲。试图这样做只会给整个大脑引入非物理的形变，降低整体对齐质量。在没有特定校正数据的情况下，更符合原则的方法是使用一个简单的刚性变换。这能为整个大脑找到最佳的整体匹配，同时承认一些局部失真将无法被校正。这是一个绝佳的例子，说明了理解问题的物理原理如何指导我们选择正确的数学工具[@problem-id:4163822]。

机器的崛起：人工智能与配准的未来

配准的经典原理——定义一个变换、一个相似性度量和一个优化策略——几十年来提供了一个强大的框架。现在，深度学习正在彻底改变我们实践这些原理的方式。

最新颖的想法之一是用于配准的“无监督”学习。想象一下，你想训练一个卷积神经网络（CNN）来对齐脑部扫描。传统方法需要一个庞大的“问题-答案”对数据集：数千对图像及其对应的“真实标签”形变场，而这些几乎是不可能获得的。无监督方法则异常简单。CNN接收两幅图像（一幅固定的 $I_F$ 和一幅浮动的 $I_M$ ），并输出一个形变场 $\phi$ 。然后用这个场来扭曲浮动图像，产生 $I_M \circ \phi$ 。诀窍在于：我们不需要真实的形变标签。所谓的“监督”来自图像本身！网络的目标是产生一个能使扭曲后的图像 $I_M \circ \phi$ 与固定图像 $I_F$ 尽可能相似的 $\phi$ 。我们可以直接在训练网络的损失函数中使用我们信赖的多模态相似性度量，如局部归一化互相关（LNCC）或像MIND这样的描述符。我们只需添加一个正则化项，鼓励形变场平滑且合理。网络在最终图像相似性的唯一指导下， буквально地学会了自己解决配准难题。

另一个引人入胜的由人工智能驱动的策略直面多模态配准的“苹果与橘子”问题。与其设计一个复杂的度量来比较CT和MRI，我们为什么不先将MRI转换成CT呢？这就是图像到图像转换的领域，使用像 Cycle-consistent Generative Adversarial Networks (CycleGAN) 这样的模型。可以训练一个神经网络，利用不成对的CT和MRI扫描集合来学习它们之间的映射，从而从任何给定的MRI生成一个“伪CT”。然后我们就可以在真实的CT和伪CT之间执行一个简单得多的单模态配准。

然而，这种强大功能也伴随着风险。我们如何知道人工智能在公平行事？一个旨在生成逼真CT的对抗性网络，可能会学到最简单的方法是“作弊”——例如，移除MRI中存在但在其健康CT训练集中不存在的肿瘤。这将在配准中引入危险的解剖学偏差。解决方案在于为人工智能的学习过程增加更多约束：强制它保留原始MRI的结构信息，例如，通过确保大脑结构的分割在转换后保持一致。这是一个活跃的研究前沿，提醒我们，随着我们的工具变得越来越强大，我们确保其保真度和安全性的方法也必须同样强大[@problem-id:5202556]。

超越图像：对齐数据世界

配准的概念是如此基础，以至于它远远超出了对齐2D或3D图像的范畴。其核心在于，为任何两个具有空间或结构成分的数据集找到有意义的对应关系。

以影像组学领域为例，该领域旨在从医学图像中提取可量化的、可挖掘的数据。在进行一项跨多家医院的研究时，我们面临一个重大挑战：来自不同制造商的扫描仪，甚至是同一台扫描仪在不同设置下，都会产生带有细微变化的图像。这种“批次效应”会破坏我们提取的量化特征。在这里，与配准相关的概念至关重要。我们必须使用针对特定模态的处理方法：对于CT，其亨斯菲尔德单位（Hounsfield Unit）尺度具有物理意义，我们使用固定的分箱宽度；对于MRI，其强度是相对的，我们必须首先进行标准化。在合并数据时，我们不应天真地融合原始强度。一种更稳健的方法是“后期融合”，即我们为每种模态建立独立的预测模型，然后合并它们的预测。整个过程是一种“协调”——一种对数据分布的概念性对齐，以确保公平比较。最初的几何对齐只是对齐量化信息这一更深层次过程的第一步。

在系统生物学中，这种飞跃甚至更大。借助空间转录组学等新技术，我们现在可以生成组织切片上的基因表达图谱。我们可能有一张切片显示数千个基因的活性，另一张来自相似组织的切片显示几十种蛋白质的丰度。这些在传统意义上不是图像，而是点云，其中每个点都有一个空间位置和一个高维特征向量。我们如何对齐它们？

这里我们转向一个优美的数学理论，称为最优传输（OT）。OT将问题框架化为找到最有效的方式来“移动”一个分布的“质量”以匹配另一个分布。将第一个样本中的点 $x_i$ 的质量移动到第二个样本中的点 $y_j$ 的“成本”，可以是空间距离和特征差异的混合。通过找到最小化总成本的传输方案，我们就在两个生物系统之间找到了一个有原则的对齐。更值得注意的是，像Gromov-Wasserstein transport这样的高级形式甚至可以对齐两个不共享坐标系的样本，通过找到最能保持每个样本内部几何结构的映射。配准不再是关于对齐像素，而是关于对齐整个分子解剖结构。

这个概念还在进一步推广。构成现代AI模型（如ChatGPT和DALL-E）核心的注意力机制，本质上是在执行一种配准。当一个模型处理句子“一只狗的照片”和一张附带的图像时，它会计算“狗”这个词的嵌入与图像不同区块的嵌入之间的相似性得分。注意力权重突出了这种对应关系，将文本中的语义概念与图像中的视觉特征对齐。这种“语义配准”使得模型能够形成对两种模态的联合理解。

从手术室到大脑的景观，从细胞层面到语言和思想的抽象空间，配准的原则是一条金线。它证明了寻找对应关系、在不同视角之间架设桥梁的力量。它的美在于这种深刻的统一性——一个单一、优雅的概念，让我们看到的世界不再是孤立碎片的集合，而是一个相互连接、可理解的整体。