多模态配准：原理、机制与应用

玻尔百科

核心要点

多模态配准通过寻找一个将一个数据集映射到另一个数据集的空间变换，从而在数学上对齐来自不同来源（如CT和MRI扫描）的数据。
互信息是一种强大的度量标准，它通过最大化两幅图像之间的统计可预测性来驱动对齐，使其对强度尺度的差异具有鲁棒性。
变换模型的选择至关重要，其范围从简单的刚性运动到复杂的微分同胚，后者可表示物理上可信的非线性组织形变。
多模态配准的应用极为广泛，为从医学、病理学到地球科学和自动语音识别等领域提供了关键见解。

引言

在几乎所有现代科学领域，我们都面临一个绝妙的挑战：如何将对单一现实的不同视角组合成一个连贯的整体。一位医生可能手头有一张显示骨骼的CT扫描图和一张显示软组织的MRI图；一位地球科学家可能拥有一张光学卫星图像和同一冰川的雷达扫描图。虽然每种模态都提供了独特而宝贵的视角，但只有当它们能够被精确对齐和融合时，其真正的力量才能被释放。这个寻找不同数据集之间数学对应关系的过程，被称为多模态配准。但是，我们如何教会计算机识别一幅图像中的亮点对应于另一幅图像中的暗点？我们又如何能在不违反物理定律的情况下，扭曲一个视角以匹配另一个视角？

本文全面概述了回答这些问题的理论与应用。它为我们提供了一份指南，帮助我们理解那些能够让我们在不同科学数据“语言”之间进行翻译的基本概念。在第一部分“原理与机制”中，我们将探索其核心数学机制，从模拟简单位移到复杂生物形变的各种空间变换类型，再到作为我们配准指南的优雅概念——互信息。随后，在“应用与跨学科联系”中，我们将穿越不同领域，见证这些原理如何付诸实践，彻底改变从神经外科到气候科学的方方面面。

原理与机制

通过一个事物的视角看待另一个事物——这是科学的基本行为，也是人类深刻的渴望。当医生研究一位病人时，他们可能会查看CT扫描，它以极高的清晰度揭示了骨骼的致密结构；然后他们会看MRI，它描绘了大脑和肌肉等软组织的生动图像。两幅图像都显示了同一个人，但它们使用着不同的视觉语言。多模态配准的巨大挑战在于找到能在这两者之间进行翻译的“罗塞塔石碑”——一张数学地图，让我们能确定地说：CT扫描中的这个点对应于MRI中的那个确切的点。构建这张地图就是统一对单一现实的不同看法，从而解锁任何单一视角都无法提供的更深层次的理解。但这样一张地图是如何绘制的呢？这是一段穿越几何学、信息论和优化等优雅世界的旅程。

变换的词汇：从刚性块到流动的组织

配准的核心在于找到一种空间变换，即一个将一幅图像的坐标映射到另一幅图像坐标的函数。其艺术性在于为手头的任务选择正确的变换族，这个选择范围涵盖了一个从简单到精妙的美妙谱系。

最基本的变换是刚性变换。想象一下，你手里拿着一块石头并移动它。你可以将它从一个地方平移到另一个地方，也可以旋转它，但它的形状和大小保持不变。刚性变换在数学上描述为 $\phi(\mathbf{x}) = R\mathbf{x} + \mathbf{t}$ ，其中 $R$ 是旋转矩阵， $\mathbf{t}$ 是平移向量，它正是实现了这一点。它保留了所有的距离、角度和体积。这是对齐相隔片刻拍摄的患者头部两次扫描的完美工具，其中唯一的变化是位置上的轻微移动或倾斜。

在复杂性上更进一步的是仿射变换。这在变换类型中增加了拉伸、缩放和剪切。其公式更为通用： $\phi(\mathbf{x}) = A\mathbf{x} + \mathbf{t}$ ，其中 $A$ 现在是任意可逆矩阵。例如，仿射映射可以解释两个不同个体之间头部大小和形状的全局差异，作为更详细调整之前的初步对齐。体积变化量在图像各处是恒定的，由矩阵的行列式 $|\det(A)|$ 给出。

但要真正捕捉生物学中丰富的变异性——例如患者气道的独特分支或其大脑皮层的特定折叠模式——我们需要一种更强大的语言。我们需要可形变或非线性变换。在这里，图像不再被视为一个刚性块，而是一块可无限塑形的明胶。每个点都可以相对于其邻近点有一定程度的独立移动。我们可以将其建模为一个位移场，其中每个点 $\mathbf{x}$ 都被一个唯一的向量 $\mathbf{u}(\mathbf{x})$ 移动，得到最终位置 $\phi(\mathbf{x}) = \mathbf{x} + \mathbf{u}(\mathbf{x})$ 。

然而，这种不可思议的灵活性也伴随着风险。一个任意的位移场很容易“撕裂”组织（造成不连续），或者使其“折叠”回自身（将两个不同的起始点映射到同一个终点）。这样的变换在物理上是不可能的。大自然在大多数情况下表现得更好。代表解剖学上可信形变的黄金标准是一种特殊的变换，称为微分同胚。这是一个映射 $\phi$ ，它不仅平滑连续，而且其逆映射 $\phi^{-1}$ 也平滑连续。这种双重平滑性确保了组织既不会被撕裂，也不会被折叠成尖锐的褶皱。此外，我们要求由变换的雅可比矩阵行列式 $\det(D\phi)$ 给出的局部体积变化总是正的。这确保了组织永远不会被“内外翻转”，处处保持其局部方向。微分同胚是一种完美的、平滑的、可逆的拉伸的数学体现，是生物学实际执行的那种形变。

配准的指南针：信息的秘密握手

我们现在有了一套变换的词汇。但如果要配准CT和MRI，我们需要一个指南针——一种评估任何给定变换好坏的方法。如果我们要配准两个CT扫描，任务会很简单：变换一幅图像并从另一幅中减去它。最佳配准将是差异最小化的那一个。但对于CT和MRI，这毫无意义。在CT中明亮的骨骼，在MRI中是暗的；完美的配准会产生很大的差异。亮度值本身就相互矛盾。

突破口在于转变我们的视角。我们不再问“强度值是否相同？”，而是问：“强度值之间是否存在可预测的关系？” 这就是使用互信息（MI）作为我们指南针的精妙之处。

想象一下，你正在逐个对应像素地查看两幅配准好的图像。当图像未对准时，CT中对应骨骼的像素可能在一次实例中落在MRI的液体区域上，而在另一次实例中则落在肌肉上。强度对之间的关系是随机、混乱的。但当图像正确配准时，一个一致的模式就会出现。每当你找到一个CT值高的像素（骨骼），你总能一致地找到一个MRI信号非常低的像素。每当你找到一个CT值低的像素（液体），你总能一致地找到一个MRI信号高的像素。这种关系不是一条简单的直线，但它是可预测的。知道一幅图像的强度，就能告诉你很多关于另一幅图像强度的信息。

互信息是信息论中一个强大的概念，是这种可预测性的正式度量。它量化了在知道一个变量后，另一个变量的不确定性减少了多少。因此，配准过程变成了一个搜索：我们尝试不同的变换 $\phi$ ，并为每一个变换计算强度分布之间的互信息。产生最大互信息的变换就是我们的优胜者——它使得两幅图像的强度模式最大程度地相互依赖、最大程度地可预测。

让我们具体说明。假设我们简化每幅图像，将每个像素的强度分类为“低”（L）或“高”（H）。在应用一个试验性变换后，我们可以构建一个联合直方图，它计算有多少对应的像素对落入四种可能类别中的每一种：(L,L), (L,H), (H,L), 和 (H,H)。从一个假设的100个像素的配准中，我们可能会得到一个像这样的计数表： $h_{LL}=30, h_{LH}=10, h_{HL}=10, h_{HH}=50$ 。

通过除以总计数，我们得到一个联合概率分布。然后我们可以计算边缘概率（例如，第一幅图像中像素为“低”的总体概率，不论第二幅图像如何）并将这些代入互信息的公式中：

\widehat{I}(X;Y) = \sum_{i,j} \hat{p}_{ij} \log_2 \left( \frac{\hat{p}_{ij}}{\hat{p}_i \hat{p}_j} \right)

对于我们的示例数字，这个计算得出的互信息大约为 $0.256$ 比特。这单个数字捕捉了在这次特定配准下两幅图像之间统计“握手”的强度。算法的目标是微调变换参数，直到这个数值达到最大。

互信息的更深层魔力

互信息真正的优雅之处在于其深刻的属性，这些属性使其几乎完美地适用于这项任务。

它最神奇的特性是不变性。互信息不关心实际的强度值，只关心它们的统计关系。你可以对MRI图像的强度标度应用任何单调变换——你可以拉伸它、压缩它，甚至反转它（使亮变暗，暗变亮）。只要映射是一对一的，与CT扫描的互信息值将一点都不会改变！。这是因为对应的底层模式保持不变。从形式上看，这是由于概率密度变量替换公式中雅可比项的完美抵消所致，这证明了其数学深层结构之美。

这一特性使得互信息比相关系数（仅捕捉线性关系）甚至是相关比（假定函数关系）等度量标准强大得多。互信息能够捕捉任何统计依赖关系，使其成为比较不同图像最通用、最鲁棒的工具。

当然，地图并非疆域。连续概率分布的美丽理论在实际计算互信息时遇到了有限数据的混乱现实。

不变性这一在理论上完美的特性，可能会因为我们为创建直方图而对强度进行分箱的方式而被轻微破坏。我们对分箱数量的选择是一种微妙的平衡：分箱太少，我们会丢失细节；分箱太多，我们的概率估计会变得有噪声和偏差。
标准互信息也可能被图像之间的重叠量所“欺骗”。一个包含大片共享空白背景区域的配准有时可能比重叠较少但解剖学上更好的配准产生更高的互信息分数。为了解决这个问题，研究人员开发了更鲁棒的变体，如归一化互信息（NMI），它能补偿重叠内容的变化，从而实现更可靠的优化。

发现之路：寻找最佳配准

那么，我们有了变换（地图）和基于互信息的指南针（目标函数）。最后的难题是如何进行搜索。可能配准的“景观”是广阔的，而复杂图像的互信息目标函数又极其崎岖，充满了无数的“局部最大值”——这些虚假的峰值可能会让一个简单的搜索算法陷入困境，远离真正的解。

为了穿越这片险恶的地形，人们采用了一种既简单又强大的策略：从粗到精的优化。我们不从一开始就尝试配准高分辨率、细节丰富的图像，而是首先创建一个图像金字塔。我们对两幅图像进行深度模糊处理，创建低分辨率版本，其中所有精细的细节——以及互信息景观中相应的颠簸——都被冲刷掉了。这个平滑的景观更容易导航，只有几个与主要解剖结构相对应的宽阔山丘。

优化器可以轻易地在这个粗糙的景观上找到峰值，给出一个粗略的、大概的配准。然后，这个配准被用作在稍微不那么模糊、更详细的图像集上进行搜索的起点。这个过程不断重复，图像逐渐变得清晰，直到最终在原始的全分辨率数据上精炼配准。这就像导航一个国家，首先查看只显示大陆和海洋的卫星地图，然后放大到区域地图，最后再看城市街道图。

这不仅仅是一个聪明的启发式方法；它根植于尺度空间理论的深层原理。使用高斯核进行平滑处理的一个基本特性是，它不会创造新的局部极值；它只能合并和消除现有的极值。这保证了优化问题在更粗糙的尺度上变得更简单，而不是更复杂。信号处理和优化之间的这种优雅联系，为现代图像配准中最有效的策略之一提供了理论支柱。配准过程成为了一段发现之旅，从对整体的模糊一瞥开始，逐步聚焦于精美的细节，每一步都由信息那微妙、秘密的握手所引导。

应用与跨学科联系

在我们之前的讨论中，我们探究了多模态配准的原理和机制。我们视其为一种数学上的罗塞塔石碑，一种寻找映射或“词典”的方法，用以在对同一底层现实的不同、甚至看似不相容的描述之间进行翻译。然而，这一思想的真正力量和美妙之处，并非仅见于抽象的方程之中。当看到这一个优雅的概念如何在广阔的科学探究领域中解锁深刻的见解时，它们才得以彰显。现在，我们踏上征程，去见证多模态配准的实际应用，从活体大脑复杂的褶皱到我们星球广阔、变幻的冰盖，甚至进入语言和声音的非物理领域。

窥探活体大脑

在神经科学和临床医学领域，多模态配准的变革性影响无出其右，在这些领域，我们不断寻求将大脑的功能与其结构联系起来。想象一下你有两张城市地图。一张是详细的街道图，显示了每一栋建筑和道路（解剖结构），而另一张是热图，显示了高峰时段的交通拥堵情况（功能）。要理解为什么某个十字路口总是堵塞，你需要将热图完美地叠加在街道图上。这正是神经影像学家面临的挑战。

功能性磁共振成像（fMRI）扫描提供了“热图”，通过测量血氧水平变化（BOLD信号）来显示大脑的哪些部分是活跃的。这些图像通常分辨率低、噪声大且因成像过程的物理原理而存在几何畸变。相比之下，高分辨率T1加权结构MRI则提供了受试者大脑解剖结构的清晰“街道图”。首要且最基本的任务就是将它们对齐。

然而，这种配准是一门精细的艺术。fMRI图像包含复杂的、空间变化的（非线性）畸变，有点像透过一块扭曲的玻璃拍摄的照片。一种天真的冲动可能是试图通过应用一个灵活的非刚性变换来“修复”这些畸变——拉伸和剪切功能图像直到它与解剖图像匹配。但这是一个重大的错误。这无异于试图通过拉扯一张揉皱了的画的角来把它弄平；你不可避免地会扭曲那些本已平整的部分。科学上最稳健的方法，正如最佳实践流程所概述的，通常是承认在没有更多信息（如专门的“畸变图”）的情况下，局部畸变是无法修复的。取而代之，我们执行刚性配准。我们将大脑视为一个单一的刚体，并找到最佳的旋转和平移来将其与解剖扫描对齐，使用像互信息这样的度量标准，它足够聪明，能够比较两张图（T2*加权对比度与T1-加权对比度）的不同“颜色”。这样可以找到解剖学上最忠实的全局对应关系，即使局部存在不完美之处。

然而，当大脑本身不再是一个刚性物体时，情况就发生了巨大变化。在针对脑肿瘤的神经外科手术中，颅骨打开后，大脑会发生物理形变——一种被称为“脑移位”的现象。术前MRI，无论多么精确，都成了一张过时的地图。为了引导外科医生的工具，我们需要使用术中超声（US）等模态实时更新这张地图。问题在于，手术过程中解剖学标志点之间的距离会发生物理变化。一个根据定义会保留所有距离的刚性变换，现在从根本上说是不够的。

在这里，我们需要一个可形变配准。我们需要一个“橡皮膜”变换，它能够从数学上描述大脑的压缩和扩张。但这不能是任意的扭曲。一个无约束的形变可能会使组织自身折叠或无中生有地创造物质，导致一张物理上不可能且危险误导的地图。解决方案是使用一个生物力学模型来约束形变，该模型尊重脑组织的物理特性，例如其近乎不可压缩性。这确保了我们的“橡皮膜”以真实大脑可能的方式拉伸和挤压，为外科医生提供一个持续更新且物理上可信的指南。

在像脑深部电刺激（DBS）这样的应用中，链式配准的力量凸显出来，这是一种治疗帕金森病和抑郁症等疾病的疗法。在这里，目标不仅是知道植入电极的解剖位置，还要理解它与大脑复杂的功能和结构网络的关系。这需要对多种成像模态进行精湛的融合。首先，将术后计算机断层扫描（CT）——其中金属电极清晰可见——刚性配准到患者的术前MRI上，后者提供了丰富的解剖学背景。仅此一步就是一个经典的多模态挑战，通过最大化CT的密度值和MRI的强度值之间的互信息来解决。但旅程并未就此结束。然后，患者的MRI被非刚性地扭曲到一个标准化的图谱空间（如MNI空间），一个“柏拉图式理想”的脑图。通过组合这些变换（先进行 $T_{\mathrm{CT} \to \mathrm{MRI}}$ ，再进行 $W_{\mathrm{MRI} \to \mathrm{MNI}}$ ），我们可以在一个公共坐标系中精确定位电极的位置。这使我们能够将其位置叠加到来自弥散MRI的大脑“线路图”和来自功能MRI的“活动中心”图上，为临床医生提供了前所未有的关于哪些神经回路正在被调控的视图。

从整个器官到单个细胞

让我们能够导航活体大脑的相同配准原理，也引导我们穿越病理学的微观景观。在这里，挑战在于对齐组织切片的图像，这些切片通常用不同的化学物质染色以揭示不同的生物结构。

考虑组织微阵列（TMA），这是癌症研究中的一个强大工具，其中数百个来自不同患者的微小组织核心被嵌入一个蜡块中。从这个蜡块上切下连续切片，每个切片都用不同的标记物进行染色，例如，通用的苏木精和伊红（H&E）染色以及突显特定蛋白质的特异性免疫组织化学（IHC）染色。目标是观察在IHC切片中看到的细胞内蛋白质表达是否与H&E切片中细胞的外观相关。这需要在亚细胞精度上对齐来自两张切片上相应核心的图像。

这个挑战是艰巨的。切割过程会引入旋转和拉伸，组织本身也可能发生弹性形变。对整个切片进行单一的全局配准是不够的。解决方案是一个复杂的、逐个核心处理的流程。一个特别巧妙的技巧是首先解决问题的多模态特性。我们不是试图直接将H&E的粉红色和紫色与IHC的棕色进行匹配，而是可以执行“颜色解卷积”。这种计算技术可以分离染料，让我们能够分离出来自苏木精的信号——苏木精是一种与细胞核结合的蓝色染料，它在两种切片类型中都存在。通过配准苏木精通道，我们将一个困难的多模态问题转化为一个更易于管理的单模态问题。然后，对每一对核心，先用一个粗略的仿射变换校正大尺度的旋转和缩放，再进行非刚性的“扭曲”来精细化配准，校正局部的弹性畸变。这种两阶段、从粗到精的策略确保了微观世界的鲁棒和精确叠加。

该领域的最前沿是组织学与空间转录组学（ST）的整合，这是一种在组织切片上的离散位置测量数千个基因表达的技术。这是最现代形式的多模态配准。一方面，我们有H&E图像——一张内容丰富、连续的组织形态学视觉图。另一方面，我们有ST数据——一个稀疏的测量网格，实际上是一张“基因表达图”。将它们对齐是将分子功能与物理形态联系起来的关键步骤。一个完整的工作流程包括将ST点的坐标配准到H&E图像上，使用机器学习将图像分割成形态学区域（例如，肿瘤、基质、免疫细胞），然后使用空间统计学来提出深刻的问题：“这个免疫激活基因集的高表达是否与我们在H&E图像中看到的三级淋巴结构在空间上共存？”更先进的方法甚至可以对每个ST点的混合信号进行解卷积，以推断不同细胞类型的比例，从而提供一张更精细的肿瘤微环境图谱。

这个配准过程的数学核心可以非常复杂。引导配准的成本函数可以是一个复合目标，而不是依赖于单一的信息来源。它可以同时寻求最大化图像纹理的统计依赖性（通过互信息），并最小化已知锚点（例如某些ST技术中使用的物理条形码）之间的距离。这创造了一种混合方法，就像一个同时使用指南针和星辰的导航员，利用所有可用信息来找到最准确的对应关系。

通用镜头：从地球科学到语言

多模态配准最令人惊叹的方面或许是其普适性。为医学成像开发的完全相同的数学框架，稍作修改，即可应用于理解我们自己的星球。

考虑一下从不同时间拍摄的卫星图像中追踪冰川流动的挑战。冰川的表面特征——裂缝、融水池——会移动和变形。这是一种大范围的、空间变化的、但平滑的形变。微分同胚配准理论将变换建模为粒子平滑流动的终点，非常适合于此。模拟脑组织温和形变的正则化速度场和拓扑保持约束，同样可以捕捉巨大的、流动的冰河。这个框架允许大的位移，同时严格防止冰面发生不符合物理规律的“折叠”。至关重要的是，相似性度量的选择与几何模型无关。由于在不同时间或用不同传感器（例如，光学与合成孔径雷达）拍摄的卫星图像可能外观差异很大，像互信息这样的度量标准再次成为驱动几何对齐的完美选择。

然而，这个例子也给我们上了一堂关于模型局限性的重要一课。根据其数学定义，微分同胚保持拓扑结构。它不能创造或撕裂孔洞。这意味着它不适合用来追踪潮间带的变化，在那里，沙洲可能在高潮时消失在波浪下，或者半岛可能变成岛屿。这是一种拓扑结构的变化。理解何时以及为何某个配准模型是合适的，与知道如何应用它同样重要。

配准的概念甚至可以完全超越物理空间。考虑自动语音识别（ASR）的任务。一个ASR系统可能会对给定的音频片段产生几个相互竞争的文本假设。为了选出最好的一个，我们可以通过检查文本与音频的对齐程度来对它们进行“重新评分”。这是一个两种序列之间的多模态对齐问题：文本标记序列和音频帧序列。“配准”是时间上的单调对齐，将声音片段映射到特定的单词或音素。我们可以为文本（使用像BERT这样的模型）和音频计算复杂的嵌入，然后基于相应向量在时间对齐上的匹配程度来定义一个分数。这表明，配准在其核心上是寻找两个数据流之间对应关系的抽象搜索，无论它们代表的是空间、时间还是其他维度。

抽象交响曲：作为数据融合的配准

最后，我们可以将对配准的理解提升到其最抽象，或许也是最深刻的层面。我们不再考虑将一个数据集几何扭曲到另一个数据集上，而是可以提出一个更一般性的问题：如果我们对同一组对象有两种不同模态（比如，两个不同的传感器）的测量数据，我们能否在数学上将它们之间共享的信息与各自独有的信息分离开来？

一种名为广义奇异值分解（GSVD）的强大线性代数工具正是为此而生。对于描述两种模态的两个数据矩阵 $A$ 和 $B$ ，GSVD会找到一组共同的底层成分，或称“潜在因子”。对于每个因子，它提供两个数字 $c_i$ 和 $s_i$ ，满足 $c_i^2 + s_i^2 = 1$ 。这些数字代表了该因子“能量”在两种模态之间的划分。比率 $\gamma_i = c_i/s_i$ 成为了一个绝佳的特异性度量。如果 $\gamma_i \approx 1$ ，该因子在两者间平均共享。如果 $\gamma_i \gg 1$ ，该因子是模态 $A$ 特有的。如果 $\gamma_i \ll 1$ ，它则是模态 $B$ 特有的。

这是从一个新视角看待配准。它不再是寻找一个几何变换，而是寻找一个共同的潜在空间，并理解每种模态如何投射到这个空间上。这就像聆听一首交响乐，并能够将声音分解为在弦乐和木管乐器之间传递的主题（共享成分），以及铜管乐器部分独有的华彩乐段（模态特有成分）。

对对应关系永无止境的探索

从引导外科医生的手术刀到绘制肿瘤中的基因表达图，从追踪地球的冰川到对齐语音和文本，对对应关系的探索是科学中的一项基本活动。多模态配准为这一探索提供了严谨、强大且惊人地通用的数学语言。随着我们开发出观察世界的新方法，从新颖的医疗扫描仪到新型的基因组测序仪，融合和对齐这些不同视角的需求只会与日俱增。随之而来的是对更复杂的配准技术的需求，以及对更严谨的实验设计来验证它们的需求。然而，核心原则将保持不变：通过在不同视角之间找到共同点，我们构成了一个比任何单一视角所能企及的都更完整、更富有洞察力的现实图景。