可变形图像配准

玻尔百科

核心要点

图像配准使用一个从简单到复杂的变换层级来对齐图像，从用于全局对齐的刚性和仿射运动，发展到用于局部对应的复杂可变形扭曲。
通过确保变换的雅可比行列式保持为正来强制实现物理合理性，这可以防止解剖学上不可能发生的组织折叠或撕裂。
可变形图像配准在医学领域至关重要，可用于追踪累积辐射剂量、规划复杂手术，并通过建立组织随时间变化的对应关系来实现精确的定量分析。

引言

在许多科学和医学领域，比较同一物体在不同时间拍摄的两张图像是一项基本任务。然而，当物体发生移动、形状改变或变形时，简单的并排比较就变得不够充分。可变形图像配准通过提供一个数学框架来“扭曲”一幅图像以匹配另一幅，从而在它们之间建立精确的点对点对应关系，解决了这一挑战。这使得对解剖结构变化的深入分析、追踪组织随时间的变化以及融合来自不同成像源的信息成为可能。本文将对这项强大的技术进行全面概述。

首先，“原理与机制”一章将解析核心的数学概念，从简单的刚性和仿射运动开始，逐步构建到可变形变换的强大灵活性。我们将探讨如何维持物理合理性，以及优化技术如何找到理想的对齐方式。随后，“应用与跨学科联系”一章将展示这些方法的深远现实影响，展示其在从放射肿瘤学的癌症治疗到基础科学中的定量分析等临床实践中不可或缺的作用。

原理与机制

想象一下，你正在看一个朋友相隔一年拍摄的两张照片。在一张照片中，她面带微笑，头稍微向左倾斜。在另一张中，她表情中性，直视镜头。你想看看她脸颊上的一颗痣是否发生了变化。你的大脑会做什么？几乎是下意识地，它完成了一项了不起的壮举：它在脑海中旋转、拉伸和扭曲一张脸以匹配另一张，这样你就可以对那颗痣进行直接的点对点比较。这种直观的对齐行为正是图像配准的精髓。我们的目标是教会计算机对医学图像完成同样的事情，不仅是针对二维的面部，还要处理复杂的三维人体扫描图像。

变换的阶梯

为了数学化地描述这种扭曲，我们可以想象一个变换的阶梯，每一级都增加一层新的灵活性。

刚性变换：不变的形式

让我们从最简单的情况开始。一个病人在MRI机器中进行扫描，几分钟后，用不同的成像序列再次扫描。如果病人保持完全静止，他们的大脑大小或形状没有改变。其位置的唯一差异可能是在扫描仪内的微小平移或旋转。要对齐这两幅图像，我们只需要一个刚性变换。这在数学上等同于在空间中移动一个坚固、不变的物体。它只包含平移（移动）和旋转。刚性变换是一种等距变换，意味着它保留了所有的距离、角度和体积。这是对齐在同一会话中拍摄的同一主题图像的完美工具，此时我们可以假设其解剖结构在几何上是相同的。

三维空间中的刚性变换可以写成 $\mathbf{x}' = R \mathbf{x} + \mathbf{t}$ ，其中 $\mathbf{t}$ 是平移向量， $R$ 是一个 $3 \times 3$ 的旋转矩阵。

仿射变换：考虑全局差异

但是，如果我们想比较两个不同人的大脑呢？一个人的头骨可能天生比另一个人更大或更窄。简单的刚性运动就不再足够了。我们需要爬上我们阶梯的下一级：仿射变换。仿射映射包含了刚性变换的所有内容，但增加了全局缩放（使物体变大或变小）和剪切（使物体倾斜）。它是一种更一般的线性变换，写成 $\mathbf{x}' = A \mathbf{x} + \mathbf{t}$ ，其中 $A$ 现在是任何可逆矩阵，而不仅仅是旋转矩阵。虽然它不保留角度或距离，但它确实保留了平行性——平行线在变换后仍然保持平行。这使得它非常适合在为群体研究准备一批大脑扫描时，校正全局的、全脑范围内的尺寸和方向差异。

可变形飞跃：扭曲的艺术

即使我们已经校正了全局尺寸和位置，真正的挑战依然存在。一个人大脑复杂的褶皱——脑回（脊）和脑沟（谷）——不会与另一个人完美匹配。为了实现真正的、精细的对应，我们必须迈出最后、也是最强大的一步：进入可变形变换。

这不再是一个全局操作。我们不再将一个公式应用于整个图像，而是允许图像像一块橡胶片一样进行局部拉伸和压缩。我们用一个位移场 $\mathbf{u}(\mathbf{x})$ 来对此进行建模。这是一个向量场，它为每一个点 $\mathbf{x}$ 提供了其独特的移动指令。一个点的最终位置是其原始位置加上其自身的位移向量： $\phi(\mathbf{x}) = \mathbf{x} + \mathbf{u}(\mathbf{x})$ 。这种高维度的扭曲对于某些任务至关重要，例如，为了进行体素级别的基因组研究而在一个群体中对齐各个皮层脑回，或者精确地绘制一个肿瘤在形状随时间变化时的边界。

一个为每个体素都分配一个唯一向量的位移场拥有数百万个自由度。这既是福也是祸。它足够灵活，可以模拟任何形状变化，但也因为过于灵活，很容易变得混乱、不切实际。我们需要一种方法来驾驭这种力量，生成既灵活又平滑的形变。一个优美而强大的工具是B-样条（B-spline）。想象一下，在你的橡胶片图像上覆盖一个规则的控制点网格。我们不再为每个点定义位移，而只为这个稀疏的控制点网格定义位移。两者之间任何一点的位移都是通过对其附近控制点运动的平滑插值来计算的。这个控制网格的间距成了一个关键参数：粗糙的网格只允许温和、平滑的扭曲，而精细的网格则允许更复杂、高频的形变以捕捉更小的细节。

物理合理性：何为好的扭曲？

我们能够以多种方式扭曲图像，但这并不意味着结果在生物学上就说得通。活体组织不能被撕裂，也不能被折叠到自身内部。我们必须对我们的变换施加一些物理规则，以确保其在解剖学上是合理的。

实现这一点的最基本工具来自多元微积分的核心：雅可比矩阵。我们的变换 $\phi$ 在点 $\mathbf{x}$ 处的雅可比矩阵，记作 $D\phi(\mathbf{x})$ ，是一个描述了在 $\mathbf{x}$ 周围微小邻域内扭曲的最佳线性近似的矩阵。雅可比行列式 $\det(D\phi(\mathbf{x}))$ 具有深刻的几何意义：它是局部的体积变化因子。

如果 $\det(D\phi) = 1$ ，局部体积被完美保留。这对于刚性运动和剪切变换是成立的。
如果 $\det(D\phi) > 0$ （例如 $1.2$ 或 $0.8$ ），局部体积在扩张或收缩。这对于生物组织来说是完全符合物理规律的行为。
如果 $\det(D\phi) = 0$ ，变换是奇异的。它将一个三维体元坍缩成一个二维平面或一条线。这对应于一个不可能的“折痕”或无限压缩。
如果 $\det(D\phi) 0$ ，发生了更灾难性的事情。空间的局部方向被反转了。该映射已将组织“由内向外”翻转。这是一种非物理的折叠。

因此，一个物理上合理的形变的基本规则是，其雅可比行列式必须在整个定义域内严格为正。任何违反此规则的情况都标志着配准失败的区域，产生的结果在解剖学上毫无意义，并且会破坏任何后续的分析，比如从图谱中传播标签。

黄金标准：对微分同胚的追求

数学家们有一个优雅的概念，完美地概括了我们对行为良好的解剖学映射的期望：微分同胚。一个微分同胚是一个变换 $\phi$ ，它本身是平滑的（连续可微），有一个逆变换 $\phi^{-1}$ ，并且其逆变换也是平滑的。这一个概念就漂亮地确保了映射没有撕裂（连续性），没有全局折叠（可逆性），也没有尖锐的扭结（ $\phi$ 和 $\phi^{-1}$ 的平滑性）。一个保持方向的微分同胚，即同时满足 $\det(D\phi) 0$ 条件的变换，是模拟组织变形的真正黄金标准。

我们如何构建这样一个完美的变换呢？现代的基于学习的方法找到了一种受流体动力学启发的、非常直观的方式。神经网络不再直接学习最终的形变，而是被训练来预测一个静态速度场 $\mathbf{v}(\mathbf{x})$ 。想象我们的图像空间充满了稳定流动的流体。速度场 $\mathbf{v}(\mathbf{x})$ 指定了每一点 $\mathbf{x}$ 处的流体速度。然后，通过让图像中的每一点沿着这个向量场流动一个单位时间，就可以找到最终的形变 $\phi$ 。如果速度场本身足够平滑，那么所产生的流动保证是一个微分同胚。这个优雅的想法，通常通过一个名为缩放与平方（scaling and squaring）的巧妙数值技巧来实现，使我们能够构建强大的深度学习模型，这些模型在设计上就能生成高度灵活但物理上不可能折叠的变换。

对齐的引擎

找到最佳变换是一个优化问题。我们必须定义一个计算机将试图最小化的成本函数。这个函数是两种相互竞争的愿望之间的谨慎平衡。

相似性项：成本函数的这一部分会问：“扭曲后两幅图像匹配得有多好？” 如果我们正在配准两幅相同类型的图像（例如，两幅T1加权MRI），我们可以使用一个简单的度量，如强度值的均方误差（Mean Squared Error, MSE）。但如果我们正在将CT扫描配准到MRI上呢？强度值完全不同；骨骼在CT中是亮的，但在MRI中是暗的。这时，我们需要一个更抽象的对齐度量。互信息（Mutual Information, MI）是来自信息论的一个强大工具，正好能做到这一点。它衡量两幅图像强度分布之间的统计依赖性，而不管它们之间的具体关系如何。当图像对齐良好时，MI达到最大值，这使其成为多模态配准的稳健驱动力。
正则化项：成本函数的这一部分会问：“这个扭曲在物理上有多不切实际？” 它作为一种惩罚来约束形变。我们可能会惩罚不平滑的形变，或者，正如我们所见，我们可以直接惩罚那些雅可比行列式偏离1的区域，从而抑制极端的、非物理的压缩或扩张。

然后，计算机会努力调整变换的参数——无论是B-样条控制点的位置还是神经网络的权重——以找到最小化总成本的“最佳点”。这种搜索几乎总是由梯度引导的。这具有一个至关重要的实际意义。图像是像素的离散网格。要找到一个扭曲后的、非整数坐标处的强度，我们必须进行插值。一个幼稚的选择，如最近邻插值，会创建一个分段常数的强度景观。它的梯度几乎处处为零，这使得优化算法无法获得继续进行所需的信息。我们必须使用更平滑的方法，如双线性或三线性插值，它会创建一个连续且几乎处处可微的景观，为找到最佳对齐提供了丰富的梯度信息。

最终，可变形图像配准是几何学、物理学和优化的完美结合。这是一段从简单的刚性运动到复杂的、类似流体的微分同胚流动的旅程，所有这一切都是为了教会机器像我们一样看待世界：不是作为像素的静态集合，而是作为一个动态、可变形且有意义的空间。

应用与跨学科联系

在经历了可变形图像配准的原理和机制之旅后，人们可能会倾向于将其视为一种巧妙的计算数学，一个几何难题的优雅解决方案。但这样做就像欣赏一把万能钥匙却从未用它开过锁。可变形图像配准（DIR）的真正美妙之处不在于其算法的抽象性，而在于它在科学和医学领域解锁的那个充满深刻问题的宇宙。它是一种建立基本概念的工具：对应关系。当一个物体移动、生长、缩小或扭曲时，我们如何知道我们正在观察的是同一个东西？回答这个问题将我们带上一段非凡的旅程，从在医院拯救生命到破译生命的蓝图。

虚拟病人：医学领域的一场革命

DIR最直接和最显著的影响可能是在创建“虚拟病人”方面——一个个体的解剖结构的动态数字模型，允许医生以前所未有的精度来计划、模拟和调整治疗方案。

这一点在放射肿瘤学中尤为关键。想象一个病人正在接受头颈癌治疗。数月或数年后，癌症复发。病人需要更多的放射治疗，但一个关键问题出现了：脊髓——一个具有严格耐受限度的结构——已经接受了多少辐射？由于手术、纤维化和体重减轻，解剖结构已经发生了变化。简单地将新治疗计划的剂量加到旧计划中相同空间坐标上的剂量上将是一个灾难性的错误。在第一次治疗期间是安全组织的某个空间点，现在可能被脊髓占据。由于剂量从根本上定义为单位质量的能量（ $D = dE/dm$ ），我们必须追踪传递到同一块组织的剂量，无论它移动到了哪里。这正是DIR的工作。通过计算病人现在和过去的解剖结构之间的非刚性变换，物理学家可以“拉回”第二个剂量分布并将其映射到第一个上，从而计算出每个物质点的真实累积剂量。如果不这样做，可能会导致对脊髓剂量的惊人误算——在一个典型的高梯度区域，4毫米的配准误差可能导致20 Gy的过量照射，这是安全治疗与瘫痪之间的区别。

同样的原则也适用于单个疗程期间。一个接受数周放射治疗的病人不是一个静态的物体。他们会减重，肿瘤会缩小，而附近的健康器官，如负责产生唾液的腮腺，可能会向内侧漂移进入高剂量辐射场。每周的锥形束CT扫描可以捕捉到这种变化。DIR允许我们将初始治疗计划的剂量图扭曲到病人当前的解剖结构上。这揭示了“当日剂量”，并使我们能够累积随时间推移的实际递送剂量，追踪腮腺暴露的增加情况。如果预测的最终剂量超过已知的临床阈值（例如，平均剂量26 Gy，超过此值，永久性口干症，即xerostomia的风险会急剧上升），就会触发“自适应再计划”。在新的解剖结构上设计一个新的治疗计划，将剂量引导到远离已移位的腺体。这不仅仅是一个学术练习；它是一种由DIR赋能的主动干预，直接保护了病人的生活质量。

“虚拟病人”的应用远远超出了肿瘤学。在现代牙科和正颌外科中，外科医生可能会结合多次扫描来构建一个全面的模型用于规划。锥形束CT扫描揭示了头骨和下颌的骨骼结构。高分辨率的口内光学扫描捕捉了牙齿和牙龈的精确形状。三维面部扫描捕捉了病人的软组织。要将这些融合成一个单一、连贯的模型，我们需要配准。头骨和牙齿是刚体；它们在扫描之间不会改变形状。因此，刚性配准（旋转和平移）是物理上正确的对齐方式。但面部呢？病人在进行CT扫描时可能是中性表情，而在面部扫描时则可能略带微笑。这时，刚性对齐会失败。我们需要一个非刚性配准来扭曲面部软组织以匹配其下方的、刚性对齐的头骨。这种混合方法——为正确的组件使用正确的物理模型——不仅让外科医生能够规划骨骼切割，还能模拟和预测病人面部的最终美学效果，这是为正确的工作选择正确工具的绝佳范例。

从图像到物理：揭示定量的真理

尽管临床应用引人注目，但DIR在基础科学中同样扮演着根本性的角色，它确保了定量测量的完整性。在科学中，如果你无法建立对应关系，你的数字可能会变得毫无意义。

考虑一项关于肿瘤对新药反应的纵向研究，我们使用“影像组学”来从医学图像中提取随时间变化的细微纹理特征。我们可能会问：肿瘤是否变得更加异质性，这是药物起作用的迹象吗？要回答这个问题，我们必须比较来自相同生物组织在不同时间点的特征值。但肿瘤正在缩小和变形。简单地在每次扫描时勾画肿瘤并比较特征充满了误差。我们测量的是真实的生物学变化，还是仅仅是在我们的分析中包含了不同体素所带来的影响？DIR提供了解决方案。通过将后续图像配准到基线图像，我们可以传播初始的感兴趣区域，创建一系列跟踪同一组织变形过程的对应区域。只有这样，我们才能自信地计算反映真实生物学变化而非测量伪影的“delta-影像组学”特征。

这种对对应关系的需求以多种形式出现。在定量MRI中，我们可能想测量组织的物理特性，比如横向弛豫时间 $T_2$ 。这涉及到在不同的回波时间（ $TE$ ）采集一系列图像，并拟合信号衰减，其应遵循一个干净的指数曲线， $S(TE) = S_0 \exp(-TE/T_2)$ 。然而，整个采集过程需要几秒钟，即使是由于呼吸或烦躁引起的微小病人运动也可能意味着，一个给定的体素在第一幅图像中包含纯白质，但在最后一幅图像中则包含白质和脑脊液的混合物。由此产生的信号是两种不同指数衰减的混合，对其拟合单个指数会得到一个严重错误、有偏差的 $T_2$ 值。解决方案是使用DIR作为预处理步骤。通过将时间序列中的所有图像配准到单个参考帧，我们可以在计算上“撤销”运动，确保每个体素的信号衰减曲线都来自一致的底层组织。这是一个通用原则的完美例证：在测量物理之前，你必须首先把几何搞对。

更深层次的联系：变换自然法则

到目前为止，我们一直将DIR视为一种对齐图像以便我们分析它们的工具。但它与物理学的联系要深得多。DIR算法的输出，即形变场，是一个丰富的数学对象，它使我们能够正确地变换的不仅仅是图像，还有复杂的物理量。

这一点在弥散张量成像（DTI）的分析中表现得最为明显。DTI通过测量每个体素中水分子的扩散方向，提供了一幅大脑“布线”（即白质束）的图谱。这些信息被编码在一个称为弥散张量 $D$ 的数学对象中。现在，假设我们想将这个大脑配准到一个标准图谱上。配准给了我们一个形变场，我们可以用它的梯度，即矩阵 $F$ ，来局部描述它。我们应该如何变换张量 $D$ 呢？我们不能简单地像处理灰度图像那样扭曲它。张量代表一个具有特定方向和大小的物理属性。

在这里，我们求助于连续介质力学的美妙数学。任何形变 $F$ 都可以通过一个称为极分解的过程唯一地分解为一个纯旋转 $R$ 和一个纯拉伸 $U$ ，即 $F=RU$ 。“有限应变重定向策略”规定，要正确地重新定向弥散张量，我们必须只使用形变的旋转部分。新的张量变为 $D' = R D R^\top$ 。这个变换旋转了纤维方向，同时保留了内在的弥散率（张量的特征值），从而尊重了底层的物理学。在这种背景下，DIR不仅仅是一个图像处理工具；它是形变梯度 $F$ 的来源，是进行基于物理原理的科学测量变换的起点。

将DIR视为一个更大的、基于模型的系统的一部分，是一个强大的思想。我们甚至可以从头开始使用贝叶斯原理构建DIR算法。想象一下对齐来自一个肿瘤的一系列连续的二维组织学切片，每个切片都包含蛋白质或基因表达的图谱。为了找到每个切片 s 的最佳形变场 u_s，我们可以定义一个需要最小化的总“能量”。这个能量是来自最大后验概率（MAP）估计框架的负对数后验概率。它自然地包含一个数据保真项，鼓励生物标志物特征在扭曲后匹配，以及一个正则化（或先验）项，坚持形变是平滑且物理上合理的。这种变分方法是许多现代配准方法的数学核心。同样的逻辑可以用来同时在图像中找到一个物体并向其配准一个图谱，从而创建一个强大的反馈循环，其中更好的配准改善了分割，而更好的分割为配准提供了更清晰的目标。

可视化生命之流

最后，我们可以将整个概念颠倒过来。我们可以用DIR来测量运动，而不是用它来校正运动。考虑一下斑马鱼胚胎发育的惊人过程。细胞在一个高度协调的舞蹈中分裂和迁移，以形成身体的蓝图。我们如何量化这个流动？

一种方法是 painstaking 地跟踪数千个单个细胞，这是一种拉格朗日方法。但还有另一种更整体的方法。我们可以在时间 $t$ 拍摄一张胚胎的三维图像，在时间 $t+\Delta t$ 再拍摄一张。然后我们让DIR算法找出将第一张图像映射到第二张的密集、非刚性形变场。这个形变场，一旦除以 $\Delta t$ ，就是组织的速度场。这是对流动的一种欧拉描述，就像天气图显示风速一样。从这个速度场，我们可以计算出连续介质力学中的基本量，如应变率和散度，揭示出正在物理上塑造这个生物体的组织扩张、压缩和剪切的模式。在这里，DIR已成为我们观察形态发生中无形力量的显微镜。

从临床到实验室，从校正伪影到测量基本动力学，可变形图像配准证明了一个单一、统一思想的力量。它是我们用来理解形状和变化的语言，一把万能钥匙，在我们探索我们周围和内心世界的征途上，不断开启新的大门。