
无需物理切割就能看到人体、单个分子乃至地球内部的能力,是现代科学最伟大的成就之一。这得益于医学成像重建——一种将一系列二维“阴影”(如X射线投影)转换为完整三维对象的计算过程。然而,这个过程远非简单。每张二维图像都是一个模糊的投影,不同深度的结构叠加在一起,构成了一个数学上难以解决的难题。数据往往不完整且被噪声污染,这导致了一个根本性问题:一组测量数据可能对应着无限多种可能的三维结构。
本文深入探讨了为克服这一挑战而发展的精妙数学和计算策略。首先,在“原理与机制”部分,我们将探索反问题的核心概念,理解为何重建如此困难,以及正则化和迭代优化等技术如何提供工具,从模糊的数据中“雕刻”出物理上合理的图像。随后,在“应用与跨学科联系”部分,我们将跨越不同科学领域,见证这些相同的基本原理如何被应用于揭示未知的世界——从纳米尺度的生命动态机制到我们星球深处的地质层。
想象一下,你正试图理解一个复杂的半透明物体(比如一件精美的玻璃雕塑)的形状。如果你用一束光照射它并观察它的影子,你会得到一些信息,但这些信息是扁平而模糊的。近侧的一个凸起和远侧的一个凹痕可能会投下完全相同的影子。这就是医学成像的根本挑战。单次X射线或标准的透射电子显微镜(TEM)图像就是这样一种影子——三维现实的二维投影。不同深度的结构被叠加在一起,它们真实的空间关系在混乱的混杂中消失了。
医学成像重建的宏伟任务就是要克服这一限制:利用这些“影子”的集合,通过计算重建出完整的三维物体。这就是所谓的求解反问题。
那么,我们如何开始呢?一个自然的想法是从多个不同角度拍摄照片。在计算机断层扫描(CT)或电子断层扫描等技术中,这正是所做的事情。样本被系统地倾斜,并采集一系列二维投影图像。我们可以将我们想看到的物体——比如病人体内的密度分布——看作一个函数 。我们进行的每一次测量,对应于CT扫描中的一条射线,本质上是这个函数沿一条线的积分。
如果我们将此问题数字化,我们的未知物体就变成一个长长的数值向量, ,其中每个数字代表一个微小立方体或体素中的值(如密度或衰减系数)。测量过程,即沿不同路径对这些值进行积分,可以用一个巨大的矩阵 来描述。我们所有测量的集合构成另一个向量, 。物体与数据之间的关系异常简洁:
这个方程代表了正问题:如果我们知道物体 ,由 所封装的扫描仪物理原理就能告诉我们将得到什么测量值 。我们的任务是反向进行。我们拥有测量值 ,我们知道物理原理 ,我们需要找出物体 。
乍一看,这似乎只是一个变量数以百万计的简单高中代数问题。但一个可怕的困难潜藏在表面之下。如果我们没有足够的测量值怎么办?如果我们的角度覆盖不完整怎么办?这种情况很常见,例如,在冷冻电子显微镜中,当分子以择优取向附着在样品网格上时,我们会得到数千张“俯视图”,但没有侧视图。
在这种情况下,方程组 变得欠定。解不是唯一的,而是有无穷多个!这是因为矩阵 拥有所谓的零空间。零空间是一些“伪影”的集合,我们称其中一个为 ,它有一个非常奇特的属性:扫描仪完全看不到它们。当扫描仪“看”到一个伪影时,它什么也看不到。在数学上,对于零空间中的任何伪影 ,。
这带来了一个深刻而令人不安的后果。如果我们找到了一个与我们的数据完美匹配的完美重建, (即 ),我们可以将任何这些伪影加到它上面,创建一个新的图像 。扫描仪会看到什么呢?根据线性性质,。测量值完全相同!扫描仪无法区分 和 。这些“零空间伪影”是可能出现在重建中的真实、结构化的伪影,代表了对于特定测量集而言根本不可见的特征。毫不夸张地说,它们是信息缺失所产生的幻影。在数学上,这些伪影存在于一个与 的行空间正交的子空间中,这意味着它们在结构上与扫描仪能看到的一切垂直。
第二个同样棘手的问题是噪声。我们的测量值 永远不会是完美的。如果反演过程过于敏感,即使测量值中极少量的随机噪声也可能被放大,导致最终图像出现灾难性的、雪花般的混乱。这是因为逆运算常常涉及除以非常小的数,这会放大噪声。重建算子的“大小”,用其诱导范数来衡量,直接告诉我们噪声被放大的最坏情况下的因子。对于许多现实世界的成像问题,一个简单的逆运算会导致近乎无限的噪声放大。
因此,反问题是不适定的:解可能不唯一,并且它们对噪声极其敏感。我们如何对抗这些伪影并抑制噪声?这要求我们超越简单求解方程的范畴,并在过程中引入某种形式的“艺术”或“智慧”。我们需要告诉算法一个“合理”的图像应该是什么样子。
由于仅靠数据不足以给我们一个单一、稳定的答案,我们必须添加更多信息。这就是正则化的哲学。我们修改我们的目标:我们不再仅仅寻找任何符合数据的图像 ,而是寻求一个既能较好地拟合数据,又具有某些理想属性(如平滑或具有清晰明确的边界)的图像。我们通过在目标函数中添加一个惩罚项 来实现这一点。
参数 是一个我们可以调节的旋钮,用来决定权衡:高 优先考虑看起来合理的图像,但有忽略数据的风险;而低 更信任数据,但有放大噪声和伪影的风险。
什么使图像“合理”?这取决于我们正在成像的是什么。
也许最简单的假设是图像应该是“平滑的”,不应有剧烈振荡的值。我们可以惩罚那些具有大数值或大梯度的解。这引出了Tikhonov 正则化,它通常使用 范数惩罚,例如 或 。这种惩罚是二次的,因此会严厉惩罚大的偏差。它像一根缰绳,将解拉向零或拉向平坦。这在抑制噪声方面非常有效。正则化后的重建算子具有受控的范数,这直接限制了最坏情况下的噪声放大。然而,这种方法有其独特的个性:它偏爱平滑。面对锐利的边缘,比如骨骼和软组织之间的边界,它会试图将其磨圆并模糊掉,因为它认为值的急剧跳变是高度“不合理”的。
但如果我们期望看到锐利边缘呢?如果我们正在对由几种不同组织类型组成的器官进行成像呢?一幅模糊的图像一点也不合理。我们需要一种不同的惩罚,一种偏爱锐利边界的惩罚。这就是 范数闪亮登场的地方。
考虑求解 并找到具有最少非零元素的解的问题。这就是稀疏性原理。一个优美的数学结果表明,这个组合问题与最小化 范数 相关。与倾向于使所有分量都变小的 范数不同, 范数完全乐于使许多分量精确地为零,从而得到稀疏解。这就是压缩感知背后的革命性思想。
我们可以将这种思想应用于图像值的梯度,而不是图像值本身。这就得到了全变分 (TV) 正则化,其惩罚项为 。这个惩罚项的意思是:“我不介意你产生巨大的跳变,只要你一次性完成(在边缘处)。我不喜欢的是平缓起伏的山丘。” 这鼓励了分段常数或“块状”的解。TV 正则化是寻找和保留锐利边缘的大师,使其成为恢复具有清晰区域图像的明星技术。在耦合物理问题中,当多种类型的测量依赖于相同的底层结构时,TV 可以出色地连接信息,利用一种模態看到的锐利边缘来推断其在另一种模態盲区中的存在。
我们可以采取一种更具艺术性的方法,而不是试图一次性解决整个问题。想象一块大理石。我们可以从一个粗略的图像猜测(也许只是一个灰色的斑点)开始,然后迭代地对其进行雕琢,在每一步中进行优化,直到它与我们的测量值相匹配。
最优雅的迭代思想之一是 Kaczmarz 方法。我们系统 中的每个方程都在高维空间中定义了一个超平面。真正的解位于所有这些超平面的交点上。Kaczmarz 算法从一个任意的猜测 开始。然后它查看第一个方程,发现猜测不满足该方程,就将猜测投影到第一个超平面上。这个新点保证满足第一个方程。然后它取这个新点并将其投影到第二个超平面上,以此类推,反复循环遍历所有方程。每一次投影,它都更接近最终解,就像蜘蛛一次织一根丝来构建它的网一样。
许多迭代方法可以被看作是一种“爬山”(或者更确切地说是“下谷”)的形式。数据不匹配项 可以被看作是一个地形。我们的目标是找到这个山谷的最低点。最直接的方法是朝着最陡下降的方向走一步,这个方向由函数的负梯度给出。对于我们的最小二乘问题,这个方向优雅地由 给出。这个项有一个优美的物理解释: 是残差,即我们测量的结果与我们当前猜测会测量的结果之间的差异。算子 是反投影,它将这个数据空间的误差涂抹回图像空间,以告诉我们如何更新我们的图像。
有时,最陡峭的路径并非最快的路径。我们可以通过使用预处理器来加速这个过程,预处理器是一个算子,它扭曲地形,使山谷更容易导航。一个强大而常见的策略是设计一个预处理器,它充当反投影算子的廉价、简化版本,有效地引导更新沿着更智能的路径进行。
如果物理过程更复杂,且正问题是非线性的呢?我们仍然可以使用迭代方法,但它们变得更加复杂。像 Broyden 方法 这样的方法是数值计算智慧的奇迹;它们能够在动态中近似复杂地形的曲率,而无需计算完整(且昂贵)的二阶导数矩阵,从而即使在非线性世界中也能实现高效导航。
重建的图像不仅仅是数字的集合;它是物理现实的表示。CT中的衰减系数不能为负。治疗期间传递的辐射剂量不能超过安全限制。这些是我们的解决方案必须遵守的硬性约束。
处理此类约束的一种非常简单的方法是投影梯度下降 (PGD) 方法。它的工作方式与标准梯度下降法一样,但增加了一个额外的步骤:在下山走一步之后,如果新点位于“允许”区域之外(例如,具有负像素值),我们只需将其投影回该区域内最近的点。走一步,投影;走一步,投影。这确保了我们的雕刻师永远不会在大理石块的允许边界之外进行雕刻。
这种强制执行物理约束的思想在现代深度学习时代找到了一个天然的归宿。当训练一个神经网络来进行重建时,其最后一层通常包含一个激活函数。通过明智地选择这个函数——例如,使用 ReLU 或 Softplus 函数——我们可以保证网络的输出始终为非负,将物理约束直接融入模型的架构中。
最后,即使是这些算法的具体实现也很重要。在迭代式PET重建中,像素值可能变得非常小。如果计算机的浮点数精度不足,这些值可能会被错误地“刷为零”,这种效应称为下溢。这可能导致一个低但非零活动区域从图像中完全消失,这是一个微小但关键的错误。
从努力应对投影的阴影到对抗零空间伪影,从选择“合理性”的正则化哲学到迭代地雕刻解决方案,医学成像重建的原理构成了一幅丰富的织锦。在这个领域,深刻的物理对称性(如允许我们在波物理学中交换源和探测器的互易定理)与现代优化的精妙机制和机器学习的原始力量相遇。这是物理世界与其数学表示之间的持续对话,一切都是为了揭示那不可见的世界。
在深入探究了图像重建的数学引擎室之后,人们可能会留下这样一种印象:它是一个抽象但强大的机械装置。但一个伟大科学原理的真正美妙之处不在于其抽象的完美,而在于其驚人的通用性。我们讨论过的思想不仅仅是解决一个医学问题的方法;它们是一个通用的镜头,一种思维方式,让我们能够探测那些与医院扫描仪相去甚远的未知世界。从分子的狂舞到大陆的缓慢分层,我们都能听到层析重建的回响。现在让我们踏上跨越这些尺度的旅程,见证这些原理的实际应用。
我们从本土领域开始:人体。医学成像当然是最典型的应用。但即使在这里,重建的作用也远不止于生成一张有诊断价值的图片。它是一种定量测量的工具。
想象一下,医生们想要追踪一种肺部疾病在几年内的进展情况。他们需要高精度地测量肺容量,如肺总量(TLC)。简单的X射线做不到这一点;它只是一个三维物体的平面阴影。需要一种完整的三维技术,如计算机断层扫描(CT)或磁共振成像(MRI)。现在真正的挑战开始了。为了使不同时间的测量具有可比性,一切都必须标准化:病人的姿势(躺着与站着会显著改变肺容量!)、扫描时屏住呼吸的确切时刻,以及扫描仪自身的设置。
此外,必须达成一种微妙的平衡。在一项研究中,人们可能会追求尽可能高的准确性,可能会使用多次扫描。但在临床环境中,病人的安全至关重要。CT扫描使用电离辐射,剂量会随着每次扫描而累积。指导哲学是“合理可行尽量低”(ALARA)原则。在这里,现代重建算法,特别是迭代方法,是英雄。它们使我们能够用比以前认为的少得多的辐射来创建非常清晰的图像,从而管理图像噪声和病人剂量之间固有的权衡。成像模态和重建策略的选择成为一个复杂的决策,需要权衡研究方案的需求与临床护理中安全第一的要求。这揭示了重建不是一个一刀切的过程;它是一个根据具体问题而精细调整的工具。
现在让我们将视角缩小十亿倍。我们能对单个蛋白质分子——一个比人体细胞小几千倍的物体——进行“CT扫描”吗?惊人的答案是肯定的,使用一种称为冷冻电子断层扫描(Cryo-ET)的技术。纯化的分子样本在薄薄的冰层中被速冻,使其保持在近乎天然的状态。然后,就像在医用CT扫描仪中一样,样本在电子显微镜内被倾斜,并从多个不同角度拍摄投影图像。然后,重建算法将这些二维投影组合成一个三维体。
原理是相同的,但实际操作却奇妙地不同。例如,倾斜样本的机械台从来都不是完全稳定的。每张图像相对于其他图像可能会有轻微的偏移。如何对齐它们?一个巧妙的技巧是在冷冻前将微小的金纳米颗粒撒入样本中。这些“基准标记”在显微镜中非常显眼,作为固定的参考点。通过在整个倾斜系列中计算跟踪它们的位置,软件可以精确地对齐所有图像,从而实现准确的重建。
这仅仅是个开始。电子显微镜形成的图像不是一张简单的照片。它被显微镜透镜的物理特性所扭曲,这种效应由“对比度传递函数”(CTF)描述,并被“点扩展函数”(PSF)所模糊。一个真正忠实的重建需要对这整个成像过程建立一个“正向模型”。算法必须通过计算“反卷积”或撤销这些仪器效应,以揭示下面分子的真实结构。
但如果分子本身并非全都相同呢?生物机器是动态的;它们摆动、弯曲和改变形状以执行其功能。如果我们简单地将所有颗粒图像平均在一起,这些不同的构象将被模糊成一个无法分辨的模糊团。在这里,重建变成了一种计算分类的行为。在生成最终的三维图谱之前,强大的分类算法将数十万个单个颗粒图像分组为结构上同质的子集。这使得科学家们能够从一个单一的、异质的样本中重建出多个不同的构象,有效地创建出分子运动的电影。
当我们比较冷冻电镜与其前辈X射线晶体学时,理解会更加深入。晶体学可以产生极其高分辨率的结构,但前提是迫使数十亿个分子进入一个单一、静态、重复的晶格中。它给了我们一帧完美的画面。而冷冻电镜通过对单个、冷冻的颗粒进行成像,给了我们所有帧的集合。冷冻电镜图谱中的一个“模糊”区域并非失败;它是数据,是分子这部分具有柔性和动态性的线索。通过将冷冻电镜的系综视图与晶体学的高分辨率快照相结合,我们对分子机制获得了更深刻的理解。
或许,在重建中最优雅地使用先验知识的例子来自对称性。例如,许多病毒具有美丽的二十面体对称性,这意味着它们有60个相同的朝向。如果我们知道这一点,我们就可以告知重建算法。对于我们收集的每一个颗粒图像,算法都会将其视为基本构建单元的60个独立视图。这极大地提高了信噪比,从而能用更少的数据创建出惊人详细的图谱。然而,这里存在一个有趣的权衡。这个平均过程增强了所有符合对称性的东西,但完全抹去了任何破坏对称性的东西——例如,一个只与60个位点中的一个结合的配体分子。要看到这一点,就必须放宽对称性约束,并付出噪声的代价。这是一个美丽的例证,揭示了科学中的一个深刻真理:我们的假设塑造了我们所看到的东西。
重建的力量不仅限于生物学。放大视野,我们发现它在材料科学中也发挥着作用。想象一下,试图理解油漆、泡沫或湿沙的特性。这些材料由微观颗粒的密集堆积组成,它们的宏观特性关键取决于这些颗粒的局部排列。利用X射线断层扫描等技术,科学家们可以创建这些“胶体堆积”的三维重建。
从重建的三维体开始,新一层的分析开始了。图像首先被分割,以识别每个颗粒的中心和半径。然后,使用像Voronoi镶嵌这样的计算几何工具来划分空间,为每个颗粒分配其自己的“单元”。这使得计算关键的局部属性成为可能,例如配位数(每个颗粒有多少邻居?)和局部堆积分数。挑战是相似的:有限的分辨率使颗粒模糊地粘在一起,噪声使其识别复杂化,但重建和后续分析的原理使我们能够将微观结构与材料的宏观行为联系起来。
现在让我们放大到整个行星的尺度。地球物理学家使用地震波(通常由小型受控爆炸产生)来成像地球的地下。传感器阵列监听回波,重建算法根据这些数据构建地下岩层的图谱。这是一个巨大的反问题。数据嘈雜、不完整且是间接的。为了使其可解,我们必须再次依赖先验知识。我们对地质学了解多少?我们知道,对于许多沉积盆地来说,地球是由不同的、相对均匀的层构成的。
这个物理先验可以被翻译成给重建算法的数学指令。一种称为全变分正则化的技术会惩罚那些具有大量纹理或梯度的解。它告诉算法:“我更喜欢一个分段常数的解。给我找一个与我测得的数据一致的最简单、最‘块状’的地球模型。” 这使得地球物理学家能够从欠采样和含噪声的数据中恢复岩层之间的锐利界面,如果没有将我们对地质学的先验理解编码到重建的数学中,这是不可能完成的壮举。
最后,让我们扩展“重建”的定义。它不必是静态的图像。在像大型强子对撞机这样的大型粒子加速器中,物理学家以接近光速的速度将亚原子粒子相互碰撞,产生一簇新的、奇特的粒子。为了理解这次碰撞,他们必须重建该事件——特别是带电粒子穿过强大磁场内一系列探测器时的轨迹。
这不是对一个物体的重建,而是对一个随时间展开的事件的重建。选择的工具通常是卡尔曼滤波器,一个优美的递归算法。它逐步工作。从粒子的第一次探测开始,算法使用物理定律(特别是在磁场中带电粒子上的洛伦兹力)来预测粒子在下一个探测器层的位置。当下一个测量到达时,算法更新其估计,根据新数据校正其预测,并完善其对粒子动量和轨迹的认知。它逐层进行,以一种物理上和统计上严谨的方式“连接点”,同时考虑来自探测器的测量误差和粒子穿过材料时轻微偏转造成的物理“过程噪声”。
这是一段多么非凡的旅程!我们看到了同样的基本思想在跨越惊人的空间、时间尺度和科学学科中发挥作用。挑战始终是从有限、间接和含噪声的测量中推断出潜在的现实。解决方案始终是建立一个关于世界和测量过程的数学模型,然后对其进行反演。而秘密武器几乎总是巧妙地利用先验知识——身体不应被过度辐射,病毒是对称的,地球是分层的,粒子遵守电磁学定律。
因此,医学成像重建的方法不仅仅是一项小众技术。它们是科学方法本身的深刻体现,是物理和数学推理的统一力量揭示我们肉眼无法直接看到的世界的证明。