分水岭变换

玻尔百科

核心要点

分水岭变换将图像概念化为一个地形景观，并通过模拟从区域最小值开始的淹没过程来分割图像。
直接对充满噪声的梯度图像应用该变换会导致过分割，这个问题可以通过标记控制分水岭方法解决，该方法预先定义了淹没的源头。
负距离变换是一个强大的工具，用于在接触物体的中心自动生成标记，从而实现它们的清晰分离。
除了简单的图像，分水岭变换也是一个分析抽象数据的通用工具，在从基因组学到宇宙学的各个领域都有应用。

引言

分水岭变换是图像分析中最优雅、最直观的算法之一。它根植于一个简单的想法：一片被雨水淹没的景观，为将图像分割成不同且有意义的区域提供了一种强有力的方法。然而，将这一概念应用于数字图像嘈杂而复杂的现实中会带来巨大挑战，常常导致不正确或支离破碎的结果。本文旨在揭开分水岭变换的神秘面纱，引导您从其核心类比走向其复杂精妙的实际应用。第一部分“原理与机制”将深入探讨该算法的基础，探索其如何在梯度图上工作、过分割这一常见陷阱以及为克服它而开发的巧妙解决方案。随后的“应用与跨学科联系”部分将展示该变换非凡的通用性，揭示其在医学成像、基因组学和宇宙学等不同领域的应用。我们首先将图像想象成一个三维地形，而非像素网格，准备对其进行探索。

原理与机制

要真正理解分水岭变换，我们不能仅仅将图像视为数字网格，而必须将其看作一片景观。想象一张显微镜下的细胞数码照片；现在，我们将每个像素的亮度转换成海拔高度。亮像素是高耸的山峰，暗像素是深邃的山谷。这样，我们就将平面的图像转换成了三维的地形浮雕。面对这样的景观，我们能做些什么呢？我们可以淹没它。

像素中的景观

这就是分水岭变换核心的、极具美感的直观思想。让我们想象一下，在这片景观的最低点——即区域最小值——刺穿底部，并从下方缓慢注入水。随着水位的上升，“湖泊”将在山谷中开始形成。这些湖泊会不断扩大，当水位继续上升时，来自不同山谷的湖泊最终会濒临合并。

此时，就在两个扩张的湖泊即将接触的瞬间，我们必须进行干预。我们沿着它们本会相遇的山脊线，建造一道一个像素宽的堤坝。我们继续这个过程，不断提高水位并建造堤坝，直到整个景观被淹没。当我们完成时，我们的景观被一个堤坝网络所分割。这些堤坝就是分水岭线，它们包围的区域则是汇水盆地。每个盆地都对应一个湖泊生长起始的区域最小值。

这个过程为我们提供了一种完整且明确的方式，将任何图像分割成不同的区域。这个想法的美妙之处在于其物理基础；这是一个我们可以直观想象并进行逻辑推理的过程。

在梯度图上追踪山脊

一种分割方法只有在其产生的边界有意义时才有用。我们如何让分水岭的堤坝与图像中物体的边缘对齐，例如病理切片中细胞的边界？

诀窍在于谨慎选择我们的景观。我们不希望景观的海拔是原始的像素强度。我们希望景观的边界本身就是最高的山脉。什么数学工具能在边缘处创造山峰，在均匀区域内形成平原呢？答案是梯度。图像的梯度幅值测量的是强度的变化率，它在边缘处很大，在平滑区域则接近于零。

所以，这是第一个关键步骤：我们将分水岭变换应用于图像的梯度幅值图像，而不是原始图像。现在，我们细胞的内部和背景变成了低洼的平原和盆地，因为那里的梯度很低。细胞边界则变成了高海拔的山脊。当我们在这个新的景观上执行淹没模拟时，堤坝——也就是分水岭线——将恰好建立在这些高梯度山脊之上。我们找到了一种方法，使我们类比中的自然分界线与图像中的物理分界线相对应。

过分割的危害：坑洼的泛滥

带着这个绝妙的想法，我们迫不及不及待地在一张真实的医学图像上进行尝试。我们计算梯度并应用分水岭变换，期望看到几个细胞被清晰地分割出来。结果却是一场灾难。我们面对的不是少数几个区域，而是由成千上万个微小、无意义的片段组成的混乱马赛克。这个“瘟疫”被称为过分割。

问题出在哪里？我们那个美好的类比实在太有效了。真实的图像并非平缓起伏的光滑景观，而是一个充满噪声和纹理的崎岖地形。梯度幅值图充满了无数微小的波动——由成像噪声、染色变化或精细的组织纹理引起的微小峰谷。每一个这样微小的凹陷，即伪最小值，都充当了一个新汇水盆地的源头。算法以其严谨的逻辑，尽职尽责地将它们全部分开。如果一个图像只有一个盆地，根本不会形成任何分水岭；然而，真实的图像却呈现出相反的问题，在不应有边界的地方产生了大量的边界。

驯服洪水：标记控制分水岭

那么，问题就在于我们让洪水从每一个坑洼处开始。解决方案与问题本身一样令人沮丧，却也同样优雅：如果我们能选择洪水从哪里开始呢？

这就是标记控制分水岭背后的原理。我们不再让盆地从景观中每一个自然的最小值形成，而是我们来指定起点。我们在希望分割的每个物体内部放置一组标记——一个像素或一个小区域。我们可能为每个细胞核放置一个标记，为背景放置一个标记。这些标记就是我们指定的“泉眼”。

为了强制执行这一点，我们必须巧妙地修改景观本身。通过一种称为形态学重建的强大技术，我们可以有效地铲平所有伪最小值，只在我们预先定义的标记位置留下深坑。其直观理解是：我们修改梯度景观，使其在标记位置无限深，而在其他地方保持正常。然后，我们让景观从这些标记处“泛滥”，但约束洪水，使其永远不能高过原始的梯度山脊。结果是一个新的景观，其中唯一的最小值就是我们明确创建的那些。

当我们现在对这个修改后的景观应用分水岭变换时，盆地只从我们的标记开始生长。它们向外扩展，攀登梯度图的斜坡，直到在最高的山脊——即真实的物体边界——与邻居相遇。过分割现象消失了，我们最终为放置的每个标记得到了一个区域，其边界仍然尊重原始图像的内容。

神来之笔：淹没距离图

手动放置标记虽然有效，但很费力。对于某些关键任务，比如分离一团相互接触的细胞，有一种更巧妙、完全自动化的方法。这涉及到彻底改变景观。

让我们从一张二值图像开始，其中细胞团是“陆地”（前景），其他一切都是“海洋”（背景）。现在，让我们提出一个新问题：对于陆地上的每一点，它离最近的海岸线有多远？对每个像素计算这个问题的答案，会创造出一种新的景观：欧几里得距离变换。

这个景观有一个显著的特性。它在细胞边界处为零，并在细胞内部深处上升至突出的峰值。对于一个近似圆形或凸形的细胞，距离变换将在其中心附近有一个单一、明亮的峰值——这是距离任何边界最远的点。这些峰值是完美的自动标记！

但有一个小问题：分水岭算法是从最小值而不是最大值开始淹没的。解决方案虽然简单但意义深远：我们只需将景观颠倒过来。我们取负距离变换，将我们的高峰变成最深的盆地。当我们现在应用分水岭变换时，洪水从每个细胞的中心开始。堤坝建立在这个倒置景观的山脊上，而这些山脊恰好对应于原始距离图的山谷——即沿着细胞接触处中线延伸的线。结果是接触物体的清晰分离，这是几何学与淹没类比的真正优雅融合。

几何“捣蛋鬼”与形态学滤波器

这种距离变换方法功能强大，但它依赖于我们的物体是良好凸形的假设。如果我们要处理的是一个具有更复杂、非凸形状的单一物体，比如一个腰果或一个带有尖锐缺口的腺体结构，该怎么办？

在这里，物体的几何形状本身就可能出卖我们。一个非凸形状的距离变换会自然地产生多个局部最大值，即使它只是一个单一的物体。高的边界曲率，比如在尖锐缺口处发现的那种，可能导致物体的“中轴”（距离景观的山脊）分叉，从而产生几个邻近的峰值。如果我们应用我们的分水岭方法，这些多个峰值会变成多个盆地，我们单一的物体将被错误地分割开。

我们遇到了一个更微妙的过分割形式，它并非源于噪声，而是源于几何本身。为了解决这个问题，我们需要一个更复杂的工具。我们需要一种方法来告诉算法，某些盆地比其他盆地更“重要”。我们可以通过测量景观中每个盆地的深度来做到这一点。例如，在我们的倒置距离图中，一个主盆地的深度可能是 $d_1 = 12$ 个单位，而由缺口引起的较小次级盆地的深度可能只有 $d_2 = 10$ ，它们之间的隘口高度为 $d_s = 9$ 。第二个盆相对于第一个盆的真实深度仅为 $d_2 - d_s = 1$ 个单位。

h-最小值变换正是一种为此目的设计的形态学滤波器。它允许我们处理一个景观，并移除所有深度小于选定阈值 $h$ 的最小值。通过选择一个大于伪几何盆地深度但小于主盆地深度的阈值 $h$ （例如，在我们的例子中 $h=2$ ），我们可以在运行分水岭之前有效地“填平”并消除次级盆地。这将两个潜在的区域合并为一个，从而保持了单个复杂物体的完整性。这最后一层基于重要性的滤波控制，代表了分水岭变换的成熟形式：一个始于简单而美丽类比的想法，通过一系列巧妙的改进，演变成一个在数字世界的复杂景观中洞察结构的非凡强大且通用的工具。

应用与跨学科联系

一个真正强大的思想具有一种深邃的美。它就像一把万能钥匙，能打开你甚至不知道其存在的房间的门。分水岭变换，诞生于雨水淹没景观这一简单直观的图像，正是这样一种思想。我们已经了解了它的工作原理——水如何从最低点上涨，填满盆地，并在不同盆地的水相遇处形成山脊。这是一个极好的视觉概念。但当我们离开思想实验的领域，去看看这把钥匙能用在何处时，它的真正威力才得以显现。这段旅程非同凡响，它将我们从脚下的土地带到我们自身DNA的结构，并最终抵达整个宇宙中最宏伟的结构。

我们所见的世界：从流域到林冠

我们旅程最自然的起点是地理学，这个领域正是该算法名称的来源。想象你有一张山脉的卫星地图，一个数字高程模型（DEM），其中每个像素的值是它的高度。如果你将水倒在这片数字景观上，水会流向何方？它会在哪里汇集？分水岭变换完美地回答了这个问题。它识别出的盆地是实际的水文集水区——即所有降雨都汇流到一个公共点（如河流或湖泊）的陆地区域。它绘制的边界是分水岭，即分隔一个山谷与另一个山谷的山脊线。这不再是一个类比；它是对一个物理过程的直接模拟，对于从城市规划到洪水预测和径流建模等一切都至关重要。

现在，让我们将目光从地面向上移到树梢。当用LiDAR从上方成像时，一片森林也形成了一种景观——一个树冠高度模型，其中的“山峰”是最高树木的顶部。我们能用分水岭来分割这片树冠并计算单个树木的数量吗？我们可以，但这里我们遇到了一个常见问题：在茂密的森林中，树冠会重叠。一个朴素的分水岭可能会将一棵高大的树和旁边一棵较矮的树视为一个单一、块状的山丘，无法将它们分开。这时，该算法一种更精妙、更强大的用法便应运而生。

我们可以不淹没原始的高度图，而是创建一个更智能的“成本”景观。我们从生物学中得知，树的树冠半径通常与其高度相关。我们可以利用这一知识创建一个新的景观，在这个景观中，将一个像素分配给特定树的盆地的“成本”不仅随着海拔的增加而增加，而且还随着与树顶距离的增加而增加，并根据其预期大小进行缩放。当我们在-这个新的、融入物理学知识的景观上运行分水岭时，它在分离一棵大的、占主导地位的树和其较小邻居方面的能力变得更强。它绘制的边界不再只是一条简单的山脊；它是一条数学上精确的曲线（实际上是一个阿波罗尼斯圆），平衡了两个竞争峰值的影响。这是一个很好的教训：分水岭变换不仅仅是一个僵化的工具；它是一个灵活的框架，我们可以在其中融入我们对世界的物理知识来指导分割过程。

内在世界：微观之旅

在探索了我们自己尺度的世界之后，现在让我们将分水岭变换缩小，去窥探细胞和分子的微观领域。在这里，挑战不是广阔的景观，而是庞大的群体。在医学成像中，病理学家常常需要计数和测量成千上万像鹅卵石一样紧密堆积在一起的细胞。

想象一下肿瘤组织的显微镜图像。细胞聚集在一起，它们的边界模糊不清。我们如何计数它们？一个巧妙的技巧是首先识别出细胞的前景，然后计算一个“距离变换”，这会创建一个新的图像，其中每个细胞像素的值是它到最近背景的距离。结果是一个美丽的平滑山丘景观，每个山丘的顶峰都是一个细胞的中心。这个景观是标记控制分水岭的完美输入，我们在每个山峰的顶部放置一个“种子”。然后，该算法优雅地刻画出边界，沿着细胞之间自然的鞍点将接触的细胞分开。

这不仅仅是一个学术练习。在癌症诊断中，医生会测量像Ki-67增殖指数这样的指标，即正在活跃分裂的细胞的比例。要计算这个指数，你需要准确地计数总细胞数和阳性细胞数。如果你的算法调整不当，并屈服于过分割——将单个细胞核分裂成多个片段——你可能会极大地夸大总细胞数（ $N_{\mathrm{tot}}$ ）并人为地降低测得的指数。算法参数的微小变化可能导致临床指标的显著变化，这突显了谨慎和理解地应用这些工具的至关重要性。

微观世界并不总是平面的。科学家们通常以2D切片的“z-stack”形式获取3D图像。一个常见的挑战是各向异性：切片之间的距离（ $\Delta z$ ）通常远大于切片内像素之间的距离（ $\Delta x$ , $\Delta y$ ）。如果我们天真地将我们的3D图像视为一个完美的体素立方体，我们就在扭曲现实。一个球形细胞在我们的数据中变成了一个扁平的薄饼。如果分水岭应用于一个没有考虑到这一点的距离变换，它将会失败。然而，如果我们给算法一个知道真实物理间距的距离变换，它就能正确地感知3D形状并执行成功的分割。这是一个深刻的观点：一个算法要与物理世界协同工作，其数学必须尊重测量的物理原理。

分水岭变换通常在一个更大的算法流程中扮演一个主角。考虑一下光谱核型分析的艰巨任务，科学家必须从一个细胞的中期分裂相中分离并识别所有的染色体。原始图像是混乱的，有不均匀的光照、明亮的碎片和重叠的染色体。一个稳健的流程必须首先校正光照，然后使用形态学操作滤除碎片，并且只有在那之后，才在一个距离图上使用标记控制的分水岭来仔细地分离缠结的染色体，以进行最终分类。

在人工智能的现代纪元，我们也有理由问这个经典算法的地位如何。像U-Net这样的深度学习模型现在可以在大量手动标注的图像数据集上进行训练。这些模型通常比基于分水岭的方法实现更高的准确性，尤其是在噪声大、边界染色弱的图像上，因为它们学会了以难以手工制作的方式整合复杂的多通道信息。然而，它们也带来了权衡。当U-Net犯错时，几乎不可能理解为什么。相比之下，分水岭是美妙地透明的。它的失败可以追溯到景观中的一个特定特征——一个伪最小值，一个弱山脊。这给我们留下了一个经典的工程选择：我们是更喜欢“黑箱”的原始力量，还是一个有原则、经典的、可解释的方法？。

看不见的数据世界

到目前为止，我们的景观都是真实事物的图片——山脉、树木、细胞。但在这里，我们将进行最激动人心的飞跃。如果景观根本不是任何事物的图片呢？如果它只是……数据呢？任何二维数字矩阵都可以被可视化为一个高度图。分水岭能否在这些抽象的地形中找到有意义的“物体”？

答案是肯定的。在蛋白质组学领域，科学家使用质谱法来识别样品中的蛋白质。输出的不是图像，而是一个复杂的2D图谱，其中一个轴是分子的质荷比，另一个是它在机器中的保留时间。在这个图谱上，一个肽段表现为一个高信号强度的小“山丘”。为了找到并量化样品中所有的肽段，计算生物学家将这个MS1图谱视为一个地形表面，并使用分水岭变换来从噪声背景中检测和分割每个“峰”。

这种抽象更进了一步。在我们每个细胞的细胞核内部，长长的DNA链并非一团乱麻；它被组织成不同的空间领域。生物学家可以创建一个“Hi-C接触图”，这是一个大的方形矩阵，其中位于 $(i,j)$ 的条目表示基因组上位置 $i$ 与位置 $j$ 接触的频率。当你可视化这个矩阵时，你会看到明显的高接触方形区域。这些被称为拓扑关联域（TADs），是基因组组织的基本单位。我们如何能自动找到这些域呢？通过将Hi-C图视为一个景观并应用分水岭算法。高接触的TADs成为算法自然识别出的“盆地”。这是一个惊人的飞跃：一个为绘制流域而构思的算法，现在被用来绘制人类基因组的功能结构。

宇宙之宏伟尺度：宇宙网

从无穷小到无穷大。我们与分水岭变换的旅程以已知宇宙中最大的结构作为终点。天文学家观察到，星系在空间中并非随机分布；它们排列在一个巨大的、丝状的结构中，被称为宇宙网，环绕着被称为宇宙空洞的巨大、近乎空无的区域。

但确切地说，什么是空洞？它由物质的缺失来定义。为了找到它们，宇宙学家首先估算广阔空间体积内的物质密度，通常使用一种基于星系位置的沃罗诺伊镶嵌的巧妙技术。这给了他们一个宇宙密度场——一个3D景观，其中的“山谷”是低密度空洞，“山脉和山脊”是高密度的丝状结构和星系团。

分水岭变换再次为此任务提供了完美的工具。通过从最深的局部最小值“淹没”宇宙密度场，该算法为空洞提供了坚实且无参数的定义，即密度景观的自然汇水盆地。这个应用揭示了该算法最深层的数学优雅。例如，由此产生的空洞划分对于密度场的任何单调重缩放（例如，取密度的对数）都是不变的；它找到的底层结构比具体数值更基本。它表明，寻找低密度空洞在数学上等同于寻找粒子拥有最大自身体积的区域——这是同一枚硬币的两面。

我们的旅程结束了。淹没景观这个简单、物理的直觉，被证明是一种惊人地通用和强大的科学工具。它为水文学家提供了一种模拟河流的方法，让医生能够计数细胞，帮助生物学家绘制我们的基因组，并为天文学家提供了定义宇宙巨大空洞的方法。分水岭变换是科学探索统一性的绝佳证明，展示了一个单一、美丽的想法如何帮助我们看到并理解我们世界的结构，从最小的尺度到最大的尺度。