
我们本能地能识别周围世界中的纹理——木材的纹理、织物的编织——但如何将这种直观的理解转化为计算机可以使用的客观、可量化的数据呢?教会机器“看”到像素之间的排列和关系,而不仅仅是它们的单个数值,这一挑战代表了计算视觉领域的一个根本性差距。本文介绍的灰度共生矩阵 (GLCM) 是一种优雅而强大的统计工具,旨在弥合这一差距。通过检查像素强度的空间关系,GLCM 为描述纹理提供了一种稳健的语言。在接下来的章节中,我们将首先探讨 GLCM 的“原理与机制”,剖析它是如何构建、归一化并通过关键特征来解释的。随后,“应用与跨学科联系”部分将展示该方法如何应用于解决医学和遥感等领域的关键问题,揭示纹理分析与成像底层物理学之间的深刻联系。
环顾四周。你会看到木纹、衬衫的织法、水泥墙的表面、池塘的涟漪。我们能立即识别这些图案。我们称之为“纹理”。但纹理究竟是什么?它不仅仅关乎颜色或亮度本身,更关乎它们是如何排列的。一堵砖墙和一堆杂乱的同种砖块具有相同的颜色和材料,但它们的排列——即它们的纹理——是截然不同的。墙壁是有序和重复的;砖堆是混乱的。
我们怎么可能教会计算机看到这种差异呢?机器将图像看作一个巨大的数字网格,每个数字代表一个像素的灰度级。要理解纹理,计算机不能只看单个像素。它必须学会看到像素之间的关系。它需要一种语言来描述排列方式。灰度共生矩阵 (GLCM) 正是这样一种语言。它是一种非常巧妙且强大的工具,能将直观、近乎艺术性的纹理概念转化为严谨且可量化的东西。
想象一下,你是一名侦探,正在调查一幅小小的灰度图像。你的任务是理解它的纹理。你决定不寻找单个线索,而是寻找成对的线索。你设定一个特定的空间关系——一个配对像素的规则。例如,你的规则可能是:“将每个像素与其右侧的直接邻居配对。”这个规则由两个简单的参数定义:一个方向 (),这里是水平方向 (),以及一个距离 (),即一个像素。
现在,你系统地扫描图像。对于每个像素,你查看它右边的邻居,并记下它们的灰度值对。假设你发现一个灰度级为“100”的像素,它的邻居灰度级为“102”。你就在 这对旁边画一个记号。你在整个图像上重复这个过程。一对明亮的像素?为 记上一笔。一个暗像素旁边是一个亮像素?为 记上一笔。
在你检查了所有由你的规则定义的可能像素对之后,你可以将你的记号整理成一个网格,或者说一个矩阵。这个矩阵的行对应于像素对中第一个像素的灰度级,列对应于第二个像素的灰度级。这个计数矩阵就是灰度共生矩阵。它是一个统计快照,是图像纹理在特定方向和特定距离上的指纹。
我们的计数矩阵很有用,但它有一个问题。大图像自然比小图像拥有更多的像素对,所以即使纹理完全相同,所有的计数值也会更高。我们如何比较显微镜载玻片上的小组织样本与 CT 扫描中的大块切片的纹理呢?答案在于归一化。
我们不使用原始计数,而是将它们转换为概率。这出奇地简单:我们只需将整个矩阵中的所有计数相加,得到我们找到的总像素对数,然后用这个总和去除矩阵中的每一个条目。
结果是一个具有数学美感的东西。我们归一化后的 GLCM 中的每个条目 现在代表了当我们根据距离和方向规则随机选取一对像素时,观察到灰度级为 的像素对的联合概率。这个新矩阵中所有条目的总和恰好为 1。它现在是一个真正的概率分布 [@problem_id:4354350, @problem_id:4554331]。这一步确保了我们的纹理描述与图像大小无关。此外,如果我们拍摄两张相同纹理的图片,计数值可能会翻倍,但归一化后的概率将保持不变,从而为我们提供了纹理本身的稳健特征。
归一化后的 GLCM 是一个信息宝库。这个矩阵内数值的分布告诉我们关于纹理特征的一切。
让我们考虑两种简单的纹理。首先,一个完全均匀的灰色斑块。每个像素都有相同的灰度级,比如“a”。如果我们为任何偏移量构建一个 GLCM,我们找到的每一对都将是 。生成的矩阵将完全为零,除了在主对角线上位置 处有一个亮点,其概率将为 1。
现在,想象一个由交替的黑色(“a”)和白色(“b”)方块组成的完美棋盘格图案。如果我们寻找水平方向的像素对,我们永远不会找到 或 。我们只会找到 和 的像素对。GLCM 的所有概率质量都将分布在主对角线之外。
矩阵中的这种视觉模式——无论是数值聚集在对角线上还是远离对角线分布——是关键。我们可以用几个简单而强大的数字来捕捉这一点:
对比度 (Contrast):该特征衡量局部变化的程度。它的计算公式是 。注意 这一项。它充当权重。如果一对像素 的灰度级差异很大,它们的差值 就很大,这个平方项就会变得巨大。对比度得分是这些平方差的加权平均值。对于均匀的斑块,每对像素都有 ,所以对比度为零。对于棋盘格, 很大,因此对比度得分很高 [@problem_id:4354401, @problem_id:4891596, @problem_id:4554365]。这使得对比度成为检测锐利边缘和边界(如病理图像中腺体周围的边界)的绝佳工具。
同质性 (Homogeneity):这与对比度相反。它衡量局部相似性。其公式为 。在这里,权重项奖励相似性。如果 ,分母为 1,该像素对贡献其全部概率。随着差值 变大,分母增大,其贡献迅速下降。我们的均匀斑块将具有完美的同质性得分 1,而棋盘格的得分将非常低 [@problem_id:4891596, @problem_id:4554365]。
熵 (Entropy):定义为 ,这是从信息论中借来的一个概念。它衡量纹理的随机性或复杂性。一个简单、可预测的纹理(如均匀斑块,只有一个非零概率)具有非常低的熵。而一个混乱、不可预测的纹理,其中许多不同类型的像素对以相近的可能性出现,则会具有非常高的熵。
GLCM 的威力在于其灵活性。距离 、方向 以及我们用于量化的灰度级数 () 的选择,就像显微镜上的旋钮,让我们能够以不同方式探测纹理。
改变距离 让我们可以在不同尺度上研究纹理。小距离揭示精细纹理,而大距离可以发现粗糙图案或长程有序性。对于大多数自然纹理,距离相近的物体往往更相似。随着我们增加距离,像素间的相关性下降,所以我们预计会看到对比度增加而同质性减少。
改变方向 对于检测各向异性(即具有优选方向的纹理)至关重要。考虑病理学中的纤维化组织,它通常由长的、排列整齐的胶原纤维组成。沿着纤维方向计算的 GLCM 会找到许多相似的像素对,导致高同质性。而横跨纤维计算的 GLCM 会遇到许多剧烈变化,导致高对比度。这种差异揭示了组织的底层结构。如果一个纹理是各向同性的(在所有方向上都相同),比如一片随机噪声场,那么当我们旋转方向 时,GLCM 特征不会改变。
最后,量化——即使用多少灰度级 ()——的选择是一个关键的预备步骤。这是一个微妙的平衡。灰度级太少,你可能会将不同的特征混为一谈,使纹理看起来比实际更均匀。灰度级太多,你的 GLCM 会变得巨大而稀疏,使得统计数据不可靠。这个选择并非无足轻重;对于某些理论模型,对比度可以与灰度级数的平方成正比,这正显示了最终结果对这个初始选择的敏感程度。
GLCM 的原理可以完美地从二维图像扩展到像 CT 和 MRI 这样的三维医学扫描世界。在这里,我们的图像是一个由体素(三维像素)组成的网格。我们的偏移量现在是一个三维向量 ,允许我们探测任何三维方向上的关系。
正是在这里,我们必须将计算机索引的抽象世界与人体的物理世界联系起来。体素网格并非总是由完美的立方体构成。通常,切片间的间距 () 远大于平面内像素的间距 ()。这被称为各向异性体素间距。要计算一个偏移向量为 体素的真实物理距离,我们必须使用物理空间中的勾股定理来考虑这些不同的间距:。这种精细的计算确保我们的纹理分析根植于物理现实,使其在不同扫描仪和协议之间具有稳健性和可比性。
GLCM 是一个非常通用的工具,但它不是唯一的。当与其他方法比较时,它的真正优势才得以显现。一些技术,如 Laws 纹理能量测量法,使用一组固定的小型滤波器来检测点、边缘和波纹等基本特征。这些方法对于许多常见模式来说快速而有效。然而,由于它们是由轴向对齐的分量构建的,它们可能无法识别更复杂的、不可分离的依赖关系。相比之下,GLCM 可以通过自定义偏移量——比如 ——来完美地检测一个标准滤波器集会完全错过的特定斜向图案。
其他方法,如灰度行程长度矩阵 (GLRLM),则高度专业化。GLRLM 专门设计用于计算相同像素的“行程”,这使得它在分析条纹状纹理时比 GLCM 更直接。
这说明了科学中的一个深刻教训:通常没有唯一的“最佳”工具。选择取决于问题。但灰度共生矩阵占据着特殊的位置。它提供了一个基础、灵活且深刻直观的框架,用于将视觉纹理丰富复杂的织锦转化为数学的通用语言。
在我们之前的讨论中,我们打开了灰度共生矩阵 (GLCM) 的“黑匣子”,看到了这个优雅的数学结构是如何从图像的像素中逐片构建起来的。我们已经了解了如何做。现在,我们将踏上一段更激动人心的旅程,去发现为什么以及在哪里应用它。为什么这个特定的工具变得如此不可或缺,它又在哪些看似无关的世界之间架起了桥梁?
科学中一个基本概念的真正美妙之处不仅在于其内在的优雅,还在于其连接和阐明事物的力量。GLCM 就是一个绝佳的例子。它是一个翻译器,将图像中沉默的视觉织锦转化为计算机可以理解的通用纹理语言。这种转译使我们能够超越主观的人类描述——“粗糙”、“光滑”、“有条纹”——走向客观、可重复的量化。正如我们将看到的,这种能力具有深远的影响,使我们能够诊断疾病、监测我们的星球,甚至审视我们数字图像本身的完整性。
GLCM 最具影响力的应用可能是在医学领域,特别是在病理学和放射学中,它扮演着一个不知疲倦的“数字病理学家”的角色。一位人类病理学专家可以通过观察载玻片,识别出癌性生长的混乱、无序的纹理,以区别于健康组织的有序结构。GLCM 让机器也能做到同样的事情,而且是基于定量的严谨性。
考虑一个数字化的组织学样本。病理学家可能会看到一个平滑、有组织的胶原基质区域——即支持性结缔组织——和另一个带有恶性肿瘤典型迹象的区域:核染色质聚集。对肉眼来说,一个是均匀的,另一个是粗糙的。GLCM 为这种直觉提供了数字。在平滑的胶原蛋白中,相邻像素的灰度级往往非常相似。这意味着 GLCM 的概率质量将堆积在其主对角线上或非常靠近主对角线。由此产生的纹理“特征”将显示出高的同质性 (homogeneity)(局部均匀性的度量)和低的对比度 (contrast)(局部强度差异的度量)。相反,肿瘤中聚集的、深染的细胞核在暗像素和亮像素之间造成了剧烈的转变。这将 GLCM 的概率质量远远地散布到对角线之外,从而产生低的同质性和高的对比度。
这个原理不仅仅是一个理论上的好奇心;它是现实世界诊断辅助工具的引擎。想象一个旨在筛查先天性肾发育不良的自动化系统,这是一种肾脏结构紊乱的病症。通过计算肾皮质图像块的 GLCM,我们可以提取一个像能量 (energy) 这样的特征。能量,也称为角二阶矩 (Angular Second Moment),衡量 GLCM 概率分布的均匀性;当少数几个条目占主导时(有序纹理),它很高,而当概率分布广泛时(混乱纹理),它很低。可以做出一个简单的决策:如果能量高于某个阈值,组织可能正常且组织良好;如果低于该阈值,则将组织标记为可能异常和紊乱,需要进一步检查。
这种方法的诊断能力可以达到惊人的特异性。考虑一个临床挑战:在对比增强 CT 扫描上区分感染性脓肿和坏死性肿瘤。两者都可能表现为环形增强的空腔,但它们的内部内容在生物物理上是不同的。脓肿通常充满相对均匀的、类似液体的脓液。然而,坏死性肿瘤包含死亡组织、液体和出血的异质混合物。GLCM 可以感知这种差异。脓肿核心的同质性脓液导致 GLCM 具有低的熵 (entropy)——一种高度有序和可预测的状态。肿瘤核心的异质性碎屑导致灰度级排列更随机,因此 GLCM 具有高的熵。通过将此特征与来自增强环的特征相结合——脓肿的环通常比肿瘤的结节状、不规则的环更平滑、更均匀——可以构建一个强大的分类模型,直接将数学特征与潜在的病理生理学联系起来。
让我们能够窥视细胞微观世界的原理,同样普适地让我们能够从轨道上凝视我们自己的星球。遥感领域利用纹理分析来分类地表覆盖、追踪环境变化和理解大气现象。
让我们看一张地球的光学卫星图像。一片均匀的水体、一片茂密的森林和一片薄薄的云都拥有截然不同的纹理。明亮的云和黑暗的海洋之间的清晰边界本身就是一个纹理特征。放置在均匀云层核心上的局部图像窗口将具有非常低的方差和熵 (entropy)。但是,一个横跨云层边缘的窗口将包含两个截然不同的像素群体——亮的和暗的。这种双峰分布导致了高方差和高熵,从而使边缘可以被检测到。
在这里,GLCM 的方向性真正大放异彩。假设我们有一个尖锐的垂直云边缘。如果我们使用水平位移向量(即比较东西方向的邻居)计算 GLCM 的对比度 (contrast),我们将频繁地将云像素与海洋像素配对。灰度级差异 将会很大,对比度将会很高。然而,如果我们使用垂直位移向量(比较南北方向的邻居),我们将几乎总是将云与云或海洋与海洋配对。灰度级差异将会很小,对比度将会很低。通过比较来自不同方向的对比度值,我们可以推断出图像内结构的方向。同样的原理可以用来识别沙丘的方向、海上的波浪或田地里农作物的行列。
到目前 为止,我们一直将图像视为现实的完美再现。但正如任何优秀的物理学家所知,测量行为从来都不是完美的。图像本身不是物体;它是物体、成像设备和处理算法之间复杂相互作用的结果。任何基于 GLCM 的应用的可靠性都严重依赖于对这整个链条的理解。在一个完美体现科学统一性的例子中,GLCM 迫使我们直面成像的基本物理学。
“模糊”镜头的问题(部分容积效应) 没有一个成像系统具有无限的分辨率。每幅图像都在某种程度上被系统的点扩散函数 (PSF) 所模糊。这种模糊导致了“部分容积效应”,即单个像素的值是其视场内不同物质的平均值。考虑一个完美的黑白方格棋盘图案。经过模糊处理后,锐利的边缘会变得柔和。边界上的像素将不再是纯黑或纯白,而是某种灰色。这种平均过程系统性地减小了相邻像素之间的差异。当我们计算 GLCM 时,我们会发现,曾经是高对比度的纹理现在具有较低的对比度,并因此具有较高的同质性。我们测量的纹理不仅仅是物体的属性,而是物体与我们仪器分辨率之间对话的结果。
网格中的小故障(重采样与混叠) 在数字世界里,我们经常调整图像的大小。如果我们草率地进行——例如,通过简单地丢弃像素来降采样——我们可能会引入严重的伪影。这是混叠的结果,即原始图像中的高频模式(如精细的光栅或锐利的边缘)被“折叠”到较低的频率中,产生了从未存在过的虚假新模式。这些伪影本质上是一种纹理。如果我们在不当降采样的图像上计算 GLCM,这些虚假模式将表现为局部变化的增加,从而人为地夸大对比度 (Contrast) 特征并降低同质性 (Homogeneity)。为了获得可信的纹理特征,必须遵守信号处理的法则,使用抗混叠滤波器来去除在较粗糙网格上无法表示的高频成分。
不均匀的聚光灯(MRI 中的偏置场) 有时,成像硬件本身会引入伪影。在磁共振成像 (MRI) 中,磁场的不完美可能产生“偏置场”——一种在图像上缓慢、平滑的强度变化。这就像用一盏对焦不准的聚光灯拍摄一堵均匀的白墙;墙的一侧看起来比另一侧亮。这种低频漂移与组织的真实纹理无关。然而,如果我们在这张图像上计算 GLCM,灰度级的逐渐变化将被解释为纹理,导致人为地产生高的对比度 (Contrast) 值。诸如 N4 偏置场校正等高级算法旨在估计并移除这种“不均匀的聚光灯”。校正后,真正的同质区域在图像中变得均匀,GLCM 正确地报告出低对比度、高能量 (energy) 的纹理。这个预处理步骤对于放射组学特征在不同扫描仪和患者之间保持稳健性和可比性是绝对必要的。
框架的形状(分割) 最后,分析受到第一步的影响:定义感兴趣区域 (ROI)。无论是由人类专家还是人工智能绘制,分割区域的边界都很重要。围绕病灶的平滑、精确的边界将产生一组与在周围组织内外游移的锯齿状、不确定边界不同的内部像素对。这些在边缘处像素对集合的微小差异将改变最终的 GLCM 及其派生特征。这提醒我们,一个放射组学特征不是一个绝对的属性,而是取决于整个分析流程,包括关键的分割步骤。
在一个网格中计算共生灰度级的简单而优雅的想法仅仅是个开始。其核心概念可以以强大的方式进行推广。我们可以想象将图像表示为一个更灵活的图,而不是一个刚性的网格,其中像素是节点,边根据更复杂的空间关系连接它们。然后我们可以在这个图上定义一个 GLCM,通过边的强度来加权灰度级之间的转换。这为在非欧几里得空间中分析纹理和捕捉超越直接邻接的关系打开了大门,指明了定量图像分析的未来方向。
从细胞的微观组织,到云的宏观结构,再到图像形成的基本物理学,灰度共生矩阵如同一条统一的线索。它证明了一个简单的数学思想所具有的力量,即提供一种新的观察方式,一个定量的透镜,通过它,我们世界中隐藏的纹理得以清晰呈现。