理解 GLCM 特征：纹理分析指南

玻尔百科

定义

理解 GLCM 特征：纹理分析指南指的是一种通过灰度共生矩阵（GLCM）分析像素强度对之间的空间关系来量化图像纹理的方法。该领域利用对比度和同质性等 Haralick 特征来定量描述粗糙度和均匀性等纹理特性，常用于医疗放射组学研究。在人工智能时代，该方法因其高度的可解释性以及在小样本数据集上的强劲表现，依然是纹理分析领域的重要工具。

核心要点

灰度共生矩阵 (GLCM) 通过分析像素强度对之间的空间关系来量化图像纹理。
Haralick 特征（如对比度和同质性）对 GLCM 进行总结，为粗糙度和均匀性等纹理特性提供量化指标。
将 GLCM 应用于真实世界数据，尤其是在医学放射组学中，需要关键的预处理步骤，如各向同性重采样和强度标准化，以确保结果的稳健性和可比性。
在人工智能时代，GLCM 仍然是一个有价值的工具，它具有可解释性，并且在深度学习模型可能难以处理的小型数据集上表现出色。

引言

在图像分析领域，纹理提供了简单的亮度值本身无法捕捉的关键信息。直方图可以告诉我们存在哪些像素强度，但它无法揭示这些像素如何排列——而这正是区分平滑湖泊与粗糙森林的本质所在。这一差距凸显了量化像素间空间关系方法的必要性。本文深入探讨了为此目的而设的最强大、最成熟的技术之一：灰度共生矩阵 (Gray-Level Co-occurrence Matrix, GLCM) 及其派生特征。接下来的章节将引导您了解该方法的核心原理及其变革性应用。在“原理与机制”一章中，我们将解构 GLCM 的构建方式，探索关键 Haralick 纹理特征背后的含义，并直面为实现稳健分析必须克服的、基于物理学的现实挑战。随后，在“应用与跨学科联系”一章中，我们将看到这些特征的实际应用，从在细胞水平诊断疾病到分析卫星图像，再到通过放射组学塑造精准医疗的未来。

原理与机制

想象一下，当您看一幅风景的卫星图像时，您的眼睛可以毫不费力地区分出湖泊平滑均匀的表面、森林粗糙斑驳的纹理，以及耕地规整重复的图案。但是，您如何教计算机“看见”这些差异呢？如果您只是为图像中所有的像素亮度值制作一个直方图，您会丢失一个关键信息：这些像素的空间排列。将森林图像中的所有像素打乱会产生一堆嘈杂的混乱，但这丝毫不会改变其直方图。这告诉我们一个深刻的道理：纹理关乎的不是存在什么像素值，而是它们如何相互关联地排列。

什么是纹理？从像素到图案

为了捕捉纹理，我们需要一个对像素空间布局敏感的工具。这就引出了不同图像特征族系之间的一个根本区别。一阶特征仅从直方图派生而来。它们包括我们熟悉的统计量，如平均亮度、方差和偏度。由于直方图只是一个没有空间信息的“像素袋”，因此根据定义，一阶特征对置换不变——打乱像素并不会改变它们。

另一方面，纹理特征被专门设计为对像素排列敏感。如果您打乱像素，纹理就会被破坏，特征值也必须改变。这种敏感性正是它们存在的全部理由。灰度共生矩阵（Gray-Level Co-occurrence Matrix, GLCM）是为此目的而发明的最优雅、最强大的工具之一。

灰度共生矩阵：纹理的蓝图

GLCM 的工作原理极其简单：它系统地计算在特定的空间间隔下，不同灰度值对出现的频率。要构建这个矩阵，我们需要两个关键要素：一个位移向量和量化的灰度级。

首先，我们必须定义“邻居”的含义。是紧邻右侧的像素吗？是正下方的那个？还是对角线上相隔五个像素的那个？这种关系由一个位移向量 $\mathbf{d}$ 定义。例如， $\mathbf{d}=(1,0)$ 意味着我们总是观察紧邻右侧的像素。

其次，一幅典型的医学或卫星图像可能包含数千个不同的灰度级（例如，12 位图像有 $2^{12} = 4096$ 个级别）。构建一个矩阵来追踪每一种可能的配对，在计算上将是巨大的，并且在统计上是不可靠的。因此，我们首先通过将强度值分组到更少、更易于管理的箱（bin）中来简化图像，比如 $L=32$ 或 $L=64$ 。这个过程称为量化。

有了这些准备，GLCM 就是一个大小为 $L \times L$ 的方阵。我们遍历图像，对于每个像素，我们观察由 $\mathbf{d}$ 定义的它的邻居。如果该像素的量化灰度级为 $i$ ，其邻居的灰度级为 $j$ ，我们就在矩阵的单元格 $(i,j)$ 中的计数加一。在扫描完整幅图像（或特定的感兴趣区域）后，我们将矩阵中的每个值除以计数的总对数来进行归一化。这将我们的计数矩阵转变为一个概率矩阵 $P(i,j)$ ，它代表了一个联合概率分布：即随机选择的一个像素其灰度级为 $i$ ，而它的邻居（在偏移量 $\mathbf{d}$ 处）灰度级为 $j$ 的概率。

这个矩阵是图像纹理的丰富蓝图。一个平滑、均匀的区域，其大部分概率质量将聚集在主对角线附近，因为相邻像素的灰度级往往非常相似 ( $i \approx j$ )。而一个粗糙、斑驳的纹理，其概率将分布在远离对角线的地方，表明相邻像素值之间存在大的跳跃。

解读蓝图：从矩阵到有意义的特征

GLCM 本身是一个详细的描述，但它仍然是一个矩阵。为了使其有用，我们需要将其精髓提炼成几个汇总统计量。这些就是著名的 Haralick 纹理特征。让我们探讨其中几个来建立直观理解。

对比度 (Contrast)： 这个特征问的是，“图像中有多少局部变化？” 它是通过将灰度级之间的差的平方与其概率加权求和来计算的： $\sum_{i,j}(i-j)^2 P(i,j)$ 。 $(i-j)^2$ 项对远离对角线的像素对给予了重罚。高对比度值意味着图像中存在大量剧烈的局部强度变化。对于我们某个思想实验中提供的 GLCM，仔细计算得出的对比度为 $0.30$ 。
同质性 (Homogeneity)（或称逆差矩, Inverse Difference Moment）： 这本质上是对比度的反面。它问的是，“图像有多均匀？” 它的计算公式为 $\sum_{i,j} \frac{P(i,j)}{1+(i-j)^2}$ 。分母确保了靠近对角线的像素对（其中 $i \approx j$ ）对总和的贡献远大于其他像素对。高同质性分数表明纹理平滑，少有剧烈变化。对于同一个矩阵，其同质性为 $0.85$ 。
熵 (Entropy)： 熵借用了信息论的概念，用于衡量纹理的随机性或复杂性。其计算公式为 $H = -\sum_{i,j} P(i,j) \log P(i,j)$ 。如果概率分布在许多不同的 $(i,j)$ 对上，表明纹理复杂且不可预测，则熵会很高。如果概率集中在少数几个单元格中，表明纹理简单、有序，则熵会很低。

这些只是几个例子，但它们展示了这种方法的力量：我们将一种视觉感知（纹理）转化成了一组量化的、客观的数字。

物理学家的烦恼：为何现实世界使问题复杂化

这个数学框架虽然优雅，但当我们将它应用于现实世界的图像——尤其是医学图像——时，我们会遇到一系列源于这些图像生成物理过程的复杂问题。克服这些挑战是实现稳健且有意义分析的关键。

距离问题：各向异性的体素

我们对 GLCM 的定义依赖于一个以像素或体素为单位测量的位移向量 $\mathbf{d}$ 。但在物理空间中，“一个体素”意味着什么？许多医学扫描，如 CT 或 MRI，生成的图像中体素并非完美的立方体。一个典型的临床 CT 扫描可能在切片内具有 $0.5 \times 0.5$ 毫米的分辨率，但切片本身的厚度可能是 $2.0$ 毫米。由此产生的体素是长方体，而不是立方体。这被称为各向异性 (anisotropy)。

现在，考虑用 1-体素的偏移量来计算 GLCM。一步 $\mathbf{d}=(1,0,0)$ 对应 $0.5$ 毫米的物理距离。但一步 $\mathbf{d}=(0,0,1)$ 则对应 $2.0$ 毫米的物理距离！我们正在探测两个截然不同的物理尺度上的纹理。由于图像强度在较短距离上更具相关性， $z$ 方向的 GLCM 将与平面内的 GLCM 大相径庭，导致特征值受到扫描仪方向的严重影响。

解决方案是一个关键的预处理步骤：各向同性重采样 (isotropic resampling)。我们使用数学插值方法创建一个新的图像网格，其中所有体素都是完美的立方体（例如， $1.0 \times 1.0 \times 1.0$ 毫米）。只有在进行这种标准化之后，我们才能确保“1-体素”的步长在每个方向上都意味着相同的物理距离，从而使我们的纹理特征具有旋转一致性，并能在不同扫描之间进行比较。

分辨率问题：模糊与部分容积效应

成像系统无法看到无限小的细节。每个系统都有其空间分辨率的根本限制，这可以被看作是其固有的“模糊度”。这种模糊由系统的点扩散函数 (Point Spread Function, PSF) 来描述。此外，最终的数字图像由特定大小的离散体素构成。这个体素大小为我们可能表示的最精细空间频率设定了硬性限制，这一概念由奈奎斯特-香农采样定理 (Nyquist-Shannon sampling theorem) 形式化。使用更小体素的采集可以捕捉到更大“体积”的空间频率，从而能够看到更精细的细节。

对于像微小肿瘤这样的小物体，这些限制会导致部分容积效应 (Partial Volume Effect, PVE)。物体的清晰边缘被 PSF 模糊化，位于其边界上的体素最终平均了肿瘤和周围健康组织的强度。这对我们的特征产生了毁灭性的后果：

一个小的、明亮的病灶，其测得的平均和最大强度会被低估，因为它的亮度被较暗的背景“稀释”了。
内在的生物学纹理被模糊所冲淡，导致像 GLCM 对比度这样的特征值下降。
矛盾的是，在边界处产生的新的中间灰度级会增加强度的表观随机性，从而人为地夸大了像 GLCM 熵这样的特征。最终，特征测量的成了成像伪影，而非底层的生物学信息。

亮度问题：强度标准化

想象一下在不同日期对同一个人进行两次 MRI 扫描。由于扫描仪磁场或设置的微小变化，一幅图像可能会比另一幅稍亮或对比度更高。这可以建模为一个线性或仿射强度变换： $I' = aI+b$ 。如果我们直接在这些图像上计算特征，结果的差异将仅仅源于扫描仪的变异性，而非任何生物学上的变化。

为了使特征具有可比性，我们必须对强度进行标准化。一种常见的方法是 Z-score 标准化，我们将感兴趣区域内的每个强度值 $X$ 转换为 $Z = (X - \mu)/\sigma$ ，其中 $\mu$ 和 $\sigma$ 是该特定区域的平均值和标准差。这一变换的直接结果是，新的平均值总是 $0$ ，新的方差总是 $1$ 。其他特征也会发生可预测的改变：偏度保持不变，而像对比度和相异性这样的特征则分别被原始方差和标准差重新缩放。这个过程消除了简单的缩放因子 $a$ 和平移因子 $b$ 的影响。

分箱问题：偏倚-方差权衡

还记得我们在构建 GLCM 之前必须将强度量化到 $L$ 个箱中吗？但是应该使用多少个箱呢？这个问题引导我们走向所有科学领域中最根本的困境之一：偏倚-方差权衡 (bias-variance tradeoff)。

箱数太少（高偏倚）： 如果我们只使用，比如说， $L=4$ 个箱，我们就把各种差异很大的强度值混为一谈了。我们离散化的表示是对真实连续强度分布的一个非常粗糙、拙劣的近似。这引入了系统性误差，即偏倚 (bias)。
箱数太多（高方差）： 如果我们使用，比如说， $L=256$ 个箱，我们的 GLCM 会变得非常庞大 ( $256 \times 256$ )。对于一个小的感兴趣区域，这个巨大矩阵中的大多数单元格的计数将为零，而少数非零计数则基于极少数的像素对。这样的估计在统计上是不稳定的，如果我们稍微改变感兴趣区域，它们就会剧烈波动。这就是高方差 (high variance)。

不存在一个唯一“正确”的箱数。这个选择是一种妥协，是在捕捉足够细节（低偏倚）和确保统计稳定性（低方差）之间的平衡。不同的策略，比如使用固定宽度的箱（例如，每 10 个亨氏单位）或固定总箱数，当其他处理步骤（如图像重采样）改变强度分布时，每种策略都会对特征的稳定性产生各自的下游后果。

关于数字保真度的说明

最后，在我们现代的数字世界中，我们必须注意图像的存储方式。图像压缩无处不在，但并非所有压缩都是平等的。

无损压缩（如 PNG 格式所使用）就像一个巧妙的打包算法。它是完全可逆的。解压后的图像与原始图像在比特层面上完全相同。因此，从中计算出的任何特征都将完全一样。对于科学工作来说，这是安全且必需的选择。
有损压缩（如 JPEG 格式所使用）通过丢弃它认为“感知上不重要”的信息来获得高得多的压缩比。它在像素值中引入了微小的误差。虽然平均误差可能为零，但这些微小的改变破坏了 GLCM 旨在测量的精确空间关系。一对原本相同的像素可能会变得略有不同，而一对原本略有不同的像素可能会变得相同。这从根本上改变了 GLCM 并破坏了纹理特征。对于定量分析，有损压缩可能是一个隐藏的、危险的误差来源。

理解 GLCM 的原理不仅仅是记忆公式。它在于欣赏一个优雅的数学思想与现实世界中混乱、复杂但最终可知的物理学之间美妙的相互作用。

应用与跨学科联系

在理解了灰度共生矩阵 (GLCM) 的机制之后，我们现在走出原理的工坊，进入广阔的实践领域，看看这个非凡的工具能做什么。我们已经打造了一副新型眼镜，现在我们将通过它来观察世界。我们会发现，量化空间关系的能力——即纹理的本质——开启了新的观察方式，从单个细胞内生命与死亡的复杂舞蹈，到我们星球大气层广阔、旋转的模式。

一沙一世界：生物学中的微观纹理

一位病理学家凝视着显微镜，他本质上是一位纹理鉴赏家。组织结构中的微妙变化——细胞的排列、密度和外观——可以预示着健康与疾病的区别。几个世纪以来，这是一门艺术，一项通过多年经验磨练出来的技能。但如果我们能将这门艺术转变为一门科学呢？

想象一下观察一个正在经历细胞凋亡（程序性细胞死亡的优雅过程）的细胞核。当细胞准备自我拆解时，它的染色质——紧密盘绕的 DNA 链——凝结成致密、紧凑的团块。一个曾经纹理相对均匀的细胞核变得粗糙斑驳。在我们的眼中，它看起来“更粗糙”。但是计算机如何看到这种粗糙度呢？GLCM 可以。通过分析相邻像素对，我们发现在凋亡细胞核中，一个非常暗的像素旁边出现一个非常亮的像素的可能性要大得多。这导致 GLCM 对比度特征增加，而偏好均匀邻域的同质性特征则减少。实际上，我们已经为固缩（pyknosis）——细胞凋亡的关键形态学标志之一——创建了一个量化指标。

我们可以将这个想法更进一步，从仅仅量化变化到为特定状况构建一个检测器。考虑细胞衰老，这是一种与老化相关的不可逆生长停滞状态。衰老细胞的一个关键特征是形成衰老相关异染色质灶（Senescence-Associated Heterochromatin Foci, SAHF）——在荧光显微镜下可见的细胞核内明亮的点状斑点。带有 SAHF 的细胞核在纹理上与没有的细胞核截然不同。由于灶的边缘锐利，它的对比度更高，同质性更低。我们可以将这两个度量结合成一个单一的分数，例如 $S = C_n + (1 - \text{HOM})$ ，其中 $C_n$ 是归一化对比度， $\text{HOM}$ 是同质性。通过设置一个简单的阈值，我们可以训练计算机自动标记可能衰老的细胞核。这是计算病理学的曙光，其中像 GLCM 派生的纹理特征充当了自动化诊断工具的基石。

俯瞰视角：地球与天空的纹理

现在让我们将尺度从微米放大到公里。一幅地球的卫星图像，其核心不过是另一个数字网格。计算机程序如何区分一朵蓬松明亮的云和一片黑暗平坦的海洋？答案同样是纹理。

从一大片云的均匀内部截取的一块图像，其亮度变化会很小。对于一片开阔的海洋也是如此。但位于边界——云层边缘——的一块图像则另当别论。它包含了非常明亮和非常黑暗的像素混合。它的直方图是双峰的。因此，它的局部方差和香non熵会很高，标志着这是一个高复杂度或“边缘性”强的区域。

这正是 GLCM 展现其真正优雅之处的地方。它不仅能告诉我们存在纹理，还能告诉我们纹理的组织结构。想象一个清晰的垂直云边缘。如果我们使用水平位移向量（比如 $\mathbf{d}=(1,0)$ ）计算 GLCM，我们将不断地将明亮的云像素与黑暗的海洋像素配对。得到的对比度会非常高。但如果我们使用垂直位移（ $\mathbf{d}=(0,1)$ ），我们将把云像素与其他云像素配对，海洋像素与海洋像素配对。对比度就会非常低。通过比较从不同方向派生的纹理特征，我们可以推断出图像中结构的方向。GLCM 就像一个定向探针，让我们能够描绘出图像的内在结构。

现代前沿：放射组学与精准医疗的探索

纹理分析的力量在医学成像领域的变革性影响最为显著，催生了整个名为放射组学 (radiomics) 的学科。其核心思想是，医学图像——如 CT、MRI 或 PET 扫描——包含了大量肉眼无法察觉的定量信息。放射组学旨在提取这些信息（以 GLCM 等特征的形式），并用其构建用于诊断、预后和治疗反应预测的模型。

然而，构建一个可信赖的放射组学模型是一项艰巨的挑战，是一段充满微妙陷阱的旅程。仅仅计算特征是不够的，必须构建一个科学合理的流程。例如，为了训练和测试一个模型，我们必须在患者层面上划分数据。如果我们将同一患者的体素混合到训练集和测试集中，我们基本上是在作弊；这相当于让我们的模型偷看答案，从而导致虚假的乐观结果。

此外，现实世界是复杂的。一项多中心临床试验可能涉及来自不同制造商、具有不同采集协议的扫描仪。在一家医院扫描的肿瘤可能具有 $(1.0, 1.0, 5.0)$ 毫米的体素间距，而在另一家医院，间距可能是完全各向同性的 $(0.8, 0.8, 0.8)$ 毫米。如果我们用“一-体素”的偏移量计算 GLCM，这在物理上意味着什么？在第一种情况下，z 方向上的一体素步长是 $5$ 毫米的飞跃；在第二种情况下，则是 $0.8$ 毫米的微小步长。这些特征将从根本上不具可比性！为了理解这些数据，我们必须首先将所有图像重采样到一个共同的、各向同性的网格上。只有这样，“一个邻居”才具有一致的物理意义。

即使在重采样之后，由于扫描仪差异造成的批次效应可能依然存在。这些可以通过协调技术进行校正，但在这里我们同样必须小心，在学习校正参数时不要泄露测试集的信息。而且我们到底在计算什么？在我的软件中，“能量”的含义和你的软件中的一样吗？要建立一门科学，我们需要标准。这正是影像生物标志物标准化倡议 (Imaging Biomarker Standardisation Initiative, IBSI) 的关键作用，它提供了一种通用语言和一套“数字体模”——具有已知特征值的合成图像——作为金标准。通过以极其精确的方式定义每一步，从强度如何离散化到 GLCM 计算中包含哪些邻居，IBSI 使我们能够构建可复现、可信赖的工具。

万神殿中的一席之地：人工智能时代的 GLCM

GLCM 不是唯一的纹理分析工具，也不是最终的解决方案。要真正欣赏它的地位，我们必须将其置于上下文中看待。与局部二值模式 (Local Binary Patterns, LBP) 等方法相比，GLCM 的计算量可能显得很大。LBP 的效率极高，并且其设计使其对简单的光照变化不敏感——这一特性使其非常稳健。但它的视野严格局限于局部。它无法轻易捕捉长程相关性，比如耕地中成排的重复图案，而一个具有大的、定制位移向量的 GLCM 则可以轻松检测到。

与 Laws 纹理能量等滤波器组方法相比，GLCM 再次显示出其独特的灵活性。Laws 掩模就像一组固定的模板，非常擅长检测轴对齐的图案，如水平或垂直边缘。但如果纹理具有一种奇特的、倾斜的依赖关系——比如说，一个向右两步、向下一部重复的图案呢？僵硬的、可分离的 Laws 掩模对这种结构是盲目的。然而，GLCM 不是。我们只需将位移向量设置为 $(\Delta x, \Delta y) = (2,1)$ ，隐藏的依赖关系就会立即在共生统计中显现出来。GLCM 是一个通用探针，而不是一个专用模板。

最后，我们必须提出每个人都在思考的问题：在深度学习时代，像 GLCM 这样的手工特征是否已经过时？答案是响亮的“不”。深度神经网络，特别是卷积神经网络 (Convolutional Neural Network, CNN)，是进行表示学习的极其强大的工具。它可以直接从原始数据中学习复杂的特征层次。但这种能力是有代价的。CNN 的归纳偏置 (inductive bias) 相对较弱；它对问题作出的假设很少。为了避免在庞大的可能函数空间中迷失，它需要海量的数据。

另一方面，像 GLCM 这样的手工特征体现了很强的归纳偏置。通过选择计算 GLCM，我们明确地告诉我们的模型：“我相信二阶空间统计对于这个问题很重要。” 这种领域知识的注入起到了强大的约束作用，使模型能够从通常是医学研究现实的、小得多的数据集中学习。对于一项只有一百名患者的研究，一个基于稳健 GLCM 特征构建的、经过充分验证的模型，其提供的认知信任 (epistemic trust)——对其预测的合理信心——可能远远超过在同样有限数据上训练的复杂深度学习模型。

因此，GLCM 并非遗物。它是一个成熟、可解释且强大的工具，当谨慎而严谨地使用时，它仍然是现代科学家将图像转化为洞见的工具箱中不可或缺的一部分。