图像直方图

玻尔百科

核心要点

图像直方图是一种绘制每个像素强度值出现频率的图表，它提供了图像色调特征的统计指纹。
直方图使得强大的图像处理技术成为可能，包括通过均衡化进行对比度增强和通过阈值分割进行场景分割。
对于科学分析，辐射定标（例如，亨斯菲尔德单位）可将直方图标准化以进行定量比较，这与注重美学的方法不同。
在现代人工智能中，直方图对于量化艺术风格和监控数据漂移等任务至关重要，以确保机器学习模型的可靠性。

引言

图像直方图是数字图像处理中最基本但又最强大的工具之一。其核心是一个统计像素亮度级别的简单图表，但这种简单性掩盖了其深远的功用。许多人将直方图视为照片编辑的基本工具，未能领会它所揭示的关于图像内容、来源及其潜力的深层故事。本文旨在弥合这一差距，不仅将图像直方图作为一种统计摘要，更将其作为一种科学仪器和创作工具进行探索。在接下来的章节中，您将首先深入探讨“原理与机制”，了解直方图是如何由数字信号形成的，以及其形状揭示了关于物理世界的哪些信息。随后，“应用与跨学科联系”一章将展示这些基础知识如何在从医学诊断、天文学到现代人工智能核心等领域中得到运用。

原理与机制

想象一下，您有一个装满数十亿块小瓷砖的巨大桶，每块瓷砖都涂有略微不同的灰色。您的任务是了解这个集合的构成。您会怎么做？您可能不会从远处盯着桶看。一种更系统的方法是进行分类。您可能会设置一长排箱子，每个箱子对应一种可能的灰度色阶，从最纯粹的黑色到最明亮的白色。然后，您会一块一块地将每块瓷砖放入其对应的箱子中。当您完成后，箱子中堆叠的瓷砖将为您提供整个集合的强大、一目了然的摘要。有些箱子可能溢出，表明它们的色阶非常普遍，而其他箱子可能几乎是空的。

这种简单的分类和计数行为，正是图像直方图的本质。一幅图像是像素的集合，即我们的“瓷砖”，每个像素都有一个强度值，即它的“灰度色阶”。直方图就是一个图表，显示了每个亮度级别有多少个像素。它是一份画像，一次普查，一个图像色调特征的指纹。就像指纹一样，它可以揭示出关于其来源图像的身份和故事的惊人信息。

光的计数：直方图展示了什么

让我们把这个概念具体化。考虑一个简单的高对比度图像：一张填满整个画面的标准棋盘的照片。我们期望它的直方图会是什么样子？棋盘有两个主要组成部分：深色方格和浅色方格，数量相等。所以，我们的“计数”应该显示两大堆像素：一堆是深灰色阶的，另一堆是浅灰色阶的。用统计学的语言来说，这创建了一个双峰直方图，即一个有两个明显峰值的直方图。

但照片并非完美的计算机图形。如果你放大看，你会注意到并非所有“黑色”方格都具有完全相同的强度值。相机传感器中微小的随机波动会产生少量噪声，将本应是单一色阶的值涂抹成一个狭窄的范围。白色方格也是如此。所以，我们的直方图不会有两条无限细的尖峰；相反，它将有两个有些圆润的峰。此外，在黑色方格和白色方格的边界处，像素会捕捉到两者的混合光，产生中间的灰色调。这些边缘像素将填充我们两个主峰之间的谷地。

因此，一张真实世界棋盘图像的合理直方图会显示两个宽阔、大小几乎相等的峰——一个在低强度端（黑色），一个在高强度端（白色）——中间有一个浅而有像素填充的谷地。仅仅通过思考计数过程，我们就已经推断出了一个常见物体的特征签名，包括作为真实物理世界一部分的噪声和模糊的微妙影响。

数字画布：从模拟光到离散数字

这提出了一个更深层次的问题。为什么我们要把像素分到标记为“0”、“70”或“255”的离散箱子里？现实世界中的光并非天然地分为256种灰度。世界是模拟的；照射到相机传感器的光强度是一个连续变量。图像的数字性质是一项发明，一项出色且必要的简化。

当相机传感器测量来自场景的光线时，它会产生一个连续的电信号。为了将其存储为数字图像，这个模拟信号必须被转换成一个数字。这个过程称为量化，由一个名为模数转换器（ADC）的设备执行。ADC接收从最小值 $x_{\min}$ 到最大值 $x_{\max}$ 的整个可能信号强度范围，并将其切割成有限数量的离散级别。

级别的数量由系统的位深度（ $b$ ）决定。对于标准的8位图像，ADC有 $2^8 = 256$ 个级别，我们通常将其标记为0到255。每个落在某个小范围内的连续测量值都被赋予一个单一的数字。这个范围的宽度，就原始模拟信号而言，是量化步长 $\Delta$ ，由一个非常简单的关系给出：

\Delta = \frac{x_{\max} - x_{\min}}{2^{b}}

这意味着我们直方图的结构——其由离散整数值组成的水平轴——是这一基础测量行为的直接结果。我们的直方图可能拥有的最大箱子数量不是无限的，而是从根本上受到创建图像的设备的位深度的限制。

分布的语言

我们直观的“计数”方法很有用，但要释放直方图的全部威力，我们需要使用更精确的数学语言。

让我们将直方图函数 $h(k)$ 定义为图像中具有强度值 $k$ 的像素总数。如果图像中总共有 $N$ 个像素，那么我们直方图中所有计数的总和必须等于 $N$ 。

这个原始计数很有用，但它依赖于图像的大小。一幅更大的图片会有更大的计数值。为了使其成为一种通用的描述，我们可以通过除以像素总数来对其进行归一化。这给了我们概率质量函数（PMF）， $p(k)$ ：

p(k) = \frac{h(k)}{N}

现在， $p(k)$ 代表从图像中随机选择一个像素其强度值为 $k$ 的概率。所有这些概率在所有可能级别上的总和当然必须为1。

由此，我们可以构建另一个关键函数：累积分布函数（CDF）。强度级别为 $k$ 时的CDF，记作 $F(k)$ ，是随机选择一个像素其强度小于或等于 $k$ 的概率。它就是到该点为止所有概率的总和：

F(k) = \sum_{i=0}^{k} p(i)

CDF是一个累计总和。它从最暗的级别0开始，到我们达到最亮的级别时攀升至1。正如我们将看到的，这个看似简单的函数是图像处理中一些最强大技术的关键。

解码峰值：直方图中隐藏的故事

当我们意识到直方图的峰谷不仅仅是抽象的统计数据，而是图像物理内容的量化指纹时，直方图的真正魔力就显现出来了。我们通过棋盘的双峰直方图看到了一个简单的版本。现在让我们考虑一个更复杂、更重要的应用：医学诊断。

在数字病理学中，生物学家可能会检查用苏木精和伊红（H&E）染色的组织显微镜载玻片。苏木精将细胞核染成深紫蓝色，而伊红将细胞的细胞质和结缔组织染成粉红色。分析细胞核的大小、形状和分布对于癌症诊断至关重要。

如果我们只看彩色图像的红色通道的直方图，它可能是一团混乱。一种更物理的方法是将图像转换到一个能反映染色物理学基础的空间。利用比尔-朗伯定律（该定律描述了光如何被物质吸收），我们可以将原始的透射强度值转换为光密度（OD）。在这个空间中，每个像素的值与存在的染料浓度成正比。

现在，光密度图像的直方图讲述了一个清晰的故事。该图像是不同生物成分的混合物。有几乎没有染色的透明玻璃背景，有带适量伊红染料的粉红色细胞质，以及充满了苏木精染料的密集细胞核。这些群体中的每一个都在OD直方图中形成自己的峰。该直方图是（近似）高斯分布的多峰混合，其中每个峰对应一个真实的、物理上不同的像素群体：

靠近零OD的峰：透明背景。
在中等OD处的峰：伊红染色的细胞质。
在高OD处的峰：苏木精染色的细胞核。

通过分析这些峰的位置、大小和形状，计算机可以自动识别和测量细胞核的属性，为病理学家的诊断提供客观、定量的数据。直方图已经成为一种极其精密的科学仪器。

运动中的直方图：图像的动态视图

图像直方图不是一个固定、静态的属性。它是被成像场景和成像方式的动态反映。改变其中任何一个都会改变直方图。

让我们回到显微镜。假设我们有染色的组织载玻片，然后我们调亮灯的照明。图像的每个部分——背景和组织——都变得更亮。透射光强度乘以一个常数因子。这对直方图有可预见的影响：整个像素值分布向右移动，朝向更高的强度值。如果我们把光调得太亮，图像的明亮部分（背景）可能会达到传感器的饱和极限——它可以记录的最大值，对于8位相机是255。这会导致直方图的最后一个箱子出现“堆积”，即在255处出现一个明显的尖峰。我们已经丢失了明亮区域的所有细节；这被称为饱和或“削波”。

现在，如果我们保持照明不变，但在组织上使用更浓的染料呢？背景保持不变。然而，染色区域（细胞）现在吸收了更多的光，意味着透过的光更少。因此，对应于细胞的像素变得更暗。在直方图中，对应于背景的峰保持不变，但对应于组织的峰向左移动，朝向更低的强度值。这实际上增加了两个峰之间的分离，使直方图更具双峰性。直方图就像一个灵敏的仪表，立即反映出这些物理变化。

寻求普遍真理：定标与增强

这种动态性带来了一个挑战。如果直方图依赖于特定的照明、染色和所用的传感器，我们如何用它来以科学上有意义的方式比较图像？科学家如何比较七月和十二月拍摄的森林卫星图像，而此时太阳的角度完全不同？多伦多的医生如何可靠地解读多伦多病人的CT扫描？

这就是标准化的问题，有两种截然不同的方法来处理它。

一种是纯粹的统计路径：直方图均衡化。该技术旨在通过自动拉伸其强度值来“改善”图像的对比度。其机制优雅而简单，使用了我们之前讨论的累积分布函数（CDF）。转换本质上是 $v' = \text{floor}((L-1) \times \text{CDF}(v))$ ，其中 $v$ 是原始强度， $v'$ 是新强度。对于只有少数强度级别的图像，此转换将它们映射到更广泛地分布在从0到255的整个可用范围的新级别。其目标是生成一个新的、尽可能平坦的直方图。这通常对视觉外观产生奇效，使暗淡的细节突显出来。

然而，对于定量科学来说，这是一条危险的道路。直方图均衡化是一种非线性的、依赖于场景的变换。这就像拿一个句子，重新排列字母使它们看起来更均匀地分布——意义被完全摧毁了。它扭曲了像素之间的定量关系，使得比较两个不同的图像成为不可能。从均衡化后的卫星图像计算出的NDVI（归一化植被指数）在物理上是无意义的。直方图均衡化是为了美学，而不是物理学。

另一条路径是物理的：辐射定标。这种方法旨在将来自相机的任意像素值转换为标准化的、具有物理意义的单位。一个很好的例子来自医学计算机断层扫描（CT）扫描仪。原始的CT图像是X射线衰减系数 $\mu$ 的图，它可能因扫描仪而异。为了解决这个问题，医学界创造了亨斯菲尔德单位（HU）标度。转换是一个简单的线性转换：

HU = 1000 \times \frac{\mu - \mu_{\text{water}}}{\mu_{\text{water}} - \mu_{\text{air}}}

这个绝妙的公式做了两件事。它设定了一个通用的锚点：根据定义，水的衰减被映射到精确的0 HU。它还为标度设定了一个参考：任何其他物质的值都是相对于水和空气的衰减特性来测量的。一个完美的真空（以及实际上，空气）最终在-1000 HU。这种仿射变换创建了一个标准化的标度。在波士顿测量为+60 HU的肿瘤，在柏林无论CT扫描仪的具体品牌和型号如何，也将测量为+60 HU。这使得全球范围内的医疗诊断标准成为可能。这是通过将我们的测量建立在物质的基本属性之上来寻找一种通用语言的胜利。

终极问题：到底有多少信息？

我们已经确定，直方图中可用箱子的数量是由位深度 $b$ 设定的。人们很容易认为，具有更高位深度的图像——比如一个有65,536个级别的16位图像，相对于一个有256个级别的8位图像——必然包含更多信息。但这总是正确的吗？

分布中“信息内容”或“不可预测性”的真正度量由香农熵给出，对于直方图定义为：

H = - \sum_{k} p(k) \log_{2} p(k)

熵的单位是比特/像素。图像可能的最大熵确实是其位深度 $b$ 。但只有当直方图完全平坦时——也就是说，如果每个强度级别都以相等的概率出现时——才能达到这个最大值。大多数图像并非如此。一个图像可能以12位格式存储，但如果它只包含16个不同的灰度色阶，其实际熵最多只能是 $\log_2(16) = 4$ 比特，远低于12比特的理论最大值。位深度告诉你什么是可能的，而熵告诉你什么是实际的。

但还有一个更深刻的微妙之处。想象一下，用一个非常高位深度的相机对准一堵完全均匀的灰色墙壁。在完美的世界里，图像将只有一种颜色，直方图将是一个熵为零的单峰。但在现实世界中，相机的传感器有噪声。一个高分辨率的16位ADC可能会精细地量化这种随机的电子噪声，产生一个宽而复杂的、熵非常高的直方图。图像文件将富含“信息”，但这将是关于相机随机噪声的信息，而不是关于墙壁的信息。

这里的关键概念是，图像中的总信息（其熵）可以分为两部分：与场景相关的信息（“信号”）和不相关的信息（“噪声”）。我们真正关心的是场景和图像之间的互信息。因此，高位深度和高熵的直方图本身并不能保证一幅高质量、信息量大的图像。它们可能只是意味着你有一张关于你自己相机缺陷的非常详细的图片。

从简单的灰色瓷砖计数开始，图像直方图带我们经历了一段穿越数字测量、医学物理学和信息基本极限的旅程。它远不止是一个简单的图表；它是一个深刻的工具，当被有理解地使用时，能将像素的数字世界与光和物质的物理世界连接起来。

应用与跨学科联系

在理解了图像直方图的原理之后，您可能会倾向于将其视为一个简单的记账工具，一个仅仅记录像素强度的簿记员。但这就像看着字母表只看到一堆形状，而错过了它们可以构建的诗歌和散文。直方图不仅仅是一个总结；它是一个透镜、一个翻译器，以及一个功能和通用性都令人惊讶的科学仪器。它的应用范围从平凡到深刻，将图像的数字世界与它们所代表的物理世界联系起来，甚至延伸到艺术和计算的抽象领域。让我们踏上一段旅程，穿越其中一些联系，以欣赏直方图的真正特性。

对比度的通用语言

直方图最直接、也许最著名的应用是增强我们看图的方式。想象一张在朦胧天气拍摄的照片。大多数像素都挤在一个狭窄的暗淡灰色带中。这样一幅图像的直方图会显示大量像素挤在可用强度范围的一小部分，而大片更亮和更暗的色调则完全未被占用。视觉信息是存在的，但它被压缩了，难以辨别。

这就是直方图均衡化的魔力所在。通过基于强度的累积分布进行巧妙的重新映射，我们可以将那群挤在一起的像素扩展到整个光谱，从最深的黑色到最亮的白色。每个像素都保持其排序——原本较暗的仍然较暗——但它们之间的间隙被拉伸了。结果是对比度的急剧增加。突然之间，建筑物上微妙的纹理或远处山丘的模糊轮廓跃然纸上。这项技术几乎是每台数码相机和照片编辑软件中的主力。

有趣的是，这个优雅的过程与计算机科学中的一个基本概念——排序算法——有着深刻的联系。构建直方图（计数频率）然后是其累积版本（计算累计总和）的过程，在算法上与一种称为计数排序的方法的核心步骤完全相同。这是算法世界中趋同演化的一个美丽例子，图像处理和数据排序的需求独立地得出了同样优美高效的解决方案。

解构场景：用于分割的直方图

除了让图片看起来更好，直方图还能告诉我们图片里有什么。考虑一幅医学图像，比如大脑的MRI或腹部的CT扫描。不同的组织——灰质、白质、骨骼、液体——通常具有特征性的不同亮度水平。这样一幅图像的直方图不会是单一、平滑的山丘；相反，它通常会呈现为多峰多谷的景观。每个峰代表一个属于特定组织类型的像素“群体”。

这种结构是自动化图像分析的金矿。如果我们能识别出分隔峰的谷，我们就可以在这些谷中设置阈值，将图像分割成有意义的部分。例如，所有强度低于第一个阈值的像素可能被分类为背景，介于第一和第二个阈值之间的像素被分类为一种组织类型，高于第二个阈值的像素被分类为另一种。这种技术被称为多级阈值分割，是医学图像分割和放射组学的基石，它允许计算机自动勾勒出肿瘤或测量不同解剖结构的体积。从这个意义上说，直方图就像一次人口普查，揭示了构成图像的不同群落，并提供了分隔它们的自然边界。

超越基础：上下文与一致性

我们最初描述的简单的“全局”直方图均衡化有其局限性。它对图像的所有部分一视同仁。但对于一张既有深邃阴影又有明亮阳光区域的图像怎么办？这在山区地形的卫星图像中是一个常见的挑战。全局增强可能会使明亮区域过曝，或将黑暗区域压成纯黑。

解决方案是局部思考。自适应直方图均衡化（AHE）不是一次性对整个图像应用均衡化过程，而是对小的、重叠的图块应用。这使得增强能够适应局部上下文，在不使高光部分过饱和的情况下，突显阴影中的细节。然而，AHE有一个臭名昭著的副作用：在非常均匀的区域（如晴朗的天空或平静的水面），它会极大地放大微妙的传感器噪声，产生丑陋的颗粒状纹理。

这催生了一项更精细的发明：对比度受限自适应直方图均衡化（CLAHE）。在对每个局部图块的直方图进行均衡化之前，CLAHE会“裁剪”任何超过特定限制的峰值，并将其多余的概率质量均匀地重新分配给所有箱子。这个简单而巧妙的技巧驯服了算法，防止其过度放大噪声，同时仍然提供出色的局部对比度增强。它现在是医学成像到遥感等领域的标准工具。

当我们想要比较在不同时间或用不同设备拍摄的图像时，会出现另一个深刻的限制。例如，在一项MRI研究中，扫描仪设置如接收器增益可能在不同会话间发生变化，这意味着相同的组织在不同日子可能具有完全不同的原始强度值。对每次扫描独立应用直方图均衡化会使它们在视觉上清晰，但会破坏任何定量比较的可能性，例如，病灶亮度随时间的变化，因为每幅图像都经过了不同的、依赖于数据的变换。

应对这一挑战的答案不是强迫每幅图像的直方图都变得均匀，而是强迫它们变得相同。这就是直方图匹配（或直方图规定化）的思想。我们从一个时间序列中选择一幅高质量的图像作为“参考”，然后变换所有其他图像，使它们的直方图与参考图像的直方图相匹配。这将所有图像置于一个共同的辐射尺度上，使它们可以直接比较。这就像将几本用不同方言写的书翻译成一种单一的标准语言。对于研究气候变化的科学家（利用卫星数据）或在医学扫描中跟踪疾病进展的医生来说，这项技术对于创建一致、可解释的时间序列数据是不可或缺的。

从像素到物理：一种科学工具

到目前为止，我们已经使用直方图来操纵和标准化图像。但它最深刻的角色可能是作为图像与其形成物理定律之间的桥梁。直方图成为定量测量和科学验证的工具。

想象一位材料科学家在电子显微镜下检查一种金属合金。图像显示了材料的两种不同相，表现为不同亮度的区域。科学家想知道每相的面积分数。电子背散射过程的理论模型可能会预测每相的强度遵循特定的概率分布。那么，整个图像的直方图就是这两个分布的混合。通过将这个混合模型拟合到观察到的直方图，可以求解混合比例，这直接对应于所需相的面积分数。直方图不再仅仅是对图像的描述；它是物理计算的数据来源。

这个思想延伸到最宏大的尺度。星际湍流理论预测，星云中气体柱密度，从而其图像的亮度，应该遵循一种特定的数学形式，如对数正态分布。天文学家可以拍摄一张星云的图像，计算其强度直方图，然后使用卡方拟合优度检验等统计方法，来看观察到的直方图与理论预测的分布匹配得有多好。在这里，直方图成为一个法庭，物理理论在这里接受观测证据的审判。它是验证——或反驳——我们宇宙模型的基本工具。

人工智能时代的直方图

在一个由深度学习和人工智能主导的时代，人们可能会认为像直方图这样的简单工具会变得过时。事实远非如此。直方图在现代人工智能的核心找到了新的、关键的角色。

考虑神经风格迁移，这是一种将一幅图像的艺术风格（如梵高的画）应用到另一幅图像的内容（如房子的照片）上的算法。如何量化“风格”？一种巧妙的方法是使用直方图。我们不看像素强度，而是可以先计算每个像素的梯度，它告诉我们局部边缘的方向——这是笔触的代表。然后我们可以构建一个这些方向的幅度加权直方图。这个“方向直方图”捕捉了风格图像中笔触的主要方向性。然后，人工智能的目标就变成了修改内容图像，直到其方向直方图与风格图像的直方图相匹配。直方图提供了一种简单、优雅的方式来编码一个抽象的艺术属性。

也许最关键的现代应用在于确保人工智能系统的安全性和可靠性，这个领域被称为MLOps（机器学习运维）。想象一个经过训练用于在CT扫描中检测疾病的深度学习模型。它在来自一组医院的数据上进行训练，然后部署到一家使用不同扫描仪硬件的新医院。这种“设备偏移”是数据漂移的一种形式，即输入数据的分布发生了变化。这可能导致模型的性能悄无声息地、危险地下降。我们如何检测到这一点？通过监控直方图！我们将来自新医院的图像强度（及其他元数据）的直方图与来自训练数据的基线直方图进行比较。通过统计指标测量的显著差异会发出警报，表明模型正在其舒适区之外运行，可能不再值得信赖。类似地，直方图的形状可用于自动化质量控制，标记出包含伪影的图像，例如那些由金属植入物引起的伪影，这些伪影会在分布中产生一个特有的长而高强度的尾部。在这个角色中，不起眼的直方图扮演着至关重要的守护者，一个数据地震仪，确保我们的人工智能系统在现实世界中保持稳健和安全。

从简单的像素计数到理解艺术、验证物理学和保障人工智能的关键，图像直方图证明了简单思想的力量。它提醒我们，有时，最深刻的见解并非来自最复杂的工具，而是来自以一种新的、富有启发性的方式看待数据。