图像分类

玻尔百科

定义

图像分类是计算机视觉和数据科学领域的一项基础任务，其核心原理是利用贝叶斯定理等概率论方法为视觉数据分配类别标签。现代分类器通过根据证据更新置信度来评估图像属于特定类别的可能性，而非提供绝对确定的结果。作为一种广泛应用于生态学和基因组学等科学发现的工具，图像分类的性能取决于数据增强等训练策略，并需通过灵敏度和特异度等指标进行综合评估。

关键要点

现代图像分类器基于概率运行，使用贝叶斯定理等原理根据证据更新信念，而不是提供绝对的确定性。
评估一个分类器需要使用灵敏度和特异性等更精细的指标，因为单一的准确率分数可能会产生误导，尤其是在处理不平衡数据集时。
训练策略，例如损失函数的选择和数据增强技术，对模型在嘈杂的真实世界数据上的鲁棒性和性能起着决定性作用。
图像分类作为一种通用的科学发现工具，正在加速从生态学、基因组学到结构生物学等领域的研究，并揭示新的见解。

引言

图像分类是现代人工智能最具变革性的能力之一，它赋予了机器视觉感知能力。但机器究竟是如何学会“看”的呢？在识别照片中的猫这种表面的魔力背后，是一个由逻辑、概率和分层学习构成的复杂世界。本文旨在揭开“黑箱”的神秘面纱，揭示这些强大系统运作和决策的核心原理。我们将开启一段分为两部分的旅程。首先，在“原理与机制”中，我们将剖析图像分类的引擎，探索其概率基础、深度学习的机制以及训练和评估的艺术。随后，在“应用与跨学科联系”中，我们将见证这项技术的实际应用，发现其作为一种普适的科学发现工具，在生物学、生态学乃至物理学等不同领域产生的深远影响。这次探索将表明，教会机器看东西不仅是一项工程壮举，更是一种理解世界的新方式。

原理与机制

要理解图像分类，就需要窥探一台会思考的机器的核心。这并非魔术或某个难以理解的黑箱，而是关乎逻辑、概率以及一个与我们自身惊人相似的学习过程。那么，让我们层层剥茧，看看机器究竟是如何学会“看”的。

一场概率游戏

从本质上讲，现代图像分类器不是一台给出明确答案的机器，而是一台计算和权衡概率的机器。它从不说：“这是一只猫。”而是说：“根据我所看到的像素排列，‘猫’这个标签是正确的概率为98%。”这是一个深刻的区别。机器处理的是置信度，而非绝对的确定性。

想象一下，你是一名公园管理员，正在监控一个广阔国家公园里的远程摄像头。摄像头拍到了一张大型猫科动物的模糊图像。你知道这个公园里栖息着两个物种：常见的 Rock Cat 和极为罕见的 Shadow Lynx，后者仅占猫科动物总数的4%。你新购置的实验性人工智能系统分析了这张图片并报告：“Shadow Lynx。”你该相信什么呢？

你的直觉可能是相信人工智能。但科学家会用概率思维。这个人工智能已经过测试：它正确识别出真正的 Shadow Lynx 的概率为85%（灵敏度），但它也会错误地将一只 Rock Cat 称为“Shadow Lynx”，这种情况占7%（假阳性率）。关键的洞见来自于将这些事实与你在看到图像之前所知道的情况相结合：Shadow Lynx 是稀有物种。这种初始信念被称为先验概率。

这就是贝叶斯定理的精髓。它是一个在面对新证据时更新信念的正式规则。该定理告诉我们，要权衡假如动物是 Shadow Lynx 时看到这个证据（AI的报告）的可能性，与假如它是常见的 Rock Cat 时看到相同证据的可能性。因为 Rock Cat 的数量要多得多，即使是很小的7%错误率，仍然会产生大量的错误警报。当你进行计算时，你可能会发现后验概率——即在给定AI报告的情况下，这只动物实际上是 Shadow Lynx 的机会——出人意料地低，也许只有大约34%。人工智能的报告是宝贵的证据，但它不能压倒 Shadow Lynx 稀有这一强有力的事实。

同样的逻辑也适用于更简单的多阶段分类。如果一个AI首先判断一个动物是“猫”还是“狗”，然后再判断它是否是“长毛”，那么一旦我们得到最终报告“长毛”，我们对最初“猫”这个分类的信心就会改变。如果在训练数据中，长毛猫比长毛狗常见得多，那么“长毛”的报告会增强我们对机器最初猜测是“猫”的信念。所有事物都通过一个条件概率网络相互关联。

评判评判者：我们如何衡量“好”？

如果我们的分类器是一个概率性评判者，我们如何评价它的表现？像“90%准确率”这样的单一数字可能具有危险的误导性。再以 Shadow Lynx 问题为例：一个总是猜测“Rock Cat”的懒惰分类器将有96%的准确率，但对于其寻找稀有 Shadow Lynx 的既定目标来说，它将完全无用！

为了得到真实的情况，我们需要更精细的指标。这在像医疗诊断这样的高风险领域尤为关键。想象一个旨在帮助从皮肤图像诊断神经纤维瘤病I型（Neurofibromatosis Type 1, NF1）这种遗传病的神经网络。我们必须问两个独立且关键的问题：

灵敏度：在所有真正患有NF1的患者中，我们的模型能正确识别出多少比例？一个高灵敏度的模型能确保我们不会漏掉很多真实病例。这就是真阳性率。
特异性：在所有健康个体中，我们的模型能正确地排除多少比例？一个高特异性的模型能确保我们不会因发出错误警报而引起不必要的恐慌和后续检查。这就是真阴性率。

这两个数字之间存在一种天然的紧张关系。一个为追求极高灵敏度而调整的模型可能会变得过于谨慎，标记出健康患者，从而降低其特异性。反之，一个高度特异性的模型可能会变得过于保守，漏掉一些细微的病例，从而降低其灵敏度。一个好的分类器能在两者之间找到一个有用的平衡点。对于一个平衡的测试集（一半患者，一半健康），我们可以结合这两个指标来计算整体准确率。如果一个模型的灵敏度为 $0.90$ ，特异性为 $0.85$ ，那么在一个包含1000人的测试集中，它能正确识别出 $0.90 \times 500 = 450$ 名患病者和 $0.85 \times 500 = 425$ 名健康者，总准确率为 $\frac{450+425}{1000} = 0.875$ 。但是，同时报告灵敏度、特异性和准确率这三个数字，比单独报告准确率能更丰富地描绘出模型的行为。

学习机器：从像素到概念

那么，机器最初是如何学习这些概率的呢？这就是现代深度学习的魔力和美妙之处。一个深度卷积网络 (DCN) 学习看东西的方式与灵长类动物的视觉皮层惊人地相似。它构建了对世界的一种层次化的理解。

网络的第一层学习识别非常简单的模式：亮点、暗点、不同角度的边缘、简单的纹理。这些是视觉的基本构建块。下一层将这些边缘和纹理图作为输入，并学习将它们组合成稍微复杂的概念：角、曲线、圆。随后的层将这些组合成物体部件：一只眼睛、一个鼻子、一只毛茸茸的耳朵、一个轮子。最后，最深的层将这些概念性部件作为输入，并学习识别整个物体：一只猫、一条狗、一辆车。

这种层次化结构使网络能够实现一些非凡的事情：对视觉世界形成一种丰富、共享的表示。它学到的特征不仅仅对一个任务有用。使网络能够分类一个物体的相同底层表示 $z$ ，也可以用于其他任务。

对于分类（“它是什么？”），网络可以总结整个特征图，实现不变性。猫在图像中的位置并不重要；最终的标签是“猫”。这通常通过像全局平均池化这样的操作来完成，该操作将空间特征图提炼成一个单一的向量。
对于目标检测（“它在哪里？”）或分割（“它的确切轮廓是什么？”），网络可以使用来自中间层的具有空间组织性的特征图。这些图谱保留了一种称为等变性的属性：如果输入图像中的猫向左移动，那么特征图中对应于“猫”的特征也会向左移动。这使得网络的不同“头”可以从同一个共享主干网络中读出不同类型的信息，从而创建一个统一而高效的视觉模型。

训练的艺术：驯服野兽

教授这个网络的过程——称为训练——是一支精巧的舞蹈。我们向模型展示一张图片，让它做出预测，然后告诉它有多“错”。这种“错误程度”由一个损失函数来量化。训练的全部目标就是调整网络的内部参数，使这个损失函数的值尽可能小。

但这里有个问题：损失函数的选择对模型的“个性”有着深远的影响。一个名为AdaBoost的经典算法使用指数损失函数，可以写成 $\exp(-m)$ ，其中 $m$ 是分类“间隔”（衡量对正确预测的置信度）。指数函数的主要特点是，对于负间隔——也就是模型大错特错的样本——它的值增长得非常快。

现在，想象一下你的训练数据并不完美。假设一小部分病理学图像由于人为错误而被错误标记——一个良性样本被意外标记为“恶性”。对于模型来说，这是一个非常令人困惑的样本。在模型看来它像是良性的，所以它自信地预测“良性”，但标签却显示“恶性”。这导致了一个很大的负间隔。指数损失函数对这一个样本的值会爆炸性增长，实际上是在对模型大喊大叫。模型为了最小化总损失，会将其不成比例的容量用于试图“正确”分类这一个被错误标记的异常值。它会扭曲其决策边界来拟合噪声，这可能损害其在所有正确标记图像上的性能。

这揭示了一个深刻的原理：我们选择的数学工具塑造了模型的行为。指数损失使模型变得脆弱且对异常值敏感。相比之下，其他损失函数，如逻辑斯谛损失，对错误的惩罚不那么严厉。它们更宽容，就像一位更关注全班整体理解，而不是纠结于一个学生错误的老师。选择正确的损失函数，或者知道在模型开始记忆噪声之前停止训练（早停），是机器学习艺术的一部分。

超越教科书：现实世界中的分类

在原始、教科书质量的图像上训练的模型，在现实世界中往往会惨败，因为现实世界的图像可能是模糊的、光线不足的、从奇怪角度拍摄的，或是被数字损坏的。这就引出了鲁棒性这个至关重要的概念。

让我们看看三种模型在图像损坏程度不断增加的情况下的性能，从严重程度 $s=0$ （清晰）到 $s=5$ （严重损坏）。

一个基线模型，没有经过任何特殊技巧的训练，可能在清晰图像上非常准确（在 $s=0$ 时为 $92\%$ ），但随着损坏程度的增加，其性能会崩溃（在 $s=5$ 时降至 $30\%$ ）。它很聪明，但很脆弱。
一个用AugMix（一种复杂的数据增强技术）训练的模型，在清晰图像上可能准确率稍低（在 $s=0$ 时为 $90\%$ ）。然而，它的适应力要强得多。其性能下降得更为平缓，即使在最高损坏级别，仍能保持在 $58\%$ 。

这是怎么回事呢？数据增强就像训练医学生一样，不仅使用完美的教科书图表，还使用混乱的、真实世界的病人扫描图。AugMix创建了一种训练方案，让模型不断接触到各种各样扭曲和组合的图像。这迫使模型学习一个物体的真实、本质特征，而不是那些可能随着一点噪声就消失的表面纹理线索。

这是一个应用于分布偏移的经典偏差-方差权衡。AugMix模型接受了在原始清晰数据上偏差的小幅增加（准确率从92%小降到90%），以换取当数据分布发生变化时（即遇到损坏图像时）方差的大幅减少。它做了一个交易：用一点点教科书式的完美换取大量的现实世界适应能力。结果是一个在所有条件下平均性能远胜一筹的模型。

这段旅程的终点是，我们将图像分类不仅仅看作一种模式识别工具，而是科学发现的引擎。在冷冻电子显微镜（Cryo-EM）领域，科学家们拍摄成千上万张冰中单个蛋白质分子的极其嘈杂、低分辨率的快照。挑战是从这些二维图像中重建蛋白质的三维模型。一个关键步骤是二维分类，其中算法将这些嘈杂的颗粒图像按代表不同观察角度的组进行排序。

但有时，奇妙的事情发生了。算法不仅仅找到了相同形状的不同视图。它找到了多个数量充足的图像类别，这些类别对应着根本不同的形状——例如，同一蛋白质复合物的一种紧凑形式和一种伸长形式。这不是一个错误。这是一个发现！这是直接的证据，表明该蛋白质不是一个静态的物体，而是一个动态的机器，它自然地以多种稳定的形状或构象存在。分类算法在整理数据的过程中，揭示了关于生命机器的一个基本真理。在这里，概率建模、处理嘈杂数据和发现底层结构的原则汇聚在一起，将一个简单的标记任务转变为现代生物学的强大工具。

应用与跨学科联系

现在我们已经检修了图像分类的引擎，了解了它的原理和机制，让我们开着它上路吧。这条路通向何方？事实证明，几乎是任何地方。教会机器识别数字网格中的模式，并非某种只适用于给猫狗照片分类的狭隘、深奥的技巧。它是一种理解世界的基本工具，是一种我们可以应用于几乎任何人类探究领域的新型透镜。它的应用范围从无限小到行星尺度，从我们自身基因组的抽象模式到思想本身的具体工程。我们将看到，图像分类不仅仅是计算机科学的一个子领域；它是解决科学瓶颈的通用溶剂，是深刻灵感的源泉，也是连接最不相关知识领域的桥梁。

科学的新视角

图像分类最直接、最强大的用途之一是作为科学的加速器。在许多领域，发现的速度不再受我们收集数据的能力限制，而是受我们解释数据的能力限制。我们正淹没在信息的洪流中，而分类为我们提供了生命线。

想象一位生态学家正在追踪一个被重新引入广阔荒野的稀有捕食者。荒野中布满了相机陷阱，拍摄了数十万张照片。其中大部分是误报——风中摇曳的树叶、路过的鹿、好奇的松鼠。这位科学家宝贵的时间可能会被消耗在从这个数字草堆中筛选出那几根珍贵的针——目标捕食者的图像——这项令人麻木的任务上。这时，分类器就派上了用场。通过训练机器区分“捕食者”和“非捕食者”，我们将繁重的工作自动化了。这不仅仅是为了方便。正如分析所示，一个高精度的分类器能显著减少科学家为获得统计上可靠的种群估计所需收集的数据量。一个灵敏度为 $0.96$ 、特异性为 $0.995$ 的人工智能，与一个不太准确的手动过程相比，可以将所需的野外工作量减少近一半。科学家得以解放出来，去思考更大的问题，他们的努力被一个不知疲倦的数字助手放大了。

同样的故事在结构生物学领域上演，但风险更高。要理解生命，我们必须理解其机器——蛋白质——的形状。冷冻电子显微镜（Cryo-EM）是一项革命性技术，它能快速冷冻蛋白质并用电子显微镜为其拍照。问题在于，得到的图像极其嘈杂，而且样本是一堆混乱的蛋白质分子，以所有可能的朝向被冻结，还混杂着冰晶和其他污染物等“垃圾”。我们如何从这片混乱中重建一个单一、美丽的3D结构？第一个关键步骤是二维分类。算法将成千上万张微小、嘈杂的颗粒图像根据其外观分成不同的类别。那些“好的”类别揭示了从不同角度看到的蛋白质的清晰、经过平均的视图。而“垃圾”类别则显示为没有特征的模糊斑点或奇怪的伪影。通过简单地丢弃这些垃圾类别，科学家们净化了他们的数据集。在这里，分类不仅仅是一个加速器；它是一种使能技术。没有这种从压倒性噪声中分离信号的能力，那些登上科学期刊封面的、令人惊叹的近原子分辨率结构，将仍然迷失在数字迷雾中。

从细胞的微观世界，我们可以放大到行星尺度。轨道上的卫星不断扫描地球表面，提供了对监测气候变化、管理农业和应对灾害至关重要的上帝视角。但在这些图像中我们究竟看到了什么？一块白色可能是一片云，也可能是山上的雪地。一个黑暗区域可能是一个深湖，也可能是云的影子。图像分类器就是将这些原始像素值翻译成有意义标签的工具：“森林”、“城市”、“水体”、“农田”。这些系统中最复杂的堪称真正的科学侦探。它们不仅仅看我们能看到的颜色（红、绿、蓝波段），而是分析整个光谱，从健康植被明亮发光的近红外，到短波和热红外。短波红外中一个又热又亮的像素很可能是沙子，而不是雪。通过结合这些不同的信息通道，有时甚至使用几何推理来投射云影应该在的位置，这些算法能够消除歧义，并创建我们变化中世界的准确地图。

表示与上下文的艺术

然而，图像分类真正的天才之处不仅在于将其应用于显而易见的图像，更在于表示的创造性行为。如果一个问题可以被构建得看起来像一个图像分类问题，那么一个充满强大工具的世界就突然变得触手可及。

这一点在基因组学中得到了最精彩的展示。DNA序列是一维的字母串：A、C、G、T。它不是一张图像。或者说，它是吗？想象一下，我们取一个长序列，并计算给定长度 $k$ 的所有可能短子序列（即“ $k$ -mers”）的频率。对于 $k=3$ ，我们计算AAA、AAC、AAG等所有 $4^3 = 64$ 种可能性的出现次数。这就给了我们一个64元素的特征向量。现在是想象力的飞跃：我们可以将这个向量重塑为一个 $8 \times 8$ 的网格。突然之间，我们的DNA序列变成了一张小小的、64像素的“图像”。我们现在可以将图像分类机器的全部威力，比如卷积神经网络（CNN），应用到这个表示上。这些为寻找图片中边缘和纹理模式而设计的算法，现在可以寻找可能预示着重要生物信号（如基因的起始位点）的 $k$ -mer共现模式。这是一个令人叹为观止的智力套利例子，将一个领域的问题翻译成另一个领域的语言，从而以一种全新而强大的方式解决它。

这种为描述一个物体寻找正确“语言”的想法，暗示了自然和数学模式中更深层次的统一性。计算机视觉中一个引人入胜的问题是，无论形状的位置或方向如何，都能识别出它。我们如何捕捉一个“星形”的本质，无论它是在图像的中间还是角落，是朝上还是侧向？一个优美的解决方案来自于与经典物理学的类比。在静电学中，我们可以通过一个复杂电荷分布的的多极矩来描述其远处的电场：总电荷（单极矩）、偶极矩、四极矩等等。这些矩捕捉了电荷分布的形状。事实证明，我们可以对图像中的形状做完全相同的事情，计算它的“图像矩”。零阶矩是它的总亮度，一阶矩给出它的质心（或“形心”），而二阶矩则描述它的伸长率和方向，像一个椭圆。

为了实现不变性，我们只需跟随物理学家的引导。为了使我们的描述与位置无关，我们相对于形心来计算矩，就像物理学家可能会将原点放在电荷中心一样。为了使其与旋转无关，我们构造矩的数学不变量组合，比如二阶矩张量的迹（ $\mu_{20} + \mu_{02}$ ）。这与确保一个物理张量的特征值不会因为你旋转了坐标系而改变是同一个原理。这是一个惊人的提醒：支配宇宙的数学结构，往往正是我们可以用来理解宇宙的那些结构。

当然，世界不仅仅是孤立物体的集合。一个物体的意义常常由其周围环境来定义。一辆汽车更可能出现在路上，而不是游泳池里。早期的分类器孤立地看待每个物体，但更高层次的复杂性则涉及到理解上下文。在面向对象的图像分析（OBIA）中，一幅图像首先被分割成有意义的“对象”——一块田地、一栋建筑、一片树林。然后，在对一个对象进行分类时，算法不仅考虑其内在特征（颜色、形状、纹理），还考虑其关系特征。它的邻居是什么？它是否被包含在一个被分类为“城市”的更大区域内？通过构建关系图并对这些空间依赖关系进行建模，分类器可以做出更智能、更鲁棒的决策，向人类感知场景的整体方式又迈进了一步。

引擎室：构建和运行智能系统

最后，让我们拉开帷幕，看看引擎室。这些奇妙的分类器是如何构建的，实际运行它们又需要什么？这个过程本身与应用一样，充满了智慧的挑战。

一个分类器的优劣取决于它所训练的数据。对于许多问题，这需要一个由人类专家手工标记的大规模图像数据集——这是一个昂贵且耗时的瓶颈。如果你有一百万张图片，但预算只够标记1000张，你会选择哪些？一种天真的方法是随机挑选。一种远为智能的策略是主动学习。我们可以设计一个“知道自己不知道什么”的系统。经过一轮初步训练后，让分类器对剩余的未标记数据进行预测。然后，我们选择它最不确定的图像——那些其预测概率最接近抛硬币结果的图像。通过付费请专家来标记这些最令人困惑的样本，我们用花费的每一分钱获得了尽可能多的信息。这是信息论的一个绝妙应用，利用熵以最有效的方式引导学习过程，将数据获取的经济学问题本身变成了一个科学问题。

一旦训练完成，一个算法仍然只是一个抽象的配方。要使其焕发生机，它必须在物理基底——计算机芯片——上运行。在这里，算法的优雅数学与物理的混乱现实相遇。这在神经形态计算这个激动人心的前沿领域尤其如此，该领域旨在构建受大脑结构启发的芯片。在这些设备上，一个理论上完美的用于图像识别的“脉冲神经网络”必须适应严苛的限制。在模拟中是浮点数的突触权重，可能需要被量化为几个低精度的整数级别。网络的巨大连接性必须被压缩到数字或模拟神经元有限的扇入中。如果芯片是模拟的，比如BrainScaleS系统，它的运行速度比实时快数千倍，这意味着模拟的所有时间常数都必须相应地缩放。此外，微小的制造缺陷意味着没有两个模拟神经元是完全相同的，这需要一个艰苦的校准过程。将算法映射到硬件上是一项深刻的工程挑战，它将抽象的软件与具体的硅片连接起来，迫使我们找到聪明的方法来在尊重无情的物理定律的同时，保留一个想法的功能。这是终极的应用：将思想实验变为现实。

人与机器智能之间的这种协作也许是最重要的主题。目标通常不是取代人类专家——医生、科学家——而是增强他们。在医学领域，分类器可以分析内窥镜图像并标记可疑区域，但最终的诊断和治疗计划是由掌握了这个强大新工具的人类专家做出的综合决定。人机系统结合在一起，可以达到单独一方无法企及的灵敏度和特异性。

从提纯生命的基石到监测我们星球的健康，从破译基因组的语言到设计思想的硬件，图像分类已经超越了其起源。它已成为一种新的观察方式，一种在我们周围的数据织锦中寻找有意义模式的方法。而这段旅程才刚刚开始。