平移等变性

玻尔百科

定义

平移等变性指输入信号的平移会导致输出发生相同比例偏移的特性，是计算机视觉和信号处理领域的一个核心原理。在深度学习中，卷积神经网络通过卷积层的权重共享机制实现这一特性，使其能够识别图像中任意位置的模式。该原理的应用范围已从图像处理扩展到音频处理、机器人学、基因组学以及物理学中的规范等变网络。

核心要点

平移等变性意味着对输入进行平移会导致输出发生等量的平移，这是使 CNN 能够识别模式而无论其位置如何的核心原理。
CNN 通过卷积层中的权重共享实现等变性，但这一特性可能被步幅和零填充等操作破坏，通常是由于混叠造成的。
该原理的应用超出了图像领域，延伸至音频处理、机器人学、基因组学，甚至构成了基础物理学中规范等变网络的基础。
CNN 通常使用等变层来构建特征图，然后应用一个全局池化层来实现用于分类任务的最终平移不变性输出。

引言

一个物体——一只猫、一辆车或一段旋律——的身份不应仅仅因为其位置的改变而改变。这是一个基本的常识，但将其教给机器是人工智能领域的一项艰巨挑战。解决方案在于一个被称为平移等变性的强大对称性原理，这是使卷积神经网络 (CNN) 在理解我们周围世界方面取得惊人成功的秘诀。通过将这种关于现实的假设直接构建到其架构中，我们创造出更高效、更稳健、更具泛化能力的模型。

本文将带领读者踏上理解这一关键概念的旅程。我们将首先深入探讨平移等变性的核心原理与机制。在这里，您将学到等变性与不变性之间的关键区别，探索卷积和权重共享等操作如何构建这种对称性，并发现步幅和填充等常规做法可能以何种微妙的方式破坏它。随后，本文将探讨其应用与跨学科联系，揭示这个单一思想如何远远超越计算机视觉，延伸到音频处理、机器人学、计算化学、基因组学，乃至粒子物理学的基础理论等多种领域，彰显其作为一种真正普适原理的地位。

原理与机制

想象一下，你正在构建一台用于识别照片中猫的机器。一个直觉闪过，告诉你一个基本事实：无论猫是在左上角还是右下角，它仍然是一只猫。它的身份与其位置无关。我们如何将这个深刻的常识教给机器？答案在于一个被称为平移等变性的美妙对称性原理。正是这个秘诀赋予了卷积神经网络 (CNN) 非凡的能力。

但正如任何深刻的原理一样，其真正的美妙之处不仅在于其有效之时，更在于理解其微妙而引人入胜的失效模式。让我们踏上征途，从其核心组成部分到其可能被破坏的惊人方式，全面理解这一原理。

二元性：等变性 vs. 不变性

首先，我们必须区分两个相关但至关重要的不同概念：等变性与不变性。

平移不变性是分类任务的最终目标。它意味着最终答案——“是，有只猫”或“否，没有猫”——不会因为猫在图像中的位置而改变。如果我们平移输入图像，最终的输出保持不变。形式上，对于一个函数 $f$ 和一个将输入平移向量 $\Delta$ 的平移算子 $T_{\Delta}$ ，不变性意味着：

f(T_{\Delta} x) = f(x)

最终的判断不受平移影响。

另一方面，平移等变性是过程，而非终点。它是中间处理步骤的一个属性。它指出，如果你平移输入，该输入的内部表示会平移完全相同的量，但表示本身不会改变。可以这样想：当猫在屏幕上走动时，你大脑中的“猫探测器”神经元并不会改变它们寻找的目标；它们的活动位置只是跟随猫移动。对于一个生成特征图（而不是单一标签）的函数 $f$ ，等变性意味着：

f(T_{\Delta} x) = T_{\Delta} f(x)

先平移输入再应用函数，与先应用函数再平移输出图是相同的。这是一个强大的约束。一个已经学会在某个位置识别耳朵的网络，现在可以在任何位置识别它，而无需重新训练。这对于像语义分割这样的任务至关重要，其目标是生成对象的像素级掩码。如果对象移动，我们希望掩码也随之移动——这是一个等变输出的完美例子。

因此，CNN 的宏大策略是使用一堆等变层来构建复杂的特征表示，然后在最后，使用一个操作将这个等变图转换为一个不变的最终决策。

等变性的构建模块

我们如何构建一个具有这种行为的机器？我们需要尊重这种对称性的构建模块。

卷积与权重共享的魔力

CNN 的核心是卷积操作。你可以把它想象成一个微小的放大镜，或者一个“滤波器”，上面刻有特定的图案——比如，一个寻找垂直边缘的图案。你将这同一个滤波器滑过输入图像的每一个可能位置。在每个位置，你测量滤波器下的图像块与滤波器图案的匹配程度，并将该得分记录在输出图上。这个过程——滑动一个检测器并记录其响应——天然是等变的。如果输入图像中的垂直边缘向右移动十个像素，输出图上的峰值得分也将向右移动十个像素。

这里的关键思想是权重共享。同一个滤波器（具有相同的“权重”）在整个图像中被重复使用。为什么这如此重要？想象一下另一种选择，一个“局部连接”层，其中每个位置都有一个不同的滤波器。这样的网络将极其愚蠢。它必须学会在左上角识别猫耳，然后又得在右下角从头学习猫耳的样子。它无法理解“无论在哪里发现，耳朵还是耳朵”这个基本概念。

通过强制权重共享，卷积将这种直觉——我们称之为归纳偏置——直接构建到网络的架构中。它极大地减少了网络需要学习的参数数量（从依赖于图像大小减少到仅依赖于滤波器大小），并使学习效率大大提高，尤其是当底层数据（如我们世界的图像或基因序列）真正具有这种位置无关的性质时。

配角：逐点操作

其他标准的神经网络层也发挥着它们的作用。像 ReLU 激活函数（ $\sigma(u) = \max(u,0)$ ）或添加一个常数偏置等操作是逐点操作。它们独立地应用于每个像素（或特征），而不考虑其空间位置。因为它们不混合不同位置的信息，所以它们完美地保留了由卷积层建立的等变性。一个由一堆卷积和逐点激活构成的网络是一台设计优美的等变机器。

当魔力失效：等变性的敌人

然而，世界并非总是如此整洁。严格的平移等变性是一个脆弱的属性，现代 CNN 中的一些标准操作会破坏它。理解这些失效模式是掌握深度学习艺术的关键。

1. 边缘的暴政：填充

我们的滑动滤波器比喻在无限平面上完美适用。但真实的图像有边缘。当我们的滤波器到达边界时会发生什么？

零填充：最常见的方法是想象图像被一片零的海洋包围。当滤波器部分滑出图像时，它会“看到”这些零。问题在于，滤波器的响应现在取决于其绝对位置。一个位于边缘附近像素上的滤波器看到的是图像内容和填充零的混合，而同一个滤波器位于图像中心的像素上时只看到纯粹的图像内容。这种上下文的差异破坏了严格的等变性。
循环填充：在理论分析中，我们通常假设循环填充，即图像像游戏Pac-Man中的屏幕一样首尾相连。如果你从右边缘出去，你会从左边缘重新出现。这种数学上的便利性为离散卷积恢复了完美的等变性，但并不反映现实世界成像的工作方式。

2. 跳步的风险：步幅操作

为了节省计算资源，我们经常指示滑动滤波器采取大于一个像素的步长。这被称为步幅卷积或步幅池化。假设我们使用 $s=2$ 的步幅。现在，想象我们的输入特征只移动了一个像素，即 $\Delta=1$ 。由于位移小于步幅，步幅操作的采样网格将落在特征的完全不同部分上。一个重要的特征可能在原始情况下被检测到，但在单像素平移后被完全跳过。

这导出了一个关键规则：步幅为 $s$ 的操作仅对输入位移 $\Delta$ 是 $s$ 的整数倍时才是等变的。对于任何其他位移，对称性都会被破坏。这是实践中破坏等变性最重要的来源之一，一个简单的手动计算就能鲜明地证明这一点。

3. 更深层的罪魁祸首：混叠

步幅操作的失败在信号处理理论中有更深层次的根源：混叠。想象一下观看一辆汽车的影片。随着汽车加速，它的轮子有时会突然看起来变慢、停止，甚至倒转。这种错觉的发生是因为摄像机的帧率（其采样率）太慢，无法捕捉到轮辐的快速旋转。轮辐的高频运动被“混叠”成了不正确的低频运动。

步幅是一种下采样形式。它降低了我们特征图的采样率。如果特征图包含高频细节（锐利的边缘、精细的纹理），输入中的微小位移可能导致这些高频与下采样网格相互干扰，从而导致输出发生巨大且不可预测的变化。这就是粉碎等变性的混叠效应。

幸运的是，有一个从经典信号处理中借鉴的优雅解决方案：抗混叠。在下采样之前，我们可以应用一个轻微的模糊（一个低通滤波器）。这种模糊可以平滑掉导致混叠的锐利、高频细节。去除了有问题的频率后，下采样的输出对微小位移变得更加稳定和鲁棒。网络的等变性近似地恢复了！

终章：从等变性到不变性

在构建了一个丰富的、多层的、并且（大部分）等变的输入表示之后，我们如何得到最终的不变性分类结果？我们需要一个操作，它能有目的地丢弃“位置”信息，同时保留“内容”信息。

这就是全局池化层的工作。在最后一个卷积层之后，我们得到一个特征图，其中，例如，任何位置 $(i,j)$ 的高值可能表示该位置存在“猫胡须”特征。一个全局最大池化层会简单地找到整个图上的单个最高值。它的输出只是一个数字，代表了最可信的胡须检测的强度，而不管它发生在何处。类似地，全局平均池化会计算整个图上激活值的平均值。

在这两种情况下，我们都将一个等变的空间图坍缩成一个特征向量，这个向量现在是平移不变的。如果我们平移输入的猫，特征图上的胡须激活会随之平移，但它们的最大值（或平均值）将保持不变。这个不变的特征向量随后可以被传递给一个简单的分类器来做出最终决定。

这种优雅的两步舞——首先用卷积构建等变的特征层次，然后用池化将它们坍缩成一个不变的表示——是使 CNN 在识别我们世界中的模式方面如此有效和高效的基础原理。这是一个绝佳的例子，说明了将物理和逻辑对称性融入我们的模型中可以催生出强大且具有泛化能力的智能。

应用与跨学科联系

我们花了一些时间来理解平移等变性原理，即原因的平移会引起结果的相应平移。你可能会倾向于认为这是一个巧妙的数学技巧，是为计算机科学包装的一点抽象代数。但事实远非如此。这个原理不仅仅是某些函数的深奥属性；它是关于世界本质的一个深刻而强大的假设，将其构建到我们的模型中是现代计算科学中最深刻的思想之一。它是一种信念，即物理定律——或者猫的身份——不依赖于你碰巧站在哪里。当我们赋予我们的人工神经网络这种对称性时，我们不仅仅是在优化一段代码；我们是在教机器一个关于现实的基本真理。

现在，让我们踏上一段旅程，看看这个思想如何在从视觉和声音的数字世界到物理定律的根本构造等广阔的学科领域中开花结果。

数字世界：用等变性来看和听

最自然的起点是我们自己的感官，或者至少是它们的数字对应物。当你看着一张照片时，无论你的朋友是在画面的中央还是偏向一侧，你都能认出他们的脸。卷积神经网络 (CNN) 的设计初衷就是为了做到这一点。它的卷积滤波器就像小小的模式探测器，在整个图像上滑动，寻找边缘、纹理或角落等特征。因为在所有地方都使用同一个探测器，网络找到一个特征的能力与其位置无关。

但是，当我们在这一简单思想之上构建复杂系统时，会发生什么呢？考虑一个目标检测器，一个在图像中物体周围画框的程序。我们当然希望它是平移等变的。一个能在道路左侧找到汽车的系统，也应该能在右侧找到它。然而，在实践中，这种完美是难以企及的。许多现代检测器，如 YOLO 或 SSD，将图像划分为一个网格，并让每个网格单元负责检测中心位于其中的物体。如果一个物体移动了仅仅一个像素并越过了单元格边界，检测它的责任就会突然从一组预测器转移到另一组。这可能导致预测的边界框“闪烁”或置信度分数跳动，这是破坏我们所追求的平滑、完美等变性的直接后果。理解等变性在何处以及为何被破坏，是构建更稳健系统的第一步。

有时，数据本身的结构似乎与等变性相悖，我们必须巧妙应对。在数码相机中，传感器不会在每个像素上捕捉完整的颜色。相反，它使用一个棋盘状的彩色滤光阵列 (CFA)，最常见的是拜耳模式，该模式在红色、绿色和蓝色传感器之间交替。为了重建一幅全彩图像——一个称为去马赛克的过程——网络必须学会推断缺失的颜色。如果我们把原始的拜耳模式平移一个像素，整个颜色的排列就会改变。一个标准的 CNN 会完全迷失方向。解决方案是一个绝妙的工程设计：我们可以首先通过将不同颜色位置分离到它们自己的通道中来提升图像。一个对平移和这些新通道的排列都等变的网络，便可以学会对图像进行去马赛克，并且最终结果将对原始传感器数据的位移表现出适当的等变性。我们通过在更高维度的空间中思考，恢复了对称性。

同样的原理也适用于声音。音频信号可以表示为谱图，这是一个二维图像，其中一轴是时间，另一轴是频率。一段旋律是这个图像中的一个模式。如果我们用一个标准的二维 CNN 来处理它，我们就内置了对时间和频率的等变性。这意味着模型假定一段旋律，无论是现在播放还是五秒后播放（时间平移），无论是以 C 调还是 G 调演奏（频率平移，或音高变换），都是“相同”的。但这总是我们想要的吗？也许绝对音高很重要。我们可以转而设计一个一维 CNN，它只沿着时间轴进行卷积，将每个频率箱视为一个独立的、独特的通道。这个模型对时间平移是等变的，但对音高变换则不是。架构的选择编码了对你试图解决问题的物理特性的一个基本假设。

物理世界：从触摸到原子

让我们走出数字世界，进入物理世界。想象一个皮肤上布满触觉传感器的机器人。它需要通过触摸来识别物体的纹理。它用手掌的左侧还是右侧接触物体应该无关紧要。砂纸的感觉应该是一样的。一个处理机器人皮肤触觉图的 CNN 恰好提供了这种能力。通过内置平移等变性，机器人可以以一种通用的方式学习识别纹理和压力，而不必为身体上的每一个传感器都单独学习一遍。

我们可以将这个想法一直推到原子尺度。在计算化学中，我们希望预测一个原子系统的能量和力。例如，一个水分子的能量取决于其原子的相对位置，而不是其在空间中的绝对位置或朝向。神经网络势 (NNP) 就是为此设计的。与 CNN 的等变滤波器不同，像 Behler-Parrinello NNP 这样的模型使用称为原子中心对称函数 (ACSF) 的描述符。如果原子是像素，这些 ACSF 就像是特征检测器，根据其数学构造，它们对旋转、平移，甚至相同邻近原子的交换都完全不变。它们捕捉了一个原子局部环境的基本几何形状。

然后，为了得到整个系统的总能量，NNP 简单地将每个原子的能量贡献相加。这种求和， $E = \sum_{i} E_{i}$ ，是一种池化形式。它不关心你相加能量的顺序。这在概念上与 CNN 末端的全局平均池化层相同，后者对所有空间位置的特征激活进行平均，以得到一个最终的、排列不变的摘要。在这两种情况下，我们都看到了一个两步过程：首先，提取局部特征（等变或不变地），其次，将它们聚合成一个全局的、排列不变的量。

生物世界：解读生命密码

事实证明，大自然也是这一原理的拥护者。我们细胞中的 DNA 包含以核苷酸序列编码的指令。某些短的模式，或称基序，充当细胞机器的信号。例如，一个转录因子可能与特定的 DNA 基序结合以开启或关闭一个基因。这个基序通常无论出现在基因组的哪个位置都能正常发挥作用。

这是一维 CNN 的完美用武之地。通过沿着 DNA 序列滑动其滤波器，它可以学会在不考虑绝对位置的情况下检测这些功能性基序——这是平移等变性的直接应用。这种方法有一个内置的假设：模型是一个“基序袋”，其中基序的存在比它们的排列更重要。但如果生物功能取决于几个基序的精确顺序和间距呢？在这种情况下，一个按顺序处理序列并维持对其所见内容的“记忆”的 RNN，可能是一个更好的模型。在基因组学任务中选择 CNN 还是 RNN，不仅仅是一个技术细节；它是关于所建模的底层生物机制的一个假设。这个过程是依赖于位置无关的特征（CNN），还是依赖于有序的、序列性的信息（RNN）？

扩展视野：超越平面和简单平移

到目前为止，我们讨论的都是在平坦的线或平面上平移模式。但如果我们的数据存在于一个曲面上，比如地球呢？想想天气模式、气候数据，或者宇宙微波背景辐射的图像。我们不能简单地把地球展开成一张平坦的地图，然后运行一个标准的 CNN。为什么不行？因为球面上的旋转并不对应于地图上的简单平移；它会产生复杂的、非线性的扭曲，尤其是在两极附近。一个只对平移等变的标准的 CNN 会被完全迷惑。

这迫使我们推广我们的思维。平面的对称群是平移群。球体的对称群是旋转群， $SO(3)$ 。为了正确处理球面数据，我们需要发明“球面 CNN”，其操作本质上是对旋转等变的。这个被称为几何深度学习的领域，就是关于构建尊重非欧几里得空间内在对称性的网络。平移等变性只是一个更宏大思想的一个特例：对一个变换群的等变性。

这把我们带到了我们最深刻的例子。在基础物理学中，最深刻的原理之一是规范对称性。你可以把它想象成时空中每一点上的一种内部的、抽象的对称性。物理定律，如电磁学或核力的定律，必须在这些内部坐标系的局部“重新定向”下保持不变。当物理学家在离散的格子上研究这些理论时，他们必须处理尊重这种规范对称性的数据。

我们能设计一个同样遵循这一原则的神经网络吗？答案是肯定的。规范等变 CNN 是一种卓越的构造，它将这一基本物理原理构建到其核心架构中。为了比较一个格点上的特征与相邻格点上的特征，它不能简单地将它们相减。它必须使用存在于格点之间连接上的变量——规范连接——来将信息从一个格点平行输运到另一个格点。这确保了比较在物理上是有意义的，并且与任意的局域坐标选择无关。网络的层被设计用来处理协变变换的带电特征，并且它通过观察闭合回路来构造规范不变的量，就像物理学家所做的那样。这是思想的惊人融合，机器学习中的一个概念完美地反映了粒子物理学标准模型的基石。

一个实践的尾声：等变性的效率

在这样一次抽象的飞跃之后，让我们以一个完全实际的注解结束。将等变性构建到模型中，不仅仅是为了优雅或更好的泛化能力，也关乎原始的计算效率。

假设你需要将一个检测器应用于一张非常大的高分辨率图像的每一个像素。天真的方法是围绕每个像素提取一个小块，然后逐个对该小块运行你的 CNN。对于一张数百万像素的图像，这意味着数百万次独立的、冗余的前向传播。但如果你的 CNN 是平移等变的，你就不必这么做。你可以在整个大图像上一次性运行网络。在生成的特征图中，任何给定像素处的输出，都与你将一个小块以该像素为中心并对其运行网络所得到的结果完全相同。得益于等变性，一次大规模的并行计算取代了数百万次微小的串行计算。唯一的例外是在图像的边缘，那里的网络感受野会超出图像范围。对于这些少数的边界像素，由于填充效应，等价性被打破，你可能需要退回到较慢的分块方法。但对于图像广阔的内部区域，速度的提升可能是巨大的。

从识别一只猫，到解读 DNA，再到探索物理学的基本定律，平移等变性原理——以及它对其他对称性的推广——是一条金线。它简化了我们的模型，使它们更加稳健，而且最重要的是，使它们与我们试图理解的世界的深层结构保持一致。