try ai
科普
编辑
分享
反馈
  • 平移等变性

平移等变性

SciencePedia玻尔百科
核心要点
  • 平移等变性确保当系统输入发生位移时,其输出表示也会相应地移动,这是与不变性截然不同的一个关键属性。
  • 卷积神经网络主要通过卷积和权重共享机制实现平移等变性,这迫使模型学习与位置无关的模式。
  • 像步幅和池化这样的实用CNN组件会破坏完美的等变性,但抗混叠滤波器等技术可以减轻这些影响。
  • 等变性的概念超越了简单的平移,扩展到其他对称性,如旋转,为在化学和生物学等领域构建具有物理意识的模型提供了基本原则。

引言

为什么计算机视觉系统能够像识别照片中央的猫一样,轻松地发现角落里的猫?为什么音频模型能识别出特定的词语,无论它在什么时候被说出?答案在于一个关于我们世界的强大内置假设:平移等变性。这一基本原则指出,物体或模式的身份不会因为其位置的改变而改变,将这种“常识”构建到我们的人工智能模型中,对于它们的成功和效率至关重要。本文将揭开平移等变性的神秘面纱,探索那些让机器能够在空间和时间上进行泛化的精妙思想。

我们将首先在 ​​原理与机制​​ 章节中剖析核心概念,探索卷积和权重共享等操作如何在卷积神经网络中产生等变性。我们还将直面那些打破这种完美对称性的现实问题——如下采样和边界效应——以及为恢复它而设计的工程解决方案。在这一理论基础之后,​​应用与跨学科联系​​ 章节将带领我们穿越不同的科学领域。我们将看到这同一个思想如何统一了计算机视觉、基因组学、音频分析,甚至物理学和化学基本定律中的方法,揭示了等变性是连接现代科学与人工智能广阔图景的一条金线。

原理与机制

想象一下,你在画廊里漫步,欣赏着肖像画。无论人脸是画在宏伟画布的中央,还是隐藏在角落,你都能认出它。你大脑中的“人脸检测器”无论人脸位置如何都能工作。这种直观能力凸显了科学与工程中一个深刻而强大的概念:​​等变性 (equivariance)​​。简单来说,如果一个系统的输入经过变换,其输出也会以相应可预测的方式变换,那么这个系统就是等变性的。如果你的目光向左移动,你大脑中“检测到人脸”的信号也会向左移动。

这与一个相关概念——​​不变性 (invariance)​​——有细微差别。一个不变系统的输出在输入变换时完全不发生改变。这就像一个简单的警报器,只要画中任何地方有人脸就会响起。警报器的状态(“开”或“关”)对于人脸的位置是不变的。许多复杂的系统,包括我们接下来要讨论的神经网络,是通过先计算出世界的等变表示,然后对其进行总结来实现不变性的。例如,一个网络可能首先创建一个特征图,其中每个位置表示存在人脸的概率,这是一个等变过程。然后,通过取整个特征图的最大值——这一操作被称为​​全局池化 (global pooling)​​——它就能回答那个不变性问题:“是否存在至少一张人脸?”。这种区别不仅仅是学术上的;它是理解这些系统强大功能与局限性的关键。一个等变系统知道是什么以及在哪里;一个不变系统只知道是什么。

等变性的引擎:卷积与权重共享

我们如何构建一个具有这种非凡属性的系统?大自然通过进化发现了它,而数学家和计算机科学家则以​​卷积 (convolution)​​ 操作的形式重新发现了它。卷积的核心思想异常简单:你将一个称为​​核 (kernel)​​ 的小模板在图像上滑动。在每个位置,你测量下方图像块与模板的匹配程度。结果是一张新的图像,或称为“特征图 (feature map)”,其中高值表示强匹配。

这里的神奇要素是​​权重共享 (weight sharing)​​。在每个位置都使用完全相同的核——即同一组权重。这就像你用一个值得信赖的放大镜来扫描整个图像,寻找特定的细节,比如一条垂直边缘或某种纹理。因为检查工具在任何地方都是相同的,所以系统具有一种内在的​​归纳偏置 (inductive bias)​​,即无论模式位于何处,都以相同的方式对待它们。这就是卷积神经网络 (CNN) 的灵魂所在。

让我们把这个概念具体化。如果我们有一个执行卷积的层 fff,以及一个将图像 xxx 平移向量 δ\deltaδ 的平移算子 TδT_{\delta}Tδ​,那么等变性属性意味着 f(Tδx)=Tδf(x)f(T_{\delta} x) = T_{\delta} f(x)f(Tδ​x)=Tδ​f(x)。对平移后的输入进行卷积,会得到一个平移后的输出。这个属性非常稳健;即使我们堆叠多个卷积层,向输出添加一个恒定的​​偏置 (bias)​​,或者应用像修正线性单元 (ReLU) 这样的​​逐点非线性 (pointwise nonlinearity)​​(它只是将所有负值设为零),该属性依然成立。这些操作中的每一个都统一作用于整个空间,因此保留了由卷积建立的对称性。

那么,如果我们打破这个规则会怎样?如果我们不使用一个值得信赖的放大镜,而是决定为图像上的每个点都打造一个独特的、经过特殊调整的放大镜呢?这就是​​局部连接层 (locally connected layer)​​ 所做的事情。它像卷积一样将局部图像块连接到输出,但它不共享权重。结果如何?优雅的对称性被打破了。系统不再保证具有平移等变性。

这会带来惊人的实际后果。对于一个处理小图像的普通网络层,放弃权重共享会导致可学习参数的数量爆炸性增长。在一个基于 LeNet-5 架构的经典例子中,将一个卷积层切换为局部连接层,参数数量从区区 156 个激增到惊人的 122,304 个。对于有限的训练数据,一个拥有如此多参数的模型极有可能发生​​过拟合 (overfitting)​​——它会简单地记住训练图像,包括其中的噪声,而不是学习像手写数字这样的可泛化概念。因此,权重共享不仅仅是一个数学上优美的约束;它也是使深度卷积网络可训练且有效的基石。

当音乐停止:打破等变性

然而,这幅完美对称的优雅图景是画在一块理想化的画布上的。在实际工程世界中,我们常常发现这种美妙的和谐被巧妙地——有时甚至是剧烈地——打破了。现实世界中的CNN架构包含一些因其本质而并非完全等变的组件。

边界效应:世界的边缘

第一个问题出现在图像的边缘。我们的滑动窗口类比在图像中央完美运作,但当核到达边界时会发生什么?一个理想化的数学解决方案是想象图像位于一个环面上,右边缘与左边缘相连,上边缘与下边缘相连。这种​​循环填充 (circular padding)​​ 完美地保留了对称性,并且是等变性证明的基础。

然而,在实践中,一种更常见的技术是​​零填充 (zero-padding)​​,即在图像周围填充一圈零。这看似无害,但却破坏了对称性。位于图像中心的模式被其他真实的图像特征所包围。而靠近边缘的模式则被人工的零所包围。因此,卷积操作“看到”了不同的上下文,并产生不同的响应。这意味着将一个模式移动到边界附近的操作,与在内部进行平移的操作处理方式不同,等变性也就被打破了。

跳拍:步幅与池化

第二个,也往往是更重大的破坏,源于对计算效率的追求。处理高分辨率特征图的成本很高。一个常见的策略是对它们进行下采样。一种方法是使用​​步幅卷积 (strided convolution)​​,即核不是每次滑动一个像素,而是跳跃或“跨步”两个或更多像素。

想象一下听一首歌,但每隔一拍才听一次。如果你的朋友在你之后一拍开始听,他们会听到完全不同的旋律。步幅卷积也会发生同样的事情。输入平移一个像素——一个不是步幅倍数的位移——会导致下采样后的输出发生剧烈变化,而这种变化不仅仅是一个简单的位移。等变性仍然成立,但仅对一个特殊的平移子群成立:那些平移量是步幅整数倍的平移。对于所有其他“亚像素”位移(相对于输出网格),对称性被打破了。

类似的问题也出现在​​池化层 (pooling layers)​​中,特别是​​最大池化 (max pooling)​​。最大池化层也通过在一个小窗口内取最大值并在特征图上以一定步幅滑动来对特征图进行下采样。虽然计算效率高,但这是一种非线性操作,它丢弃空间信息的方式对输入的微小位移高度敏感,进一步侵蚀了网络的等变性。

重建和谐:等变性的工程实现

如果我们用来构建高效网络的工具——填充、步幅和池化——破坏了等变性优美的对称性,我们是否就无计可施了?并非如此。作为工程师,我们可以分析问题并设计解决方案。在步幅和池化破坏等变性的故事中,主要的“反派”是一种被称为​​混叠 (aliasing)​​ 的现象。当我们对信号采样过于稀疏时,高频分量可能会伪装成低频分量,从而造成失真。

从经典信号处理中借鉴的解决方案是,在下采样之前应用一个​​抗混叠滤波器 (anti-aliasing filter)​​。在CNN的背景下,这意味着在步幅卷积或池化层之前插入一个小的模糊层。这个低通滤波器可以平滑那些在输入发生位移时导致剧烈变化的尖锐、高频特征。虽然这并不能恢复完美的等变性,但它可以显著减少误差,从而使模型对微小平移更具鲁棒性,并常常获得更好的性能。通过仔细测量等变性误差,我们可以量化朴素下采样造成的损害,并展示这些有原则的补救措施所带来的显著改进。

超越视野:普适的对称性

将算子的对称性与数据的对称性相匹配的原则,并不仅限于平面上的平移。这是一个普适的思想,可以指导我们为各种数据构建智能系统。

考虑球面上的数据,比如全球天气模式或绘制在大脑皮层上的大脑活动。在球面上,“平移”的自然概念是​​旋转 (rotation)​​。如果我们把球面数据投影到一个平面地图上(比如地球的等距圆柱投影),然后应用一个标准的CNN,我们将会失败。地球的一次旋转会导致平面地图上复杂的非线性扭曲,而不是简单的位移。只对平移等变的CNN会完全混淆。为了正确处理这些数据,我们需要设计​​球面卷积 (spherical convolutions)​​,这些卷积内在地对3D旋转群 SO(3)SO(3)SO(3) 等变。原理是相同的,只是变换群改变了。

这个思想甚至可以扩展到那些不明显具有空间性的领域,比如语言。一个句子是一个序列,我们可能希望我们的模型能理解一个短语,无论它出现在哪里。我们能构建一个对平移等变的序列模型吗?现代的​​Transformer​​架构可以实现这一点。我们可以使用​​相对位置偏置 (relative positional biases)​​,而不是使用告诉一个词在句子中固定位置的绝对位置编码(“你是第5个词”)。相对位置偏置只告诉模型词与词之间的距离和方向(“你在我之后3个词”)。通过关注相对关系而非绝对位置,注意力机制变得对平移等变,这与卷积中的权重共享原则形成了美妙的呼应。

从识别图片中的人脸,到理解地球上的天气,再到领会句子中的含义,等变性原则是一条金线。它教导我们,要构建真正理解世界的系统,我们必须按照世界自身的对称性来构建它们。

应用与跨学科联系

我们花了一些时间来了解平移等变性原则。我们已经看到它如何源于卷积网络中权重共享的精妙思想,创造出一个以相同方式处理输入不同部分的系统。这似乎只是一点巧妙的工程设计,一个节省参数并帮助模型泛化的好技巧。但它的意义远不止于此。

我们偶然发现的是一个在无数科学与工程领域中回响的基本概念。这个想法,大自然本身早已发现。毕竟,世界的规则不会因为你向左移动了几英尺就改变。在这里适用的物理定律,在那里同样适用。一个物体、一种声音或一个化学模式,无论其位置如何,都保持其身份。通过将平移等变性构建到我们的模型中,我们不仅仅是在施加一个有用的假设;我们是在教它们关于宇宙的一点常识。

现在,让我们踏上一段旅程,看看这一个思想将我们带向何方。我们将在我们感知世界的方式中,在生命的蓝图中,在细菌菌落的生长中,甚至在支配原子的基本法则中,发现它的身影。

通过等变性镜头看世界:感知与序列

我们的第一站是最直观的一站:感知。你如何在人群中认出朋友的脸?你并没有为视野中每个可能的位置都准备一个单独的“朋友检测器”。你的大脑已经学习了一种模式,并且可以在任何地方发现该模式。卷积神经网络 (CNN) 模拟了这种非凡的能力。

在​​计算机视觉 (computer vision)​​ 中,CNN学习使用一组滤波器来检测特征——边缘、纹理、形状。因为这些滤波器被应用于整个图像,所以网络可以找到猫、汽车或咖啡杯,无论它是在左上角还是右下角。这就是平移等变性的实际应用。然而,在现代深度学习中,情况一如既往地要更微妙一些。虽然卷积层本身是等变性的引擎,但像YOLO或Faster R-CNN这样的真实世界物体检测器中的其他组件——例如跳过像素的步幅采样或总结区域的池化层——会轻微破坏这种完美的数学属性。物体在离散像素网格上的位置会导致最终预测中出现微小、不平滑的变化。理解这些实际限制是构建鲁棒系统的关键。有趣的是,有时我们甚至可能想要有意地打破等变性。通过向网络提供明确的坐标信息(一种称为“CoordConv”的技术),我们允许它学习依赖于绝对位置的模式,以应对物体位置确实很重要的情况。

同样的原则也巧妙地延伸到了​​音频处理 (audio processing)​​。声音可以被可视化为频谱图 (spectrogram),这是一个二维图像,一个轴是时间,另一个轴是频率(或音高)。像鸟鸣这样短促尖锐的声音,在这张图像上有一个独特的形状。我们应该用什么样的模型来检测它?标准的二维CNN是一个绝佳的选择,因为它对时间和频率的平移都具有等变性。这意味着无论鸟鸣是现在发生还是一秒后发生(时间等变性),也无论它是高音调还是低音调的鸣叫(频率等变性),它都能找到。如果我们使用一个只在时间上等变的模型,那么它就需要为每个可能的音高学习单独的检测器。通过识别问题的对称性,我们可以为任务选择正确的工具。我们甚至可以将为视觉设计的物体检测器直接应用于频谱图,以在更长的录音中找到并分类这些“音频物体”,如口语单词或特定的音符。

从图像和频谱图的二维世界,让我们转向​​基因组学 (genomics)​​ 的一维世界。DNA序列是一长串字母。隐藏在这串序列中的是称为基序 (motifs) 的短模式,它们作为蛋白质的结合位点,控制哪些基因被开启或关闭。一个给定的基序几乎可以出现在一段相关DNA的任何地方。我们如何找到它?这是一维CNN的完美任务。一个经过调整以识别该基序模式的滤波器,可以沿着整个序列滑动。当它找到匹配项时,就会发出强烈的信号。这比试图为DNA链上每个可能的位置都学习一个单独的检测器要高效得多。由权重共享实现的等变性属性,直接反映了基序的功能与其精确位置无关的生物学现实。

空间的逻辑:网格、图与局部动态

看过了等变性如何帮助我们发现模式,让我们来探索一个更深层次的角色:学习一个系统的规则。自然界中的许多现象,从森林火灾的蔓延到雪花的形成,再到城市的扩张,都可以被描述为由简单、普适的局部规则控制的复杂系统。

这就是​​元胞自动机 (cellular automata)​​ 的世界。想象一个像棋盘一样的细胞网格,每个细胞可以处于几种状态之一。一个细胞在下一时刻的状态仅由其直接邻居的当前状态决定。这个更新规则是局部的,并且对棋盘上的每个细胞都是相同的。这就是最纯粹形式的平移等变性!如果我们想构建一个模型来学习一个未知系统的规则,比如培养皿上细菌生物膜的生长,CNN是自然的选择。它本质上是局部、平移等变动态的通用函数逼近器。

CNN与局部规则之间的这种联系揭示了与另一个科学领域的深刻关联:​​概率图模型 (probabilistic graphical models)​​。马尔可夫随机场 (Markov Random Field, MRF) 是一种用于建模变量间存在局部依赖性的系统的统计工具——就像元胞自动机一样。事实证明,CNN的单层在数学上等价于某种类型MRF中的局部“消息传递”更新。赋予CNN平移等变性的权重共享,直接对应于MRF中同质(空间不变)相互作用的假设。这是一次优美的智力统一,表明CNN的实用架构实际上是在实现一个源自统计物理学的悠久原则。

从平移到变换:作为物理定律的等变性

我们的旅程已经表明,平移等变性是一个强大而普遍的原则。但这仅仅是个开始。它只是支配我们宇宙的更丰富对称性织锦中的一根线。物理定律不仅对你所处的位置(平移)不变,也对你的朝向(旋转)不变。一个相互作用的原子系统的行为方式是相同的,无论它是在你的实验室还是在地球另一端的实验室,也无论它是朝向北方还是东方。这些刚体运动——平移和旋转——的完整群被称为欧几里得群,E(3)E(3)E(3)。

在​​材料科学与化学 (materials science and chemistry)​​ 等领域,如果我们想构建一个机器学习模型来预测分子中原子间的力,该模型必须尊重这些物理对称性。如果我们在空间中旋转分子,预测的每个原子上的力矢量必须随之旋转。一个做不到这一点的模型根本就是错误的;它未能学习到一条基本的物理定律。这就是平移等变性的概念发展为完全的​​E(3)E(3)E(3)-等变性 (E(3)E(3)E(3)-equivariance)​​ 的地方。通过使用群表示论的工具,科学家们现在正在构建的神经网络,其架构保证了这种正确的物理行为。平移等变性通过使用原子间的相对位置来处理,而旋转等变性则通过将特征表示为在旋转下以可预测方式变换的“球张量 (spherical tensors)”来处理,这很像向量的行为方式。

同样的原则正在​​计算生物学 (computational biology)​​ 领域引发革命。思考“蛋白质对接”问题:预测两个复杂的蛋白质将如何结合在一起。这就像解决一个极其复杂的3D拼图。一种朴素的方法可能是尝试两个分子所有可能的相对位置和方向,这是一项计算上不可能完成的任务。一个SE(3)SE(3)SE(3)-等变网络(处理平移和正常旋转)提供了一个惊人优雅的解决方案。我们可以将每个蛋白质通过网络一次,以计算出丰富的特征表示。然后,得益于等变性的魔力,我们可以解析地计算或“操控”这个特征表示在任何其他角度下的样子,而无需重新运行网络。这将一个棘手的暴力搜索替换为一个高效的解析搜索,从而使问题变得可解。

最后,这种更宏大的等变性思想不仅用于分析世界,也用于创造世界。在​​生成建模 (generative modeling)​​ 中,我们希望构建能够合成新的、逼真数据的模型。著名的图像生成模型StyleGAN3的创造者发现,内置平移和旋转等变性可以使生成的图像细节更加连贯,减少“粘贴感”。更进一步,通过使用群论的数学明确设计生成模型(如VAE)的潜在空间和解码器,我们可以创建出不同潜在变量被“解耦 (disentangled)”的模型——一个旋钮控制平移,另一个控制旋转,第三个控制物体身份,所有这些都是独立的。

从一个关于图片中猫的简单观察出发,我们已经跋涉到了科学的前沿。平移等变性不仅仅是神经网络的一个特性;它是关于世界深层真理的反映。它是一项设计原则,为我们的模型带来了效率、鲁棒性和物理正确性,使我们能够以日益清晰的方式去看、去听、去理解宇宙。