机器学习中的对称性

玻尔百科

核心要点

物理系统遵循对称性（例如，旋转对称性、置换对称性），机器学习模型对于像能量这样的标量预测必须对此不变，而对于像力这样的矢量预测则必须等变。
使用原始坐标的朴素神经网络无法遵循物理对称性，导致在系统旋转或其原子被重新标记时产生不符合物理规律的预测。
不变模型使用原子间距离等特征来强制实现对称性，但仅限于标量预测，无法捕捉依赖于角度或方向的性质。
等变神经网络处理向量和张量等几何对象，保留方向信息，从而能准确预测复杂性质并区分手性分子等结构。
对称性破缺的概念不仅在量子物理学中至关重要，在训练神经网络时也是如此，它能让模型摆脱无益的对称状态并有效学习。

引言

宇宙的运行遵循基本法则，而物理对称性是自然法则的基石。为了让机器学习超越“黑箱”的范畴，成为科学发现的真正伙伴，它必须学会说这种对称性的母语。标准的机器学习模型尽管功能强大，却常常无法掌握这些内在原理，得出的预测不仅不准确，甚至在物理上是荒谬的。本文旨在解决这一关键问题，探讨如何将对称性直接编码到模型架构中，从而构建出更鲁棒、数据效率更高、更具物理意识的人工智能。

我们将分两部分进行探索。首先，在“原理与机制”一章中，我们将揭开不变性与等变性核心概念的神秘面纱，解释为什么简单模型会失败，以及如何从根本上构建专用架构——从不变描述符到现代等变网络——来遵循这些物理定律。然后，在“应用与跨学科联系”中，我们将见证这些原理的实际应用，了解对称性感知模型如何通过精确预测从分子力到材料性质的一切，甚至揭示与对称性破缺等现象的深刻相似之处，从而彻底改变化学、材料科学和工程等领域。

原理与机制

物理定律在其宏伟而优雅的表象之下，是深刻对称的。它们不关心你在宇宙中的位置，你面向的方向，或者你给相同粒子赋予的任意名称。这不仅仅是哲学上的精巧，它是大部分物理学得以推导出的基石原则。如果我们想构建一个能真正捕捉原子和分子物理特性的机器学习模型，它就不能仅仅是一个“黑箱”，而必须将这些对称性融入其结构之中。

对称的交响乐

让我们从一个简单的思想实验开始。想象一个水分子 $\mathrm{H_2O}$ 漂浮在空旷的黑暗空间中。它的势能——储存在其原子间化学键中的能量——取决于其内部几何构型：两个 $\mathrm{O-H}$ 键的长度以及它们之间的夹角。

现在，如果我们将整个分子向左移动三英尺会发生什么？什么都不会发生。它的能量保持不变。这就是平移不变性。如果我们将整个分子旋转90度呢？同样，其内部几何构型不受影响，所以能量也不变。这就是旋转不变性。如果我们偷偷地调换两个相同的氢原子的标签呢？由于这两个氢原子在根本上是不可区分的，能量也必须再次保持不变。这就是置换不变性。

这些不变性适用于标量，即像能量这样只有大小没有方向的量。但对于矢量，比如作用在每个原子上的力呢？力既有大小也有方向。如果我们旋转水分子，作用在原子上的力不会消失或固定在空间中；它们会随着分子一起旋转。这个性质不是不变性；它是一种优美、同步的舞蹈，称为等变性。如果一个函数在输入变换时，其输出也以相应的方式变换，那么它就是等变的。能量是不变的，因为它保持不变；而力是等变的，因为它们随系统的旋转而同步变化。

任何声称能表示物理系统的模型都必须遵循这场对称的交响乐。一个为旋转后的分子预测出不同能量的模型，不仅仅是不准确，它在根本上是物理错误的。

朴素方法的问题

一个自然的问题出现了：“神经网络是强大的通用近似器。我们难道不能直接将所有原子的笛卡尔坐标 $(x,y,z)$ 输入进去，让网络自己弄清楚对称性吗？”

这种看似合理的方法会彻底失败。

考虑一个完全对称的苯分子 $C_6H_6$ 。我们把碳原子从1到6进行标记，并将它们的坐标输入到一个通用的神经网络中。它学会了能量。现在，我们拿完全相同的物理分子，但重新标记原子，将每个标签在环上移动一个位置（C1变成C2，C2变成C3，以此类推）。在我们看来，什么都没有改变。但对于这个朴素的神经网络来说，坐标的输入向量已经完全不同了。已经学会将特定输入位置与最终能量关联起来的网络，没有理由为这个新输入产生相同的输出。通常情况下，它会为这个重新标记但物理上完全相同的分子预测一个不同的能量。

这种失败不仅仅是理论上的好奇心；它会带来灾难性的实际后果。由于力是能量的梯度，一个破坏了置换对称性的模型会预测出不符合物理规律的力。在我们的苯分子例子中，模型可能会预测，仅仅因为我们改变了任意的标签，这个完美对称的分子就应该受到试图将其撕裂的力。

旋转也会出现同样的问题。想象一下，我们通过简单列出甲烷分子 $\mathrm{CH_4}$ 的五个原子的 $(x,y,z)$ 坐标来描述它。如果分子旋转，这个包含15个数字的列表会不断变化。一个朴素的模型看到的是一个疯狂、不断变化的输入，即使分子的内能是恒定的。我们甚至可以量化这种失败。原始分子和旋转后分子的特征向量之间的数学“距离”不为零；它是一个直接取决于旋转角度的值。网络被那些物理上无关的信息所迷惑。数据增强——在许多旋转和置换过的副本上训练模型——可能会有帮助，但它永远不能保证对称性被完美地学会。要构建一个真正鲁棒的模型，我们必须做得更好。

从不变性的砖块开始构建

如果我们不能指望机器从零开始学习对称定律，我们就必须将这些定律构建到机器的架构中。第一个，也是历史上最重要的策略是，不向网络输入原始坐标，而是输入那些*本身就具有不变性*的特征。

分子的一个好的、简单的不变性是什么？所有原子对之间的距离集合。如果你平移或旋转一个分子，其原子间的距离不会改变。这个简单的观察是构建不变模型的关键。

我们可以不把分子看作一个整体，而是将总能量分解为原子能量贡献的总和： $E = \sum_i E_i$ 。每个原子的能量 $E_i$ 则根据原子 $i$ 的局域环境来预测。为此，我们为每个原子的邻域构建一个内在不变的“描述符”或“指纹”。

开创性的Behler-Parrinello神经网络正是这样做的。对于每个原子，它们计算一组描述其周围环境的对称函数。这些函数是根据与邻近原子的距离以及原子三元组之间的角度精心构造的。例如，一个径向对称函数可能是一系列高斯函数的总和，每个高斯函数都以一个邻居的距离为中心。由于这些函数只依赖于距离和角度（它们是标量，对旋转不变），最终得到的指纹是旋转和平移不变的。并且因为总能量是所有原子的总和，我们加总它们的顺序无关紧要，从而保证了置换不变性。

其他方法，如SOAP（原子位置的光滑重叠），也基于类似的原理，有效地为原子的邻居创建一个平滑的密度图，然后将这个图在所有可能的旋转上进行平均，以消除任何方向依赖性。

这种方法的美妙之处在于，通过将我们的模型限制在物理上合理的函数空间中，我们并没有失去表达能力。通用近似定理证实，这些不变性架构仍然能够以任意精度表示任何连续、对称的势能面。我们只是从一开始就教会了模型游戏规则。

等变之舞：在三维空间中思考

不变描述符是预测标量能量的强大解决方案。但如果我们想预测一个有方向的性质，比如分子的电偶极矩呢？偶极矩是一个矢量；它从负电荷中心指向正电荷中心。如果分子旋转，偶极矩矢量必须随之旋转。

我们的不变模型在这里面临一个灾难性的问题。它们在设计上就已经丢弃了所有关于方向的信息。一个输入纯粹是不变标量（如距离）的模型，无法指向一个特定的方向。在所有旋转下它唯一能持续输出的矢量就是零向量。这个限制是深刻的。这意味着一个不变模型无法区分一个分子和它的镜像（对映异构体），这是化学和生物学中的一个关键概念。

这个挑战将我们引向一个更现代、更强大的范式：等变神经网络。其核心思想是革命性的：我们不从一开始就把所有东西都变得不变，而是教网络处理具有几何特征的量——标量（我们可以称之为0阶特征）、矢量（1阶）、以及更复杂的张量（2阶等）。

网络通过一系列“消息传递”层来运作。每个原子是图中的一个节点，它向其邻居发送和接收消息。但这些不是普通的消息，它们是几何对象。架构是根据群论的数学原理建立的，有严格的规则来规定这些对象如何相互作用 [@problem_g:2760132]：

几何特征： 一个原子的状态不是由一列数字来描述，而是由一组几何特征来描述：一些是标量，一些是矢量，一些是张量。
等变卷积： 当形成消息时，来自邻近原子的特征（例如，一个矢量）与连接它们的化学键的几何信息相结合。这种化学键的几何形状是使用称为球谐函数的特殊函数编码的，这些函数是描述球面上方向的自然函数。
保持对称性的相互作用： 这种结合是通过张量积完成的，这是一种将几何对象“相乘”以创建新的、更复杂的对象的 principled 方式。然后，使用被称为Clebsch-Gordan系数的数学规则，这个复杂的对象被分解回一组新的简单几何特征（新的标量、矢量和张量）。

通过这个过程，信息逐层流经网络，但特征的几何身份始终被完美地保留。矢量特征总是像矢量一样变换，标量特征总是像标量一样变换。这是一场完美精确的数学之舞。

回报是巨大的。一个等变网络，因为它追踪方向信息，可以区分手性分子和它的镜像。它可以正确预测1,2-二氯乙烷的gauche 构象异构体具有非零偶极矩，而对称的anti 构象异构体则没有——这是不变模型无法完成的壮举。

为了得到最终的标量能量，网络执行一个最后的等变操作，将其所有高阶特征收缩为标量，然后将这些标量相加。因为最终的能量被构造为完全不变的，所以通过一个美妙的数学必然性，作为其梯度导出的力是完全等变的。

从分子到材料：周期性世界中的对称性

这些原理可以无缝地从孤立的分子扩展到看似无限、重复的晶体材料世界。在模拟晶体时，我们使用周期性边界条件（PBC），其中模拟单元在所有方向上无限平铺。

为了处理这个问题，我们的模型采用最小镜像约定：一个原子只与其邻居的最近周期性镜像相互作用。这可以防止盒子一侧的原子与另一侧的远距离原子发生不符合物理规律的相互作用。这是通过计算可能“环绕”单元边界的位移矢量来实现的。

值得注意的是，这些受物理启发的等变模型不仅优雅，而且高效。通过使用聪明的算法只在局部截断半径内寻找邻居，应用这些模型的计算成本随原子数量线性增长，这使得模拟数百万个原子成为可能，同时严格遵守我们宇宙的基本对称性。这种物理原理与计算科学的结合，开启了材料发现的新时代，而这一切都建立在对称性这个简单而深刻的思想之上。

应用与跨学科联系

我们花了一些时间探讨机器学习中对称性的原理——不变性与等变性之间优雅的数学之舞。但是一个原理，无论多么优美，其价值取决于它能做什么。现在是时候离开抽象定义的纯净世界，进入混乱、复杂而又迷人的现实世界了。我们为什么要关心教模型这些规则？答案简单而深刻：因为宇宙本身就是按照这些规则运行的。通过编码这些对称性，我们不仅仅是在构建行为更好的算法，更是在赋予它们一丝宇宙自身的物理直觉。

原子的语言：机器学习势能面

让我们从最小的尺度开始，在原子和分子的世界里，也就是化学和材料科学的领域。想象一下试图预测水分子的行为。它的性质——如何弯曲、拉伸以及与邻居相互作用——都由其势能控制，这是一个由山丘和山谷构成的地貌，决定着它的每一个动作。分子的总能量，一个标量，如果你只是在空间中旋转它或从不同角度观察它，是不会改变的。这个性质就是不变性。

然而，作用在每个原子上的力则是另一回事。力是矢量，它们既有大小也有方向。如果你旋转水分子，作用在其原子上的力必须随之精确地、完美地旋转。这就是等变性。一个不能遵循这个规则的模型不仅不准确，而且在物理上是荒谬的。一个有力的证明是计算一个简单分子中原子的力。当分子被旋转时，一个遵循对称性的机器学习模型会预测出新的力，这些力正是原始力的旋转版本，这证明了它已经学会了正确的几何关系。

现代机器学习势能更进一步。它们利用了能量和力之间深层的物理联系：力就是能量地貌的负梯度（最陡下降），这个关系你可能知道是 $F = -\nabla E$ 。最先进的模型并不是将能量和力作为两个独立、不相关的任务来学习。相反，它们构建一个统一的模型来预测不变的能量，然后通过对预测的能量求解析梯度来计算等变的力。这个由自动微分实现的杰作，通过其构造本身保证了模型产生一个“保守”力场——这是自然界的一条基本定律。这在复杂的多任务场景中也至关重要，在这些场景中，模型需要预测能量、力以及像分子偶极矩等其他性质，从而确保所有预测在物理上保持一致。

物质的构建模块：从距离到形状

那么，我们如何构建一个能理解这些对称性的模型呢？最直观的方法是将分子表示为一个图，其中原子是节点，它们之间的“键”或连接是边。为了确保不变性，我们可以选择只使用本身就是不变的特征来描述分子，比如原子对之间的距离。一个只被输入原子间距离列表的模型，在设计上将完全无法感知分子的朝向，这正是我们预测像能量这样的标量性质时所希望的。

但在这里，我们遇到了一个深刻而重要的问题：不变性就足够了吗？距离列表就是全部的故事吗？想象一下拉伸一根橡皮筋与剪切它。对剪切的抵抗力——它的刚度——是一个关键地依赖于角度而不是仅仅距离的性质。一个只知道原子间距离的模型是对分子的形状和角度“视而不见”的。如果键长相同，它无法区分线性原子链和弯曲的原子链。因此，这样的模型将无法预测像剪切刚度这样的关键力学性质。

这就是为什么等变性的概念如此强大。等变神经网络不是从一开始就将所有东西转换为不变的距离来丢弃所有几何信息，而是在整个网络中处理几何对象——矢量及其高阶“亲戚”——张量。它们学会以一种尊重旋转规则的方式组合和变换这些对象，保留了理解分子结构及其对应力响应的全部复杂性所需的丰富角度信息。

超越能量和力：性质的交响乐

对称性的力量远远超出了能量和力的基本性质。它是一种通用语言，支配着物理可观测量构成的整场交响乐。

考虑一下材料鲜艳的颜色，或者它们与光相互作用的方式。这些性质通常通过红外或拉曼光谱学等技术来探测。为了预测分子的光谱，机器学习模型需要计算其电荷分布在振动过程中的变化，这由偶极矩（一个矢量）和极化率张量来描述。这些都不是简单的标量。一个等变模型必须学会输出一个能正确旋转的矢量和一个根据其自身更复杂的旋转规则进行变换的对称张量。令人惊奇的是，对称性和群论的数学框架恰好提供了构建能够以完美的物理保真度处理这些复杂、高阶张量输出的模型的正确工具。

同样的原理可以扩展到宏观系统。在工程和材料科学中，我们希望预测材料在应力下的行为，这是一项由本构模型控制的任务。想象一下构建一个模型来预测晶体内部的应力张量。这样的模型必须是“框架无关”的——它的预测不能依赖于观察者的视角。但它也必须尊重晶体本身的特定内部对称性，无论是石墨烯的六边形图案还是食盐的立方晶格。先进的等变模型可以做到这一点，既包含了物理学的普适定律，也包含了所研究材料的特定[点群对称性](@article_id:308235)，从而产生了极其精确的材料行为数据驱动模型。

通用工具包：超越物理学的对称性

这些思想的美妙之处在于它们并不局限于物理学和化学。原理是普适的：当你遇到的问题，其答案具有已知的对称性时，你就可以通过将该对称性编码到模型架构中来构建一个更好、数据效率更高的模型。这是几何深度学习领域的核心概念。

例如，如果你正在对细胞图像进行分类以检测疾病，而诊断结果不应取决于显微镜载玻片的方向，你就可以使用一个旋转等变网络。通过内置对称性，模型不必浪费宝贵的数据去学习这个显而易见的事实；它可以将其能力集中在学习那些真正指示疾病的微妙形态学特征上 [@problem_id:2_456331]。

然而，必须小心。施加对称性是一个强大的约束，但施加错误的对称性可能是灾难性的。考虑手性，即分子的“手性特征”。许多药物都是手性的，通常只有一种“手性”（对映异构体）是有效的，而另一种可能是惰性的，甚至是有害的。一个分子和它的镜像通过瑕旋转（一种反映）相关联。如果我们构建一个对反映不变的特征模型，它在物理上将无法区分这两种对映异构体——它会认为它们是相同的。这凸显了一个微妙但关键的点：必须仔细地将模型的对称性与所预测性质的精确对称性相匹配 [@problem_id:2_456331]。

双刃剑：对称性破缺

我们已经赞美了强制对称性的力量。但在最后，一个美妙的转折是，我们发现自然界中——以及机器学习中——一些最深刻的现象源于对称性的破缺。

考虑氧分子 $O_2$ 。在其基态下，它在一组简并（等能量）轨道中有两个未配对的电子。最对称的解，即电子密度完全均匀分布，实际上并不是能量最低的状态。为了达到真正的基态，电子必须自发地“打破”对称性，以一种降低它们相互排斥的方式进行局域化。一个从对称的初始猜测开始并严格强制对称性的计算化学程序可能会卡在这个高能量、非物理的状态，完全错过了正确答案 [@problem_id:2_453655]。

这才是重点：这个完全相同的“对称性困境”是训练神经网络中的一个经典问题。如果你将网络某一层的所有权重初始化为相同值（一种完全对称的状态），那么每个神经元的梯度更新也将是相同的。网络的对称性将被完美地保留，但它会卡住，无法学习，这类似于量子化学计算卡在错误状态的情况。解决方案是什么？我们从一开始就通过用小的随机数初始化权重来故意打破对称性 [@problem_id:2_453655]。

但故事变得更加惊人。有时，你甚至不需要手动打破对称性。学习的动力学可以为你做到这一点。想象一个初始化在完全对称状态的网络，就像铅笔尖上的微妙平衡。这个状态对应于损失地貌中的一个鞍点。任何无穷小的扰动——甚至是浮点计算机算术中不可避免的微小舍入误差——都可能足以将系统从这个悬崖边上推开。反向传播可以放大这种微小的初始不对称性，导致不同神经元的权重发散，并探索不同、更强大的配置。这种现象，即系统自发地找到一个对称性较低但能量更低（损失更低）的解，是自发对称性破缺的直接类比，这个概念支撑着从磁性到宇宙中质量起源的一切，而它就发生在我们学习算法的内部。

这段旅程——从简单的不变性到对称性破缺的微妙之舞——揭示了整合这些原理不仅仅是一种巧妙的工程技巧。它是关于教我们的模型物理世界的基本语法。这是一条通往不仅更准确、更高效，而且对它们试图描述的宇宙有了更深刻、更有意义、更直观的理解的算法之路。