机器学习势函数

玻尔百科

定义

机器学习势函数是一种材料科学与化学领域的计算方法，旨在通过近似量子力学势能面，以较低的计算成本实现高精度的大规模模拟。该技术基于局部性原理将系统总能量分解为原子邻域贡献之和，并要求模型在设计上必须遵循能量守恒、平移、旋转及置换等物理对称性。通过利用集成学习和主动学习，机器学习势函数能够量化预测的不确定性，从而智能地探索复杂的材料特性与化学反应路径。

核心要点

机器学习势函数近似量子力学势能面，能够以显著降低的计算成本实现高精度的大规模模拟。
为了保证物理真实性，MLP 的设计必须内在地遵循能量守恒等基本定律以及平移、旋转和置换等物理对称性。
局域性原理允许将系统的总能量视为单个原子邻域贡献的总和，从而使学习问题变得易于处理。
通过使用系综和主动学习，MLP 可以量化自身的不确定性并智能地扩展其知识，从而能够探索复杂的材料和反应路径。

引言

物质在原子尺度上的行为，从蛋白质的折叠到新合金的性质，都由原子间错综复杂的相互作用所决定。要准确预测这种相互作用，需要借助量子力学定律，但巨大的计算成本将此类模拟限制在仅几百个原子和极短的时间尺度内。这在我们需要的精度与我们希望探索的尺度之间造成了关键的鸿沟。机器学习势函数 (MLP) 作为一种革命性的解决方案应运而生，它在量子计算的精度与大规模模拟所需的速度之间架起了一座桥梁。本文将探索 MLP 的世界，全面概述其理论基础和实践能力。在接下来的章节中，我们将首先探讨确保这些模型在物理上合理的基本原理和机制，从能量守恒到基本对称性。随后，我们将遍览 MLP 所开创的各种应用和跨学科联系，展示它们如何在新科学发现的前沿领域发挥作用。

原理与机制

要理解机器学习势函数，我们必须首先踏上一段进入原子世界的旅程。这个世界不受我们宏观经验中熟悉的定律支配，而是由量子力学那些微妙而强大的规则所主导。想象一个广阔无垠、无形的山水景观，充满了山丘、山谷和蜿蜒的山路。这个景观就是势能面 (Potential Energy Surface, PES)，它是化学和材料科学所有戏剧性过程上演的舞台。这个表面上的每一点都对应着一种特定的原子排列，其高度代表了该排列的势能。一个原子，就像一个在该表面上滚动的弹珠，总是会受到一个将其推向“下坡”方向的力，即推向能量更低的区域。任何一点的坡度陡峭程度告诉我们力的大小；在数学上，力是势能的负梯度，这个关系写为 $\mathbf{F} = -\nabla E$ 。

这个景观并非随意形成。它是电子行为的直接结果。根据玻恩-奥本海默近似 (Born-Oppenheimer approximation)，对于任何给定的原子核排列，电子被假定会瞬间找到它们的最低能量状态。即使是为少数几个原子计算这个量子力学能量，也是科学中计算要求最高的任务之一。要在时间上演化成千上万个原子——观察一个蛋白质折叠或一个晶体生长——如果我们必须不断停下来解决完整的量子问题，那将是一个不可能实现的梦想。这就是机器学习势函数的用武之地：它们是一条绝妙的捷径，试图在每一步都无需支付全部量子计算代价的情况下，学习这个极其复杂的景观的形状。

景观的物理学：保守力与基本对称性

在我们教机器识别这个景观之前，我们必须首先理解它的基本规则——那些“不容商量”的物理定律。其中最关键的是，力必须是保守的。这是什么意思？想象一下你登山。你克服重力所做的功只取决于你的起点和终点的高度，而与你所走的蜿蜒路径无关。当你下山时，重力对你做功，如果你回到起点，所做的净功为零。这就是保守力的本质。

在我们的原子世界里，这意味着将一个原子从一种构型移动到另一种构型所做的功与路径无关，并且一个孤立系统的总能量是守恒的。如果一个力场不是保守的——如果力不是某个单值势能函数的精确梯度——那么在模拟中，让原子沿闭合路径移动就可能凭空创造或消灭能量。这将构成一台永动机，违反了最基本的热力学定律。因此，任何有效的势函数，无论是机器学习的还是其他的，都必须确保力严格地由势能的负梯度导出。

除此之外，这个景观还必须遵循一套深刻的对称性，反映了空间的性质和粒子的同一性：

平移和旋转不变性：物理定律不取决于你在宇宙中的位置或你面向的方向。一个水分子的能量在你的实验室里和在遥远的星系中是相同的；它只取决于其氢原子和氧原子的相对位置，而不是它在空间中的绝对位置或朝向。任何 PES 模型都必须对系统的整体位置和朝向不敏感。
置换不变性：量子力学告诉我们，所有同类粒子都是完全相同、不可区分的。每个氧原子都是其他所有氧原子的完美克隆。如果一个系统中有两个氧原子，而你悄悄地交换它们，能量必须保持完全相同。我们的模型必须尊重这种不可区分性。

局域性原理：一个原子的世界是它的邻域

至此，我们触及了使得机器学习势函数不仅可行，而且异常有效的核心洞见：局域性原理。一个原子在很大程度上只感受到其紧邻原子的影响。一块硅中某个原子受到的力，是由与之成键及附近的少数其他硅原子决定的，而不是由晶体另一端的原子决定的。因此，一个大系统的总能量可以看作是各个原子能量贡献的总和，其中每个贡献仅由该原子的局域环境决定。

这个想法看似是一个直观的近似，但它在所谓的Kohn 的近视原理 (Kohn's principle of nearsightedness) 中有深刻的物理依据。对于电绝缘体或半导体材料，电子需要克服一个能隙才能被激发。这个能隙带来一个深远的结果：任何局域扰动（如移动一个原子）的影响会随距离指数级衰减。电子结构在根本上是“近视”的。对于金属而言，在绝对零度时情况更为微妙，但在任何实际的有限温度下，热效应也会诱导一种有效的近视性。

这种局域性是一份礼物。它意味着我们不必为整个系统学习一个单一、庞大的函数，那将是无可救药的复杂。相反，我们可以学习一个简单得多的函数，它将一个局域原子环境映射到一个能量贡献。这使得问题变得易于处理，并允许模型的计算成本随原子数量线性扩展，这是大规模模拟的一个关键特性。然而，我们必须小心：一些物理相互作用，如带电离子间的长程静电引力或微妙的量子范德华力，并非局域的。这些通常需要用独立的、基于物理的模型来处理，与局域的机器学习部分协同工作。

学习机器的蓝图

我们如何构建一个既能学习 PES 又能遵守所有这些规则的模型？由 Jörg Behler 和 Michele Parrinello 开创的主流现代架构提供了一个优雅的蓝图。

分解：首先，总能量被写成原子贡献的总和： $E = \sum_{i} E_i$ 。这个简单的步骤功能强大。它立即确保模型是广延的（如果你将不相互作用的原子数量加倍，能量也会加倍）并满足置换不变性（交换两个相同的原子只是重新排列了求和中的项，总和保持不变）。
描述：接下来，对于每个原子 $i$ ，我们必须以一种对平移、旋转和其邻居的置换都不变的方式来描述其局域邻域。我们通过创建一个称为描述符的环境数学“指纹”来实现这一点。该描述符是一个由与固定截断半径内邻近原子的距离和角度计算出的数值向量。通过设计，如果整个邻域被移动或旋转，这个指纹不会改变。这巧妙地将所需的对称性编码到模型的输入中。
回归：最后，我们使用一个灵活的机器学习模型——回归器——来学习从不变的描述符指纹到原子能量贡献的映射， $E_i = f(\text{descriptor}_i)$ 。这个函数 $f$ 是在一个大型数据集上训练的，该数据集包含了原子构型及其对应的能量和力，这些数据都是事先通过昂贵的量子力学方法计算出来的。

这种“分解-描述-回归”的架构是一个通用框架。该领域的神奇和多样性来自于对描述符和回归器的不同选择。在这个 ML 势函数动物园中，一些流行的“物种”包括：

神经网络势 (NNP)：这些势函数使用深度神经网络作为回归模型 $f$ 。由于神经网络是通用函数逼近器，它们非常灵活，可以学习高度复杂和精确的能量景观。
高斯近似势 (GAP)：这些势函数使用一种称为高斯过程回归的贝叶斯方法。GAP 的一个关键优势是，它们不仅提供能量预测，还提供对其自身不确定性的原则性估计，我们将会看到这非常有用。
线性势 (MTP, SNAP)：这些模型，如矩张量势 (MTP) 和谱邻域分析势 (SNAP)，使用非常复杂的描述符来构成一个数学基。能量随后只是这些基函数的简单线性组合。这使得它们的训练和评估异常快速。

模型的选择也影响着诸如所学景观的光滑度等关键属性。为了计算振动频率等性质，我们不仅需要力（能量的一阶导数），还需要景观的曲率（二阶导数，或 Hessian 矩阵）。由光滑函数（如多项式或某些神经网络激活函数）构建的模型对于此是必需的。

信任，但要验证：有效域

机器学习势函数是一个强大的工具，但像任何工具一样，它有其局限性。一个仅在室温液态水上训练的模型，对于-100°C 的冰或 200°C 的蒸汽可能会给出无意义的预测。这引出了一个关键概念：有效域，即我们可以信任模型预测的原子构型区域。当一个模型在其训练期间见过的构型之间进行内插时，它是最可靠的。当它被要求外推到一个全新的环境类型时，其预测可能会变得不可靠。

现代 ML 势函数有巧妙的方法来监控自身的可靠性，通常是通过量化不确定性。这种不确定性有两种：

认知不确定性 (Epistemic Uncertainty)：这是模型的“我不知道”的不确定性。它源于训练数据有限。在训练期间被充分采样的景观区域，这种不确定性低；在未探索的区域，则高。我们可以通过训练一个由多个模型组成的系综并测量它们的分歧来估计它。当它们都同意时，我们有信心；当它们分歧很大时，我们应保持谨慎。这种不确定性可以通过在不确定区域添加更多数据来减少。
偶然不确定性 (Aleatoric Uncertainty)：这是“无法被知道”的不确定性。它代表了训练数据本身固有的噪声或随机性，可能源于用于生成数据的量子计算的有限精度。这种不确定性是数据本身的属性，不能简单地通过添加更多相同类型的数据来减少。

通过在模拟过程中跟踪这些不确定性，科学家可以获得一个实时警告，告知系统是否正在漂移到一个势函数不再可信的构型中。这使得设计“主动学习”工作流成为可能，即模拟被暂停，对不确定的构型执行一次高保真度的量子计算，然后将这个新的数据点用于重新训练和改进模型。这种物理原理、数据驱动学习和自我修正的美妙结合，使得机器学习势函数成为当今物理科学中最激动人心的前沿领域之一。

应用与跨学科联系

我们已经看到，如何通过直接从严谨但缓慢的量子力学计算中学习，教会机器原子间相互作用的基本定律，从而学习势能面。乍一看，这似乎仅仅是一种便利——一个加速我们旧有模拟的聪明技巧。但如果仅从这个角度看，就完全错失了重点。机器学习势函数 (MLP) 不仅仅是为了让事情变得更快；它们是为了让全新类型的科学探究成为可能。它们是一种新型的计算显微镜，让我们能够以前所未有的广度和深度探索原子世界，这是我们过去只能梦想的。现在，让我们踏上一段旅程，看看这个新仪器能揭示什么。

可能性的艺术：模拟复杂性

大自然是绚丽而复杂的。我们在入门教科书中学习的完美、重复的晶体是一种理想化。真实的材料，特别是现代先进材料，通常是不同元素的复杂混合体。考虑一类被称为高熵合金 (HEA) 的材料。它们不像传统合金那样拥有一两种主要元素，而是像一种原子鸡尾酒，将五种或更多种元素以近乎相等的比例混合在一起。这种化学无序性赋予了它们非凡的性质，但也给模拟带来了噩梦。你如何模拟一个每个原子邻域都独一无二的材料？要用密度泛函理论 (DFT) 这个“金标准”来模拟每一种可能的排列，将耗费不止一生之久。

这正是 MLP 真正力量开始闪耀的地方。它们催生了一种被称为主动学习或“在线”训练的范式。想象一下，MLP 是一个正在进行模拟的勤奋学生。对于它遇到的大多数原子排列，它可以利用已经学到的知识自信地预测力。但偶尔，它会遇到一个真正新颖的构型，一个它前所未见的化学环境。在这一点上，学生变得不确定。它不会去猜测，而是暂停模拟并“请教老师”——它触发一次针对该特定构型的昂贵的单一 DFT 计算，以获得权威的答案。然后，它将这个新知识点添加到其训练集中并重新训练自己，变得更聪明、更稳健。模拟随后继续，此时已装备了新的智慧。

MLP 如何知道自己何时不确定？这是现代科学机器学习中最优美的思想之一：它咨询一个委员会。我们不只训练一个 MLP，而是训练一个完整的系综，比如 $M$ 个不同的势函数 $\{y_m(x)\}_{m=1}^M$ ，每个势函数的训练数据或初始参数略有不同。当面对一个新的构型 $x$ 时，我们向委员会的每个成员询问其预测。对真实能量或力的最佳猜测是它们答案的平均值， $\bar{y}(x) = \frac{1}{M} \sum_{m=1}^{M} y_{m}(x)$ 。但更重要的是，我们可以计算它们预测的方差， $s^2(x) = \frac{1}{M-1} \sum_{m=1}^{M} ( y_{m}(x) - \bar{y}(x) )^{2}$ 。如果所有委员会成员都同意，方差就很小，我们对预测就很有信心。如果它们分歧很大，方差就很大。这种分歧就是我们不确定性的信号！它告诉模拟：“这是一个新的前沿；是时候请教大师 DFT 了。”。这种自我评估不确定性的能力，将 MLP 从一个简单的计算器转变为一个用于科学发现的智能体。

从原子到性质：预测真实世界

原子模拟引人入胜，但材料科学家或化学家的最终目标是预测宏观的、可测量的性质。一种材料在真实世界中如何表现？它在什么温度下熔化？

让我们考虑预测材料熔点温度 $T_m$ 的问题。在计算上，一种常见的方法是建立一个固相和液相接触的模拟，然后观察哪个相会增长。在熔点，两相共存达到平衡。这需要长时间的模拟以使系统稳定下来。MLP 使这种长时间的模拟成为可能。但准确性又如何呢？

在这里，势函数的系综再次证明了其价值。我们委员会中的每个势函数 $U_{\theta_i}$ 都是对真实势能面的一个略有不同的近似。因此，每个势函数都会预测一个略有不同的熔点温度 $T_m^{(i)}$ 。这些值的平均值 $\bar{T}_m$ 给了我们对熔点的最佳预测。但这些 $T_m^{(i)}$ 值的离散度或方差告诉我们一些深刻的东西：它直接度量了我们预测中的认知不确定性——即源于我们对物理的模型学习不完美而产生的不确定性。

在任何模拟中，总有两个误差来源：源于模拟本身统计性质的偶然不确定性（比如模拟时间不是无限长），以及源于我们对世界的模型不完整的认知不确定性。MLP 委员会为我们提供了一种有原则的方法来估计和报告后者。我们现在不仅可以说“预测的熔点是 1500 K”，还可以说“熔点是 1500 K，源于我们势函数的不确定性是 $\pm 20$ K。” 这是诚实的、定量的科学。

反应之舞：绘制化学路径

到目前为止，我们讨论的都是处于或接近平衡态的材料。但世界是由变化定义的：化学反应、原子在晶体中迁移、分子组装和分解。这些过程由势能面的景观所支配。一个反应是从一个低能谷（反应物）到另一个（产物）的旅程，通常需要翻越一个“山口”——过渡态。这个山口的高度就是活化能垒，它决定了反应的速率。

找到这些最小能量路径是化学和材料科学的核心任务。一个强大的工具是微动弹性带 (Nudged Elastic Band, NEB) 方法，它通过优化连接反应物和产物状态的一系列系统“图像”来找到路径。NEB 的关键要素是精确的力——能量景观的局域斜率——以引导图像走向正确的路径。

在这里，我们面临工具的选择，每种工具都有其自身的权衡。我们可以使用 DFT，这位大师级建筑师，但为成千上万种可能的反应中链条上的每个图像计算力，其成本高得令人望而却步。我们可以使用经典的经验势，如嵌入原子方法 (EAM) 或反应力场 ReaxFF。这就像使用预制蓝图：快速高效，但它们固定的数学形式可能不够灵活，无法描述过渡态下复杂的成键变化，尤其是在像腐蚀界面或高熵合金这样的复杂环境中。

MLP 提供了第三条道路：一个直接从大师那里学习的学徒。通过在一个明确包含过渡态构型和力的数据集上训练 MLP（这些数据可能由最初的几次 DFT-NEB 计算生成），我们创造了一个既了解“山口”也了解“山谷”的势函数。MLP 通过最小化其预测力矢量与真实 DFT 力矢量之间的差异来学习力（能量的负梯度）——这个过程被称为力匹配。有了这个快速而准确的势函数，我们就可以探索成千上万的反应路径，以纯 DFT 成本的一小部分绘制出复杂材料的整个反应景观。

窥探量子世界：当原子核变得模糊

在我们的经典图像中，我们把原子想象成在能量景观上滚动的微小台球。但这幅图景是不完整的。原子，特别是像氢这样的轻原子，是量子力学对象。它们是“模糊的”。它们遵循不确定性原理。这带来了两个奇特而美妙的后果：它们拥有零点能，意味着即使在绝对零度下它们也在振动和晃动；它们可以隧穿能量壁垒，穿山而过而不是翻山越岭。

为了捕捉这些核量子效应，物理学家使用一种称为路径积分模拟的技术。在这个框架中，每个量子粒子被优美地想象成一个“环状聚合物”——一条由谐振弹簧连接的经典式珠子组成的项链。这条项链的大小和延展代表了粒子的量子“模糊性”。一个氢原子是一条大的、松软的项链；一个更重的氘原子则是一条更小、更紧的项链。

这种方法的计算成本是巨大的。在模拟的每一步，都必须为项链中的每一个珠子计算势能 $V(\mathbf{R})$ 。如果你用 32 个珠子来表示一个量子粒子，你的模拟速度就会慢 32 倍。但这里有一个关键的洞见。来自电子的势能景观 $V(\mathbf{R})$ 对每个珠子都是相同的，并且与原子的质量无关（这是玻恩-奥本海默近似）。连接珠子的量子“弹簧”是唯一依赖于粒子质量的部分。

MLP 学习的是函数 $V(\mathbf{R})$ 。这意味着我们可以用 MLP 的闪电般快速的评估来取代缓慢、重复的 DFT 势能计算，同时保持路径积分的整个量子机制不变！。突然之间，我们可以进行精确包含核量子效应的模拟，其成本与经典模拟相当。这使我们能够以前所未有的效率计算极其敏感的量子现象，如动力学同位素效应（当一个原子被其较重同位素取代时反应速率的变化）。这是量子统计力学与机器学习的深刻结合。

跨越尺度：从原子到工程

最终，我们希望我们原子尺度的理解能帮助我们在宏观世界中制造更好的东西——更高效的电池、更具韧性的材料、新的催化剂。我们如何跨越从埃到米的巨大尺度鸿沟？

让我们看看电化学问题，比如电池内部或腐蚀过程中发生的事情。设计电池的工程师不会模拟每一个原子。他们使用连续介质层面的方程，比如 Nernst-Planck 方程，它描述了离子浓度如何因扩散和电场而演变： $\mathbf{J}_i = -D_i \nabla c_i - \frac{z_i e D_i}{k_B T} c_i \nabla \phi$ 。这个方程很强大，但它依赖于像扩散系数 $D_i$ 和静电势 $\phi$ 这样的参数。这些参数从何而来，特别是在电极和电解质之间的复杂界面处，那里的体相值肯定是不对的？

这正是 MLP 提供关键链接的地方。首先，我们遵循一个细致的过程，专门为电化学界面构建一个高保真度的 MLP，用正确捕捉带电表面和溶剂化离子物理特性的 DFT 数据来训练它。然后，我们使用这个 MLP 来运行一个大的、纳秒尺度的界面分子动力学 (MD) 模拟。从 TB 级的原子轨迹数据中，我们可以直接计算工程模型所需的局域性质。我们可以测量离子在距表面不同距离处的扩散速度以得到 $D_i(x)$ ，并且我们可以平均电荷分布来求解局域静电势 $\phi(x)$ 。

这代表了一个完整的多尺度建模工作流程，一个以 MLP 为中心环节锻造的发现链。我们从量子力学 (DFT)，到一个学习到的势函数 (MLP)，到一个大规模原子模拟 (MD)，最后到宏观工程模型的参数。MLP 充当了通用翻译器，让不同尺度的物理学能够相互对话。

我们最初认为 MLP 是让模拟更快的方法。我们最终看到它们是计算科学新时代的基础工具——一个让我们能够处理前所未有的复杂性、量化不确定性、探索物质的量子本质，并同时将我们最基本的理论与现实世界的工程联系起来的工具。芯片中的宇宙不仅仅是我们已知事物的更快复制品；它是一个新的窗口，揭示了一个我们才刚刚开始探索的发现景观。