
在原子层面模拟材料的行为是现代科学的一大挑战。任何系统——从一滴水到复杂的蛋白质——的性质和动力学都由一个被称为势能面(PES)的复杂高维景观所决定。尽管量子力学为这一景观提供了精确的规则,但其计算成本高得令人望而却步,无法应用于与现实世界相关的大系统和长时间尺度。量子理论的精确性与实际问题的尺度之间的这种差距,长期以来一直是计算发现的障碍。
本文探讨了一种弥合这一差距的革命性解决方案:机器学习势(MLP)。这些强大的工具直接从量子力学数据中学习原子位置与能量之间的复杂关系,从而创建出高度精确且计算高效的模型。在接下来的章节中,我们将从基本理论走向前沿应用。第一章“原理与机制”将解构MLP的工作原理,从如何为机器表示分子,到学习的核心理念、数据生成的挑战以及物理定律的关键整合。第二章“应用与跨学科联系”将展示这些势如何被用于解决材料科学、化学和物理学中的艰巨问题,从而彻底改变我们模拟和预测物质行为的能力。
想象一下,试图预测一滴水中数万亿个原子的复杂舞蹈。每个原子都遵循量子力学所规定的一套复杂规则,相互推拉。要在计算机上模拟这一点,我们需要知道“舞蹈的规则”——即对于原子所有可能的排列方式,系统的能量是多少。这种从原子位置到单一能量值的映射关系,被称为势能面(PES)。所有化学和材料科学都在这个高维景观上展开。
我们之所以能够定义这样一个静态的景观,得益于 Born-Oppenheimer 近似。该近似明智地指出,轻盈灵活的电子会几乎瞬间地围绕着沉重迟缓的原子核重新排列。对于原子核位置的任何固定快照,电子会稳定在其最低能量状态,从而在势能面上定义一个点。每个原子受到的力就是这个景观的下坡斜率,即。机器学习势(MLP)的目标雄心勃勃得令人惊叹:从少数示例数据点中学习这个极其复杂的高维景观的整个形状。
但这个景观并非任意的。它继承了物理定律的基本对称性。如果你在空间中平移或旋转整个原子系统,能量不能改变。如果你有两个相同的原子,比如两个氢原子,然后交换它们的标签,能量也必须保持不变。任何成功的MLP都必须从一开始就尊重这些基本的不变性。
在机器能够学习之前,它需要能够“看见”。我们如何将一个分子表示成计算机可以处理的数字向量,而不是一堆模糊的球和棍?这就是表示的关键问题,它远非小事。表示必须是每种分子几何构型的唯一指纹,而且正如我们所见,它必须对平移、旋转和相同原子的置换保持不变。
一个早期优雅的尝试是库仑矩阵。想象一个包含个原子的分子,对应一个对称的矩阵。非对角元素就是原子和原子的原子核之间的库仑排斥能,。对角元素被选择用来表示原子本身的能量,例如,作为核电荷的多项式拟合,。这个矩阵自动对平移和旋转保持不变,因为它只依赖于原子间距离。
但是置换呢?如果我们交换原子1和原子2,矩阵的行和列就会被打乱。矩阵本身改变了!这是个问题。我们如何创建一个唯一的指纹呢?一个想法是强制执行一个规范的排序。例如,我们可以根据某个规则(比如行范数的大小)对矩阵的行和列进行排序。这给出了一个唯一的矩阵,但它引入了一个可怕的缺陷:不连续性。想象一下两个范数几乎相同的行。一个微小的振动可能导致它们的顺序翻转,从而在表示中产生一个突然的大跳跃。学习算法会对此感到完全困惑。
另一个更复杂的想法是使用本质上具有置换不变性的特征。对于任何矩阵,其特征值集合(其谱)在行和列被打乱时保持不变。使用库仑矩阵的特征值作为描述符,漂亮且连续地解决了置换问题。然而,它引入了一个新的、更微妙的问题:原则上,两种不同的分子几何构型可能拥有具有完全相同特征值集合的库仑矩阵(这种现象被称为“同谱”)。虽然罕见,但这意味表示并非完全唯一。这段从简单的物理想法到其实现中微妙挑战的历程表明,构建一个好的描述符是创建MLP过程中的一个深刻且核心的challenge。
一旦我们能够描述一个分子,我们该如何构建学习机器本身呢?两种主要的哲学已经出现,它们都植根于物理相互作用的结构。
全局方法是最直接的:它试图一次性学习整个系统的完整函数。虽然概念上简单,但随着原子数的增长,这变成了一项艰巨的任务,因为景观的维度()会爆炸式增长。
局域方法是一种更巧妙的“分而治之”策略。它做出了一个极其简单而强大的假设:一个系统的总能量仅仅是每个独立原子贡献的总和。
每个原子的能量被假定仅取决于其在某个截断半径(通常只有几埃)内的直接邻居的构型。这在直觉上是合理的——化学键合主要是一种局域现象。这种局域分解具有深远的优势。它确保能量自然地随系统大小缩放(这一性质称为尺寸广延性),并且计算成本随原子数量线性缩放,即。这是解锁数百万原子模拟的关键,远远超出了用于生成训练数据的量子力学方法的范围。
机器学习模型的好坏取决于其训练数据。但对于MLP来说,什么样的数据才算是“好”数据呢?这不仅仅是数量问题;关键在于要覆盖模型将来看可能遇到的所有情况。训练集必须是势能面相关部分的代表性图集。
如果我们想让MLP模拟水,它需要看到水作为固体(冰)、液体和气体(蒸汽)的例子。它需要看到不同温度和压力下的水。一个只在冰上训练的模型将不知道如何描述液态水。
此外,标准的模拟大部分时间都停留在低能盆地中。它很少(如果不是从不)自发地采样到决定化学反应的高能过渡态。对于一个能量壁垒仅为 eV的反应,室温下的模拟将不得不等待永恒的时间才能看到一次成功的跨越。如果我们希望我们的模型能够描述反应,我们不能靠运气。我们必须使用偏置采样技术来迫使系统越过壁垒,并沿着反应路径收集数据。
这就是主动学习概念作为一个绝妙策略的用武之地。我们不是盲目地生成数百万个数据点,而是从一个小的、多样化的种子集开始。我们训练一个初步模型,然后用它来运行模拟。我们让模型自己告诉我们它在哪些地方最不确定(我们稍后会看到如何做到这一点)。然后,我们只对那些少数的、信息量大的构型执行昂贵的高保真度量子计算,并将它们添加到我们的训练集中。这个反馈循环使我们能够以最高的效率构建一个全面而准确的训练集。
为不同目的构建的数据集之间存在着鲜明的差异。像QM9这样的早期数据集包含数千个小型有机分子,但仅限于它们单一的、弛豫的、低能的几何构型。它们非常适合训练用于预测平衡性质的模型,但对于训练用于分子动力学的势来说毫无用处。相比之下,像ANI系列这样的现代数据集是专门为训练稳健的势而设计的。它们包含数百万个非平衡、高能和扭曲的构型——这正是一个系统在动态模拟中探索的那种“不快乐”的分子——而且至关重要的是,它们包含了每个构型的原子作用力。
好了,我们已经构建了一个漂亮的MLP。我们用它来进行分子动力学模拟,根据牛顿定律来推进原子的运动。任何此类模拟的一个基本检验是总能量的守恒。当力来自MLP时,能量守恒会发生什么?
一个常见的担忧是,如果模型只在能量上进行训练,那么由它派生出的力可能不准确并破坏能量守恒。这是一个微妙但深刻的误解。关键在于保守力的概念。如果一个力是某个势的梯度,那么它就是保守的。在我们的MLP中,力不是独立近似的;它们是作为MLP学习到的能量函数的精确解析导数来计算的。这意味着,从其构造上讲,力场相对于势是保守的。
因此,在连续时间的理想世界中,MLP自身的总能量是完全守恒的。该模型是内部自洽的。我们在真实模拟中看到的任何微小波动或能量漂移,都来自于我们没有精确求解牛顿方程,而是使用了具有有限时间步长的数值积分器(如velocity Verlet算法)。误差在于数值积分,而不在于MLP本身的原理。
然而,还有一个更深层次的麻烦来源。如果我们的MLP虽然内部自洽,但其学习到的景观与真实的物理景观相比存在微小但系统的误差怎么办?假设MLP的力有一个微小的、有偏的误差,。这个误差就像一个“幽灵力”一样,不断地推动系统。随着系统的移动,这个幽灵力做功,,系统地向系统中注入或从中抽取能量。结果是总能量随时间线性漂移。而且至关重要的是,这种漂移是模型不准确性的内在属性。减小模拟时间步长会使模拟更忠实于错误的动力学,但不会消除漂移。这给我们一个重要的教训:内部自洽性不等于物理准确性。
局域的“分而治之”方法,尽管威力强大,但有一个致命弱点。物理并不总是局域的。考虑模拟盒子两端的两个离子。它们感受到一个随衰减的库仑力。或者考虑两个中性但可极化的分子。它们感受到一个随衰减的范德华色散力。这些相互作用是长程的。一个原子感受到来自系统中所有其他电荷的集体静电场,而不仅仅是那些在比如6 Å这样的小截断半径内的电荷。
一个严格局域的MLP在其截断范围之外是“盲目”的。对于相距超过的两个分子,模型会认为它们的相互作用能完全为零。这显然是错误的,并导致无法描述无数现象,从离子液体的结构到蛋白质的折叠。
那么,我们该如何解决这个问题呢?最优雅的解决方案不是强迫MLP去做它根本不适合做的事情,而是构建一个混合模型,结合两者的优点。我们将能量分解为:
MLP凭借其巨大的灵活性,负责学习定义化学键和空间排斥的复杂、量子力学的短程相互作用。对于长程部分,我们使用我们已经知道是正确的、明确的、源于物理的方程,比如用于静电的库仑定律和用于色散的形式。为了避免重复计算,这些物理项在短距离处被平滑地“阻尼”,由MLP接管。
更妙的是,长程物理的参数,比如每个原子的电荷或其极化率,不必是固定的。它们本身可以由一个响应原子局域化学环境的机器学习模型来预测。这使得电荷能够流动,极化率能够随着键的形成和断裂而改变,通过学习到的模式和已建立的物理定律之间美妙的协同作用来捕捉复杂的物理现象[@problemid:2796824]。
没有模型是完美的。一个成熟的科学工具的一个关键方面不仅是其准确性,还有其报告自身置信度的能力。对于一个MLP从未见过的分子,我们应该在多大程度上相信它的预测?这就引出了两种基本类型的不确定性。
认知不确定性是“模型的不确定性”。它源于知识的缺乏,通常是由于构型空间特定区域的训练数据稀疏。如果你让一个MLP预测一个奇异、扭曲的、与其训练集中任何分子都不同的分子的能量,它本质上是在猜测。一个估计这种不确定性的强大方法是训练一个模型的系综。如果系综中的所有模型对一个新的构型给出大相径庭的预测,这清楚地表明存在高的认知不确定性——它们正在外推到未知领域。这正是主动学习中用来请求新数据点的信号。因为它源于知识的缺乏,认知不确定性是可减少的:我们可以通过增加更多数据来降低它。
偶然不确定性是“数据的不确定性”。它代表了数据生成过程中固有的随机性或噪声。例如,如果我们的参考能量来自像量子蒙特卡洛这样的随机方法,每次计算都有一个统计误差棒。这种噪声是我们测量工具的一个基本属性。无论我们收集多少数据或我们的模型有多灵活,我们都无法消除这种内在的随机性。偶然不确定性是不可减少的。
理解这种区别对于构建稳健的模型、知道何时信任它们的预测以及何时保持怀疑至关重要。
我们把整个图景建立在Born-Oppenheimer近似的基础上——即存在一个单一、连续的势能面的想法。但当这个基础破裂时会发生什么?
在某些情况下,特别是在光化学(分子与光的相互作用)中,两个不同的电子态可能具有相同的能量。这些交叉点被称为锥形交叉。在这些特殊点上,Born-Oppenheimer近似急剧失效。单一势能面的景观不再平滑;它出现一个尖锐的尖点,就像一个圆锥的顶点。力变得不连续,而允许系统在不同势能面之间“跳跃”的非绝热耦合变得无穷大。
一个标准的MLP,通常是一个平滑函数,不可能表示这样一个尖点。用一个平滑模型去拟合一个尖点会将其“磨圆”,完全错误地表示了支配超快化学过程(如人眼中的视觉或DNA的光稳定性)的物理学。
解决方案需要一种更复杂的方法。我们不能只教机器学习一个标量能量,而必须教它学习一个小的能量和耦合矩阵,称为透热表示。这个矩阵的元素是MLP可以轻松学习的平滑函数。然后,通过动态计算这个学习到的矩阵的特征值,可以得到具有特征性尖点的物理绝热能量。这个漂亮的策略将数学奇点从被学习的对象转移到了使用它的算法上,使我们能够模拟即使是那些单一、简单景观概念失效的最复杂的量子现象。这种持续的相互作用——在不断尊重潜在的、有时甚至是奇怪的量子物理定律的同时,推动可学习范围的边界——正是使机器学习势的发展成为一场激动人心的科学冒险的原因。
我们花了一些时间学习游戏的规则——那些让机器能够从严谨的量子力学定律中学习原子复杂舞蹈的原理和机制。但知道规则是一回事,玩转游戏又是另一回事。我们能用这些卓越的工具做什么?它们能带我们去向何方?
你看,一个新科学仪器的真正价值不在于其自身的巧妙,而在于它让我们能够探索的新世界。机器学习势不仅仅是一种更快地计算我们已知事物的方法;它们是一把钥匙,打开了通往我们以前只能梦想的、具有巨大规模和复杂性问题的大门。在本章中,我们将从抽象的原理走向有形的科学前沿,看看这些势如何彻底改变从材料科学到生命研究的一切。
在起飞之前,我们必须绝对确定我们的飞机是可靠的。一个机器学习势在其训练领域内可能精确无比,但当它遇到一个从未见过的情况时会发生什么?后果可能是灾难性的。
想象一下,我们想为一个简单的双原子分子建模。真实的势能,比方说一个Morse势,具有一个我们熟悉的形状:在平衡键长附近有一个势阱,然后当原子被拉开时,它会变平到一个恒定值。这个平坦的区域对应于分子断裂,其高度是解离能。现在,假设我们只使用势阱底部的数据来训练一个简单的多项式模型——一个完全合理的局域近似。这个模型可能完美地拟合了平衡点附近的数据。但是当我们拉伸化学键时会发生什么呢?我们这个对断键毫无概念的简单多项式会继续向上延伸,或许会达到一个峰值,然后灾难性地向下暴跌。如果我们天真地将这个有缺陷曲线的峰值定义为“解离能”,我们可能会发现我们的预测不是偏离几个百分点,而是相差巨大——在一个说明性的模型中,预测的能量仅为真实值的!。这是关于外推危险的一个严酷教训。
这告诉我们,低的训练误差是不够的。我们必须让我们的势经受严格的测试,以探究它们的物理真实性。模拟世界为我们提供了完美的试验场:统计力学的基本系综。
最重要的测试之一是在微正则系综(或系综)中进行模拟,其中粒子数()、体积()和总能量()应保持恒定。对于一个真实的物理系统,总能量是完全守恒的。对于数值模拟,由于有限的积分时间步长,总会有微小的误差。但是,如果我们的势不是保守的——也就是说,如果力不是能量的真实负梯度——总能量就会系统性地漂移,随时间流失或累积。通过运行短时间的模拟并测量这种能量漂移,我们可以对我们的势获得巨大的信心(或毁灭性的怀疑)。一个稳定的势,在一个相当小的时间步长下,其能量应在数百万步内保持非常恒定。
另一个强大的测试涉及正则系综(或系综),其中系统保持在恒定温度下,如同连接到一个大的热浴。在这里,能量均分定理告诉我们平均动能由温度决定。但更重要的是,动能的涨落必须遵循一个特定的统计分布。如果我们的ML势导致系统行为异常——也许是由于存在不符合物理的过硬或过软的模式——恒温器将会挣扎,温度涨落将偏离预期的行为。验证我们的模拟既能重现正确的平均温度,又能重现正确的方差,是对我们模型物理合理性的一个微妙而有力的检验。
只有当一个势通过了这些严格的测试,我们才能开始相信它是一个物理现实的忠实代表。
材料科学的宏伟目标之一是理解和预测真实材料的性质,而真实材料从来不是教科书中完美、无限重复的晶体。它们有表面、晶界、裂纹和缺陷。这些不完美之处不仅仅是瑕疵;它们往往决定了材料最重要的性质,如其强度、导电性或催化活性。
在这里,我们面临一个经典的可移植性挑战。我们可以在一个包含各种应变下完美体相晶体的大型数据集上训练一个ML势。模型可能会以惊人的精度学习到这个高度对称环境中的相互作用。但这些知识会迁移到表面的混乱、低对称性环境中吗?例如,一个在体相硅上训练的势能能否预测(100)表面上的硅原子重新排列的方式,即断开旧键并形成新的“二聚体”以降低其能量?。
这是一个深刻而困难的问题。一个ML势在这些新环境中的成功或失败,是衡量它学习底层物理规律程度的标尺,而不仅仅是记忆训练数据中的模式。开发能够用单一、统一模型描述体相、表面和缺陷的可移植势是一个重要的前沿领域,它预示着未来我们可以模拟材料从合成到在应力下失效的整个生命周期。
化学的核心是化学键。但并非所有键都是生而平等的。考虑一下氢键——这种微妙的静电吸引力将水分子连接在一起,赋予DNA双螺旋结构,并决定蛋白质的形状。它比一个简单的弹簧要复杂得多;其强度敏感地依赖于三个原子(一个供体、一个氢和一个受体)之间的距离和角度。
经典力场常常难以高保真地捕捉这种角度依赖性。在这里,ML势大放异彩。通过向神经网络输入对局域原子环境的描述——一组以对整个分子旋转或平移不变的方式描述邻近原子相对位置的数字——我们可以训练它以量子化学的精度预测氢键能量。这使我们能够构建出捕捉这些关键相互作用的精妙特异性的模型。
将我们的精度集中在最重要的地方,这种思想是多尺度建模的精神所在。想象一下模拟一种酶,一种作为生物催化剂的巨大蛋白质。真正的化学反应发生在一个叫做活性位点的微小区域,那里的几个关键原子执行化学反应。蛋白质的其余部分,以及周围成千上万的水分子,构成了环境。用高水平的量子力学()处理整个系统在计算上是不可能的。因此,我们使用混合的方法:我们用处理活性位点,用更快的分子力学()方法处理广阔的环境。ML势可以作为“黄金标准”的MM力场,为环境以及至关重要的QM和MM区域之间的相互作用提供接近量子的精度。这需要仔细的模型设计,其中ML势正确地描述了QM和MM区域相互施加的力,真正地连接了量子和经典世界。
到目前为止,我们一直将原子视为经典的台球,根据牛顿定律在机器提供的势能面上运动。但原子,特别是像氢这样的轻原子,是量子物体。它们的位置和动量是模糊的,受不确定性原理支配。它们拥有零点能,即使在绝对零度下也不断振动,并且它们可以“隧穿”过在经典世界中无法逾越的能量壁垒。
我们如何才能捕捉到这种奇怪但至关重要的量子行为?首选的方法是虚时路径积分。在这个优美的表述中,一个单一的量子粒子被映射到一个经典的“环状聚合物”上——一串珠子组成的项链,每个珠子代表粒子在不同虚时“切片”上的位置。这些珠子由弹簧连接,弹簧的刚度取决于粒子的质量和温度。这个聚合物在空间中的离域代表了粒子的量子模糊性。
路径积分模拟功能极其强大,但代价高昂:必须在每个时间步为每个珠子计算势能和力。如果我们有个珠子(一个常用数值),模拟的成本是经典模拟的32倍。正是在这里,ML势创造了范式转变。
绝妙之处在于:描述电子相互作用的势能面是由原子核的位置决定的,而不是它们的质量。对于氢原子和其较重的同位素氘,势能面是相同的。所有依赖于质量的量子效应都由路径积分机制处理——即连接珠子的弹簧。因此,我们可以训练一个单一的、不依赖质量的ML势在Born-Oppenheimer势能面上。然后,我们在路径积分模拟中使用这个速度极快的势。ML势提供了景观,而路径积分动力学则捕捉了在该景观上的量子原子核之舞。
这种组合使我们能够以前所未有的效率计算纯粹的量子现象,比如动力学同位素效应(KIE)——当一个原子被其同位素取代时反应速率的变化。我们终于有能力运行足够长的、包含足够多珠子的模拟来收敛这些微妙的量子效应,将一项曾经艰巨无比的任务变成了一项可管理的任务。
最终,我们希望预测物质的稳定相、化学反应的速率以及药物与其靶蛋白的结合亲和力。这些性质不仅仅由势能决定,而是由一个更微妙、更强大的量决定:自由能。自由能同时考虑了能量和熵,它告诉我们系统处于特定状态的概率。然而,计算自由能是出了名的困难,因为它需要对系统构型空间的广阔可能性进行采样。
这或许是ML势最令人兴奋的应用:它们可以充当“超级采样器”。我们可以用一个快速的ML势进行极长时间的模拟,以探索分子的构象景观或液体的可能排列。然后,我们可以使用统计力学中的强大技术,如自由能微扰()或热力学积分(),来重新加权结果,并恢复对应于高水平量子理论的精确自由能。这就像用一支快速的无人机舰队(ML势)探索一个广阔的未知领域,然后在几个关键位置调用高分辨率卫星(QM计算)进行精确测量。我们甚至可以使用ML势来构建一个偏置,以“拉平”自由能景观,使模拟能够轻松逃离深谷并翻越高山[@problemid:2648605]。
这就引出了最后的、优美的想法:主动学习。与其在一个巨大的、预先选择的点网格上训练我们的势,不如让模型告诉我们它在哪些地方需要更多信息?在主动学习中,我们训练一个模型的系sembl。在它们见过大量数据的区域,它们都达成一致。但在未知领域,它们的预测出现分歧。它们预测的方差成为模型自身不确定性的地图。然后,我们可以利用我们宝贵的计算预算,在模型最不确定的地方精确地执行新的高水平QM计算。模型变得更聪明,不确定性缩小,这个过程不断重复。这是理论与机器之间的对话,是一种智能而高效的方式来建立对系统势能面的全面理解。
从验证其基本完整性到用它们探测量子世界和绘制广阔的自由能景观,机器学习势已远不止是一种计算捷径。它们是一种新型的科学仪器,是连接量子与宏观、精确与经济的桥梁。它们正在开启一种新的计算发现模式,以新的活力解决老问题,并开启我们才刚刚开始学习如何提出的科学问题。