量子化学中的机器学习

玻尔百科

定义

量子化学中的机器学习是一个利用数据驱动模型进行快速且高精度量子力学预测的计算领域，该方法有效降低了生成传统参考数据集的高昂成本。这些模型通常将原子旋转和排列不变性等基本物理定律直接融入架构中，以确保模拟的物理真实性。该领域的应用范围广泛，涵盖了材料模拟、药物研发以及新型量子波函数的构建。

核心要点

机器学习模型用生成参考数据集的高昂成本换取了进行快速且高精度量子力学预测的能力。
将基本物理定律（如旋转不变性和原子置换不变性）直接整合到模型架构中，对于保证物理真实性至关重要。
结合了用于短程相互作用的灵活机器学习和用于长程力的基于物理公式的混合模型，同时实现了高精度和正确性。
机器学习在量子化学中的应用范围广泛，从模拟材料、预测光谱到辅助药物发现，甚至构建新型量子波函数。

引言

量子化学提供了支配原子和分子行为的基本规则，但精确应用这些规则的过程充满了巨大的妥协。最精确的方法，即我们计算分子能量和力的“金标准”，其计算成本极其高昂，以至于只能应用于小体系和短时间尺度。长期以来，这一计算壁垒限制了我们在从材料科学到药物发现等领域模拟复杂化学过程的能力。本文旨在通过探索机器学习的变革性潜力来应对这一长期挑战。它深入探讨了智能算法如何从数据中学习复杂的量子力学定律，以一小部分计算成本提供金标准方法的精度。以下章节将首先揭示使这些模型得以工作的核心原理与机制，从处理物理对称性到量化不确定性。随后，我们将遍览其多样的应用与跨学科联系，展示这些工具如何重新描绘物质的蓝图并推动科学发现的前沿。

原理与机制

在介绍了机器学习在量子化学领域的宏伟目标——以前所未有的速度捕捉电子和原子的复杂舞蹈之后——我们现在必须一窥其幕后原理。它是如何运作的？它真的是一种“魔法”，让机器神秘地学习自然法则吗？或者，它是某种更巧妙的东西，是物理学、数学和计算机科学的美妙结合？正如我们将看到的，真相更偏向后者。这些原理并非魔法，但却十分深刻，它们揭示了我们构建物理世界模型与我们建立智能算法之间深层次的统一性。

炼金术士的交易：以数据为代价换取精度

想象一下，您有一系列工具来建造房屋。您可以使用简单的手动工具——快速且便宜，但结果可能有些粗糙。这就像一种低水平的量子化学方法，比如使用最小的STO-3G基组的Hartree-Fock方法。它能给你一个快速、定性的图像，但它忽略了电子如何巧妙地相互避开的关键细节，这一现象我们称之为电子相关。在另一端，您拥有一个最先进的、由机器人辅助的建造设施。其结果是一座完美、精致的豪宅。这就是使用大型、灵活的相关一致基组的耦合簇（CCSD(T)）方法——量子化学中精度的“金标准”。这种权衡是显而易见的：完美是以惊人的计算成本为代价的。

机器学习模型提出了一个诱人的提议，一种炼金术士式的交易：以一小部分成本给我金标准的精度。一个简单的线性回归模型就像我们的手动工具——“容量”低，无法捕捉复杂的关系。而一个拥有数百万参数的深度神经网络（DNN）则像机器人化工厂——“容量”高，能够表示极其复杂的函数。机器学习势（MLP）的前景在于让DNN学习一个函数，该函数能将原子排布映射到其精确的CCSD(T)能量。

但天下没有免费的午餐。我们付出的“代价”不在于预测期间的计算成本（这很快），而在于训练过程中的巨大努力。为了训练模型，我们必须首先生成一个庞大且多样化的分子结构库，并使用昂贵的金标准方法计算它们的能量。这个数据生成过程，特别是参考的CCSD(T)计算（其成本可以随体系大小的七次方 $\mathcal{O}(N^7)$ 增长），通常成为整个项目中成本最高的部分。本质上，我们是在预先投入成本：我们计算几千或几百万个昂贵的数据点来构建一个工具，然后用这个工具几乎免费地预测数万亿个点。

这个“学习”过程实际上是怎样的？其核心是一个优化问题。这在化学中并非新概念。几十年来，科学家们通过在简化的物理模型中调整参数（ $\boldsymbol{\theta}$ ）来匹配实验数据或高水平计算，从而发展出半经验方法。这可以被完美地构建为一个监督机器学习问题：分子结构是输入特征（ $\mathbf{x}$ ），已知的能量或力是标签（ $\mathbf{y}^{\mathrm{ref}}$ ），目标是找到使损失函数（这只是总误差的一个花哨名称）最小化的参数 $\boldsymbol{\theta}$ 。

一个常见的选择是“能量-力联合”损失函数。它不仅试图使能量正确，还试图匹配力，而力是能量的导数。一个好的损失函数经过精心构建，以确保其无量纲，并能恰当地权衡来自单个能量值的信息与来自 $N$ 原子体系中 $3N$ 个力分量的信息。通常，这一过程由严格的统计学原理（如最大似然估计）指导，假设我们的参考数据中的误差具有某种特征，例如高斯分布。因此，“学习”并非魔法；它是一个定义明确的误差度量的系统化、自动化且高度复杂的最小化过程。

物理学家的语法：教机器理解对称性

你不能只通过背诵字典来学习一门语言。你需要理解语法——支配单词如何组合的规则。同样，我们不能期望机器仅仅通过展示数据来学习物理学。我们必须将物理定律的基本“语法”直接构建到模型的架构中。

这个语法是什么？它就是对称性的语言。大自然不关心你的实验室位于何处，也不关心它在空间中的朝向。这意味着分子的势能必须对全局平移和旋转不变。更深刻的是，大自然不区分全同粒子。如果你有一个水分子( $\text{H}_2\text{O}$ )，交换两个氢原子并不会创造出一个新的分子。能量必须完全相同。这就是置换不变性。

一个天真的神经网络，如果只输入每个原子的原始笛卡尔坐标 $(x, y, z)$ ，它对这些规则一无所知。如果你只是简单地重新排列输入列表中的原子顺序，它就会预测出不同的能量。这样的模型在物理上是荒谬的。如果你用它来计算力，作用在原子上的力将取决于其任意的标签，而不仅仅是其物理位置——这是物理原理的灾难性失败。

解决方案是设计一种输入表示——一种“描述符”——从一开始就内置这些对称性。我们不是向网络输入absolute坐标，而是使用天然不变的量来描述每个原子的局域环境：即它与邻居的距离，以及原子三元组之间的夹角。一种强大且开创性的方法是Behler-Parrinello对称函数。这些函数就像表征原子邻域的探针。一个径向对称函数 ( $G^2$ ) 可能由一系列高斯函数求和构成，用于检测不同距离处邻居的密度。一个角向对称函数 ( $G^4$ ) 则探测键角的几何形状。由于这些函数是通过对所有邻居的贡献求和来构建的，因此它们自动对这些邻居的置换保持不变。

总能量通常被构建为原子能量贡献的总和，其中每个原子的能量仅取决于其自身的对称函数向量。如果你交换两个全同原子，比如原子 $i$ 和原子 $j$ ，它们的局域环境被交换，它们的描述符被交换，它们的能量贡献也被交换。但因为最终能量是所有原子的总和，总结果保持不变。通过这种构造，对称性得到了完美的保持。

这种内置对称性的思想是现代MLP的基石。更新的架构，如图神经网络（GNNs），通过一种不同但同样优雅的机制实现了相同的目标。它们将分子表示为一个图，其中原子是节点，并通过从其邻居“传递消息”来更新每个原子的特征。使用一个置换不变的聚合步骤（如求和）来组合信息，确保最终学到的表示尊重物理学的基本对称性。通过用对称性的语言与机器对话，我们约束它只学习物理上合理的解，从而极大地提高了其能力和可靠性。

局域思考，全局行动

许多成功的MLP架构，包括Behler-Parrinello类型的架构，都建立在一个强大的简化之上：局域性假设。该假设指出，一个原子的能量贡献仅取决于其直接邻域，这个邻域由一个球形截断半径 $R_c$ 定义。

这是一个非常高效的近似。在一个大的蛋白质或一块固体材料中，一侧的原子完全不关心一英里外的原子。它的化学特性由其局域成键环境决定。我们可以直接检验这个假设。如果我们取一个原子 $A$ 并轻微移动它，附近原子 $B$ 的局域能量只会在 $A$ 位于 $B$ 的截断半径之内时才会改变。如果 $A$ 在远处，超出了 $R_c$ ，它的移动对 $B$ 的能量贡献完全没有影响。这就是局域性假设的实际体现。截断函数被设计成平滑的，以确保能量和力在边界处平稳地趋近于零，避免不符合物理实际的跳变。

然而，这个优雅的假设有一个致命弱点：长程相互作用。当一个分子解离成两个离子时，它们之间的静电相互作用遵循库仑定律，随 $1/r$ 缓慢衰减。中性片段之间微弱而普遍存在的吸引力，即伦敦色散力，随 $1/r^6$ 衰减。这些力在长距离处很弱，但对于从分子晶体结构到蛋白质折叠等一切都至关重要。一个具有有限截断半径（例如，6或8 Ångström）的模型，对于10、20或30 Ångström分离距离下的这些相互作用是完全“盲目”的。它会错误地预测相互作用能为零。

这是否意味着局域方法注定失败？完全不是。它指向一种更复杂的混合策略。我们让灵活的神经网络做它最擅长的事情：学习截断半径内复杂的、短程的量子力学相互作用。对于长程部分，我们不需要机器去“重新发现”已有200年历史的经典物理学。我们将其明确地构建到模型中。总能量变成了一个和：

$E_{\text{total}} = E_{\text{short-range}}^{\text{ML}} + E_{\text{long-range}}^{\text{physics}}$

在这里， $E_{\text{long-range}}^{\text{physics}}$ 可以是静电和色散相互作用的显式公式。这个物理模型的参数，如原子电荷或极化率，可以由另一个能感知局域化学环境的神经网络来预测。这种混合方法是一种美妙的综合：它将数据驱动模型的原始能力与第一性原理物理学的永恒优雅和保证的正确性相结合。它允许模型局域思考，但全局行动。

知道自己“不知道”的机器

最后一个关键问题仍然存在：我们能在多大程度上信任我们的模型？一个训练好的MLP可以以惊人的速度进行预测，但它们总是正确的吗？当我们要求它预测一个与训练期间见过的任何结构都大相径庭的分子结构的能量时，会发生什么？

一个好的科学家，就像一个好的模型，应该能够说“我不知道”。这就是不确定性量化的概念。在MLP的背景下，不确定性有两种不同的类型：

偶然不确定性（Aleatoric Uncertainty）： 这是源于数据本身的不确定性。也许参考的“金标准”计算本身存在一些固有的数值噪声或统计误差。这是一种不可约减的不确定性；无论我们的模型有多好，它的确定性也不可能超过训练它的数据。
认知不确定性（Epistemic Uncertainty）： 这是模型由于缺乏知识而自身存在的不确定性。它源于训练数据的有限性。如果我们要求模型在它见过很少数据的化学空间区域进行预测，它的认知不确定性应该会很高。这是可以减小的：当我们在此区域提供更多数据时，模型会变得更加自信。

区分这两者至关重要。高的偶然不确定性告诉我们可能需要更好的参考数据。高的认知不确定性告诉我们需要进行更多的计算来扩充训练集，这个过程通常由主动学习引导。

各种复杂的方法，例如使用深度集成（训练多个模型并观察它们的分歧）或在贝耶斯基础上构建模型，使我们能够估计这些不确定性。对于像分子动力学这样的应用，其模拟的稳定性依赖于精确的力，拥有一个经过良好校准的不确定性感知不仅是一个特性，更是可靠性的先决条件。我们不仅需要能量或力的预测，还需要一个附带可信区间的预测——一个不仅提供答案，还能告诉我们应该在多大程度上信任它的机器。

从一个简单的前提出发，到一个稳健、基于物理且具有自我意识的预测工具的旅程，就是机器学习势的故事。这个领域不是由黑箱炼金术驱动的，而是由物理原理、统计严谨性和计算独创性的深思熟虑的应用所驱动。

应用与跨学科联系

既然我们已经探讨了量子世界中机器学习的原理与机制，让我们退后一步，问一个最重要的问题：“所以呢？”我们能用这些强大的新工具做什么？如果说上一章是关于理解引擎，那么这一章则是要驾驶它上路。我们将看到，通过教机器学习量子力学定律，我们不仅仅是在自动化旧的计算。我们正在开辟全新的发现途径，在曾经看似遥远的领域之间建立联系，并加速我们设计未来的能力，一次一个分子。这个旅程引人入胜，从物质的宏观性质一直延伸到量子理论本身的结构。

重绘物质蓝图：从流体到晶体

从本质上讲，化学和材料科学的大部分内容就像一种高风险的建筑学，受原子间吸引和排斥的量子力学规则支配。巨大的挑战一直是为任何数量可观的原子在任何有意义的时间长度内遵循这些规则所付出的巨大计算成本。机器学习势改变了游戏规则。它们就像一个出色的翻译器，学习昂贵的量子规则，然后以可与传统的、精度较低的经典模型相媲美的速度应用它们。

想象一下您想理解像简单流体的相图这样基本的东西——当您改变温度和压力时它如何表现。这是统计力学中的一个经典问题。使用机器学习势，我们可以进行一个精彩的计算实验：我们在相对少量流体构型上训练模型，这些构型的真实量子力学力是已知的。然后，我们可以要求训练好的模型预测一个宏观热力学性质，比如Boyle温度，该性质取决于长程吸引和短程排斥的微妙平衡。我们发现，只需数量惊人的少量数据，模型就能以非凡的精度学会重现这种物理行为。这证明了一个深刻的观点：基本的物理学通常编码在局域原子环境中，一个精心设计的机器学习模型可以提取这些模式并将其推广，以预测整个系统的集体行为。

这种能力不仅限于描述“是什么”，还包括“将是什么”。考虑从蒸气或液体中形成晶体的过程。这不是一个瞬时过程，而是一个原子在生长表面上附着和脱离的动态舞蹈。这种生长的速度由原子为找到其位置必须克服的能垒所决定。在这里，我们再次可以建立一个机器学习模型，该模型观察潜在附着位点的局域几何邻域——其配位数、其化学键的应变、其垂直位置——并预测这个能垒的高度。通过学习局域形态与动力学能垒之间的联系，我们可以模拟和理解自组装与材料合成的复杂过程，从静态图像转向物质如何自我组织的动态影片。

也许令人惊讶的是，这个新工具包并不仅仅是让旧的工具包过时。它还能使其得到深刻的改进。几十年来，化学家们一直使用经典力场——简化的弹簧和电荷集——来模拟大型生物分子。构建这些模型的一个出了名困难的部分是参数化控制分子扭转的扭转势。传统方法通常涉及对单个孤立分子的扫描进行拟合。机器学习提供了一种远为复杂的方法。我们可以在来自一整个相关分子家族的量子力学数据上训练模型，这些数据不仅包括能量，还包括力，力中包含了关于势能面形状的丰富信息。通过引入周期性等物理约束，并使用贝叶斯推断等先进统计技术，我们可以为我们的经典模型推导出更精确、更具可移植性的参数。这是一个美丽的共生例子：新方法被用来为过去值得信赖的工具注入新的活力和精度。

分子的语言：连接物理、化学与生物学

要构建这些强大的模型，我们必须首先教机器如何“看”一个分子。原子不仅仅是空间中的一个点；它存在于一个化学环境中。它是否与邻居成键？以什么角度？它有多少个邻居？该领域的一个关键突破是发展出能够以尊重基本物理定律的方式捕捉这种局域环境的数学描述符。

考虑氢键，这个将我们DNA链连接在一起并赋予水维持生命特性的不起眼的相互作用。要构建一个能理解这种相互作用的机器学习模型，我们不能简单地给它输入原始的笛卡尔坐标。如果我们这样做，在空间中旋转分子会改变坐标，并愚蠢地改变预测的能量。解决方案是设计输入特征——通常称为原子中心对称函数（ACSFs）——这些特征在平移、旋转和全同原子置换下具有内在的不变性。这些描述符测量邻居的径向和角向分布，创建一个独立于观察者视角的局域环境独特指纹。

与一个更熟悉的领域——计算机视觉——进行类比是很有启发性的。ACSF之于原子，就像卷积神经网络（CNN）中的卷积核之于像素。两者都从一个局域邻域捕捉信息。然而，其差异同样具有启发性。ACSF的先验不变性是一种硬编码的物理约束，而标准CNN的等变性（平移的输入产生平移的输出）则是架构的一种涌现属性。这凸显了一个深刻的真理：用机器学习构建物理模型，不仅仅是使用现成的算法；它关乎设计出将自然界的基本对称性融入其核心的架构。

一旦我们有了表示分子的方法，非凡的应用就成为可能。图神经网络（GNNs），将分子视为原子（节点）和键（边）的图，已被证明特别强大。在药物发现中，一个关键问题是预测药物在体内的命运。药物分解的一个主要途径是肝脏中细胞色素P450酶的代谢作用。可以训练一个GNN来审视一个药物分子，并预测哪个特定原子最可能是主要的代谢位点。通过从已知结果的数据库中学习，GNN通过融合关于局域原子环境和整体图结构的信息，学会识别使一个位点具有反应活性的化学特征。这种预测可以帮助药物化学家从一开始就设计出更安全、更稳定、更有效的药物。

此外，这些学成的模型不仅能让我们获得能量。我们可以训练它们预测分子的电子云如何响应外部电场，这由偶极矩和极化率张量量化。通过这些性质对原子运动的导数，我们可以直接计算理论上的红外（IR）和拉曼（Raman）光谱。这使得与实验光谱学进行直接比较成为可能，为结构验证提供了强大的工具。它还揭示了一个微妙的统计学要点：由于强度取决于所学得的导数的平方，模型预测中的任何微小、无偏的误差平均而言都会导致对光谱强度的系统性高估。这是詹森不等式（Jensen's inequality）的一种体现，是统计学与物理学的一个美妙交汇点，提醒我们在思考误差如何通过模型传播时要深思熟虑。

超越基态：探索量子理论的前沿

到目前为止我们讨论的应用是变革性的，但它们主要关注分子在最低能量电子态——“基态”——下的行为。但是当分子吸收光时会发生什么？它会跃迁到激发态，引发一系列超快动力学过程，这些过程是光合作用、视觉和太阳能技术的基础。模拟这种“光化学”过程是一个巨大的挑战，因为它涉及多个相互作用的势能面。

在这一领域，机器学习同样在推动前沿。通过训练一个模型，使其不仅预测单个能量，还能预测一个“非绝热（diabatic）”哈密顿量的整个矩阵，我们可以获得基态和激发态的光滑且精确的势能面。更重要的是，一旦我们学到了这个哈密顿量的解析形式，我们就可以利用既定的量子力学规则来计算其他关键量。例如，通过对态之间的混合角求导，我们可以计算非绝热耦合矢量——这正是控制光诱导的电子态间跃迁的项。这将机器学习从一个拟合数据的工具提升为一个构建代理物理理论的工具，并能从中推导出新的性质。

然而，最终的雄心甚至更为宏大。如果我们不是学习量子计算的结果（能量），而是教机器找到解本身呢？这就引出了神经网络波函数的思想。变分原理是量子力学的基石：它指出，真实的基态能量是在所有行为良好的波函数中能量期望值的最小值。我们可以使用神经网络的灵活、高表达能力的架构来定义波函数本身，然后优化其参数以最小化能量。网络参数的更新规则，由反向传播的链式法则推导而来，结果是一个涉及量子力学Fock算符期望值的优雅表达式。这代表了一个深刻的概念转变，将机器学习置于量子理论的核心，作为一种强大的新型变分拟设（ansatz）。

这种思想的深度交融是该领域最激动人心的方面之一。在像MRCI这样的高级量子化学方法中，“参考空间”的概念作为最重要的物理学的紧凑表示，在机器学习的变分自编码器（VAE）的“潜空间”中找到了一个优美的结构类比。同样，机器学习提供了新的方法来构建密度泛函理论中著名的、难以处理的非局域交换相关泛函，方法是使用依赖于轨道或基于卷积的描述符，这些描述符明确地捕捉了量子力学的非局域性。

当然，要让这一切在实践中奏效，需要的不仅仅是聪明的想法；它需要复杂的工程。训练这些模型所需的量子数据生成成本极高。主动学习，即模型自己决定接下来计算哪些新数据点最有信息价值，对于提高效率至关重要。构建一个稳健的系统来管理这一切——一个能够处理大量在不同时间完成的异步量子计算，同时持续更新模型及其数据采集优先级的系统——是科学计算领域的一大挑战。

从重绘相图到设计新药，从预测光谱到发现波函数本身，机器学习不仅仅是量子化学的一个新工具。它是一种新的语言，一种统一了物理学、计算机科学和统计学原理的新思维方式。它是一架望远镜，让我们以前所未有的清晰度观察量子世界；它是一把雕刻家的凿子，赋予我们塑造它的力量。发现之旅才刚刚开始。