面向材料科学的机器学习

玻尔百科

核心要点

材料科学中的机器学习始于特征化，这是一个关键过程，它将材料的原子组成和结构转化为算法可以使用的数值数据。
像机器学习原子间势（MLIPs）这样的先进模型可以学习量子力学势能面，从而能够以极低的计算成本实现接近量子精度的模拟。
通过整合物理定律和领域知识，物理知识启发的机器学习创造出更稳健、更准确的模型，这些模型遵循能量守恒和热力学约束等基本原则。
像 SHAP 和反事实分析这样的可解释人工智能（XAI）技术对于超越预测、将“黑箱”模型转变为实现真正科学洞见和发现的工具至关重要。

引言

探索和设计具有特定性能的新材料是现代技术的基石，但传统的试错法通常缓慢、昂贵，且受限于人类的直觉。机器学习正成为一种加速这一过程的强大范式，将材料科学转变为一个数据驱动的领域。通过利用大量的计算和实验数据，机器学习为以前所未有的速度预测材料性质、揭示隐藏模式和指导科学发现提供了一条路径。本文旨在解决连接原子物理学和数据科学这两个世界的根本挑战，为如何应用这些强大的计算工具解决现实世界中的材料问题提供指南。

本文将引导您了解实现这场革命的核心概念。首先，我们将探讨基础的“原理与机制”，详细说明我们如何将原子的语言翻译成数字的语言，如何构建预测模型，并如何将基础物理定律融入其中。随后，在“应用与跨学科联系”部分，我们将见证这些原理的实际应用，展示机器学习如何被用于预测性质、发现新材料家族，并创造出理论、模拟和数据之间的强大协同作用，以驱动材料设计的未来。

原理与机制

想象一下，您想教一台计算机成为一名材料科学家。您不能只是给它看一张晶体的图片就期望它能理解。计算机说的是数字的语言，而不是原子和化学键的语言。我们的第一个，或许也是最根本的挑战，是充当翻译者，将材料丰富而复杂的特性转换成一串机器学习算法能够处理的数字。这个过程被称为特征化（featurization），我们的旅程由此开始。

从原子到数字：特征的语言

您会如何向一个从未见过材料的人描述它？您可能会从最基础的开始：它是由什么构成的？让我们以一种著名的电池材料——钴酸锂（ $LiCoO_2$ ）为例。它包含一个锂原子、一个钴原子和两个氧原子。一种简单的转换方法是创建一个列表，或称为向量，来表示每种元素的比例。如果我们感兴趣的元素仅包含锂（Li）、镧（La）、钴（Co）、镍（Ni）和氧（O），并按此特定顺序排列，那么 $LiCoO_2$ 就变成了向量 $(\frac{1}{4}, 0, \frac{1}{4}, 0, \frac{1}{2})$ 。其化学式中的原子总数为 $1+1+2=4$ ，所以锂占原子总数的 $1/4$ ，钴占 $1/4$ ，氧占 $1/2$ 。在同一体系中，一种像 $LaNiO_3$ 这样的催化剂材料则会被描述为 $(0, \frac{1}{5}, 0, \frac{1}{5}, \frac{3}{5})$ 。这个元素分数向量是材料成分的一种简单的、固定长度的“指纹”。

但这有点像只通过列出面粉、糖和鸡蛋来描述一个蛋糕。那么这些成分的性质呢？我们可以通过组合元素性质来创建更复杂的特征。例如，我们可以通过计算纯元素熔点的成分加权平均值来尝试猜测像 $\text{Al}_{0.50}\text{Cu}_{0.30}\text{Zn}_{0.20}$ 这样的合金的熔点。我们取铝熔点的 $50\%$ ，加上铜熔点的 $30\%$ ，再加上锌熔点的 $20\%$ 。这个简单的混合法规则给出了一个单一的数字，却包含了关于该合金预期行为的惊人信息量。我们可以对几十种性质——原子质量、电负性、原子半径——进行同样的操作，并将它们捆绑成一个长向量特征，从而更详尽地描述材料。

然而，一个微妙的陷阱在等待着我们。假设我们的特征列表包括熔点（范围从 300 到 4000 K）和电负性（范围从 0.7 到 4.0）。许多算法，特别是那些依赖于在这个特征空间中测量两数据点之间“距离”的算法（如 k-最近邻算法），很容易被误导。熔点上 1000 K 的差异会看起来远比电负性上 2.0 的差异重要得多，仅仅因为前者的数值更大。该算法实际上会变得只关注熔点，而忽略电负性中关键的化学信息。为了防止这种情况，我们必须对特征进行标准化，重新缩放每一个特征，使它们都具有相似的数值范围（例如，均值为 0，标准差为 1）。这确保了没有哪个特征仅仅因为其单位数值大而主导整个过程。这就像确保委员会中每个人的声音都被听到，而不仅仅是声音最大的人。

构建水晶球：模型、误差与现实

当我们将材料翻译成数字的语言后，我们现在可以开始构建预测模型。可以想象到的最简单的模型是一条直线。假设我们想根据材料的成分来预测其磁矩。线性回归模型会试图找到一条最佳的直线，将输入特征与目标性质联系起来。

但“最佳”意味着什么？我们需要一种衡量模型失败程度的方法。一个常用且直观的指标是平均绝对误差（MAE）。我们用模型对一组材料进行预测，将预测值与真实的实验值进行比较，然后计算绝对误差的平均值。如果模型预测的熔点是 1505 K，而真实值是 1520 K，那么绝对误差就是 15 K。15.0 K 的 MAE 告诉我们，平均而言，我们模型的预测值大约有 15 开尔文的偏差。这个数字让我们对模型的可靠性有了一个具体的认识。

然而，现实世界很少是一条直线。考虑压电效应，这种性质使某些材料在受压时能产生电。如果我们将这个性质与像电负性差异这样的化学描述符作图，我们可能会发现它并非稳定地增加或减少。相反，它可能会在某个特定的“最佳点”急剧上升到一个尖峰，然后再次回落。试图捕捉这种关系的简单线性模型将是一场灾难，就像试图用一把尺子去拟合一道彩虹。它会预测一个平缓的斜坡，完全错过那个戏剧性的峰值，从而导致巨大的误差。

这就是更强大的模型，如支持向量机（SVM）或神经网络发挥作用的地方。这些模型能够学习高度非线性的关系。一个受基于核的 SVM 启发的模型可以学习一个“凸起”函数，比如一个高斯峰，它能完美地捕捉这种行为，在最佳点预测出巨大的压电效应，而在其他地方预测出较低的值。在一个测试集上，非线性模型的误差可能比线性模型小几百倍，证明了它在描述复杂底层物理方面的优越性。

即使拥有强大的模型，我们也必须小心，尤其是在数据量很少的时候。想象一下你只有两个数据点。你总能画出一条穿过它们的完美直线。但这条线是真理，还是仅仅是你稀疏数据的产物？如果你的一次测量稍有偏差，你的直线可能会急剧倾斜，导致对新点的预测出现严重错误。为了对抗这种“过拟合”，我们可以通过正则化引入一些数学上的“谦逊”。像岭回归这样的技术会修改模型的目标：它不再仅仅寻找误差最低的线，而是寻求一条既有低误差又有平缓斜率的线。它惩罚那些斜率陡峭的“过度自信”的模型。这种惩罚的强度，一个用 $\lambda$ 表示的参数，就像一根缰绳，防止模型追逐数据中的噪声，并鼓励它寻找更简单、更稳健的解释。

教会机器真正的物理学：能量、力与基本定律

到目前为止，我们的模型一直在预测单一的性质。但我们能更深入吗？我们能教会机器支配原子运动和相互作用的法则本身吗？分子模拟的圣杯是势能面（PES）。想象一个广阔的多维景观，其中系统中原子的每一种可能排列都对应一个独特的点，而该点的高度就是它的势能。这个景观的形状决定了一切：哪些晶体结构是稳定的（深谷），原子如何振动（山谷的曲率），以及化学反应的路径（山谷之间的山口）。

绘制整个景观是一项不可能完成的巨大任务。一种更聪明的方法，被许多现代机器学习原子间势（MLIPs）所采用，是假设总能量只是每个原子各自贡献的总和。每个原子的能量又只取决于其在一定截断距离内的直接邻居的排列。这种局域分解产生了一个深远的结果：它使模型的计算成本与原子数量成线性关系，让我们能够模拟数百万个原子，这是纯粹的量子力学方法无法完成的壮举。

至关重要的一点是，这些模型必须遵守基本的物理定律。其中一个定律是平移不变性：如果你拿一块材料，只是把它从实验室的一边移动到另一边，而不旋转或变形它，它的内能不能改变。这个物理原理有一个直接的数学推论。对于任何基于这种局域、以原子为中心的框架构建的势模型，所有原子上的所有力的总和必须精确为零。每对原子之间的推力和拉力必须在整个系统中完美抵消。这不是一个近似；这是一个直接从模型结构中产生的数学确定性，证明了该模型正确地守恒了总动量。这是一个美丽的例子，说明了施加物理对称性如何导致优雅而强大的约束。

但是我们从哪里获得数据来训练这样一个雄心勃勃的模型呢？PES 的“基准真相”来自量子力学，通常是密度泛函理论（DFT）。DFT 计算不仅能提供一个构型的能量，还能提供作用在每个原子上的精确的力。但我们能相信这些力是能量景观的真实斜率吗？答案在于 Hellmann-Feynman 定理。这个非凡的定理指出，如果你的 DFT 计算是正确完成的——如果电子密度是完全优化的（一种称为“自洽”的状态），并且你正确地考虑了基组的任何变化——那么计算出的力就完全等于计算出的总能量的负梯度。这为我们最精确的量子模拟与我们最强大的机器学习模型之间的连接提供了严谨的理论基础。来自 DFT 的力不仅仅是数字；它们是一个一致能量面的真实导数，这使它们成为训练保守 MLIP 的完美目标。

打开黑箱：从预测到科学发现

我们已经构建了一个强大的水晶球。它能以极低的成本预测能量和力，且精度堪比量子力学。但我们学到了什么？机器除了给我们答案之外，还能做得更多吗？它能告诉我们为什么答案是这样的吗？这就是可解释性的前沿领域。

想象一个图神经网络（GNN）——一种将晶体表示为节点（原子）和边（化学键）网络的复杂模型——预测某种材料异常稳定。我们想知道是哪种结构特征或结构基元（motif）导致了这一点。是某种特定的八面体配位吗？还是某种特定的空位排列？

一种天真的方法可能是查看模型输出相对于其输入的梯度。但这通常具有误导性，并且不尊重晶体的物理约束。一种更严谨的方法是提出一个反事实问题。“如果这个特定的八面体单元不存在，能量会是多少？”为了回答这个问题，我们可以进行一种数字手术，小心地设计一个差异最小但仍然物理上合理的晶体，该晶体缺少该基元，同时保持整体成分和晶体对称性。模型预测值的变化为我们提供了该基元重要性的直接、因果的度量。基于合作博弈论的复杂方法，如 Shapley 值，或基于这种约束性反事实搜索的方法，使我们能够分解模型的预测，并将贡献归因于特定的、具有化学意义的结构基团。

正是在这里，机器学习完成了从一个简单的预测工具到科学发现中真正合作伙伴的转变。通过构建不仅准确而且可解释的模型，我们可以要求它们揭示隐藏在海量数据集中的模式和设计原则，引导我们发现那些我们梦寐以求的具有新特性的材料。

应用与跨学科联系

现在我们已经窥探了其内部构造，掌握了让机器学习运转的原理，我们可以开始一段更激动人心的旅程。我们从“它如何工作？”的问题转向了激动人心的“我们能用它做什么？”的问题。学习基础知识就像学习语法规则；现在，我们将欣赏诗歌。在材料科学的世界里，这正是机器学习超越其作为计算工具的角色，成为发现过程中的真正伙伴，成为我们观察原子世界的新视角。

新的神谕：预测材料性质

几个世纪以来，材料科学的梦想一直是在进行昂贵且耗时的合成过程之前，就能预测材料的性质。机器学习正在将这个梦想变为数据驱动的现实。在最简单的层面上，它可以充当一个不知疲倦的助手，找到我们可能怀疑但无法精确量化的相关性。

想象一下，我们想预测一种半导体的电子带隙——这是所有电子产品的一个关键性质。我们的科学直觉告诉我们，组成原子之间的电负性差异应该起作用。我们可以给机器学习模型输入一个包含已知材料及其带隙和电负性差异的列表。然后，模型可以找到穿过这些数据的最佳拟合线，为我们提供一个简单的方程，以便对一种全新材料做出快速的初步猜测。这非常直接，却又异常强大。

当然，自然界很少如此简单。如果关系不是一条直线怎么办？这正是人类智慧与机器力量协同作用大放异彩的地方。材料科学家不仅仅是把原始的原子数据扔给模型。相反，他们进行“描述符工程”——利用他们深厚的物理和化学知识来构建他们认为能捕捉材料本质的特征。对于像钙钛矿这样的复杂晶体结构，科学家们已经开发出像 Goldschmidt 容差因子和八面体因子这样的描述符，这些是基于离子半径的巧妙公式，能够预示结构是否会稳定。然后，我们可以让机器学习算法找到这些复杂描述符与目标性质之间精确的数学关系。即使真实关系是一个复杂的幂律，模型也可以通过将问题转化为线性回归任务来推断出最优指数，这是一项优美的数学柔术，揭示了支配材料行为的隐藏定量规则。

机器学习的预测能力不仅限于连续的数值；它也可以进行分类。我们可以不问“带隙是多少？”，而是问“这种材料是普通绝缘体还是更为奇特的拓扑绝缘体？”给定一组特征，像 1-最近邻分类器这样的简单算法可以通过找到它以前见过的最相似的材料并借用其标签来做出这个决定。但是我们如何相信它的判断，尤其是在前沿研究中常见的小而珍贵的数据集上？这里，又一个聪明的想法来解救。为了诚实地测试模型，我们可以使用一种称为“留一法交叉验证”的程序。我们从模型中隐藏一种材料，用所有其他材料训练它，然后让它对被隐藏的材料进行分类。通过对数据集中的每一种材料重复这个过程，我们得到了一个关于模型在新的、未见过的数据上可能表现如何的稳健度量，确保我们不会因为一次幸运的猜测而自欺欺人。

自动化制图师：发现隐藏的秩序

有时，最深刻的发现是在我们不知道要寻找什么时做出的。如果我们有一个庞大的合金数据集但没有预先定义的标签怎么办？我们可能怀疑这个集合中有不同的“家族”，但手动识别它们将是一项艰巨的任务。这正是无监督学习的完美工作。

想象一下，给计算机一个“距离矩阵”，它量化了数据库中每对超级合金的化学相似度。然后，我们可以释放像 DBSCAN（基于密度的噪声应用空间聚类）这样的算法来探索这个抽象的“成分空间”。该算法在数据中漫游，寻找密集的“邻域”——彼此非常相似的材料群组。它会自动将这些聚类识别为不同的家族，分配核心成员，标记出家族之间的边界材料，并且，也许最有用的是，识别出那些与众不同的真正异常值或“噪声”点 [@problem-id:1312334]。这不仅仅是数据排序；这是为广阔、未知的可能材料领域进行自动化制图，揭示了一张隐藏的关系图谱，可以在没有任何预设假说的情况下指导未来的研究。

伟大的统一：连接理论、模拟与数据

也许机器学习最具革命性的影响在于它不再仅仅是一个数据分析工具，而是成为物理理论和模拟本身的一个基本组成部分。在这里，我们看到了学科的真正统一。

计算物理学中的一个经典困境是准确性与速度之间的权衡。量子力学模拟非常准确，但计算成本极高，只能在几百个原子上运行几皮秒。经典的原子间势（或“力场”）速度足够快，可以用于数十亿个原子，但通常缺乏必要的准确性。机器学习为摆脱这一困境提供了一条惊人的出路。这个想法，在像 Behler-Parrinello 神经网络这样的模型中开创，是教神经网络仅根据其局部邻域的几何形状来预测原子的能量。这个邻域由一组巧妙尊重物理定律的“对称函数”来描述——如果系统被旋转或两个相同的原子被交换，描述不会改变。神经网络学习了这种局部环境与能量之间极其复杂的关系，实际上成为了一个高度本地化的量子力学专家。将这些单个原子能量相加，得到系统的总势能，其准确性几乎与量子力学相当，但计算速度却可以快数百万倍。

神奇之处在于，这些机器学习势函数不是黑箱；它们是完全可微的数学函数。这意味着它们可以无缝地集成到统计力学的优雅框架中。例如，要计算两种晶体结构之间的自由能差——一个极其困难但至关重要的问题——我们可以使用一种称为热力学积分的技术。这涉及到在两个势之间构建一条数学路径，并沿着该路径对一个量进行积分。使用机器学习势函数，这个被积函数所需的导数可以被解析且高效地计算出来。机器学习模型不再仅仅是分析模拟的输出；它已成为模拟物理学的核心。

这种整合是双向的。我们也可以将物理知识直接注入到机器学习模型的训练过程中。通常，模型被训练来最小化其预测与一组数据点之间的误差。但我们可以在其训练目标中添加额外的条件。例如，在模拟晶体能量随其体积变化时，我们从基本热力学中知道，在稳定的平衡体积下，压力（能量对体积的一阶导数）必须为零，并且材料的刚度（与二阶导数，即体模量相关）必须有一个特定的值。我们可以在模型的损失函数中添加数学项，以惩罚其违反这些物理定律的行为。这创造了一个“物理知识启发的”模型，它不仅拟合数据，而且还尊重自然的潜在法则，使其更加稳健、准确和可信。

这种深度整合也为惊人的效率打开了大门。假设我们有一个基于庞大的氧化物和氮化物数据库训练出的出色模型，但我们想探索一类新材料，比如硼化物，而我们关于硼化物的数据很少。我们不必从头开始。我们可以采用一种称为“迁移学习”的策略。我们假设模型中学习了化学键合一般规则的部分（特征权重）仍然有效。我们“冻结”这些参数，只使用我们少量但高质量的硼化物数据集来重新训练模型的一个非常简单的部分，比如总体的能量偏移。这就像你已经会弹钢琴后去学管风琴；你不需要重新学习乐理，你只是调整你的技巧。这使得机器学习即使在材料科学数据稀缺的前沿领域也成为一个实用的工具。

解密之石：从黑箱到洞见

对复杂机器学习模型的一个持续批评是它们是“黑箱”。如果一个模型给出了正确的答案，但我们不知道为什么，我们真的获得了科学理解吗？这是一个至关重要的问题，而该领域正通过对可解释人工智能（XAI）的新关注来应对这一挑战。

我们现在可以要求模型为其预测提供理由。像 SHAP（SHapley 加性解释）这样的技术允许我们对一个预测——例如，一个三元合金的带隙——进行分析，并严谨地归因每个输入特征对最终结果的贡献有多大。对于一个特定的预测，我们终于可以对“元素 A 的比例与元素 B 的比例相比，哪个更重要？”这个问题给出一个定量的答案。这将模型从一个神秘的神谕转变为一个科学合作者。我们可以检查它的推理是否与我们的化学直觉一致，更令人兴奋的是，我们可以发现它不一致的地方，从而引导我们走向新的、意想不到的科学原理。

另一条通往可解释性的路径是构建从其架构本身就尊重物理学的模型。在分析显微镜图像以识别晶体缺陷时，我们知道底层的晶格具有对称性。如果我们将视点移动一个晶格矢量，一个缺陷仍然是同一个缺陷。我们可以通过使用像对比学习这样的训练策略来强制执行这一知识。我们向模型展示一个缺陷的图像（“锚点”）和同一图像的轻微平移版本（“正例”），并告诉模型“这两个是相同的”。然后，我们向它展示一个完全不同类型的缺陷图像（“负例”），并告诉它“这个是不同的”。通过在无数这样的三元组上进行训练，模型被迫学习对缺陷身份至关重要的东西，而与它在晶格中的位置无关。因此，它学习到的特征不仅仅是任意的模式，而是植根于问题基本对称性的表示。

最终，机器学习在材料科学中的故事是一个深刻协同的故事。科学家提供物理直觉、基本定律和关键问题。机器提供超凡的能力来在高维空间中找到模式，以前所未有的规模模拟复杂性，并帮助我们解释它自己的逻辑。它们共同构成了一个强大的新发现引擎，加速我们迈向设计未来材料的旅程，一次一个原子。