材料科学中的机器学习

玻尔百科

核心要点

材料科学中的机器学习始于特征化，即将材料的化学和结构特性转换为算法能够理解的数值向量的过程。
将基本的物理对称性（如旋转不变性和平移不变性）编码到结构描述符中，可以使机器学习模型内在地遵循物理定律。
机器学习原子间势（MLIPs）使用高保真度的量子力学数据进行训练，能够以极低的计算成本实现具有量子精度的分子动力学模拟。
其应用范围广泛，从用于预测特定材料性质的监督学习，到在海量数据集中绘制图谱和发现新材料家族的无监督学习。

引言

历史上，对新材料的探索一直是一个缓慢而审慎的过程，依赖于科学直觉、艰苦实验和偶然发现的结合。然而，可能存在的材料组合数量之多，形成了一个难以想象的浩瀚“宝库”，仅凭传统方法是无法探索穷尽的。这为开发从更高效的电池到先进合金等下一代技术带来了根本性的瓶颈。机器学习带来了一场革命性的范式转变，它提供的工具能够以前所未有的速度和准确性驾驭这个巨大的化学空间。本文旨在为读者介绍这个激动人心的、融合了计算机科学、化学和物理学的交叉领域。您将学习我们如何将原子的语言转化为算法的语言，如何构建能够预测材料行为的模型，以及如何应用这些工具来加速科学发现。我们将首先探讨使这一切成为可能的基本原理和机制，然后综述那些正在重塑材料科学领域的变革性应用。

原理与机制

想象一下，您想教一台计算机成为一名材料科学家。从某种意义上说，这与教一个人并无太大区别。您不会只给他们看一块金属，就指望他们能理解它。您需要建立一种共通的语言、一套可供推理的原则，以及一种判断他们推理是否正确的方法。对于材料科学中的机器学习（ML）而言，过程正是如此：我们必须将丰富而复杂的原子世界转化为严谨的数学语言，建立能够对这些信息进行推理的模型，并根据物理现实的基石来检验它们的预测。

原子语言：从化学到数字

计算机不理解“钴酸锂”——你手机电池的主力材料。它理解的是一列列的数字，也就是向量。因此，首要且最根本的挑战就是翻译。我们如何以一种对算法有意义的方式来表示一种材料？这个过程被称为特征化 (featurization)。

最简单的方法就是列出其成分。对于像 $\text{LiCoO}_2$ 或 $\text{LaNiO}_3$ 这样的化合物，我们可以创建一个向量来表示化学式中每种原子的比例。如果我们感兴趣的元素宇宙包含 (Li, La, Co, Ni, O)，那么 $\text{LiCoO}_2$ 就变成了向量 $(\frac{1}{4}, 0, \frac{1}{4}, 0, \frac{1}{2})$ ，因为四分之一的原子是锂，四分之一是钴，二分之一是氧。这是一种元素分数向量。它是一种简单、明确的材料成分指纹。

但我们可以更巧妙一些。我们从一个多世纪的物理学和化学中得知，元素周期表并不仅仅是元素的随机集合。每种元素都有其内在属性：原子质量、电负性、熔点等等。我们可以将我们的成分信息与这些先验的物理知识结合起来，“工程化”出一个更有洞察力的特征。对于像 $\text{Al}_{0.50}\text{Cu}_{0.30}\text{Zn}_{0.20}$ 这样的合金，我们可能会猜测其熔点是其组分熔点的简单加权平均值。这是一个非常物理化的假设，有点像根据一杯混合饮料的成分来猜测其味道。对于这种合金，这样的计算得出的预测熔点约为 $1013$ K。这个单一的数字，一个成分加权平均性质，比简单的分数列表是一个更“有根据”的特征。这是我们首次尝试将物理直觉嵌入到数据本身中。

视角的陷阱：为何尺度很重要

现在我们有了特征——每种材料对应一个数字向量。我们可以直接将它们输入到学习算法中吗？在这里，我们遇到了一个微妙但至关重要的陷阱。想象一下，你正在绘制一张城市地图，但由于某种奇怪的原因，你用公里来测量东西向的距离，而用毫米来测量南北向的距离。如果你要寻找“最近”的咖啡馆，任何距离计算都将完全由东西向的坐标主导。南北方向上几百毫米的差异与东西方向上零点几公里的差异相比，将显得微不足道。

同样的问题也困扰着许多机器学习算法。假设我们用材料的熔点（范围从 $300$ 到 $4000$ K）和电负性（范围从 $0.7$ 到 $4.0$ ）来描述一种材料。一个依赖于计算特征空间中材料之间“距离”的算法，比如广受欢迎的k-近邻算法，将几乎完全忽略电负性的变化。熔点巨大的数值范围将主导任何距离计算。

解决方法优雅而简单：我们必须将所有特征置于一个公平的竞争环境中。一种标准技术是标准化（standardization），即我们重新缩放每个特征，使其在整个数据集上的平均值为零，标准差为一。这确保了没有任何一个特征仅仅因为其数值巨大而压过其他特征。它让我们精心策划的每一条信息都有公平的机会为模型的最终预测做出贡献。

构建模型：从简单的直线到蜿蜒的曲线

有了数值表示，我们现在可以构建模型了。模型只是一个数学假设：一个函数 $f$ ，它以我们的特征为输入，输出一个预测的性质，比如能量或硬度。

最简单的假设是一条直线： $P = m \cdot x + c$ 。这就是线性回归。它假设当您改变一个特征 $x$ 时，性质 $P$ 会成正比地变化。但是哪条线是“最好”的呢？我们定义一个成本函数，通常是模型预测值与一组训练材料的真实已知值之间的平均误差（或平方误差）。最好的模型就是能使这个成本最小化的模型。

然而，我们应该内置一种深刻的物理直觉，一种类似于奥卡姆剃刀的理念：倾向于更简单的解释。想象一下你只有两个数据点。一条直线将完美地拟合它们。但如果这些数据点由于测量或计算而带有一些随机“噪声”呢？这条完美的直线可能会非常陡峭，暗示着性质会随着成分的微小变化而剧烈变化。这通常是不符合物理规律的。为了解决这个问题，我们可以使用正则化。我们修改成本函数，为模型的复杂性增加一个惩罚项。对于线性模型，我们可以增加一个惩罚大斜率 $m$ 的项，例如 $\lambda m^2$ 。现在，模型必须做出权衡。它试图拟合数据，但同时也试图保持其斜率较小。这种寻求简单而准确的模型的做法，是防止模型“过拟合”——即记住数据中的噪声而不是学习真实的潜在趋势——的有效方法。

当然，世界很少是线性的。考虑一下压电材料，它们在受压时会产生电。事实证明，这种性质并不仅仅随着晶体中电负性差异的增加而增加。它通常会在一个最佳值处达到一个尖峰，然后再次下降。试图捕捉这种关系的线性模型将惨败。它的预测会有巨大的误差，这个误差可以用均方根误差 (RMSE) 等指标来量化。

对于这类问题，我们需要非线性模型。这些是更灵活的函数，能够学习曲线、峰值和谷值。例如，一个受支持向量机启发的模型可以产生一个高斯“凸包”函数， $f(x) = A \exp(-B(x-x_0)^2)$ ，它非常适合捕捉在特定特征值 $x_0$ 处达到峰值的性质。机器学习的美妙之处就在于这种工具的层次结构：我们可以选择数学假设的复杂性，以匹配我们试图揭示的潜在物理过程的复杂性。

超越成分：捕捉物质的几何结构

到目前为止，我们基本上忽略了化学的一个基石：结构。金刚石和石墨都是纯碳，但它们截然不同的性质源于其原子在空间中排列方式的不同。一个简单的成分特征向量对此是无视的。

为了捕捉结构，我们必须描述一个原子的局部化学环境。其思想是，一个原子对材料总能量的贡献取决于它的邻居：它们是什么，距离多远，以及以何种方向排列。我们需要这个环境的数值指纹，即描述符。这个描述符必须遵守物理学的基本对称性：

平移不变性：如果我们拿起整个材料并移动它，其中任何一个原子的环境都没有改变。描述符必须只依赖于邻居的相对位置，而不是绝对坐标。
旋转不变性：如果我们旋转材料，环境在根本上也没有改变。
置换不变性：如果两个相同的邻近原子，比如两个氧原子，交换位置，环境也没有改变。描述符必须对相同原子的标记不敏感。

我们如何构建这样的东西呢？考虑一个玩具描述符，它通过列出到所有邻居的距离倒数，然后对该列表进行排序来构成。排序是实现置换不变性的一个非常简单的技巧。无论你以何种顺序列出邻居，排序后的列表总是相同的。通过使用距离——其本身对旋转和平移是不变的——我们创造了一个尊重所有必要对称性的描述符。现代的描述符要复杂得多，但它们都建立在编码物理对称性这一基本原则之上。

机器中的物理学：统一与基础

在这里，所有的部分以一种卓越的综合方式汇集在一起。材料科学中最先进的机器学习模型将系统的总能量分解为原子能量的总和，其中每个原子的能量由一个机器学习模型根据其局部描述符进行预测。

$E_{\text{total}} = \sum_{i=1}^{N} E_{\text{atomic}}( \text{descriptor of atom } i )$

这个“以原子为中心”的框架具有深远的影响。因为描述符是建立在相对位置上的，所以总能量自动地具有平移不变性。而从这种不变性中，一个深刻的物理定律免费地浮现出来：系统上的总力被保证为零。模型天生就尊重动量守恒。它能学到正确的物理学，因为我们已经将物理定律的对称性编织进了其数学结构本身。

这给了我们一个能量模型。但是要模拟材料如何随时间演变——它们如何熔化、断裂或催化反应——我们需要力。在物理学中，力是势能的（负）梯度， $\mathbf{F}_k = -\nabla_{\mathbf{r}_k} E_{\text{total}}$ 。因为我们的机器学习模型只是一个巨大的数学函数，我们可以解析地计算它的梯度。因此，这些力与能量是完全一致的；它们是保守的。

但是我们用什么来训练这个宏大的模型呢？我们需要一个“基准真相”数据的来源——无数原子构型的能量和力。这些数据并非来自实验，因为实验太慢太困难，而是来自量子力学。密度泛函理论 (DFT) 是一种强大的计算方法，可以（近似地）求解薛定谔方程，从而找到一个原子系统的能量以及作用在每个原子上的力。

这就引出了最后一个关键问题。来自 DFT 的力本身是保守的吗？它们是否对应一个明确定义的势能面？答案在于 Hellmann-Feynman 定理。这个优雅的量子力学定理保证，如果一个 DFT 计算被正确地执行（达到自洽并妥善处理基组），那么计算出的力确实是 DFT 总能量的精确梯度。

这就形成了一个闭环。我们使用量子力学（DFT）生成一个高保真度的能量和力的数据集。然后，我们训练一个具备对称性感知的机器学习模型，来学习从原子结构到能量的映射。由此产生的机器学习原子间势是量子力学计算的替代品——拥有相同的精度，但运行速度快上数千甚至数百万倍。正是这种建立在从数据表示到模型构建再到基本物理对称性的层层原理之上的惊人加速，使我们能够以前所未有的速度发现和设计新材料。

应用与跨学科联系

既然我们已经窥探了机器学习原理的内部工作方式，您可能会想：“这一切都很有趣，但我们能用它来做什么呢？”这是一个合理的问题。原理虽然优雅，但任何科学工具的真正考验在于它解决问题、揭示新真理和创造新事物的能力。在材料科学中，这些应用不仅仅是渐进式的改进；它们代表了我们发现、理解和设计我们周围物理世界方式的根本性转变。让我们踏上这段穿越新领域的旅程，看看机器学习如何成为探索新材料过程中不可或缺的伙伴。

预测的艺术：现代材料“神谕”

想象一下，所有可能材料的宇宙就像一个无限大的图书馆。每一本书都是一种独特的元素组合，一种独特的原子排列。几个世纪以来，我们阅读这些书——即了解它们的性质——的唯一方法就是在实验室里费力地合成它们并进行测量。这是一个缓慢而昂贵的过程。我们可能要花费一生时间才能探索完图书馆的一个小角落。

如果我们能构建一个神谕呢？一个系统，只要给出书的“标题”（材料的成分和结构），就能告诉我们里面的故事（它的性质）？这就是机器学习的第一个也是最直接的应用：性质预测。

最简单的想法往往是最好的起点。假设我们正在寻找一种用于太阳能电池板的新材料。一个关键性质是电子带隙，它决定了材料吸收阳光的效率。物理学家或化学家有一种强烈的直觉，认为这个性质应该与一些基本的原子特性有关。例如，在一个由两种元素组成的化合物中，它们“拉电子能力”（即电负性）的差异似乎是一个很好的猜测。

机器学习让我们能够将这种直觉量化。我们可以向一个简单的模型输入数千个已知案例，然后问它：“这里有简单的规律吗？”通常，答案是肯定的。计算机可以迅速找到拟合数据的最佳直线，给我们一个极其简单的预测方程。它可能不会对每个案例都完美准确——毕竟这只是一个简单的模型！——但它就像一个宏伟的罗盘，指引我们走向那个无限图书馆中有希望的区域，帮助我们决定哪些材料值得进行更详细的研究。

但我们的问题并不总是关于“多少”。有时，问题是关于“哪一种”。这种材料是金属还是绝缘体？它有磁性吗？它是一个奇特而美妙的新家族成员吗，比如具有奇异表面电子性质的拓扑绝缘体？这是一个分类任务。我们不再预测一个连续的数值，而是将材料分到不同的类别中。在这方面，机器学习同样表现出色。使用一组描述性特征——比如一种层状材料被剥离的难易程度（剥离能）和它的带隙——模型可以学会区分，比如说，一个普通绝缘体和一个拓扑绝缘体。这些模型在通过留一法交叉验证等技术在小型、珍贵的数据集上进行仔细测试后，成为筛选庞大数据库、为下一代量子计算机和低功耗电子设备标记候选材料的强大工具。

材料制图师：在混沌中寻找秩序

到目前为止，我们都假设自己知道要找什么——我们有像“带隙”或“拓扑绝缘体”这样的标签。但如果我们不知道呢？如果我们面对的是一个广阔、未知的材料领域，而我们只想绘制一张地图呢？去寻找大陆、岛屿、山脉——那些具有共同特征的天然材料“家族”？

这就是无监督学习的领域，我们让机器自己去寻找模式。其中最基本的技术之一是*聚类*。想象一下，你把每种材料表示为一张纸上的一个点，其位置由它的基本性质（它的“描述符”）决定。聚类算法，比如优雅的k-均值方法，会尝试找到将这些点分成预定数量簇的最佳方式，使得每个簇内的“离散度”最小化。突然之间，原本只是一团数据点云的东西分解成了不同的家族，揭示了隐藏的关系和我们可能从未猜到过的新的物质分类法。

更复杂的算法能做的更多。想象一下你正在探索一类新的高性能材料，比如用于喷气发动机的镍基高温合金。你拥有它们详细化学成分的数据。像DBSCAN这样的基于密度的算法可以观察这些成分之间的“距离”，并自动将密集的“邻域”识别为不同的合金家族。但真正奇妙的是，它还能识别出那些不属于任何密集邻域的点——那些独行者，那些离群点。在科学发现中，这些离群点往往是最珍贵的宝石。它们是异常现象，是证明某个规则需要修正的例外，或者，可能是一个具有完全出乎意料行为的全新材料类别的种子。

为模型注入生命：加速世界的黎明

预测静态、不动晶体的性质是一回事。但真实世界是原子动态、嗡嗡作响的舞蹈。原子振动，缺陷迁移，液体流动，晶体熔化。为了理解这些过程，科学家们依赖于一种强大的计算显微镜，称为*分子动力学*（MD），它通过计算作用在每个原子上的力来模拟其运动。

MD的巨大挑战一直是“势能面”——决定原子间相互作用力的复杂山丘和山谷景观。几十年来，我们面临着一个严峻的选择。我们可以使用高度精确但极其缓慢的量子力学方法（第一性原理MD），这使我们只能模拟几百个原子在几万亿分之一秒内的行为。或者，我们可以使用快速但精确度低得多的、手动调整的经典模型（势），这些模型只适用于特定系统。

这就是机器学习引发革命的地方。这个想法非常巧妙：如果我们使用一个灵活、强大的神经网络作为通用函数逼近器，从一组高精度的量子计算中学习势能面呢？这就催生了机器学习原子间势（MLIPs）。

一种著名的方法，即 Behler-Parrinello 神经网络，根据每个原子的局部环境为其分配一个能量。该网络并不“看到”邻近原子的原始位置，因为如果系统旋转，这些位置会改变。相反，它以一组精心设计的“对称函数”作为输入，这些函数以一种对旋转、平移和相同原子交换保持不变的方式描述了邻域的几何结构。网络学习了这种局部描述与原子对总能量贡献之间的微妙关系。

然而，真正的魔力在于，一旦模型能够预测能量，我们就可以“免费”得到力！在物理学中，力就是势能的负梯度（最陡的下坡斜率）。因为我们的神经网络是由我们可以求导的数学函数构建的，所以我们可以解析地计算预测能量相对于每个原子位置的导数。这就得到了力！有了精确的力，我们就可以在比以前用量子精度所能达到的时间尺度长数千倍的情况下，对数百万个原子进行MD模拟。我们现在可以观察晶体生长，看到材料在应力下如何失效，并以前所未有的细节观察复杂的化学反应。

旅程并未就此结束。有了这些强大的 MLIPs，我们可以解决材料物理学中一些最深奥的问题。我们可以将我们的原子尺度模型与宏观的热力学世界联系起来。通过巧妙地构建一个连接两种不同材料相（或两种不同模型）的数学路径，并对能量的变化进行积分，一种称为*热力学积分*的技术使我们能够计算物理学中一个最重要且出了名难求的量：自由能差。这使我们能够以前所未有的准确性和速度预测相图、熔点以及不同材料的相对稳定性。

发现引擎：闭合循环

我们可以预测性质、绘制材料空间图谱并模拟动力学。现在，让我们把所有部分组合起来，构建一个用于自动化发现的引擎——一个从想法到合成的闭环。

最终目标是*逆向设计*。我们不再问“材料 X 有什么性质？”，而是要问“什么材料 X 具有我想要的性质？”这把问题颠倒了过来。生成模型，是那些创作艺术和文本的人工智能的近亲，可以被训练来“构想”出为特定目标性质而优化的、新的、稳定的化学结构。

但所有这些神奇的模型都渴望数据。当我们想探索一个实验数据稀缺的、新奇的材料类别时会发生什么？我们必须从头开始吗？完全不必。*迁移学习*的策略提供了一条巧妙的捷径。一个在庞大的氧化物和氮化物数据库上训练过的模型，已经学到了大量关于化学键合的通用“规则”。当我们想为像硼化物这样数据贫乏的新类别构建模型时，我们可以“冻结”模型已学到的大部分知识，只在我们新的、小的数据集上微调它的一小部分。这就像一位经验丰富的厨师，当遇到一种新食材时，他不会从头开始学习烹饪，而是利用他渊博的烹饪知识迅速弄清楚如何最好地使用它。

发现循环也延伸到了实验数据。一个现代材料科学实验室会产生海量数据，尤其是来自强大显微镜的图像形式的数据。机器能学会分析这些图像，以与人类专家同样敏锐的眼光识别缺陷和微观结构吗？是的，它甚至可以学会在分析时尊重系统的底层物理学。使用像*对比学习*这样的技术，我们可以教一个模型，让它认识到同一晶体缺陷的两张图像，仅仅是通过一个晶格矢量平移得到的，本质上应该被识别为同一个东西。这将晶体的平移对称性直接融入了模型的“世界观”中。

最后，随着这些模型变得越来越强大，它们也可能变得越来越复杂，其内部工作原理似乎不透明。这引出了一个关键问题：我们能信任它们吗？我们能从它们身上学到东西吗？这是*可解释人工智能*（XAI）的前沿领域。像SHAP这样的技术让我们能够针对一个复杂模型做出的特定预测，要求它“解释”其推理过程，将每个输入特征对最终输出的贡献进行归因。这不仅能建立对模型预测的信心，还能揭示出令人惊讶的相关性并指导科学直觉，将机器学习模型从一个黑箱神谕转变为一个真正的科学合作者。

从简单的预测到自主发现，机器学习正在为材料科学家提供一套新工具。它是一座桥梁，连接了计算机科学的抽象原理与物理和化学的具象现实，创造出一种强大的跨学科协同效应，正在加速我们进入无限材料宝库的旅程。人工智能驱动的材料发现时代已经到来，而我们才刚刚开始阅读最初的几页。