数据驱动的材料设计

玻尔百科

核心要点

成功的数据驱动模型必须将客观性和热力学一致性等物理定律直接融入其架构中，以确保预测的可靠性。
逆向设计颠覆了传统的发现范式，它从期望的材料属性出发，通过数学方法确定合成所需的精确化学配方。
通过连接原子和宏观尺度，多尺度模型能够预测对大规模工程应用至关重要的体材料属性。
自主发现循环通过使用贝叶斯优化等策略，在利用已知材料和探索新材料之间进行智能权衡，从而加速研究进程。
数据驱动方法的实施需要保持伦理警惕，因为模型可能会继承并放大训练数据中存在的人类偏见，从而影响社会结果。

引言

历史上，对新材料的探索一直由物理理论和实验直觉引导，这一过程往往进展缓慢且充满偶然性。如今，计算能力和实验数据的爆炸式增长提供了一条新途径：直接教机器学会物质的复杂规律。然而，仅仅将“黑箱”算法应用于材料数据是一项危险的尝试，因为不了解基本物理原理的模型可能会产生无稽的预测，阻碍真正的科学进步。本文旨在弥合这一差距，探索数据驱动材料设计这一新兴领域。文章详细阐述了如何将机器学习的统计能力与物理学不可动摇的原则协同融合，以创造出强大而可靠的预测工具。在接下来的章节中，我们将首先深入探讨支撑这种综合的“原理与机制”，从将客观性等物理定律嵌入神经网络架构，到负责任地训练和验证这些模型。随后，我们将探索具有变革性的“应用与跨学科联系”，展示这些方法如何实现逆向设计、连接巨大的材料尺度并驱动自主实验室，同时也会思考伴随这一新发现前沿而来的深刻伦理责任。

原理与机制

想象一下拉伸一根橡皮筋。你会感觉到它的阻力。你扭转它，它会试图恢复原状。你施加的作用（变形）与橡皮筋的反应（应力）之间的这种简单相互作用，遵循着一套规则——即材料的本构律。几个世纪以来，科学家们一直致力于写下这些规则，通常从优雅但简化的物理理论出发。今天，我们正处在一个新时代的黎明。现在，我们不再仅仅从第一性原理出发去猜测这些规则，而是可以直接从数据中学习它们。但这并非简单的连点成线游戏。要取得成功，我们必须将机器学习的原始力量与物理学永恒的智慧相结合。本章将探讨使这种激动人心的结合成为可能的核心原理与机制。

数据的希望与陷阱

这门新科学的基础，当然是数据。我们现在可以生成海量的信息库，将材料结构和变形与其测量的属性配对。这些数据集可能来自真实世界的实验——在实验室中拉伸、压缩和扭转材料——也可能来自高保真度计算机模拟，如密度泛函理论（DFT），它求解原子和电子的量子力学方程。我们的梦想是将这些数据输入学习算法，让它发现隐藏的材料规律。

但这里潜藏着第一个巨大的陷阱：采样偏差。假设你训练一个模型来识别动物，但你的训练照片只包含猫和狗。该模型可能成为区分金毛寻回犬和暹罗猫的专家，但当给它看一张企鹅的照片时，它将完全无用。它的失败不是因为模型“愚蠢”，而是因为它的世界，即它所见过的数据，是对现实带有偏见且不完整的表征。

同样的问题也困扰着材料科学。历史上，研究人员一直专注于那些已知稳定、可合成或对特定应用（如氧化物）有价值的材料。因此，从数十年科学文献中汇集的公共数据库，并非所有可能材料的随机样本；它们是一个经过精心筛选的集合，反映了我们历史上的兴趣和成功。在这样的数据集上训练的模型，在测试其他类似的氧化物时可能表现出色，但当被要求预测一类全新的氮化物或硫化物的属性时，则可能惨败。由于训练数据不具代表性而导致模型无法泛化到新的、未见过的领域，这是我们必须时刻牢记的一个根本性挑战。

学习物质的规律

那么，我们究竟想学习什么？其核心是，我们希望构建一个函数，一个映射，它接收对材料状态的描述，并预测其响应。在固体力学中，这就是连接变形度量（如应变张量 $\boldsymbol{\epsilon}$ ）与所产生的应力张量 $\boldsymbol{\sigma}$ 的本构律。

传统上，科学家会提出一个唯象模型。他们会从物理洞察出发——也许假设材料像弹簧一样呈线性响应——然后写下一个包含几个参数（如刚度或粘度）的方程。这些参数，如线性弹性中的拉梅常数，具有直接的物理意义。模型的形式由理论固定；数据仅用于找到这些少数参数的最佳值。

数据驱动的方法则根本不同。我们使用一个高度灵活的函数逼近器，如深度神经网络 $\mathcal{N}_{\theta}$ ，直接学习映射 $\hat{\boldsymbol{\sigma}}=\mathcal{N}_{\theta}(\boldsymbol{\epsilon})$ 。在这里，模型不受限于一个简单的、预定义的形式。它有成千上万甚至数百万个参数 $\theta$ ，这些参数通常没有直接的物理解释。模型的强大之处在于它能够发现可能难以从理论中猜出的复杂非线性关系。其代价是，这个强大的工具如果任其发展，就只是一个“黑箱”模式匹配器。它没有内在的物理知识，而这正是危险所在，也是真正的智力挑战开始的地方。

不可违背的物理法则

一个只拟合数据点的数据驱动模型是一个糟糕的科学家。一个真正有用的模型必须尊重基本的、不可动摇的物理定律。否则，它可能会预测出物理上荒谬的行为，比如一种材料无中生有地创造能量，或者仅仅因为你歪着头看它，它的行为就有所不同。其中两个最重要的原则是客观性和热力学一致性。

想象你在实验室里测试一块金属。你拉伸它并测量力。现在，你的一位在旋转飞船中的同事，对一块完全相同的金属进行完全相同的实验。客观性，也称为材料坐标系无关性，要求拉伸与力之间的内在物理关系对你们俩来说必须是相同的。材料不关心你的观察视角或你是否在旋转。在数学上，这意味着如果我们旋转一个变形的物体，它所感受到的应力必须以一种精确、可预测的方式随之旋转。

这与材料对称性是不同的概念。客观性是关于观察者参考系的普适定律。材料对称性是材料本身的属性。一块木头，由于其纹理，是各向异性的；它沿着纹理方向比横跨纹理方向更坚固。如果你在拉伸前旋转木头，其响应将会不同。而一块钢材，在很大程度上是各向同性的；无论你从哪个方向拉它，它的行为都相同。

我们可以设计巧妙的实验（或思想实验）来解开这两种效应。为了测试客观性，我们可以取一个样本，施加完全相同的内部拉伸，但附带两种不同的整体刚体旋转。如果材料是客观的，那么（一旦我们“反旋转”回来）内部测得的应力在两种情况下必须完全相同。为了测试材料对称性，我们会从一块材料上切下两个不同方向的样本（例如，一个沿木纹，一个与之成90度角），并在实验室坐标系中施加完全相同的变形。它们响应的任何差异都将揭示材料的内禀各向异性。

除了客观性，模型还必须遵守热力学定律。对于超弹性材料（一种理想的弹性材料），使其变形所做的功被储存为势能，由一个应变能函数 $\psi$ 描述。应力就是该能量对应变的导数，即 $\boldsymbol{\sigma}=\partial \psi/ \partial \boldsymbol{\epsilon}$ 。一个至关重要的推论是，关联应变微小变化与应力微小变化的“刚度矩阵”必须具有一种称为主对称性的特殊属性。一个通用的、无约束的神经网络几乎肯定会违反这个条件，除非我们强制它遵守。更深层次的是，为了使模型在物理上稳定，能量函数不能是任意函数；它必须满足一个称为多凸性的数学条件。例如，这能确保材料抵抗被压缩至零体积，并且不会自发地分解。多凸性是一个深刻的约束，它保证了我们的模型描述的是一种在现实世界中能够实际存在的材料。

融入物理直觉：巧妙的架构设计

那么，我们如何强制我们的黑箱神经网络遵守这些优美的物理定律呢？答案不是在数据上训练然后“祈求好运”。优雅的解决方案是将物理学直接融入模型的架构中。

例如，为了强制实现客观性，我们知道材料的响应应该取决于变形（拉伸），而不是刚性旋转。因此，我们不将完整的变形描述（变形梯度张量 $\mathbf{F}$ ）输入网络，而是先计算一个对旋转*不变量*的量，例如右柯西-格林张量 $\mathbf{C} = \mathbf{F}^{\top}\mathbf{F}$ 。如果网络的输入是旋转不变的，其输出也将是旋转不变的。然后，我们可以使用一个保证客观性的过程来构建最终的应力张量。一种方法是让网络从这些不变量中学习标量应变能函数；然后通过微分导出应力，从而自动满足热力学定律。

另一个强大的思想是使用张量基表示。对于各向同性材料，任何应力响应都可以写成由变形本身构建的几个基本张量的组合。神经网络的任务可以是学习乘以这些基张量的标量系数。这样，无论网络学到什么，最终的输出都保证具有物理学所要求的正确数学结构[@problem_shepherd_id:2898860]。

最现代的方法是使用等变神经网络，特别是用于原子系统的图神经网络（GNN）。这些网络从设计之初就尊重几何对称性。它们的内部层以一种内在理解向量和张量在旋转下如何变换的方式处理信息。一个学习从原子位置到应力的映射的等变GNN，可以通过其自身的设计来保证最终输出将遵守客观性定律。通过将这些物理原理作为模型的基本骨架来构建模型，我们将其从幼稚的模式匹配器转变为具有物理直觉的复杂工具。

教会机器的温和艺术

即使拥有一个设计完美、融入物理信息的架构，训练过程——通过最小化数据集上的误差来找到最优参数 $\theta$ ——也是一个充满陷阱的旅程。“损失景观”，即在高维参数空间中误差的曲面，通常是山脉、峡谷和高原的混乱集合。一种幼稚的训练方法很容易陷入一个糟糕的局部最小值，从而产生一个无用的模型。

在这里，我们也可以借鉴人类的学习方式。我们不会在开学第一天就教孩子微积分；我们从数数开始，然后是加法，再是代数。我们可以将同样的原则，称为课程学习，应用于训练我们的材料模型。我们首先只用简单的数据来训练模型——在小变形下，材料的行为几乎是线性的。在这个范围内，损失景观要平滑得多，表现也更好，就像一个简单的碗。这使得优化器可以轻松地找到对应于材料基本弹性属性的优良解的盆地。一旦模型学会了“简单”的东西，我们逐渐引入更复杂的数据：更大的应变、更复杂的多轴加载路径等等。这种分阶段的方法引导优化器穿过复杂的景观，从而显著提高最终模型的可靠性和准确性。

不确定性的智慧

一个优秀科学家的标志不仅在于知晓事物，还在于知道自己不知晓什么。一个值得信赖的数据驱动模型也必须如此，它需要提供对其自身不确定性的可靠估计。这种不确定性有两种不同的类型。

第一种是偶然不确定性，源自拉丁语中的“骰子”。这是系统中固有的随机性或噪声，即使有完美的模型也无法消除。它是实验测量中由于热波动或仪器限制而产生的抖动。它是“意外事件”导致的不确定性。

第二种是认知不确定性，源自希腊语中的“知识”。这反映了我们知识的缺乏。当我们数据很少，或者当我们要求模型在其训练领域之外做出预测时，这种不确定性就很高。这是“我不确定”类型的不确定性，也是我们可以通过在正确的地方收集更多数据来减少的那种不确定性。

区分这两者至关重要。如果一个预测具有很高的偶然不确定性，这意味着结果本质上是嘈杂的；更多的数据帮助不大。如果它具有很高的认知不确定性，这是一个警示信号，表明模型正在外推。这对于自主发现循环来说是一个宝贵的指南，告诉它在哪里进行下一次实验以学习最多。贝叶斯建模框架，如高斯过程，提供了一种有原则的数学语言来表示和解开这两种类型的不确定性，使我们的模型不仅具有预测性，而且对其自身知识的局限性也具有智慧。

科学家的准则：可复现性与责任

最后，数据驱动科学，像所有科学一样，必须在严格的行为准则下运行。第一个支柱是可复现性。一个无法被另一位研究者复现的计算结果根本不能算作结果。现代软件栈的复杂性造成了“可复现性危机”。库版本、随机数生成器种子，甚至所用GPU类型的微小差异，都可能导致训练过程分化并产生不同的结果。

实现真正的计算可复现性需要一丝不苟的数字记录。这包括固定所有随机种子，捕获确切的软件环境（使用容器等工具），记录硬件规格，以及理想情况下，将从原始数据到最终图表的整个工作流程跟踪为一个有向无环图（DAG）。这个过程确保整个计算实验是一个确定性的对象，可以被任何人、在任何地方存档、共享和重新运行，以获得完全相同的结果。

第二个支柱是责任。我们必须敏锐地意识到我们数据中的偏见和模型的局限性。正如我们所见，历史数据往往存在偏见。如果我们不小心，我们的模型将继承这些偏见，导致它们忽略广阔、未被探索的材料空间区域。这不仅是一个技术上的失败，也是一个伦理上的失败，因为它可能使科学的盲点永久化。

我们有责任对此进行反制。我们可以使用像重要性加权这样的统计技术来纠正我们有偏的训练数据与我们希望探索的更广阔空间之间的分布偏移。在主动学习循环中，我们可以设计我们的采集函数来明确寻求多样性，奖励对代表性不足的化学体系的探索。而且我们必须保持透明。像创建模型卡片这样的实践——简短地描述模型预期用途、局限性及其训练数据偏见的文档——对于负责任的创新至关重要。它们是使用说明书和警告标签，确保使用我们模型的人能够明智而安全地这样做。

归根结底，数据驱动的材料设计是一种深刻的综合。它结合了机器学习的统计能力、物理学深刻且有原则的结构、良好训练习惯的实践智慧以及负责任科学家的伦理远见。通过掌握这些原则，我们不仅仅是在拟合曲线，更是在构建强大、可靠且值得信赖的新发现工具。

应用与跨学科联系

既然我们已经窥探了数据驱动材料设计原理的内部机制，你可能会想：这到底有什么用？它真的改变了我们与物质世界的互动方式，还是仅仅是科学家们玩的一种复杂的新游戏？事实是，这些思想并不仅限于理论层面；它们正在科学和工程领域引发一场革命，不仅改变了我们找到的答案，甚至改变了我们提出的问题本身。让我们踏上一段旅程，看看这些概念是如何应用的，从锻造新合金到处理我们社会中关乎公平正义的根本问题。

新材料食谱：从逆向设计到智能合成

几个世纪以来，新材料的发现是一个关于机缘巧合、反复试验的故事，是把东西混合在一起看看会发生什么的过程。我们就像品尝食材的厨师，试图偶然发现一道美味的新菜谱。数据驱动设计彻底改变了这一模式。它使我们能够成为真正的烹饪艺术家：我们首先想象最终的菜肴——它的风味、质地、香气——然后我们逆向工作来编写食谱。这就是逆向设计的梦想。

想象一个机器学习模型，经过数千种已知材料的训练，预测出一种假设的新合金，它具有特定的原子平均价电子数——物理学家称之为价电子浓度（VEC）——将拥有非凡的强度和耐热性组合。模型给了我们一个目标，一个我们想要实现的“味道”。但我们如何制造它呢？这不再是一个猜谜游戏。我们可以将其转化为一个明确定义的数学难题：给定一组可用元素，什么样的精确成分，即各种成分的确切比例，才能产生我们的目标VEC？通过建立一个尊重化学规则和我们可能有的任何约束的方程组，我们通常可以求解出合成我们模型所梦想的材料所需的精确配方。这本新的“食谱”从期望的属性出发，最终给出了实验室的具体合成计划。

站在巨人的肩膀上：物理信息学习

一个常见的误解是，这个新的数据驱动世界抛弃了我们费尽心血建立起来的数百年物理学。事实远非如此。实际上，当数据驱动方法与物理定律深度交织时，它们才最为强大。我们模型中的“数据”通常并非凭空而来；它来自于精心设计的实验或模拟，而这些实验或模拟本身就是通过物理学的视角来解释的。

考虑测量材料如何响应挤压这一基本任务。我们可以进行实验（或模拟）来获得一系列压力-体积数据点。但这些原始数据仅仅是开始。然后我们可以将这些数据拟合到一个已知的物理模型，比如描述压力和体积之间关系的Vinet状态方程。拟合数据的行为使我们能够提取出深层的物理参数，比如材料的内禀刚度，或体模量。这些富含物理意义的参数，随后成为我们更复杂的机器学习模型的高质量“养料”。

我们可以将这种协同作用更进一步。我们可以构建混合模型，而不是要求神经网络从零开始学习材料的行为，因为这可能需要海量数据。我们从一个我们信任的基线物理定律开始——例如，经典的线性弹性理论。然后，我们让神经网络只学习与该简单定律的偏差，即我们旧理论无法捕捉的复杂非线性行为。总行为则是两者的总和：

\boldsymbol{\sigma}_{\text{total}}(\boldsymbol{\epsilon}) = \boldsymbol{\sigma}_{\text{physics}}(\boldsymbol{\epsilon}) + \boldsymbol{\sigma}_{\text{ANN}}(\boldsymbol{\epsilon})

这种方法非常高效。它建立在我们科学先驱的知识之上，利用机器学习不是为了取代他们，而是为了站在他们的肩膀上看得更远。当然，这提出了一个微妙但关键的问题：如果我们只在残差部分上训练模型，我们如何设计实验来清晰地区分基线物理和网络正在学习的新行为？这引出了可辨识性的深层问题，即确保我们的实验能够“提出正确的问题”，从而恰当地“教育”我们的模型。

从原子到飞机：跨越尺度的织锦

材料科学中最宏大的挑战之一是连接不同尺度。块体材料的属性，比如喷气发动机中的涡轮叶片，是由原子的复杂舞蹈和构成其内部结构的微观晶体（或“晶粒”）的复杂排列决定的。我们如何能从其无数微小部分的属性来预测整体的行为呢？

正是在这里，数据驱动思维提供了一个强大的新视角。想象一个由数百万个独立晶粒组成的多晶体。我们不可能将每个晶粒的属性都输入模型。我们需要一种方法来将这些信息“汇集”成一个紧凑、有意义的表示。一种幼稚的方法，比如简单地按某种任意顺序列出晶粒，将会失败，因为块体材料不关心我们如何标记其晶粒。宏观属性必须独立于这种排序——数学家称之为置换不变性。物理学引导我们走向一个更好的解决方案：加权平均。每个晶粒属性对整体的贡献应与其体积分数成正比。这一原则是基于物理的汇集方法的基础，而像Deep Sets这样的现代架构为这项任务提供了一个强大的、可学习的框架。

这种连接尺度的思想可以变得极其严谨。在力学中，有一个优美的原则叫做Hill-Mandel条件，它确保微观尺度的能量与宏观尺度的能量保持一致。这就像一个跨尺度的信息守恒定律。我们可以利用这一原则来构建稳健的多尺度模型。我们可以使用数据——即使只是几个离散的数据点——来表征单个微观相的行为，然后使用Hill-Mandel条件作为“胶水”，将它们拼接成一个连贯的宏观模型，以预测整个复合材料的响应。

一旦我们有了这样的模型，我们就可以用它来创建所谓的代理模型。一个完整的多尺度模拟在计算上可能极其繁重，模拟一小块材料可能需要数天或数周。一个在这些昂贵模拟结果上训练的代理模型，是一个快速而准确的近似，它捕捉了本质的物理学。这就像拥有一个袖珍计算器，可以立即给出一个极其复杂的积分的答案。这些代理模型随后可以被插入到大规模的工程模拟中，使我们能够以前所未有的速度和准确性预测桥梁的寿命或飞机机翼的疲劳。我们甚至可以将物理学直接融入这些代理网络的架构中，例如，通过设计它们来输出一个势能函数，这能自动保证模型遵循材料对称性等基本定律。

自主实验室：闭合发现循环

也许最激动人心的前沿是数据驱动设计成为发现过程中的真正伙伴。我们可以闭合循环，创建一个模型不仅从数据中学习，而且主动决定下一步要收集什么数据的周期。这就是自主实验室的黎明。

但你从哪里开始呢？想象一下你正在探索一个全新的材料家族。可能性的空间是天文数字般的浩瀚。你没有任何数据。这就是冷启动问题。纯粹的随机方法就像在银河系大小的干草堆里找一根针。相反，我们可以使用实验设计领域的智能策略。我们可以铺设一个“空间填充”的初始实验网格，比如拉丁超立方采样，确保我们最初的几次尝试在最重要的物理描述符上尽可能均匀地分布，从而为我们提供最广阔的景观视野。

一旦我们有了一些初始数据，真正的魔法就开始了。模型可以引导我们。在任何给定时刻，我们都面临一个根本性的选择，一个利用（exploitation）和探索（exploration）之间的权衡。我们应该测试一种新材料，我们的模型预测它会非常好，很可能比我们目前最好的材料有小幅改进（利用）吗？还是我们应该在一个模型高度不确定的区域测试一种材料，那里的预测变化很大？第二个选项是一场赌博；这种材料可能很糟糕，但它也可能是一次革命性的突破。这就是探索。

贝叶斯决策理论通过一个称为期望提升（Expected Improvement, EI）的量，为解决这一困境提供了一种优美而有原则的方法。EI公式优雅地权衡了预测性能和预测不确定性，计算出找到比我们已有更好的东西的期望值。通过始终选择能最大化 EI 的下一个实验，自主系统能够在改进已知的优良解与冒险进入未知但信息丰富的领域之间实现智能平衡。

现实世界使事情变得更加复杂，因为我们很少只关心一个属性。我们想要一种既坚固又轻便又便宜又耐腐蚀的材料。这是一个多目标优化问题。通常没有单一的“最佳”材料，而是一组被称为帕累托前沿的最优权衡。例如，你可能有一种材料非常坚固但昂贵，另一种较弱但非常便宜。两者都并非绝对优于对方；它们代表了权衡曲线上的不同点。简单的目标组合方法，如加权和，在这里可能会彻底失败，因为它们对权衡景观的某些部分是盲目的。需要更复杂的技术来描绘出整个帕累托前沿，从而为设计者提供一个完整的优化选择菜单，供他们根据具体需求进行选择。

最后的反思：数据、金钱与正义

我们的旅程已将我们从算法的抽象世界带到自我引导实验室的具体现实中。这是一个充满巨大力量和希望的故事。但强大的力量也伴随着巨大的责任。人们很容易被数据驱动过程看似客观的外表所迷惑。毕竟，数字是不会说谎的。真的是这样吗？

让我们来思考一个最后、发人深省的例子。一个政府机构建立了一个机器学习模型，以决定哪些沿海社区应获得资金用于防御侵蚀和海平面上升。该模型训练所用的数据看起来是合理、可量化的：房地产市场价值和历史财产损失保险索赔。模型运行后，尽职地建议为拥有豪华度假村的富裕海岸线建造巨大的海堤，而附近的一个原住民领地——其财富不在于房产价值，而在于神圣的文化遗址、传统的自给渔业以及作为他们身份基石的生态系统——却获得了低脆弱性评分且没有资金。

这里发生了什么？从技术上讲，这个模型并没有“错”；它完美地优化了给定的度量标准。但这个度量标准本身却存在着严重的偏见。通过将所有风险转化为单一的、货币化的价值，该系统使得原住民社区的文化、精神和生态财富变得无形。该社区世代相传的培育基于自然的解决方案（如适应力强的红树林）的知识，也未被量化和忽略。一个不公的反馈循环就此形成：缺乏投资导致环境退化，而在未来的模型迭代中，这又被误解为一个天生“无法拯救”的海岸线的标志，从而为进一步的忽视提供了理由。一个看似中立和“数据驱动”的框架，变成了一个使剥夺合法化的工具，用客观优化的语言掩盖了深层次的伦理失误。

这使我们来到了最重要的跨学科联系：与人性的联系。数据驱动设计中的“数据”并非对世界的完美、柏拉图式的反映。它是一个人类的产物，根据我们的优先事项收集，由我们的历史塑造，并编码了我们的价值观——以及我们的偏见。在我们构建这些强大的新工具时，我们必须时刻保持警惕。我们不仅要问“模型准确吗？”还要问“我们正在将什么价值观嵌入这个模型中？”以及“谁受益，谁被落下？”设计更优材料的探索归根结底是一项人类事业，其成功与否，不能仅通过我们合金的性能来衡量，而应取决于我们的新创造物帮助建立了一个怎样的世界。