机器学习仿真

玻尔百科

核心要点

机器学习仿真创建快速的代理模型，近似计算成本高昂的模拟，从而极大地减少时间和资源成本。
仿真器种类繁多，从数据驱动的“黑箱”模型到整合物理定律以获得更高准确性和稳定性的物理信息“灰箱”和“白箱”（PINNs）模型。
灰箱模型将可信的物理方程与机器学习驱动的校正（残差学习）相结合，以保留守恒定律等核心原则。
除了加速计算，仿真器还可作为科学发现的工具，能够快速探索各种情景、校正模拟中的失真，以及测试理论边界。

引言

现代科学依赖复杂的模拟来理解从气候变化到星系碰撞的一切事物。虽然支配这些系统的物理定律通常是众所周知的，但要高保真地求解其方程需要巨大的计算能力，这造成了时间和资源的瓶颈。本文通过引入机器学习仿真这一强大概念来应对这一关键挑战。在机器学习仿真中，机器学习模型扮演着“智能学徒”的角色，学习复杂模拟的行为并提供近乎瞬时的预测。

这种方法有望通过将棘手问题变得易于处理来彻底改变科学研究。在本文的阅读过程中，您将全面了解这项变革性技术。第一章“原理与机制”深入探讨了核心概念，探索了从数据驱动的“黑箱”模型到融入物理学的“灰箱”和“白箱”模型的各种仿真器。随后，“应用与跨学科联系”一章揭示了仿真在不同领域的深远影响，从加速气候科学和材料发现，到探索我们科学理论的极限，并引发深刻的哲学问题。

原理与机制

想象一下，您想预测天气。不只是明天的天气，而是未来一百年的天气，以了解气候变化。支配大气的定律——空气、热量和水的舞蹈——是已知的。它们用偏微分方程（PDEs）的语言来表达，这些方程是关于质量、动量和能量守恒的复杂陈述。原则上，我们可以在强大的超级计算机上求解这些方程。我们将大气层切分成数十亿个微小的立方体，然后一步一步地计算它们之间能量和物质的流动。

这就是模拟的艺术。它是现代科学的支柱之一，让我们能够探索从蛋白质折叠到星系碰撞的一切。但它带来了惊人的成本。对于数十亿个网格点中的每一个，每向前推进一步，都需要巨大的计算量。一次气候模拟可能需要在世界上最快的机器上运行数月。如果我们想运行数千次这样的模拟来探索不同情景或量化不确定性，我们将面临无法逾越的时间和资源壁垒。模拟的复杂性，即其计算成本，通常与我们网格中的点数 $N$ 和我们希望进行的时间步数 $T$ 成比例——成本量级为 $Θ(NT)$ 。这就是高保真模拟的负担。

如果我们能构建一条捷径呢？如果在运行了几次昂贵的模拟之后，我们能训练一个“智能学徒”来学习其中的模式呢？这个学徒，一个机器学习（ML）模型，会观察输入（初始状态）和输出（未来状态），并学习它们之间的关系。一旦训练完成，这个学徒——我们的仿真器或代理模型——几乎可以瞬间给出答案。预测可能只需要几秒钟，而不是几个月。这就是机器学习仿真的前景：在不支付全部计算代价的情况下，捕捉复杂物理过程的精髓。

代理模型谱系：从黑箱到玻璃箱

捷径的想法很简单，但“如何实现”却异常丰富和微妙。并非所有仿真器都是生而平等的。它们存在于一个谱系中，由它们“知道”多少物理知识与它们纯粹从数据中学到多少来定义。我们可以将其看作是从不透明的黑箱到透明的玻璃箱的演进。

在一端，我们有对底层定律一无所知的模型。在另一端，我们有几乎完全由这些定律构建的模型。在这两者之间，存在一个引人入胜的中间地带，即“灰色地带”，在这里物理学和机器学习形成了强大的伙伴关系。

黑箱：纯数据驱动的仿真

最直接的方法是将复杂的模拟器视为一个完全的黑箱。我们不关心它如何工作；我们只关心它的输入和输出。我们通过为各种输入 $\boldsymbol{x}$ 运行昂贵的模拟来生成一个训练数据库，以获得它们对应的输出 $\boldsymbol{y}$ 。然后，我们训练一个机器学习模型，比如深度神经网络，来学习映射 $\boldsymbol{x} \mapsto \boldsymbol{y}$ 。

一旦训练完成，使用该模型进行新的预测——这个过程称为推理——速度惊人。它只是通过网络各层的一次“前向传播”，一系列矩阵乘法和简单的函数调用。这种推理的成本是恒定的；它不依赖于原始问题的规模 $N$ 或持续时间 $T$ 。相对于这些参数，其复杂度为 $\mathcal{O}(1)$ 。这就是速度显著提升的来源。

然而，这种速度也有其自身的代价。通过将模拟器视为黑箱，仿真器忘记了构建它时所包含的所有基础物理学。伟大的守恒定律——质量、能量和动量守恒——不会被自动遵守。一个黑箱天气模型在长时间模拟中可能会凭空创造或销毁能量，导致不符合物理规律且不稳定的结果。

此外，这些模型只在它们的训练数据领域内是可靠的。如果模拟进入一个新的区域——一个仿真器从未见过的世界状态——它的预测可能会变得毫无意义。这使得构建能够检测模型何时在分布外 (OOD) 运行的“护栏”至关重要。一种优雅的方法是监控马氏距离 (Mahalanobis distance)，它衡量一个新输入离训练数据中心的距离，同时考虑了数据的相关结构。如果这个距离超过某个阈值，系统可以发出警告，提醒我们仿真器的预测不可信。

灰箱：物理学与数据的伙伴关系

我们必须丢弃所有来之不易的物理知识吗？当然不是。这就引出了灰箱模型的概念，这是一种混合方法，保留了物理定律的核心结构，但使用机器学习来填补空白。这是一种伙伴关系，利用了两个世界的优势。

首先，为什么我们的物理模型会不完整？通常，这是一个尺度问题。在我们的气候模型中，我们不可能模拟每一个湍流涡旋和云丝。我们的网格太粗糙了。我们可以完美地写出大尺度、可解析尺度运动的方程，但这些会受到小的、未解析的亚格子尺度的影响。我们用来定义可解析状态的滤波或平均过程会在我们的方程中引入新的项——这些项代表了所有未解析活动（例如小尺度速度涨落之间的相关性）的净效应。可解析尺度的方程不再是自洽的；它们是“不封闭的”。

为这些不封闭的项找到一个好的近似是参数化的经典问题。灰箱模型通过以下两种主要方式之一使用机器学习来解决这个问题：

参数学习： 有时，我们对物理定律的数学形式很有信心，但我们不确定其中涉及的常数的精确值——例如，材料的热导率，或海底的拖曳系数。在这里，机器学习模型的工作不是学习一个新函数，而是从观测数据中推断这些未知参数。这是一个经典的逆问题，通过现代优化工具得到了增强。
残差学习： 一种更深刻的方法是承认我们方程的形式可能是不完整的。我们相信我们的物理模型能捕捉到主要效应，但我们知道存在差异，即模型预测与现实之间的残差误差。然后我们可以训练一个机器学习模型来学习这个作为可解析状态函数的残差。最终的预测变成了一个和：（物理模型）+（学习到的机器学习校正）。偏微分方程求解器仍然处理系统的演化，但在每一步，机器学习模型都会提供一个数据驱动的校正，以推动模拟更接近现实。

灰箱方法的美妙之处在于我们不必重新学习自然法则。通过保留核心的偏微分方程求解器，我们通常可以“免费”获得基本原则。例如，如果我们将方程写成特殊的“通量形式”或“散度形式”，数值方法本身就可以保证质量的精确守恒，而不管机器学习校正项对动量方程做了什么。我们还可以对机器学习的输出施加硬约束。例如，我们可以强制学习到的涡黏性始终为非负，确保亚格子项总是耗散能量，防止模拟爆炸。这将物理一致性直接嵌入到模型的设计中。

白箱：直接学习自然法则

如果我们模拟数据很少，但对控制方程本身有很强的信心该怎么办？这就引出了最具“物理感知”的方法：物理信息神经网络 (PINNs)。

在这里，范式完全转变了。我们不是在输入-输出数据对上训练神经网络。相反，我们训练它直接满足偏微分方程。网络的输入是坐标（例如，空间 $x$ 和时间 $t$ ），其输出是解（例如，温度 $T(x,t)$ ）。其精妙之处在于损失函数。我们将网络配置为可微的，因此我们可以自动计算其输出相对于其输入的导数。这使我们能够将网络的输出直接代入偏微分方程并计算残差：即网络的解在多大程度上未能满足该方程。

然后，训练过程就变成了一个优化问题：找到使这个偏微分方程残差以及任何边界或初始条件不匹配尽可能接近于零的网络权重。网络不是通过模仿数据来学习一个解，而是通过发现一个遵守指定物理定律的函数来学习。当数据稀缺时，这种“白箱”方法非常强大，它有效地利用偏微分方程本身作为信息的最终来源。

将这些基于机器学习的方法与传统的降阶模型 (ROMs) 区分开来很重要。一个经典的ROM，例如使用伽辽金投影的ROM，也是一种捷径，但其构建方式不同。它将控制方程投影到一个从模拟快照中导出的低维子空间上。它本质上是一种“基于物理”的压缩，而机器学习仿真器是一种统计压缩，它从数据中学习函数关系。一个关键的区别是在线成本：一个ROM仍然需要为每个新输入求解一个小型方程组，而一个训练好的神经网络仿真器只需要一次快速的前向传播。

建立信任：稳定性、约束和解释

创建一个仿真器并不是故事的结局，而是一个新科学过程的开始。代理模型是一个强大的工具，但像任何工具一样，必须小心使用并抱有健康的怀疑态度。

首先，当我们将一个机器学习模型耦合回一个更大的模拟（混合模型）中时，我们正在改变系统的动力学。机器学习组件可能会引入非常快速的“刚性”行为，这需要一个更小的模拟时间步长 $\Delta t$ 才能在不产生数值不稳定性的情况下进行解析。或者，其动力学可能与系统中现有的物理振荡产生共振，导致不符合物理规律的能量传递和失控行为。我们必须仔细地协同设计仿真器和模拟器的数值参数，以确保它们以稳定、和谐的方式协同工作。

其次，为了构建稳健可靠的代理模型，我们必须向其注入物理世界的基本对称性。例如，流体动力学定律不依赖于你的绝对速度，只依赖于速度差。这就是伽利略不变性。因此，一个用于湍流的机器学习模型应该依赖于速度梯度（如应变和涡度），而不是绝对速度。同样，如果你旋转坐标系，定律也是相同的（旋转不变性）。一个精心设计的网络架构可以被构建来尊重这些对称性，使其更有可能正确泛化。

最后，我们必须问一个最重要的问题：我们的仿真器是学到了真正的科学，还是仅仅找到了一个聪明但无意义的统计技巧？我们需要打开黑箱，让它自我解释。这就是可解释人工智能 (XAI) 的领域。我们可以使用 XAI 工具来探测仿真器并提问：“对于这个预测，哪些输入特征最重要？”答案可以被表述为新的、可检验的科学假设。例如，一个 XAI 工具可能会表明，仿真器学到了北极海冰减少（一个输入）会导致更强的冬季极地涡旋（一个输出）。这是一个可证伪的主张。然后我们可以转向一个留出的真实世界观测数据集或高保真模拟数据集，并明确检验这个假设。这个过程，一种贝叶斯模型批判的形式，将仿真器从一个单纯的捷径转变为科学发现循环中的一个积极参与者。它让我们不仅可以使用模型，还可以挑战它，从它的失败中学习，并最终在它的成功中建立信任 [@problem_-id:4040948]。

应用与跨学科联系

在了解了机器学习仿真的原理和机制之后，我们可能会倾向于认为它只是一个聪明的技巧——一种让我们的模拟运行得更快的巧妙计算工程。但如果止步于此，就如同欣赏一幅宏伟的织锦却只看到单根的线。这个想法真正的美妙之处，它深刻而革命性的特质，只有当我们退后一步，看到它在科学的织物上编织出的广阔而复杂的图案，甚至触及作为人的核心意义时，才会显现出来。现在让我们来探索这片风景，从现代技术的工厂车间到思想与物质的哲学前沿。

伟大的加速器：驯服计算复杂性

在其最直接的层面上，机器学习仿真是一种与计算成本这个魔鬼达成的协议。我们这个时代许多最重要的科学问题，从预测气候到发现新药，都受我们熟知的物理定律支配，但其模拟过程却慢得令人崩溃。我们知道这些方程，但要为每一个原子，在每一个地方，在每一个时刻求解它们，是一项不可能完成的任务。在这里，仿真器作为一个才华横溢、务实的学徒介入。

考虑一下气候建模的巨大挑战。一个全球气候模型是一个由相互关联的物理学组成的庞大钟表机构：海洋和大气的流体动力学，冰和云的热力学，以及太阳能量流入和返回太空的辐射传输。其中计算要求最高的部分之一是计算辐射传输——辐射如何被大气各层的各种气体吸收和重新发射。最准确的“逐线”(Line-By-Line, LBL) 方法，从第一性原理出发求解基本物理问题，速度极慢，以至于在全尺寸气候模拟中使用它们，就像试图用滴管填满一个游泳池。

于是，科学家们利用这些高保真LBL计算的结果来训练一个机器学习代理模型。该代理模型学习大气状态（温度、压力、气体浓度）与由此产生的能量通量之间复杂的非线性关系。一旦训练完成，这个仿真器可以产生一个与LBL结果非常接近的答案，但速度要快上数千甚至数万倍。当然，这里存在一个权衡：我们为了速度上的巨大提升而牺牲了微不足道的一小部分准确性。但正是这种权衡，使得以前棘手的问题变得易于处理。它允许科学家们运行更多的模拟，模拟更长的时间，以更高的分辨率，探索更广泛的未来情景。

同样地，用一点点准确性换取大量速度的原则，在无数领域都是一个主力军。在材料科学领域，研究人员可能拥有数十万种用于新型电池电极或碳捕获材料的假想晶体结构的数据库。使用昂贵的量子力学模拟来计算每一种结构的稳定性需要多年的超级计算机时间。而一个在较小已知材料集上训练的仿真器，可以作为一个快速过滤器，立即丢弃95%可能不稳定的候选者，并标记出最有希望的那些进行全面、严格的量子分析。这是一个具有巨大杠杆作用的工具，将我们宝贵的计算资源集中在最重要的地方。

超越黑箱：物理信息与可解释的仿真

如果我们的故事到此为止，将仿真器仅仅视为黑箱加速器，那它虽有用但不够深刻。真正激动人心的发展，发生在我们打开箱子，让物理学进入其中之时。我们不再要求机器从零开始学习一切，而是通过将我们现有的物理世界知识直接融入模型结构中，给它一个“领先优势”。这就是物理信息机器学习（PIML）的世界。

想象一下对锂离子电池的电压进行建模。电池两端的总电压是多种效应的复杂总和：一个取决于充电状态的基线热力学电位，以及由化学反应动力学和离子传输产生的额外“过电位”。一个天真的仿真器可能会试图仅从数据中学习整个电压曲线。但一个更优雅的方法是构建一个混合模型。我们可以使用众所周知的物理方程来处理热力学部分——即开路电压 $U(c)$ ——然后训练一个神经网络只学习残差：那些更难从第一性原理建模的动力学和传输过电位。

这个看似微小的改变带来了深远的影响。该模型不再是一个完全的黑箱；它具有可解释的结构。模型的一部分是我们已经信任的热力学，而另一部分根据定义是非平衡动力学。这使得模型更加稳健、数据效率更高，也更值得信赖。当它做出预测时，我们可以检查其组成部分并理解其原因。

这种基于物理学的模型和数据驱动的模型之间的对话，也迫使我们澄清我们需要从模型中得到什么。例如，在微芯片制造中，工程师必须预测“热点”——芯片设计上那些在复杂的光刻工艺中可能失败的图案。一种方法是构建一个完整的光传播和光刻胶化学的物理模拟。这种方法高度准确且可解释，但速度慢。另一种方法是在大量已见过的通过或失败的图案数据集上训练一个机器学习分类器。这个机器学习模型可以非常快，但其推理过程可能不透明，而且可能在它从未见过的全新图案上失败。在它们之间做出选择，是在解释能力和原始处理能力之间的选择，这是现代工程设计中的一个基本矛盾。

大师之触：仿真并纠正我们的瑕疵

到目前为止，我们一直在讨论仿真一个物理系统。但如果我们把镜子转过来，仿真模拟本身，包括其已知的缺陷和失真，会怎么样？这时，机器学习仿真就成了一种极其精细的工具。

许多计算机模拟，特别是在分子动力学中，依赖于数学上的便利性来使计算可行。一个常见的方法是使用周期性边界条件（PBC），即模拟一小盒原子，然后想象它像重复的壁纸图案一样在所有方向上无限平铺。这避免了处理讨厌的“边缘效应”。然而，这个数学技巧引入了一个不符合物理规律的失真：模拟盒的偶极矩可以与其自身的无限周期性图像相互作用，产生一个在现实中本不存在的伪电场。

物理学家已经开发出复杂的分析校正来消除这种效应。但一种更微妙的方法是教仿真器自动执行校正。我们可以在PBC模拟产生的“有缺陷”的数据上训练一个机器学习模型，但有一个转折。我们在其学习目标中增加一个特殊的惩罚项，该惩罚项惩罚那些与失真来源（盒子的总偶极矩）相关的错误。通过这样做，我们实际上是在告诉模型：“学习这个映射，但忽略其中任何看起来像这个已知模拟缺陷的部分。”模型在追求最小化其目标的过程中，学会了看透失真，并预测出物理上正确的、被校正过的电势 [@problem_-id:3444104]。这是一个利用我们的物理洞察力引导学习过程走向更深层次真理的优美例子。

当使用仿真器解决*逆问题*时，这种对底层结构的认知同样至关重要。到目前为止，我们一直关注正向问题：给定原因，预测结果。逆问题则相反：给定结果，找出原因。例如，根据涡轮叶片内部的温度测量值，我们能确定材料各处的热导率吗？这些问题是出了名的“不适定的”。因为这个过程涉及到对带噪声的实验数据进行微分，测量中的微小噪声可能导致对底层属性的解出现巨大错误和不稳定。为这类任务设计的机器学习仿真器必须在其设计中考虑到这种不稳定性，通常通过强正则化来实现，这可以防止模型对噪声“反应过度”。它不仅必须仿真物理过程，还必须仿真它旨在解决的问题本身的数学特性。

哲学转向：仿真理论与人

这段旅程在对仿真概念本身的惊人扩展中达到高潮。如果我们不仅能仿真一个物理系统，还能仿真一整套物理理论呢？

考虑固体力学中的连续介质假设，它将材料视为一种光滑、连续的物质。这是一种近似；我们知道，在深层次上，一切都是由离散的原子构成的。只要我们观察的现象远大于原子尺度，这个近似就非常有效。我们可以用完全由这种简化的连续介质理论生成的数据来训练一个机器学习仿真器。模型将完美地学习这个世界。但现在测试来了：我们要求模型对原子尺度上的现象进行预测，这远远超出了它的训练经验范围，而连续介质假设正是在这里失效的。仿真器忠于它所学的简化世界，将会做出一个与真实的、离散的原子行为相比大错特错的预测。

在这里，仿真器的失败是它最大的成功。它的崩溃成了一种诊断工具。它精确地划定了我们简化理论不再有效的边界。我们使用机器不仅仅是为了得到一个答案，而是为了问一个更深层次的问题：“我们自己理解的极限在哪里？”

这引向了最后一个，也是最深刻的前沿。如果我们能仿真一个物理过程，能仿真一个物理理论，那我们能仿真一个人吗？这不再是科幻小说的内容，而是一个迫在眉睫的、处于人工智能、医学和伦理学交叉点的问题。想象一个AI，它在一个人的毕生著作、通讯和决策上进行训练。这样一个模型能否作为一个“偏好仿真器”，为那些失去自主决策能力的病人充当代理声音？或者考虑这样一种情景：高保真神经备份成为可能。如果一个人遭受了不可逆的生物学死亡，但他们的认知状态可以从最近的备份中在一个模拟环境中完美重启，那么他们发生了什么？这种仿真构成了他们身份的延续，还是一个全新的、独立的个体——一个数字继承者？

这些问题没有简单的答案。它们迫使我们直面身份、自主和生命本身的最深层定义。《统一死亡判定法》纯粹从生物学角度定义死亡。但高保真仿真引入了心理连续性的概念，作为一个与之竞争，并可能在某一天变得令人信服的标准。

从一个加速计算的简单工具开始，机器学习仿真带我们进行了一次非凡的智力航行。它展示了自己是一种新型的科学仪器——不仅能求解我们的方程，还能帮助我们改进模型、探索理论的极限，并最终，就世界的本质以及我们在其中的位置，提出令人不安的新问题。发现之旅才刚刚开始。