物理信息数值方法

玻尔百科

核心要点

物理信息神经网络（PINNs）将偏微分方程等物理定律直接整合到损失函数中，即使在数据稀疏的情况下也能解决问题。
自动微分是核心技术，它能够精确计算训练PINNs所需的物理残差（导数），而没有数值近似误差。
这些方法通过将未知的物理参数或隐藏结构视为可训练变量，从观测数据中发现它们，从而在解决逆问题方面表现出色。
混合模型将PINNs的强大功能与有限元法（FEM）等传统求解器相结合，并在创建物理系统的预测性实时数字孪生中发挥重要作用。

引言

在模拟自然世界的探索中，科学长期依赖于两大支柱：经验数据和基本物理理论。传统机器学习擅长在海量数据集中寻找模式，但对自然界的基本定律却一无所知；而经典的基于物理的模拟器虽受这些定律约束，但在处理复杂系统或稀疏观测时可能力不从心。本文探讨了一种弥合这一鸿沟的革命性范式：物理信息数值方法。这种方法将以微分方程形式表达的物理定律本身嵌入到机器学习模型的核心。我们将深入探讨这种综合方法的核心原理，回答神经网络如何能被教会遵守物理约束的问题。第一章“原理与机制”将解构物理信息神经网络（PINNs）的架构，从其独特的损失函数到自动微分的关键作用。随后的“应用与跨学科联系”一章将展示这些方法在科学和工程领域的变革性力量，从解决复杂的正问题和逆问题到构建下一代数字孪生。

原理与机制

一台由硅和导线构成、只懂得加法和乘法的机器，如何能学习自然法则？秘诀不在于从教科书中教它物理，而在于赋予它一种新的良知——一个数学记分卡，它不仅根据观测数据来评判机器的每一次猜测，还根据物理学的基本原理来评判。这个记分卡就是我们所说的损失函数，它是物理信息神经网络（PINN）的核心。

一张为现实打分的记分卡

想象一下，你正在训练一个学生——我们称她为“网络”——来预测一块金属板上的温度分布。在传统的机器学习中，你会给她看几个例子：“在这个点，温度是35度；在那个点，是42度。”学生的成绩，或者说损失，仅仅是衡量她的预测与这些已知测量值偏差多大的一个指标。这就是数据失配损失。这是一个好的开始，但效率极低。我们可能只有几个温度传感器，使得金属板的大部分区域完全成谜。学生可能会找到一个疯狂的、不符合物理规律的函数，它恰好能正确地通过那几个数据点，但在其他任何地方都是无稽之谈。

“物理信息”革命由此开始。我们对温度有一个深刻的认识：它遵循热方程，一个用微积分语言写成的自然法则。这个法则必须在金属板的任何地方都成立，而不仅仅是我们有传感器的地方。因此，我们在记分卡中增加了一个新的、至关重要的部分：物理残差损失。

一个物理定律，通常以偏微分方程（PDE）的形式出现，其写法是一侧为零的方程。对于一个由算子 $\mathcal{N}$ 控制的通用物理场 $u$ ，其定律为 $\mathcal{N}[u] = 0$ 。 $\mathcal{N}[u]$ 这一项就是我们所说的残差。如果定律被完美遵守，残差就为零。现在，我们可以根据我们的学生网络 $u_\theta$ 对这个定律的遵守程度来给她打分。我们在金属板上随机抽取大量点——这些配置点上我们没有数据——并在每个点上计算残差 $\mathcal{N}[u_\theta]$ 。这个值偏离零越多，网络犯下的“物理之罪”就越重，其受到的惩罚就越高。

最后，一个物理问题绝不仅仅是真空中的一个方程。它有上下文。金属板边缘的温度是多少（边界条件）？最初始时各处的温度是多少（初始条件）？我们在记分卡上增加了第三组惩罚：边界和初始条件损失，它惩罚网络对这些约束的不尊重。

总损失是这三部分的加权和：数据失配、物理残差以及边界/初始条件。优化器的工作是调整网络的参数 $\theta$ ，以找到使这个总惩罚最小化的函数 $u_\theta$ ——一个不仅与我们稀疏的测量数据一致，也与普适的物理定律和问题的特定背景相符的函数。这种基于物理的惩罚充当了一个强大的正则化项，用物理上合理的解来填补稀疏数据点之间的空白，这是纯数据驱动方法永远无法做到的。

让我们构建一个：平衡的和谐

为了让这个概念不那么抽象，让我们为物理学中最优雅的方程之一构建一个PINN：泊松方程， $-\Delta u = f$ 。这个方程描述了处于平衡状态的现象，从空间中的引力场、电荷周围的静电势，到物体中的稳态温度分布。这里， $u$ 是我们想要找到的场（比如温度）， $\Delta$ 是拉普拉斯算子（在二维中为 $\Delta u = \frac{\partial^2 u}{\partial x^2} + \frac{\partial^2 u}{\partial y^2}$ ），而 $f$ 是一个源项（比如热源）。

让我们想象一下，我们正在求解一个被均匀压力 $f=1$ 推动的拉伸薄膜（比如鼓面）的形状。鼓的边缘固定在零高度。我们的问题是：

物理定律：在鼓内部 $-\Delta u = 1$ 。
边界条件：在圆形边界上 $u = 0$ 。

我们的PINN， $u_\theta(x,y)$ ，代表鼓面上任意点 $(x,y)$ 的高度。损失函数，即我们为网络猜测打分的记分卡，将包含两个部分：

PDE残差损失（ $L_{PDE}$ ）： 我们将定律重写为 $\Delta u + 1 = 0$ 。残差为 $r_\theta(x,y) = \Delta u_\theta(x,y) + 1$ 。我们在鼓内部散布大量的配置点 $\\{(x_i, y_i)\\}$ ，并计算残差平方的均值： $L_{PDE}(\theta) = \frac{1}{M} \sum_{i=1}^{M} \left( \frac{\partial^2 u_{\theta}}{\partial x^2}(x_i, y_i) + \frac{\partial^2 u_{\theta}}{\partial y^2}(x_i, y_i) + 1 \right)^2$
边界条件损失（ $L_{BC}$ ）： 我们在鼓的边界上散布点 $\\{(x_j^{(b)}, y_j^{(b)})\\}$ 。这里的违规就是网络预测的高度 $u_\theta$ ，它本应为零。损失是高度平方的均值： $L_{BC}(\theta) = \frac{1}{N} \sum_{j=1}^{N} \left( u_{\theta}(x^{(b)}_{j}, y^{(b)}_{j}) \right)^2$

要最小化的总损失是这两个“罪过”的加权和： $\mathcal{L}(\theta) = L_{PDE}(\theta) + \lambda_b L_{BC}(\theta)$ ，其中 $\lambda_b$ 是我们选择的权重，用以平衡满足内部物理规律与遵守边界条件的重要性。优化器现在搜索网络参数 $\theta$ ，以定义出既满足内部物理又满足边界约束的最平滑、最和谐的膜形状。

神奇的配料：自动微分

你可能会想，“我们到底如何为一个像深度神经网络这样极其复杂的函数计算像 $\frac{\partial^2 u_{\theta}}{\partial x^2}$ 这样的项？”试图写出符号导数将是一场噩梦，而使用像有限差分这样的数值近似会引入误差和不稳定性。

答案在于一种美丽的计算技术，它是现代深度学习背后的引擎：自动微分（AD）。一个神经网络，无论多深，都只是一长串简单的基本运算（加法、乘法、激活函数如 $\tanh$ 或 $\sin$ ）。微积分中的链式法则告诉我们如何对复合函数进行微分。AD只是对这一整个运算序列一丝不苟、系统地应用链式法则。

理解AD不是什么至关重要。它不是符号微分，后者操作数学表达式。它也不是数值微分，后者通过评估函数在邻近点的值来近似导数。AD评估的是由代码实现的函数的精确导数，其精度仅受计算机浮点精度的限制。这就像拥有一台完美的微积分机器，可以对任何程序进行微分。这种“免费”获得任意复杂函数精确解析导数的能力，是使PINNs变得实用的关键技术飞跃。

当然，这种魔法并非没有微妙之处。虽然AD是精确的，但微分作为一个操作会放大数值舍入误差，这种效应在偏微分方程中经常需要的高阶导数上会变得更加明显。此外，网络中激活函数的选择至关重要。像在计算机视觉中流行的修正线性单元（ReLU）这样的函数，其二阶导数在“拐点”处未定义，使其成为表示许多偏微分方程所需的光滑解的一个糟糕选择。这促使我们转向更平滑的激活函数，如双曲正切（ $\tanh$ ）或正弦函数，它们的导数性质良好。

新瓶装旧酒？

物理学中最美妙的事情之一，就是发现一个看似全新的想法其实是某个古老思想的现代体现。PINN的概念是凭空产生的，还是它有其祖先？

确实有。几十年来，科学家和工程师一直在使用配置法。其思想是用预定义的基函数（如多项式或正弦波）的组合来近似偏微分方程的未知解。例如，人们可能会猜测一个形式为 $u(x) \approx c_1 \phi_1(x) + c_2 \phi_2(x) + \dots + c_m \phi_m(x)$ 的解。任务就是找到最佳的系数 $c_j$ 。为此，人们会选择一组“配置点”，并要求PDE残差在这些特定点上恰好为零。这就产生了一个可以求解系数的方程组。[@problem_d:3214158]

从本质上讲，PINN是最小二乘配置法的一个威力更强大、更灵活的版本。训练点就是配置点。神经网络 $u_\theta$ 充当试探函数。但这里有一个深刻的区别：在经典配置法中，基函数 $\phi_j(x)$ 是固定的。你必须提前选择它们，一个糟糕的选择会导致一个糟糕的解。而在PINN中，网络学习自己的基函数！网络的隐藏层输出可以被看作是一组丰富的、自适应的基函数，它们在训练过程中不断被优化，以最好地拟合问题的特定物理特性。因此，PINN不仅仅是为固定的基寻找最佳系数；它同时在发现最优的基本身。

弱形式的力量：变分PINNs

在离散点上强迫PDE残差精确为零，我们称之为强形式方法。这种方法可能非常苛刻，特别是对于具有高阶导数的PDE，正如我们所见，这些导数的数值计算可能很棘手。还有另一条通常更稳健的路径，它植根于变分法，并以在有限元法（FEM）中的著名应用而闻名。这就是弱形式。

我们不再要求残差 $R(u)$ 处处为零，而只要求它与一组“检验函数” $\phi$ 的加权平均为零。即 $\int R(u) \phi \, dx = 0$ 。关键的操作是分部积分。这使我们能够将导数从我们复杂的网络解 $u_\theta$ 转移到简单、已知的检验函数 $\phi$ 上。对于像泊松方程这样的二阶PDE，这意味着我们只需要计算 $u_\theta$ 的一阶导数，从而减轻了AD的负担并提高了数值稳定性。

这催生了变分PINNs（vPINNs）。vPINN的损失不是基于逐点的残差，而是基于这些基于积分的弱残差。这有两个极好的好处。首先，如前所述，它降低了所需的导数阶数。其次，积分本身是一种平滑操作。它平均掉了局部误差，使得vPINNs对训练数据或问题本身中的高频噪声自然更加鲁棒。[@problem_d:3513303] 这显示了核心思想的美妙灵活性：我们可以将物理以其强形式或弱形式嵌入，选择最适合当前问题的表示方式。

训练的艺术：驯服野兽

定义损失函数是第一步。第二步，也是通常更难的一步，是实际地将其最小化。PINN的损失景观是一个极其复杂的高维地形，找到其最低点是一门精巧的艺术。

权重博弈

我们的损失函数是一个和， $\mathcal{L} = \lambda_r L_r + \lambda_b L_b + \lambda_i L_i$ 。权重 $\lambda$ 应该是什么？如果我们随意设置它们，某一项可能会主导其他项，使训练失去平衡。例如，如果 $\lambda_b$ 太大，网络可能会痴迷于边界条件而完全忽略内部的物理规律。

在这里，我们同样可以求助于物理学来寻找一个有原则的答案。总损失函数不应仅仅是一堆数字的集合；它应该是一个单一、连续的物理量的有意义的近似。项 $L_r$ 、 $L_b$ 和 $L_i$ 通常有不同的物理单位！一个可能有(力/体积) $^2$ 的单位，另一个可能是(长度) $^2$ 。直接相加就像把苹果和橘子相加。一种稳健的方法是基于量纲分析来选择权重 $\lambda$ ，利用问题中的特征尺度使损失中的每一项都无量纲化且数量级相近。这确保了我们平衡的是每个物理约束的相对重要性，将“调参”的黑魔法变成了一个有原则的、科学的过程。

选择你的工具

一旦定义了景观，我们就需要一种方法来导航它。优化器的选择至关重要。

一阶自适应方法，如流行的Adam优化器，就像一个只知道脚下最陡峭下降方向的徒步者。“自适应”部分意味着它们可以为每个方向调整步长，这有助于它们更快地移动。它们是主力军，对于因每一步使用不同随机批次的配置点而产生的嘈杂、不断变化的地形具有极强的鲁棒性。然而，在长而窄、蜿蜒的山谷中——这对应于病态问题——它们会变得非常慢，采取许多微小的、之字形的步伐。
擬牛顿法，如L-BFGS，则更为复杂。它们就像一个不仅知道最陡峭方向，还能建立起景观曲率局部地图的徒步者。通过近似二阶导数（Hessian矩阵），它们可以规划出一条更直接通往谷底的路径。在一个干净、不变的景观中，L-BFGS的收敛速度可以比Adam快得多（超线性收敛）。然而，这种对一致地图的依赖使其对来自随机批次配置点的噪声非常敏感，这些噪声会破坏其曲率信息并削弱其性能。

没有一个优化器是绝对最好的。一个常见且有效的策略是采用混合方法：先用鲁棒的Adam优化器快速进入正确的邻域，然后切换到更精确的L-BFGS进行最后的、精细的下降，到达局部最小值点。

直面现实：挑战与微妙之处

尽管PINNs功能强大，但它们并非万能魔杖。它们有自己独特的行为和局限性，我们必须理解。

其中最重要的一个是谱偏差。出于植根于梯度下降数学的某些原因，神经网络从根本上是“懒惰的”。它们发现学习平滑、低频的函数比学习尖锐、高频的细节要容易得多。当我们要求一个标准的PINN模拟一个带有冲击波、裂纹尖端或薄边界层的系统时，它会很吃力。它会很快学会解的光滑、缓慢变化的部分，但会产生一个模糊、涂抹版的尖锐特征。这不应与PDE的刚性相混淆，后者是物理的内在属性；谱偏差是学习机器的一种属性。幸运的是，研究人员已经开发出巧妙的技巧来对抗这一点，例如使用特殊的“傅里叶特征”作为输入，帮助网络更容易地“看到”高频。

另一个实际挑战出现在我们需要强制执行物理约束时，例如要求化学浓度或种群密度为非负。我们不能只希望网络自己学会这一点。一种优雅的方法是通过构造来强制执行：我们不让网络直接输出浓度 $u$ ，而是让它输出一个无约束的场 $v$ ，并设置 $u_\theta = \exp(v_\theta)$ 或 $u_\theta = \text{softplus}(v_\theta)$ 。这保证了正性。然而，这种重新参数化改变了导数的结构，可能导致梯度消失或爆炸形式的数值刚性，使训练变得困难。或者，可以在损失中添加一个“屏障”惩罚，如果网络胆敢预测一个负值，该惩罚就会飙升至无穷大。每种方法都涉及数学优雅性与数值稳定性之间的权衡，提醒我们成功应用这些方法既是一门艺术，也是一门科学。

应用与跨学科联系

既然我们已经探索了物理信息数值方法的核心，我们可以提出最令人兴奋的问题：它们有什么用？事实证明，我们讨论的原理不仅仅是理论上的奇思妙想。它们是多功能、强大的工具，已经开始重塑我们进行科学和工程研究的方式，弥合了经验数据与基本物理定律之间长期存在的鸿沟。这种方法的美妙之处在于其统一性；同样的核心思想在材料科学、生物学和流体动力学等截然不同的领域中找到了深刻的应用。让我们踏上一段旅程，探索其中一些引人入胜的应用。

预测的艺术：正问题

我们新工具包最直接的应用是解决“正问题”。这是经典的预测任务：你知道控制的物理定律（偏微分方程）和你系统的具体条件（初始和边界条件），然后你希望预测结果。

想象一下，一个简单的肥皂膜被拉伸在一个金属丝环上，或者一个鼓皮，被均匀的气压轻轻推动。它会呈现什么形状？这是一个经典的物理问题，由泊松方程描述。传统上，我们会通过在膜上绘制一个点网格并计算每个点的高度来解决这个问题。但自然界不是在网格上运行的。物理信息神经网络（PINN）提供了一种更自然、无网格的方法。我们可以让神经网络猜测膜的连续形状。然后，通过一个损失函数来评判网络的猜测，该函数提出两个简单的问题：首先，你的形状的曲率是否在每一点都平衡了压力，正如弹性定律所要求的那样？其次，你的形状是否恰当地附着在边界框架上？网络通过不断调整其形状来学习，直到它完美地满足内部的物理定律和边界的约束。

这就提出了一个自然的问题：我们什么时候应该选择这种新方法，而不是像有限差分法这样经过时间考验的传统方法？让我们考虑热量通过一根金属棒的流动。有限差分法的精度关键取决于其计算网格的精细程度。如果我们有稀疏的实验数据，传统求解器可能会产生一个在其网格点上准确但在点与点之间忽略了重要细节的解。而PINN则是一个连续模型。即使只有几个数据点，它在整个区域内都受到热方程的引导。在数据稀缺或获取成本高昂的情况下，利用已知的物理定律作为强大的正则化项的能力，使物理信息方法具有明显的优势。

侦探的工作：逆问题与发现

然而，物理信息方法的真正威力在于我们从预测转向推断时被释放出来。这就是“逆问题”的领域，它就像侦探工作。我们不是知道原因预测结果，而是观察结果并必须推断出隐藏的原因。

假设我们有一种新材料，我们想确定其热导率，我们称之为参数 $k$ 。我们无法直接看到 $k$ 。我们只能加热材料并随时间测量几个位置的温度。这是一个逆问题。PINN可以被训练来完美地解决这个问题。我们将热导率 $k$ 视为另一个可训练的参数，与网络自身的权重一起训练。然后，网络有双重任务：它必须找到一个温度场，该场不仅要匹配我们稀疏的测量数据，而且还要对某个 $k$ 值完美地遵守热方程。满足这两个要求的唯一方法就是找到 $k$ 的真实值。

当然，这里面有微妙之处。一个好的侦探知道并非所有线索都同等有价值。例如，一个稳态热实验可能不足以唯一地确定热导率和内部热源，因为它们的影响可以一起缩放。但是，一个瞬态实验，我们观察系统随时间演化，包含的信息要丰富得多。时间动态有助于解开不同物理参数的独特作用，打破模糊性，从而实现它们的唯一识别[@problem_s_id:2502969]。

我们可以将这种发现的思想推得更远。我们不仅能找到一个未知的数字，还能发现一个隐藏的结构吗？想象一下，流体流过一个通道，你怀疑里面藏着一个未知的障碍物。你只能在物体外部测量流速。你如何绘制出它的形状？这是一个“稀疏模型发现”的问题。在这里，我们可以使用一种混合方法，对于每一个猜测的障碍物形状和大小，一个常规求解器——我们的“物理预言机”——预测由此产生的流场。然后，一个优化算法将这个预测与真实世界的测量结果进行评分，同时略微偏好更简单、更小的障碍物。通过寻找最能解释数据同时又遵守流体动力学定律的障碍物形状，该算法可以有效地“看到”那个看不见的物体。

工程未来：混合模型与数字孪生

物理信息学习的哲学不是一个全有或全无的主张。其最强大的表现之一是在混合模型中，它增强而非取代现代工程中值得信赖的工具，以及在创建“数字孪生”——真实世界系统的动态虚拟复制品中。

将AI注入经典求解器

几十年来，工程师们已经构建了像有限元法（FEM）这样极其稳健和可靠的模拟工具。这些方法是现代设计的基石。我们不必抛弃这套强大的机制，而是可以有策略地用智能的、数据驱动的组件来升级它。

考虑模拟一种复杂的新型材料在负载下的行为。它对应力的响应可能过于复杂，无法用一个简单的教科书方程来捕捉。在一个混合的FEM-ML方案中，我们保留整个FEM框架——网格、组装、求解器——但在计算的核心，即评估应力-应变关系的地方，我们插入一个在实验数据上训练过的神经网络。这就像保留了一辆精良汽车的底盘，但把发动机换成了一个更强大、更具适应性的。真正的魔力在于无缝集成。FEM中的高级求解器依赖于知道材料的切线刚度，即它的导数。得益于自动微分，神经网络可以精确地提供这个导数，使得经典求解器能够保持其著名的速度和准确性。

这种集成可以更加深入。我们可以设计我们的神经网络架构，使其反映底层的物理学。对于一个状态随时间演变的材料，我们可以使用循环神经网络（RNN）。但我们不是使用一个通用的“黑箱”循环单元，而是可以构建一个单元，其数学更新规则就是控制材料内部状态的物理定律的直接时间离散化。网络不仅仅是在其训练损失中受到物理约束；它的“神经元”本身就在按照力学规则激发。

构建数字孪生

数字孪生是物理资产的动态虚拟模型，它通过来自真实世界对应物的数据持续更新。这些模型对于监控、预测和“假设情景”分析至关重要。物理信息方法是构建它们的理想选择。

让我们看看活细胞中复杂的生化反应网络。这个系统的数字孪生可以预测细胞对新药的反应。这里的建模策略选择取决于我们的知识和数据。如果反应动力学未知，但我们有大量高质量的测量数据，那么神经微分方程是一个强大的选择。它从数据中学习未知的动力学，并依赖于复杂的自适应ODE求解器来处理系统的“刚性”——即不同反应以截然不同的速度发生的事实。相反，如果我们的数据稀疏，但我们对潜在的物理定律（如总蛋白守恒）有很好的把握，那么物理信息神经网络就更胜一筹。它利用这些定律来智能地填补数据点之间的空白，甚至可以被设计为硬编码物理约束，比如确保某个物种的浓度永远不会变为负数。

然而，一个真正有用的数字孪生必须是快速的。我们常常希望实时探索许多“假设情景”。到目前为止，我们的模型就像一次性计算器：你给它们一组参数（比如，药物剂量 $\mu$ ），它们计算出一个单一的结果。这就是算子学习发挥作用的地方。一个算子学习器，比如DeepONet，做的事情更深刻：它学习整个解算子——从任何有效参数 $\mu$ 到其对应解的映射。它不是学习烘焙一个蛋糕，而是学习整本食谱。一旦训练完成，它几乎可以瞬间预测系统对一个新的、未见过的参数的响应，使其成为交互式数字孪生的完美引擎。

更深层次的联系：学习学习的规律

我们已经教会了我们的模型产生与物理定律一致的答案。但是，我们能教会它们以一种与物理一致的方式推理吗？这是我们将探索的最后一个，也可能是最深刻的联系。

在许多高级应用中，如优化设计或控制理论，我们需要的不仅仅是解。我们需要知道解对我们设计参数变化的敏感度。计算这些敏感度的最有效方法是一种经典而优雅的技术，称为伴随状态法。一个标准的神经网络，即使它能很好地预测解，其敏感度也可能完全不符合物理规律。这就像一个学生记住了问题的答案，却无法解释其推理过程；他们无法解决一个新的、略有不同的问题。

一个模型要真正用于设计和优化，它需要同时得到正确的答案和正确的推理。这就是伴随一致性背后的思想。我们可以构建一个物理信息损失函数，该函数在两个方面对模型进行惩罚：物理状态的失配，以及物理敏感度（伴随量）的失-配。这个训练过程迫使网络的内部梯度与真实物理系统的梯度对齐，确保当我们使用模型做设计决策时，这些决策是由物理上正确的因果关系引导的。

这段旅程，从预测膜的形状到强制执行物理敏感度的深层结构，揭示了物理信息数值方法广阔而美妙的前景。它们不仅仅是一种新算法；它们代表了一种新的科学范式，一种共同的语言，让物理理论和经验数据能够以一种强大的、统一的方式相互丰富、相互启发。未来的发现很可能不属于纯粹的数据或纯粹的理论，而属于两者的无缝综合。