变分物理信息神经网络 (vPINNs)

玻尔百科

核心要点

vPINNs 基于偏微分方程的弱（积分）形式，与依赖强（逐点）形式的标准 PINNs 相比，提供了更强的鲁棒性和灵活性。
通过使用分部积分，vPINNs 降低了对神经网络求导的阶数，从而获得更平滑的梯度和更稳定的训练过程。
vPINN 的损失函数可以直接表示一个系统的物理能量，将网络训练重构为寻找最小能量状态的过程。
该框架能够解决具有不连续性、约束（不等式）的复杂问题，并且对于具有挑战性的逆问题非常有效。

引言

将深度学习与物理定律融合的探索催生了物理信息神经网络 (PINNs)，它通过将微分方程嵌入训练过程来求解这些方程。然而，当面临现实世界的复杂性——如不连续的材料、含噪声的数据或物理奇异点——在这些情况下，控制方程难以在每一个点上强制执行，标准 PINNs 往往会遇到困难。这一局限性暴露了数学理想与实际应用之间的差距，亟需一种更鲁棒、更灵活的方法。

本文介绍变分物理信息神经网络 (vPINNs)，这是一种强大的演进，它通过从根本上改变我们要求神经网络学习物理的方式来应对这些挑战。vPINNs 不再要求逐点精度，而是采用了一种源自经典力学和变分法的“更弱”的、基于积分的表述。本文将引导您深入了解这个优雅而强大的框架。首先，在“原理与机制”部分，我们将探讨从强形式到弱形式的转变、分部积分在稳定训练中的作用，以及与最小能量原理的深刻联系。接下来，在“应用与跨学科联系”部分，我们将看到这些原理如何使 vPINNs 能够解决各种具有挑战性的问题，从工程复合材料和障碍问题，到与传统求解器混合使用，以及在复杂的逆问题中洞察未知。

原理与机制

要真正领会变分物理信息神经网络 (vPINNs) 的精妙之处，我们必须首先退后一步，提出一个根本性问题：一个数学方程描述物理现实意味着什么？我们通常认为，像热流方程或弦振动方程这样的物理定律，是一个在空间和时间的每一点都必须成立的陈述。这便是物理定律的强形式。

想象一下，你是一位工程师，任务是验证一座桥梁的稳定性。强形式方法就如同检查结构中每一个原子的应力和应变，这是一项要求高得不可能完成的任务。如果有一个尖角或微观裂缝怎么办？理论告诉我们，这种奇异点处的应力可能是无穷大的。即使桥梁整体上非常稳定，逐点的检查也会失败。这正是传统物理信息神经网络 (PINNs) 所面临的挑战。它们通过尝试在大量离散点上使偏微分方程的残差——即方程的“错误”程度——尽可能接近于零来学习。但对于许多现实世界的问题，这就像要求网络捕捉一个无穷大的应力，即便不是不可能，也是一项极其困难的任务。

物理学和数学以其深刻的智慧，提供了一种更强大、更优雅的替代方案。我们可以不进行局部的、逐点的质询，而是提出一个全局的、集体性的问题。这正是弱形式的灵魂所在。

集体裁决：从逐点检查到全局测试

我们不再要求方程在每个点上都完美成立，而是要求整个系统给出一个“裁决”。我们可以通过“测试”方程来做到这一点。我们取物理定律，比如 $\mathcal{N}[u] - f = 0$ ，其中 $\mathcal{N}$ 是作用于场 $u$ 的某个微分算子（如拉普拉斯算子 $\nabla^2$ ）， $f$ 是一个源项。 $\mathcal{N}[u] - f$ 这一项就是残差。我们将这个残差乘以一个“测试函数”（我们称之为 $v$ ），然后在整个域 $\Omega$ 上对这个乘积进行积分：

\int_{\Omega} (\mathcal{N}[u] - f) v \, d\Omega = 0

其神奇之处在于：如果这个积分不仅对于某个特定的测试函数为零，而且对于我们能想到的任何合理的测试函数 $v$ 都为零，那么残差本身必须处处为零。我们通过一条更为灵活的后门路径，恢复了强形式。

这个数学思想与力学中最优美的概念之一——虚功原理——紧密相连。一个物体处于平衡状态，是指对于我们施加于它的任何微小的、假想的（“虚”）位移，所有力所做的总功之和为零。我们的测试函数 $v$ 正是一个虚位移场。该积分代表了总虚功。因此，弱形式不仅仅是检查某个点的力是否平衡；它是在确认整个系统处于一种能量和谐的状态。

变分 PINN 正是拥抱了这一哲学。它不是最小化逐点残差，而是力求使弱形式残差——即对一整族测试函数进行测试得到的积分——尽可能小。从逐点检查到全局、基于积分的测试的转变，是其强大功能的第一个关键。

积分的魔力：分担重负

弱形式有一个奇妙的技巧，一个具有深远物理意义的数学戏法：分部积分。在多维空间中，这被称为格林恒等式或散度定理。

让我们考虑一个常见的二阶方程，比如用于描述扩散的泊松方程： $-\nabla \cdot (k \nabla u) = f$ 。它的弱形式涉及项 $\int -\nabla \cdot (k \nabla u) v \, d\Omega$ 。当我们应用分部积分时，奇妙的事情发生了。一个导数从我们的候选解 $u$ “转移”到了测试函数 $v$ 上：

-\int_{\Omega} (\nabla \cdot (k \nabla u)) v \, d\Omega = \int_{\Omega} (k \nabla u) \cdot (\nabla v) \, d\Omega - \int_{\partial\Omega} v (k \nabla u \cdot \boldsymbol{n}) \, dS

注意右边的主要积分项。它现在只包含 $u$ 的一阶导数（ $\nabla u$ ）和 $v$ 的一阶导数（ $\nabla v$ ）。我们降低了对解的求导阶数！

这不仅仅是数学上的便利，它改变了游戏规则。

降低求解门槛：带有二阶导数的强形式，隐含地要求我们的解非常光滑（属于像 $H^2$ 这样的空间）。而弱形式，则只要求一阶导数是良态的（属于 $H^1$ ）。这使我们能够为具有奇异点的问题找到有意义的解，例如裂纹尖端附近的应力场或尖点附近的电场——这些问题中强形式会失效。
驯服梯度：对于神经网络而言，导数是通过自动微分计算的。二阶导数可能充满噪声且数值不稳定，导致训练过程混乱。通过将要求降低到一阶导数，变分方法为优化过程提供了更平滑、更稳定的梯度，使训练更加鲁棒。
对噪声的鲁棒性：积分本身就是一种平滑操作。如果我们的数据（如源项 $f$ ）是含噪声的，一个试图在特定点上匹配它的强形式 PINN 可能会“过拟合”噪声，导致解的严重失真。弱形式中的积分可以平均掉这些局部差异，起到低通滤波器的作用，使得该方法对含噪声数据具有内在的鲁棒性。

自然的边界条件：本质与自然

分部积分的过程留下了一份精美的礼物：边界项 $\int_{\partial\Omega} v (k \nabla u \cdot \boldsymbol{n}) \, dS$ 。这个项并非麻烦，而是物理规律的自我揭示。量 $k \nabla u \cdot \boldsymbol{n}$ 代表了场 $u$ 穿过边界 $\partial\Omega$ 的通量（例如，热流或化学通量）。

这引出了两种边界条件之间深刻而实用的区别：

本质条件：这些是关于场本身值的条件，比如在边界上设定一个固定温度 $u=T_0$ 。这些是定义可能解空间的根本性约束。在 vPINN 中，我们必须刻意强制执行它们，要么通过设计网络架构来满足它们，要么在违反时向损失函数中添加惩罚项。
自然条件：这些是关于通量的条件，比如指定一个边界是绝热的（ $k \nabla u \cdot \boldsymbol{n} = 0$ ）或有规定的流入量（ $k \nabla u \cdot \boldsymbol{n} = g_N$ ）。这些条件通过分部积分提供的边界项，“自然地”被并入弱形式中。我们不需要强制它们；变分机制会为我们处理好。

终极统一：最小能量原理

还有一个更深层、更具统一性的原理在起作用。对于一大类物理系统，其控制性偏微分方程仅仅是一个更基本定律的体现：系统会自行调整以最小化其总势能。肥皂膜形成一个极小曲面，悬挂的链条呈现悬链线形状——所有这些都是为了找到可能的最低能量状态。

我们推导出的弱形式，恰好是寻找一个能量泛函最小值的数学条件。对于我们简单的扩散问题，这个泛函是：

\mathcal{E}[u] = \int_{\Omega} \left( \frac{1}{2} k |\nabla u|^2 - f u \right) d\Omega

这里， $\frac{1}{2} k |\nabla u|^2$ 代表储存的内能（就像拉伸弹簧中的能量），而 $-fu$ 是源的势能。这个能量泛函的一阶变分 $\delta\mathcal{E}$ ，恰好是我们之前找到的弱形式残差。系统处于能量最小值的条件就是 $\delta\mathcal{E}=0$ 。

这为 vPINNs 提供了一个令人豁然开朗的直观框架。我们要求神经网络最小化的损失函数，可以就是系统本身的物理能量。训练过程不再仅仅是抽象的曲线拟合；它是对大自然自身优化过程的模拟。网络调整其参数，探索场 $u$ 的不同构型，直到找到那个具有最低可能能量的构型。

从完美定律到实用算法

为了使其具有实用性，我们必须采取最后两个步骤。首先，我们无法对无限多个测试函数进行测试。因此，我们选择一个有限但具有代表性的集合，比如一组简单的多项式基函数。其次，能量或弱残差中的积分必须通过数值计算。这是通过数值积分完成的，它通过在特定的“积分点”上对被积函数值进行加权求和来近似一个积分。

优雅的、连续的弱形式变成了离散的、可计算的损失函数——一个对我们选择的测试函数和积分点的求和。当然，这种近似必须小心处理。如果数值积分过于粗糙，我们就会犯下被趣称为“变分犯罪”的错误。我们最终解决的问题会与我们原本打算解决的问题略有不同。但是，只要有足够的数学严谨性，我们就能确保我们的离散系统是底层物理的忠实再现。

在这段从简单偏微分方程到可训练损失函数的旅程中，我们看到了变分方法的真正原理和机制。通过提出一个“更弱”的问题，我们解锁了解决更难问题的能力。通过“分担”导数的重负，我们获得了稳定性和鲁棒性。通过将方程视为对最小能量的寻求，我们将机器学习的抽象世界与物理宇宙最深刻的组织原则之一联系起来。

应用与跨学科联系

在物理学世界中，我们常常发现，一个看似“更弱”的陈述可能比一个“更强”的陈述要强大得多。坚持认为一条物理定律必须在空间中每一个无穷小的点上都完美成立，是一个非常强的要求。如果我们转而要求一些更温和的东西呢？如果我们只要求该定律在与一系列光滑、良态的函数进行检验时在平均意义上成立，会怎么样？这正是从物理定律的强形式、逐点表述到弱形式、或称变分形式的关键飞跃。这听起来像是一种妥协，但正是在这种“弱化”的行为中，我们解锁了一个充满灵活性、鲁棒性和新应用的世界，尤其是当我们将这些定律教给神经网络时。

当我们考虑神经网络本身的性质时，这种方法的核心优势就立刻显现出来。一个标准的、“强形式”的物理信息神经网络 (PINN) 通过试图消除一个通常涉及网络输出二阶导数的残差来学习。虽然自动微分可以计算这些导数，但它们可能充满噪声且不稳定，导致一个困难的、“刚性”的优化问题。而弱形式，通过分部积分的魔力，优雅地将一个阶次的微分从我们的神经网络解转移到光滑的测试函数上。这意味着网络只需要产生干净的一阶导数，这是一个稳定得多的任务。这个看似简单的数学技巧是变分 PINN (vPINN) 框架的基石，它使得学习过程从根本上更加鲁棒和良态。但其意义远不止于数值稳定性；它们为模拟这个世界的所有不完美复杂性打开了大门。

工程一个纷繁而美丽的世界

想想你周围的物体。一个碳纤维自行车架，一个层压飞机机翼，或者你家里的隔热墙。它们很少由单一、均匀的材料制成。它们是复合材料，是不同物质融合在一起的层。在诸如热量流过这样一个结构的问题中，热导率（我们称之为 $k$ ）并不是一个平滑的函数；它在材料之间的界面处会突然跳变。

一个强形式的 PINN 会对此感到非常棘手。它会试图计算 $\nabla \cdot (k \nabla T)$ 这一项，这涉及到直接对那个跳变进行求导——这简直是数值灾难的配方。然而，弱形式完全绕开了这个问题。因为它是一种积分形式，所以它完全可以接受分段常数或不连续的电导率 $k$ 。积分自然地“抹平”了跳变的影响，正确地捕捉了热通量必须跨越界面连续的物理条件。这使得 vPINNs 能够以一种强形式方法所缺乏的优雅来模拟复杂、多材料物体中的热传递。

此外，将残差对测试函数进行积分的行为，就像一个“低通滤波器”。弱形式并不对网络输出中每一个高频摆动和噪声尖峰敏感——这在处理真实的、含噪声的测量数据时是一个主要问题——而是专注于正确地获得解的大尺度、低频分量。这种固有的噪声抑制能力是一个巨大的实践优势。这些植根于能量最小化的变分原理，是诸如有限元方法 (FEM) 等经典工程方法的基石，而 vPINNs 正是直接建立在这一强大遗产之上，以解决从热传递到固体力学的各种问题。

超越方程：障碍与不等式的物理学

到目前为止，我们谈论的物理定律都是以等式形式表达的。但自然界中许多基本原理是不等式。一个球不能穿过地板。一个拉伸的薄膜不能低于放置在其下的物体。一个金融期权的价格不能低于其到期时的内在价值。这些都是由约束条件支配的“障碍问题”的例子。

这正是物理学语言与深度学习架构之间协同作用变得真正卓越的地方。思考一下这个挑战：我们需要一个函数 $u$ ，它必须保持在障碍物 $\psi$ 之上，即 $u(x) \ge \psi(x)$ 。在函数未接触障碍物的区域，它应遵循一个标准的物理定律，比如 $-u''(x) = f(x)$ 。这不是一个单一的方程，而是一组复杂的逻辑条件。

神经网络如何学习这样的东西？答案来自一个意想不到的角落：修正线性单元 (ReLU) 激活函数。函数 $\text{ReLU}(z) = \max(0, z)$ 是现代深度学习的基石。注意它的结构：对于负输入它为零，对于正输入它为正。这正是模拟不等式约束所需的单边行为。我们可以构建一个损失函数，它使用一个类似 ReLU 的屏障来重罚我们的解 $u_\theta(x)$ 低于障碍物 $\psi(x)$ 的任何情况，即当 $\psi(x) - u_\theta(x)$ 为正时。通过将这个简单的、非线性的函数——机器学习工具箱中的一个主要部分——嵌入到我们的物理信息损失函数中，vPINN 就能学会解决这些复杂的变分不等式，有效地发现解停留在障碍物上的“接触集”。这揭示了神经网络设计组件与物理约束数学之间深刻而美妙的联系。

驯服复杂性：多物理场与混合模型

现实世界很少由单一、孤立的物理定律支配。我们更多面对的是多种现象耦合共舞：流体的流动改变其温度，这反过来又影响其中的化学反应。训练一个单一、庞大的 PINN 来同时捕捉所有这些相互作用的物理过程是一项巨大的挑战，特别是当不同的物理过程具有迥然不同的特征尺度或“刚度”时。

在这里，变分框架再次提供了战略优势。我们可以不采用一刀切的方法，而是构建一个混合损失函数。对于问题中“最刚性”的部分——比如说，一个具有快速变化系数的扩散过程——我们可以使用鲁棒的弱形式。对于系统中其他更温和的部分，一个简单的强形式惩罚项可能就足够了。这种混合策略对优化起到了“预处理”的作用，通过用最适合的方法处理每个物理分量，引导训练过程更稳定、更高效地收敛。

这种“混合搭配”的思想延伸到了科学计算中最激动人心的前沿之一：将神经网络与传统数值方法相结合。几十年来，工程师和科学家们一直依赖于像 FEM 这样的方法，积累了大量的专业知识和高度优化的求解器。我们不需要抛弃这一切。相反，我们可以创建一个混合模型：使用一个粗糙、计算成本低的 FEM 网格来捕捉系统的粗略、大尺度行为，然后覆盖一个神经网络作为“富集”函数，来学习粗糙网格遗漏的复杂、精细尺度细节。最小化总势能的变分原理提供了严谨的数学粘合剂，将这两个部分——FEM 系数和神经网络权重——耦合到一个单一、统一的系统中，从而兼得两家之长。

洞察未知：逆问题的力量

PINNs 最具影响力的应用或许在于一个颠覆了传统科学剧本的领域。我们不再是从已知的属性预测行为（“正问题”），而是试图从观察到的行为推断未知的属性。这就是“逆问题”的世界。我们如何根据地震波绘制地幔图？医生如何在不进行侵入性手术的情况下对肿瘤进行成像？

考虑一下电阻抗断层成像 (EIT) 的挑战，这项技术同时应用于地球物理学和医学成像。我们可以在一个物体（或病人）的表面施加一组电压，并测量产生的电流。从这些仅有的表面测量数据，我们想要重建内部完整的、三维的电导率图 $\kappa(x)$ 。这是一个出了名的困难的逆问题。

基于 PINN 的方法直面这个问题。我们创建一个神经网络 $\kappa_\phi$ 来表示我们正在寻找的未知电导率场。然后，对于我们进行的 $M$ 个边界实验中的每一个，我们创建一个相应的网络 $u_{\theta_i}$ 来表示物体内部产生的电压场。总损失函数是一个宏大的权衡：它同时迫使每个电压场 $u_{\theta_i}$ 匹配其施加的边界电压，产生正确的测量边界电流，并满足物理学的控制定律 $\nabla \cdot (\kappa_\phi \nabla u_{\theta_i}) = 0$ 在内部处处成立。通过最小化这个损失，优化器必须找到那个与所有测量数据和物理定律都一致的电导率图 $\kappa_\phi$ 。

然而，这种能力也需要非常谨慎。任何逆问题中的一个关键问题是*可辨识性*：我们的测量是否包含足够的信息来唯一确定未知属性？变分框架帮助我们理解，我们需要一个“足够丰富”的边界激励集，来探测内部所有的“自由度”。此外，可能会出现一些微妙的错误。一个天真的 PINN 可能会计算出一个与底层优化场景的真实梯度略有“不匹配”的未知参数梯度。这可能导致训练过程偏离正轨，从而导致不正确的反演结果。

这是变分方法证明其价值的最后一个、也是至关重要的地方。通过以弱形式构建逆问题的 PINN，我们将整个结构更紧密地与经典逆问题理论中严谨的伴随方法联系起来。这有助于缓解梯度不匹配的问题，从而更稳定、准确、可靠地推断出我们试图揭示的隐藏属性。变分框架不仅仅是一个工具；它是一座桥梁，连接着机器学习的数据驱动灵活性与经典物理学和工程学的数学严谨性。正是通过这种统一的视角，我们才能真正开始洞察未知。