PINN 损失函数

玻尔百科

核心要点

PINN 损失函数是一个复合目标，它引导神经网络学习同时满足观测数据和潜在物理定律（如偏微分方程）的解。
自动微分（AD）是一种核心机制，能够精确计算偏微分方程残差的导数，这使得求解高阶偏微分方程时必须使用平滑的激活函数。
通过将未知的物理参数加入可训练变量集，PINN 损失函数可以被调整用于解决反问题，从而有效地从数据中发现物理定律。
在强形式（逐点残差）和弱形式（积分残差）损失之间进行选择，使得 PINN 能够处理更广泛的问题，包括那些具有奇点或不连续性的问题。

引言

在机器学习与物理科学的交叉领域，一个重大挑战是创建不仅由数据驱动，而且还遵循自然界基本定律的模型。传统的神经网络通常充当“黑箱”，只学习模式，而对控制系统的物理原理没有任何内在的理解。物理知识驱动的神经网络（PINN）为这一问题提供了一种革命性的解决方案，其核心是一个关键组件：损失函数。这并非普通的误差度量；它是一个复杂的契约，用以强制模型保持物理上的一致性。

本文旨在填补关于物理定律究竟如何被编码到机器学习框架中的知识空白。它揭开了 PINN 损失函数的神秘面纱，将其呈现为使神经网络能够“学习”物理学的核心引擎。在接下来的章节中，您将深入了解这一机制。您将学习到：

原理与机制： 我们将把损失函数分解为其基本组成部分——偏微分方程（PDE）残差、初始条件和边界条件。我们将探讨自动微分的关键作用、对激活函数的架构影响，以及用于反问题和全局约束的高级损失函数设计。
应用与跨学科联系： 我们将看到这个多功能引擎的实际应用，探索 PINN 如何被用于解决从固体力学、流体动力学到系统生物学和量子力学等领域的复杂正向和反向问题。

读完本文，您将理解精心设计的损失函数如何将一个标准的神经网络转变为一个强大的科学发现工具，它能够求解甚至发现描述我们世界的方程。

原理与机制

想象一下教一个学生物理。您不会只给他看一堆问题的答案；您会给他教科书，解释其基本原理——Newton 定律、能量守恒等等。学生的“成绩”将取决于他们匹配特定答案（数据）的能力，以及他们遵守游戏基本规则（物理定律）的程度。

物理知识驱动的神经网络（PINN）正是以这种方式学习的。它的学习过程由一个主函数——损失函数——来指导，这个函数扮演着老师、评分员和向导的角色。这个损失函数并非一个单一、庞大的实体。相反，它是一个精心构建的复合体，像一场多方面的考试，从各个角度考察网络对知识的理解。通过最小化这个损失，我们不仅仅是在拟合数据；我们是在“告知”网络它必须遵守的物理定律，从而创造出一个不仅是良好猜测，而且在物理上一致的解。

损失函数：一场多方面的综合考查

其核心是总损失函数，我们称之为 $\mathcal{L}_{total}$ ，它是几个独立损失的加权和，每个损失对应我们想要强制执行的一个特定物理约束。对于一个典型的与时间相关的物理问题，比如波的传播或热的扩散，这场“考试”包含三个主要部分。

首先是偏微分方程（PDE）损失， $\mathcal{L}_{PDE}$ 。这是“物理知识驱动”方法的核心。它衡量网络输出（我们称之为 $\hat{u}(x,t)$ ）在定义域内部满足控制性偏微分方程（PDE）的程度。我们将把 $\hat{u}$ 代入 PDE 后剩下的部分定义为残差。对于平流方程 $\frac{\partial u}{\partial t} + c \frac{\partial u}{\partial x} = 0$ ，残差就是 $R = \frac{\partial \hat{u}}{\partial t} + c \frac{\partial \hat{u}}{\partial x}$ 。如果网络的解是完美的，这个残差在任何地方都将为零。因此，PDE 损失是在时空域内数千个随机采样点（称为配置点）上残差平方的均值。

其次是初始条件损失， $\mathcal{L}_{IC}$ 。每个故事都有一个开头。这个损失项确保网络的解从正确的状态开始。如果初始轮廓应该是一个高斯脉冲 $f(x)$ ，那么 $\mathcal{L}_{IC}$ 衡量的是网络在零时刻的预测值 $\hat{u}(x, 0)$ 与真实初始状态 $f(x)$ 之间的均方差。

第三是边界条件损失， $\mathcal{L}_{BC}$ 。物理系统并非存在于真空中；它有边界。此损失项强制执行定义域边缘的规则。这些规则可以有不同形式。对于Dirichlet 边界条件，我们指定解本身的值，比如固定一根杆子末端的温度。此时，损失项是网络预测值 $\hat{u}$ 与指定值之间的平方差。对于Neumann 边界条件，我们指定导数的值，比如杆子末端的热通量。这意味着损失项必须包含网络输出的导数，例如 $(\frac{\partial \hat{u}}{\partial x} - h(t))^2$ ，其中 $h(t)$ 是指定的热通量。

总损失是这些部分的一个加权和：

\mathcal{L}_{total} = w_{PDE} \mathcal{L}_{PDE} + w_{IC} \mathcal{L}_{IC} + w_{BC} \mathcal{L}_{BC}

权重（ $w_{PDE}, w_{IC}, w_{BC}$ ）是我们可调的旋钮，用来告诉网络其“考试”的哪一部分最重要。通过将这个总损失降至最低，网络被迫去寻找一个能同时遵守控制物理定律、从正确的初始状态开始并尊重边界条件的函数——这在任何意义上都是一个真正的解。

残差的剖析及其分布位置

让我们更深入地探讨一下残差这个概念。您可以把一个偏微分方程的真实、完美的解想象成一个海拔为零的、完全平坦的地形。当我们将网络的近似解 $\hat{u}(x,t)$ 代入偏微分方程时，会产生一个残差地形 $R(x,t)$ 。我们的目标是使这个地形尽可能平坦，并尽可能接近于零。

我们如何做到这一点？我们无法检查每一个点——那将是无穷多的。取而代之的是，我们在定义域内散布大量的配置点，并计算每个点的残差。 $\mathcal{L}_{PDE}$ 损失就是这个地形高度平方的平均值。通过最小化这个损失，我们实际上是在试图将这个地形压平至零。

但这里有一个关键问题：我们应该把点放在哪里？这重要吗？当然重要。想象一下，残差地形在定义域的一个偏远角落里有一个陡峭的山峰，而其他地方都很平坦。如果我们只进行均匀采样，我们可能完全错过这个山峰！网络会获得一个较低的损失值，并认为自己找到了一个很好的解，而实际上它在某个区域严重违反了物理定律。

这凸显了训练 PINN 的一个关键方面：配置点的分布可以显著影响最终解的准确性。如果我们知道解可能在边界附近或某个特定特征周围出现陡峭的梯度或复杂的行为，那么在这些地方聚集更多的配置点是明智之举。这能为网络提供更多关于其在这些关键区域误差的“反馈”，迫使其更加关注并产生更准确的结果。选择在何处检查，与知道要检查什么同样重要。

动力室：自动微分与激活函数

PINN 的一个美妙甚至近乎神奇的方面是它们计算 PDE 残差所需导数的方式，例如 $\frac{\partial^2 u}{\partial x^2}$ 。我们不使用像有限差分那样笨拙、近似的数值方法。相反，我们使用一种源自现代机器学习核心的强大工具：自动微分（AD）。因为神经网络只是一长串定义明确的数学运算，AD 可以从损失函数一直反向应用链式法则到输入坐标，做到解析且精确。这为我们提供了网络输出函数的精确导数，其精度仅受限于机器精度。

然而，这种魔法有一个先决条件。要让链式法则起作用，我们网络的构建模块必须是可微的。这些构建模块就是激活函数——每个神经元内部的简单非线性函数，它们赋予了网络强大的表达能力。

这就引出了一个关键的设计选择。如果我们要解一个二阶偏微分方程，比如包含 $\frac{\partial^2 u}{\partial x^2}$ 项的热方程，该怎么办？为了使用 AD 计算这一项，我们的激活函数需要至少是二阶可导的。

考虑两种流行的选择：修正线性单元（ReLU）， $f(z) = \max(0, z)$ ，以及双曲正切函数， $g(z) = \tanh(z)$ 。乍一看，ReLU 的计算成本更低。但让我们看看它的导数。它的一阶导数是一个阶跃函数（当 $z \lt 0$ 时为 0，当 $z \gt 0$ 时为 1），而它的二阶导数除了在 $z=0$ 处有一个无限大的尖峰（狄拉克δ函数）外，处处为零。一个试图计算这个二阶导数的自动微分引擎会发现它几乎处处为零。这意味着我们 PDE 残差中的二阶项将消失，网络将无法从这部分物理信息中获得任何有用的信息或“梯度”来学习！

另一方面，双曲正切函数是一个光滑函数，无限可微（ $C^\infty$ ）。它的一阶、二阶以及所有更高阶的导数都是定义良好且连续的函数。这使其成为 PINN 的理想选择，因为 AD 可以完美地计算我们需要的任何阶导数。PDE 的阶数越高，我们的激活函数就必须越光滑。为了求解四阶双调和方程 $\nabla^4 u = f$ ，我们需要计算网络的四阶导数。这就要求激活函数的四阶导数 $\sigma^{(4)}$ 具有良好的性质，像 $\tanh(z)$ 或 $\sin(z)$ 这样的函数可以轻松满足这一要求，而基于 ReLU 的函数则不能。这是一个深刻的联系：问题的物理性质直接决定了网络架构本身所需的数学属性。

可能性之艺术：高级损失函数设计

PINN 框架的真正威力在于其灵活性。基本的损失函数仅仅是个开始。我们可以对其进行塑造，以解决各种各样令人惊奇的问题。

从正问题到反问题

如果我们不知道边界条件或初始条件怎么办？这在科学中很常见；我们通常只有实验中得到的少量分散的测量数据，而不知道全貌。这时，我们可以增加一个数据损失项 $\mathcal{L}_{data}$ ，即网络预测值与我们稀疏、带噪声的测量值之间的均方误差。总损失变为 $\mathcal{L} = w_{PDE} \mathcal{L}_{PDE} + w_{data} \mathcal{L}_{data}$ 。在这种情况下，数据损失项扮演了过去由边界和初始条件所扮演的角色。它在几个点上将解“锚定”于现实。然后，PDE 损失充当终极插值器，它不是用一条简单的曲线来填补数据点之间的空白，而是用一个遵循控制定律的、物理上有效的解来填充。PINN 会发现一个既尊重物理定律又通过我们观测点的唯一解。

发现未知物理规律

我们可以将此更进一步。如果我们甚至不知道 PDE 中的某些物理常数怎么办？例如，在热方程 $\rho c_p \frac{\partial T}{\partial t} = \nabla \cdot (k \nabla T) + q$ 中，如果我们不知道热导率 $k$ 或热源 $q$ 呢？我们可以简单地将它们声明为可训练参数，与网络自身的权重和偏置并列！这样，网络就有了双重任务：找到温度场 $T(x,t)$ 以及能够最好地解释观测数据的 $k$ 和 $q$ 的值。这需要丰富的数据，特别是瞬态（随时间变化的）数据，这能让网络区分不同参数的影响——例如，热扩散率（ $\frac{k}{\rho c_p}$ ）如何控制热传播的速度，而热导率 $k$ 又如何与边界上的热通量相关联。

强制执行全局守恒律

PDE 本身是一个局部定律，它陈述了在时空中的每一点上必须成立的条件。但许多物理系统也遵守全局定律，比如总能量或总质量守恒。我们可以将这些全局约束直接整合到我们的损失函数中。对于波动方程，系统的总能量应该随时间保持恒定。我们可以添加一个新的损失项 $\mathcal{L}_E$ ，它计算网络在几个不同时间点预测的总能量，并惩罚任何与初始能量的偏差。这就像给我们的学生一个额外的、强大的交叉检验：“我不在乎你推导的细节，但你的最终答案必须能量守恒。”这个强大的思想使我们能够注入更多的物理知识，引导网络走向不仅局部合理而且全局一致的解。

平衡之术：权重的关键作用

我们已经看到总损失是一个加权和： $\mathcal{L}_{total} = w_{PDE} \mathcal{L}_{PDE} + w_{BC} \mathcal{L}_{BC} + \ldots$ 。这就引出了一个实际但至关重要的问题：我们如何选择权重？这些权重，通常用 $\lambda$ 表示，代表了每一项的相对重要性。它们是相互竞争目标之间一场拔河比赛的裁判。

想象一个场景，我们把边界条件权重 $\lambda_{BC}$ 和 $\lambda_{IC}$ 设得非常大，而 PDE 权重 $\lambda_{PDE}$ 设得非常小。网络的训练将被满足边界条件的需求所主导。它会成为一个完美匹配边界和初始数据的专家，但为了做到这一点，它可能会在定义域内部的物理规律上“作弊”。结果将是一个在边缘看起来正确，但在其他任何地方都违反控制方程的解。

反之，如果我们将 $\lambda_{PDE}$ 设得巨大，网络将成为一个物理纯粹主义者。它会找到一个能够以极高精度满足 PDE 的函数，但可能会完全忽略指定的边界和初始条件。这个解在一般意义上是物理有效的，但它不是我们正在寻找的特定解。

训练 PINN 的艺术在于找到正确的平衡。必须选择合适的权重，以使所有损失分量以协调的方式下降。损失不平衡是 PINN 训练中最常见的失败模式之一。这催生了一个充满活力的研究领域，即研究在训练期间动态调整这些权重的自适应方法，就像一位专家教师，确切地知道何时将学生的注意力集中在理论上，何时集中在具体例子上。

更深层次的视角：强形式与弱形式

到目前为止，我们一直在讨论 PDE 的“强形式”，其目标是使逐点残差在任何地方都趋于零。这很直观，但它带有一个隐藏且苛刻的假设：解必须足够光滑，以确保 PDE 中所有的导数都存在。

然而，自然界并非总是光滑的。想想一块金属裂纹尖端的应力，或者流体在激波处的行为。在这些地方，物理量可能是奇异的，其导数在经典意义上甚至可能不存在。如果 PINN 无法计算残差，它又怎么可能学习到一个解呢？

答案在于一种更深刻、更优雅的物理学观点，它植根于 Lagrange 的工作和变分法。这就是 PDE 的弱形式。弱形式不要求残差在每一点都为零，而是要求残差在一族光滑函数的检验下“平均”为零。这是通过分部积分实现的，它有一个奇妙的副作用：将我们未知解 $\hat{u}$ 上的一个导数转移到光滑的测试函数上。

对于线性弹性问题，强形式要求位移场的二阶导数，这意味着解必须位于一个高度正则的函数空间（如 $H^2$ ）中。而弱形式，经过分部积分后，仅需一阶导数，这意味着它可以存在于一个更大、限制更少的空间（ $H^1$ ）中。

这是一个游戏规则的改变者。弱形式的 PINN 完全有能力处理带有奇点的问题，比如 L 形支架的凹角或裂纹尖端，强形式的 PINN 在这些地方会遇到困难，因为它需要计算的二阶导数是无穷大的。此外，弱形式能够以更稳定、更鲁棒的方式自然地处理复杂的边界条件和不连续的材料属性。

但这并不意味着强形式就过时了。对于已知解非常光滑的问题，强形式在计算上可能更高效，因为它只需要点采样，而弱形式则需要更昂贵的数值积分。两者之间的选择是物理学中经典权衡的一个绝佳例子：优雅和普适性与简单和速度之间的权衡。它展示了 PINN 框架的深度和适应性，该框架可以根据其试图描述的物理世界的数学结构进行定制。

应用与跨学科联系

在我们之前的讨论中，我们解构了物理知识驱动的神经网络的引擎：损失函数。我们看到它不仅是衡量误差的标准，更是一份精心制定的契约，是数据这个混乱世界与物理学那些优雅而不容改变的定律之间的一场协商。我们学会了如何书写这份契约的条款，将微分方程、边界条件和初始状态编码成一个神经网络可以学习并满足的数学目标。

但一个精心打造的引擎，若没有驱动的载具也毫无用处。这种方法的真正奇妙之处不仅在于其巧妙的构造，还在于它让我们能够探索广阔而多样的领域。现在，一个机器学习模型不再仅仅是一个用于模式识别的黑箱；它是一位初出茅庐的物理学家、一位见习工程师、一位虚拟生物学家，集多重角色于一身。只需改变损失函数的条款，我们就能将同一核心技术重新用于解决横跨科学思想大陆的各种问题。让我们踏上征程，看看这台机器能做些什么。

新微积分：求解不可解之题？

PINN 最直接的应用是我们所说的“正问题”：我们知道物理定律和边界条件，并且想要找到解。这是计算科学的基础，但传统方法常常在处理复杂几何形状或像激波这样的不规则现象时遇到困难，需要费力地构建数值网格。PINN 提供了一种截然不同的美妙方法。因为它们在连续坐标上操作，通过采样点进行训练，所以它们是“无网格”的——它们不关心你的定义域是一个完美的正方形还是一块带孔的瑞士奶酪。

想象一下，试图确定一块带有孔的金属板上最终的稳态温度分布。控制定律是拉普拉斯方程 $\nabla^2 u = 0$ ，这是物理学的一个基石，描述了从热流到电场的各种现象。我们知道外边缘和内孔边界上的温度。PINN 通过惩罚两件事来学习解：如果其预测的温度场在板内任何地方的拉普拉斯算子不为零，以及如果其预测值与边界上的已知温度不匹配。它就这样起作用了，在复杂的形状上平滑地插值出一个解，而没有生成网格的烦恼。

这种优雅同样优美地延伸到随时间演化的问题。思考一个平滑的波峰崩裂形成激波的戏剧性时刻。这就是非线性 Burgers' 方程的世界，一个流体动力学中的经典模型。或者想象两种液体（如油和水）分离的复杂舞蹈，这受描述材料相变的非线性 Allen-Cahn 方程控制。对于这些问题，PINN 的损失函数增加了一个新条款：它不仅必须在所有时空点上遵守 PDE，还必须匹配系统已知的起始状态——即初始条件。网络一次性学习系统的整个时空历史，成为一个可以在任何空间点和任何时间点查询的连续函数。

这种新微积分的力量不仅限于像温度这样的单一量。对于一个在载荷下弯曲的完整结构呢？在固体力学中，弹性体的变形不是用一个单一的数字来描述，而是用一个位移*矢量场。材料中的每个点都向某个方向移动。其物理过程由一个耦合偏微分方程系统——Navier-Cauchy 方程——所控制，该方程确保所有力都处于平衡状态。PINN 可以通过使用一个输出矢量 $(u, v)$ 而不是标量的网络来解决这个问题。损失函数只需包含每一个*控制方程的残差，确保整个系统处于平衡状态，同时还包括结构被夹紧或受推的位置的项。这为计算工程领域开辟了一个新范式，从设计飞机机翼到分析土木结构的稳定性。

科学侦探：发现自然法则

我们目前所见的已然非凡。但当我们将剧本反转时，PINN 真正的革命性力量才得以显现。如果我们不知道完整的物理定律怎么办？如果我们的方程中有未知参数怎么办？这就是“反问题”，也正是在这里，PINN 从一个问题解决者转变为一名科学侦探。

其核心思想既巧妙又简单：我们将未知的物理参数作为神经网络必须学习的一部分。损失函数现在有了一个新组成部分：一个数据失配项。它衡量网络的解（这个解取决于网络对未知参数的猜测）与我们在真实世界实验中获得的少量、珍贵的测量数据匹配得有多好。网络现在陷入一个有趣的困境。它必须同时满足物理定律的形式（PDE 残差）并匹配少数真实世界的数据点。最小化损失两部分的唯一方法是找到解和正确的物理参数。

让我们从一个力学中的简单例子开始。想象一根振动的弦或一个弹簧上的质量块。它的运动由阻尼谐振子方程描述，但我们不知道系统的确切阻尼或刚度。我们可以用相机记录它在几个时间点的位置。PINN 可以利用这些稀疏数据，通过尝试拟合一个遵循谐振子常微分方程（ODE）结构的解，来推断出未知的阻尼和刚度参数。这个过程被称为系统辨识，是控制理论和工程学的基础。

现在，让我们将这个想法带到一个完全不同的领域：活细胞内的生化工厂。一种酶根据 Michaelis-Menten 动力学将底物转化为产物，这是一个依赖于两个关键参数 $V_{\max}$ 和 $K_m$ 的常微分方程（ODE），这两个参数定义了酶的效率。生物学家可能进行一项实验，只在几个时间点测量底物浓度。这些数据通常是稀疏且带噪声的。通过建立一个损失函数包含 Michaelis-Menten 动力学 ODE 残差和数据失配的 PINN，我们可以从这几个数据点准确推断出隐藏的动力学参数。这对系统生物学和药物发现具有深远的影响，使我们能够从有限的实验数据中表征复杂的生物途径。

回到固体力学，我们可以提出一个更高级的问题。假设我们有一根由未知材料制成的梁。我们夹紧一端，拉伸另一端，并在几个位置测量它的变形。我们能弄清楚它是由什么材料制成的吗？材料的特性被编码在其 Lamé 参数 $\lambda$ 和 $\mu$ 中。我们可以建立一个 PINN 来寻找位移场，就像之前一样，但这次我们将 $\lambda$ 和 $\mu$ 视为可训练变量。网络被迫去发现能够最好地解释观测到的变形，同时又尊重弹性定律的材料属性。这也揭示了关于科学测量的一个深刻真理：要找到两个参数，你需要进行正确类型的测量。仅仅测量梁中心线的挠度可能不足以区分 $\lambda$ 和 $\mu$ 的影响；你需要更丰富的数据，比如离轴位移，才能唯一地识别它们。PINN 框架不仅解决了反问题，还能教给我们关于实验设计本质的知识。

超越方程：一种普适的物理直觉

这段旅程并非止于微分方程。PINN 中的“物理”可以是任何约束解的先验知识。有时，最重要的物理原理不是微分方程，而是一个能量景观。

考虑一下虚拟药物发现的巨大挑战：预测一个小分子，即一种潜在药物，将如何装入目标蛋白的结合口袋。可以训练一个神经网络来预测药物原子的三维坐标。一个纯粹由数据驱动的模型可能会产生一个几何上不可能的构象，其中原子重叠或化学键被拉伸到断裂点。为了防止这种情况，我们可以向损失函数中注入一剂分子力学。我们可以添加一个基于其势能来惩罚网络预测的项——该势能由著名的物理模型如 Lennard-Jones 和 Coulomb 势计算得出。现在，损失函数不仅引导网络匹配已知的正确构象（数据项），还引导其避免物理上荒谬的高能构型。这里的物理学充当一个“软”守护者，将模型的预测推向能量景观的谷底，那里是现实解存在的地方。

最后，为了看到这个范式的全貌，我们可以探索量子前沿。现代半导体器件中电子的行为是物理学中最复杂的多尺度问题之一，由耦合的、非线性的 Schrödinger-Poisson 方程控制。这些方程描述了电子的量子力学波函数与它们共同产生的静电势之间的相互作用。可以构建一个 PINN 来应对这种惊人的复杂性，为电势和每个电子波函数设置独立的网络输出，并为它们相应的能级设置可训练参数。损失函数变成一份庞大的文件，编码了两个主要的 PDE、边界条件，甚至还有像波函数的归一化和正交性这样的基本量子约束。这样一个问题甚至可以被转化到 PINN 框架中，这一事实证明了其背后思想的统一力量和惊人广度。

从板中的热流到晶体管中的量子态，从弦的振动到生命本身的动力学，其原理始终如一。PINN 损失函数提供了一种通用语言来表达我们对世界的知识，在数据和理论之间创造了强大的协同作用。它代表着向一种新型计算科学迈出的深刻一步，在这种科学中，机器学习模型不仅从数据中学习，而且学会像物理学家一样推理。