
在人工智能领域,传统模型的一个显著局限是它们对海量数据的依赖,模型学习到的相关性在其训练条件之外可能变得脆弱且不可靠。这些“黑箱”系统通常无法掌握支配系统的基本因果定律,从而限制了它们在新场景中的预测能力。物理信息人工智能(PIAI)作为一种变革性范式应运而生,旨在解决这一差距,试图为神经网络注入自然法则。本文将全面介绍这一激动人心的领域。首先,在“原理与机制”部分,我们将深入探讨 PIAI 的核心工作方式,探索物理定律如何被编码到损失函数中,以及训练这些复杂模型所面临的挑战。随后,“应用与跨学科联系”部分将展示这种方法的深远影响,从发现新的科学定律到设计新型材料,再到创建生物系统的数字孪生。让我们从理解赋予这种人工智能物理良知的基本原理开始。
想象一下,你想教一个学生预测抛出小球的运动轨迹。一种方法是给他看成千上万个抛球的视频,让他记住每个视频中的轨迹。这是传统的机器学习方法。这个学生可能会在预测与视频中完全相同方式抛出的小球轨迹方面做得很好。但如果你问他关于在月球上抛球,或者在飓风中抛羽毛的问题,他会完全不知所措。他学到的是相关性,而不是因果关系。
还有另一种方法。你可以教给学生牛顿运动定律和空气动力学原理。现在,学生不需要看遍所有可能的情景。面对一个新问题——一个新的物体、一个新的环境——他可以应用这些基本定律来找出答案。他学到的是物理学。这就是物理信息人工智能背后的思维飞跃。我们不再满足于仅仅是出色记忆者的网络;我们想教给它们自然法则。
我们如何教神经网络物理学呢?我们不能仅仅让它读教科书。神经网络的语言是数学,特别是优化的数学。网络通过尝试最小化一个损失函数来学习——这个函数是一个数字,告诉它当前的预测有多“错误”。整个学习过程就是不懈地寻找一组内部参数(或权重),使这个损失尽可能小。
在传统机器学习中,损失函数衡量的是网络预测与一组已知数据点之间的差异。为了使我们的网络“物理信息”,我们向这个函数中添加了一个特殊的新成分。我们赋予它一种良知。这个新项,通常称为物理残差,衡量网络输出在多大程度上遵循一个以偏微分方程(PDE)形式表达的特定物理定律。
让我们来感受一下。神经网络的核心就是一个非常灵活的函数,我们称之为 ,其中 代表所有可训练的参数。它接收空间和时间坐标 作为输入,并给出一个值作为输出。现代软件框架的魔力在于一种叫做自动微分(AD)的技术。这使我们能够精确而高效地计算网络输出相对于其输入的导数,例如 或 。
假设我们关心的物理定律是热传导方程 。我们可以通过简单地将网络输出代入方程来定义我们的物理残差:
如果我们的网络 是热传导方程的完美解,那么这个残差 在任何地方都将为零。如果它是一个糟糕的近似, 将会很大。因此,我们将残差的平方在许多时空点上取平均,然后加到我们的损失函数中。优化器在寻求最小化总损失的过程中,现在被迫去寻找一个函数 ,它不仅要拟合我们可能拥有的任何数据,而且还要尽可能地接近满足热传导方程。网络学习热流模式,不是仅仅通过观察数据,而是通过控制方程本身的引导。
这个过程适用于任何偏微分方程,无论多么复杂。例如,在固体力学中,薄板在载荷下的行为由双谐波方程 描述。这涉及到四阶导数!然而,原理是相同的。我们可以指示我们的自动微分工具计算网络输出的这些高阶导数,并构建相应的残差。当然,自动微分的这种“魔力”不是没有代价的。计算梯度的过程,特别是用于训练深度网络的高效反向模式AD(也称为反向传播),需要在内存中的一个“带子”上存储计算过程的中间值。对于非常深或复杂的网络,这种内存成本可能相当可观,这是我们必须时刻牢记的一个实际限制。
一个偏微分方程很少孤立存在。要指定一个唯一的物理现实,它需要上下文。它需要一个初始状态——系统在开始时是什么样子的?它还需要边界条件——在区域的边缘发生了什么?一个抛出小球的轨迹不仅取决于重力,还取决于它从哪里开始以及被抛出的速度。
一个物理信息神经网络(PINN)也必须遵守这些条件。策略非常简单:我们只需在损失函数中增加更多的项。我们为初始时刻的误差添加一个项,为边界上的误差添加另一个项。总损失函数现在可能看起来像这样:
每个 项衡量其问题部分的平方误差,而 系数是平衡它们相对重要性的权重。这就把我们带到了一个有趣的分岔路口:我们到底应该如何强制执行像边界条件这样的东西?
一种直接的方法称为软强制。我们让网络成为一个通用函数 ,并在损失函数中添加一个惩罚项,如 。这种方式很灵活,但这就像告诉优化器:“请尽量使边界误差变小。”对于一个有限的惩罚 ,边界条件很可能只能被近似满足。
一种更优雅、更强大的方法是硬强制。我们改变网络本身的架构,使其通过构造就满足边界条件。例如,如果我们需要在区间 上解决一个问题,条件是 和 ,我们可以将我们的解定义为一个拟设(ansatz):
这里, 是神经网络。请注意,无论网络 学会了什么函数, 在 和 处将永远为零。边界条件被完美地、无代价地满足了!这消除了对边界损失项的需求,让优化器可以专注于满足内部区域的物理定律。这看起来像一个聪明的技巧,但它深刻地展示了将物理约束直接编码到模型结构中的思想。
然而,损失函数的复合性质揭示了一个深层次的挑战。网络在服务多个主人:它必须同时最小化PDE残差、初始误差和边界误差。这是一个经典的多目标优化问题。不同的损失项可能有迥然不同的尺度——残差可能涉及二阶导数,使其比边界项敏感得多。如果我们天真地选择权重(),某个项很容易在训练过程中占据主导地位。优化器可能会找到一个完美匹配边界条件但在内部完全违反PDE的解,反之亦然。训练过程可能会停滞或变得不稳定,不同目标的梯度会相互对抗。现代PINN研究的很大一部分致力于驯服这头野兽,开发自适应方法以在训练期间平衡这些相互竞争的目标。
一旦我们精心构建了损失函数,就需要一个优化器来找到最小值。这通常被想象成一个球滚下山坡到达最低点。但对于PINN而言,“损失景观”很少是一个简单的山坡。它通常是险恶、陌生的地形,充满了陡峭的峡谷、狭窄的深谷和广阔平坦的高原。
PDE本身的性质塑造了这个景观。一个“刚性”PDE,即描述尺度差异巨大的现象的方程(如气体动力学中的激波或化学中的急剧反应锋面),通常会产生一个“刚性”或病态的损失景观。这意味着景观在某些方向上极其陡峭,而在其他方向上几乎平坦,就像一个非常长而窄的深谷。
这种地形给优化器带来了巨大的挑战。简单的梯度下降法只会在峡谷的两壁之间来回反弹,沿着谷底的进展极其缓慢。更高级的二阶优化器,如L-BFGS,试图考虑景观的曲率,以便更直接地迈向最小值。它们在收敛于行为良好、碗状的最小值方面表现出色。但在刚性景观上,它们对曲率的建模通常极不准确,导致它们陷入困境。
正是在这里,像Adam这样的一阶自适应方法通常被证明更为鲁棒,尤其是在训练初期。Adam为每个参数维护一个自适应学习率,有效地“重新缩放”景观,使其看起来条件更好。它可以在险峻的峡谷中航行而不会偏离航道。一个非常普遍且有效的策略是:使用鲁棒的Adam优化器开始训练,以进入一个好的“吸引盆”,然后切换到高精度的L-BFGS优化器,以快速找到该局部谷底。
考虑到所有这些复杂性,人们可能会想:何必这么麻烦?为什么不直接用一个巨大的神经网络处理一个庞大的数据集,让它自己学习呢?答案在于内插和外推之间的深刻差异。
考虑一个用于预测基因编辑工具有效性的机器学习模型。如果在一个特定温度下的实验数据上进行训练,它可能在该条件下变得非常准确。但如果我们在不同温度下部署它呢?一个纯粹由数据驱动的“黑箱”模型,只学习了特定于训练温度的相关性,很可能会彻底失败。而一个“机理”模型,即一个包含了过程的物理化学原理的模型——比如反应速率如何通过热力学定律依赖于温度——则有更大的机会正确泛化。其结构偏向于系统的因果定律。
这就是物理信息人工智能的真正力量。通过将偏微分方程“烘焙”到损失函数中,我们为网络注入了强大的归纳偏置。它不只是学习任意模式,而是学习受物理上合理的约束的模式。这使得PINN非常数据高效。黑箱模型可能需要数千个数据点来学习一个解,而PINN通常只需很少的数据点,甚至完全不需要数据,仅使用PDE和边界条件就能找到解。
当我们敢于进行外推时,这种物理基础也是我们最好的防御。想象一个用于湍流的代理模型,它在雷诺数高达 的模拟数据上进行训练。如果我们要求它预测雷诺数为 时的流动,我们如何能相信它的答案?我们不能依赖标准的统计验证。相反,我们必须求助于物理学。我们必须检查它的预测是否符合在高雷诺数下出现的已知湍流普适定律,比如著名的“壁面律”或者能量耗散必须恒为正的事实。如果模型违反了这些物理原则,无论它看起来多么“自信”,其预测都是毫无价值的。物理学不仅是训练过程中的向导,它还是真理的最终仲裁者。
旅程并未在此结束。研究人员正在不断设计新的架构来克服基础PINN的局限性。一个众所周知的问题是谱偏置:标准神经网络天生倾向于学习低频、平滑的函数。这使得它们难以表示具有精细细节或高频振荡的解,例如波或复杂的湍流涡。
解决这个问题的一个绝妙方法是使用傅里叶特征映射。我们不是向网络输入像 这样的简单坐标,而是输入一个完整的正弦特征谱:。通过提供这些高频构建块作为输入,网络可以轻松地将它们组合起来,构建出高度复杂和精细的解,从而有效地克服其固有的谱偏置。
最后,将PINN置于更广阔的科学AI版图中非常重要。如我们所描述的,PINN是解决单一、特定PDE问题的强大工具。如果初始或边界条件改变,你必须重新训练网络。但如果你的目标不仅仅是解决一个问题,而是创建一个能够即时解决一整个族系问题的工具呢?
这就是神经算子的领域。与学习一个函数的PINN不同,神经算子学习的是一个算子——即一个从一个函数到另一个函数的映射。例如,它可以学习将任何有效的初始条件函数映射到稍后时间的相应解函数的算子。它在包含许多不同PDE解的数据集上进行训练。一旦训练完成,它几乎可以瞬时预测一个新的、未见过的初始条件的解,而无需任何进一步的优化。
这一区别揭示了该领域的宏大抱负。PINN向我们展示了如何通过遵守物理定律来教网络找到单个解。神经算子则向我们展示了如何教网络本身成为一个通用求解器。这两条路径都代表着从脆弱、依赖数据的模型向新一代人工智能的转变,新一代人工智能能够利用支配我们宇宙的基本原理进行推理、预测和发现。
窥探了物理信息人工智能的内部工作原理后,我们可能感觉自己刚刚学会了一门新语言的语法。这是一种强大的语法,建立在微积分和优化的基石之上,让我们能够将永恒的自然法则编码到神经网络的结构中。但学习一门语言并非为了语言本身;学习它是为了我们可以写诗、讲故事、构建新世界。因此,现在让我们从语法转向文学,看看这门新语言正在讲述哪些宏伟的故事,正在构建哪些美丽而有用的结构。我们会发现,其应用不仅广泛而强大,而且还有助于统一不同科学领域,揭示贯穿所有科学领域的共同逻辑线索。
在AI能够解决现实世界问题之前,它必须首先学会遵守规则。宇宙中最基本的规则是守恒定律——即一些量,如质量或能量,既不能被创造也不能被消灭的简单而深刻的陈述。我们如何将这一点教给一个本质上只是一个巨大函数逼近器的神经网络呢?
想象一下,训练一个网络来预测一块正在冷却的金属板上的温度分布。我们当然有数据,但我们也知道,如果这块板是孤立的,其总能量必须保持恒定。一个只在数据点上训练的标准神经网络可能会无意中预测出一个能量凭空出现或消失的状态。为了防止这种情况,我们可以在其训练方案中加入一个巧妙的技巧。在匹配数据的常规目标之外,我们增加一个“惩罚项”。这个项是一个数学表达式,网络的预测越违反全局守恒定律,这个表达式的值就越大。例如,我们可以计算预测的总能量,并对其与真实总能量的平方差进行惩罚。
这是一个绝妙的想法。在训练过程中,当网络调整其内部参数以最小化总误差时,它现在是在两条战线上作战:它必须忠于数据,也必须遵守守恒定律。它从这个惩罚中感受到的梯度或“推力”非常有趣——对于每一个输出点都是相同的。就好像一位老师在告诉全班同学:“你们所有人,一起努力,让总和正确!” 这将所有输出耦合在一起,迫使它们共同维护一个全局真理。
这种使用惩罚的方法就是我们所说的“软约束”。它是一个温和的推动,一个指导方针。但有时,我们需要一个绝对的规则。例如,在模拟不可压缩流体时,速度场 必须严格满足条件 。这意味着流场是无散度的;它在任何地方都不会压缩或膨胀。我们可以使用经典的数学工具——拉格朗日乘子,将其作为“硬约束”来强制执行。这就像告诉网络,不仅违反规则会受到惩罚,而且任何违反规则的解都根本是无效的,没有商量的余地。
在温和的推动和强硬的命令之间做出选择是一门艺术。软约束是灵活的,允许轻微的违规,如果数据有噪声或模型不完美,这可能是可以接受的。硬约束确保了与离散模型的完美符合,但可能很僵化,有时在数值上具有挑战性。有趣的是,如果你让软约束的惩罚变得越来越大,其解会优雅地收敛到硬约束的解。温和的向导变成了不屈的立法者。这种二元性为我们向模型中注入物理知识提供了丰富的工具包。
几个世纪以来,物理学的节奏一直是观察与理论之间的舞蹈。我们观察世界,我们提出一个数学定律——一个微分方程——然后我们检验它。但如果我们能将第二步自动化呢?如果一台机器能查看数据并自己提出控制定律呢?这是科学机器学习最激动人心的应用之一。
想象一下,我们有一个丰富的数据集描述一种新材料的行为,但我们不知道控制其热传输的确切方程。我们可以从建立一个庞大的候选数学项库开始——简单的导数如 、,非线性项如 或 等等。这个库是可能物理效应的字典。然后我们可以使用回归算法来确定这些项中每一项的系数,并带有一个关键的转折:我们为复杂性添加一个惩罚。
这个想法是对一个深刻的科学原理——简约性,或称奥卡姆剃刀——的优美形式化:倾向于与数据拟合的最简单解释。算法现在必须平衡两种相互竞争的欲望:完美拟合数据的欲望(这可能需要使用许多项来捕捉噪声)和追求简单的欲望(使用尽可能少的项)。结果是,无关项的系数被驱使为零,剩下的是一个稀疏、简单、优雅的方程——隐藏在数据中最合理的物理定律。这项技术已被用于直接从数据中重新发现流体动力学、天体力学和化学动力学定律,宛如破解自然隐藏代码的“罗塞塔石碑”。
虽然发现新定律是一项宏伟的追求,但科学和工程的日常工作通常涉及使用我们已知的定律。在这里,物理信息人工智能正证明自己是一个不可或缺的学徒,既能预测未来,又能发明新颖的设计。
考虑设计的“逆问题”。一位工程师想要创造一个具有特定属性的表面——例如,一个在润滑时能最小化摩擦的周期性纹理表面。可能的纹理数量是天文数字,使得使用高保真模拟进行试错的方法在计算上不可行。解决方案是首先使用模拟生成一个数据集,然后训练一个神经网络作为“代理模型”。这个代理模型是缓慢、昂贵的模拟的闪电般快速的近似。关键是,它是可微分的。这意味着我们可以问它:“如果我稍微改变这个设计参数,摩擦会如何变化?”
整个设计问题——在能够支撑一定负载和可制造性等约束条件下最小化摩擦——然后可以被表述为一个单一的、可微分的优化问题。利用自动微分的魔力,我们可以计算梯度并使用强大的优化算法以令人难以置信的效率在广阔的设计空间中导航。在代理模型梯度的引导下,AI探索数百万种可能性,以发现一个未经辅助的人类设计师可能永远无法构想出的新颖纹理。
另一面是“正向问题”:预测一个复杂系统的行为。我们现在可以追求更高的目标,而不仅仅是学习解决单个问题实例:我们可以教AI学习整个解算子。算子就像函数的函数;它接收一个完整的输入函数(如桥梁上的载荷分布)并输出一个解函数(产生的位移场)。两种强大的架构,DeepONet和傅里叶神经算子(FNO),已为此任务应运而生。它们有不同的理念:FNO使用固定的、普适的傅里叶模态基,使其在规则网格问题上表现出色;而DeepONet学习自己的定制基函数,使其能灵活处理不规则几何形状。通过在有限元模拟数据上训练这样一个算子,我们可以创建一个模型,在给定新的载荷分布时,能够即时预测复杂机械部件各处的应力和应变,从而绕过进行新的、昂贵的模拟的需要。
也许这个领域最深刻的影响是其统一的力量。守恒、约束和动力学的数学原理并不仅限于物理学和工程学;它们是所有科学的支架。
让我们冒险进入一个活细胞的繁华都市。一个细胞的新陈代谢是一个由数千个化学反应组成的令人眼花缭乱的复杂网络。然而,它也遵守基本定律。为了使细胞处于稳态,其内部代谢物的浓度必须大致保持恒定。这施加了一个严格的质量平衡约束:对于每种代谢物,总生产速率必须等于总消耗速率。这可以写成一个简单、优雅的线性方程:,其中 是编码网络结构的“化学计量矩阵”, 是反应速率(或通量)的向量。
这是一个混合模型的完美场景。可以训练一个神经网络根据细胞环境来预测反应通量 ,但它必须在预测位于矩阵 的零空间这一约束下进行。在这里我们看到了一个直接的平行关系:流体中的无散度约束和生物学中的稳态约束在数学上是同源的。我们为其中一个开发的工具可以适用于另一个。
更进一步,我们可以为一个完整的生物过程构建一个“数字孪生”,比如在生物反应器中干细胞分化为心肌细胞的过程。这是最宏伟的交响乐。一个由细胞生长和分化的微分方程组成的机理模型构成了核心。该模型通过使用复杂的贝叶斯滤波技术吸收来自实时传感器的数据而不断实时更新。一个机器学习组件学习系统中对于机理模型来说过于复杂的部分,例如传感器读数与细胞最终效力之间的微妙联系。这个活的、不断演变的数字孪生镜像了真实的生物反应器,使科学家能够提前数小时或数天预测最终结果,并智能地进行干预以确保批次成功。这不仅仅是模拟;它是真实与虚拟的实时、共生融合。
征途远未结束。研究人员们正不断推动这些方法去解决极其复杂的问题。考虑金属在极端应力下的行为。它首先像弹簧一样发生弹性变形,然后开始塑性变形,这是一种永久的、路径依赖的变化。这种行为是出了名的难以建模。目前正在开发先进的PINN架构,可以自适应地将材料划分为弹性和塑性区域,并为每个区域应用不同的专用网络。塑性区域的网络可能包含一个循环单元来记忆变形历史,以及一个明确强制塑性流动物理定律的特殊层;而弹性区域的网络可以更简单,并为平滑解进行优化。这种由物理学本身指导的“分而治之”策略,使我们能够以前所未有的保真度对复杂的多物理场现象进行建模。
在庆祝这些强大的新工具时,我们也必须停下来反思。科学是一项人类事业,能力越大,责任越大。我们用来训练模型的数据通常是现实的带偏见的反映,受到历史兴趣和实验便利性的影响。一个在已知氧化物数据集上训练来发现新材料的模型,可能完全忽略了其他化学物质的广阔、未被探索的空间。
这对科学家提出了深刻的伦理和方法论上的负担。我们必须严格诚实地对待我们模型的局限性。这意味着要不遗余力地确保我们的工作是可复现的,通过分享我们的代码、数据和使用的确切软件版本。这意味着要保持透明,通过发布“模型卡片”来记录模型的预期用途、其失效模式以及训练数据中的偏见。这意味着要积极主动,通过开发能够纠正数据偏见的方法,或设计主动学习系统,有意地探索代表性不足的领域,以创造一个更公正、更完整的世界图景。
归根结底,物理信息人工智能并非交给我们真理的神谕。它是一面镜子。它反映了我们提供的数据和我们编码的物理定律。我们的挑战——也是我们的机遇——是以足够的智慧、严谨和谦逊来构建和使用这面镜子,从而不仅看到被观察到的世界,更能看到它真实的样子,看到它统一而奇妙的复杂性。