
在对世界进行建模的探索中,我们处在两种强大范式之间:机器学习的经验性力量,它从海量数据中学习;以及物理定律的理性优雅,它描述了基本原理。当应用于科学问题时,纯数据驱动的“黑箱”模型通常在插值方面取得成功,但在面对新场景时可能会惨败,其预测结果不仅不准确,而且在物理上是荒谬的。这种差距的产生是因为这类模型只学习模式而不理解其背后的原因,缺乏支配自然现象的“物理直觉”。
本文介绍了物理信息模型(PIMs),这是一种通过将机器学习与物理原理相融合来弥合这一鸿沟的革命性方法。它解决了科学模型不仅需要感知数据,还需要遵守定律的关键需求。通过阅读本文,您将对这一新兴领域获得全面的理解。第一章“原理与机制”深入探讨了这些模型的工作方式,探索了物理信息神经网络(PINNs)中复合损失函数的巧妙运用,以及通过架构性归纳偏置实现的物理学更深层次整合。随后,“应用与跨学科联系”一章将展示这些模型在不同领域的变革性影响,从求解宇宙的基本方程到揭示生物系统的隐藏动态。
想象一下,你想教一台计算机预测一个被抛出的球的轨迹。一种方法——传统的机器学习方法——是向它展示数百万个球在飞行中的视频。在看过足够多的例子后,这台计算机(通常是一个深度神经网络)在预测类似条件下抛出的球的路径方面变得非常出色。它学会了从其庞大的经验库中进行插值。这就是从数据中学习。
但是,如果给它看一个它从未见过的情境呢?一个重得多的球,一次在月球上的投掷,一个被一阵风卷入的球?纯数据驱动的模型,通常被称为黑箱模型,可能会惨败。它可能会预测球会摆动、突然改变方向,甚至向上飞。为什么?因为它从未学过球为什么会以抛物线飞行;它只学会了识别这种模式。它没有重力、动量或空气阻力的概念。它缺乏“物理直觉”。
这是在科学和工程领域应用机器学习时面临的一个深刻挑战。当我们使用神经网络分析科学数据时,我们不希望它仅仅是一个灵活的曲线拟合器。我们要求它的预测尊重宇宙的基本定律。例如,在分析材料的光谱数据时,一个无约束的模型可能会预测出带有负吸收或违反量子力学规则的谱线强度的光谱——这些结果不仅是错误的,而且在物理上是荒谬的。模型学习了数据,但没有理解物理。
物理信息模型诞生于学习的这两种灵魂的结合:数据的经验灵魂和物理定律的理性灵魂。它们不仅被展示了发生了什么;它们还被教导了为什么会发生。这种结合不仅仅是防止了令人尴尬的、不符合物理的预测。它开启了一种更深刻、更稳健、更强大的世界建模方式。
那么,我们如何教一个神经网络牛顿定律或麦克斯韦方程呢?我们不能让它去读教科书。秘密在于神经网络学习的核心:通过最小化一个损失函数。损失函数是衡量模型误差的指标,即它对自己表现的“不满意度”。整个训练过程就是寻找使这个损失尽可能小的模型参数。
物理信息神经网络(PINNs)的天才之处在于设计一种特殊的复合损失函数,它如同对物理现实的核对清单。这个损失函数有几个组成部分:
数据损失:这是传统的部分。它衡量网络预测与我们拥有的实际实验数据的匹配程度。如果网络预测温度为50°C,而传感器读数为52°C,这一项就会增加一个惩罚。
物理损失:这是革命性的部分。我们将网络的输出——例如,一个描述温度场 的函数——直接代入控制物理定律,例如热方程 。如果定律被遵守,这个方程的结果在任何地方都应该是零。任何非零结果都被称为偏微分方程残差。物理损失就是这个残差的量值,在整个问题域上取平均。通过迫使网络最小化这个损失,我们实际上是在迫使它发现一个满足物理定律的解。
边界/初始损失:物理问题不仅由方程定义;它们还受到边界和初始条件的约束。一个合格的PINN损失函数应包括惩罚任何偏离这些条件的项。
使这一切成为可能的神奇技术是一种叫做自动微分(AD)的方法。它与让网络首先从数据中学习的数学机制是相同的。通过AD,我们可以自动高效地计算形成偏微分方程残差所需的导数,无论方程或网络多么复杂。这使得PINN框架具有惊人的灵活性,能够处理广泛的物理现象。网络在其对最小损失的不懈追求中,同时学会了拟合我们拥有的稀疏数据点,并在它们之间广阔的空白区域编织出一个物理上一致的解。
在损失函数中增加一个物理惩罚项,就像老师批改学生的作业。这很有效,但如果我们能设计一个天生就倾向于用物理语言思考的学生呢?这种更深层次的整合是通过所谓的归纳偏置实现的:将物理原理直接构建到模型的架构中。
考虑这样一个问题:预测半径为 的球形针尖压入软材料深度为 时的力 。接触力学定律告诉我们,对于弹性材料,力遵循一个特定的标度律:。这是关于相互作用基本几何形状的陈述。一个“物理小白”模型将不得不从头开始学习这种关系,需要大量关于不同半径和压入深度的数据。
一种更复杂的方法是将这个定律构建到模型本身中。我们可以设计网络,使其关于这种缩放是等变的。这意味着,如果我们告诉模型压入深度加倍,它自动知道力必须增加 倍,而无需在该特定示例上进行训练。这类似于物理学中的对称性概念。通过编码这些基本原理——从标度律和因果关系到像被动性(材料不能无中生有地创造能量)这样的热力学约束——我们创建了一个模型,它不仅学习一个解,而且学习了底层物理学的语法。
这使得模型具有非凡的泛化能力。它们可以在其训练数据之外的条件下做出准确的预测,因为它们受到支配系统的持久物理定律的指导。这个想法的最终体现是在算子学习中,其目标不再是学习从一组数字到另一组数字的映射,而是学习物理算子本身——例如,将材料属性映射到最终温度场的数学算子。像傅里叶神经算子这样的架构是特别优美的例子,因为它们在傅里叶空间中执行卷积的内部结构对于许多物理系统来说是一种天然的归纳偏置。
这种物理学的深度整合从根本上改变了科学建模中的权衡。经典的数值方法,如有限差分法,依赖于将空间和时间划分成越来越精细的网格来减少离散化误差。纯数据驱动的模型需要海量数据集来减少估计误差。PINNs开辟了第三条道路。它们通常可以用稀疏数据实现高精度,因为物理损失在整个域上提供了一个密集、连续的信息源,在没有数据的地方引导解。
此外,一个真正优秀的科学模型不仅仅给出一个答案;它还告诉我们它对这个答案有多自信。这就是不确定性量化的领域。在任何预测中,都有两种不确定性:
物理定律是减少认知不确定性的强大工具。我们融入模型的每一条物理知识,都像获得了一大批高质量、无噪声的数据。通过约束可能解的空间,物理学使模型对其预测更加确定。例如,在一个简单的模型中,知道当输入为零时输出必须为零,就消除了模型参数中一整个维度的不确定性,从而在各处都得到更精确的预测。当然,一个真正诚实的模型还必须承认我们的物理定律本身可能是近似的,这是一种被称为模型形式差异的不确定性来源。
这个新范式也为我们提供了一种更结构化的方式来思考我们模型的总误差。最终误差是三种来源的复合体:近似误差(我们的模型架构能否表示真实解?)、估计误差(我们是否有足够的数据和物理点来在我们架构内找到最佳可能解?),以及优化误差(我们的训练算法是否成功找到了那个最佳解?)。物理信息约束主要攻击的是估计误差,它提供了关键的指导,减少了模型对观测数据的单独依赖。
PINNs的原理不仅仅是学术上的好奇心;它们构成了一个灵活而强大的范式,用于解决以前难以处理的真实复杂问题。一个极好的例子来自对经典数值方法中一个旧思想的改造:区域分解。
想象一下,试图模拟水流通过复杂地质结构,其中多孔沙土区域紧挨着坚硬的花岗岩。物理特性从一个区域到另一个区域急剧变化。一个单一、庞大的神经网络将难以同时学习这些截然不同的行为——这是一个“刚度”问题。
区域分解方法优雅而简单:不要使用一个巨大的网络,而是使用几个较小的、专门化的网络。为“沙土”子域训练一个PINN,为“花岗岩”子域训练另一个。每个网络可以专注于学习其自身区域的特定物理学。但我们如何确保最终的解是一致的呢?物理学再次提供了答案。在沙土和花岗岩之间的界面上,基本的守恒定律规定水压必须是连续的,并且水的总通量必须守恒。这些物理界面条件成为额外的损失项,将这些专门的网络“缝合”在一起,形成一个单一、全局一致且高度准确的解。这就像建造一座大型复杂的桥梁,不是一次性浇筑完成,而是设计不同的部分,然后使用精确的蓝图——物理定律——将它们完美地连接起来。
从防止不符合物理的预测,到通过深层对称性实现零样本泛化,再从量化不确定性到处理多尺度系统,物理定律与机器学习的融合代表了一次真正的范式转变。它正在创造新一代的科学模型,这些模型不仅更准确、更高效,而且更稳健、更具可解释性,并最终更符合我们对世界的基本理解。
在我们之前的讨论中,我们揭示了物理信息模型的核心:物理学中来之不易的定律与机器学习灵活力量的美妙结合。我们看到,这不仅仅是检验答案的问题,而是将物理原理编织进学习过程的结构中。现在,让我们踏上一段旅程,看看这个强大的思想将我们带向何方。我们会发现,它不仅仅是一个巧妙的数值技巧,而是一个新的镜头,通过它我们可以探索宇宙,从量子力学的奇异世界到生命本身错综复杂的舞蹈。
物理信息模型最直接的用途,也许不足为奇,就是求解那些支配物理世界的方程。但其求解的方式才是魔力所在。这无关乎蛮力计算,而在于优雅的构建。
想象一下,我们想描述量子领域中的一个自由粒子。它的行为由含时薛定谔方程决定。传统方法可能需要将空间和时间切成小块,并辛苦地计算粒子在每个点的波函数。然而,一个物理信息方法可以更加巧妙。我们可以构建一个神经网络,其架构本身就是物理的体现。对于自由粒子,解是波——准确地说,是复指数函数。通过将我们的模型构建为已经服从薛定谔方程色散关系的这些基本波的组合,‘学习’过程变得异常简单。偏微分方程通过构造得到满足!模型剩下的唯一任务就是找到这些波的正确组合,以匹配粒子的初始状态。物理学不仅约束了答案;它还为答案本身提供了构建模块。
这个优雅的想法并不仅限于我们日常直觉中平坦、熟悉的空间。如果我们想模拟行星表面的热流,或弯曲天线的振动呢?这些现象在非欧几里得流形上展开,那里熟悉的几何规则发生了弯曲和扭转。在这里,物理信息方法同样大放异彩。对于像球体上的热方程这样的问题,我们可以使用一组函数——在这种情况下,是优美的球谐函数——作为基底,它们自然地尊重了球体的曲率。这些函数是球体固有的振动模式,是其拉普拉斯-贝尔特拉米算子的特征函数。通过将它们用作我们模型的特征,问题的复杂空间部分再次通过设计得到解决。这个令人生畏的偏微分方程简化为一组简单的时间常微分方程,我们可以求解并融入我们的模型中。我们再次只剩下更简单的任务:拟合初始温度分布。这显示了该原理的深刻普适性:理解你问题的物理学和几何学,你就能构建一个不仅是近似器,而且是系统本质真实反映的模型。
为一个单一情景求解一个单一的方程是一回事。但如果情景本身可以改变呢?在现实世界中,我们不断面临变化。结构工程师不想只为一种特定类型的钢材设计桥梁;他们想知道桥梁在整个材料系列中的行为。航空航天设计师需要了解机翼上的气流如何随速度变化。我们不想只解决一个问题;我们想学习解算子——那个将问题(参数)映射到答案(解)的函数。
这是物理信息模型正在取得巨大进展的前沿领域。考虑一个简单的泊松方程,它描述了,比如说,热流通过一个电导率依赖于参数 的材料。我们可以为每一个可能的 值运行一次新的模拟,但这效率极低。一个更强大的想法是训练一个模型,比如深度算子网络(DeepONet),来学习从 到整个解场 的映射。通过使用物理信息损失来训练这个算子网络——也就是说,通过确保它提出的每个解都服从底层的泊松方程——我们可以创建一个代理模型,它可以为一个它从未见过的新 值即时预测解。它学习的是物理的规则手册,而不仅仅是如何玩一场单一的游戏。这对工程设计、优化和不确定性量化具有巨大影响,允许对广阔的参数空间进行快速探索。
类似地,“物理信息”的理念超越了神经网络,延伸到大规模模拟的耦合中。在像流固耦合(FSI)这样的复杂情景中,湍流流体冲击柔性结构,我们可能会为每个领域使用不同的求解器——流体用大涡模拟(LES),结构用有限元法(FEM)。我们如何确保它们以物理上一致的方式进行交流?我们可以设计一个基于物理原理(如阻抗匹配和能量守恒)的滤波器,在界面上传输信息(如应力)。这确保了界面上耗散的能量在两侧是一致的,防止模拟无中生有地创造或毁灭能量。这是将基本守恒定律直接嵌入我们计算方法中的另一个优美例子。
到目前为止,我们都假设我们知道控制方程。但如果我们不知道呢?如果我们面对一个复杂的系统,只有稀疏、嘈杂的数据呢?这就是逆问题的领域,PIMs可以在其中扮演一个侦探大师的角色。
思考生物学中最美妙的问题之一:自然界中错综复杂的图案,如斑马的条纹或豹子的斑点,是如何形成的?Alan Turing以反应扩散方程的形式提出了一个绝妙的答案,其中两种化学‘形态发生素’扩散和反应以创造稳定的空间模式。他的模型有参数——扩散系数和反应速率——对于一个真实的生物系统来说是未知的。在这里,一个PIM可以反向工作。通过观察图案(数据),模型可以搜索未知的参数。关键线索是物理学:模型被迫只考虑那些当代入反应扩散偏微分方程时,可能生成观测数据的参数。偏微分方程残差就像一条不可侵犯的自然法则,任何有效的假设都必须遵守,从而极大地缩小了对真实参数的搜索范围。
这种侦探工作可以更深入。通常,当我们创建极其复杂系统(如气候或湍流)的简化、降阶模型时,我们简单的方程是不完整的。存在代表我们平均掉的所有复杂物理学的“封闭项”。这些项通常是未知函数。一个混合PIM可以被设计来发现这些缺失的部分。通过将多项式混沌展开等经典方法与神经网络的灵活性相结合,我们可以创建一个模型,从数据中学习未知的封闭函数 。模型学会了解释我们简单的物理模型与观测现实之间的差异,有效地发现了弥合差距的“缺失的物理学”。
物理信息建模最深刻的应用来自于将自然界最基本的原理直接嵌入其设计中。
对称性: 正如Feynman经常强调的,物理学中的一个深刻真理是物理定律具有对称性。如果你有一个由相同粒子组成的系统,如果你仅仅交换两个粒子的标签,支配它们的定律是不能改变的。这就是置换对称性。在一个有大量相同分子的生物系统中,任何对其反应动力学的模型都必须尊重这种对称性。我们可以将这一原理直接构建到神经网络的架构中,创建一个置换等变网络。结果是非凡的。一个试图描述5个组分相互作用的通用、无约束的线性模型可能需要30个参数。通过施加对称性的物理约束,模型被迫采用一种只需要3个参数的结构。假设空间崩溃了。我们不仅对模型进行了正则化;我们还教会了它一个关于世界的基本真理,使其变得更加高效和稳健。
相互作用: 我们如何模拟由许多相互作用的物体组成的系统,从细胞中的分子到星系中的恒星?一个关键的挑战是弄清楚哪些实体在“关注”哪些其他实体。现代深度学习为此提供了一个强大的工具:注意力机制,它因在像Transformers这样的语言模型中的作用而闻名。我们可以将这个想法应用到物理系统中,让粒子学习哪些其他粒子对其动力学影响最大。但我们可以从物理学中给它一个强有力的提示。通过在注意力分数中添加一个“物理偏置”——一个温和地鼓励模型偏爱平方反比定律进行相互作用的项——我们可以引导网络学习物理上合理的力场。这种混合方法结合了注意力的数据驱动灵活性与经典物理学久经考验的知识。
信息与不确定性: 也许任何科学模型的终极问题是:“我们到底知道多少?”一个单一的‘最佳拟合’答案很少足够;我们想了解我们预测中的不确定性。在这里,PIMs与贝叶斯推断的世界融合。一个PIM可以作为“先验”——即我们在看到数据之前对物理知识的表示。对于一个逆问题,比如推断扩散过程中的未知源项,一个本身是物理信息的先验——一个假设源是由物理过程生成的先验——比一个通用的平滑先验要强大得多。其结果是,随着我们收集数据,我们的不确定性收缩得更快。物理学更有效地引导我们走向真理。
这个想法在医学成像等应用中达到了顶峰。一台MRI机器需要进行多少次测量才能重建一幅清晰的图像?这是一个经典的压缩感知问题。理论告诉我们,所需的测量次数取决于信号的复杂性。如果我们使用一个经过物理一致性训练的深度生成模型,作为“ plausible”医学图像的先验,我们可以显著减少所需的测量次数。这是因为模型已经对底层的物理学和解剖学了解甚多。这转化为更快的扫描、降低的成本和更好的患者预后。解的局部可识别性——我们是否能从测量中区分两种不同的底层组织——甚至可以通过横截性这一优美的几何视角来理解,它将测量算子的零空间与生成器解流形的切空间联系起来。
我们的旅程带领我们从求解单一的方程到学习宇宙的规则,从揭示隐藏的定律到体现其最基本的对称性。反复出现的主题是统一。物理信息建模正在消融基于第一性原理的建模与数据驱动的机器学习之间的人为壁垒。它正在创造一种新的计算科学范式,在这种范式中,我们的模型不仅仅是黑箱预测器,它们本身就是我们对物理世界最深理解的富有洞察力、结构化的反映。这不仅仅是一个新工具;它是一种新的思维方式,其最伟大的发现无疑还在后头。