傅里叶神经算子 (FNO)

玻尔百科

定义

傅里叶神经算子 (FNO) 是一种通过在频域高效执行卷积来学习函数间映射的神经网络架构。该方法通过在频率模式而非网格点上参数化滤波器，实现了离散不变性，从而支持零样本超分辨率。傅里叶神经算子 (FNO) 被广泛应用于流体力学和地质力学等领域，用于加速复杂偏微分方程的数值模拟。

核心要点

傅里叶神经算子 (FNO) 通过在频域中高效执行卷积来学习函数之间的映射。
FNO 通过在频率模式上（而非网格点上）参数化其滤波器来实现离散化不变性，从而支持零样本超分辨率。
它将频域中的全局线性运算与空间域中的局部非线性相结合，以逼近复杂的非线性算子。
FNO 被应用于加速流体动力学、地质力学和材料科学等领域中偏微分方程的模拟。

引言

预测复杂物理系统（从天气模式到流体动力学）的演化需要理解其底层的物理定律。这些定律通常以数学上的算子（operators）形式表达——即将一个函数（如系统的当前状态）转换为另一个函数（如其未来状态）的规则。几十年来，机器学习一直难以应对这项任务，因为传统的神经网络学习的是与特定网格分辨率绑定的脆弱映射，未能捕捉物理算子真实、连续的本质。这种局限性，即缺乏离散化不变性，意味着在一个低分辨率模拟上训练的模型对于高分辨率模拟毫无用处。

本文介绍傅里叶神经算子 (FNO)，这是一种革命性的深度学习架构，专为克服这一挑战而设计。通过将问题从空间域转移到频域，FNO 提供了一种基于原理且高效的方法，从数据中直接学习算子。首先，在“原理与机制”一节中，我们将剖析 FNO 架构，探讨它如何利用傅里叶变换和卷积定理以卓越的效率执行全局操作并实现分辨率无关性。然后，在“应用与跨学科联系”一节中，我们将探寻其多样化的应用，从加速物理学和工程学中偏微分方程的模拟，到揭示其与 Transformer 等其他尖端架构之间令人惊讶的联系。

原理与机制

想象一下，你想教一台计算机预测天气。不是猜测“晴”或“雨”，而是真正理解气压、温度和风的舞蹈。你可以向它展示今天大气的快照——一张全国的气压图——并要求它生成明天的地图。输入不是一个单一的数字，而是一个完整的函数，一个连续的数值场。输出是另一个函数。这比对一张猫的图片进行分类要宏大得多。我们要求计算机学习一个过程，一条物理定律。用数学的语言来说，我们希望它学习一个算子 (operator)：一台能将整个函数转换为其他函数的机器。

几十年来，标准的做法是“作弊”。我们不是处理函数优美而混乱的连续性，而是将我们的世界切割成一个离散点的网格——比如一个 $64 \times 64$ 的气象站网格。气压图变成了一个包含 $4096$ 个数字的向量。明天的预测是另一个包含 $4096$ 个数字的向量。现在，一个标准神经网络可以把这些点连接起来。但我们真正学到了什么呢？我们没有学到大气物理定律；我们只是学到了一个只适用于 $64 \times 64$ 网格的派对戏法。如果我们想在一个 $128 \times 128$ 的网格上进行更详细的预测，我们煞费苦心训练的网络就毫无用处了。我们必须从头开始。这种无法跨不同分辨率泛化的失败是一个根本性的缺陷。这表明我们没有抓住要点。我们学习的不是算子本身，而是其脆弱、离散化的影子。这就是傅里叶神经算子 (FNO) 旨在克服的核心挑战：追求离散化不变性 (discretization invariance)。

视角的转变：从像素到波

傅里叶神经算子的天才之处在于一种深刻的视角转变，这种转变会让 19 世纪的物理学家 Joseph Fourier 感到自豪。我们不再通过函数在空间中每个点的值来描述它——一种“基于像素”的视图——而是将其描述为一系列简单波的总和，每个波都有特定的频率、振幅和相位。这就是傅里葉变换的精髓。这就像听一场管弦乐队的演奏，你听到的不是声音的墙，而是能够分辨出小提琴、大提琴和喇叭的清晰音符。

为什么这有帮助呢？因为许多自然界的基本定律在频率的语言中看起来惊人地简单。想象一根金属棒。如果你加热它的一端，热量会沿着棒扩散。这个过程会平滑掉剧烈的温度差异。在频域中这对应于高频分量（尖锐的峰值）比低频分量（平缓的变化）衰减得快得多。描述这种扩散的算子本质上是一个低通滤波器。

许多这样的物理过程都可以用一种称为卷积 (convolution) 的数学运算来描述。在空间域，卷积是一个复杂的积分，它计算函数在每个点的邻域的加权平均值。但奇迹就在这里，这是数学的一个基石，被称为卷积定理 (Convolution Theorem)：空间域中复杂的卷积在傅里叶域中变成了简单的、逐元素的乘法。这是简约的奇迹！一场错综复杂的积分之舞被简化为直接的算术运算。FNO 正是抓住了这个奇迹，构建了一个既强大又效率驚人的算子学习机器。

FNO 机制概览

那么，FNO 究竟是如何工作的呢？让我们深入其内部一探究竟。该架构由一系列优雅的步骤组成，每个步骤都有明確的目的。

步骤 1：提升至更高维度

首先，我们取输入函数，比如金属板上的初始温度图。这是一个单一的数值场。FNO 首先将这个函数“提升”到一个更高维的空间。在每个点 $x$ ，它使用一个小型神经网络将单个温度值 $u(x)$ 转换为一个例如 64 维的特征向量 $v_0(x)$ 。可以把它想象成在每个位置给机器更多的“草稿纸”，以记下比温度更复杂的信息——也许是它的局部梯度、曲率，以及我们甚至没想到的其他东西。这是一个纯粹的局部操作，为主要环节准备输入。

步骤 2：谱卷积引擎

这是 FNO 的核心，是整个域上全局通信发生的地方。它遵循一个三步节奏：变换、滤波、再逆变换。

进入傅里叶世界： 我们取高维函数 $v(x)$ 并对其应用傅里葉变换。现在，我们不再是在空间中的每个点有 64 个特征值，而是在每个频率模式上有 64 个特征值。
全局滤波器： 这是核心操作。我们不再进行复杂的卷积，而是简单地将每个频率的傅里葉系数与一个学习到的权重矩阵相乘。这个矩阵混合了该特定频率下的 64 个通道。至关重要的是，我们只对有限数量的低频模式进行此操作，例如最低的 12 或 16 个模式。这被称为谱截断 (spectral truncation)。我们为什么要丢弃高频部分？有几个绝妙的原因。
- 效率： 我们只需要学习和应用少量的权重矩阵，每个保留的频率一个。快速傅里葉变换 (FFT) 算法使这个过程变得异常迅速，其计算成本约为 $O(N \log N)$ ，其中 $N$ 是网格点的数量。与传统方法相比，这是一个巨大的提速。
- 正则化与稳定性： 在许多物理系统中，本质的动力学是由大规模、低频的现象所主宰的。高频通常与噪声或混乱的小尺度细节相关。通过忽略它们，FNO 施加了一个平滑先验 (smoothness prior)，这有助于它学习更稳定和鲁棒的解，这在处理逆问题中的噪声数据时是一个特别有价值的特性。
- 离散化不变性： 这是神来之笔。学习到的权重与物理频率相关（例如，在域上恰好适配一次、两次的波等），而不是与特定网格的索引相关。因此，我们可以在粗糙的 $64 \times 64$ 网格上训练我们的模型。当我们稍后想在一个精细的 $256 \times 256$ 网格上评估它时，我们只需对新输入进行傅里叶变换，将完全相同的学习权重应用到相应的低频模式上，然后再进行逆变换。模型免费地泛化到了新的分辨率！
回到现实世界： 我们应用逆傅里叶变换，将我们滤波后的表示带回空间域。现在我们高效地完成了一次全局卷积。

步骤 3：局部精调与非线性

来自谱卷积的全局信息并不是故事的全部。FNO 将此结果与经过简单局部线性变换（如 $1 \times 1$ 卷积）处理的输入版本相加。这种“残差”连接使得网络能够轻松学习局部的、细粒度的物理特性，以及全局的、长程的相互作用。

最后，也是最重要的一点，合并后的结果会通过一个标准的非线性激活函数（如 GELU），该函数逐点应用于每个位置。如果没有这种非线性，堆叠多个 FNO 层将毫无意义——它们都会坍缩成一个单一、复杂的线性算子。正是全局线性卷积和局部非线性之間的反复交替，赋予了 FNO 逼近極其複雜的非線性算子的能力，而这些算子几乎主宰着现实世界中所有有趣的现象。

这整个模块——提升、谱卷积、局部路径和非线性——会重复几次。最终的输出是通过将每个点的高维特征向量投影回我们想要预测的物理量（如最终的温度图）来获得的。

威力、局限与现实世界

FNO 的优雅设计不仅仅是美学上的赏心悦目；它有强大的数学保证作为支撑。已经证明，这种架构是一个通用逼近器 (universal approximator)：只要有足够的层和通道，它就可以学习表示任何连续算子到任何期望的精度。它通过使用层堆栈构建一个有效的、非平移不变的核来实现这一点，尽管其核心组件是平移不变的。

然而，FNO 并非万能灵药。它的威力与截断参数 $k_{\max}$ 的选择息息相关，即它“关注”的最大频率。[@problemid:3426970]

对于平滑算子，如热方程的解，其输出总是比输入更平滑，高频部分自然会被抑制。FNO 在这些任务上表现出色，通常一个小的 $k_{\max}$ 就足够了。
对于反平滑算子，如求导，它会放大高频，一个 $k_{\max}$ 很小的 FNO 将受到根本性的限制。它对需要放大的信息是盲目的。
对于许多非线性算子，低频输入之間的相互作用可以在输出中产生新的、更高频率的内容。例如， $f(x)^2$ 的傅里叶变换的频带宽度是 $f(x)$ 的两倍。一个试图学习这种平方算子的 FNO 需要足够大的 $k_{\max}$ 来捕捉这些新产生的频率。

此外，对 FFT 的依赖也带来了它自己的包袱：周期性假设。当我们的域不是一个圆形或环面，而是一个具有固定边界温度的正方形时会发生什么？一个朴素的 FNO 会遭受“环绕”误差的影响，其中影响会错误地从域的一侧蔓延到另一侧。为了解决这个问题，科学家们开发了聪明的策略，例如将问题转换为边界为零的问题，或者完全用其他谱方法取代傅里葉变换，例如切比雪夫变换 (Chebyshev transform)，这种变换天然适用于有界、非周期性的域。

总而言之，傅里叶神经算子不仅仅是又一个神经网络。它是经典数理物理与现代深度学习的美妙结合。通过拥抱频率的语言，它为学习主宰我们世界的基本算子提供了一个高效、基于原理、且分辨率无关的框架，为新一代的科学模拟与发现铺平了道路。

应用与跨学科联系

衡量一个物理原理的真正标准不是其抽象的优雅，而是其描述世界的力量。在探索了傅里叶神经算子的内部工作原理之后，我们现在踏上一段旅程，看看它在实践中的表现。我们会发现，这种架构不仅仅是一个巧妙的工程作品，更是一个观察宇宙的通用新镜头，一个似乎与自然语言惊人地协调的镜头。从热量的温和扩散到湍流的混沌之舞，从地壳的缓慢变形到生命的复杂模式，世界是由算子——将整个函数映射到其他函数的规则——所支配的。FNO 为我们提供了一个非凡的工具来直接学习这些规则。

自然的节律：偏微分方程的交响曲

在物理学、化学和生物学的核心是偏微分方程 (PDE)。这些方程是自然的宏伟交响曲，描述了温度、压力和浓度等量如何在空间和时间中演化。几个世纪以来，我们一直用 painstaking 的解析或数值方法来求解它们。FNO 提供了一条不同的道路：将整个解算子作为一个单一的、整体的映射来学习。

考虑宇宙中最基本的过程之一：扩散。无论是热量在金属棒中传播，还是一滴墨水在水中散开，扩散都是一个平滑的过程。用傅里叶的语言来说，这意味着高频分量——尖锐的边缘和快速的摆动——比低频分量衰减得快得多。任何未来时刻的解都由初始状态的平滑、缓慢变化的部分主导。傅里叶神经算子正是为这种情况而精巧地设计的。通过在傅里叶域中参数化解算子，并将其学习能力集中在低频模式上，它自然而高效地捕捉了扩散的本质。热方程的算子实际上是与一个核的卷积，该核的傅里叶变换是解析已知的；FNO 学习的正是这个核的近似，使其架构与底层物理完美对齐。

但自然界很少只是线性扩散。让我们加点变化。想象一下形态发生的过程，其中称为形态发生素的化学信号在胚胎中扩散，并相互反应，创造出生命的复杂图案——斑马的条纹或豹子的斑点。这由反应-扩散方程描述，它将扩散的全局平滑效应与局部的非线性反应项耦合起来。在这里，FNO 的结构再次大放异彩。每个傅里叶层执行一次全局卷积——近似扩散过程——然后将结果通过一个逐点的非线性激活函数。这种全局线性算子和局部非线性的组合，正是捕捉反应-扩散系统复杂、涌现行为所需要的。

这一原理可以扩展到更复杂的情景。在地质力学中，了解地面如何变形以及流体如何在施加载荷下流过其中，对于从石油开采到碳封存的各种应用都至关重要。控制性的 Biot 方程描述了一个耦合系统，其中力影响孔隙压力，而孔隙压力反过来又影响固体骨架的位移。一个 FNO 可以学习整个多输入、多输出的算子，该算子将源项（力和流体源）映射到状态场（压力和位移），将所有复杂的交叉耦合作为一个单一、统一的积分算子来捕捉。

科学的新伙伴：增强并加速发现

FNO 不仅仅是传统求解器的替代品；它也可以成为一个强大的伙伴，增强现有的物理模型，以捕捉那些长期以来我们无法掌握的现象。

工程学中的一个巨大挑战是预测湍流。虽然基本的 Navier-Stokes 方程完美地描述了流动，但对于大多数实际应用来说，它们的直接模拟在计算上是代价高昂的。几十年来，工程师们一直依赖于简化的模型，如雷诺平均 Navier-Stokes (RANS) 方程。然而，这些模型需要一个“封闭项”——一个表示湍流涡旋平均效应的雷诺应力的经验模型。这些封闭项是出了名的难以完善。

这就是 FNO 作为专家顾问而非求解器介入的地方。我们可以使用传统的 RANS 模型作为基线，并训练一个 FNO 只学习修正项。湍流本质上是一种非局部现象；一个位置的涡旋会影响到远处流动的状况。一个标准的、局部的机器学习模型将无法捕捉到这一点。FNO，凭借其作为全局积分算子的本质，非常适合学习从平均流特征到所需应力修正场的非局部映射，从而显著提高传统模型的准确性，同时尊重伽利略不变性等基本物理对称性。

这种学习系统“特性”的想法也延伸到了材料本身的属性上。粘弹性材料（如聚合物或生物组织）中的应力不仅取决于其当前的应变，还取决于其整个变形历史——它有“记忆”。这种关系由一个因 causal 的、时间平移不变的卷积积分来描述。同样，这正是 FNO 能够以惊人的效率近似的结构。通过学习将应变历史函数映射到当前应力的算子，FNO 可以有效地直接从实验数据中学习本构定律，或材料的“个性”。

连接世界的桥梁：离散化不变性的力量

也许 FNO 最神奇且最具实际意义的特性是它能够弥合不同描述层次之间差距的能力——即它的离散化不变性。因为 FNO 在抽象的傅里叶域中学习一个连续的核，所以它从根本上不依赖于训练时所用的网格。

想象一下，在一个粗糙的 $64 \times 64$ 网格上训练 FNO 来求解一个偏微分方程。由于学习到的参数存在于傅里叶模式的连续空间中，我们可以在推理时将同一个学习到的算子应用到一个更精细的 $128 \times 128$ 网格上，这一壮举被称为零样本超分辨率。FNO 实际上学习了 continuum 算子，然后可以在我们选择的任何离散化上进行评估。这与像 CNN 这样的传统神经网络有着深刻的区别，后者的学习核是绑定在固定的像素网格上的。这种泛化的有效性取决于在粗糙网格训练期间捕获的低频模式在多大程度上代表了完整的解——这个条件在由椭圆或抛物线型偏微分方程（如 Darcy 流）控制的物理系统中通常得到满足。

这一特性对于数据同化领域来说是一个游戏规则的改变者，该领域是结合模型预测与现实世界观测的科学，是天气预报和气候建模的核心。一个常见的场景是运行一个计算成本低、分辨率低的预报模型，但从卫星或传感器接收稀疏、高分辨率的观测数据。在粗糙网格上训练的 FNO可以直接在观测数据所在的精细网格上产生预报，为模型世界和现实世界之间提供了一座无缝的桥梁。

当然，能力越大，责任越大。当使用学习到的算子进行顺序预测时， जैसे在数据同化中使用集合卡尔曼滤波器时，模型不仅要在单一步骤上准确。它还必须在多个连续步骤中保持稳定，确保误差不会失控增长并导致滤波器“发散”。因此，在将学习到的算子投入实际操作环境之前，评估其长期稳定性是至关重要的一步。

思想的统一：FNO、Transformer与算子的本质

发现之旅常常揭示出看似迥异的思想之间令人惊讶的联系。事实证明，傅里叶神经算子的结构与另一种革命性架构——Transformer——有着深刻而美妙的联系。

乍一看，两者似乎相距甚远。FNO 在傅里叶谱上操作，而 Transformer 的注意力机制则计算 token 特征的加权平均值。然而，考虑一个 Transformer，其中 query 和 key 不取决于数据内容，而只取决于 token 的位置，这种技术称为旋转位置编码 (RoPE)。在这种情况下，注意力矩阵——决定了位置 $x_i$ 的 token 对位置 $x_j$ 的 token 的关注程度——只成为相对距离 $x_i - x_j$ 的函数。这就是卷积核的定义！从这个角度看，注意力机制隐式地学习了一个卷积算子，就像 FNO 一样。对注意力矩阵的分析揭示了一个核形状，它紧密模仿了算子试图求解的 underlying PDE 的格林函数。这是一个令人惊叹的例子，说明了不同的架构路径如何能够汇合到相同的基本数学原理上。

这种普适性使我们能够将算子学习应用于纯粹的数学构造。考虑 Dirichlet-to-Neumann (DtN) 映射，这是数学中的一个基本算子，它将定义在域边界上的函数映射到其在该边界上的法向导数。对于像圆形這樣的簡單域，該算子在傅里葉基底下有一個簡單的解析形式：它將第 $m$ 個傅里葉模式乘以 $|m|/R$ ，其中 $R$ 是圓的半徑。一個 FNO 可以以惊人的精度学习这个抽象映射，甚至可以学习它对几何（ $R$ ）本身的参数依赖性。这表明 FNO 架构不仅仅是应用物理学的一个工具，而是一个能够掌握深刻数学结构的通用函数空间学习器。

从有形的流体和固体世界到数学算子的抽象领域，傅里叶神经算子提供了一个统一而强大的框架。它提醒我们，宇宙在其令人困惑的复杂性中，常常说着一种简单而优雅的波与场的语言。通过学会用这种语言思考，我们对支配我们所有人的法则获得了一种新的、深刻的视角。