全波形反演

玻尔百科

核心要点

全波形反演（FWI）是一种计算密集型的不适定反问题，它通过匹配模拟和记录的地震波数据来创建高分辨率的地下模型。
FWI中的主要挑战是“周波跳跃”，它会在残差曲面中产生大量的局部极小值。这个问题通常通过多尺度、从低频到高频的反演策略来解决。
伴随状态法是FWI的计算引擎，它能以每个震源仅需两次波动模拟的代价，高效地计算出完整的模型梯度。
先进的优化算法、基于物理的预条件以及稳健的残差函数对于应对FWI的非凸性和病态性质以获得准确结果至关重要。

引言

全波形反演（Full Waveform Inversion, FWI）代表了我们探索地球深处能力的巅峰之作。通过将地球视为波的传播介质，并分析来自地震源的复杂回波，FWI旨在生成高精度的地下详图。然而，将这首丰富的波之交响曲转化为清晰的图像，是一项深远的科学挑战——一个充满数学和计算障碍的经典反问题。本文将直面这一挑战，对FWI框架进行全面的探索。

文章首先深入探讨核心的“原理与机制”，在这一部分，我们将剖析波传播的物理原理，直面导致“周波跳跃”的棘手的非凸问题性质，并揭示使反演在计算上可行的优雅的伴随状态法。在建立了这一基础理解之后，讨论将在“应用与跨学科联系”中展开，考察在真实世界的地球物理学中应用FWI的实用策略，并揭示其在从医学成像到高性能计算等领域中强大的概念共通性。

原理与机制

全波形反演（FWI）的核心，是一个关于回声的故事。我们向地球“呐喊”——不是用我们的声音，而是用精确控制的地震源——然后我们专注地聆听返回的复杂振动。这些记录下来的振动，即地震记录，是地球的回声，富含着它们所穿过的隐藏结构的信息。我们的宏大挑战，是将这首回声的交响曲转化为一幅详细的地下地图：它的山脉、峡谷，以及岩石本身的属性。这是一个经典的反问题：我们观察结果，然后必须推断其原因。支配这一过程的“规则”是波动方程，它规定了波如何根据介质的物理特性（如局部波速 $c(\mathbf{x})$ 或其倒数——慢度）传播、反射和折射。反演的目标是找到这些特性的具体模型，使得我们模拟的回声与我们记录的回声完美匹配。

残差曲面及其“周波跳跃”之险

我们如何判断地下地图的质量？最直接的方法是使用我们当前最佳猜测的模型生成一个合成回声，并将其与我们仪器记录的真实回声逐时进行比较。我们可以用一个简单而强大的概念来量化这种不匹配：最小二乘残差函数，通常称为 $L_2$ 残差。我们将预测信号和观测信号在每个时间点的差异取出，将这些差异平方（使它们都为正），然后将它们相加。

J(m) = \frac{1}{2} \sum_{\text{receivers}} \int \left( p_{\text{predicted}}(t; m) - p_{\text{observed}}(t) \right)^{2} \, dt

在这里， $m$ 代表我们的地球模型。这个函数 $J(m)$ 创建了一个广阔的高维曲面。这个曲面上的每一点都对应一个可能的地球模型，其“高度”就是残差值。我们的目标陈述起来简单，但实现起来却异常困难：找到这个整个曲面中的最低点，即全局极小值，此处预测数据与观测数据最佳匹配。

优化算法就像一个试图在黑暗中找到这个最低点的徒步者，只能感觉到脚下的斜坡（梯度）。FWI的核心难题便在于此。这个曲面并非一个简单的光滑碗状。相反，它遍布着无数其他的山谷，即局部极小值：这些模型是错误的，但对其进行的任何微小改动实际上都会增加残差。如果我们地球模型的初始猜测将我们的徒步者置于这些错误的山谷之一，他们会自信地走向谷底，从而陷入一个错误的解。

这种被称为周波跳跃的现象是FWI的主要难题。为了获得一些直观理解，让我们将问题简化到其最本质的部分。想象我们的预测信号是一个简单的正弦波 $u(t) = \sin(\omega t)$ ，“观测”信号是同一个波，但有了一个时间偏移 $\tau$ ，即 $v(t) = \sin(\omega(t-\tau))$ 。时间偏移 $\tau$ 代表了我们模型的误差。如果我们将残差 $J$ 计算为这个误差 $\tau$ 的函数，我们会发现一个极其简单但富有启发性的结果：

J(\tau) \propto 1 - \cos(\omega\tau)

这个函数在 $\tau=0$ 处有一个全局极小值（零残差），这是正确答案。但它在每个 $\omega\tau$ 是 $2\pi$ 的倍数，即 $\tau$ 是波周期的整数倍的点上，也有相同的极小值。一个基于梯度的算法，从一个初始误差 $\tau_0$ 开始，只有当它起始于中心山谷内时，才能找到真解，这意味着初始时间误差必须小于半个周期。如果误差更大，算法就会“跳过一个周波”，收敛到错误的极小值。这就是这个问题的数学核心。

根本挑战：一个不适定问题

残差曲面的险恶性质不仅仅是一个麻烦；它是问题本身一个更深层、更根本属性的症状。从基于波的响应中推断模型的任务，是数学家们所称的不适定反问题。按照伟大数学家 Jacques Hadamard 的定义，一个问题如果满足三个标准，就被认为是“适定的”：解必须存在，必须唯一，并且必须连续依赖于数据（稳定性）。FWI在这三个方面都存在困难。

存在性： 真实世界的数据总是被噪声污染，而我们的物理模型（如声波方程）总是对真实、复杂的地球的简化。因此，几乎可以肯定不存在能够完全精确地重现我们观测数据的“完美”模型。我们总是在寻求一个“最佳拟合”的近似解。
唯一性： 两个不同的地球模型能否产生相同的地震记录？完全可能。我们的震源和检波器只覆盖了地表有限的一部分，使得地下某些区域的照明很差。此外，我们的地震源是带限的——它们不能产生无限高或无限低的频率。这意味着我们永远无法分辨小于某个尺度的特征，不同的微小尺度结构在可分辨的频率下可能产生无法区分的数据。这种唯一性的缺失与正演模拟算子的零空间有关——即所有那些不会在数据中产生任何变化的模型扰动的集合。
稳定性： 这也许是最隐蔽的挑战。想象两组记录到的回声几乎完全相同，仅因微小的测量噪声而有差异。它们难道不应该对应几乎完全相同的地球模型吗？我们希望如此，但对于FWI，这并不能保证。波的传播是一个平滑过程。当波传播时，它们会平均掉介质中的尖锐细节。将模型映射到数据的正演算子 $F(m)$ 是所谓的紧算子。数学的一个基本结论是，对紧算子求逆是一个不稳定的、“无界”的操作。这意味着试图逆转这个平滑过程——即对地球进行“去模糊”——可能会剧烈放大数据中任何微小的噪声，从而可能导致一个完全不同且充满伪影的模型。

认识到FWI是不适定的并非绝望的忠告，而是对学术诚实的呼吁。它告诉我们，一个天真的反演注定会失败，我们必须用物理驱动的策略和统称为正则化的数学工具来引导这一过程。

反演的引擎：伴随状态法

为了在我们复杂的残差曲面中导航，我们需要计算它的斜率，即梯度，它告诉我们如何调整模型以最好地减少残差。采用暴力方法是不可想象的。要为一个拥有一百万像素的模型计算梯度，你必须逐个扰动每个像素，并为每次扰动运行一次完整的波动模拟——仅仅一步就需要一百万次模拟！对于一个现实的三维模型，像素数量可能达到数十亿。计算成本将是天文数字，使问题变得无法处理。

这正是计算科学中最优雅的思想之一——伴随状态法——发挥作用的地方。这项技术源于控制理论和应用数学，它使我们能够以每个震源仅需两次波动模拟的代价，计算出所有模型参数的完整梯度。其内存节省同样惊人。显式存储雅可比矩阵——描述每个数据点相对于每个模型参数如何变化的矩阵——所需的内存将远远超出地球上任何超级计算机的能力，对于一个现实问题，其量级可达数百TB甚至EB。伴随状态法是“无矩阵”的，从而避开了这个不可能完成的任务。

该方法有一个优美的物理解释。首先，我们进行一次标准的正向模拟，将波从震源传播通过我们当前的模型，并存储其历史记录。然后，我们进行第二次“伴随”模拟。在这次模拟中，数据残差——预测回波和观测回声之间的差异——在检波器位置作为震源被注入，并且波被时间反向传播。得到的梯度，即告诉我们如何更新模型的量，就是正向传播场和反向传播的伴随场的零延迟互相关。

\nabla J(m)(\mathbf{x}) = -\sum_{\text{sources}} \int_{0}^{T} \lambda_{s}(\mathbf{x},t) \, \partial_{t}^{2} u_{s}(\mathbf{x},t) \, \mathrm{d}t

这里， $u_s$ 是正向场， $\lambda_s$ 是震源 $s$ 的伴随场。这个神奇的公式告诉我们，在给定点 $\mathbf{x}$ 的模型更新应该很大，如果该点同时被穿过的原始波和反向传播回来的误差信号所“激活”。它优雅地将数据残差与其产生的模型参数联系起来。这个方法构成了几乎所有现代FWI的计算引擎。

驯服野兽：应对险恶曲面的策略

有了计算梯度的有效方法，我们现在可以设计策略来驯服险恶的残差曲面。核心原则是分层次地建立模型，从大尺度到小尺度。

最基本的策略是多尺度反演。我们利用较低频率（较长波长）的波会产生一个更平滑、更像凸函数的残差曲面这一事实。我们仅使用数据中的最低频率开始反演。这使我们能够找到曲面中正确的“主山谷”，从而确立模型的大尺度或“运动学”正确性。如前所述，这样做是有效的，因为避免周波跳跃的条件——初始时间误差 $|\Delta t|$ 必须小于半个周期——对于具有长周期的低频来说要容易满足得多。一旦大尺度模型就位，我们逐渐引入更高频率来刻画更精细的细节。这就像一位艺术家在拿起精细的凿子雕琢细节之前，先勾勒出雕塑的粗略轮廓。

但如果我们的数据缺乏足够低的频率，或者模型过于复杂以至于即使是低频也会导致周波跳跃，该怎么办？这推动了该领域发展出更稳健的残差度量方法。 $L_2$ 残差是逐点比较，这使其对相位非常敏感。一个强大的替代方案来自最优传输的数学理论。我们可以不比较信号在每个时间点的振幅，而是将它们视为“质量”的分布，并计算Wasserstein距离：将一个分布重排以匹配另一个分布所需的最小“功”。对于一个简单的时间偏移，这个距离与偏移本身成正比，而不是它的周期函数。这创造了一个相对于计时误差是凸的残差曲面，从数学角度上有效地消除了周波跳跃问题，并使反演更加稳健。

最后，对于具有极强反差的地质环境，如巨大的地下盐体，一个平滑变化的速度模型的想法本身就失效了。物理过程由来自清晰边界的反射主导。标准的高斯-牛顿优化方法，用单次散射（玻恩）模型来近似波物理，在这种情况下会灾难性地失败，因为多次散射占主导地位。在这里，需要更先进的技术。一种方法是水平集反演，它改变了问题的焦点。我们不再试图确定每个像素的速度，而是参数化边界本身的形状并求解它。这降低了问题的维度，并使优化与移动界面的真实底层物理对齐。另一种策略涉及稳健的重加权，它自适应地降低那些拟合得很差的数据部分的权重，正确地将它们识别为周波跳跃的可能受害者，因为它们的梯度在对算法“撒谎”。

从理解波传播的基本物理学，到面对不适定性和非凸性的数学挑战，再到设计计算上出色且物理上直观的算法，全波形反演是物理、数学和计算机科学统一的证明。在这个领域，伴随算子和最优传输理论的抽象之美直接转化为我们洞察我们星球深处的能力。

应用与跨学科联系

在遍历了全波形反演（FWI）的基本原理之后，我们可能会倾向于认为它是一台已经完成的机器，一个用于窥探地球的自成一体的百宝箱。但这就像是欣赏一个强大的引擎，却从不问它能带我们去向何方，或者是什么样的工程奇迹让它运转。FWI的真正魅力不仅在于它是什么，更在于它能做什么，以及它将来自科学和数学各领域的丰富思想编织在一起。它是一个智力十字路口，地球物理学、应用数学、信号处理和高性能计算在此交汇。

洞察的艺术：从理论到地球物理学实践

一个反演方法的抽象优雅最终必须面对物理世界的混乱现实。从一个理论概念到能够描绘油气藏或绘制地壳图的实用工具，这条道路上铺满了为驯服波物理和真实世界数据这两者的狂野而设计的巧妙策略。

最深刻的挑战之一是*局部极小值*问题。FWI目标函数是一个崎岖的曲面，有无数的山谷，一个头脑简单的下降算法很容易陷入一个肤浅、错误的谷中。当我们的初始模拟与现实相去甚远，以至于我们计算出的波形摆动与记录数据的摆动甚至无法粗略对齐时，就会发生这种情况——这种困境被称为“周波跳跃”。然而，大自然给了我们一个美丽的线索。对于长而缓慢的波（低频）来说，这个问题没有短而急促的波（高频）那么严重。这引出了一种非常直观的策略，称为频率延拓，我们仅使用数据中的最低频率开始反演。这使我们能够建立一个粗糙、模糊的地下图像，但这个图像在运动学上是正确的。以这个改进后的模型作为我们新的起点，相位失配得以减少，引入稍高一些的频率来锐化图像就变得安全了。我们重复这个过程，逐步增加更多细节，从模糊的草图走向精细的照片。这种从低频到高频分阶段进行的多尺度方法几乎是每一个成功FWI应用的基石，将一个不可能的非凸问题转化为一系列可管理的问题。

当然，我们收集的数据从来不像我们计算机里的那么干净。野外记录被各种不想要效应所污染：来自海面的回波（“鬼波”）、声源子波的不确定性以及环境噪声。将我们纯净的模拟与这些原始数据进行幼稚的比较是毫无意义的。这正是信号处理的艺术发挥作用的地方。为了进行公平的比较，我们必须仔细地对野外数据进行预处理。我们设计滤波器来去除鬼波，对数据进行反褶积来估计和移除震源子波，并应用均衡来校正我们模拟中未能完美遵守的物理效应。这里的关键原则是一致性：无论我们对观测数据做了什么，在比较之前，我们必须对模拟数据也做同样的处理。此外，伴随状态法的数学要求，我们在“正向”方向应用的每一个处理步骤，在计算梯度时都必须伴随着其相应的伴随运算。这在物理世界和反演的数学世界之间创造了一种美丽的对称性，确保我们的模型更新不会因处理本身而产生偏差。

一个特别重要的物理效应是几何扩散。当波从震源向外传播时，其能量散布在越来越大的波前上，导致其振幅衰减。这意味着靠近震源的检波器记录到的信号比远处的要强得多。在一个标准的最小二乘残差中，这些高振幅的近偏移距道将完全主导计算，反演会将其所有精力集中在拟合它们上，而很大程度上忽略了来自远偏移距数据的宝贵信息。为了解决这个问题，我们可以利用我们的物理理解来设计校正。一种方法是给数据施加一个权重，有效地提高远偏移距道的振幅，使它们与近偏移距道处于同等地位。例如，在三维空间中，来自点源的波振幅按 $1/r$ 衰减，其中 $r$ 是距离。我们可以通过将数据残差乘以一个与 $r$ 成正比的权重来抵消这种效应。或者，我们可以通过预条件在“模型空间”中解决这个问题，我们稍后将触及这个概念。这是利用物理来指导反演数学的完美例子。

动力机房：数学与计算的乐园

如果FWI是一辆强大的载具，那么它的引擎就是由数值优化和科学计算的最精良部件构建的。FWI的巨大规模——通常涉及TB级的数据和拥有数亿参数的模型——使其成为一个艰巨的计算挑战。

反演的核心是一个基于梯度的优化算法，它迭代地更新模型。但该选择哪种算法呢？这正是FWI成为大规模优化领域真实试验场的地方。像非线性共轭梯度（NLCG）这样的方法对内存要求不高，只需要存储几个向量。相比之下，像L-BFGS这样的拟牛顿法需要更多内存来存储先前步骤中关于目标函数曲率的信息。然而，这些额外信息使L-BFGS能够构建出对曲面更好的描绘，使其能够采取更智能的步进，并通常在少得多的迭代次数内收敛。由于FWI的每次迭代都需要极其昂贵的波动模拟，最小化迭代次数至关重要，这使得L-BFGS尽管内存占用更高，却成为现代FWI的主力。

为了使这些优化器真正强大，我们希望能使用牛顿法，它利用二阶导数（Hessian矩阵）来找到最佳路径。对于FWI来说，Hessian矩阵是一个巨大无比的矩阵，无法计算或存储。在这里，我们看到了计算科学中最优雅的思想之一：伴随状态法。它提供了一种“无矩阵”的方式来计算高斯-牛顿Hessian矩阵与任意向量的乘积，仅需两次额外的波动模拟。这使我们能够将二阶信息融入我们的优化中，而无需实际构建Hessian矩阵本身，从而使得像高斯-牛顿法这样的方法对于大规模问题变得可行。能够高效地计算这种Hessian-向量积，避免了显式构建雅可比矩阵（这需要与模型参数数量相等的模拟次数），是一个计算上的奇迹，它使得大部分FWI变得实用。

即使有了好的算法，如果问题是病态的——也就是说，如果曲面被拉伸成长而窄的山谷——收敛也可能异常缓慢。在这里，我们再次利用我们的物理洞察力来帮助数学。我们可以设计一个基于物理的预条件子，这本质上是一个缩放算子，它重塑问题使其更加均匀。通过计算Hessian矩阵对角线的近似值——这个项代表了模型中每个点的照明能量——我们可以重新缩放梯度。这个过程补偿了诸如几何扩散和不均匀数据覆盖之类的效应，有效地告诉优化器不要过分相信高照明区域的更新，而要更多地关注弱照明区域。这种平衡行为极大地加速了收敛。

最后，优化器走的每一步都弥足珍贵。步长的选择由一个虽小但至关重要的子程序——线搜索——来控制。像回溯线搜索或由Wolfe条件控制的搜索，提供了一种严谨的方式来确保每一步都在残差上提供了足够的下降，同时又不会太大或太小。它们是保证整个优化过程稳定性和效率的微调机制。

普适模式：FWI与科学的统一性

FWI的框架——将基于物理的模型与观测数据进行拟合——并非地球物理学所独有。它是一种普适的科学探究模式，出现在无数其他领域。考虑大气遥感的问题，其中卫星测量穿过大气的辐射光。目标是从这些光中推断大气的性质，例如某种污染物的浓度。物理原理是不同的（由比尔-朗伯吸收定律控制，而非波动方程），但反问题的数学结构是类似的。

通过比较这两个问题，我们可以获得深刻的直观理解。在一个简化的、不同光谱通道相互独立的大气问题中，一个模型参数的改变（例如，通道1的吸收）对通道2的测量没有影响。这种物理上的解耦导致了一个数学上对角的Hessian矩阵，使得反演变得简单得多。然而，在地震FWI中，一个参数的改变（如纵波速度）由于散射和模式转换会影响整个波场，使其与横波速度和密度耦合。这种物理耦合表现为Hessian矩阵中巨大的、密集的非对角块，造成了臭名昭著的“参数串扰”，使地震问题如此具有挑战性。这个美丽的类比向我们展示了一个反问题的数学结构是其底层物理的直接反映。类似的反问题也出现在超声医学成像、材料的无损检测，甚至金融领域。

这种相互联系延伸到FWI的实现本身。当我们转向更复杂的物理学，如弹性力学时，我们必须同时反演多个参数（ $v_p$ 、 $v_s$ 和密度）。这些参数之间的耦合反映在底层矩阵的结构中。这反过来对高性能计算（HPC）产生了深远的影响。为了在超级计算机上解决这些问题，我们必须设计数据结构，如分块压缩稀疏行（BCSR）格式，它明确地承认了由物理学施加的分块结构。高效FWI代码的设计是一个协同设计问题，其中物理、数学和计算机体系结构都必须被统一考虑。通过这种方式，探索地球内部的追求成为推动计算前沿创新的驱动力。

从解读地球回声的实用艺术，到优化理论的抽象之美，再到科学发现的普适模式，全波形反演远不止是一项单一的技术。它是一个充满活力和动感的领域，证明了将深厚的物理直觉与复杂的数学和计算工具相结合的力量。