全波形反演 (FWI)

玻尔百科

定义

全波形反演 (FWI) 是一种通过迭代最小化记录的海量地震数据与波方程模拟数据之间的差异，从而建立详细地球内部模型的计算技术。在地球物理领域中，该方法利用伴随状态法高效计算梯度，实现了对包含数百万个参数的模型进行优化。由于这是一个病态反演问题，全波形反演通常需要采用频率延拓和正则化策略，以解决周期跳跃挑战并确保解的稳定性。

核心要点

FWI通过迭代地最小化记录的地震数据与使用波动方程模拟的数据之间的差异，来建立精细的地球地下模型。
伴随状态法提供了一种计算上高效的方式来计算目标函数的梯度，从而能够对包含数百万参数的模型进行优化。
FWI的一个主要挑战是由波的振荡特性引起的周波跳跃，该问题可通过频率延拓和替代性目标函数等策略来解决。
作为一个不适定反问题，FWI需要正则化来确保解是稳定且具有地质意义的，以弥补有限且含噪声数据带来的不足。

引言

我们如何仅凭地表记录到的微弱回声，来绘制出脚下数英里深处地球内部的精细图像？这是全波形反演（Full Waveform Inversion, FWI）所要解决的核心问题。FWI是一种强大的计算方法，它彻底改变了地震成像领域。FWI将这一挑战视为一个巨大的反问题，旨在寻找能够最好地解释我们观测到的完整地震波场——即“全波形”的特定地下模型。本文全面概述了这项复杂技术，从其物理原理到实际应用。接下来的章节将引导您进入FWI的复杂世界。“原理与机制”一章将阐释其核心理论，解释正演和反演问题、充满周波跳跃陷阱的崎岖优化地貌，以及使大规模反演在计算上成为可能的优雅的伴随状态法。随后，“应用与跨学科联系”一章将探讨这些原理在现实世界中的应用，讨论先进的优化策略、数据处理技术，以及FWI与大气科学、计算机科学等其他科学学科之间令人惊奇的联系。

原理与机制

想象你身处一个黑暗的洞穴式房间，里面充满了形状和材质未知的物体。你唯一的工具是一口钟。你敲响钟，声波涌出，从物体上反弹，然后回到你的耳朵。你能否根据这错综复杂的回声模式——即完整、丰富、不断演变的声音——重建出房间的详细图像？这正是全波形反演（FWI）所面临的巨大挑战。我们倾听来自受控震源（如地震可控震源或空气枪）的地球“回声”，并根据返回波的完整记录——即全波形——试图描绘出深藏在我们脚下的岩石和结构。要踏上这段旅程，我们必须首先理解地球是如何“歌唱”的。

正演问题：预测地球之歌

当我们生成地震波时，它们并非沿直线传播。它们在地下介质中传播，遇到不同物质时会发生反射、折射和散射。硬岩石层传播波的速度比软沙层快。支配这场复杂之舞的规则被封装在一个优美的物理定律中：波动方程。本质上，波动方程是一个数学表达式，它将介质的属性——最重要的是当地声速 $c(\mathbf{x})$ ——与波场 $u(\mathbf{x}, t)$ 在空间每一点 $\mathbf{x}$ 和时间 $t$ 的演化联系起来。

这种关系定义了我们所说的正演问题：如果你给我一张地球属性的地图（即模型，我们可以表示为 $m = 1/c^2$ ），我就可以利用波动方程来模拟波的传播，并精确预测任何给定位置的地震检波器应该记录到什么。这就像知道了钟的确切形状和材质，就能够计算出敲击时它会发出的声音。这是一个确定性的任务，尽管计算量很大。

反演问题：从歌声到结构

FWI处理的是难度大得多的反演问题。我们拥有记录——即观测数据 $d_{\text{obs}}$ ——并且我们想找出产生这些数据的地球地图，即模型 $m$ 。这是一个侦探故事。我们该如何开始呢？

我们从一个猜测开始。我们创建一个初始的、平滑的地球模型 $m_0$ 。利用正演问题，我们预测这个猜测模型会产生的地震数据，称之为 $d_{\text{pred}}$ 。不可避免地，我们的初始猜测会是错误的，我们的预测与真实数据不符。我们通过定义一个目标函数（或称失配函数，misfit function）来量化这种“错误程度”。最直接的方法是测量预测和观测波形在每个时刻的差异，将这些差异平方以确保它们都是正值，然后将它们全部相加。这被称为最小二乘或 $L_2$ misfit， $J(m) = \frac{1}{2} \| d_{\text{pred}}(m) - d_{\text{obs}} \|_2^2$ 。

FWI的目标就是找到使该目标函数最小化的模型 $m$ 。通过这一步，我们将一个地球物理成像问题转化为了一个巨大的优化问题。我们正在一个“目标函数地貌”中寻找最低点，该地貌上任意一点的高度对应于特定地球模型所产生的误差。

崎岖的地貌与周波跳跃问题

如果这个目标函数地貌是一个简单、光滑的碗，我们的任务就会很容易。我们可以从任何地方开始，只要始终沿着最陡峭的下坡方向移动，就一定能到达碗底——即对应于真实地球模型的唯一的全局最小值。

不幸的是，现实要危险得多。FWI的目标函数地貌是出了名的崎岖不平，充满了无数并非正确答案的“山谷”和“陷阱”。这些就是局部极小值。这种崎岖性的原因在于波的振荡特性，其最著名的表现形式是一种称为周波跳跃（cycle-skipping）的现象。

让我们想象一个非常简单的情况。假设我们的观测信号是一个纯正弦波 $v(t) = \sin(\omega t)$ ，而由一个略微错误的模型预测出的信号是同一个正弦波，但有时间上的偏移， $u(t) = \sin(\omega(t-\tau))$ 。如果时间偏移 $\tau$ 非常小，两个波几乎对齐，目标函数值很小。随着我们增加偏移，目标函数值会增大。但当偏移 $\tau$ 恰好等于波的一个完整周期时，关键的事情发生了：两个正弦波再次完美对齐！目标函数值又降回了零。这意味着我们简单的目标函数有多个完美解——在零偏移、一个周期偏移、两个周期偏移等等位置。

这就是周波跳跃的本质。如果我们的初始模型猜测错得离谱，以至于它预测的波至时间与真实波至时间的偏差超过半个波长，那么一个简单的下坡优化方法就会“锁定”到错误的波形上。例如，它会通过将预测中的第四个波峰与数据中的第五个波峰相匹配来找到一个局部极小值，从而得到一个物理上不正确但目标函数值却很低的模型。这使得FWI的目标函数高度非凸，而克服这一点是使FWI变得实用的核心战斗。

伴随状态法：计算科学的神来之笔

要在这个地貌上导航，即使是局部导航，我们也需要一张地图。具体来说，我们需要目标函数的梯度，即 $\nabla J(m)$ 。梯度是一个向量，对于我们当前的猜测模型 $m$ ，它指向最陡峭的上升方向。要下坡，我们只需朝着相反方向，即 $-\nabla J(m)$ ，迈出一小步。

但是我们如何计算这个梯度呢？我们的模型 $m$ 是一张地图，它可能被离散化为数百万个像素点。这是否意味着我们必须逐一扰动每个像素，为每次扰动都运行一次完整的波场模拟，然后测量目标函数的变化？对于一个百万像素的模型，这意味仅为走一步就需要进行一百万次模拟！这个问题在计算上似乎是无法解决的。

这时，计算科学中最优雅的思想之一——伴随状态法（adjoint-state method）——前来救场。这项卓越的技术使我们能够仅用两次数值模拟，就同时计算出整个梯度，即目标函数对所有百万个像素的灵敏度。

这套优美的数学编舞是这样运作的：

正向传播：首先，我们使用当前最佳猜测模型 $m$ 进行一次标准的正演模拟。这为我们提供了每个震源 $s$ 在地下各处的预测波场 $u_s(\mathbf{x}, t)$ 。
伴随源：在接收点位置，我们计算预测数据和观测数据之间的差异。这个残差或误差就是“伴随源”。它代表了我们未能解释的那部分信号。
伴随传播：接下来，我们进行第二次模拟，但有一个转折。我们将伴随源注入到接收点位置，并在时间上反向运行波动方程。这会产生一个“伴随波场” $\lambda_s(\mathbf{x}, t)$ ，它将数据误差从接收点传播回模型中。
梯度：目标函数的梯度结果出人意料地简单。它是正向波场和伴随波场的零延迟互相关，并在所有时间和所有震源上求和。梯度的最终表达式为 $\nabla J(m) = -\sum_s \int_0^T \lambda_s(\mathbf{x}, t) \, \partial_t^2 u_s(\mathbf{x}, t) \, \mathrm{d}t$ 。

从物理上讲，这有一个绝妙的直观解释。正向波场 $u_s$ 基于我们当前的模型“照亮”了结构。伴随波场 $\lambda_s$ 则携带着关于我们预测在何时何地出错的信息。在正向波场的照明和伴随波场反向传播的误差强烈重叠的区域，梯度值会很大。就好像这两个场串通一气，指出了模型中最应该为误差负责的精确位置。整个过程依赖于对一个小的更新步长进行物理上的线性化，这被称为Born近似，即我们假设散射场是由背景波场与模型扰动的相互作用产生的。

驯服野兽：应对复杂地貌的策略

伴随状态法为我们提供了一种有效找到局部下坡方向的方法，但它并不能解决周波跳跃问题。为此，我们需要更巧妙的策略。

其中最强大的策略之一是频率延拓（frequency continuation）。我们不是从完整、复杂的高频信号开始，而是先只反演地震数据的最低频率——即“低音部分”。这些长波长分量会产生一个更平滑、更凸的目标函数地貌，其“山谷”更宽。在我们为低频部分找到一个好的模型后，我们逐渐引入越来越高的频率，并将上一步的结果作为下一步的初始模型。这就像一种同伦方法，引导解沿着从简单问题到复杂问题的路径前进，帮助它停留在正确的吸引盆地中。

此外，我们不应仅仅盲目地沿最速下降方向前进，而是可以采用更复杂的优化算法。拟牛顿法（Quasi-Newton methods），例如流行的L-BFGS算法，更像是聪明的徒步者。它们不仅看坡度，还试图感知山谷的曲率。通过存储过去几步和梯度变化的有限历史，L-BFGS建立了一个廉价的、隐式的地貌形状近似，使其能够朝着最小值迈出更大、更有效的步伐。这些方法的效率通常可以通过计算Hessian向量积（Hessian-vector products）而不仅是梯度来进一步提高，这种计算使用了类似的伴随状态技巧，避免了显式构建庞大的Hessian矩阵的需要。

一种更激进的方法，也是现代研究的前沿，是改变目标函数本身。周波跳跃问题是 $L_2$ misfit的一种病态表现。如果我们用一种对信号振荡特性不敏感的方式来衡量信号之间的差异会怎样？其中一个想法是使用最优输运（Optimal Transport）中的概念，定义一个Wasserstein misfit。该度量衡量了将一个信号的能量分布转换为另一个信号所需的“功”。对于一个简单的时间偏移误差，这个新的目标函数惊人地变成了一个完美的凸抛物线， $J_{\text{W2}}(\tau) = \frac{1}{2}\tau^2$ ，它只有一个最小值！。这种对“两个信号有何不同”的看法的转变，可以从根本上将优化地貌从险峻的山脉重塑为一个平滑、友好的碗。

问题的本质：不适定性

最后，我们有必要退后一步，来体会我们试图完成的任务是何等艰巨。FWI是数学家Jacques Hadamard定义下的一个典型不适定反问题（ill-posed inverse problem）。一个问题如果存在解、解是唯一的、且解连续依赖于数据，那么它就是适定的。FWI在这三条上都不满足。

解的不存在性：因为我们的真实世界数据含有噪声，并且地球的物理规律比我们简单的波动方程更复杂，所以几乎不可能存在一个模型 $m$ 能够完美地再现观测数据。我们能做的最好情况是找到一个最接近的模型。
解的非唯一性：我们的数据从根本上是有限的。我们只在地表或近地表放置震源和接收器，而且我们的震源频率带宽有限。这意味着地下某些部分可能照明不足，一些精细尺度的细节可能无法分辨。因此，不同的地球模型可能产生完全相同的记录数据。正演算子存在一个非平凡的零空间（nullspace）。
解的不稳定性：波的传播是一个平滑过程；模型中的尖锐细节在数据中会被模糊掉。反问题试图恢复这些尖锐细节，是一个“去平滑”的过程。这类过程是出了名的不稳定：数据中微小的噪声可能会被放大成结果图像中巨大而剧烈的振荡。

这种不适定性意味着一个朴素的反演注定会失败。为了找到一个稳定且具有地质意义的解，我们必须引入正则化（regularization）。这包括在我们的目标函数中加入一个惩罚项，该惩罚项偏好“更简单”或“更合理”的模型——例如，平滑的模型，或者具有清晰边界但呈块状以反映地质层理的模型。正则化是我们向算法提供一些先验知识或审美偏好的方式，引导它在无限多不稳定的可能性中挑选出最合理的解。

因此，全波形反演不仅仅是处理数字。它是物理学、优化理论和计算巧思之间优美的相互作用——一项宏大的科学事业，旨在通过逐个波形的分析，让不可见的地球变得可见。

应用与跨学科联系

我们已经花了一些时间来组装全波形反演（FWI）这台精密的机器，它是一个具有深邃数学之美的装置，旨在将来自地球深处的微弱回声转化为一幅连贯的图像。我们已经看到了它的齿轮和杠杆——波动方程、伴随状态法、目标泛函的概念。但是，一台静置在车间里的精美机器仅仅是一座雕塑。真正的乐趣、真正的科学，在于我们启动它，看看它能做什么。它能解决什么问题？它能揭示哪些新世界？也许最令人兴奋的是，在科学宇宙的其他地方，我们还能在哪里找到其设计的影子？

本章，我们将踏上那段旅程。我们将看到FWI的抽象原理如何被调整以应对野外工作和计算的混乱现实。我们会发现，FWI不是一个单一的黑匣子，而是一个蓬勃发展的思想生态系统，它借鉴并贡献于数值优化、计算机科学乃至大气科学等多个领域。在这里，理论焕发了生机。

优化艺术：让机器运转起来

从本质上讲，FWI是一个巨大的优化问题：在近乎无限的可能性中，找到一个能够最好地解释我们记录的地震数据的地球模型。这类似于在一个广阔、雾气弥漫的山脉中寻找最低点，这里的“海拔”就是我们的数据 misfit。我们如何找到方向？我们无法看到整个地貌，但我们可以感觉到脚下的坡度——这就是梯度，而伴随状态法以其优雅的方式提供了梯度。

最简单的策略是始终下坡。但要构建一个真正稳健的勘探工具，我们需要更复杂的技巧。我们必须明智地选择路径。我们是使用一个简单的指南针（如非线性共轭梯度法，NLCG），它内存占用极小；还是携带一张更详细的近期步长地形图（如限制内存的Broyden-Fletcher-Goldfarb-Shanno算法，即L-BFGS）？L-BFGS方法利用历史步长和坡度变化来构建一个更丰富的、多维的局部地形曲率图像。这种“更智能”的记忆使其能够选择更好、更直接的路径到达谷底，通常能更快地收敛。当然，其代价是存储这张地图所需的内存。对于地球物理学中巨大的问题，这种在低内存灵活性和高内存智能之间的选择，是一个关键的设计决策，它将FWI直接与大规模数值优化领域联系起来。

一旦我们选择了一个有希望的方向，另一个问题就出现了：我们应该迈出多大的一步？步子太小会耗费太长时间。步子太大则可能越过山谷，落到另一侧，比我们开始的地方还高。更糟糕的是，评估任何新位置的海拔都非常耗费计算资源——它需要一次完整的波场模拟。我们无法承担检查每一种可能步长的代价。相反，我们需要一种有效的策略。这就是Wolfe条件发挥作用的地方。这两个简单的不等式为“足够好”的步长提供了数学保证。第一个条件确保我们取得足够的下坡进展，防止步子过大。第二个条件则更为微妙，它确保步长足够长，使得坡度有所平缓，这意味着我们已经从地貌的曲率中获得了有用的信息。这个思想的一个常见实际实现是回溯线搜索（backtracking line search），我们从一个乐观的大步长开始，系统地缩小它，直到它“足够好”。这个简单的过程优雅地平衡了快速进展的愿望与每次试验步长的高昂成本。

然而，有时地貌是如此复杂，充满了虚假的山谷（局部极小值），以至于仅仅下坡是不够的。我们需要将我们自己的地质“常识”强加到问题上。例如，我们可能期望地球的地下是由具有清晰边界的独立层组成，而不是一个模糊、连续的介质。我们可以通过正则化将这种期望构建到我们的目标函数中。通过添加一个偏好特定类型模型的惩罚项，我们可以引导反演走向更合理的结果。一种强大的现代技术，借鉴自信号处理和机器学习，是使用 $\ell_1$ 范数惩罚，它能促进稀疏性。这意味着它鼓励模型由少数简单、干净的特征构成。实现这一点的数学工具是邻近算子（proximal operator），在 $\ell_1$ 范数的情况下，它变成了一个简单的“软阈值”函数。在每次迭代中，我们首先迈出一步来减少数据 misfit，然后用软阈值算子“清理”结果，将微小的噪声特征推向零，并保留清晰的边缘。这种梯度下降与邻近算子的结合，使得FWI能够从数据中生成清晰、符合地质现实的图像。

从理想物理到真实地球物理

波动方程纯粹的数学是一回事；真实地震勘测的嘈杂声又是另一回事。FWI艺术的一个关键部分在于弥合这一差距。

首先，我们记录的原始数据是受污染的。震源本身可能有一个复杂的子波特征，海面会产生“鬼波”反射，还有环境噪声。要求我们理想化的FWI机器来解释这些原始数据是不公平且徒劳的。解决方案是仔细的数据预处理。我们对观测数据应用一系列滤波器和算子来去除这些不想要的影响。但这里蕴含着伴随状态法的一个美妙的精妙之处：为了保持公平比较，我们对观测数据应用的每一个操作，也必须在misfit计算中应用于我们的合成数据。此外，梯度计算必须适当地考虑这些操作。伴随状态法自动处理了这一点：每个处理算子的伴随算子会以相反的顺序出现在创建伴随源的流程中。这确保了我们的模型更新始终引导我们朝着与我们定义的“净化”数据空间完全一致的方向前进。

另一个实际的难题是，我们通常不知道地震震源的确切“声音”——即震源子波。同时反演地球模型和震源子波是一个更难的问题。一个非常优雅的解决方案是变投影法（variable-projection method）。对于任何给定的地球模型 $m$ ，预测数据对震源子波 $w$ 的依赖性是线性的。这意味着我们可以解析地求解出最佳的子波。从几何上看，这等同于找到观测数据在由模拟响应张成的直线上的正交投影。Misfit则是数据中剩余部分的长度——即与最佳拟合响应正交的部分。通过以这种方式重新表述问题，我们实际上是要求反演找到一个地球模型，其预测响应的“形状”与数据最相似，而不管绝对振幅和相位如何。这不仅消除了知道震源的必要性，而且还使目标函数地貌更平滑，更不容易发生周波跳跃，因为它在每一步都自动为我们对齐了数据的相位。

然而，最大的挑战来自地球本身。我们简单的线性近似（高斯-牛顿等方法的基础）假设波场仅对模型的微小变化做出微弱响应。当遇到具有极高速度差的特征，如巨大的地下盐体时，这个假设会灾难性地失效。这些盐体像扭曲的镜子一样，产生复杂的、多次散射的波，而我们的线性近似完全忽略了这些波。在这里尝试使用标准方法，就像试图通过只看一次扭曲的反射来猜测一个哈哈镜的形状——我们采取的步骤通常是无意义的。

为了解决这个问题，我们必须更有创造力。一种方法是借鉴稳健统计学，认识到我们数据残差中最大的部分通常对应于这些高度非线性、模型化得很差的波路径。通过重加权目标函数来降低这些大误差的影响，我们可以迫使反演专注于它当前能够解释的数据部分，从而稳定整个过程。一个更激进且更强大的想法是完全改变问题。我们不再问“每个像素的速度是多少？”，而是可以使用水平集参数化（level-set parameterization）并问：“盐体的边界在哪里？”。这将问题重新定义为形状优化问题。通过直接更新盐体的几何形状，我们处理的是非线性的真正主导来源，从而在这些地质上至关重要的环境中实现更稳健、更可靠的收敛。

计算望远镜：为发现而工程

一个真实的FWI问题的规模之大令人咋舌。一个三维模型可以有数十亿个参数，每次迭代都需要多次求解波动方程。要使其可行，不仅仅是拥有一台大型计算机的问题；它需要与计算机科学和高性能计算（HPC）的深度结合。

考虑我们在优化算法中使用的矩阵，例如高斯-牛顿法中的近似Hessian矩阵。这些矩阵大得惊人，但由于波的相互作用是局部的，它们也绝大多数是空的——它们是稀疏的。我们不可能将它们存储为稠密数组。相反，我们必须使用只存储非零元素的巧妙数据结构。此外，波传播的物理特性赋予了这些矩阵特定的块结构；例如，一个网格点上的三个弹性参数（ $v_p$ , $v_s$ , $\rho$ ）与相邻点的参数耦合。我们可以设计专门的存储格式，如分块压缩稀疏行（BCSR）格式，来利用这种物理结构。通过将小的、稠密的 $3 \times 3$ 参数耦合块打包在一起，我们创建了一种完全为现代处理器架构量身定制的数据布局，最大限度地减少了内存和计算周期的浪费。这是计算工程的精髓，其中对物理的理解直接指导了高效算法的设计。

为了在超级计算机上使用数千个处理器，我们采用一种“分而治之”的策略，称为区域分解（domain decomposition）。我们将模型的大地理区域分解成数千个较小的子区域，将每个子区域分配给一个处理器，并让它们并行工作。然而，波必须能够无缝地穿过我们创建的人为边界。这需要处理器之间的通信，以及一个保持全局解一致的特殊“粗”网格求解。这里存在一个微妙的权衡：使用更多的子区域可以实现更高的并行度，但也会增加通信和粗网格求解的成本。我们可以构建一个详细的性能模型，将物理参数（如波的频率）与算法参数（如求解器迭代次数）和并行设置（如子区域数量）联系起来。这个模型使我们能够提出一个属于其自身的优化问题：在给定的HPC预算和科学目标下，配置我们整个FWI工作流程的最佳方式是什么？这将地球物理学与并行算法和运筹学领域联系起来，使FWI的执行本身成为一门科学。

一种通用语言：无处不在的FWI

也许我们能建立的最深刻的联系是认识到FWI的基本思想——通过将模拟波与观测波相匹配来推断物体属性——是一个普适的概念。它出现在许多其他科学分支中，尽管物理“风味”不同。

考虑大气遥感问题，科学家试图通过测量穿过大气的不同光谱的光来确定大气的成分（例如温室气体的浓度）。在这里，主导物理学不是波动方程，而是Beer-Lambert辐射传输定律。模型参数是吸收系数，数据是卫星测量的辐射率。然而，如果我们建立一个最小二乘反问题来寻找这些参数，我们可以使用完全相同的数学工具：高斯-牛顿法。

通过推导这个大气问题的Hessian矩阵，我们发现了一些有趣的事情。因为不同光谱通道的Beer-Lambert定律是解耦的（一个通道的吸收不影响另一个），所以得到的Hessian矩阵是一个简单的对角矩阵。这告诉我们可以独立地估计每个吸收系数。相比之下，在地震FWI中，参数通过波动方程错综复杂地耦合在一起，导致一个稠密的、块结构的Hessian矩阵，充满了代表“串扰”的非对角项。看到相同的数学框架，纯粹作为底层物理的反映，产生如此不同的结构，这提供了一种深刻的直觉。它表明，FWI是一种用于通过间接测量来探究世界的通用语言中的一种特定方言。这种语言也用于医学成像、材料的无损检测以及无数其他领域。

因此，全波形反演远不止是地球物理学的一个专门工具。它是物理学、数学和计算的宏大交汇，是我们利用抽象原理锻造强大发现工具能力的证明。它的挑战推动了优化和高性能计算的极限，它的成功不仅提供了地球的图像，也为我们提供了一个窗口，让我们看到一种强大而统一的思考自然世界的方式。