基于梯度的方法

玻尔百科

定义

基于梯度的方法是利用函数负梯度作为方向向量，在复杂景观中迭代寻找局部极小值的优化技术。此类方法广泛应用于药理学模型拟合及物理信息神经网络（PINNs）等人工智能训练领域，是现代计算科学的基础。为了解决收敛缓慢或非连续函数等挑战，该方法常结合动量加速、次梯度、多点启动以及盆地跳跃等策略来优化性能并避开局部陷阱。

核心要点

基于梯度的方法使用函数的负梯度（类似于物理中的力），通过迭代在一个复杂的景观中寻找局部最小值。
动量法、Nesterov 加速和线搜索等技术解决了基本梯度下降固有的收敛缓慢和振荡等挑战。
平滑、次梯度、多起点方法和盆地跳跃等策略被用来处理不可微函数和逃离局部最小值陷阱。
这些方法是多个领域的基础，为从药理学中的模型拟合到训练像物理信息神经网络（PINNs）这样的复杂人工智能等各种应用提供动力。

引言

在无数的科学技术挑战中，目标都是找到“最佳”解决方案——最低的能量状态、最小的误差或最优的设计。这种搜寻常常在广阔、复杂、高维的景观中进行，而全局最优解就隐藏其中。当我们只能看到眼前周遭的环境时，我们如何有效地穿越这片地形呢？本文探讨了功能强大的基于梯度的方法家族，它们通过迭代地沿着最陡下降方向前进，为这种搜寻提供了一个通用的指南针。我们将首先在“原理与机制”一章中探索这些方法的基础，从“走下坡路”的直观想法到那些增加动量、处理崎岖景观和寻求全局解的复杂算法。随后，我们将在“应用与跨学科联系”一章中考察这些技术的深远影响，展示它们如何在从计算化学和材料科学到现代人工智能核心的各个领域中，充当发现的引擎。让我们从理解引导这场旅程的力量——梯度——开始。

原理与机制

想象一下，你正站在一片广阔丘陵地带的浓雾中，你的目标是找到最低点。你看不见整个景观，但你能感觉到脚下地面的坡度。你的策略是什么？最自然的方法是朝着地面倾斜最陡的方向迈出一步。你一步一步地重复这个过程，总是选择最陡的下坡路径。这个简单直观的想法正是基于梯度优化的核心。“地形”在数学家和计算机科学家口中被称为“损失景观”或“势能面”，而“最陡的下坡方向”则由“梯度”的负值给出。

作为引导力的梯度

在物理世界中，这不仅仅是一个类比，而是一项基本原则。考虑一个分子，它只是由化学键维系在一起的一组原子。系统的总势能 $U$ 取决于其所有原子的位置 $\mathbf{r}$ 。自然界在其趋向稳定的倾向中，试图使这种能量最小化。作用在任何一个原子 $i$ 上的力 $\mathbf{F}_i$ 正是势能相对于该原子位置的负梯度： $\mathbf{F}_i = -\nabla_{\mathbf{r}_i} U(\mathbf{r})$ 。

这是一个优美而深刻的联系。能量极小点，即稳定平衡点，是每个原子上净力为零的构型。从数学上讲，这意味着势能的梯度处处为零。因此，寻找分子最稳定结构的任务，等同于在其势能面上寻找一个极小点。我们“走下坡路”的策略，现在被描述为让原子沿着作用在它们身上的力的方向移动，变成了一个物理上的能量最小化过程。梯度不仅仅是一个数学构造；它是引导系统走向平衡的力。

朴素的探索者：千里之行

体现这一思想的最简单算法称为“梯度下降”。在每次迭代 $k$ 中，我们通过在负梯度方向上迈出一小步来更新我们的位置（我们正在优化的参数集，用向量 $\mathbf{x}$ 表示）：

\mathbf{x}_{k+1} = \mathbf{x}_k - \alpha \nabla f(\mathbf{x}_k)

在这里， $f(\mathbf{x})$ 是我们想要最小化的函数（我们的“景观”）， $\nabla f(\mathbf{x}_k)$ 是我们当前位置的梯度，而 $\alpha$ 是一个小的正数，称为“学习率”或“步长”，它决定了我们迈出步子的大小。

然而，这个简单的规则立即给我们带来了两个关键挑战。

首先，我们的步子应该迈多大？一个微小的 $\alpha$ 意味着我们将缓慢地爬向最小值，可能需要天文数字般的步数。一个大的 $\alpha$ 则可能导致我们完全越过最小值，落到山谷的另一边，甚至可能比我们开始的地方还要高。这可能导致剧烈的振荡和无法收敛。 $\alpha$ 的选择是一门精巧的艺术。

在复杂的应用中，我们不只是猜测一个固定的 $\alpha$ 。我们在每一步都进行“线搜索”。也就是说，一旦我们有了下坡方向 $-\nabla f(\mathbf{x}_k)$ ，我们就试图沿着那条线找到最佳的步长。一次“精确线搜索”会找到能完美地最小化该方向上函数的 $\alpha$ 。然而，这通常是我们无法承受的奢侈。在像地球物理学中的全波形反演这样复杂的问题中，单次函数评估就需要求解一个庞大的偏微分方程组，执行精确线搜索所需的多次评估在计算上是成本过高的。取而代之的是，我们采用“非精确线搜索”，使用像“Armijo 条件”这样的准则来确保我们取得“充分的进展”，而不用花费太多时间去寻找完美的步长。这是在最优性和实用性之间的经典工程权衡。

第二个更根本的挑战是，我们对景观的局部视野可能具有欺骗性。梯度只告诉我们眼前附近的情况。我们的下坡行走将引导我们到达遇到的第一个山谷的底部，但它没有提供任何关于地图上其他地方是否存在更深的山谷——即真正的全局最小值——的信息。这就是“局部最小值”问题。

一个来自化学领域的优美实例是正丁烷分子。它可以以几种稳定的形状或构象异构体存在。能量最低的形状是 anti 构象异构体。然而，还存在一个能量稍高但仍然稳定的 gauche 构象异构体。这两个极小值被一个能垒隔开。如果我们从一个接近 gauche 构象异构体的结构开始一个几何优化算法，它会忠实地走下坡路并稳定在那个局部最小值。它永远不会知道能量更低的 anti 构象异构体的存在，因为要到达那里，它必须首先“爬上”能垒，这违反了梯度下降的规则。所有路径都通往特定极小值的区域被称为其“吸引盆”。我们的局部优化被困在其起点的吸引盆内。

滚石不生苔，动量破难关

如果你观察一个球滚下崎岖蜿蜒的山谷，你会注意到它不只是沿着最陡的局部路径前进。它有惯性。它在下坡时积累速度，并可以利用这股动量来平滑路径，避免卡在小坑里，并冲过山谷中平缓的部分。我们可以给我们的优化算法赋予同样的物理直觉。

这就引出了“动量法”。步长的确定不再仅仅由当前梯度决定，还受到上一步方向的影响。我们引入一个“速度”向量 $\mathbf{v}$ ，它是过去梯度的指数衰减移动平均值。更新规则现在看起来是这样的：

\mathbf{v}_t = \beta \mathbf{v}_{t-1} + \alpha \nabla f(\mathbf{x}_{t-1})

\mathbf{x}_t = \mathbf{x}_{t-1} - \mathbf{v}_t

在这里， $\beta$ 是一个动量系数，通常是一个像 0.9 这样的数字，它决定了保留多少过去的速度。这个小小的改变带来了显著的效果。在那些梯度下降会浪费地从一侧壁 zigzag（之字形）摆动到另一侧壁的狭长山谷中，动量项会平均掉垂直方向的振荡，并加速沿谷底的搜索。

对这个想法的一个巧妙改进是“Nesterov 加速梯度 (NAG)”。标准动量法计算你当前位置 $\mathbf{x}_{t-1}$ 的梯度，然后将其加到旧的速度上。NAG 的做法更微妙。它首先沿着旧速度的方向迈出一步，到达一个临时的“前瞻”点 $\mathbf{x}_{t-1} - \beta \mathbf{v}_{t-1}$ 。然后它计算在这个未来点的梯度，来修正其速度。这就像一个滚下山坡的人，预见到前方的弯道，并在到达之前提前开始刹车或轻微转向。这种预见性的修正有助于防止超调，并使算法更稳定，通常也更快。

穿越崎岖世界：扭结、悬崖和次梯度

到目前为止，我们一直假设我们的景观是平滑的，就像连绵起伏的山丘。但如果它有尖锐的“扭结”或梯度没有唯一定义的悬崖呢？这种不可微函数并非数学上的怪胎；它们在现代机器学习和工程学中无处不在。

考虑固体力学中的“Tresca 屈服准则”，它预测材料何时会开始塑性变形。其数学表示具有尖锐的脊线，在这些地方梯度不是唯一的。在这样的点上，没有一个单一的“最陡下降”方向，而是一整套方向。在不可微点处所有可能的梯度集合被称为“次梯度”。那些需要单一、唯一梯度的算法，比如经典的牛顿法，在遇到这些扭结时，可能会失去其快速收敛性，甚至完全失效。

我们如何应对？一个强大的策略是“平滑”。如果景观过于崎岖，我们可以在上面铺上一层“光滑的地毯”。一个经典的例子是“Hinge Loss (合页损失)”函数， $\ell(u) = \max\{0, 1-u\}$ ，广泛用于支持向量机。它在 $u=1$ 处有一个尖锐的扭结。我们可以创建一个平滑版本，比如“Huber 损失”，用一小段二次曲线替换这个尖点。这个新函数处处平滑，并具有明确定义的梯度，允许标准算法工作。然而，这里存在一个权衡：如果为了紧密逼近原始扭结而使平滑区域变得非常小，梯度就必须转得非常急，从而产生高曲率。这可能迫使我们使用更小的步长来维持稳定性。这种平滑不可微函数以使其适用于基于梯度的优化的思想是一种通用而强大的技巧，也用于像图像处理中的“全变分正则化”等技术中。

平滑的微妙之处

人们可能认为，只要一个函数处处可微，我们基于梯度的方法就是安全的。但世界比这更微妙。考虑函数 $g(t) = t^2\sin(1/t)$ （其中 $g(0)=0$ ）。这是分析学中的一个经典例子，它处处可微，甚至在 $t=0$ 处也是。然而，它的导数 $g'(t)$ 随着 $t$ 趋近于零而振荡得越来越剧烈。导数在 $t=0$ 处存在，但在那里不连续。

这为什么重要？梯度下降的许多收敛性保证都依赖于梯度不仅是连续的，而且是“Lipschitz 连续”的。这是一种数学上的说法，意思是函数的斜率不会无限快地变化。如果二阶导数有界，梯度就是 Lipschitz 的。这个性质使我们能够对函数的变化设置一个严格的上限，确保我们的步长是可预测的。当梯度不是 Lipschitz 的时候，景观在微观尺度上可能是病态的崎岖，优化器可能会偏离轨道，从而破坏稳定收敛的保证。可微性为你提供了一张地图，但 Lipschitz 梯度确保了这张地图不是画在橡胶片上的。

伟大的逃脱：寻求全局最优

我们现在装备了先进的局部搜索算法，比如 L-BFGS（一种巧妙的、可近似曲率信息的拟牛顿法），它们能有效地使用梯度并迅速收敛到一个局部最小值。但我们仍然被最初的问题所困扰：我们如何逃离局部最小值的陷阱，找到真正的全局最小值？

由于我们的局部优化器对其山谷之外的世界根本是盲目的，我们需要一个全局策略来引导它。最简单的是“多起点”方法。我们不只是在一个随机点开始我们的探索者；我们在地图上空降一整支军队。每个探索者都执行自己的局部梯度下降。最后，我们只需比较所有探索者的最终高度，并宣布最低的那个为获胜者。如果你开始足够多的探索者，你很有可能至少有一个会降落在全局最小值的吸引盆中 [@problem_t_id:2894237]。

一个更优雅的策略是“盆地跳跃”。我们不再进行独立的搜索，而是进行单一、更智能的搜索。我们首先运行一个局部优化来找到一个最小值。然后，我们向景观中的一个新点进行一次大的、随机的跳跃。从这个新点，我们运行另一个局部优化，它会迅速找到我们降落的任何新山谷的底部。现在我们将这个新最小值的能量与前一个进行比较。如果它更低，我们就接受这次移动。如果它更高，我们可能仍以某个由“温度”参数控制的小概率接受它。这使得搜索偶尔能够爬上坡，从而“跳过”分隔山谷的障碍。通过将搜索从景观上的连续行走转变为谷底之间的离散跳跃，盆地跳跃可以更有效地探索地形，并有更好的机会发现全局最小值。

优化的旅程，从一个简单的下坡步骤到这些复杂的全局搜索策略，是人类智慧的证明。从一个力将我们拉向最小值的简单物理直觉开始，我们构建了强大的算法。通过认识到它们的局限性——它们的局部盲目性、对步长的敏感性、以及对崎岖景观的挣扎——我们发明了巧妙的修正方法：动量、线搜索、平滑和全局探索启发式方法。这是一个将雾中盲走转变为对广阔复杂世界的引导性探索的故事。

应用与跨学科联系

在探索了如何在数学曲面上“走下坡路”以找到其最低点的优雅机制之后，我们现在将目光从抽象的原理转向我们周围的世界。这个看似简单的“沿着梯度走”的想法究竟将我们带向何方？事实证明，答案是：几乎无处不在。基于梯度的方法的力量不在于其复杂性，而在于其深刻的普适性。它们是惊人数量的科学发现和技术奇迹背后的主力，在极其复杂的景观中充当寻找“最佳”答案的通用指南针。让我们踏上一段旅程，穿越一些这些多样而迷人的领域。

世界即模型：从数据到理解

或许，基于梯度优化最直观的应用是在模型拟合的艺术中。科学的进步是通过创建世界的模型——即描述事物行为的数学描述——然后用观测来检验它们。但是，我们如何找到最能描述我们数据的模型的具体版本呢？我们求助于梯度。

想象一位药理学家正在研究一种新药在人体内的行为。他们收集数据，在给药后的不同时间点测量患者血浆中的药物浓度。理论提供了一个模型，比如 Bateman 函数，它基于两个关键参数——吸收速率 $k_a$ 和消除速率 $k_e$ ——来描述这条浓度曲线。问题在于找到 $k_a$ 和 $k_e$ 的值，使得理论曲线与实验数据点尽可能匹配。

在这里，我们可以构建一个“景观”，其中任何一点 $(k_a, k_e)$ 的高度代表了总误差——比如，我们模型的预测与真实测量值之间的平方差之和。要找到最佳拟合参数，我们只需找到这个误差景观中的最低点。一个基于梯度的算法正是这样做的。它从 $(k_a, k_e)$ 的一个初始猜测开始，计算梯度，梯度告诉它误差最陡峭的上升方向。通过向相反方向迈出一小步，它修正了对 $k_a$ 和 $k_e$ 的估计以减少误差。它迭代地重复这个过程，走下坡路，直到在山谷底部稳定下来，从而揭示了药物的基本动力学特性。

同样的原理远远超出了医学领域。一位材料科学家分析一种新合成的粉末，使用 X 射线衍射来探究其原子结构。得到的数据是一个峰图，每个峰对应一个特定的晶面。这些峰的形状、位置和强度可以用数学函数（如高斯函数）来建模，这些函数的参数与材料的晶格结构和成分相关。通过定义一个成本函数来衡量完整实验图谱与由这些峰构建的模型之间的不匹配程度，科学家可以再次使用基于梯度的方法来找到最小化这种不匹配的参数。最终的参数不仅仅给出了最佳拟合曲线；它们揭示了对材料原子结构的深刻理解。无论是在药物还是晶体中，我们都看到了同样优美的思想在起作用：优化将原始数据转化为科学洞见。

现代人工智能的引擎

如果说模型拟合是梯度下降的经典应用，那么人工智能就是其现代的殿堂。过去几十年来机器学习和人工智能领域的惊人进展，在很大程度上，正是这一算法力量的证明。

考虑一个任务：根据传感器数据预测一个特定事件在城市中的发生位置。一个简单的线性模型可能不足以胜任，因为事件的概率可能随着空间坐标以复杂的、非线性的方式变化。我们可以通过使用更复杂函数的组合，比如样条函数，来描述位置，从而给我们的模型更大的灵活性。模型对位置 $x$ 处概率 $p$ 的预测可能看起来像 $p(x) = \sigma(\sum_j \beta_j \phi_j(x))$ ，其中 $\phi_j(x)$ 是我们的样条基函数， $\beta_j$ 是它们的权重。“学习”过程在于找到一组权重 $\beta_j$ ，使得观察到实际数据的概率（或“似然”）最大化。

这个似然函数创造了另一个景观，这次是在所有可能权重 $\beta$ 的高维空间中。再一次，梯度是我们的向导。通过计算似然相对于每个权重的导数，我们找到了调整权重以改进我们模型的方向。这个被称为逻辑回归的特定问题的非凡之处在于，其景观保证是一个单一的“碗”（一个凹函数）。这意味着我们的下坡行走保证能带领我们找到那个独一无二的最佳答案。

这个基本过程——使用梯度调整模型的内部参数以最小化预测误差或最大化似然——几乎是所有现代神经网络跳动的心脏。“参数”是网络中数百万或数十亿的权重，而“景观”是维度极高的损失曲面。其核心算法保持不变：计算梯度，迈出一步，然后重复。

对此的一个壮观的现代变种是物理信息神经网络 (PINNs) 的兴起。在这里，我们训练一个神经网络，不仅要匹配实验数据，还要遵守以偏微分方程 (PDEs) 表达的基本物理定律。损失函数是混合的：它包含一个数据不匹配项，还有一个惩罚任何违反控制性 PDE 的项。当我们使用梯度下降来最小化这个复合损失时，我们正迫使神经网络找到一个既与观测一致又与物理定律相符的解。这代表了数据驱动学习和第一性原理建模的深刻融合，使我们能够解决地质力学、流体动力学等领域的复杂工程问题，而所有这一切都由“沿着梯度走”这个简单的行为所驱动。

穿越崎岖景观：鞍点、峰顶与博弈

到目前为止，我们的旅程一直是在宜人的山谷中漫步。但科学中许多最有趣的问题并非是寻找最低点。景观更加崎岖，我们的目标也更加微妙。

在计算化学中，我们常常不仅想了解稳定的分子，还想了解将一个分子转化为另一个分子的反应。一个稳定的分子对应于势能面上的一个山谷——一个局部最小值。一个化学反应则对应于连接两个这样山谷的最低能量路径。这条路径的瓶颈是“过渡态”，它不是一个山谷，而是一个山口——一个鞍点。它在除了一个方向外的所有方向上都是最小值，而沿着那个方向它却是最大值。

如果我们从靠近过渡态的一点天真地应用梯度下降，我们不可避免地会从它那里滚开，滚入相邻的山谷之一。负梯度总是指向下坡。这揭示了一个关键的局限性：简单的梯度下降只能找到最小值。寻找鞍点需要更复杂的算法，这些算法足够聪明，能够在不稳定的方向上“攀登”，同时在所有其他方向上“下降”。对反应路径的搜索迫使我们对优化景观有更细致的理解。

在设计问题中，挑战变得更大，例如设计一种具有特定属性的超材料，比如能够阻挡特定频率波的“带隙”。在这里，目标是通过调整材料的晶胞几何结构来最大化这个带隙的宽度。“带隙宽度对几何参数”的景观是出了名的复杂和非凸，像一个有许多山峰的山脉。一个标准的基于梯度的方法（在这种情况下是梯度上升）会勤奋地攀登最近的山丘，但它无法知道自己是到达了山脉的珠穆朗玛峰，还是仅仅是一个当地的小山丘。这种困境凸显了局部最优和全局最优之间的区别，并解释了为什么科学家们也采用全局搜索策略，如遗传算法，它们撒下更广的网，以期找到真正的最高峰。

在训练生成对抗网络 (GANs) 时，情况达到了复杂性的顶峰。GANs 是那些能创造出惊人逼真的假图像、音乐和文本的模型。训练一个 GAN 不是一个简单的优化问题，而是一个双人博弈。一个“生成器”网络试图创造假数据，而一个“判别器”网络试图区分假数据和真实数据。生成器想要最小化判别器的成功率，而判别器则想要最大化它。它们被锁定在一个极小化极大博弈中，每个玩家都通过在被另一个玩家不断重塑的景观上进行梯度步进来调整其策略。经典的收敛保证完全失效。系统可能进入循环，或者一个玩家可能压倒另一个玩家，导致“模式崩溃”。分析和稳定这些动态需要博弈论和动力系统的工具，寻找的不是一个简单的最小值，而是一个稳定的博弈状态，一个局部纳什均衡。

问题的形状：流形上的优化

我们的旅程一直假设我们优化的参数可以存在于一个简单的、平坦的欧几里得空间中的任何地方。但是，当有效参数必须满足严格的几何约束时会发生什么呢？想象一颗卫星，其姿态由一个旋转矩阵描述。为了找到最佳姿态，我们不能仅仅自由地调整矩阵的九个元素，因为一个小的、任意的改变很可能会产生一个不再代表纯粹旋转的矩阵。

一个优美的例子出现在量子化学的轨道定域化过程中。量子力学的基本方程常常得到遍布整个分子的离域分子轨道，这在数学上是正确的，但在化学上却不直观。为了获得与化学家关于键和孤对电子概念一致的图像，我们可以对这些轨道进行一次“旋转”。这种旋转不改变总能量或任何物理可观测量，但可以选择它来最大化一个“定域化”准则。关键在于，这种变换必须保持轨道的正交归一性。

所有这类保持正交归一性的变换集合构成一个特殊的数学对象，称为酉群 $U(n_{\text{occ}})$ 。这不是一个平坦的空间，而是一个弯曲的流形。采取一个标准的梯度步骤会“掉下”流形，违反正交归一性约束。解决方案是拥抱几何学。在这个被称为“流形上的优化”的框架中，我们首先计算欧几里得梯度，然后找到它在我们当前位置的流形切空间上的投影——这给了我们最佳的“可行”方向。然后，我们使用一个特殊的更新规则，如指数映射，它在曲面上就像一条“直线”，来迈出一步，保证我们停留在流形上。这种方法，在我们在 PINNs 中强制执行硬物理约束时也含蓄地在起作用，代表了基于梯度的方法对具有丰富几何结构问题的深刻而优雅的推广。

了解局限

尽管梯度功能强大，但它并非万灵药。一个明智的科学家了解他们工具的局限性。考虑一家公司要从一组有限的、预先批准的地块中决定在哪里建造新工厂。这是一个离散优化问题。位置之间没有连续的“景观”，因此没有梯度可以遵循。试图在这里应用基于梯度的方法，就像试图在一组不相连的岛屿上滑雪；“坡度”的概念是无意义的。这类问题属于组合优化或整数优化的领域，需要完全不同的算法工具。

此外，即使在连续域中，如果景观不平滑，我们的道路也可能充满危险。在分子建模中，某些能量项，如用于隐式溶剂化的能量项，可能具有尖锐的扭结或不连续的导数。这些非解析点就像悬崖或斜率的瞬时变化，会使简单的基于梯度的优化器感到困惑，导致其减速或失败。这促进了巧妙变通方法的发展，例如用平滑的近似函数替换崎岖的函数，或使用对尖锐特征不那么敏感的更稳健的优化方案。

通用指南针

我们的旅程即将结束。我们已经看到，这个朴素的梯度引导我们穿越了难以置信的多样化科学景观。它通过将模型与数据拟合，帮助我们解读新药和新材料的特性。它是驱动机器学习的引擎，从简单的分类器到学习物理定律的神经网络。它已被改造以导航化学反应路径、工程设计和对抗性博弈的险恶地形。并且它已被推广到沿着约束几何空间的优雅曲线上行走。

“沿着最陡峭的斜坡走”这个简单的指令，可以说是整个计算科学中最强大和富有成果的思想之一。正是它的局限性推动我们发展了更深的数学理论和更稳健的算法。在一个充满复杂问题的宇宙中，梯度仍然是我们最忠实的指南针，不懈地指明通往更好答案、更深理解和新发现的道路。