动量方法

玻尔百科

定义

动量方法是通过使用历史梯度的指数加权平均值来加速梯度下降的优化技术，旨在加快收敛速度并抑制震荡。该方法中的重球法是二次问题中共轭梯度法的一种简化形式，建立了机器学习启发式算法与经典数值代数之间的联系。动量方法不仅是 Adam 等自适应优化器的核心，还构成了优化与统计采样（如哈密顿蒙特卡洛）之间的理论桥梁。

核心要点

动量方法通过使用过去梯度的指数加权平均来加速梯度下降，从而在平缓方向上加速收敛，并在陡峭方向上抑制振荡。
重球动量法本质上是可证明最优的共轭梯度（CG）法在二次问题上的简化版本，它将机器学习的启发式方法与经典数值代数联系起来。
像 Adam 这样的自适应优化器通过使用梯度的二阶矩来归一化更新，从而增强了标准动量，有效地为每个参数创建了自适应学习率。
动量概念为优化和统计采样之间提供了一座统一的桥梁：在物理模拟中加入摩擦项会产生一个优化器，而移除它则会产生一个采样器（哈密顿蒙特卡洛）。

引言

在从机器学习到物理学的各个领域中，寻找复杂函数的最小值是一个核心问题。虽然梯度下降（总是沿着最陡峭的下降方向前进）这一标准方法很直观，但在实践中常常举步维艰，会陷入狭窄山谷中低效的“之”字形移动模式。本文通过探索动量这一强大概念来解决这个根本性限制。动量是一个受物理惯性启发的简单而深刻的想法，它能显著加速优化过程。

本文的结构旨在让读者全面理解动量方法。第一章“原理与机制”将解构其核心思想，从一个重球滚下丘陵地貌的物理类比开始。我们将深入探讨重球法的数学原理，了解它如何抑制振荡，并揭示其与最优共轭梯度法之间惊人而优雅的联系，然后会审视像 Adam 这样的现代自适应变体。接下来，“应用与跨学科联系”一章将展示这些方法的实际应用，讨论它们如何集成到解决复杂问题的高级算法中、超参数调整的实践艺术，以及将优化与统计物理和采样原理联系起来的深刻理论统一性。读完本文，您不仅会理解动量方法的工作原理，还将领会其作为贯穿计算科学的统一概念所扮演的角色。

原理与机制

想象一下，你正试图在一片广阔、被浓雾覆盖的山脉中找到最低点。你只能感觉到脚下地面的坡度。最简单的策略是始终朝着最陡峭的下坡方向迈出一步。这就是梯度下降算法的本质。虽然这是一个好的开始，但这种简单的方法可能效率低得令人抓狂。如果你发现自己身处一个狭长的峡谷中，你将浪费大部分精力在陡峭的峭壁之间来回穿梭，而在峡谷底部的前进却十分缓慢。我们怎样才能做得更好呢？答案在于一个极其简单的物理思想：动量。

在丘陵地貌上滚动的球

不要只想着行走，想象你是一个滚下山坡的重球。球不会瞬间停止并改变方向。它有惯性。它在下坡时会积累速度，其动量会带着它越过小颠簸，并帮助它冲过平坦区域。这种物理直觉正是优化中动量方法的核心。

这不仅仅是一个松散的类比。在物理学中，模拟行星或粒子运动的方法通常将位置和动量视为相互交织但又截然不同的量。一个绝佳的例子是蛙跳积分法，也称为 Störmer-Verlet 方法。为了模拟一个粒子的路径，你不会在完全相同的瞬间计算它的新位置和新速度。相反，你会以交错的方式更新它们，相互“蛙跳”式前进。首先，你使用当前位置计算力，这会给你一个“踢力”，用于在小时间步长 $\Delta t$ 内更新动量。然后，你使用这个新的动量滑行到一个新位置。

在这个模拟的任何给定时刻，最新计算的位置和动量并非来自同一时间点；它们通常会有一个半个时间步长 $\frac{\Delta t}{2}$ 的偏移。这种交错更新方案非常稳定，并且能在长时间模拟中保持能量等物理量守恒。就好像宇宙本身也明白将动量纳入循环的力量。我们可以借鉴这个强大的思想，来寻找函数的最小值。

重球法：驯服“之”字形移动

让我们将滚动的球转化为数学。由 Boris Polyak 首创的“重球法”，通过增加对前一次更新的记忆来增强简单的梯度下降步骤。更新规则如下：我们计算一个“速度”向量 $\mathbf{v}_t$ ，它是前一次速度和新梯度的混合。

$\mathbf{v}_{t+1} = \beta \mathbf{v}_t - \alpha \nabla f(\theta_t)$

$\theta_{t+1} = \theta_t + \mathbf{v}_{t+1}$

这里， $\theta_t$ 是我们在步骤 $t$ 的位置（模型参数）， $\nabla f(\theta_t)$ 是陡峭程度（梯度）， $\alpha$ 是学习率（我们迈出的步子有多大），而 $\beta$ 是至关重要的动量系数。 $\beta \mathbf{v}_t$ 项是来自上一步的“惯性”。它是过去梯度的指数加权移动平均。当 $\beta$ 接近 1 时，我们有一个惯性很大的重球；当 $\beta$ 为 0 时，我们就回到了简单的梯度下降。

那么，这如何驯服我们在狭窄峡谷中的“之”字形移动呢？让我们考虑一个形状像拉长碗的地貌，由二次函数 $f(\theta) = \frac{1}{2}(\lambda_1 \theta_1^2 + \lambda_2 \theta_2^2)$ 描述，其中一个方向的曲率非常平缓（ $\lambda_1$ 很小），而另一个方向的曲率非常陡峭（ $\lambda_2$ 很大）。这被称为病态问题。

在平缓方向上的加速：沿着峡谷底部平缓的斜坡，梯度一直很小，但始终指向同一个方向。动量项一步步地累积这些微小而稳定的推动力。就像一系列小小的推力能让一个重物快速移动一样，动量沿着低曲率轴加速了下降过程。球获得速度，并以比简单梯度跟随者快得多的速度冲下谷底。
在陡峭方向上的阻尼振荡：在陡峭的峡谷壁上，梯度很大，但每一步都会改变符号。这一刻它指向左边，下一刻又急转向右。对于简单的梯度下降，这会导致剧烈的振荡。但对于重球法，动量项平均了这些相反的梯度。这一步的“向左推”被上一步的“向右推”部分抵消了。这起到了很好的阻尼效果，平滑了振荡，防止球浪费能量去攀爬峡谷壁。

其效果不仅仅是微小的调整，而是戏剧性的。在一个典型的病态问题上直接比较，仅仅几步之内，加入动量所带来的收敛路径可能比最速下降法高效数百倍。

隐藏的天才：作为最优动量的共轭梯度法

在很长一段时间里，动量法被认为是一种聪明但启发式的技巧。真正惊人的发现是，这个简单的“重球”思想与数值数学中最优雅、最强大的算法之一——共轭梯度（CG）法——有着深刻的联系。

CG 法最初是为了求解大型线性方程组 $A\mathbf{x} = \mathbf{b}$ 而设计的，其中 $A$ 是一个对称正定矩阵。这等价于找到二次函数 $f(\mathbf{x}) = \frac{1}{2}\mathbf{x}^T A \mathbf{x} - \mathbf{b}^T \mathbf{x}$ 的最小值。CG 的标准算法看起来相当复杂，涉及一系列残差和搜索方向，这些方向被构造成相互“A-正交”。它第一眼看上去并不像一种动量方法。

然而，通过一些代数重排，标准的 CG 算法可以被改写成一种惊人熟悉的形式。对于任何步骤 $k \ge 1$ ，更新可以表示为一个三项递推关系：

$x_{k+1} = x_k + \omega_k r_k + \mu_k(x_k - x_{k-1})$

这正是重球法的形式！ $r_k = b - Ax_k$ 项与负梯度成正比，而 $(x_k - x_{k-1})$ 项代表了前一步——我们的动量。CG 法的魔力在于它不使用固定的常数作为学习率（ $\omega_k$ ）和动量（ $\mu_k$ ）。相反，它在每一步都根据问题的几何结构计算这些参数的最优值。

这揭示了动量法不仅仅是一种启发式方法。它是一种可证明对二次问题最优的方法的简化版本。使用固定参数的重球法就像是用一个好的经验法则来决定推一个滚动的球该用多大的力，而共轭梯度法则像是有台超级计算机在每一瞬间计算出确切的最优推力，以使球尽快到达底部。这种联系展示了科学计算中深刻的统一性，将深度学习优化的思想直接与经典的数值线性代数领域联系起来。

自适应优化器：Adam 与自我修正的艺术

重球法对所有方向一视同仁；动量参数 $\beta$ 对于陡峭的峡谷壁和缓和的谷底都是相同的。但我们能否更聪明一些？如果我们的滚球可以改变自身的质量，在平坦区域变得更重以积累速度，在陡峭区域变得更轻以避免过冲，会怎么样？这就是自适应动量方法的核心思想，其中最著名的是 Adam。

Adam（自适应矩估计的简称）维护两个独立的移动平均值，而不仅仅是一个：

一阶矩 ( $m_t$ )：这与重球法中的一样——梯度的指数加权平均值。它跟踪“速度”或动量。
二阶矩 ( $v_t$ )：这是梯度平方的指数加权平均值。它跟踪梯度的“非中心方差”，本质上是衡量一个方向的陡峭程度是否一致。

然后，Adam 中的更新步骤同时使用这两个矩：

$\theta_{t+1} = \theta_{t} - \alpha \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}$

关键在于除以 $\sqrt{\hat{v}_t}$ 。对于对应于陡峭方向的参数，其梯度很大，因此它在 $v_t$ 中的分量也会很大。这个除法有效地减小了该特定参数的学习率。相反，对于平坦方向的参数，其梯度很小， $v_t$ 也很小，有效学习率则更大。

这赋予了每个参数自我修正的学习率！对 Adam 和标准动量在各向异性曲面上的第一步进行的精彩分析清楚地展示了这一点。标准动量的第一步完全被地貌的曲率所扭曲，而 Adam 的更新方向则截然不同。通过用二阶矩进行归一化，Adam 迈出的一步更加平衡，更直接地指向真正的最小值，很大程度上忽略了一个方向比另一个方向陡峭得多的事实。这是一种更智能的方法，能够根据局部地形为每个参数进行自适应调整。

当类比不再适用：动量方法在实践中的应用

共轭梯度法和重球动量法之间优雅的等价关系在二次优化这种干净、对称的世界中完美成立。但是，现实世界问题（如训练深度神经网络）的损失地貌要复杂和混乱得多。其底层的数学问题通常是非对称的。

对于这些问题，人们使用像 BiCGSTAB（双共轭梯度稳定法）这样的强大求解器。这些方法仍然采用具有“类动量”感觉的递推关系，重用前几步的信息来构建新的搜索方向。然而，与优化单个固定势函数的严格联系已经不复存在。动量的类比更多地成为一种强大的灵感，而不是数学上的恒等式。

即便如此，核心原则依然存在。通过保留对过去更新的记忆，动量方法提供了一种简单而深刻的方式，来加速在平缓方向上的进展并抑制在陡峭方向上的振荡。从模拟行星的舞蹈到训练最大型的人工智能模型，惯性的思想——一个知道自己从哪里来，并用此来指导自己往哪里去的重球——是整个计算科学中最强大、最统一的概念之一。它美妙地提醒我们，有时候，前进的最明智方式是记住你已经走过的路。随着我们开发出更复杂的算法，我们甚至可以考虑优化像动量系数 $\beta$ 本身这样的超参数，将固定的规则变成可学习的策略。发现之旅远未结束。

应用与跨学科联系

既然我们已经掌握了动量方法的原理和机制，现在让我们踏上一段旅程，去看看它们的实际应用。在一个经过净化的环境中理解一个想法的工作原理是一回事；而看到它能带我们去向何方，则是另一回事，而且要令人兴奋得多。就像一把万能钥匙，动量的概念不仅打开一扇门，而是城堡的一整翼，揭示出我们从未想过相关的房间之间的联系。它真正的美不在于其简单性，而在于其深刻的适应性，这使得它能够被编织到复杂算法的结构中，并弥合不同科学领域之间的鸿沟。

扩展工具箱：现代优化中的动量

现实世界的优化问题很少是简单的。它们通常是混乱的、高维的，并且带有约束。一个原则的真正考验不是它是否在一个玩具问题上有效，而是它是否能被整合到一个更大的工具箱中来应对这种复杂性。动量以优异的成绩通过了这项测试。

考虑“大数据”的挑战，其中一个模型可能有数百万甚至数十亿个参数。在每一步都计算所有这些维度的完整梯度在计算上是不可行的。一种聪明的策略，称为坐标下降法，是采取一种更温和的方法：一次只更新一个参数，或者一小部分参数。这就像装修一栋豪宅时一次只装修一个房间，而不是试图抬起整栋建筑。但这个零敲碎打的过程能否被加速？我们能给它一种长期的方向感吗？答案是肯定的。我们甚至可以在单个坐标的层面上融入对过去更新的记忆，从而创建一种加速的坐标下降法。这是两个强大思想的美妙结合：坐标下降法专注而经济的更新，以及动量具有远见的指导。

另一个常见的复杂情况是约束的存在。也许一个代表物理量的参数必须是正数，或者一组投资组合权重必须总和为一。我们的算法必须“在规则内行事”。在这里，动量再次展现了其协作精神。我们可以先执行一个大胆的动量步骤，这个步骤在其热情之下可能会让我们落到允许区域之外。然后我们应用一个简单的校正：我们将该点投影回约束集内最近的有效位置。这种两步舞——一个动量更新后跟一个投影——构成了一类被称为投影加速动量（PAM）算法的方法。动量步骤提出了一个雄心勃勃的举动，而投影步骤确保它遵守规则，使我们能够将加速的力量带到广阔的现实世界约束问题中。

在更高层次的抽象上，信号处理、医学影像和机器学习等领域的许多高级算法都可以通过算子理论的视角来理解。问题通常被构造为在满足线性约束 $Kx + Lz = b$ 的条件下，最小化一个复合目标，如 $f(x) + g(z)$ 。著名的交替方向乘子法（ADMM）是解决此类问题的主力，它将问题分解为更易于管理的子问题。整个 ADMM 过程可以被看作是反复将一个复杂的算子 $T$ 应用于一个状态向量，直到它收敛到一个不动点。我们自然会问：我们能加速这个收敛过程吗？动量类的思想再次成为灵感的来源。然而，这里的地形更加崎岖。天真地注入动量可能会破坏底层算法精巧的收敛保证。更深入的分析表明，必须尊重算子 $T$ 的数学结构。确保加速过程保持收敛性，需要仔细研究其属性，例如是“非扩张”的还是“平均”的，这些概念处于现代优化研究的前沿。这段从一个简单的直观想法到一个复杂的数学理论的旅程，证明了动量原理的深度和丰富性。

实践者的艺术：调整机器

算法不仅仅是一个定理；它是一种工具。和任何强大的工具一样，它有必须由熟练的实践者调整的刻度盘和旋钮。重球动量法至少带有两个这样关键的“超参数”：控制步长的学习率 $\alpha$ 和控制过去影响的动量系数 $\beta$ 。这些参数选择不当可能导致进展极其缓慢，或者更糟的是，导致剧烈振荡以至完全发散。

这导出了一个引人入胜的“元问题”：寻找最佳超参数的任务本身就是一个优化问题！目标不是最小化我们在训练数据上的误差，而是在新的、未见过的数据上获得最佳性能——这个过程称为验证。一种常见且稳健的策略是简单的网格搜索：我们为 $\alpha$ 和 $\beta$ 定义一组离散的合理值，为每种组合运行训练算法，并在一个单独的验证数据集上评估最终模型。然后，我们选择产生最低验证误差的那对超参数。这个过程凸显了应用于机器学习的科学方法的一个核心原则：我们提出一个假设（一个特定的 $\alpha$ 和 $\beta$ 选择），进行一个实验（训练模型），并根据经验证据选择最佳假设。动量参数 $\beta$ 不是从天而降的魔法数字；它是深思熟虑的工程师或科学家必须通过仔细实验做出的关键设计选择。

更深层次的统一：优化、物理学与采样

也许所有联系中最深刻的一个，来自于我们将动量的思想追溯到其物理学起源之时。一个重球滚下山坡的类比不仅仅是一个方便的教学工具；它是一个通向优化、统计物理学和贝叶斯推断世界之间深刻而美丽统一性的大门。

当我们从微分方程的角度审视重球法时，我们发现它的连续时间极限描述了一个由势能力和摩擦或阻尼项控制的物理系统。这是一个球在粘性流体（如蜂蜜）中滚动的运动方程。与球的动量成正比的阻尼力，不断地从系统中耗散能量。由于这种摩擦，球不能永远滚动；它最终必然会失去能量，并在势能最低点——我们试图优化的函数的最小值处——停下来。从这个角度看，优化的目标是找到基态，而摩擦是我们不可或缺的盟友。

现在，让我们提出一个完全不同的问题。如果我们不只对单个最低点感兴趣，而是想探索低能量构型的整个景观呢？这是统计采样和贝叶斯推断的核心任务，我们希望了解模型参数的完整概率分布，而不仅仅是单个“最佳”估计。完成这项任务的基石算法是哈密顿蒙特卡洛（HMC）。HMC 也模拟一个物理系统，但有一个关键区别：它是一个无摩擦系统。“哈密顿量” $H(q,p) = U(q) + K(p)$ 就是系统的总能量——我们关心的势能 $U(q)$ 和动能 $K(p)$ 的总和。在一个无摩擦的世界里，总能量是守恒的。粒子不会螺旋下降到最小值；它沿着恒定能量的等高线永久滑行，探索该能量水平上的所有状态。目标不是找到最小值，而是从目标概率分布中生成一个代表性样本，该分布通常通过 $\pi(q) \propto \exp(-U(q))$ 与势能相关。

启示就在于此。哈密顿动力学这同一个数学框架，服务于两个截然不同的目的。

包含一个阻尼项 ( $\dot{p} = -\nabla U(q) - \gamma p$ ) 会创建一个优化器，一个通过耗散能量来寻找单个最小值的目标导向算法。
移除阻尼项 ( $\gamma=0$ ) 会创建一个采样器，一个通过守恒能量来绘制整个景观的探索性算法。

这种深刻的联系也阐明了为什么用于每项任务的数值方法必须如此不同。优化器欢迎耗散能量的数值误差，因为它有助于达到目标。然而，采样器必须小心翼翼地保护能量守恒。这就是为什么 HMC 依赖于特殊的辛积分器（如蛙跳法），这些积分器经过精心设计，以保持哈密顿流的几何结构，并防止会破坏采样过程的人为能量漂移。此外，要从确定性模拟中构建一个有效的统计采样器，必须格外小心。积分器必须在相空间中保持体积。如果它不满足这一点——就像耗散性的重球法会压缩相空间体积一样——那么统计接受规则必须通过雅可比行列式校正进行修改，以维持被称为细致平衡的精巧平衡状态。

这段旅程——从一个简单的算法技巧，到机器学习的实践艺术，再到物理学的统一原理——揭示了一个伟大思想的真正力量。动量的概念源于对物理世界的观察，它不仅帮助我们构建更快的算法，还提供了一个镜头，通过它我们可以感知到寻找单一真理与探索无限可能性宇宙之间的深刻统一。