自适应优化方法：智能学习的艺术

玻尔百科

核心要点

自适应优化方法（如 Adam）利用过去的梯度信息，为每个参数动态设置独特的学习率，从而能够高效地在复杂的损失地貌中进行导航。
这些算法可以被理解为主动重塑优化问题的几何结构，将一个困难、不平坦的地貌转变为一个更简单、更均匀的地貌。
虽然 Adam 等流行的优化器功能强大，但它们存在已知的失效模式，例如潜在的学习率爆炸问题，这促使了更鲁棒的变体（如 AMSGrad 和 AdamW）的开发。
自适应搜索的核心原则是普适的，其应用远超人工智能领域，在计算化学、工程设计和生物学等领域中用于解决复杂的高维搜索问题。

引言

对“最佳”的追求——无论是追求最准确的预测、最高效的设计，还是最有效的策略——是贯穿科学与工程领域的一项根本性挑战。这种搜索通常被构建为一个优化问题：在一个广阔、复杂的地貌中航行，以找到其最低点。传统方法（如梯度下降）就像一个盲人徒步者，迈着固定大小的步子，这种策略在现代人工智能常见的险峻地形上缓慢而低效。这提出了一个关键问题：我们如何设计出能从地貌中学习并相应调整步伐的更智能的算法？本文将深入探讨自适应优化方法的世界，以回答这个问题。第一章“原理与机制”将揭示 Adam 等算法背后的核心思想，探索它们如何记忆过去的信息并重塑问题空间本身。随后的“应用与跨学科联系”将揭示这些强大的概念并不仅限于机器学习，而是在从计算化学到生物学的不同领域中产生共鸣，统一了对最优解的普遍追求。

原理与机制

盲人徒步者的寓言

想象你是一位徒步者，迷失在浓雾中，目标是找到山谷的最低点。你看不见地貌，但能感觉到脚下地面的坡度。这正是优化算法所处的境地。地面是“损失函数”，一个表示模型表现如何的数学地貌，而算法的工作就是找到损失最低的点。

最简单的策略是梯度下降：感受最陡峭的下坡方向（负梯度），并朝该方向迈出一步。但这一步应该迈多大呢？这个“步长”，或称学习率，是一个至关重要的选择。如果步子太大，你可能会直接越过谷底，跳到另一边更高的地方，来回振荡，永远无法到达目标。如果步子太小，你的进展将极其缓慢，可能需要耗费永恒的时间才能寸步挪到谷底。

几十年来，从业者都将学习率视为一个需要手动调校的棘手旋钮——这是一门需要耐心和经验的玄学。但如果徒步者能更聪明些呢？如果他们能根据所经过的地形调整步幅，而不是采取固定大小的步伐呢？这正是自适应优化方法的核心承诺。

从地貌中学习：各向异性山谷问题

优化的世界很少像一个圆碗那么简单。更多时候，我们必须导航的地貌是各向异性的——它们形如狭长的峡谷或沟壑。想象一个山谷，其两侧极为陡峭，但沿其长度方向的坡度却非常平缓，几乎是平的。

我们的盲人徒步者现在遇到了大麻烦。为了避免从陡峭的岩壁上滚落，他们必须采取极其微小、谨慎的步伐。但这些小步子使得沿着峡谷平缓底部的进展变得慢得令人发指。这就是病态问题的诅咒，也是简单梯度下降法的噩梦。使用单一的全局学习率迫使我们在陡峭方向的稳定性和平缓方向的进展之间做出痛苦的权衡。

我们的徒步者如何能做得更好？他们需要能够在峡谷底部迈出自信的大步，同时在横向移动时采取微小、谨慎的步伐。他们需要为每个方向独立地调整步长。这正是 Adagrad、RMSprop 和 Adam 等方法的设计初衷。它们不只使用一个学习率；它们为模型中的每一个参数使用个性化的学习率。

能够记忆的智能手杖：累积梯度信息

为了实现这种分方向的自适应，算法需要“记住”它所经过的地形。它需要一种方法来知晓横向方向一直很陡峭，而纵向方向一直很平坦。实现这种记忆的机制非常简单：一个累加器。

对于每个参数（或方向），算法会维护一个关于过去梯度大小的运行摘要。这通常通过指数移动平均（EMA）来完成，它像一种“衰减记忆”。这个累加器（我们称之为 $v$ ）在每一步 $t$ 的更新看起来是这样的：

v^{(t)} = \beta v^{(t-1)} + (1-\beta) g_t^2

在这里， $g_t$ 是当前步骤的梯度， $\beta$ 是一个衰减率参数（如 0.9），控制着记忆的生命周期。新的估计值 $v^{(t)}$ 是旧记忆 $v^{(t-1)}$ 和新信息——梯度的平方 $g_t^2$ 的加权平均。我们使用平方来衡量梯度的大小，忽略其符号。这个累加器有效地跟踪了每个方向的“波动性”或“活跃度”。

当我们使用这个累加器来缩放步长时，奇迹就发生了。参数 $\theta_i$ 的更新变为：

\theta_{i, t+1} = \theta_{i, t} - \frac{\eta}{\sqrt{v_{i, t}} + \epsilon} g_{i, t}

在这里， $\eta$ 是一个全局的基础学习率， $\epsilon$ 是一个防止除以零的极小数。看看分母！如果一个方向一直有很大的梯度，它的累加器 $v_{i,t}$ 就会很大，使得该方向的有效步长变小。如果一个方向一直很安静平坦，它的累加器就会很小，有效步长就会变大。

这就解决了峡谷问题！陡峭的横向方向会累积一个大的累加器，迫使算法采取小的、稳定的步伐。平缓的纵向方向则维持一个小的累加器，允许采取大的、高效的步伐。我们的徒步者不再在峭壁之间反弹，而是自信地沿着谷底大步前行。

优化的几何学：重塑时空

乍一看，这种自适应缩放似乎只是一个巧妙的工程技巧。但在其表面之下，隐藏着一个优雅而统一的惊人概念。这些算法不仅仅是在改变步长；它们从根本上改变了问题空间本身的几何结构。

可以这样想。在标准梯度下降中，算法在一个刚性的欧几里得空间中移动，其中两点之间的距离无论你身在何处都是相同的。自适应方法将这个空间变成了一块动态的、可延展的织物，就像一张算法可以随意拉伸和挤压的橡胶薄膜。这个框架在数学上被称为黎曼几何。

累加器 $v_t$ 定义了这个新空间的“度量”。两个无穷近的点之间的局部距离平方 $\mathrm{d}s^2$ 不再仅仅是 $\mathrm{d}x_1^2 + \mathrm{d}x_2^2 + \dots$ 。相反，它变成了：

\mathrm{d}s^2 = \gamma_1 \mathrm{d}x_1^2 + \gamma_2 \mathrm{d}x_2^2 + \dots

其中每个系数 $\gamma_i$ 由累加器 $v_i$ 决定。对于一个历史梯度较大的方向，相应的 $\gamma_i$ 会变大。这意味着空间在该方向上被“拉伸”了。要行进算法认为的“单位距离”，你只需要覆盖一个非常小的坐标距离。一小步就是一件大事。相反，在一个平坦的方向上， $\gamma_i$ 很小，空间被“压缩”，一个大的坐标步长被认为是一段中短途的旅程。

从这个角度看，自适应优化器正在执行一个简单的、标准的梯度下降，但它作用的地貌是它自己主动重塑的，使其变得更均匀、表现更好——看起来更像一个简单的圆碗。这不仅仅是一个技巧；这是将问题转化为一个更简单问题的深刻行为。

超越平滑山谷：动量的力量

深度学习的真实地貌远比平滑的峡谷要混乱得多。它们是充满小颠簸、高原和局部最小值的混沌高维地形。我们所描述的自适应缩放对于处理各向异性非常有效，但它仍然可能目光短浅，被地貌中的小坑洼困住。

这就是另一个思想——动量——发挥作用的地方。想象一下，我们的探险者现在不是一个轻量级的徒步者，而是一个沉重的保龄球。它的运动不仅取决于当前位置的坡度，还取决于它已经累积的速度。这种动量帮助它滚过小颠簸，并在长而连续的下坡上加速，从而更果断地落入重要的盆地。

著名的 Adam (自适应矩估计) 优化器结合了这两种强大的思想。它维护两个独立的指数移动平均：

一个二阶矩累加器 ( $v_t$ )，用于累积梯度的平方，正如我们所讨论的，以实现每个参数的步长自适应（这部分本质上是 RMSprop）。
一个一阶矩累加器 ( $m_t$ )，用于累积梯度本身，它充当动量或速度项。

本质上，Adam 的更新使用动量项 $m_t$ 来选择方向，并使用自适应项 $\sqrt{v_t}$ 来缩放该方向上的步长。它集两家之长：一个沉重的、由动量驱动的球，在一个动态重塑的橡胶薄膜上滚动。

当优秀算法变坏时：Adam 的陷阱

曾有一段时间，Adam 被视为无可争议的优化器之王，几乎是所有深度学习问题的默认选择。但正如任何伟大的工具一样，科学家和工程师们开始探索它的极限，并发现了一个微妙但重要的缺陷。

问题出在二阶矩累加器 $v_t$ 的“衰减记忆”上。考虑这样一种情景：算法早期看到了一个巨大的梯度，随后是长时间的非常小的梯度。由于 EMA 的衰减因子 $\beta_2$ ，对那个初始大梯度的记忆最终会消退。 $v_t$ 的值会缩小，越来越接近于零。

有效学习率 $\frac{\eta}{\sqrt{v_t} + \epsilon}$ 会发生什么？当分母 $v_t$ 趋近于零时，学习率可能会爆炸到一个巨大的值！算法忘记了过去的险峻地形，突然迈出了巨大而鲁莽的一步，常常导致整个训练过程灾难性地发散。

在一个名为 AMSGrad 的算法中提出的解决方案非常简单。它不再使用当前 EMA $v_t$ 作为分母，而是使用历史上所见过的 $v_t$ 的最大值。这个简单的 max 操作确保了分母永远不会减小。对最大梯度波动性的记忆是永久的。这个小小的调整使算法更加鲁棒，防止了可能困扰原始 Adam 的灾难性遗忘。这是科学过程在实践中的一个美丽范例：构建一个强大的工具，发现其失效模式，并对其进行改进，使其变得更好。

细节中的魔鬼：权重衰减的奇特案例

这些自适应方法的内部工作机制可能导致一些有趣且不明显的相互作用。最后一个美丽的例子来自一种常见的技术，称为  $L_2$ 正则化，或称权重衰减。为了防止模型变得过于复杂，通常会在损失函数中添加一个惩罚项 $\frac{\lambda}{2}\lVert \theta \rVert^2$ 。它的梯度就是 $\lambda \theta$ ，其作用是在每一步都将参数向零收缩。

当使用像 Adam 这样的算法时，这个正则化梯度 $\lambda \theta$ 被简单地加到主要的数据梯度中，并送入自适应机制。但请思考其后果：现在每个参数的收缩项也要被它自己的分母 $\sqrt{v_t} + \epsilon$ 除。这意味着权重衰减的量不再是均匀的！那些一直“活跃”的参数（历史梯度大， $v_t$ 大）将受到更少的收缩。那些一直“安静”的参数（历史梯度小， $v_t$ 小）将受到更多的收缩。

这可能不是用户想要的行为。一种替代方案，称为解耦权重衰减，将这两个过程分开。它首先仅使用数据梯度执行自适应步骤，然后对所有参数应用一个独立的、统一的收缩步骤。这个可能对最终模型性能有显著影响的微小区别，揭示了自适应原则是如何深刻地融入整个优化过程的结构之中的。从一个浓雾中的简单徒步者开始，我们最终对一个能够重塑自身几何、记忆过去并以微妙而深刻的方式与环境互动的算法有了复杂的理解。

应用与跨学科联系

科学的故事不仅仅是发现自然法则；它也是一场对最佳方式的不懈追求。对数据的最佳解释，对机器的最高效设计，游戏中的最优策略。其核心是一个搜索问题。我们是广阔、未知的可能性地貌中的探险家，寻找最高的山峰或最低的山谷。我们讨论过的自适应优化的原理和机制，是我们这次旅程的地图和指南针。它们不仅仅是抽象的数学工具；它们是一种强大思想的编码：从我们走过的路中学习，以决定下一步该走向何方。

虽然这些思想诞生于训练庞大神经网络的实际需求，但它们的回响却在各处引起共鸣，从救命药物的设计到桥梁的工程，甚至到生命本身的宏大策略。让我们踏上一段旅程，看看这些自适应方法如何不仅是一个领域的工具，而是一种普适的发现与创造的语言。

现代人工智能的核心：驯服高维度的猛兽

优化的挑战在现代人工智能中表现得最为明显。一个大型神经网络可以有数十亿个参数。其损失地貌是一个位于十亿维空间中的、令人难以置信的复杂地形。试图通过在最陡下降方向上采取统一的步伐来导航，就像戴着坏掉的罗盘在浓雾中试图穿越喜马拉雅山。

自适应方法是我们的答案。通过为每个参数提供其自己的、个性化的学习率，我们让算法能够“感受”地貌的局部曲率。如果一个参数的梯度持续很大且充满噪声，其学习率就会缩小，采取谨慎的步伐。如果一个参数对应一个罕见但重要的特征，其梯度是稀疏的，其学习率将保持较大，准备在信号最终到达时迅速学习。

但初次尝试很少是完美的。例如，Adagrad 算法有一个绝妙的想法：累积平方梯度的历史来调整学习率。然而，它有一个阿喀琉斯之踵：分母是所有过去平方梯度的累积和，只能增长。在长时间的训练中，这个和会变得非常大，以至于有效地将学习率缩小到零，使学习陷入停滞。这就像一个徒步者变得如此谨慎，以至于拒绝再迈出一步。这一局限性导致了像 RMSprop 和 Adam 等方法的开发，它们用一个指数移动平均——一种“衰减记忆”，更侧重于近期的梯度——取代了 Adagrad 不断增长的总和。这防止了学习率永久性地缩小，并允许学习无限期地继续下去。

这种改进的主题仍在继续。我们发现，衡量梯度“历史”的方式至关重要。作为现代深度学习主力军的 Adam 优化器，使用过去平方梯度的指数衰减平均值。这使其能够忘记遥远的过去，更适合于训练中非平稳、不断变化的地貌。但在特别“尖锐”或嘈杂的地貌上，即使是 Adam 也可能被诱骗采取过大的步长。一个名为 AdaBelief 的微妙修改，改变了二阶矩估计器，使其跟踪梯度围绕其移动平均的方差。这衡量了优化器对当前梯度方向的“信念”。如果一个梯度是异常值，这个项就会变大，学习率就会缩小，步长就会被抑制，从而实现更稳定、更可靠的下降。优化器设计是一门精巧的艺术，需要不断调整规则，以便为地貌建立更好的直觉。

然而，我们也必须坦诚面对这些流行方法的局限性。它们在速度和内存上的巨大优势来自于一个简化的假设：它们将每个参数的维度视为独立的。它们构建了地貌曲率的对角线近似。但如果地貌是倾斜和扭曲的，最优路径需要以高度相关的方式移动多个参数，那该怎么办？在这种情况下，对角线近似就会失效。一种能够使用完整曲率信息的方法（如牛顿法这样的全矩阵预处理器）可以在一步之内找到二次型山谷的底部。而 Adam 由于其对角线视角，将被迫以之字形方式缓慢下降。这是一个根本性的权衡：我们为了可扩展性牺牲了最优性。理解这一局限性是成为一名优秀实践者的关键。

超越梯度：学习系统的交响乐

优化器并非在真空中运作。它是深度学习系统这支宏大交响乐团中的一位乐手。它的表现关键取决于它如何与其他参与者互动，例如正则化技术和数据本身的统计特性。

考虑与 dropout 的相互作用，这是一种在训练期间随机“关闭”神经元以防止过拟合的技术。这对像 Adagrad 这样的自适应优化器有什么影响？当一个参数连接到一个经常被 dropout 的神经元时，它只零星地接收到梯度信号。对于 Adagrad 优化器来说，这意味着它的梯度累加器增长得非常缓慢。结果呢？该参数的有效学习率在更长的时间内保持较高水平。这 ternyata 是一个意外的惊喜。它使优化器对那些确实通过的稀有信号更加敏感，使其能够更有效地从稀疏特征中学习。这种美丽的、涌现的协同效应证明了深度学习的复杂动态。

优化器的选择甚至可能对公平性和泛化性产生深远影响。想象一下，在一个存在严重类别不平衡的数据集上训练一个模型——比如，一个类别的样本远多于另一个类别。模型可以轻易地通过简单学习预测多数类来获得低损失，从而有效地忽略少数类。在这里，优化器自身内部正则化的细节可以产生关键差异。AdamW 优化器具有“解耦权重衰减”的特性。它不是将正则化项混入自适应机制所看到的梯度中，而是将其作为独立的收缩步骤直接应用。这个看似微小的改变可以防止模型的参数为了拟合多数类而增长得过大，这反过来又有助于模型更多地关注少数类并改善其在那里的预测。正确的优化策略不仅仅是为了更快地找到最小值；它是为了引导模型找到一个更好的最小值——一个能够良好泛化并公平对待所有数据的最小值。

在其他世界的回响：优化的统一性

自适应搜索的原则是如此基本，以至于它们以各种形式，有时是伪装的形式，出现在一系列惊人的科学和工程学科中。

一个近邻是强化学习 (RL)，其中智能体通过试错来学习。RL 中一个常见且困难的场景是“稀疏奖励”，即智能体仅在极少数情况下才接收到反馈。想象一下，如果你只有在赢得整盘棋后才被告知“干得好”，你要如何学习下棋。对于优化器来说，这意味着梯度信号几乎总是零，只有短暂而宝贵的信息爆发。在这种情况下，像 Adagrad 这样永远记住每个梯度的优化器，和像 Adam 这样使用衰减窗口的优化器之间的差异变得至关重要。Adagrad 的持久记忆可能是一个优势，它能为那些不常尝试的动作保持较高的学习率，而 Adam 对变化条件的适应性可能在更动态的环境中更好。优化器的选择直接影响了智能体将一次罕见的成功归功于导致它的长序列动作的效率。

再往远看，我们在计算化学中也发现了同样的挑战。当化学家想要理解一个化学反应时，他们会寻找从反应物到产物的“最小能量路径”。这条路径会越过一个能垒，其峰顶是过渡态。“渐变弹性带 (NEB) 方法”通过优化分子的一系列“图像”的位置来找到这条路径。这些图像上的“力”就是我们的梯度，通常使用昂贵的量子力学模拟（如 DFT）计算得出，这些模拟本身带有数值噪声。在这里，化学家也需要鲁棒的优化器。他们辩论准牛顿法（如 L-BFGS）的优劣，这种方法试图构建能量地貌曲率的丰富图像；与之相对的是阻尼动力学方法（如 FIRE），它使用更简单、更鲁棒的基于动量的方法。他们面临的权衡——内存使用、面对噪声的稳定性以及收敛速度——与我们在机器学习中处理的权衡完全相同。这是科学计算中趋同演化的一个美丽例子。

同样的精神也活跃在工程世界。在拓扑优化中，工程师可能会问：“在给定固定材料量的情况下，桥梁支撑的最佳形状是什么，才能使其尽可能坚固？”利用有限元分析，他们可以计算出结构刚度对每个点上材料存在与否的敏感性。这种敏感性就是梯度。然后，优化器会迭代地增减材料，以“下降”到一个更强的设计。这个过程的一个关键部分是“自适应移动限制”，它控制着设计在每一步可以改变多少。如果一个改变带来了好的改进，移动限制就会增加以加速进展。如果导致了坏的结果，限制就会缩小以更加谨慎。这本质上就是一个自适应学习率，只是用力学的语言而不是机器学习的语言来描述。

也许最鼓舞人心的应用在于生物学的前沿。试图从干细胞中培育微型器官——大脑或肠道“类器官”的科学家们，面临着一个极其复杂的优化问题。最终类器官的“质量”取决于十几个或更多的参数：生长因子的浓度、施用时间、氧气水平等等。每个实验可能需要数周时间，耗费数千美元。在只能进行少数几次试验的预算下，暴力搜索是不可能的。这是最终的昂贵、黑箱优化问题。解决方案是贝叶斯优化，这是一种体现了自适应原则的策略。它基于迄今为止的实验，建立一个未知质量地貌的统计模型——一个“代理”模型。这个模型捕捉了整个参数空间中的预期质量和不确定性。然后，它利用这个模型来智能地决定下一步在哪里进行实验，平衡“利用”（在当前已知的最佳配方附近探测）与“探索”（在高不确定性区域探测以学习更多信息）。这是科学方法的正式化和自动化，根据每一条新数据调整其搜索策略，以最大化每次实验所获得的知识。

最后，我们可以在自然本身中看到最宏伟的优化器。生态学中的生活史理论探讨了进化如何塑造诸如后代大小和数量等性状。一个生物体有有限的能量预算。这施加了一个硬性约束：用于使一个后代变大的能量不能用于产生更多的后代。这在大小和数量之间创造了一个基本的权衡曲线。一个纯粹基于约束的模型可以预测这种权衡的形状——例如，数量的对数和大小的对数应该具有特定斜率的线性关系。这是可行集。然后，该理论的“优化”部分假设，自然选择作为一个优化器，在该权衡曲线上找到能够最大化长期适应度的特定点。我们的算法在计算约束下，在一个参数空间中寻找最优点，这正是那个塑造了地球上每一个生物、受制于物理和能量学铁律的、长达四十亿年的优化过程的一面谦逊的镜子。自适应优化的美妙之处在于，它为我们提供了一种语言来谈论，并提供了一个工具包来参与这个普适的引导式搜索过程。