解耦权重衰减

玻尔百科

定义

解耦权重衰减是深度学习中的一种优化技术，它将权重缩减过程与梯度更新步骤分离开来。在 Adam 等自适应优化器中，该方法解决了标准 L2 正则化在面对具有较大历史梯度的权重时失效的问题，这一改进被称为 AdamW。这种方法可以实现更有效的正则化并提高模型的泛化能力，在现代网络架构和模型量化任务中表现优异。

核心要点

对于 SGD 等简单优化器，L2 正则化和权重衰减是等效的，但当使用 Adam 等自适应优化器时，这种等效性便不复存在。
在自适应优化器中，标准（耦合）的 L2 正则化会削弱对具有较大梯度历史的权重的衰减效果，从而阻碍了有效的正则化。
解耦权重衰减（AdamW）将权重收缩与自适应梯度更新分离开来，从而实现更有效的正则化和更好的模型泛化。
AdamW 的一致性收缩与使用权重共享和归一化层的现代架构能良好地协同工作，甚至有助于模型量化等下游任务。

引言

正则化是训练鲁棒机器学习模型的基石，它能防止模型仅仅是记忆数据，而是使其能够泛化到新的、未见过的数据。在最流行的技术中，L2 正则化和权重衰减这两个术语经常被互换使用。然而，这种看似微不足道的语义混淆背后，隐藏着一个具有深远影响的关键区别，尤其是在像 Adam 这样的复杂自适应优化器兴起之后。本文旨在通过深入探讨“解耦权重衰减”的机制来揭开这一问题的神秘面纱。它解决了 L2 正则化和权重衰减总是等同的常见误解，并揭示了为何将它们分离对现代深度学习至关重要。读者将通过本文了解区分这两种方法的数学基础，探索它们的几何解释，并理解它们对模型性能的影响。接下来的章节将首先剖析区分这两种正则化形式的原理与机制，然后在应用与跨学科联系中探讨具体的益处和更广泛的影响，展示为何这种“解耦”能带来更有效、更可靠的模型。

原理与机制

要真正领会解耦权重衰减的精妙之处，我们必须踏上一段旅程，就像物理学家探索新现象一样。我们将从一个简单、近乎显而易见的观察开始，然后引入一个打破我们最初直觉的复杂情况，最后，达到一个全新的、更深刻的理解。这段旅程不仅揭示了一个巧妙的工程技巧，更展现了优化、几何和统计推断之间美妙的相互作用。

两种收缩的故事：等效的幻觉

想象一下你正在训练一个机器学习模型。你的目标是调整模型的参数——我们称之为权重，并用向量 $\mathbf{w}$ 来集体表示它们——以最小化一个损失函数 $L(\mathbf{w})$ ，该函数衡量模型在你的数据上表现得有多差。一个常见的问题是过拟合，即模型过分地学习了训练数据，包括其噪声，从而无法泛化到新的、未见过的数据上。一个经典的解决方法是阻止权重变得过大，这个想法植根于一个原则：更简单的模型通常泛化得更好。

有两种看似相同的方法可以实现这一点。

第一种方法是在你的损失函数中增加一个惩罚项。你将你的目标函数修改为 $J(\mathbf{w}) = L(\mathbf{w}) + \frac{\lambda}{2}\|\mathbf{w}\|_2^2$ 。这里， $\|\mathbf{w}\|_2^2$ 是你的权重向量的平方大小，而 $\lambda$ 是一个小的正数，用于控制惩罚的强度。这被称为 $L_2$ 正则化。当你的优化器，比如随机梯度下降 (SGD)，试图最小化这个新的目标函数时，它的更新规则基于梯度 $\nabla J(\mathbf{w}) = \nabla L(\mathbf{w}) + \lambda \mathbf{w}$ 。更新步骤如下所示： $\mathbf{w}_{t+1} = \mathbf{w}_t - \eta \nabla J(\mathbf{w}_t) = \mathbf{w}_t - \eta (\nabla L(\mathbf{w}_t) + \lambda \mathbf{w}_t)$ 其中 $\eta$ 是学习率。

第二种方法更直接。你只需告诉优化器：“在你根据数据损失迈出一步之后，把权重稍微收缩一点。” 这被称为权重衰减。我们可以将这个更新写成： $\mathbf{w}_{t+1} = (1 - \eta \lambda) \mathbf{w}_t - \eta \nabla L(\mathbf{w}_t)$ 在每一步，权重首先乘以一个略小于一的因子 $(1 - \eta \lambda)$ ，然后应用常规的梯度更新。

现在，仔细看一下带有 $L_2$ 正则化的 SGD 方程。如果我们分配学习率 $\eta$ ，我们得到： $\mathbf{w}_{t+1} = \mathbf{w}_t - \eta \nabla L(\mathbf{w}_t) - \eta \lambda \mathbf{w}_t$ 通过重新组合包含 $\mathbf{w}_t$ 的项，我们发现： $\mathbf{w}_{t+1} = (1 - \eta \lambda) \mathbf{w}_t - \eta \nabla L(\mathbf{w}_t)$ 这与权重衰减的方程完全相同！对于 SGD 这种简单情况，向损失函数添加 $L_2$ 惩罚在数学上等同于应用直接的权重衰减。这两个概念是完全等价的。似乎“权重衰减”只是 $L_2$ 正则化的另一个名字。多年来，深度学习社区一直交替使用这两个术语。但这种等价性是一个美丽而脆弱的幻觉，一旦我们踏入现代优化的世界，它就会被打破。

情节转折：自适应优化器改变了游戏规则

简单的 SGD 就像一辆只有一个油门踏板的汽车，这个踏板对所有轮子的影响都一样。现代优化器，比如著名的 Adam（自适应矩估计），则更为复杂。它们就像一辆高科技赛车，每个轮子接收的扭矩都可以动态调整。Adam 根据每个参数所见的梯度历史，为 $\mathbf{w}$ 中的每个独立参数提供其自身的有效学习率。具有大且不稳定梯度的参数会被赋予较小的有效学习率以保持谨慎，而具有小而稳定梯度的参数则获得较大的学习率以加快速度。

这是通过一个预条件矩阵实现的，我们可以称之为 $\mathbf{D}_t$ 的自适应缩放矩阵，它在更新前修改梯度。对于 Adam， $\mathbf{D}_t$ 是一个对角矩阵，其对角线上的元素与每个权重的平方梯度的移动平均值相关。自适应优化器的更新规则大致如下： $\mathbf{w}_{t+1} = \mathbf{w}_t - \eta \mathbf{D}_t \nabla J(\mathbf{w}_t)$ 现在，让我们看看当我们使用标准 $L_2$ 正则化时会发生什么，此时 $\nabla J(\mathbf{w}_t) = \nabla L(\mathbf{w}_t) + \lambda \mathbf{w}_t$ 。更新变为： $\mathbf{w}_{t+1} = \mathbf{w}_t - \eta \mathbf{D}_t (\nabla L(\mathbf{w}_t) + \lambda \mathbf{w}_t) = \mathbf{w}_t - \eta \mathbf{D}_t \nabla L(\mathbf{w}_t) - \eta \lambda \mathbf{D}_t \mathbf{w}_t$ 幻觉被打破了！权重衰减项现在是 $-\eta \lambda \mathbf{D}_t \mathbf{w}_t$ 。应用于每个权重的衰减现在被其在自适应预条件矩阵 $\mathbf{D}_t$ 中的相应条目所缩放。那些有过大梯度历史（因此在 $\mathbf{D}_t$ 中有较小条目）的权重将被衰减得更少，而具有小梯度历史的权重将被衰减得更多。正则化已经与自适应机制纠缠在一起，或者说耦合了。

这就是解耦权重衰减——我们故事中的英雄，也是 AdamW 中的“W”——登场的地方。这个想法非常简单：让我们恢复原始的、直接的收缩，并使其与自适应梯度步骤分离开。AdamW 的更新是： $\mathbf{w}_{t+1} = (1 - \eta' \lambda) \mathbf{w}_t - \eta \mathbf{D}_t \nabla L(\mathbf{w}_t)$ （这里， $\eta'$ 是一个可调度的衰减率，但为简单起见，你可以认为它与学习率成正比）。

在这种形式中，自适应机制 $\mathbf{D}_t$ 只用于依赖于数据的梯度 $\nabla L(\mathbf{w}_t)$ 。权重衰减被“解耦”了，它对所有权重应用了一个干净、统一的收缩，就像在简单的 SGD 案例中一样。

一个简单的思想实验使这一点变得非常清晰。想象你有两个权重， $w_1 = 1$ 和 $w_2 = 1$ 。假设在某个时刻，来自数据的梯度为零， $\nabla L(\mathbf{w}) = \mathbf{0}$ ，但自适应优化器从过去的梯度中得知 $w_1$ 是“不稳定的”，而 $w_2$ 是“稳定的”。它可能有一个像 $\mathbf{D}_t = \mathrm{diag}(0.5, 2)$ 这样的预条件矩阵。

对于耦合的 $L_2$ 衰减，更新是 $-\eta \lambda \mathbf{D}_t \mathbf{w} = -\eta\lambda \begin{pmatrix} 0.5 \\ 2 \end{pmatrix}$ 。“不稳定”的权重 $w_1$ 比“稳定”的权重 $w_2$ 收缩得更少。
对于解耦的权重衰减，更新是 $-\eta' \lambda \mathbf{w} = -\eta'\lambda \begin{pmatrix} 1 \\ 1 \end{pmatrix}$ 。两个权重被同等收缩。

更新规则中的这个小变化对优化过程产生了深远的影响，我们可以通过几何学来将其可视化。

收缩的几何学

让我们将所有可能的权重 $\mathbf{w}$ 的空间想象成一片广阔的景观。最优的权重集合位于一个山谷的底部。正则化的目的是通过温和地将我们拉向原点 $(\mathbf{w} = \mathbf{0})$ ——模型最简单的地方——来防止我们偏离到景观中奇怪、复杂的部分。

解耦权重衰减就像一个完美的、均匀的引力场，将所有东西都拉向原点。无论参数向量 $\mathbf{w}$ 在哪里，衰减步骤 $-\eta' \lambda \mathbf{w}$ 都是一个直接指向原点的向量。这是一种各向同性的收缩；它减小了 $\mathbf{w}$ 的大小而不改变其方向。这是一个纯粹的“收缩”操作。

带有 Adam 的耦合 $L_2$ 衰减则要奇怪得多。“引力”被自适应预条件矩阵 $\mathbf{D}_t$ 扭曲了。衰减步骤 $-\eta \lambda \mathbf{D}_t \mathbf{w}$ 通常不指向原点。因为 $\mathbf{D}_t$ 对每个坐标的缩放不同，所以拉力在某些轴上比其他轴上更强。这是一种各向异性的收缩。它不仅减小了 $\mathbf{w}$ 的大小，还旋转了它，优先将其拉向对应于梯度历史较小、“更安静”参数的轴。你不仅仅是被拉向原点；你正在被拉入一个扭曲的、依赖于数据的原点版本。

更深层的视角：我们真正在优化什么？

这种差异不仅仅是一个数学上的奇特现象；它反映了一个更深层次的原则。当我们添加一个 $L_2$ 惩罚时，我们实际上是在陈述一种贝叶斯先验信念。我们是在说：“在我看到数据之前，我相信权重应该很小，围绕零点分布，遵循一个漂亮的、对称的高斯分布。” 这个各向同性的钟形曲线就是我们的先验。

解耦权重衰减尊重这个先验。它对每个权重应用相同的收缩因子，完美地反映了所有权重都来自同一个简单分布的假设。

然而，带有 Adam 的耦合 $L_2$ 衰减打破了这种对应关系。对一个权重的有效正则化强度变得依赖于其梯度历史。这就像是说你对一个权重的先验信念会根据你看到的数据而改变，这在贝叶斯术语中是一个哲学上的矛盾。解耦权重衰减恢复了对我们原始的、各向同性的先验信念更一致的实现。

这一洞见也导出了一个强大的实践法则。让我们回到简单的二次损失 $\mathcal{L}(w) = \frac{1}{2} a (w - w^\star)^2$ 。如果我们运行解耦权重衰减更新，它最终会稳定在一个不动点。事实证明，这个不动点与一个新的、正则化后的目标函数 $\mathcal{L}(w) + \frac{\alpha}{2} w^2$ 的最小值完全相同，其中有效惩罚强度为 $\alpha = \lambda / \eta$ 。

这是一个美妙且极其有用的结果！它告诉我们，正则化的真正强度不是由 $\lambda$ 单独决定的，而是由衰减参数与学习率之比 $\lambda / \eta$ 决定的。这意味着，如果你正在试验不同的学习率 $\eta$ ，你应该成比例地调整 $\lambda$ 以保持正则化效果恒定。这解耦了对优化速度的调整（由 $\eta$ 控制）和对模型最终复杂度的调整（由 $\lambda/\eta$ 控制）。

最终，解耦权重衰减不仅仅是一行不同的代码。它是对第一性原理的回归。它认识到拟合数据和正则化模型是两个不同的任务，最好由独立的、或称解耦的机制来处理。通过解开它们的纠缠，我们实现了一个不仅在实践中更有效，而且也更符合支撑机器学习的优雅几何和统计原理的优化过程。这是一个绝佳的例子，说明了密切关注数学细节如何能够带来更深刻的理解和更好的工具。

应用与跨学科联系

我们已经探讨了解耦权重衰减背后的优雅原理：将正则化那稳定、简化的拉力与基于梯度的学习那混沌、自适应的舞蹈分离开来。这是一段美妙的数学推理。但在科学领域，任何思想的真正考验并非其孤立之美，而在于其在实践中的力量。这种清晰的分离真的能帮助我们构建更好、更智能、更可靠的学习机器吗？答案是肯定的，而且这个故事的原因将带领我们进行一次穿越现代深度学习核心的迷人旅程。

追求鲁棒性：学习原则，而非巧合

想象一下，我们想教一台机器识别一种特定的鸟。在我们提供的所有训练照片中，这种鸟恰好都出现在绿叶的背景下。一个天真的学习者可能会得出结论，识别这种鸟的“规则”就是“寻找绿叶”。当这个模型在沙滩上遇到同一只鸟时，它会惨败。它抓住了一个虚假的关联，一个数据中的巧合，而不是鸟的真实、根本的特征。

这就是过拟合的本质，而正则化的目标就是与之对抗。我们希望我们的模型能找到对数据最简单、最鲁棒的解释——那个依赖于鸟喙形状而非背景颜色的解释。让我们看看解耦权重衰减如何帮助我们实现这一点。在一个精心设计的场景中，我们可以创建一个玩具数据集，其中包含一个真正决定结果的因果特征和一个仅在训练期间与前者相关的虚假特征。当我们训练两个模型，一个使用标准（耦合）L2 正则化，另一个使用解耦权重衰减（AdamW），我们发现了非凡的现象。AdamW 模型学会在虚假特征上放置小得多的权重。它有效地学会了忽略“绿叶”。因此，当我们在新的数据上测试模型，而这些数据中的虚假关联被打破时——例如，背景现在是蓝天——AdamW 模型的表现要好得多。它更鲁棒，因为它学会了真正的原则，而不是巧合。这不仅仅是一个学术练习；这是构建可靠人工智能系统的关键，这些系统能够从它们所见的有限数据泛化到真实世界的复杂性。

自适应优化器的困境

那么，为什么 AdamW 在这方面表现得如此出色？为什么解耦这个看似微小的改变会产生如此深远的影响？问题在于传统 $L_2$ 正则化与 Adam 和 RMSprop 等自适应优化器的本质之间存在根本冲突。

这些优化器被设计得非常聪明。对于网络中的每个参数，它们都维持着对其梯度噪声或波动程度的估计。如果一个参数的梯度剧烈摆动，优化器会采取更小、更谨慎的步骤。如果梯度是稳定的，它会采取更大、更自信的步骤。这是通过将每个参数的更新乘以其近期梯度幅度的倒数（具体来说，是梯度平方的移动平均值的平方根， $\sqrt{\hat{v}_t}$ ）来实现的。

现在，考虑当我们使用传统 $L_2$ 正则化时会发生什么。正则化的“力”——对权重的一个温和拉力，与其自身大小成正比（ $\lambda w_t$ ）——在应用这种自适应缩放之前被加到数据梯度上。总梯度变为 $g^{\text{total}} = g^{\text{data}} + \lambda w_t$ 。优化器以其智慧，审视这个总梯度并对其进行缩放。如果数据梯度 $g^{\text{data}}$ 又大又吵，那么自适应分母 $\sqrt{\hat{v}_t}$ 就会很大。这个大的分母会同时缩减数据梯度更新和正则化更新。

结果是事与愿违的：对于那些变化很大（梯度很大）的参数，有效的权重衰减被削弱了！优化器在试图驯服一个嘈杂的梯度时，无意中保护了参数，使其免受本应用于约束它的正则化的影响,。施加于一个权重上的“有效收缩”不仅取决于衰减强度 $\lambda$ ，还取决于其梯度的整个历史。

解耦权重衰减以其优美的简洁性解决了这个困境。它告诉优化器：“你，自适应部分，按你的方式处理数据梯度。我，权重衰减，将分开应用。” 衰减步骤变成一个纯粹的、乘法性的收缩， $w_{t+1} = (1 - \eta \lambda) w_t - \text{(adaptive step)}$ 。这个收缩现在独立于梯度历史 $\hat{v}_t$ 。它是一股恒定、可靠的力量，引导模型走向简单，无论学习过程多么混乱。它恢复了权重衰减的初衷。

至关重要的是，整个故事的发生都是因为优化器的“自适应”特性。对于使用固定学习率处理所有参数的普通随机梯度下降（SGD），耦合 $L_2$ 正则化的更新规则在代数上与解耦权重衰减的更新规则是相同的。这个困境只在我们试图变得“聪明”时才会出现。

架构的交响曲：实践中的权重衰减

当我们观察这些思想在现代神经网络复杂、庞大的架构中如何发挥作用时，情节变得更加复杂。

权重共享的难题 (CNNs RNNs)

卷积神经网络 (CNNs) 和循环神经网络 (RNNs) 的强大能力源于一个简单而优雅的思想：权重共享。在 CNN 中，同一个小卷积核（一组权重）被应用于整个图像，以检测边缘或纹理等特征。在 RNN 中，同一组权重在每个时间步被应用以处理序列。这种共享使得这些模型能够对空间和时间有了一致的理解。

但这种优雅的共享为耦合的 $L_2$ 正则化设下了一个陷阱。一个共享的权重从它被使用的每个位置或时间步接收梯度。它被共享得越多，其总梯度就越大、变化越多。对于像 Adam 这样的自适应优化器来说，这意味着该共享权重的分母 $\hat{v}_t$ 将会变得很大。正如我们所见，一个大的 $\hat{v}_t$ 会削弱耦合 L2 正则化的效果。令人难以置信的是，这意味着一个权重被共享得越多——即它对网络的操作越基础——它受到的正则化反而越少！。

解耦权重衰减由于独立于 $\hat{v}_t$ ，所以不受此问题影响。无论一个共享权重被使用一次还是一千次，它都对其应用相同的、一致的衰减。同样，在 RNN 中，梯度会随着时间步累积，但 AdamW 正确地对每个共享参数的每次更新只应用一次衰减，而不是在反向传播算法中为每个展开的时间步都应用一次。它就是能行。

与归一化层的共舞

现代网络的另一个普遍存在的组件是归一化层，例如批量归一化 (BN) 或层归一化 (LN)。这些层通过重新缩放它们接收到的输入，使其均值为零、标准差为一。这有助于稳定训练过程。然而，它引入了一个新的微妙之处。

由于该层对其输入进行归一化，网络的最终输出对前一层权重的绝对尺度变得不敏感,。你可以将一个权重向量乘以十，归一化层会简单地学会除以十来补偿，从而使网络的功能行为保持不变。这意味着权重的 L2 范数 $\lVert w \rVert_2$ 不再是衡量模型复杂度的可靠指标！惩罚它就像试图通过抛光车漆来让汽车变慢一样——它影响的是表面属性，而不改变底层功能。

在这种情况下，数据损失相对于权重的梯度变得与权重本身正交；沿着权重向量的方向移动不会改变损失。然而，权重衰减项总是直接指向原点。通过解耦权重衰减，这两个更新分量——一个为了性能，一个为了简化——被清晰地分离开来，即使在存在这些复杂的归一化方案的情况下，也能带来更稳定和可预测的优化动态。

超越训练：微妙的连锁反应

尽管解耦权重衰减的初衷是为了改善训练动态和泛化能力，但这一决策的涟漪效应还延伸到其他领域，将优化与在现实世界中部署模型的实际问题联系起来。

量化的和谐

为了在内存和功耗有限的设备（如智能手机）上运行大型模型，我们通常需要进行量化。这个过程是将模型的高精度 32 位浮点权重转换为低精度 8 位整数。这就像将数字四舍五入到一个更粗糙的网格上。一个权重离某个网格点越近，量化过程中损失的精度就越少。

在这里，AdamW 揭示了一个令人惊讶且美丽的涌现属性。来自解耦权重衰减的稳定、一致的收缩就像一股温和的磁力，将权重拉向量化区间（尤其是零）的中心。相比之下，标准 Adam 中的有效衰减是嘈杂和不稳定的，依赖于梯度历史。它可能让权重滞留在网格点之间的“无人区”。因此，用 AdamW 训练的模型通常“对量化更友好”，在被压缩后精度下降较少。优化器公式中的一个简单改变，直接影响了我们构建高效AI的能力。

调度表的艺术

最后，理解解耦衰减有助于我们成为更好的工程师。在训练大型模型时，一个常见的技巧是使用“学习率预热”，即学习率在开始的几千步中非常小，然后逐渐增加。对于 AdamW，权重衰减与学习率是相乘的（ $\eta \lambda$ ）。这意味着在预热期间，不仅学习率很小，有效的权重衰减也非常弱。

这引出了一些实际而微妙的问题：这有关系吗？我们是否应该将权重衰减的开始推迟到预热结束后？如果这样，我们之后应该如何设置衰减强度，以弥补预热期间“错过”的衰减？这些正是深度学习从业者需要应对的问题，而通过推理去理解解耦衰减的累积、乘法性质，这些问题就可以得到解答。它提醒我们，这些算法不是黑箱；它们是由相互作用的部分组成的系统，其行为我们可以理解、预测和控制。

解耦之美

我们的旅程表明，解耦权重衰减远非一个小小的调整。它是一个根本性的改进，解决了现代优化核心的一个核心冲突。它带来了更鲁棒的模型，这些模型能学习到真正的原则而非虚假的关联。它与深度学习的架构支柱（如权重共享和归一化）正确而优雅地相互作用。它甚至在使模型高效的下游任务中也带来了意想不到的好处。

这正是在物理学和数学中那种令人满足的发现。通过寻求一个更清晰、更有原则的表述——通过分离基于梯度的学习和正则化的关注点——我们不仅得到了一个更强大的解决方案，而且其简洁性和一致性也更具美感。