深度学习中的正则化

玻尔百科

核心要点

显式正则化技术，如权重衰减（L2）和 Dropout，通过惩罚模型复杂性或在训练中引入噪声，是防止过拟合的重要工具。
优化算法的选择，如随机梯度下降（SGD），通过引导模型走向更简单的解（如双下降现象所示），提供了强大的隐式正则化。
在生成对抗网络（GAN）等高级模型中，正则化对于确保动态稳定性和防止模式崩溃等问题至关重要。
弹性权重巩固（EWC）等正则化方法通过防止对先前学习任务的灾难性遗忘，实现了持续学习。
在数据有限的科学应用中，正则化允许整合领域知识，将机器学习转变为一种发现工具，正如在病毒进化建模中所示。

引言

在构建强大的深度学习模型的探索中，我们面临一个根本性的悖论：一个足够复杂以捕捉错综复杂模式的模型，也同样容易记住噪声，这个问题被称为过拟合。这导致模型在训练数据上表现出色，却无法泛化到新的、未见过的数据上。我们如何才能赋予模型区分信号与噪声的智慧，实现真正的理解？答案在于正则化原理——一系列旨在约束模型复杂性并引导学习过程走向更鲁棒和更具泛化能力解的技术集合。

本文对深度学习中的正则化进行了全面的探索。第一章 “原理与机制” 将剖析各种正则化方法背后的核心思想，从权重衰减等显式惩罚和 Dropout 等噪声注入技术，到优化过程本身带来的惊人的隐式正则化。随后，“应用与跨学科联系” 章节将展示这些原理如何应用于解决前沿领域的关键挑战，例如稳定 GAN、实现持续学习，甚至加速病毒学等领域的科学发现。读完本文，您将对正则化有更深的理解，它不仅是一种技术修复手段，更是构建智能系统的基本概念。

原理与机制

现在我们对过拟合问题有了初步了解，让我们踏上一段旅程，去理解那些引导我们模型做出更好判断的美妙且时而令人惊讶的方法。想象一下我们正在教一个学生——不是让他死记硬背教科书，而是向他灌输推理和怀疑的原则。这就是正则化的本质。这是一门约束我们模型的艺术与科学，是教会它们谦逊，以便它们能将所学泛化到课堂之外的世界。

追求完美的危险与约束的必要性

首先，让我们看看当一个强大的模型在没有任何约束的情况下学习时会发生什么。想象一个深度神经网络在一个大型数据集上进行训练。我们可以追踪它在训练期间看到的数据（训练集）和在另一组它从未见过的数据（验证集）上的表现。我们通常观察到的是一个经典的“盛极而衰”的故事。

在训练数据上，模型的损失（其误差度量）一轮接一轮地稳步下降，趋近于零。它在这份数据上的准确率攀升至近乎完美，或许超过 99%。可以说，模型已经把教科书背得滚瓜烂熟。但当我们在验证集上测试它时，我们看到了另一番景象。验证损失在一段时间内下降，但随后，令人警惕地，它开始攀升。那个在家庭作业上得了 A+ 的模型，现在却在考试中不及格。

这种分歧正是过拟合的标志。模型变得如此强大和灵活，以至于它不仅学习了数据中真实的潜在模式，还记住了特定于训练样本的噪声、怪癖和无关细节。它学到了一个无法泛化的“脆弱”解。为了防止这种情况，我们需要给模型的复杂性套上“缰绳”。我们需要引入一种惩罚，惩罚模型的过度复杂，即使这种复杂性有助于它完美地记住训练数据。这引出了我们的第一类也是最直接的一族技术：显式正则化惩罚。

对复杂性征税：权重衰减及其争议

阻止复杂性最直接的方法是，我们偏爱权重较小的模型。一个权重非常大的模型可以创建极其复杂和“扭曲”的函数来拟合每一个数据点。通过在损失函数中增加一个与权重大小成正比的惩罚项，我们迫使模型做出妥协：既要很好地拟合数据，又要保持较小的权重。

最常见的惩罚是 L₂ 正则化，通常称为权重衰减。它在损失函数中增加了一个与网络中所有权重平方和成正比的项： $\frac{\lambda}{2} \sum_i w_i^2$ 。在训练过程中，最小化这个组合目标意味着每次权重更新都包含一个使其向零靠近的微小推动力。这就像对模型征收持续的“简约税”。

但这个简单而优雅的想法带来了一些有趣而微妙的后果。事实证明，不加选择地对每个参数都施加这种税可能是适得其反的。考虑一个带有修正线性单元 (ReLU) 激活的单个神经元，它计算 $\max(0, w^\top x + b)$ 。偏置项 $b$ 扮演着看门人的角色，帮助将预激活值推入神经元激活的正区域。如果这个神经元恰好对一批输入处于非激活状态（即 $w^\top x + b \le 0$ ），它对数据损失就没有任何贡献，其来自数据的梯度为零。如果我们对偏置 $b$ 应用权重衰减，它收到的唯一更新就是向零收缩。这使得该神经元在未来变得激活的可能性更小。我们可能无意中通过对帮助其激活的参数征税而“杀死”了这个神经元。这导致了在权重衰减中排除偏置项的常见做法。

当我们考虑现代网络架构时，情况变得更加复杂。许多网络使用批量归一化 (BN)，这是一种将每个小批量内的激活值归一化为零均值和单位方差的技术。这引入了一种奇特的尺度不变性。想象一个 BN 层之前的权重 $W$ 。你可以将所有这些权重乘以一个常数 $c > 0$ ，得到 $W' = cW$ 。该层的输出都将被缩放 $c$ 倍，但随后的 BN 层会因其自身特性立即抵消这种缩放！网络计算的最终函数保持完全相同。然而，L₂ 惩罚项 $\lambda \|W\|_F^2$ 会改变 $c^2$ 倍。优化器在寻求最小化总损失时，会被激励将 $W$ 的范数驱动到零，不是因为它简化了函数（它并没有！），而仅仅是为了减少惩罚。正则化未能正则化函数，而只是在与一个任意的参数化选择作斗争。

这些发现——L₂ 正则化与偏置和归一化层存在奇怪的相互作用——催生了一种更精细的方法。现代优化器如 AdamW 不再天真地将 L₂ 惩罚混入损失函数，而是实现了解耦权重衰减。该方法将权重收缩直接应用于权重，与梯度计算分离。这一根本性改变为工程师提供了精细的控制，可以决定哪些参数（例如，只衰减某些层的权重，而不衰减偏置或归一化参数）应该被衰减，从而使正则化更加有原则和有效。

通过噪声和混沌实现正则化

让我们换个思路。如果不添加显式惩罚，我们是否可以通过让模型在训练中过得更“艰难”一些来正则化它？如果我们引入一点可控的混沌呢？

这就是 Dropout 背后的绝妙思想。在每个训练步骤中，我们随机地“丢弃”网络中的一部分神经元。也就是说，我们假装它们不存在，将其输出设置为零。想象一家公司，在任何一天，都有一半的员工被随机派回家。剩下的员工必须学会弥补空缺，并且不能过度依赖任何一个同事。

这正是网络中发生的事情。神经元无法协同适应以固化训练数据的奇特特征，因为它们的“合作者”是不可靠的。它们被迫学习更鲁棒、更冗余的特征。从统计角度看，我们可以将其建模为在连接上注入乘性噪声。数学分析揭示了两个效应：平均而言，这就像使用一个缩小版的网络，但它也给激活值带来了方差。网络必须学会在尽管存在这种噪声的情况下依然表现良好，这样做，它就成了一个更好的泛化器。

这种通过噪声进行正则化的原理出人意料地具有普遍性。以 Ghost Batch Normalization (GBN) 为例。GBN 不使用大而稳定的样本批次来计算归一化统计量，而是故意将批次分成更小的“幽灵”组，并在这些噪声更大、可靠性更低的组内计算统计量。这直接向网络的激活值中注入了数据依赖的噪声。同样，通过迫使模型对这些内部波动保持鲁棒，我们对其进行了正则化，并常常改善其最终性能。这个教训是深刻的：有时，让训练过程不那么稳定，反而能导向一个更稳定的最终解。

塑造输出与控制整体

到目前为止，我们一直关注权重和内部激活。但我们也可以通过直接控制模型的最终输出或其全局属性来正则化模型。

训练分类器的一个问题是它们可能变得过于自信。当我们使用“one-hot”目标向量——告诉模型输入 100% 是猫，0% 是其他任何东西——模型被鼓励使其输出概率尽可能极端。正确类别的 logits 被推向无穷大。这会产生一个尖锐、不容忍的损失景观。标签平滑提供了一个简单而优雅的解决方案：我们软化目标。我们可能不说标签是 100% 的猫，而是说它是 95% 的猫，另外 5% 分布在其他可能性中。这个小小的改变不鼓励极端的 logit 值，防止了过度自信，并创造了一个更平滑的优化问题，这通常会带来更好的泛化效果。

一个更强大的想法是控制网络学习的函数的整体“稳定性”。对于一个线性层 $y = Wx$ ，输入幅度的最坏情况下的放大由矩阵 $W$ 的最大奇异值给出，这个量被称为谱范数， $\|W\|_2$ 。如果这个值很大，输入的微小变化可能导致输出的巨大变化。在深度网络中，这种效应可以累积，导致混沌行为和不稳定的训练。谱范数正则化直接惩罚这个最大的奇异值。通过控制每一层权重矩阵的谱范数，我们可以保证整个网络是利普希茨连续的，这意味着它的输出不会因为微小的输入扰动而任意快速地变化。这提供了一个明确的、全局的稳定性保证——这是矩阵属性与学习到的函数鲁棒性之间一个了不起的联系。

隐形之手：隐式正则化

也许近年来最惊人的发现是，正则化可以在没有任何显式正则化器的情况下发生。优化行为本身，使用像随机梯度下降（SGD）这样的特定算法，就带有其内在的偏好，引导模型倾向于某些类型的解。这被称为隐式正则化。

这种效应在双下降现象中表现得最为显著。正如我们所见，经典的故事是验证误差遵循一个 U 形曲线。但对于大型的现代神经网络，可能会发生别的事情。如果我们让一个模型在完美记住训练数据（“插值阈值”）后继续训练很长时间，验证误差在达到峰值后，可能会再次开始下降，有时甚至低于其最初的最小值！

这是怎么回事？当一个模型大到有无数种不同的参数设置可以完美拟合训练数据时，优化器就需要做出选择。事实证明，SGD 不会随便选择任何一个解；它有自己的偏好。对于使用交叉熵损失的分类问题，SGD 有一种隐式偏好，倾向于最大化分类间隔的解——即正确 logit 与最大错误 logit 之间的距离。在所有完美的解中，它找到了在某种意义上是“最简单”和最鲁棒的那个。优化器本身正在执行一种隐藏的正则化行为。

这一启示以一种深刻的方式将优化和泛化领域联合起来。它告诉我们，我们选择的算法不仅仅是为了找到一个最小值，而是关于它找到了哪个最小值。我们给模型套上的“缰绳”并不总是我们明确附加的；有时，它就编织在学习过程本身的结构之中。

应用与跨学科联系

在我们迄今的旅程中，我们已经探讨了正则化的“是什么”和“怎么做”——即那些防止我们强大的深度学习模型失控的数学机制。我们已将其视为一种必要的约束，一种对神经网络无限能力的束缚。但要真正领会其重要性，我们现在必须追问“在哪里？”和“为什么？”。这个思想在哪里找到它的用武之地，又为何它对科学事业如此根本？

如果仅仅将正则化视为修复过拟合的补丁，那便只看到了这出大戏的开场。事实上，它是一条指导原则，使我们能够构建不仅准确，而且鲁棒、稳定，甚至能让人联想到自然界学习方式的模型。它是将智慧注入一个只有数据的系统中的艺术。让我们开始一次应用之旅，从现代人工智能的引擎到医学前沿，去发现这个简单而强大思想的美妙统一性。

塑造表示：从看透噪声到更广阔地思考

正则化的核心是帮助模型泛化——看到潜在的模式，即“柏拉图式的理想型”，而不是记住它所见的充满噪声、不完美的样本。一种经典方法是基于模型权重的大小增加惩罚，即权重衰减或 $L_2$ 正则化。另一种是 dropout，即在训练期间随机“关闭”神经元。这可以防止任何单个神经元变得过于重要，并迫使网络学习冗余、更鲁棒的表示。这个简单的想法可以被巧妙地改造，例如，在像 GoogLeNet 的 Inception 模块这样的复杂架构中丢弃整个并行通路，以确保没有单一的推理路线成为拐杖。

但这仅仅是个开始。我们不仅可以利用正则化来防止坏习惯，还可以主动塑造模型学习到的表示的质量。

想象一下，我们正在构建一个从照片中识别物体的系统。真实世界是嘈杂的；相机传感器可能会增加斑点，或者光线可能很差。我们希望模型学习到的“猫”的表示对这种噪声是不变的。压缩自编码器 (CAE) 正是通过引入一个巧妙的正则化惩罚来做到这一点的。它惩罚编码器输出对其输入的微小变化的敏感程度——从数学上讲，它惩罚编码器雅可比矩阵的范数。通过这样做，我们迫使编码器学习一种映射，将一个充满噪声的输入点邻域“压缩”到潜在空间中的一个单一、稳定的表示中。模型学会了忽略分散注意力的噪声，捕捉数据的本质。有趣的是，这个框架揭示了，环境中噪声越多（输入噪声方差 $\sigma^2$ 越大），我们就需要施加越多的约束（更大的正则化系数 $\lambda$ ）来学习底层现实的稳定表示。

这种塑造表示的思想延伸到了我们今天拥有的最先进的模型中。考虑像 Transformer 这样的大语言模型内部的注意力机制。在处理一个句子时，模型必须决定哪些其他词与当前词最相关。没有引导，注意力可能会变得“尖锐”，将其所有精力集中在一个看似偶然重要的词上，而忽略了更广泛的上下文。这是一种过拟合。我们可以通过向损失函数添加一个熵正则化项来抵消这一点。熵是衡量不确定性或随机性的指标。通过奖励注意力分布中更高的熵，我们鼓励模型“分散押注”，关注更广泛的词汇。这种简单的约束行为教会模型构建更鲁棒、更全面的语言解释，防止其产生“隧道视野”。

铸就稳定：GAN 对抗之舞中的正则化

稳定性的挑战在生成对抗网络（GAN）的世界中表现得最为明显。GAN 是两个网络之间的博弈：一个试图创造逼真数据（例如人脸图像）的生成器（伪造者），以及一个试图区分真实数据与伪造数据的判别器（侦探）。这种对抗动态异常强大，但出了名的不稳定。学习过程可能崩溃，伪造者产生垃圾，或者侦探陷入困境。

正则化是裁判这场博弈并确保其富有成效的关键。在这里，它的作用不仅仅是防止传统意义上的过拟合，而是要对参与者强制执行基本属性以维持博弈。最大的问题之一是侦探的判断变得过于“尖锐”或“跳跃”。图像中的微小变化可能导致其判断从“绝对真实”剧烈翻转到“绝对伪造”。这为伪造者提供了混乱且无益的信号。

为了解决这个问题，我们需要让侦探的函数变得平滑。两种著名的技术正是为此而生。带梯度惩罚的 Wasserstein GAN (WGAN-GP) 添加了一个正则化器，明确惩罚判别器梯度的范数，使其在各处都接近 1。这在侦探的函数上强制施加了一个平滑的 1-利普希茨约束。另一种方法是R1 正则化，用于像 StyleGAN2 这样的顶级模型，它惩罚真实数据上的梯度范数，这具有驯服判别器的类似效果。一个相关且更为基础的技术是谱范数正则化，它约束了判别器网络中每一层的“拉伸因子”。通过确保没有一层能过分放大其输入，我们可以控制整个函数的光滑度。在这种对抗性背景下，正则化不仅是一种统计工具；它是一种动态稳定性原则，将一场混乱的斗争转变为一支富有成效的舞蹈。

跨越时间的学习：对抗遗忘与鲁莽的工具

大多数机器学习模型都在静态数据集上进行训练。但是当世界发生变化，或者当一个智能体必须在一生中持续学习时，会发生什么？两个巨大的挑战出现了：灾难性遗忘和鲁莽的决策。正则化为这两者提供了优雅的解决方案。

想象一下训练一个网络下国际象棋。它成为了一个特级大师。现在，你训练同一个网络下围棋。在这个过程中，它可能会完全覆盖掉其来之不易的国际象棋知识——这种现象被称为灾难性遗忘。我们如何能在不破坏旧知识的情况下学习新知识？锚定正则化提供了一个优美的答案。我们不再仅仅惩罚权重过大，而是惩罚它们偏离学习第一个任务后的值。我们在旧解周围创建了一个“保护场”。这种方法的一个高度复杂的版本，弹性权重巩固 (EWC)，使这个场具有各向异性。它使用信息论中的一个概念——费雪信息矩阵——来识别哪些参数对旧任务最重要。然后，它大力保护这些关键参数，同时允许不那么重要的参数自由改变以学习新任务。这与大脑中记忆巩固的方式惊人地相似，保护核心知识的同时保持可塑性。

同样的原则也适用于强化学习 (RL)，其中智能体学习做出一系列决策以最大化奖励。一个学习玩游戏或在在线商店中进行推荐的深度 Q 网络，很容易对其经验回放缓冲区中的有限经验产生过拟合。所有标准工具——权重衰减、dropout、提前停止——在这里都至关重要。但 RL 引入了新的挑战。例如，智能体可能会变得过于乐观，系统地高估其行动的未来回报。这种“最大化偏差”会破坏学习的稳定性。像双 Q 学习这样的先进技术，本质上是对学习目标本身的一种正则化，提供更稳定、偏差更小的估计，引导智能体走向更鲁棒的策略。

通往自然科学的统一桥梁：病毒进化的案例

也许正则化最鼓舞人心的应用在于其弥合机器学习与其他科学学科之间差距的力量，使我们能够在巨大的不确定性下解决现实世界的问题。

思考一下预测病毒进化的紧迫挑战。一个病毒学家团队希望建立一个模型，能够预测病毒表面蛋白的哪些突变将使其能够逃避我们免疫系统的抗体。他们可以生成少量实验数据，但可能的突变数量是巨大的。他们陷入了一个经典的科学困境：一个高维问题，数据点却很少 ( $n \ll d$ )。没有正则化，他们构建的任何模型都将毫无用处，无可救药地过拟合于他们少量实验中的噪声。

在这里，正则化成为编码科学知识的语言。

一个简单的  $L_2$ 惩罚（岭回归）可以使问题可解，收缩模型的系数并降低其方差。
一个  $L_1$ 惩罚（Lasso）更进一步。它迫使模型的许多系数变为精确的零，从而执行自动特征选择。这与生物学上的先验知识完美契合，即只有病毒蛋白中少数“热点”残基——那些位于实际抗体结合位点（即表位）的残基——才是导致逃逸的原因。由 $L_1$ 正则化产生的稀疏模型反映了这一生物学现实。
然后我们可以提升到这种综合的顶峰：贝叶斯正则化。在这里，我们可以将我们的生物学直觉直接转化为模型的数学公式。我们知道，病毒表面的突变比深埋在其核心的突变更有可能影响抗体结合。我们可以通过对模型的系数设置不同的先验来编码这一知识。我们告诉模型，“对与埋藏残基相关的特征持怀疑态度，但对与表面残基相关的特征持开放态度。”我们通过对“埋藏”特征施加更强的正则化惩罚，对“表面”特征施加较弱的惩罚来实现这一点。

从这个角度看，正则化从一个纯粹的数学便利工具，转变为一个深刻的科学发现工具。它使我们能够将辛苦获得的领域专业知识与有限的经验数据融合起来，构建不仅具有预测性，而且可解释并与我们对世界的理解相一致的模型。

从确保语言模型思考得更广阔，到稳定 GAN 的精妙之舞，再到帮助终身学习者记住它的过去，最后到指导我们寻找对抗疾病的武器，约束的原则是普适的。它是一只安静的、引导的手，将原始的计算能力转变为开始类似于真正理解的东西。