彩票假说

玻尔百科

定义

彩票假说是机器学习领域的一种理论，认为大型神经网络中存在被称为“中奖彩票”的稀疏子网络，这些子网络能够通过原始初始化参数训练出与原模型相当的准确率。中奖彩票的成功不仅取决于剪枝后的结构，还关键性地依赖于其特定的初始权重值。虽然该假说与压缩感知等数学领域密切相关，但在实际应用中通常需要结构化剪枝，以解决非结构化稀疏在现代硬件上的运行效率问题。

核心要点

彩票假说认为，一个大型神经网络包含一个稀疏子网络，即一张“中奖彩票”，该子网络可以从其原始初始化状态开始训练，并达到与完整网络相当的准确率。
一张“中奖彩票”的成功关键取决于其剪枝后的结构和其特定的初始权重值，这一概念被称为“初始化的祝福”。
LTH 的实际应用需要结构化剪枝，因为非结构化稀疏在现代硬件上效率低下，这在理论速度和实际速度之间造成了权衡。
这些稀疏子网络的存在可以通过压缩感知和最优实验设计等其他科学领域的视角来理解，从而揭示其深厚的数学基础。

引言

在追求更小、更快、更高效的人工智能过程中，主流方法一直是先训练大型、过参数化的神经网络，然后对其进行剪枝。这种训练后压缩的方法虽然有效，但引出了一个根本性问题：我们能否从一开始就识别出最高效的网络结构？本文深入探讨了彩票假说（LTH），这是一个突破性的理论，它认为在每个大型、随机初始化的网络中，都存在一个小的“中奖彩票”子网络，注定能取得高性能。这一概念改变了我们对大型模型的看法，不再视其为效率低下的庞然大物，而是孕育最优子网络的丰富温床。在接下来的章节中，我们将首先探讨 LTH 的“原理与机制”，定义什么是中奖彩票，并研究它们为何存在。随后，我们将审视其“应用与跨学科联系”，在实用的人工智能工程与信息论、统计学等领域的深奥理论概念之间架起一座桥梁。

原理与机制

想象一位雕塑家面对一块巨大的大理石。传统做法是训练艺术家的手艺，给他们最好的工具，让他们凿掉石料，直到杰作浮现。这正是我们过去缩小和优化人工神经网络的方式：我们首先训练一个龐大而复杂的网络——整块大理石——然后像凿掉多余的石料一样，小心翼翼地剪掉不必要的连接。这种方法有效，但感觉有点……马后炮。如果杰作早已隐藏在石块之中，只待被发现呢？

彩票假说（LTH）提出的观点与此类似。它认为，在一个大型、随机初始化的神经网络中，存在一个微小的子网络——一张“中奖彩票”——从一开始就注定要取得卓越的成就。这不仅仅是一个更小的网络，而是一个特殊的网络。如果你能找到这个子网络并将其独立训练，它能达到与原始庞然大物相同甚至更好的性能，而且通常用时更短。这个简单的想法具有深远的影响，它将我们对过参数化网络的看法从仅仅是臃肿低效，转变为孕育非凡才能的丰富温床。

“中奖彩票”究竟是什么？

要理解其中的奥秘，我们必须做到精确，因为魔鬼在细节之中。神经网络的参数——其权重和偏置——只是一长串数字，一个我们可以称之为 $w$ 的向量。一个初始的、未经训练的网络是一个随机数向量 $w_0$ 。子网络由一个掩码（mask） $m$ 定义，它是一个与 $w$ 大小相同的、由 1 和 0 组成的向量。掩码中为 1 的位置，连接被保留；为 0 的位置，连接被剪枝或设为零。剪枝操作是一个逐元素相乘，记为 $w \odot m$ 。

那么，什么是中奖彩票呢？它不仅仅是掩码，也不仅仅是结构。一张中奖彩票是稀疏掩码（ $m$ ）及其所选中的原始初始化值（ $w_0$ ）的特定组合。

让我们明确这一点。假设你有一个稠密网络，其初始权重为 $w_0$ 。你训练它，得到一个最终网络 $w_{\text{dense}}$ 。现在，假设你找到了一个特殊的掩码 $m$ 。LTH 声称，如果你回到最初始的状态，将该掩码应用于初始权重，得到一个稀疏的起点 $m \odot w_0$ ，然后只训练这些幸存的权重，最终得到的稀疏网络 $w_{\text{sparse}}$ 可以达到与 $w_{\text{dense}}$ 相当的性能。

这个假说最令人震惊的部分，也是其神秘之处的关键，在于当你“作弊”时会发生什么。如果你找到了中奖掩码 $m$ ，但没有使用原始的初始化值，而是用一组全新的随机数“重新初始化”幸存的权重，会怎么样？魔法消失了。这个子网络无法训练到同样的高性能。这个关键实验被反复验证，它告诉我们，中奖彩票不仅仅是找到正确的连接，更是找到那些在随机初始化的“抽奖”中被赋予了正确初始数值的连接。

将幸存权重重置回训练开始时的值的过程被称为回溯（rewinding）。一些研究甚至表明，不必完全回溯到最开始；回溯到最初几个训练步驟之后的状态通常就足够了。这暗示着最初的几次梯度更新可能对权重进行了一些关键的初步塑造。进一步的研究，例如在受控实验中，甚至可以揭示网络的哪些层从这种回溯中受益最多，这表明初始化的“祝福”可能并非均匀分布。

价值连城的问题：为什么中奖彩票会存在？

发现这些彩票的存在是一回事，理解为什么存在则是另一回事。这个问题带领我们踏上了一段迷人的旅程，深入探索深度学习的工作原理。答案并非唯一，而是一系列相互关联且精妙想法的集合。

假说 1：初始化的祝福

随机性是神经网络生长的土壤。当我们初始化一个网络时，我们是在从一个随机分布中抽取数百万个数字。LTH 认为，这不仅仅是一锅混沌均匀的汤，而是一场彩票。纯粹出于偶然，一些子网络生来就“幸运”。

幸运意味着什么？在一个理想化的场景中，我们可以想象存在一个“真实”的稀疏连接集合，它能完美地解决一个问题。随机初始化就像在黑暗中向靶子投掷飞镖。你的初始权重恰好在“真实”连接上较大，而在所有其他连接上较小的概率是多少？非常低，但不是零。考虑到一个大型网络中可能存在的子网络数量极其庞大，至少有一个子网络中得这个不太可能的头獎，就变得合理了。

这种“幸运抽签”可能不仅仅在于拥有较大的初始量值。一个有趣的可能是，中奖彩票的初始权重相对于最终完全训练好的权重，已经具有正确的符号（正或负）。训练过程于是变成一个更简单的任务，仅仅是调整这些权重的量值，而无需翻转它们的基本方向。在简单模型上的实验表明，中奖彩票在通往解决方案的路径上确实能保留更高比例的初始符号，这为这个精妙的想法提供了佐证。

这种初始配置也极其脆弱。如果中奖彩票的能力来自于这种特定的、幸运的 initialization，那么它应该对扰动敏感。事实也正是如此。实验表明，在训练前回溯的中奖彩票权重上添加哪怕是微小的随机噪声，也会显著降低其最终性能。这种敏感性证实了，中奖彩票不仅仅是一个大致不错的起点，而是一个高度特定的、精细调整的初始状态，是在随机性的熔炉中形成的易碎水晶。

假说 2：一条更平滑的胜利之路

或许，中奖彩票的魔力不仅在于其起始位置，更在于它所开启的旅程。把训练网络的过程——梯度下降——想象成一个徒步者试图在一片广阔的山脉（即“损失景观”）中找到最低点。对于一个巨大而稠密的网络来说，这个景观可能极其复杂，充满了险峻的山峰、深谷和高原。

中奖彩票可能是一个定义了更简单、更有利景观的子网络。就好像初始化的彩票不仅将我们的徒步者放在一个有希望的起点，还揭示了一条预先开凿好的、直接平滑通向山下的峡谷。

我们可以通过研究优化的数学原理来形式化这种直觉。损失景观的“曲率”由一个称为海森矩阵（Hessian）的矩阵描述。这个海森矩阵的特征值告诉我们景观在不同方向上的陡峭或平坦程度。一个特征值差异很大的景观（一些非常大，一些非常小）是“病态的”（ill-conditioned），梯度下降难以驾驭。而一个特征值更均匀的“良态的”（well-conditioned）景观则要容易得多。理论分析表明，一个稀疏子网络可以对应一个具有不同且可能条件更好的海森矩阵的优化问题。这个子网络不仅可能收敛得更快，甚至可能更偏好一个不同的、更激进的学习率，因为它正在一个更温和的景观中导航。

假说 3：结构与随机性之舞

真实世界的网络训练不是一个干净、确定性的下坡滑行，而是一场充满噪声、混乱的舞蹈。使用随机梯度下降（SGD）——它在小批量随机数据上计算梯度——会给训练过程引入噪声。这种噪声是一把双刃剑：它能帮助模型跳出糟糕的局部最小值，但也可能将其从一条有希望的轨迹上撞开。

中奖彩票的结构似乎与这种训练噪声有深刻的互动。中奖彩票的路径是否定义得足够好，以至于能抵抗 SGD 的随机扰动？或者，它实际上需要特定量的噪声才能找到出路？

这引出了关于批量大小（batch size）等超参数作用的有趣问题。较小的批量大小会导致噪声更大的梯度估计。研究“临界批量大小”——即泛化性能开始下降的点——的实验表明，最优噪声量可能取决于网络的稀疏度。一张非常稀疏的彩票与训练算法随机性的关系，可能与一张更稠密的彩票不同。这种稳定性也可以通过观察最终准确率的方差来探测，其中训练运行之间唯一改变的是数据批次的随机顺序。一张鲁棒的彩票可能表现出很小的方差，表明其轨迹稳定，并且不太依赖于随机舞蹈的具体路径。

这揭示了一个深刻的统一体：理想的网络并不仅仅由其架构定义。它是其架构（掩码）、其特定的初始化（幸运数字）以及学习算法的动态（SGD的噪声之舞）三者相互作用下产生的涌现属性。一张中奖彩票是在这场三重奏中胜出的子网络，是结构、潜力和过程的完美汇合。它提醒我们，在深度学习的世界里，我们不只是在建造雕像，而是在培育花园，其中种子的质量和环境的性质与植物本身的蓝图同样重要。

应用与跨学科联系

我们已经探索了彩票假说的原理和机制，发现在庞大、看似无法穿透的大型神经网络丛林中，存在着精简、优雅的子网络——“中奖彩票”——它们可以完成其稠密母网络的所有工作。这是一个引人入胜的发现，但它仅仅是一种奇闻轶事，是现代机器学习的一种小把戏吗？还是有更深层的意义？

一个科学思想的真正魅力不仅在于其巧妙，更在于其影响力。它能帮助我们构建更好的工具吗？它能与其他思想联系起来，编织出一幅更丰富的理解图景吗？在本章中，我们将看到彩票假说两者兼备。它不是一座孤岛，而是一座桥梁，将人工智能的实践工程与信息、优化和稀疏性的深刻普适原理联系起来，这些原理在许多科学领域都引起共鸣。我们的探索将带领我们从工坊走向象牙塔，展示这一个思想如何帮助我们制造更快的机器，同时揭示科学思想的深刻统一性。

工程的艺术：构建更快、更精简的机器

彩票假说最直接、最实际的前景在于模型压缩领域。从手机摄像头到全球气候模型，驱动这一切的神经网络都是庞然大物，消耗着巨大的能源和计算资源。找到它们的“中奖彩票”为使它们变得更小、更快、更高效提供了一条诱人的途径。但正如任何优秀的工程师所知，魔鬼在细节之中。

面向现实世界的剪枝：结构为王

想象一下，你有一串缠绕在一起的节日彩灯，想去掉一半的灯泡来省电。你可以这里剪一个，那里剪一个。剩下的灯串仍然是一团乱麻，只是灯泡少了些。这就是非结构化剪枝 (unstructured pruning)。虽然它减少了总计算量，但权重缺失的不规则模式很难被现代计算机硬件利用，因为硬件是为处理稠密、规则的计算块而设计的。一个更好的方法是移除整段连续的灯串。这就是结构化剪枝 (structured pruning)。在神经网络中，这相当于移除卷积神经网络（CNN）中的整个滤波器或 Transformer 中的整个注意力头。虽然这看起来可能不那么“精细”，但它会产生一个更小、更规则的网络，硬件可以以闪电般的速度处理。一个自然的问题是：当我们局限于这些更粗粒度的、结构化的剪枝形式时，彩票假说是否仍然成立？实验表明，确实如此。通过在相同稀疏度水平上比较结构化和非结构化剪枝，我们发现通过移除整个组件确实可以找到中奖彩票，从而得到不仅理论上高效、而且在真实硬件上实际运行速度也很快的稀疏网络。这一见解对于将该假说转变为现实世界的工程工具至关重要。

训练时间悖论

所以，一个稀疏网络在每个训练步骤中需要执行的计算（FLOPs）更少。那么它的训练速度一定更快，对吗？在这里我们遇到了一个奇妙的悖论。训练一个网络的总时间是每步时间乘以步数。虽然稀疏的“彩票”每步耗时更短，但它有时需要更多的训练步数才能达到与其稠密母网络相同的准确率。稀疏网络的优化景观可能更加险峻，需要更长、更谨慎的下降过程。

此外，“每步时间”并不仅仅取决于计算量。正如我们所见，非结构化稀疏的不规则性在硬件上可能效率低下。一个参数，我们称之为硬件效率因子 $\eta$ ，可以捕捉这一点。一个稠密网络可能以 $\eta = 0.60$ （硬件峰值速度的 60%）运行，而一个稀疏、不规则的网络由于内存访问瓶颈可能只能达到 $\eta = 0.10$ 。一个稀疏网络的 FLOPs 只有十分之一，但如果其效率足够低，每步耗时更长是完全有可能的。

这就产生了一个有趣的权衡。是运行一个硬件效率高但步数少的稠密模型更好，还是运行一个硬件效率低但步数多的稀疏模型更好？答案并不显而易见，取决于网络稀疏度、训练算法和硬件的具体情况之间的微妙平衡。中奖彩票并不总是那个能最快得出解决方案的；计算的实用经济学是一门微妙的学问。

超越图像分类器

彩票假说的原理并不局限于最初发现它的图像分类器。它们延伸到各種各樣的网络架构中。以循环神经网络（RNNs）为例，它们是处理语言和时间序列等序列数据的主力。RNN 的一个关键特征是权重绑定（weight tying）——同一组权重在序列的每一步都被反复应用。这种重复结构极大地减少了独立参数的数量，它会影响我们找到中奖彩票的能力吗？

有人可能会认为，权重绑定严重限制了稀疏子网络的搜索。如果你剪掉一个权重，它在每个时间步都会消失。然而，实证研究表明，即使在这些权重绑定的系统中，中奖彩票依然会出现。将标准 RNN 与一个假设的“非绑定”版本（每个时间步都有自己的一套权重）进行比较，结果显示，彩票假说现象足够稳健，即使在这种强结构约束下也能存在。这证明了该假说的普适性：稀疏性是这些学习系统的基本属性，而不仅仅是某一特定架构的产物。

思想的交响曲：LTH 在机器学习管弦乐中的角色

伟大的科学思想很少独奏。它们会加入既有概念的管弦乐队，创造出前所未有的和谐与新旋律。彩票假说也不例外；它与机器学习中其他强大的技术完美地协同演奏。

学徒与大师

想象一位智慧、经验丰富的大师工匠（一个大型“教师”网络）和一个年轻、敏捷的学徒（一个小型“学生”网络）。大师技艺精湛但速度慢、成本高。学徒速度快但缺乏大师的知识。知识蒸馏（KD）是一种技术，教师不仅教给学生正确答案，还教给它自己的思考过程——即它为所有可能答案分配的丰富、软化的概率。

现在，如果我们将这与彩票假说结合起来会怎样？我们可以使用 LTH 来找到一个不仅小，而且结构最优的学徒——一个“中奖彩票”子网络。这个稀疏的学生然后向强大的老师学习。结果是一种美妙的协同作用：彩票提供了一个计算高效且高度可训练的架构，而蒸馏提供了丰富、高质量的学习信号。这种组合使我们能够创建稀疏模型，其准确率可以远超单独从原始数据中学习所能達到的水平，有效地将更大模型的“智慧”继承到一个精简、高效的形式中。

温和的训练艺术

正如我们之前提到的，从头开始训练一个非常稀疏的网络可能是一件困难的事情。损失景观可能崎岖不平，充满陷阱，导致训练过程变得不稳定或停滞不前。引导下降过程的梯度可能会剧烈波动。有没有办法让这条路更平坦呢？

一种优雅的技术是标签平滑 (label smoothing)。我们不再告诉模型一张猫的图片是 100% 的猫和 0% 的狗，而是“平滑”标签，告诉它这有（比如说）99% 的可能是猫，还有很小的可能是其他东西。这个小小的改变起到了一种正则化的作用，阻止模型变得过于自信，并使优化过程更加稳定。

这种稳定性有一个奇妙的副作用。通过在训练过程中平息梯度的“风暴”，标签平滑可以让我们成功地训练更稀疏的网络。它就像一个向导，帮助这些极简架构找到通往良好解决方案的道路。这种相互作用表明，找到中奖彩票不僅關乎初始网络结构，还關乎训练过程本身的动态。稳定训练的技术使得找到那些原本无法训练的、更极端、稀疏度更高的中奖彩票成为可能。

宏大的统一：物理学与信息论的回响

在这里，我们退后一步，提出一个更深层次的问题。彩票假说仅仅是关于人工神经网络的一个巧妙观察，还是一个更普适原理的影子？最令人兴奋的联系往往是那些跨越看似迥异的领域，揭示出自然界在其优雅之中，反复使用着相同的思想。

机器中的幽灵：压缩感知

在信号处理领域，有一个革命性的思想叫做压缩感知 (compressed sensing)。它告诉我们，如果一个信号已知是稀疏的（即其大部分分量为零），那么它就可以从数量惊人少的测量中完美重建，远少于传统理论所建议的数量。例如，一张稀疏的图像可以从少数随机的像素读数中重建出来。

这听起来熟悉吗？让我们用这种语言重构彩票假说。我们想要找到的“信号”是那套完美的网络权重。“中奖彩票”根据定义是一个稀疏信号。“测量”是我们从训练数据中获得的信息。于是，该假说就变成了一个关于稀疏恢复的陈述：一个稀疏子网络（信号）可以从给定的数据集（测量）中被有效地确定。

这个类比不仅仅是诗意的。我们可以将其形式化。网络架构定义了一个可能特征的“字典”，找到中奖彩票就像使用正交匹配追踪（OMP）这样的算法来寻找表示目标函数所需的少数几个字典原子。这个框架使我们能够研究诸如测量噪声（数据的信噪比）和特征相似性（字典的互相关性 (mutual coherence)）等因素如何影响我们成功识别彩票的能力。此外，我们可以将寻找稀疏网络的过程重新想象成一个带有 $\ell_1$ 惩罚项的直接优化问题——这是压缩感知中的经典技术——而不是“剪枝”，并探索像近端牛顿法这样的高级优化器如何比简单梯度下降更有效地找到这些稀疏解。

预测彩票

与压缩感知的联系不仅是描述性的，它也可以是预测性的。压缩感知理论提供了精确的数学“相变”。它告诉我们，对于给定的测量次数（ $m$ ）和信号维度（ $n$ ），我们可以可靠恢复的最大稀疏度（ $k$ ）是多少。

我们可以将此直接应用于神经网络。对于给定的网络架构（它决定了我们的有效 $m$ 和 $n$ ）和目标稀疏度，我们可以使用压缩感知的公式来预测中奖彩票是否存在以及是否可被找到。这是一个惊人的飞跃。一个为信号处理开发的理论，可以对一个完全不同领域中的智能结构做出定量预测。这表明剪枝的成功并非任意，而是受到支撑现代成像和通信的相同基本信息数学定律的支配。

统计学家的困境：最优实验

让我们以最后一个精妙的联系来结束。想象你是一位科学家，可以部署一组 $m$ 个不同的传感器来测量某个由 $d$ 个参数描述的未知现象。你只能负担得起开启其中的 $k$ 个。你应该选择哪 $k$ 个传感器来获取最多的信息并最小化参数估计的误差？

这是统计学领域最优实验设计中的一个经典问题。最重要的标准之一是 A-最优性 (A-optimality)，它旨在最小化参数估计的平均方差。这是一个困难的组合问题，但对于小型系统，可以找到真正最优的传感器集合。

现在，让我们把它映射到我们的世界。让传感器成为线性网络中权重矩阵的行。让 LTH 中的简单剪枝启发式方法——保留量值最大的权重——成为我们选择传感器的方法。这种启发式方法对应于选择矩阵中具有最大 $\ell_2$ 范数的行。这种简单的贪婪启发式方法好用吗？它与统计学上的“最优”选择有任何联系吗？

在一个引人注目的跨领域实验中，人们可以计算出 A-最优的传感器集合，并将其与简单量值启发式方法选择的集合进行比较。惊人的结果是，两者往往非常接近。一个在深度学习中使用的简单、计算成本低的经验法则，似乎近似于统计理论中一个深刻、计算困难问题的解。这表明，驱动中奖彩票成功的原则并非任意，而是与信息和最优推断的基本原理深深地交织在一起。看似工程上的“技巧”(hack)，实际上可能是一个更深刻统计真理的回响。

从一个实用的工程技巧出发，彩票假说带领我们进行了一场涵盖机器学习、优化理论和统计学的宏大巡礼。它有力地提醒我们，最深刻的科学原理往往也是最具统一性的，它们以不同的面貌出现，但总是吟唱着同样一首关于优雅和简洁的底层之歌。