
人工智能的世界正被日益庞大的神经网络所主导,一些模型甚至包含数万亿个连接。如此巨大的规模释放了惊人的能力,但也提出了一个根本性问题:所有这些复杂性真的都是必需的吗?对效率的追求带来了一项引人入胜的发现,它挑战了我们对深度学习工作方式的理解。本文将介绍彩票假说,这是一个革命性的思想,它表明网络成功的秘诀不在于其整体规模,而在于隐藏在其中的微小、预先存在的子网络。我们将踏上理解这一概念的旅程,从其核心原理开始。第一部分“原理与机制”将使用我们熟悉的彩票类比,来解析这些“中奖彩票”的数学和概念基础。随后的“应用与跨学科联系”部分将展示这一思想如何改变人工智能模型的优化,并揭示其在生物学和计算机科学等不同领域中令人惊讶的相似之处。
既然我们已经接触到了在人工智能这场巨大彩票中“中奖彩票”这一诱人的想法,那就让我们卷起袖子,一探究竟。这一切是如何运作的呢?为了建立我们的理解,我们不会从最复杂的事情开始。相反,我们将从我们都能直观理解的东西开始:一种简单的日常彩票。通过理解支配它的原理,我们会发现自己出乎意料地能够很好地掌握彩票假说背后的深刻思想。
想象一场慈善抽奖。一个大鼓里装满了彩票,编号从 101 到 250。你买了一张。你中奖的机会有多大?嗯,这取决于你所说的“中奖”是什么意思。也许中奖号码必须是 7 的倍数,或者它的各位数字之和必须是 10。你如何计算你的机会?
这是一个经典的概率问题。首先,你数出所有可能性。鼓里有 张彩票。这是我们的样本空间——所有可能结果的集合。然后,你数出“有利”的结果。你会数出是 7 的倍数的彩票数量,数出各位数字之和为 10 的彩票数量,并小心不要重复计算任何同时满足两个条件的彩票。这就是容斥原理的核心,一个基本的计数工具。概率就是有利结果数与总结果数的比值。这是一个计数的博弈。
但现实中的彩票很少这么简单。考虑一种国家彩票,从 40 个数字中抽取 6 个不重复的数字。你买了一张有自己 6 个数字的彩票。你恰好匹配中奖号码中 3 个的概率是多少?彩票从 40 个球中抽出 6 个的方式有 种,这是一个相当大的数字:3,838,380。要找到你恰好匹配 3 个数字的方式数量,你必须在你选的 6 个数字中选择 3 个作为中奖数字(),另外 3 个作为未中奖数字,从未中奖的 34 个球中抽取()。实现这种部分中奖的总方式数为 。
你恰好匹配 3 个数字的概率就是 ,可以简化为 ,约等于 3%。注意数字变得多么天文般巨大。可能性的空间是浩瀚的,要找到一个“中奖”组合,即使是部分中奖的组合,也无异于大海捞针。
那么,买彩票到底是不是个“好”主意?这就引出了期望值这个关键概念。想象一个慈善筹款彩票,售卖 5000 张彩票,每张 5 美元。设有一个 1000 美元的大奖和十个 50 美元的安慰奖。如果你买一张彩票,你的平均净收益是多少?你有 的微小机会获得 995 美元的利润,有 的稍大机会获得 45 美元的利润,还有 的极大机会损失 5 美元。期望值 是每个结果乘以其概率的总和:
平均而言,你每次玩都会预期损失 4.70 美元。那么为什么人们还要玩呢?答案在于方差。方差衡量的是结果的分布或风险。对于一个奖金为 、中奖概率为 的简单彩票,利润的方差可以表示为一个非常简单的表达式:。注意到奖金 是平方的!这意味着拥有巨额奖金的彩票具有极大的方差。大多数人只损失一点点,但有一个人会赢得很多。正是这种高方差——这种改变人生的微小可能性——使得这个游戏尽管期望值为负,却在心理上如此引人入胜。
现在,让我们进行一次飞跃。这跟神经网络有什么关系呢?彩票假说提出了一个优美而深刻的类比:
该假说指出,在这个庞大的潜在子网络集合中,存在着少数特殊的“中奖彩票”。这些子网络从它们随机诞生(初始化)的那一刻起,就具有独特的结构,能够有效地学习。如果你能找到一个,你就可以只训练那个稀疏的子网络,并达到与整个、计算成本高昂的密集网络一样好,甚至更好的性能。
这是一个惊人的论断。它表明,过参数化——即拥有的权重远超你表面上所需要的数量——不仅仅是关于蛮力,而是关于创造一个足够丰富的子网络“原始汤”,从中可以诞生一个胜利者。密集网络不是解决方案;它是包含解决方案的彩票。
我们该如何着手形式化地寻找中奖彩票呢?让我们建立一个简单的数学模型,一个“玩具宇宙”,来理解其中涉及的原理。
想象一个网络包含 个潜在的“中奖子网络”,每个子网络需要一组特定的 个参数处于激活状态。我们可以将随机剪枝网络的过程建模为一系列独立的抛硬币:每个参数以概率 (“存活率”或密度)被保留,否则被丢弃。
对于我们候选的子网络中的任何一个要存活下来,其所有 个参数都必须被保留。这个概率是 。由于这通常是一个非常小的数,该子网络未被找到的概率是 。
如果我们假设我们的 个候选子网络是不相交的(它们不共享参数),那么它们的存活事件是独立的。没有一个在剪枝中存活下来的概率是 。因此,至少有一个存活下来的概率就是一减去这个值:。
最后,仅仅拥有正确的结构并不能保证胜利。训练过程本身可能是不稳定的。假设如果我们找到了一个有效的子网络,它有概率 成功训练到高准确率。那么,找到并成功训练一个中奖彩票的总概率是:
这个简单的公式极富洞察力。它告诉我们,成功的机会关键取决于网络的密度()、解的复杂性()、可能解的数量()以及我们训练算法的稳定性()。它将“搜寻”这个模糊的概念转化为了一个定量的关系。
但是,这个谜题还有另一个关键部分:初始化。LTH 声称,仅仅找到正确的网络结构是不够的;你必须从其原始的初始权重开始训练。这引出了回溯(rewinding)的概念。你训练完整的网络,通过剪枝找到一个好的子网络,然后将该子网络的权重“回溯”到训练早期某个时间点的值。
但是回溯到哪个点呢?一个引人入胜的模型表明,最终准确率 取决于两个因素:经过 次训练迭代后的训练进度 ,以及网络的剩余容量 ,它取决于其稀疏度 。一个合理的模型可能看起来像这样:。例如, 可能是一个饱和函数,如 ,而 是一个幂律函数,如 。为了达到一个目标准确率,比如 ,我们可以解出最小的回溯迭代次数 。这种分析常常揭示,最佳的回溯点不是第零次迭代,而是在训练开始后不久,给权重足够的“动量”以走上正确的轨道。
我们已经确定了这些中奖彩票的存在,并且它们的初始状态是关键。但是为什么?中奖彩票的初始权重到底有什么特别之处?仅仅是随机运气吗?证据指向了更深层次的东西。
一个主要的假说是关于符号保留(sign preservation)。想象一下,对于一个给定的学习问题,存在一个“理想”的最终权重集。学习过程的一个重要部分是确定每个权重应该是正还是负。如果一个中奖彩票的初始随机权重,纯粹出于偶然,其大部分连接已经具有正确的符号呢?如果是这样,训练过程就不必浪费时间去翻转符号;它可以完全专注于调整权重的大小。
这是一个可检验的想法。在一个使用简单线性模型的受控实验中,可以从相同的初始化开始训练一个密集模型和一个剪枝后的“彩票”。然后我们可以测量两个模型中保持其原始符号的权重比例,我们称之为 和 。实验常常表明,当中奖彩票达到“中奖”性能时,其符号保留率大于或等于密集模型()。这表明初始符号构成了最终解决方案的一个粗略的、低频的蓝图。中奖彩票不仅仅是一个随机的子网络;它的初始结构已经与问题的解空间景观相对齐。
最后,一个真正的中奖彩票应该不仅仅是一次性的侥幸。它应该代表一条通往解决方案的稳健且稳定的路径。现代神经网络的训练是一个随机过程,深受数据小批量(minibatch)随机顺序的影响。如果一个子网络真的是“中奖者”,它应该对这种随机性相对不敏感。我们可以通过多次从相同的初始化训练同一个彩票,只改变数据洗牌顺序,并测量最终准确率的方差来检验这一点。一个好的彩票应该表现出低方差。实验表明,这种稳定性也与训练中使用的批量大小(batch size)有关;更大的批量减少了梯度估计中的噪声,导致更具确定性的训练和更低的方差,正如人们可能预期的那样。对于全批量更新(其中梯度是在整个数据集上计算的),由于过程完全是确定性的,不同运行间的方差变为零。
所以,我们从一个简单的抽奖活动,一路探索到了人工智能的前沿。这些原理惊人地统一。在这两个世界里,我们都在一个巨大的可能性空间中寻找一种罕见的配置。但与国家彩票不同,神经网络中的中奖彩票似乎并非完全随机。它们是“生来幸运”的子网络,被赋予了一种初始结构——也许是其权重的符号——使它们特别擅长学习。找到它们不仅仅是为了让我们的模型更小更快;更是为了理解神经网络学习的本质。
说到底,一张中奖彩票是什么?乍一看,它是纯粹、盲目运气的象征——一个让穷人变王子的随机侥幸。但从科学的角度来看,它具有更深刻的意义。它是从一个天文数字般巨大的可能性空间中选出的一个单一、正确的元素组合。对于典型的“49选6”彩票,有近 1400 万种可能的组合。选对的机会微乎其微。对于物理学家或数学家来说,“中奖彩票”代表了一种惊人稀有且特殊的配置,一组预先注定的数字,可以解锁巨大的回报。这个想法——在一个巨大的、看似随机的空间中,可能存在一个微小的、预先存在的、具有不可思议价值的子结构——是一个惊人强大且具有统一性的概念,其回响远远超出了我们世界中烟雾缭缭的宾果游戏厅和街角彩票售卖机。
让我们从一个号码球的彩票,来到一个数字神经元的彩票。现代人工智能,特别是深度学习,建立在人工神经网络的基础之上。这些受大脑启发的网络通常是庞然大物。一个大型语言模型可以有数万亿个连接,或称“参数”。多年来,普遍的看法是“越大越好”。但一个奇怪的问题出现了:所有这些连接真的都是必需的吗?还是说,这个网络就像一个政府官僚机构,大部分是累赘,只有一小撮高效的团队在做实际工作?
在2018年,研究员 Jonathan Frankle 和 Michael Carbin 提出了一个惊人的答案:彩票假说(LTH)。他们提出,在这些巨大的、随机初始化的网络中,存在着微小的子网络——“中奖彩票”——它们是网络最终成功的原因。如果你能在训练之初就识别出这个特殊的子网络,你就可以单独训练它,以达到与那个完整的、臃肿的网络相同甚至更好的性能,而且效率要高得多。
寻找这些彩票的程序,正如在受控实验中所探索的那样,其简单性近乎神奇。首先,你像往常一样训练整个密集网络。然后,你对其进行“剪枝”:你移除一大部分连接,特别是那些在训练好的模型中权重(大小)最小的连接。这样你就得到了原始网络的一个稀疏骨架。现在是关键步骤:你不能保留这个骨架上训练好的权重。相反,你将幸存的连接“回溯”到训练之初的原始随机值。当你重新训练这个稀疏的、经过回溯的“彩票”时,它通常比其他稀疏网络学得更快、更有效。就好像,在最初的随机性中,埋藏着一个黄金组合,从其诞生那一刻起就为学习做好了完美的准备。
但这为什么会这样?仅仅是幸运的巧合吗?科学厌恶魔法,所以我们必须深入挖掘。答案可能在于优化的数学原理。训练神经网络就像试图在一个广阔、多山的地形中找到最低点,其中海拔代表网络的错误或“损失”。梯度下降是我们下山的方法。“中奖彩票”可能对应于一个子问题,它定义了一条通往山下更优美、更平滑的路径。用更技术性的话来说,由彩票参数定义的景观可能具有更好的“条件性”,意味着它的坡度更均匀。一个有趣的证据是,这些中奖彩票通常偏好一种与其密集网络不同的、更激进的学习率——它们不仅更小,而且在性质上有所不同,从某种意义上说,更容易训练。
这些彩票的特性是微妙而优美的。它们的可训练性本身可能取决于网络的基本构建块,例如决定神经元是否激活的“激活函数”。实验表明,使用平滑、连续可微的激活函数(如 GELU 或 SiLU)构建的网络,在极端稀疏度下可能比使用更简单的、非平滑的 ReLU 函数的网络产生更可训练的彩票。平滑网络中梯度的连续流动可能更容易唤醒稀疏、隐藏彩票的潜力。寻找中奖彩票已经成为一个完整的子领域,并与*知识蒸馏*等其他强大思想相结合,在知识蒸馏中,一个较大的“教师”网络可以帮助训练一个微小的“学生”彩票,进一步推动模型效率的边界。
即使是真实彩票的经济学也能提供一个有用的,尽管是隐喻性的教训。一张彩票的期望值不仅与头奖大小和赔率有关;还与你可能需要与多少人分享奖金有关。其他玩家的存在改变了游戏规则。同样,在神经网络中,一个子网络的“价值”不是孤立地决定的。它的成功与训练期间数十亿其他连接的复杂动态交织在一起。
这个强大的思想——在广阔的可能性海洋中寻找预先包装好的、高价值的子结构——并不仅限于人工智能的数字世界。大自然似乎很久以前就发现了这个原理。
思考一下进化这场无情、高风险的彩票。一群土壤细菌突然在其环境中面临一种新的、致命的除草剂。它如何生存?它可以等待缓慢、磨人的随机突变过程,偶然地组装出分解毒药所需的复杂基因套件。这就像试图一个一个地猜彩票号码,几乎是徒劳的。但还有另一种更快的方法。另一种细菌,也许在数英里之外,可能已经进化出了这种防御机制。通过一个称为水平基因转移的过程,我们的细菌可以从它的邻居那里获得一张“中奖彩票”——一个称为质粒的小DNA环,其中包含了用于抵抗除草剂的整套、预先包装好的、功能齐全的基因。在一次性的转移中,该细菌获得了一种复杂的、本需亿万年才能独立进化的新能力。大自然以其智慧,允许进化彩票的交易。
同样的主题也出现在理论计算机科学的抽象领域。一些最困难的计算问题是如此庞大,以至于详尽地搜索一个解是不可能的。因此,计算机科学家学会了玩彩票。他们设计随机算法,这些算法本质上是进行有根据的猜测。单次猜测很可能是错误的。但是,如果猜对的几率是,比如说,二分之一呢?如果你将算法运行24次,每次都失败的概率是 ,大约是一千七百万分之一——比赢得许多国家彩票的概率还要低。每一次独立的运行就像买了一张赔率极好的廉价彩票。我们可以通过简单地购买更多的彩票,将成功的机会放大到近乎确定。“中奖彩票”就是那次幸运的算法运行,它偶然发现了正确答案,解决了一个原本棘手的问题。
从一个简单的机会游戏到人工智能的前沿,从生命的进化到计算的极限,中奖彩票的原理回响不绝。它证明了我们宇宙中一个深刻而充满希望的真理:复杂性往往是一层面纱。在看似随机、混乱或棘手庞大的表象之下,常常隐藏着优雅、简单而强大的子结构。寻找这些结构——无论是一组数字、一个神经子网络、一个细菌操纵子,还是一条穿越计算的路径——正是科学探索的本质。它是一种信念,即宇宙不仅包含谜题,也包含线索;不仅有噪音,也有隐藏的信号。这是在一场巨大的存在彩票中,寻找那些一直存在、等待被发现的中奖彩票的探求。