基于脉冲的学习

玻尔百科

核心要点

基于脉冲的学习利用离散神经事件（脉冲）的精确时间，使用脉冲时间依赖可塑性（STDP）等规则来解释数据中的因果关系。
为了实现基于梯度的监督学习，通过使用代理梯度法解决了脉冲的不可微特性，该方法将脉冲的效率与反向传播的强大功能相结合。
强化学习通过三因子学习法则实现，其中局部的突触“资格迹”通过代表奖励的全局神经调质信号而变得持久。
基于脉冲的学习与神经形态处理器内在相关，后者模仿大脑的事件驱动架构以实现卓越的能源效率。
这些受大脑启发的原则为应对主要的人工智能挑战提供了有前景的解决方案，包括持续学习中的灾难性遗忘和联邦学习中的通信瓶颈。

引言

在追求更强大、更高效的人工智能的道路上，研究人员越来越多地从终极计算设备——人脑——中寻求灵感。与依赖连续值和高功耗处理的传统人工智能不同，大脑使用离散、稀疏的电脉冲（即脉冲）进行计算。这一根本差异预示着我们构建智能系统的方式可能会发生范式转变。然而，核心挑战在于理解这些脉冲神经元组成的网络如何学习——它如何调整其连接以理解世界、记住过去并为实现目标而行动。

本文深入探讨了基于脉冲的学习的原理和应用，旨在架起神经科学与机器学习之间的桥梁。在第一部分“原理与机制”中，我们将剖析在突触层面支配学习的基本规则。我们将探索无监督学习如何从脉冲的精确时间中涌现，监督学习如何通过巧妙的数学变通方法成为可能，以及大脑如何解决从延迟奖励中学习的复杂问题。在随后的“应用与跨学科联系”部分，我们将看到这些原理的实际应用。我们将从新型的、受大脑启发的神经形态计算机的设计，到其在应对终身学习等复杂人工智能挑战中的应用，甚至还将看到这些工程系统如何为我们理解小脑等生物结构中的计算提供更清晰的视角。我们的探索始于问题的核心：单个脉冲的复杂舞蹈以及支配其影响的规则。

原理与机制

大脑计算能力的核心是一系列原理的交响乐，这些原理在其简单性中蕴含优雅，而在其集体效应中展现强大。理解基于脉冲的学习，就是要聆听这首交响乐，辨别单个神经元的旋律和整个网络的和谐。与传统人工智能中以连续、分级的值进行通信的对应物不同，脉冲神经元使用一种离散的、全有或全无的事件语言：脉冲。这些不仅仅是信息的比特；它们是时间中的脉动，其精确的时间点蕴含着丰富而隐秘的编码。因此，核心问题是，一个由这些脉冲神经元组成的网络如何学会解码这种编码——它如何适应、记忆并理解世界。

从巧合中学习：赫布定律的核心思想

学习中最古老、最基本的思想是联想。1949年，心理学家 Donald Hebb 假设，当一个神经元重复地帮助另一个神经元发放时，它们之间的连接，即突触，会变得更强。这通常被概括为“一起发放的神经元会连接在一起”。在脉冲的世界里，这个思想被以精妙的时间精度提炼成一种称为脉冲时间依赖可塑性（Spike-Timing-Dependent Plasticity, STDP）的机制。

STDP是大脑对 Hebb 预言式低语的高保真实践，但它增加了一个关键的修正：时机就是一切。想象一个突触前神经元“A”连接到一个突触后神经元“B”。如果神经元A在神经元B发放之前不久发放，那么可以认为A促成了B的发放。从A到B的突触会得到加强的奖励，这个过程称为长时程增强（Long-Term Potentiation, LTP）。这个因果联系得到了加强。相反，如果神经元B在神经元A之前不久发放，那么A不可能导致B的脉冲。这种反因果的发放序列会通过削弱突触来惩罚，这个过程称为长时程抑制（Long-Term Depression, LTD）。

这种关系被一个优美的数学形式所捕捉，即STDP学习窗口。如果我们让 $\Delta t$ 表示突触后脉冲与突触前脉冲之间的时间差，即 $\Delta t = t_{\text{post}} - t_{\text{pre}}$ ，那么突触权重的变化就是这个时间差的函数。对于正的 $\Delta t$ （因先于果），权重变化为正，并随着时间延迟的增加而指数衰减。对于负的 $\Delta t$ （果先于因），权重变化为负，同样随着时间延迟的增加而衰减。这个窗口确保了只有在时间上紧密、因果有序的事件才能驱动学习。

这是一种无监督学习。网络并没有被告知“正确”答案是什么。它只是沉浸在数据流中，通过在各处应用这种局部的STDP规则，它开始自行发现数据内部的相关性和因果结构。该规则的更复杂版本甚至允许网络区分真实的关联和因神经元仅以高频率发放而产生的偶然巧合，这种基于相关性和基于协方差的学习之间的区别增加了另一层计算智能。

教会脉冲：代理的艺术

但是，如果我们不希望网络仅仅发现任何模式呢？如果我们想教它一个特定的任务，比如识别一张猫的图片呢？这就是监督学习的领域，在这里，脉冲的离散性构成了一个巨大的挑战。

现代深度学习的强大引擎，如反向传播，依赖于一个平滑、连续的景观。它们通过计算损失函数上的梯度——即最陡峭的下降方向——来工作。这就像身处一座有雾的山上，通过感受脚下的坡度来找到下到山谷的路。问题是，一个脉冲不是一个平缓的斜坡，而是一个悬崖。一个神经元的输出，作为其输入电压的函数，实际上是一个阶跃函数：在某个阈值以下，什么都不会发生；在阈值处，它会发放一个瞬时的、全有或全无的脉冲。这个函数的导数，或者说斜率，几乎处处为零，在阈值处则为无穷大。没有梯度可以遵循。这座山除了一个无限陡峭的墙壁外，其他地方都是平的。

为了解决这个问题，研究人员设计了一种优雅的“技巧”，称为代理梯度法。其思想是接受一种计算上的双重思想。在前向传播过程中，当网络运行和处理数据时，我们使用真实的、符合生物学现实的、不连续的脉冲。这保留了脉冲计算的效率和稀疏性。但是在反向传播过程中，当我们计算权重更新时，我们对算法“撒谎”。我们假装脉冲是由一个平滑、可微的代理函数生成的——一条近似于那个陡峭阶跃的平缓曲线。这条“幻影”曲线提供了一个可用的、非零的梯度，使得强大的反向传播机制能够发挥其魔力。我们两全其美：既有脉冲的效率，又有梯度的学习能力。其他的数学解决方案，如SpikeProp算法，从不同的角度解决这个问题，利用隐函数定理直接计算输出脉冲的时间如何随突触权重变化，进一步展示了数学与神经科学之间丰富的相互作用。

从成功中学习：三因子法则

然而，生活很少提供一份详尽的、一步一步的说明手册。通常，我们得到的唯一反馈是一种延迟的、单一的成功或失败感。这个行动是否带来了奖励？这就是强化学习（Reinforcement Learning, RL）的挑战，它提出了神经科学中最深奥的谜题之一：时间信用分配问题。如果你执行了一百个动作，并在五秒后获得奖励，那么这一百个动作（以及数百万个底层的突触事件）中，哪一个应该获得功劳？

大脑的解决方案是一种巧妙的机制，称为三因子学习法则。它巧妙地将记录巧合的过程与奖励它的行为分离开来。

因子1和2：资格迹。 当一个突触前神经元发放，而突触后神经元紧随其后发放时，突触不会立即改变。相反，这个局部的赫布事件在突触上创建了一个临时的、衰减的“标签”。这个标签被称为突触资格迹。它就像一个分子的幽灵，一个短期记忆，表明“刚才这里发生了一些可能重要的事情”。这个资格迹是一个物理实体，可以在神经形态硬件中实现为电容器上的电荷，电荷会慢慢泄漏，从而使其具有指数衰减的记忆。

因子3：神经调质。 第三个因子是一个全局性的、广播式的信号，携带着关于奖励的信息。在大脑中，这个角色由神经递质多巴胺扮演，这一点广为人知。当意外的奖励发生时，会释放出一阵多巴胺，沐浴着大脑的大片区域。这个全局信号充当了学习的“就是现在！”命令。它传播到所有突触，但只对那些被最近的资格迹“标记”的突触产生持久影响。多巴胺信号实际上告诉这些被标记的突触：“你刚才做的那件事？很好。让那个连接变得更强。”如果结果比预期的要差，多巴胺水平的下降则可以发出相反的信号。这个三因子系统通过创建一个关于因果关系的局部、临时记忆（资格迹），并用一个延迟的、全局性的成功信号（神经调质）来验证它，从而优雅地解决了时间信用分配问题。

保持平衡：稳态的无名英雄

一个纯粹由赫布法则驱动的学习系统面临着危险的未来。正反馈循环可能导致权重无节制地增长，从而引发失控的、类似癫痫的活动。相反，长时间的缺乏活动可能导致突触萎缩死亡，使网络沉寂。为了使学习稳定，必须有一个控制机制。

这就是稳态可塑性的作用，它是一组较慢的调节过程，就像大脑的恒温器。其中最突出的是突触缩放。该机制监测神经元的长期平均发放率。如果一个神经元开始发放过多，偏离其健康的目标速率，突触缩放会乘性地调低其所有传入突触的强度。如果它发放得太少，它会调高它们。

这里的关键是乘性这个词。通过将所有权重乘以相同的因子，该机制保留了它们之间的相对强度。这就像调低管弦乐队的主音量；你听到的一切都更安静了，但小提琴与大提琴的相对响度保持不变。这意味着通过像STDP或RL这样的更快过程学到的详细知识不会被抹去。稳态确保神经元保持在一个健康、敏感的操作范围内——既不沉寂，也不饱和——在这个范围内它们最能学习和处理信息。它是一只缓慢而稳健的手，保证了经历快速动态变化的系统的长期稳定性。

最后，值得注意的是，真实的生物系统充满了噪声——膜电压的随机波动、脉冲时间的抖动。虽然通常被视为一种干扰，但噪声扮演着双重角色。它可以通过使信号不那么可靠来增加学习的统计难度。然而，它也提供了一项至关重要的服务：它鼓励探索，防止网络陷入僵局，并帮助其发现新的解决方案。精确的规则、全局的调制、稳态的控制以及固有的随机性之间的这种相互作用，使得基于脉冲的学习成为一个如此稳健、强大且永无止境的迷人研究领域。

应用与跨学科联系

在我们迄今为止的旅程中，我们已经揭示了游戏的基本规则——由脉冲驱动的、局部的可塑性交响乐，它允许网络中的连接增强或减弱。我们已经看到时机就是一切，以及脉冲之间的简单相互作用如何能够编码记忆。但这一切是为了什么？一套规则，无论多么优雅，都只是一个开始。真正的魔力发生在我们使用这些规则来构建、计算、学习和理解的时候。

现在，我们从原理转向实践。我们将探索从基于脉冲的学习土壤中绽放出的广阔应用和跨学科联系。我们将看到，这不仅仅是一种学术上的好奇心，而是一把强大的钥匙，它解锁了新的计算形式、应对人工智能领域重大挑战的新方案，甚至让我们对自身大脑的复杂机制有了更深的欣赏。这是一段将我们从新型计算机的硅心，一直带到小脑中运动控制核心的旅程，揭示了工程世界与生物世界之间非凡的统一性。

为新思维方式设计的新机器

在我们欣赏学习之前，我们必须首先欣赏它表演的舞台。基于脉冲的学习不仅仅是在旧机器上运行的新算法；它是一种新型计算机——神经形态处理器——的母语。

与我们日常使用的基于冯·诺依曼架构的计算机不同，神经形态系统是从头开始设计的，旨在模仿大脑的结构和功能。这意味着什么？首先，它们摒弃了全局时钟的束缚。计算不是由所有组件同步进行，而是异步地、由事件驱动。那么事件是什么呢？当然是脉冲！处理器仅在脉冲到达时才消耗能量并执行计算。这种事件驱动的特性带来了非凡的能源效率，特别是对于信息稀疏的任务，如处理声音或运动。

其次，它们拆除了“冯·诺依曼瓶颈”——即内存与处理之间臭名昭著的分离。在你的笔记本电脑中，数据在CPU和RAM之间不断穿梭，这是延迟和能耗的主要来源。而在神经形态芯片中，内存（突触权重 $w_j$ ）与处理元件（整合输入并放电的神经元电路）在物理上是共置的。信息就在其存储的地方被处理，就像在大脑中一样。

最后，这些机器在连续的物理时间中运行，其状态根据模拟电荷跨神经元膜流动的微分方程演变。计算不是一连串离散的指令，而是对传入脉冲信号的连续、动态的整合。

在这个新的计算世界中，出现的最优雅的范式之一是储备池计算，或称液态机（Liquid State Machine, LSM）。想象一下向池塘中投掷一颗石子。石子是输入，它产生的复杂涟漪图案就是计算。LSM的工作原理与此类似。我们构建一个大型、固定、循环连接的脉冲神经元网络——即“储备池”。这个网络被刻意创建为具有随机、稀疏的连接，使其拥有丰富而复杂的内部动态。当我们向这个储备池输入一个时变信号时，它会扰动网络，创造出一种高维的、不断变化的脉冲活动模式——一种“液态”。

LSM的美妙之处在于我们根本不训练储备池！它的连接是固定的。我们唯一需要学习的是一个简单的线性“读出”层，它学习将储备池的复杂状态映射到期望的输出。因为储备池自然地在其高维状态空间中分离了不同的输入模式，所以训练读出层就成了一个简单的凸优化问题。这种方法非常高效，特别是当标记数据稀缺或系统需要在线适应变化的环境时。在这些情况下，LSM的简单性及其强大的归纳偏置（其固有的对近期输入的“衰减记忆”）可以使其表现优于像LSTMs这样复杂得多的、完全训练的网络。

教会脉冲去看、去听、去行动

有了一种新型的机器供我们使用，我们现在可以探索如何为特定任务训练它，从固定的储备池网络转向每个突触都可以学习的网络。我们发现，基于脉冲的学习的原理可以适应机器学习的所有三种主要范式：监督学习、无监督学习和强化学习。

监督学习：从频率到时间

最常见的机器学习形式是监督学习，我们向网络提供标记好的样本，并要求它学习这种映射关系。我们如何用脉冲来做到这一点？一个强大的想法是搭建一座通往传统深度学习世界的桥梁。我们可以将一个神经元在一段时间内发放的脉冲总数视为其输出，并使用标准的损失函数（如交叉熵）来衡量误差。唯一的问题是脉冲机制——硬阈值——是不可微的，这阻碍了深度学习的主力军——反向传播的使用。

解决方案是代理梯度。在训练的反向传播过程中，我们简单地用一个平滑、表现良好的函数来替换脉冲阈值那不存在的导数。这是一个非常有效的“技巧”，它允许我们通过深层脉冲神经网络传播误差梯度，使其能够在像图像分类这样的复杂任务上进行端到端的训练。一个突触对膜电位 $u_{o,t}$ 的贡献的更新规则，优雅地将来自输出的全局误差信号 $(p_o - y_o)$ 与一个仅依赖于神经元自身状态相对于其阈值的局部因子 $\phi'(u_{o,t} - \vartheta)$ 结合起来。该方法已被用于在著名数据集的神经形态版本上训练SNN，例如N-MNIST。

但SNN能做的不仅仅是计算脉冲。它们真正的力量在于时间领域。我们可以训练网络在精确的时间点产生脉冲。为此，我们需要一个损失函数来衡量不是数字之间，而是整个脉冲序列之间的距离。其中一种度量方法包括对输出和目标脉冲序列进行滤波，并测量它们之间积分平方差。这个与时间相关的损失函数可以优雅地表示为所有脉冲时间对的总和，其中的项会随着它们之间的时间差指数衰减。利用这一点，我们可以训练网络执行基于延迟编码的任务，即信息被编码在神经元的精确发放时间中。例如，我们可以训练一个网络通过在6毫秒时发放脉冲来识别数字'0'，12毫秒时识别'1'，依此类推。这为在毫秒时间尺度上运行的超快速信号处理和控制系统打开了大门。

无监督学习：发现世界结构

也许最像大脑的学习形式是无监督学习，即网络在没有任何明确标签或奖励的情况下学习发现其输入中的结构。在这里，局部的、基于脉冲的规则真正大放异彩。一个经典的例子是神经元执行主成分分析（PCA）的能力，这是一种基本的统计操作，用于寻找数据集中方差最大的方向。

一个简单的赫布法则——“一起发放的神经元会连接在一起”——本身是不稳定的。突触会无限增长。Oja法则引入了一个优美而简单的稳定项：相关活动产生的增强作用被一个与突触后活动平方和当前权重本身成正比的遗忘项所抵消。由此产生的学习规则 $\dot{w} = \eta(yx - y^2 w)$ ，会使突触权重向量收敛到输入协方差矩阵的主特征向量。在脉冲网络中，STDP自然地提供了赫布关联项，而其他稳态可塑性机制可以提供必要的稳定衰减。因此，一个遵循简单局部规则的脉冲神经元网络可以学习从它接收的数据中提取最显著的特征，这是表征学习的基石。而且这些简单的规则可以逐层叠加，让深度SNN能够建立起对世界的分层表征，所有这一切都不需要一个标签。

强化学习：通过试错学习

最后的领域是强化学习（RL），即智能体学习在环境中做出决策以最大化累积奖励。这是动物——以及人类——学习大多数复杂行为的方式。将毫秒级的脉冲时间尺度与秒级的奖励时间尺度（例如，找到食物）联系起来，是一个被称为时间信用分配问题的经典挑战。

基于脉冲的学习通过三因子学习法则为这个问题提供了一个极其优雅的解决方案。突触的更新取决于三件事：

突触前活动（因子1）。
突触后活动（因子2）。
一个全局的、神经调质的“成功”信号（因子3）。

前两个因子，通常由STDP捕获，在突触处创建一个短暂的“资格迹”。这个资格迹就像一个临时的记忆，一个标签，表明“我最近参与了引起突触后脉冲的活动”。这个资格迹会在几秒钟内衰减。如果在这个资格迹仍然活跃的时候，一个全局奖励信号到达——比如说，像多巴胺这样的神经调质的爆发，预示着一个“奖励预测误差”——它会与资格迹相互作用，使突触变化永久化。更新可以表示为 $\dot{w}_{ij}(t) = \eta \, m(t) \, e_{ij}(t)$ ，其中 $e_{ij}(t)$ 是局部资格迹， $m(t)$ 是全局奖励信号。这个机制可以被证明是在期望奖励上执行梯度上升，它允许一个拥有事件驱动传感器和脉冲大脑的智能体将其行为与延迟的后果联系起来，从而在神经科学和现代强化学习理论之间架起了一座有原则的桥梁。

迈向更稳健和有韧性的人工智能

除了特定任务之外，基于脉冲的学习原则为应对人工智能中一些最深刻、最持久的挑战提供了新的途径。

终身学习的挑战

现代深度学习最显著的失败之一是灾难性遗忘。当一个在任务A上训练好的网络随后在任务B上训练时，它通常会完全覆盖并忘记如何执行任务A。相比之下，生物大脑是持续学习的大师；我们一生都在学习新事物，同时保留旧技能。

SNN内部受生物学启发的机制为解决这种稳定性-可塑性困境提供了途径。突触巩固保护那些被认为对过去任务很重要的突触，使其难以改变。这可以实现为一个局部规则，根据突触的估计重要性来惩罚对它的改变，将其锚定在先前学习到的状态。同时，元可塑性——即可塑性本身是可塑的这一思想——可以调节学习率。最近经历过大变化的突触的学习率可以被自动降低，从而促进稳定性。通过将标准的STDP规则与这些巩固和元可塑性力量相结合，脉冲网络可以动态地平衡学习新信息的需求与保留旧记忆的需求，为实现真正的终身学习智能体铺平了道路。

分布式私有智能的挑战

在我们这个日益互联的世界里，越来越需要能够在不集中数据、不损害隐私的情况下，从分布在许多设备（如手机或传感器）上的数据中学习的人工智能。这就是联邦学习（FL）的领域。FL的一个主要瓶颈是从每个设备向中央服务器发送模型更新的通信成本。

在这里，神经形态计算的事件驱动和稀疏性提供了天然的优势。两种不同但互补的压缩形式发挥了作用。首先，对于通信模型参数更新本身，可以使用像top-k稀疏化这样的技术。设备不是发送整个密集的更新向量，而是只发送具有最大幅度的k个分量。为了避免随时间丢失信息，误差反馈机制允许设备“记住”它没有发送的那部分更新，并将其添加到下一轮的更新中。其次，对于神经形态处理器之间的通信，脉冲事件流本身可以被压缩。这是一个完全不同的过程，它作用于神经活动序列（地址和时间戳），而不是模型参数。这两种形式的压缩，一种在参数空间，一种在活动空间，使SNN成为构建高效、私密和分布式智能系统的完美基底。

完整的循环：一扇回望大脑的窗户

我们从大脑中汲取灵感开始了这段旅程。我们以我们开发的工具和理论如何让我们更清晰地理解大脑本身来结束，这是再合适不过的了。在研究小脑时，这个反馈循环表现得最为明显。

小脑是我们脑后一个美丽而密集的结构，是运动学习和控制的大师。它让你能毫不费力地接住一个球、弹奏一架钢琴，或者仅仅是平稳地走路。据信，这里发生的学习是由来自一个称为下橄榄核（Inferior Olive, IO）的脑干结构的“误差信号”所监督的。当你犯了一个运动错误时，IO会发放，向小脑的浦肯野细胞发送强大的脉冲爆发——一个“复杂脉冲”，指示它们更新突触权重以纠正错误。

这看起来完全像是一个误差驱动学习的生物学实现。但故事还有更精彩的部分。小脑的输出通过小脑深部核团（Deep Cerebellar Nuclei, DCN）路由，然后向IO发送一个抑制性的投射。这形成了一个完美的负反馈回路。为什么呢？DCN的输出代表了小脑当前的运动校正，即它对如何消除误差的预测。通过在IO层面从感觉误差信号中减去这个预测，该回路确保了只有在存在残余的、未被预测的误差时才会产生复杂脉冲。这在误差被纠正后停止学习，防止了失控的可塑性并稳定了系统。此外，这种抑制性反馈还起到使IO神经元发放去同步化的作用，防止了可能使学习过程饱和和退化的冗余、空间弥散的误差信号。

在小脑中，我们看到我们抽象的原则化为血肉：误差驱动学习、基于脉冲的可塑性以及用于稳定的反馈回路。这是一个惊人的证实，即我们工程设计的计算策略并非任意；它们是信息处理的基本原则，大自然早已发现。我们对基于脉冲的学习的探索不仅为我们提供了人工智能未来的路线图，也为我们观察我们自己头颅内宏伟的计算设备提供了更丰富的词汇和更锐利的镜头。