
大脑巨大的计算能力源于其基本处理单元:脉冲神经元。为了理解大脑的工作原理并构建受其效率启发的智能系统,我们必须首先学会说它的语言。这需要创建数学抽象——即能够捕捉神经计算精髓,而又不会迷失在繁复生物细节中的模型。核心挑战在于找到恰当的抽象层次,创建既足够强大以具有意义,又足够简单以便于处理的模型。本文对这一建模领域进行了全面概述。第一章“原理与机制”深入探讨了脉冲神经元的基础模型,探索了从逻辑性的 McCulloch-Pitts 神经元到动态丰富的漏泄整合发放模型和 Izhikevich 模型等一系列模型。随后,“应用与跨学科联系”一章展示了这些模型在实践中的应用,从设计节能的神经形态硬件、训练深度脉冲网络,到解码大脑自身的信号以及探究意识的本质。
要理解大脑,或要制造受其启发的机器,我们未必需要复制每一个分子。物理学教给我们一个强有力的教训:抽象的艺术。我们常常可以忽略一个系统的复杂细节,以捕捉其本质行为。一个环绕恒星的行星可以被视为一个质点,其地质和大气状况与其轨道无关。本着同样的精神,计算神经科学寻求对神经元进行优雅的简化,建立既易于处理又功能强大的模型。我们的旅程便是探索这些模型,看我们如何用一些巧妙的数学要素,开始重构大脑的交响乐。
想象一下,我们将一个神经元简化到其最核心的本质。它接收来自其他神经元的信号,并根据这些信号决定是否“发放”脉冲。这是一个二元选择:是或否,1 或 0。这是 Warren McCulloch 和 Walter Pitts 在 1943 年的杰出起点。他们的模型,即 McCulloch-Pitts 神经元,异常简单。它将所有输入相加。如果总和达到一个阈值,它就发放一个“1”。如果没有,它就保持为“0”。某些输入可以被指定为“抑制性”输入,拥有无论其他活动如何都能使神经元沉默的否决权。
用如此简单的装置能做什么呢?几乎一切。通过选择合适的权重和阈值,你可以让这些单元表现得像基本的逻辑门:与门 (AND)、或门 (OR)、非门 (NOT)。一旦你有了逻辑门,你就可以通过将它们连接成网络来计算任何布尔函数。如果你加入反馈回路——允许一个神经元的输出在稍后影响其自身的输入——这些网络就变成了有限状态机,能够进行记忆和顺序计算。
这是一个深刻的认识。它表明,计算的基本构件并非人造电子产品所独有;原则上,它们可以存在于简单的、类神经元元素的网络中。McCulloch-Pitts 模型并非生物神经元的真实写照。它忽略了连续时间动态、丰富的电学行为以及生物学的复杂性。但它的目的从来就不是成为一个完美的复制品。它的天才之处在于,在网络的物理结构和计算的抽象领域之间建立了一座严谨、形式化的桥梁。它证明了即使是最简单的抽象也能让我们对可能性有深刻的洞见。
McCulloch-Pitts 模型存在于一个离散的逻辑世界中。为了更接近生物学,我们需要拥抱连续和模拟的电学世界。神经元的细胞膜不是一个完美的绝缘体;它有点像一个漏水桶。流入的电荷,由离子携带,就像流入的“水”。细胞膜具有电容,即储存这种电荷的能力,就像桶能装水一样。这就是我们模型的“整合”部分:神经元的电压随着电荷的积累而建立。
然而,细胞膜上也有一些始终稍微开放的离子通道,允许电荷泄漏出去。这由一个漏电导(电阻的倒数)来表示,类似于我们水桶上的一个小洞。如果水流入得太慢,它只会漏出去,水位永远不会升得很高。但如果流入足够强劲,水位就会上升。这个简单的电路图景,一个电阻和一个电容并联,是漏泄整合-发放 (Leaky Integrate-and-Fire, LIF) 模型的核心。
膜电位 的阈下动态由一个源自基尔霍夫定律的简单而优美的物理学方程描述:
在这里, 是电容, 是漏电导, 是漏泄反转电位(即没有净泄漏时的电压),而 是输入电流。项 是漏电流,总是试图将电压拉回到 。比率 是著名的膜时间常数,它决定了神经元“忘记”其输入的速度——即系统的记忆。
这个方程只描述了“漏泄整合”部分。为了让它发放脉冲,我们增加一个简单的规则:如果 超过一个电压阈值 ,我们就说一个脉冲发生了。然后我们手动将电压重置到一个较低的值 ,并且通常强制执行一个绝对不应期 ,在此期间神经元被钳制在 并且不能再次发放脉冲。这就是“发放”和重置部分。
从工程角度看,这个线性 RC 电路是一个经典的低通滤波器。它能平滑快速波动的输入。用线性系统理论的语言来说,它的传递函数在负实轴上有一个位于 的单极点。这个单极点定义了神经元基本的时间滤波特性,是理解神经回路如何处理时序信息的一个基本构件。LIF 模型是计算神经科学的主力模型——足够简单以模拟数百万个,又足够复杂以捕捉整合与泄漏之间相互作用的本质。
LIF 模型很优雅,但它对恒定刺激的响应是一串单调、规则的脉冲。然而,生物神经元是变化万千的艺术家。有些以簇的形式发放脉冲,像机关枪一样(内在簇发放)。有些则以高频的双峰或三峰脉冲“喋喋不休”。有些会适应,开始时快速发放,然后减慢(规则脉冲)。另一些则不知疲倦,能以非常高的频率持续发放而几乎没有疲劳(快速脉冲)。
为了捕捉这一丰富的行为动物园,而又不至于退回到像 Hodgkin-Huxley 方程那样令人生畏的完全生物物理模型的复杂性中,我们可以采用现象学建模的策略。其目标不是对每个离子通道进行建模,而是找到能够再现观察到的模式或现象的最小动态要素。这正是非线性动力学之美闪耀的地方。
这种方法的一个杰作是 Eugene Izhikevich 创建的模型。它出奇地简单,却又惊人地强大。它仅由两个方程和一个重置规则组成:
并带有一个重置条件:如果 ,则 且 。
在这里, 是膜电位,而 是一个“恢复”或“适应”变量。可以把 看作是想要产生脉冲的快变量,而 则是像刹车或某种形式疲劳的慢变量。当神经元发放脉冲时,电压 被重置为 ,而疲劳变量 受到一个冲击,增加了 。该模型的精妙之处在于其数学结构。二次项 产生了一个强大的、再生性的正反馈,驱动了脉冲的快速上升。事实上,如果没有重置,这个项会导致电压在有限时间内爆炸到无穷大!因此,硬重置是一个聪明的数学技巧:它作为终止真实脉冲的复杂生物过程的替代品,防止了非物理性的爆炸,同时保持了模型的简洁性。
其魔力在于四个参数:、、 和 。
通过简单地为这四个参数选择不同的值,Izhikevich 模型可以再现一系列惊人的神经发放模式,包括规则脉冲、内在簇发放、喋喋不休、快速脉冲等等。这证明了丰富多样的行为可以从一个简单的、低维的非线性系统中涌现。
LIF 和 Izhikevich 模型代表了复杂性谱系上的两个关键点。这个谱系构成了一个建模者的工具箱,工具的选择取决于科学问题。
在更简单的一端,我们找到了脉冲响应模型 (Spike Response Model, SRM)。SRM 将 LIF 模型背后的思想形式化,将神经元视为一个线性滤波器。它假设膜电位是来自输入突触的响应与其自身过去脉冲的后效应的简单、可加性组合。每种效应都由一个“核函数”或固定的波形来描述。这种线性可分性是一个很强的假设,忽略了许多生物上的非线性,但它为理解神经编码提供了一个强大且易于分析的框架。
比 LIF 模型复杂一步的是自适应指数整合-发放 (AdEx) 模型。与 Izhikevich 模型一样,它是一个二维系统,有一个类电压变量和一个适应变量。它的关键特征是电压方程中的一个指数项,相比于 LIF 模型的硬阈值,它为启动脉冲的急剧上升提供了一个更具生物物理合理性的机制。它提供了一个完美的中间地带,捕捉了适应性和真实的脉冲启动过程,同时在计算上比完全的生物物理模型更简单。
另一个完全不同的视角来自概率模型。与其跟踪膜电压,我们可以将脉冲序列建模为一个统计点过程。在任何时刻发生一个脉冲的概率由一个条件强度或风险函数给出。这个强度可以依赖于过去脉冲的历史。例如,为了模拟不应期,我们可以定义强度为一个基准速率,在脉冲后立即被抑制,然后指数恢复。这种方法,包括像霍克斯过程这样的模型,对于分析神经数据和理解编码在脉冲时间中的信息非常强大。
为什么这些不同的模型很重要?它们仅仅是抽象的练习吗?绝对不是。模型的选择可能产生深远的、真实世界的影响,例如,在神经形态机器人领域。
想象一个机器人手臂,其关节由一群脉冲神经元控制。控制器的任务是读取一个误差信号(期望角度和当前角度之间的差异)并输出一个电机指令。神经元模型构成了这个控制器的核心。让我们看看如果我们从我们的工具箱中选择不同的模型会发生什么。
如果我们使用一群 LIF 神经元,控制器表现得像一个简单的一阶线性滤波器。从控制工程的角度来看,它在系统中引入了一个单一的、可预测的延迟(一个位于 的极点)。这是一个简单、稳定的组件,易于设计。
如果我们改用更复杂的 AdEx 模型,控制器现在每个神经元有两个状态变量(电压和适应)。这在控制回路中引入了第二个、更慢的延迟。这个额外的延迟会降低系统的稳定性裕度,如果设计不当,可能导致振荡或不稳定。
而如果我们使用 Izhikevich 模型,我们引入了一个高度非线性的、双状态系统。虽然这允许控制器具有更丰富的动态,但它使得简单的线性分析变得困难。控制器的行为更复杂,更难预测,但它也可能能够实现更复杂的控制策略。
这一个例子揭示了建模中的根本权衡:追求更高的生物真实性和动态丰富性(从 LIF 到 AdEx 到 Izhikevich)是以牺牲分析的简洁性和可预测性为代价的。没有一个“最佳”模型。合适的工具取决于工作任务,无论是高效地模拟数百万个神经元、捕捉特定的簇发放模式,还是设计一个稳定而鲁棒的机器人控制器。穿越这些模型的旅程不仅揭示了大脑的机制,也揭示了科学探究本身的原则——一种在简洁与复杂、抽象原则与具体现实之间持续不断的、创造性的对话。
我们已经花了一些时间学习脉冲神经元的基本语法——它们的操作规则、控制其电位的方程,以及它们全或无响应的逻辑。现在,我们准备好欣赏它们谱写的诗篇。我们能用这些模型做什么?事实证明,这种对脉冲事件的简单而优雅的抽象,是一把能打开众多领域大门的钥匙。它是一种通用语言,无论是硅基芯片还是生物组织都在使用。
在本章中,我们将踏上一段旅程,看看这些模型的实际应用。我们将看到工程师如何利用它们来构建模仿大脑效率的新型智能机器。我们将探索计算机科学家如何教导这些网络学习,推动人工智能的边界。然后,我们将镜头转回我们自身,发现脉冲模型如何成为神经科学家解码活体大脑复杂运作的不可或缺的工具。最后,我们将冒险进入科学探究的最前沿,在那里,同样的模型正被用来探索科学最伟大的谜团之一:意识本身的本质。
大脑是计算效率的奇迹。它执行着惊人复杂的任务——在人群中识别一张脸、进行一场对话、创作一首交响乐——而所有这些消耗的能量仅相当于一个昏暗的灯泡。这种令人难以置信的效率催生了一个新的工程领域:神经形态计算。其目标不仅仅是模仿大脑做什么,而是模仿它如何做,使用脉冲神经元作为基本构建模块。
在我们能够建造一台会思考的机器之前,我们需要一张蓝图。我们应该如何连接我们的脉冲神经元?最基本的区别在于网络是前馈的还是循环的。前馈网络就像一条流水线:信息单向流动,从输入到输出,通过一系列没有回路的层。而循环网络则包含反馈回路,允许信号回环并影响过去活跃的神经元。这赋予了它们记忆的能力和处理信息序列的能力。
然而,这种能力是有代价的:不稳定的风险。反馈是一件棘手的事情。在音响系统中,如果麦克风拾取了来自其自身扬声器的声音,你会听到刺耳的尖叫声——信号在不受控制地自我放大。循环神经网络也可能遭受类似的命运。如果反馈回路太强,活动可能会爆炸式增长,使网络变得毫无用处。
前馈网络,因为其底层的连接图是一个有向无环图 (DAG),所以是内在稳定的。信息没有路径可以回环并自我放大。我们甚至可以用某种数学上的优雅来证明这一点。如果我们用一个矩阵来表示网络的连接性,前馈结构确保了这个矩阵是幂零的——将其提高到足够高的幂次会得到一个全零矩阵。这意味着你输入的任何信号最终都保证会消失。它的“谱半径”,一个衡量它在循环中能放大信号多少的指标,恰好为零。相比之下,循环网络只有在其反馈回路的“增益”小于一时才是稳定的,这是一个必须仔细控制的条件。理解这些关于因果性和稳定性的基本原则,是工程化可靠脉冲系统的第一步。
今天人工智能的巨大成功大多建立在人工神经网络 (ANN) 之上,后者基于连续值的激活进行操作。我们如何才能将一个强大的、预训练好的 ANN 运行在一个以脉冲方式工作的节能神经形态芯片上呢?这是一个转换问题。最常见的方法是速率编码,即 ANN 神经元的连续激活值被转换为脉冲神经元的发放率。高激活意味着高发放率;低激活意味着低发放率。
但这种转换并非没有微妙之处。生物神经元有一个内置的“速度限制”。在一个神经元发放一个脉冲后,它会进入一个短暂的绝对不应期,,在此期间无论输入多强,它都无法再次发放脉冲。这对其发放率施加了一个硬性上限,。例如,一个典型的 3ms 的不应期 意味着一个神经元的发放频率不会超过大约 。
这带来了深远的影响。如果我们试图映射一个过高的 ANN 激活值,对应的 SNN 神经元将直接触及这个天花板并饱和。SNN 将不再能够区分一个非常高的激活值和一个极高的激活值;信息被裁剪了。这也造成了信息精度和计算速度之间的权衡。为了精确地表示一个宽范围的值,我们需要大量的不同发放率。由于我们能测量的最小速率是在观察窗口内的一个脉冲,实现高精度需要一个长的窗口,这意味着更高的延迟。神经元模型的生物物理约束直接影响了工程系统的性能。
实际的转换过程涉及仔细的校准。对于一个给定的 ANN 激活值 ,我们需要为我们的脉冲神经元计算一个相应的输入电流,以产生期望的目标发放率。这需要找到一个突触缩放因子 ,它将 ANN 的抽象激活世界映射到 SNN 的电流和电压世界。通过分析神经元模型的动态——例如,一个简单的理想整合-发放神经元——我们可以推导出确保这种速率编码等效性成立所需的确切缩放因子。
将一个网络从模拟映射到真实的、物理的神经形态芯片上,是优美的抽象理论与硬件 messy、迷人的现实相遇的地方。现存几个大规模的神经形态系统——如 SpiNNaker、英特尔的 Loihi、IBM 的 TrueNorth 和 BrainScaleS——每个都带来了一系列独特的挑战和机遇。
想象一下,你已经训练了一个用于图像识别的脉冲卷积神经网络 (CNN)。你的权重以高精度浮点数的形式存储。现在你想部署它。
成功地映射一个网络需要对这些特定于硬件的约束有深入的理解。这是算法设计和硬件架构之间的一场复杂舞蹈,一个共同设计的过程,以便在硅片上将脉冲智能变为现实。
神经形态工程不仅仅是关于构建新型处理器;它也关于构建新型传感器。传统相机将场景捕捉为一系列静态帧,以固定速率报告每个像素的强度,无论是否有任何变化。这是浪费的。我们自己的视网膜不是这样工作的。
受此启发,工程师们开发了事件相机或*动态视觉传感器*。这些卓越的设备不产生帧。相反,每个像素都是一个独立的电路,监视亮度的变化。当一个像素的对数强度变化超过某个阈值时,它会发放一个“事件”——一个包含其 坐标、事件时间 和极性 (亮度是增加还是减少)的数字脉冲。相机产生一个异步事件流,仅将资源集中在信息发生变化的时间和地点。
这种基于事件的数据从根本上是不同的,需要全新的算法。例如,在基于事件的分割中,目标是将属于同一运动物体的事件分组。我们不是在单个帧中按颜色聚类像素,而是可以根据事件与运动模型的一致性来聚类事件。由单个刚性运动物体产生的所有事件将在其空间位置和时间之间共享一种共同的关系,这是运动物理学和事件生成机制的直接结果。算法可以利用这种时空相干性来解析场景,这种方式自然地与其动态联系在一起,而事件数据远比传统帧更适合这项任务。
现代人工智能最伟大的成功是由深度学习推动的,它依赖于一种名为反向传播的强大算法来训练网络。但反向传播需要导数——它需要知道权重的微小变化如何影响最终误差。我们如何能在一个输出是离散的、全或无事件的脉冲神经元上使用它呢?它的输出对其输入电压的导数几乎处处为零,在阈值处则为无穷大。这个“沉默导数”问题在很长一段时间里似乎是一个主要障碍。
事实证明,解决方案既简单又深刻。在网络的前向传播过程中,我们使用真实的、不可微的脉冲机制。但在反向传播过程中,当我们需要计算梯度时,我们假装导数是别的东西——我们用一个“代理梯度”来替代它。我们用一个平滑、表现良好的函数,比如 sigmoid 或快速 sigmoid 函数的导数,来替换数学上正确但计算上无用的狄拉克δ函数。
这是一个绝妙的技巧。它允许误差信息在网络中向后流动,恰好穿过不连续点。当我们计算损失函数(比如分类任务的交叉熵)相对于来自神经元 在时间 的单个脉冲事件 的梯度时,我们发现一个非常简单的表达式。它通常只是网络预测与真实标签之间的差异,,乘以一个常数。这个误差信号对于该神经元在时间窗口内的每一个脉冲都是相同的。要将这个梯度传回神经元的内部膜电位 ,我们只需将这个误差信号乘以我们选择的代理导数:。正是这种优雅的数学戏法,为脉冲神经网络释放了深度学习的力量,使我们能够从头开始训练它们完成复杂的任务。
一旦我们能够训练 SNN,一个新问题就出现了:使用哪种最佳架构?我们应该使用简单的漏泄整合-发放神经元还是更复杂的模型,如 Izhikevich 神经元?网络应该有多少层?神经元的时间常数应该是多少?这些选择对网络的性能有巨大影响,但同样也影响其计算成本——即能耗和延迟。
这就是神经架构搜索 (Neural Architecture Search, NAS) 发挥作用的地方。NAS 是一个旨在自动化神经网络设计的人工智能领域。对于 SNN 来说,这变成了一个引人入胜的多目标优化问题。我们可以创建数学模型,即使是简化的模型,来估计给定架构的准确性、能耗和延迟。一个准确性模型可能会奖励更深的网络,但会惩罚神经元的内在时间尺度与数据的时间尺度不匹配的情况。一个能耗模型会考虑更新神经元状态的成本以及在突触间发送脉冲的更显著的成本。有了这些模型,我们就可以在一个可能的架构空间中进行搜索,以找到一个能在严格的能量和时间预算内提供最佳权衡——高准确性——的架构。这将自动化设计的原则带入了 SNN 的世界,帮助我们发现新颖高效的类脑计算架构。
当工程师们在构建人工大脑时,神经科学家们则在努力理解真实的大脑。对他们来说,脉冲神经元模型不仅仅是一种灵感,更是一种不可或缺的科学工具。它们提供了一个数学框架,用以形成和检验关于大脑如何处理信息的假说。
一位神经科学家记录了动物在经历某种感觉刺激时,其大脑中单个神经元的脉冲流。得到的数据是一个复杂的时间戳序列。我们如何理解它?这个神经元想告诉我们什么?
广义线性模型 (Generalized Linear Model, GLM) 是一个回答这个问题的强大统计框架。其思想是将神经元的瞬时发放概率建模为各种因素的函数。我们可以问:刚刚发生的刺激的哪些特征使神经元更有可能发放脉冲?这由一个“刺激滤波器”来捕捉。我们也可以问:神经元自身最近的发放历史如何影响其当前的发放概率?这由一个“脉冲后历史滤波器”来捕捉,它可能模拟不应期或簇发放等效应。
通过将 GLM 拟合到记录的脉冲序列数据,我们可以估计这些滤波器。这个过程包括写下观察到整个脉冲序列的概率——即给定模型参数下数据的似然——然后找到使该函数最大化的参数。最终的表达式是一个优美的公式,它将观察到的脉冲与驱动它们的底层滤波器联系起来。通过检查估计出的滤波器的形状,科学家可以定量地“解码”神经元所代表的信息。
大脑中的神经回路并非安静、有序的机器。它们是一个活动的熔炉,兴奋性神经元试图推高活动,而抑制性神经元则试图平息它。健康的大脑功能依赖于这种兴奋与抑制 (E/I) 之间紧密、动态的平衡。脉冲模型对于理解这种微妙的舞蹈至关重要。
此外,神经元不是静态的。它们的特性会根据其近期的活动而改变。一个关键机制是*脉冲频率适应* (SFA),即快速发放的神经元会变得越来越难以兴奋。这起到一个缓慢的负反馈作用。当我们比较一个包含 SFA 的详细脉冲网络模型和一个更简单的宏观“速率模型”时,我们揭示了一个关键的见解。两种模型都捕捉了适应的平均效应——它像一个发放率的刹车。但只有脉冲模型揭示了适应还引入了一个新的波动或噪声源,因为适应电流随着每个脉冲以离散的步长累积。这种“散粒噪声”特性对于更简单的速率模型是不可见的,但可能对网络的整体动态及其对输入的响应产生显著影响。这表明,更详细的、基于脉冲的模型如何能为复杂的神经现象提供更深层次的解释。
我们能有一个关于意识的科学理论吗?这个问题,曾一度局限于哲学领域,现在正被理论神经科学家们所攻克。其中最著名(也最具争议)的理论之一是整合信息论 (Integrated Information Theory, IIT)。IIT 提出,意识是系统因果结构的一个属性——具体来说,是其整合信息的能力。要测量这一点,需要一个系统的因果模型,明确每个部分能做什么以及它如何影响其他部分。
当观察大脑时,这立即带来一个问题。什么是“部分”,它们的“状态”又是什么?微观尺度上的现实是膜电位、离子通道状态和神经递质浓度的连续体。要应用像 IIT 这样的理论,我们必须将这个 messy 的现实*粗粒化*为一组离散的状态。但我们如何以一种有原则的方式做到这一点呢?
根据该理论,关键是根据因果效应等价性来对微观状态进行分组。我们不应仅仅将数值上接近的电压归为一类;我们应该将那些在干预下对系统未来具有相同效应的电压归为一类。对于一个脉冲神经元,一个微观状态(其膜电位 )的效应是以某种概率 产生一个未来的脉冲。那么,目标就是找到一个阈值 ,将电压范围划分为两个宏观状态 ,使得所有在‘0’分区中的电压都导致一个统一低的脉冲概率,而所有在‘1’分区中的电压都导致一个统一高的概率。这变成了一个严谨的优化问题:找到能创造最清晰因果分离的阈值。这种方法使用脉冲神经元模型的逻辑,不是为了构建一台机器,而是为了为科学最深刻的问题之一构建一个可检验的数学框架。
我们的旅程带领我们从芯片设计的实用性走向了意识的哲学高度。连接这些不同领域的,是那平凡的脉冲。作为一个模型,它足够简单,易于处理,又足够丰富,能捕捉神经计算的基本动态。它是工程世界与生物世界之间的一座桥梁,是算法逻辑与大脑活动复杂舞蹈之间的一座桥梁。无论我们是在构建人工智能的未来,还是在破译我们自己心灵的秘密,脉冲神经元的语言将继续是我们寻求理解过程中的一个重要工具。