神经形态架构：一种受大脑启发的计算范式

玻尔百科

定义

神经形态架构：一种受大脑启发的计算范式是通过将存储与处理单元同位集成来克服冯·诺依曼瓶颈的一种计算领域，能够从根本上降低数据传输的能耗。该架构利用离散脉冲进行异步计算并采用脉冲时间依赖可塑性等学习规则，使硬件能够模拟大脑进行实时学习。这种低延迟且高效的系统为人工智能、机器人技术以及脑机接口等领域提供了新的可能性。

核心要点

神经形态架构通过将存储和处理单元协同部署（存算一体），克服了冯·诺依曼瓶颈，从而极大地降低了数据移动的能耗。
计算通过离散的“脉冲”异步执行，信息被编码在这些事件的时间中，而不是静态的比特位中。
这些系统可以原生实现类似大脑的学习规则，如脉冲时间依赖可塑性（STDP），使硬件能够从经验中适应和学习。
它们的高效率和低延迟为人工智能、机器人学、脑机接口以及脑部疾病的计算建模创造了新的可能性。

引言

几十年来，数字计算机一直是进步的引擎，它是超高效、顺序逻辑的奇迹。然而，随着我们计算需求的增长，我们正一头撞上一堵根本性的物理学之墙：冯·诺依曼瓶颈。在独立的处理和存储单元之间不断进行的高能耗数据穿梭，已经造成了一场效率危机，限制了从大规模人工智能到低功耗边缘设备等一切事物的潜力。为了突破这一障碍，我们必须从已知的最强大、最高效的计算设备中寻找灵感：人脑。神经形态计算代表了这种范式转变，这是一场旨在构建机器的运动——不是将其构建为强迫症般的图书管理员，而是构建为以根本不同方式进行计算的分布式、互联网络。

本文将带领读者全面深入了解受大脑启发的硬件世界。它旨在弥合传统计算与这一新兴范式之间的知识鸿沟，不仅解释神经形态系统的工作原理，更阐明其重要意义。

首先，在 原理与机制 部分，我们将解构神经形态设计背后的核心思想。我们将探讨如何通过摒弃全局时钟、采用事件驱动的“脉冲”，以及通过存算一体打破“内存墙”，从而实现惊人的能效提升。我们还将综述各种各样的神经形态芯片，从数字、模拟到混合系统，并了解它们如何采纳类似大脑的可塑性甚至非理想性原则。随后，在 应用与跨学科联系 部分，我们将看到这些原理的实际应用。我们将考察神经形态系统如何成为人工智能的新引擎、模拟大脑自身交响乐的强大工具，以及连接智能系统与物理世界的关键组件。要真正把握这场革命，我们必须首先改变对计算本身的思考方式。

原理与机制

要真正理解神经形态计算，我们必须首先改变对计算本身的思考方式。想象一下，传统计算机就像一座巨大图书馆里一个效率极高但有强迫症的图书管理员。为了执行一个简单的计算，比如“将A和B相加”，图书管理员（中央处理器，即CPU）必须从他的办公桌（处理器）冲向一个遥远的架子（内存），取下书A，跑回来，再冲向另一个架子取下书B，跑回来，在桌前完成加法运算，最后再跑回架子把书放回去。他绝大部分的时间和精力都花在了奔跑上，而不是思考上。这种在分离的内存和处理单元之间的疯狂冲刺，就是臭名昭著的冯·诺依曼瓶颈，也是现代计算的根本能源危机。

相比之下，大脑则像一个每本书都可以与邻居交谈的图书馆。没有中央办公桌。计算是一种大规模并行、分布式的对话，无处不在、同时发生。神经形态架构正是我们尝试以这种类脑形象构建计算机的努力，其原理既优雅又深刻。

时间与事件的计算

神经形态范式的核心在于信息载体的根本性转变。在传统计算机中，世界被一个全局时钟分割成离散、同步的节拍。信息由静态的状态（1和0）表示，并在每个节拍被检查。然而，神经形态世界是一个连续时间的世界，由离散的事件点缀其间。

其计算基元不是逻辑门，而是生物神经元的抽象。我们可以将其想象成一个会漏水的小桶——用电学术语来说是一个电容器。突触输入如同水龙头，将电荷滴入桶中，使其水位，即膜电位 $V_m(t)$ 上升。同时，一个持续的泄漏，即泄漏电导 $g_L$ ，会使桶中的水流出。这种动态平衡由一个优美的物理定律支配，一个源自基尔霍夫电流定律的微分方程：

C_m \frac{dV_m(t)}{dt} = - g_L \big(V_m(t) - E_L\big) + I_{\mathrm{syn}}(t)

在这里， $C_m$ 是桶的容量， $I_{\mathrm{syn}}(t)$ 代表所有输入水龙头流入的总电流。如果输入的填充速度快于泄漏速度，电位 $V_m(t)$ 就会上升。当它达到一个临界阈值 $\theta$ 时，桶就会倾倒——它会发放一个脉冲（spike）。这个脉冲是一个事件，一个发送给其他神经元的信息脉冲。发放后，桶的电位立即被重置到一个基准水平 $V_r$ ，然后过程重新开始。

关键的洞见在于：信息不在于脉冲的大小，而在于其时间。一个神经元在此刻“大喊”与在几毫秒后“大喊”，传递的是不同的信息。计算变成了一场由精确定时事件组成的舞蹈，一种稀疏、异步的信息流，与时钟驱动的数字计算机那种暴力推进的方式截然不同。

效率架构：打破内存墙

这种事件驱动、基于时间的理念不仅仅是一种美学选择；它是实现惊人能效提升的关键。它直接攻击了冯·诺依曼架构中两个主要的浪费来源：数据移动和不必要的活动。

首先，神经形态架构采纳了存算一体（memory-compute co-location）。突触权重——大脑中相当于内存的部分——并非存储在遥远的DRAM“图书馆”中。相反，它们与神经元电路本身物理集成在一起，通常位于片上SRAM的小型快速存储块中，甚至在突触器件内部。我们那位图书管理员的疯狂奔跑被本地对话所取代。在物理层面，处理器和内存之间的长距离、高电容互连被微观的本地导线所取代。由于发送信号所需的动态能量与电容成正比（ $E = \frac{1}{2} C V^2$ ），将这些连接缩短数千倍，可以极大地降低访问内存的能耗。

其次，这些系统从根本上是事件驱动的。一个神经元电路及其突触在没有脉冲到达时处于休眠状态，几乎不消耗功率。计算只在需要的时间和地点发生。没有一个全局时钟专制地命令每个晶体管在每个周期都同步开关，无论是否有用的工作要做。这个被称为能量相称性（energy proportionality）的原则意味着系统的功耗会随着计算负载——即总体脉冲率——自然地伸缩。

当你结合这两个原则时，结果是惊人的。一个精心构建的思想实验，比较了冯·诺依曼架构和神经形态架构在处理相同工作负载时的表现，结果表明，神经形态设计在数据移动和时钟操作方面的能效可以高出60万倍以上。这不是微小的改进；这是一次范式转变，是通过构建尊重信息物理学规律的硬件而实现的。

形形色色的“片上大脑”

并不存在单一的“神经形态芯片”，而是一个多样化的架构家族，每个架构都是在生物保真度、效率和灵活性之间进行权衡的广阔设计空间中的一个独特选择。

大多数大规模系统，如英特尔的Loihi和IBM的TrueNorth，都是完全数字的。它们使用标准CMOS晶体管实现神经元动力学和事件驱动逻辑。它们在管理突触内存的方式上有所不同。例如，TrueNorth使用一种密集的、类似交叉阵列（crossbar）的结构，其中每个潜在连接都有一个1比特的存储单元来表示其是否存在。权重并非每个突触独有；相反，轴突被分配为几种可编程“类型”中的一种。这种设计密集且高效，但略显僵化。相比之下，像Loihi和SpiNNaker架构这样的系统则使用稀疏连接表。它们只存储实际存在的突触信息，这对于类脑网络来说效率高得多，因为在这样的网络中，任何一个神经元只与其同伴中的一小部分相连。SpiNNaker将此做到极致，它使用超过一百万个标准的ARM处理器核心——与你在智能手机中找到的类型相同——来构建其网络，从而创造了一个大规模并行、软件定义的“大脑”。

在另一端是像BrainScaleS这样的模拟系统。在这里，漏放电（leaky integrate-and-fire）神经元不是由数字程序模拟的；它的微分方程是由模拟电路的连续时间动力学物理实现的。这些系统速度极快——通常比生物实时运行得更快。然而，这种原始性能是以牺牲精度为代价的。模拟电路容易受到噪声和制造差异的影响。因此，BrainScaleS是一个优美的混合体：用于神经元动力学的模拟核心通过一个基于数字事件的通信网络互连。它获得了模拟的速度和数字通信的可靠性，尽管它需要仔细的数字校准来克服模拟电路的非理想性。

机器中的灵魂：拥抱可塑性与非理想性

大脑的真正力量不在于其静态结构，而在于其卓越的学习和适应能力。神经形态工程旨在捕捉这种可塑性。

最著名的学习规则是脉冲时间依赖可塑性（Spike-Timing-Dependent Plasticity, STDP）。这个规则简单且局部：“一起发放的神经元，连接在一起”，但带有一个关键的时间转折。如果一个突触前神经元在突触后神经元发放之前刚刚发放，从而引起后者的发放，它们之间的连接就会被加强（长时程增强，或LTP）。如果突触前神经元在突触后神经元之后才发放，它就会受到惩罚，连接会减弱（长时程抑制，或LTD）。这种因果学习机制完全依赖于脉冲事件的相对时间，非常适合神经形态硬件。然而，实现它需要跟踪脉冲历史，这会引入一个随发放率呈二次方增长的计算成本，从而为片上学习系统设定了吞吐量限制。

更令人兴奋的是，将学习能力直接构建到硬件本身的物理特性中。研究人员正在探索新兴的纳米电子器件，通常称为忆阻器（memristors），它们可以充当人工突触。这些两端器件的电导（电阻的倒数）取决于通过它们的电压和电流历史。通过设计巧妙的电路来塑造来自突触前和突触后脉冲的电压波形，可以使器件的内部物理过程——离子的迁移或材料相位的变化——自动实现STDP规则。权重更新 $\Delta w$ 成为器件对重叠脉冲波形物理响应的涌现属性。学习不再是在硬件上运行的算法，而是硬件的一种内在属性。

这种与纷杂物理学的深层联系，迫使我们面对来自大脑的最后一个优美启示：非理想性的力量。模拟硬件本质上是非理想的。并排制造的晶体管和忆阻器永远不会完全相同（失配），它们存储的值会随着时间缓慢漂移，并且它们会受到持续的热噪声的影响。对于传统计算机工程师来说，这是一场噩梦。但对于神经形态工程师来说，这是一个机遇。大脑也是一个充满噪声、充满变数的系统。它之所以能实现令人难以置信的可靠性，不是通过对抗这种混乱，而是通过冗余来拥抱它。

考虑一个不可靠的神经元。我们可以通过使用三个不可靠的神经元并采取多数表决的方式，来实现一个更鲁棒的“元神经元”。在冯·诺依曼机器上，将工作量增加三倍意味着将能耗增加三倍，这主要是因为从内存中获取数据的次数增加了三倍。但在神经形态芯片上，计算是局部的且成本惊人地低，这种冗余几乎是免费的。该架构的核心效率使得类脑的鲁棒性策略不仅成为可能，而且在能量上也是可行的。看起来像是一个缺陷的东西——器件的非理想性——变成了一个特性，推动系统走向更鲁棒、更类脑的计算策略。

故事并未就此结束。大脑不仅改变现有连接的强度（ $W_{ij}$ ）；在更慢的时间尺度上，它还能生长出新的连接并修剪掉旧的连接。这种结构可塑性，对应于改变网络的基本布线图（ $A_{ij}$ ），是终极前沿，它预示着机器不仅能够学习，还能在其整个生命周期中发展和自我修复。这是一个宏伟的愿景：一种新型计算，植根于时间、事件和物质的物理学，它不仅受大脑启发，更融入了其最深刻、最优雅的原理。

应用与跨学科联系

在探索了神经形态架构的基本原理之后，我们现在来到了一个激动人心的目的地：现实世界。我们能用这些受大脑启发的机器做什么？事实证明，它们独特的设计不仅仅是一项优雅的智力练习；它开启了新的能力，并在广阔的科学技术领域中建立了令人惊讶的联系。我们不只是在建造不同的计算机；我们正在创造工具，使我们能够以全新的方式解决问题，这些问题对于传统计算机来说曾经是无法解决的。

人工智能的新引擎

神经形态系统最直接的应用是运行已经主导我们世界的人工智能模型。但这并非简单地移植现有代码。将像卷积神经网络（CNN）——图像识别的主力军——这样的熟悉算法映射到这些奇特的芯片上，本身就是一门艺术和科学。

想象一下，你有一个训练好的脉冲CNN和四个不同的神经形态平台：一个像SpiNNaker这样的大规模并行数字系统，一个像英特尔Loihi这样的异步数字芯片，一个像IBM TrueNorth这样的超高效同步设计，以及一个像BrainScaleS这样快到令人难以置信的模拟系统。让你的网络运行起来的任务，就像为四个完全不同的管弦乐队翻译一首乐曲。每个乐队都有自己的乐器、自己的规则、自己的优势和劣势。

在像SpiNNaker或Loihi这样的系统上，你必须“展开”卷积的优雅共享权重，明确地创建数百万个单独的突触连接，因为硬件不像GPU那样原生支持权重共享。你还必须把你训练中得到的精美精确的浮点数权重进行量化，将它们压缩成硬件能够理解的低比特整数。在TrueNorth上，挑战更为极端：你的权重可能基本上变成二值的，每个神经元只有几个离散的强度级别可用。这就像重写一首交响乐，让它用一套钟来演奏。对于像BrainScaleS这样的模拟系统，你面对的是一个完全不同的猛兽。它的运行速度比实时快数千倍，所以你必须缩放网络的所有时间常数以匹配其疯狂的节奏。此外，它的模拟组件存在微小但不可避免的制造缺陷，所以你必须仔细校准系统，就像在演出开始前调试一件精密的乐器一样。

这个过程揭示了一个深刻的真理：算法和架构是密不可分的。硬件的限制迫使我们重新思考我们AI模型的结构。当我们构建真正庞大的网络时，这个挑战会扩展到更大的规模。你如何将一个拥有数百万神经元的网络划分到庞大的硅核阵列中？这是一个宏伟的资源管理难题。你必须平衡每个核心上的神经元数量、它们连接所需的内存、单个神经元的扇入和扇出限制，以及最关键的，核心之间通信高速公路上的流量。如果其中任何一个过载，你那美丽的片上大脑就会陷入停顿。解决这个问题就像为一个硅神经元大都市做城市规划，确保信息流畅通无阻，不会造成交通堵塞。

模拟大脑的计算交响乐

当神经形态系统超越模仿传统AI，开始实现大脑自身的计算策略时，它们才真正大放异彩。其中最引人入胜的概念之一是储层计算（Reservoir Computing），体现在像液态机（Liquid State Machine, LSM）这样的模型中。一个LSM由一个大型、固定、循环连接的脉冲神经元网络——即“储层”——组成。当你向这个储层注入一个时变输入时，它会产生回响，并创造出复杂、高维的活动模式，就像一颗石头投入池塘中产生错综复杂的涟漪。“计算”是通过简单地学习读出和解释这些丰富的内部动力学来执行的。

将这样的模型映射到神经形态硬件上，本身就带来了一系列优美的挑战。例如，生物学家可能会使用电导来模拟神经元，其中突触打开离子通道，从而改变神经元的膜特性。然而，像Loihi这样的神经形态芯片可能使用基于电流的神经元，其中突触注入离散的电荷包。为了弥合这一差距，工程师必须使用巧妙的近似方法，例如在典型工作电压附近对电导效应进行线性化。这种转换永远不会是完美的；它会引入微小的误差。量化参数带来的有限精度又增加了一层噪声。其艺术在于仔细管理这些误差源，以保留储层丰富的计算动力学——其分离输入的能力和对过去的衰减记忆——没有这些，它就无法正常工作。

这种模拟复杂动力学的能力使我们能够探索更宏大的思想，比如贝叶斯大脑假说。该理论假设，大脑从根本上说是一个统计推断引擎，它根据感官证据不断更新关于世界的概率模型。使用一种称为因子图的数学框架，这个过程可以被描述为在代表变量及其关系的节点之间传递消息。一个具有分布式、异步、事件驱动特性的神经形态系统，是这种消息传递的完美物理基底。挑战在于这些图通常包含循环，这可能导致传统的消息传递算法振荡和失败。然而，通过设计巧妙的、事件驱动的调度方案——其中更新仅在消息变化足够大时才被触发，并且可能根据变化的幅度来确定优先级——我们可以确保系统收敛到一个稳定、一致的信念状态，即使在一个充满可变延迟且没有全局时钟来协调一切的世界中也是如此。这使我们离构建不仅能分类模式，还能以类脑方式主动对不确定性进行推理的机器更近了一步。

连接物理与生物世界

一个智能系统的真正考验是它与世界互动的能力。在这一点上，神经形态硬件的事件驱动、低延迟特性提供了深远的优势，与机器人学和生物医学工程建立了深厚的联系。

考虑一个试图执行精细、高速任务的机器人，比如接住一个飞行物体。传统的、基于时钟的控制器以固定的时间间隔对世界进行采样。在关键时刻，这可能太慢了。然而，神经形态控制器是基于事件运行的。它在新信息到达时采取行动。这种理念非常适合构建闭环控制系统。但物理学是一位严厉的导师。控制回路中每一微秒的延迟——从传感器到处理器，经过神经计算，再回到执行器——都会引入一个可能使系统不稳定的相位滞后。为了设计一个稳定的控制器，工程师必须考虑所有延迟源：计算时间、芯片上的通信延迟、脉冲时间的抖动，甚至数模转换器的处理时间。神经形态架构通过提供极低延迟处理的途径，为下一代快速、敏捷的机器人提供了关键工具。

这种低延迟、低功耗的处理对于脑机接口（BCI）也至关重要。想象一个可以解释人的脑电图（EEG）信号来控制假肢的系统。这样的设备必须是可穿戴的，这意味着它必须极其节能，并且必须实时响应用户的意图。神经形态芯片是自然的选择。开发者面临的一个关键问题是，是采用一个预训练的传统人工神经网络（ANN）并将其转换为脉冲神经网络（SNN），还是直接在硬件上从头开始训练一个SNN。转换过程是一种权衡：它利用了强大的现有训练方法，但需要仔细的归一化，才能在不损失精度的情况下将ANN的激活值映射到SNN的发放率。然而，最关键的权衡是在准确性和延迟之间。为了获得一个神经元发放率的可靠估计，必须在某个时间窗口 $T$ 内观察它。更长的时间窗口能提供更好的估计和更高的准确性，但会增加延迟。为了让BCI感觉反应灵敏，这个窗口必须短于用户的感知阈值。这迫使工程师设计能够在极短的时间间隔内以高发放率有效计算的网络，从而挑战硬件的极限。

前沿：建模、分布式系统与新物理学

当我们展望未来时，神经形态计算的跨学科联系变得更加深刻，触及了医学、分布式系统甚至物理学中的基本问题。

最激动人心的前沿之一是计算精神病学。许多脑部疾病可以被理解为学习和决策回路的功能障碍，这通常与多巴胺等神经调节物质有关。通过在神经形态硬件上构建这些回路的生物学合理模型，我们可以创建强大的“计算机模拟”（in-silico）测试平台来研究这些病症。例如，我们可以使用三因子学习规则实现一个强化学习代理，其中突触的变化取决于突触前活动、突触后活动以及一个模仿多巴胺的全局“奖励”信号。这需要在每个突触上配备一个“资格迹”（eligibility trace）——对其近期活动的记忆。当一个延迟的奖励信号到达时，它便可以正确地加强那些导致良好结果的突触。通过在神经形态芯片上实现这一点，并遵守其严格的内存和带宽限制，我们可以参数化地操纵模拟的多巴胺信号——削弱其幅度或增加其延迟——来研究信用分配是如何崩溃的，从而为快感缺乏症或成瘾等疾病提供见解。

另一个主要前沿是联邦学习。在未来，智能将分散在数十亿个边缘设备上，我们需要方法让这些设备在不通过共享原始数据损害用户隐私的情况下协同学习。神经形态芯片是此类边缘设备的理想选择。联邦平均（FedAvg）算法提供了一个蓝图，其中每个节点在其本地数据上进行训练，并定期将其更新的模型发送到中央服务器进行聚合。在异步网络和异构硬件的现实世界中，这个简单的想法变得复杂。我们必须设计对来自较慢节点的“陈旧”更新具有鲁棒性的聚合方案。此外，我们必须超越仅仅优化准确性。设备端学习是一个多任务优化问题。我们不仅要最小化分类误差，还要最小化能耗和延迟，同时遵守每个设备严格的、特定于客户端的预算。这导致了复杂的、源自约束优化理论的目标函数，这些函数优雅地平衡了全局性能与对物理资源的局部、异构约束。

最后，支撑神经形态计算的硬件本身也在不断发展。虽然今天大多数系统都是基于硅的，但研究人员正在探索全新的物理基底。在光子神经形态计算中，计算是用光来执行的。使用像波分复用（WDM）这样的技术，单个波导可以承载数十个不同颜色光的独立信道，每个信道都由一个名为微梳（microcomb）的非凡设备产生。这实现了大规模并行，以光速执行矩阵乘法。奇妙之处在于光电探测器。虽然许多光场的叠加会产生高频“拍频”的嘈杂声，但带宽比信道间隔慢的探测器会简单地将它们平均掉，从而得到各个信道强度的干净总和。这是一个将硬件限制转化为计算特性的绝佳例子，预示着一个具有前所未有速度和带宽的计算未来。

从让AI在芯片上运行的实际操作，到模拟人类心智的宏伟探索，神经形态计算的应用证明了其作为统一平台的力量。这是一个计算机体系结构与神经科学交汇、机器人学与控制理论交汇、机器学习与基础物理学交汇的领域。这是一段发现之旅，提醒我们，有时为了构建未来，我们必须首先审视大自然在数百万年间精心打造的优雅而高效的解决方案。