用于存内计算的非易失性模拟存储器

玻尔百科

关键要点

非易失性模拟存储器促成了存内计算，这是一种通过在数据存储位置直接执行计算来克服冯·诺依曼瓶颈的范式。
模拟状态的存储方式有两种：要么通过捕获精确数量的电荷（浮栅晶体管），要么通过改变材料的物理性质（RRAM、PCM、FeFET）。
在交叉阵列中，这些器件可以并行执行矩阵向量乘法，从而在物理上实现了人工神经网络的核心运算。
构建稳健的系统需要通过系统级策略（如差分方案和智能刷新策略）来管理器件的非理想性，例如漂移、噪声和有限的耐久性。

引言

数十年来，计算技术的发展一直受制于冯·诺依曼架构，这种设计将处理与存储分离开来。这种分离造成了数据交通堵塞——即“冯·诺依曼瓶颈”——消耗了大量的时间和能源，严重限制了依赖海量数据集的人工智能等应用。为了突破这一障碍，研究人员从大脑本身汲取灵感，提出了一种革命性的解决方案：直接在存储器内部执行计算。

本文探讨了实现这一新范式的关键使能技术：非易失性模拟存储器。与存储二进制0和1的传统数字存储器不同，这些器件可以存储连续谱系的值，并且在断电后仍能保持这些值。我们将研究使这些器件能够工作的基本物理原理，从而在材料科学与下一代计算机体系结构之间架起一座桥梁。

接下来的章节将引导您探索这个引人入胜的领域。首先，在“原理与机制”一章中，我们将揭示用于存储模拟信息的巧妙物理策略，从在浮栅晶体管中捕获电荷到在忆阻器件中改变物质本身的结构。随后，在“应用与跨学科联系”一章中，我们将看到这些器件如何被用于构建受大脑启发的神经形态系统，从根本上改变我们处理机器学习的方式，并揭示固态物理学、计算机科学和神经科学之间的深刻联系。

原理与机制

乐团与乐谱：在数据所在地进行计算

想象一个宏大的管弦乐团。现在，想象一下，每位音乐家不是把乐谱放在面前的谱架上，而是必须跑到大厅另一头的中央图书馆去取下一小节的乐谱，演奏完之后再跑回去归还。这样一来，音乐会就会陷入停滞。音乐家们花在奔波上的时间和精力将远远超过演奏本身。简而言之，这就是现代计算面临的挑战。

半个多世纪以来，计算机的主流蓝图一直是冯·诺依曼架构，它从根本上分开了处理器（音乐家）和存储器（图书馆）。这种分离造成了数据的“交通堵塞”，通常被称为冯·诺依曼瓶颈。在存储芯片和中央处理器之间来回传输数据所花费的能源和时间，可能远远超过实际计算所花费的能源和时间。对于涉及海量数据的问题，比如训练人工智能模型，这个瓶颈是主要的限制因素。

正如我们的乐团类比所暗示的，解决方案是给每位音乐家他们自己的乐谱。这就是存内计算 (In-Memory Computing, IMC) 的核心思想：直接在存储数据的地方执行计算。我们不是将堆积如山的数据搬到一个功能强大的计算器那里，而是在存储器本身中嵌入无数个微型计算器。这需要一种新型的存储器——一种不仅能存储信息，还能主动参与计算的存储器。具体来说，它需要一种不仅能存储二进制的0和1，还能存储丰富模拟值的存储器，并且无需持续供电。这就是非易失性模拟存储器的世界。

瓶中闪电：存储模拟状态的艺术

你如何将一个连续值，比如数字2.718，存储在一个物理器件中，并让它在拔掉电源后仍然存在？这是一个深刻的挑战，工程师们设计了两种主要策略。

策略一：存储电荷池

最成熟的方法是捕获精确数量的电荷并将其囚禁起来。实现这一点的典型器件是浮栅晶体管。想象一个微小的、电隔离的导电硅岛——“浮栅”——完全被像二氧化硅这样的近乎完美的绝缘体包围。这个绝缘体就是瓶子，而电荷就是我们想要捕捉在里面的“闪电”。

非易失性，即存储器的“持久力”，来自于这个绝缘瓶的卓越品质。一个电子要逃逸，必须克服约 $3.1\,\mathrm{eV}$ 的能垒。在室温下，一个电子的热能仅为约 $0.026\,\mathrm{eV}$ 。电子自发聚集足够能量跃过这个势垒的概率与 $\exp(-3.1/0.026)$ 成正比，这个数字小到几乎可以忽略（约为 $10^{-52}$ ），因此电荷预计可以被困住数年之久。存储的信息比漂流在海上的瓶中信还要安全。

那么，如果瓶子封得这么紧，我们如何将电荷放入或取出呢？我们必须借助量子力学和高能物理学中奇妙的规则。主要使用两种机制：

Fowler-Nordheim隧穿： 通过施加一个非常大的电场（量级在每厘米千万伏特！），我们可以扭曲绝缘体的能垒，使其变得足够薄，以至于电子可以“隧穿”过去，即使它们没有足够的能量越过它。这就好比只要你足够用力地推一堵墙，你自己的一个幽灵般的版本就能出现在另一边。
沟道热电子注入 (Channel Hot-Electron Injection, CHEI)： 通过向晶体管施加巧妙的电压，我们可以将沟道中的电子加速到非常高的速度。这些“热”电子获得足够的动能，从而能够真正地跃过能垒，降落在浮栅上。

一旦被捕获，这个由成千上万个电子组成的电荷池就充当了一个连续的模拟值。浮栅上的电荷量会产生一个电场，从而改变晶体管的行为，特别是通过改变其阈值电压 ( $V_T$ )。这种变化平滑地控制着流过晶体管的电流，使我们能够“读取”存储的模拟权重。因为在亚阈值区的电流与栅极电压呈指数关系， $I_D \propto \exp(\kappa V_G / U_T)$ ，存储电荷的微小线性变化会导致输出电流的乘性变化——这正是以模拟方式执行乘法的完美基本单元。

策略二：改变物质结构

一种更新颖、或许也更激进的方法是，不是通过向材料中添加电荷来存储信息，而是通过改变材料本身的物理性质来存储信息。在这里，我们不只是在纸上写字；我们从根本上改变了纸张的颜色或透明度。这些器件通常被称为忆阻器（memory resistors）。

这一策略的关键在于材料中原子或离子的缓慢而审慎的舞蹈。当电子以接近光速的速度飞驰时，沉重的离子在电场的驱动下移动得非常缓慢。这种巨大的时间尺度差异是忆阻行为的秘密：我们可以用强电场缓慢地重新排列原子结构，而这种新结构在电场消失后很长时间内仍将保持“冻结”状态。然后，快速移动的电子可以将这种冻结状态读取为电阻的变化。人们已经利用了几种奇妙的机制：

阻变存储器 (RRAM)： 在许多金属氧化物中，施加电压可以使带电缺陷（如氧空位）在材料中穿梭。这些空位可以排列形成纳米尺度的导电细丝，就像制造一根仅有几个原子粗细的微小铜线，从而将器件切换到低电阻状态。反转电压可以溶解这根细丝，使器件恢复到高电阻状态。通过仔细控制这一过程，我们可以生长或收缩细丝以获得一系列中间电阻值，从而实现模拟存储。
相变存储器 (PCM)： 这项技术被用于可重写CD和DVD中，它采用的材料可以以两种不同的固相存在：无序的、玻璃状的非晶态和有序的晶态。非晶态具有高电阻，而晶态具有低电阻。通过焦耳热施加受控的热脉冲，我们可以熔化并淬火材料使其变为非晶态，或退火使其变为晶态。通过产生部分结晶，我们可以实现相的混合，使其电阻可以在一个连续的谱系上进行精细调节。
铁电场效应晶体管 (FeFET)： 某些称为铁电体的晶体材料具有内置的、可切换的电极化。可以把每个晶胞想象成带有一个指向向上或向下的微小内部箭头。施加外部电场可以翻转这个箭头。在FeFET中，一层薄薄的这种材料被放置在晶体管的栅极中。其剩余极化的方向会产生一个局部电场，其作用就像浮栅器件中存储的电荷一样，改变晶体管的阈值电压。通过部分翻转极化畴，可以实现多种模拟状态。

存储器大观园：为特定任务选择合适的工具

面对这个日益壮大的器件家族，人们该如何选择？答案关键取决于应用。首先，考察一下存储器的“老前辈”：SRAM 和 DRAM，是很有启发性的。SRAM单元由交叉耦合的反相器构成，形成一个只有两个稳定状态'0'和'1'的双稳态锁存器。它本质上是数字的。DRAM将电荷存储在电容器上，这是一个模拟量，但这些电荷会在毫秒内泄漏掉，需要持续的电源和刷新。此外，读取电荷是破坏性的。它们的内在属性使其不适合扮演非易失性模拟存储单元的角色。

真正的非易失性模拟竞争者各有其“个性”：

技术	物理状态	模拟特性	关键优势
浮栅	捕获的电荷	有效连续。如同往桶里装水，电荷水平可以被非常高精度地控制。	精度高，技术成熟。
RRAM	导电细丝	随机离散。由单个原子的随机运动形成。更像是堆叠乐高积木，而非倒水。	简单的两端结构，高密度。
PCM	晶相分数	大体上连续。结晶材料的比例可以被控制，但成核过程具有一定的随机性。	良好的多级能力，高耐久性。
FeFET	极化畴	离散步阶。翻转作为单个畴的翻转发生，导致电导出现阶跃。	开关速度快、功耗低，三端控制。

电荷存储的“连续”性质与基于细丝或畴的开关的“离散”性质之间的区别不仅仅是学术上的；它对计算具有深远的影响。像用于训练神经网络的梯度下降之类的算法，依赖于对权重进行一系列非常小而精确的更新。浮栅器件凭借其可精细控制的电荷，天然适合于此。而对于一个细丝型器件，其最小可能的更新可能是一个大的、随机的跳跃，这使得它难以忠实地实现这类算法。这就像是轻轻地将一个球推下平滑的山坡，与试图通过在旁边点燃小的、不可预测的鞭炮来移动它之间的区别。

不完美之美：与非理想性共存

自然界从来不像我们的模型那样干净。模拟存储器的世界充满了美妙的物理学，但它也是一个充满不完美的世界。设计这些系统的艺术在于理解和驯服这些非理想性。

漂移，或遗忘问题： 一个模拟状态一旦被写入，并不会保持完全固定。PCM器件非晶相中的原子会继续缓慢松弛，导致电阻随时间漂移上升。这种漂移通常遵循幂律， $G(t) = G_0(t/t_0)^{-\nu}$ ，其中 $G$ 是电导， $t$ 是时间。为了应对这种情况，系统可能需要周期性地“巩固”或刷新权重，就像音乐家必须为走音的乐器重新调音一样。
噪声与失配： 没有任何两个器件是完全相同的——这种现象称为失配。由于随机掺杂原子和纳米级光刻变化的统计特性，它们的属性在整个芯片上各不相同。此外，单个器件的电导会随时间随机波动——即时间噪声。这种噪声通常具有特征性的 $1/f$ 功率谱，源于无数电荷陷阱的集体闪烁，每个陷阱都有其自己的时间常数。工程师的任务不是消除这种混乱，而是对其进行统计表征，并设计出能够抵抗它的电路。
有限的寿命： 向这些存储器中写入数据涉及剧烈的物理过程——用热量轰击材料或将原子从其位置上撕扯下来。这会导致磨损。耐久性衡量一个器件在损坏前能承受多少次写入周期。保持性衡量它能保持其状态多长时间。这两者常常是矛盾的。一个假设的片上学习任务可能要求一个突触被更新3000万次。如果每次更新需要两个写入脉冲，并且我们想要一个10倍的安全余量，那么器件必须能承受6亿次循环。一个耐久性为1亿次的典型PCM器件将会失效。一个耐久性为10亿次的RRAM器件则可以工作。SRAM和DRAM具有近乎无限的耐久性，但在保持性测试中失败，因为它们在断电时会丢失数据。这个简单的计算揭示了设计带有非易失性存储器的学习系统时核心的、量化的权衡。

这段探索非易失性模拟存储器原理的旅程，揭示了物理学、材料科学和计算机工程之间美妙的相互作用。这是一项旨在构建一种新型计算硬件的探索，它模仿大脑本身密集、互联且不完美的模拟特性——在这里，乐谱终于在它被写下的地方被演奏。

应用与跨学科联系

在上一章中，我们深入探究了非易失性模拟存储器的复杂世界，探索了让这些非凡器件能够不以简单的0或1，而是以连续谱系的值来存储信息的物理机制。现在，我们从“是什么”和“如何做”转向“为什么”。为什么这种能力如此具有革命性？答案不仅在于构建更好的存储器，更在于从根本上重新思考计算本身。这段旅程将我们从人工智能的核心带到计算机科学和计算神经科学的前沿，揭示了一个器件物理、电路设计和生物学原理在此交汇的美妙统一体。

存内计算的黎明：重现大脑蓝图

半个多世纪以来，数字计算机的蓝图一直是冯·诺依曼架构，它严格分开了处理器（“大脑”）和存储器（“笔记本”）。这种设计迫使数据不断地、高能耗地来回穿梭——这一限制被称为冯·诺依曼瓶颈。相比之下，人脑是效率的杰作。它没有进行这种分离；其处理元件（神经元）和记忆元件（突触）紧密地交织在一起。计算就发生在数据所在之处。

非易失性模拟存储器为我们提供了一条模仿这种生物学优雅的路径。想象一个由相交导线组成的简单网格，一个“交叉”阵列。在每根水平行线与垂直列线相交的节点上，我们放置一个我们的模拟存储器件，其电导 $G_{ij}$ 可以被精细调节。如果我们沿行施加代表输入神经元激活的输入电压 $V_i$ ，根据欧姆定律，电流 $I_{ij} = G_{ij} V_i$ 会流过每个器件。现在，奇迹发生了：在每列的底部，根据基尔霍夫电流定律，来自该列的所有电流会自然地汇集在一起。从第 $j$ 列流出的总电流是 $I_j = \sum_i G_{ij} V_i$ 。

这个简单的物理过程——电流流动并相加——恰恰是被称为矩阵向量乘法的数学运算，这是当今人工神经网络的计算主力。突触权重的矩阵由电导矩阵物理地体现。计算是并行的，在整个阵列上，仅需一个迅速的步骤即可完成。这就是存内计算或计算在存储中(CIM)的精髓：我们已经消除了处理和存储之间的界限。

当然，神经网络需要兴奋性（正）和抑制性（负）连接，但物理电导只能是正的。解决方案，借鉴于模拟电路设计的经典手册，是使用差分对。每个突触权重不是由一个，而是由两个存储器件表示，有效权重与它们的电导之差成正比， $w_{ij} \propto (G_{ij}^{+} - G_{ij}^{-})$ 。这使我们能够构建强大的人工智能加速器，但神经形态工程的真正雄心则更为深远。

从原始物理到智能学习

加速矩阵乘法是一回事；创建一个能够学习的系统是另一回事。一个真正的神经形态系统旨在不仅仅是一个快速的计算器；它旨在成为一台学习机器。在这里，一个简单的CIM加速器和一个受大脑启发的学习系统之间的区别变得至关重要。后者不仅寻求捕捉神经计算的结构，还寻求捕捉其动态——即通过经验适应和改变的能力。

这正是像阻变存储器（RRAM）或相变存储器（PCM）这类新兴非易失性存储器的独特物理特性大放异彩的地方。它们的内部状态——无论是一个离子细丝的构型还是一种材料的晶相——不仅仅是一个静态值。它会根据施加于其上的电压和电流历史而演变。这种物理动态可以被用来直接实现生物学习规则。例如，著名的脉冲时间依赖可塑性（STDP）规则，其中突触的增强或减弱取决于神经元脉冲的精确相对时间，当用适当形状的电压脉冲激励时，可以直接从器件的内部传输和开关动力学中涌现出来。在这种范式中，器件物理本身就成了学习算法。

这种深刻的联系使我们能够构建模拟更复杂生物现象的硬件，例如突触巩固——大脑将短暂的短期记忆转化为稳定的长期记忆的过程。我们可以设计一个具有两个组件的混合突触：一个存储在易失性元件（如简单电容器）上的“快速”不稳定权重，和一个存储在非易失性模拟器件上的“慢速”巩固权重。短期学习会修改快速权重，该权重会迅速衰减。然而，如果刺激很强或重复出现，一个“巩固”信号会被触发，将信息从快速、易逝的权重转移到慢速、永久的权重上。这个双时间尺度系统是神经科学中一个主流记忆理论的直接硬件模拟，展示了我们电子工具包的多样化特性如何被组合起来以捕捉大脑的微妙动态。

工程现实：驯服纳米尺度的混沌

到目前为止，我们描绘的图景是优雅和美妙原理的结合。但正如任何物理学家或工程师所知，现实世界是一个混乱的地方。我们一直在讨论的纳米级器件并非教科书图表中的完美、理想化组件。它们受到原子随机碰撞和制造过程中不可避免的缺陷的影响。它们的特性会随时间漂移，并且没有两个器件是完全相同的。这不是技术的失败；这是这个尺度下物理学的基本性质，而克服它正是工程的艺术。

最紧迫的挑战之一是模拟状态并非完全永久。电荷会泄漏，离子会扩散，材料会松弛。一个精心编程的电导值会随着时间慢慢漂移，给计算带来误差。此外，由于微观上的差异，每个器件的响应都略有不同，这个问题被称为器件间失配。第三个挑战是，写入新值的行为本身就是一个嘈杂的、随机的过程，重复数百万次最终会磨损器件，限制其写入耐久性。

要对抗这种模拟世界的混乱，需要跨学科地融合来自电路设计、统计学和信息论的思想。

伙伴系统： 为了对抗影响一个区域内所有器件的共同漂移源（如温度变化），工程师们采用差分方案。正如我们在表示带符号权重时所见，使用器件对可以消除共同的噪声。通过读取一个突触器件和一个邻近参考器件之间的差值，任何共模漂移都会被减去，从而显著提高稳定性。
数量优势： 为了对抗器件失配和写入噪声的随机性，我们可以求助于统计学。我们可以用一个小组（系综）来代表一个突触，而不是依赖单个器件。通过对多个器件的模拟读数进行平均，随机的、独立的误差会趋于抵消，从而产生对目标权重的更精确估计。事实上，噪声的方差与所用器件的数量成反比递减。类似的原则也适用于存储数字比特，其中对几个二进制器件进行“多数表决”可以纠正随机翻转。
智能管理： 我们可以学会智能地管理非理想性，而不是与之对抗。由于权重会随时间漂移，它们必须被周期性地刷新。一种天真的方法是频繁地刷新每个权重，这个过程会消耗大量能量。一种更聪明的、“保持性感知”的策略是为漂移过程创建一个物理模型——例如，知道一个器件的电阻随时间呈对数漂移。利用这个模型，我们可以精确计算出一个权重即将漂移出可接受容差范围的时刻，并仅在那时刷新它。这种系统级策略和器件级物理的协同设计，在保证精度的同时最小化了能耗。
保护元数据： 即使在模拟系统中，有些信息最好还是保持数字形式——例如，一个标志，指示一个突触是否有资格进行更新。为了保护这些关键比特免受随机错误的影响，我们可以使用信息论的强大工具，例如纠错码（ECC），它向数据中添加结构化的冗余，使系统能够动态检测和纠正错误。

这些策略凸显了一个关键主题：构建稳健的模拟计算系统，重点不在于创造完美的器件，而在于设计一个能够与不完美的组件可靠工作的弹性系统——就像生命本身一样。

超越大脑：磨损均衡与存储器的未来

虽然神经形态计算是一个旗舰应用，但非易失性存储器的影响远远超出了传统计算的领域。这些器件有望取代传统的存储层次结构，从而实现像RAM一样快、像闪存一样密集且非易失性的“通用存储器”。然而，它们有限的写入耐久性是一个主要障碍。如果计算机的操作系统反复向相同的存储地址写入数据——例如，更新文件系统日志——那些位置很快就会被磨损。

解决方案是一种算法，称为*磨损均衡*。存储控制器必须充当一个智能管理者，维护一张物理内存块的隐藏映射表。当计算机请求向某个逻辑地址写入时，控制器会将该写入重定向到一个磨损次数较低的物理块，并相应地更新其映射表。磨损均衡算法的目标是将写入操作尽可能均匀地分布在整个存储空间中，确保芯片的任何单个部分都不会过早失效。这是一个计算机科学问题——存储分配算法的设计——被底层存储器件的固态物理学直接塑造和约束的美妙例子。

宏伟蓝图：硅、细胞与思维的热力学

我们关于非易失性模拟存储器的探索，在更宏大的计算图景中处于什么位置？为了获得更广阔的视角，将我们的神经形态硅系统与使用活体生物物质本身的计算方式进行比较是很有用的，例如生物混合系统（芯片上培养的神经元）或脑类器官。

每种方法都提供了一种引人入胜的权衡。神经形态硅为我们提供了无与伦比的速度、可扩展性以及工程系统所带来的精确控制。我们来制定规则。另一方面，生物系统提供了惊人的能源效率以及自组织和内在学习的神秘力量。它们的“规则”是复杂生物物理学的一种涌现属性。

即使在能量耗散的层面上，根本差异也是显著的。在我们的硅芯片中，主要的成本是电能：为电容器充电和放电，这个过程的能量与 $E \approx C V^2$ 成比例。在活体神经元中，成本是代谢性的：ATP的化学能被分子泵消耗，这些泵不知疲倦地工作，以恢复驱动每一次神经冲动的离子梯度。虽然两者最终都受到兰道尔关于不可逆计算极限的热力学下限的约束，但它们在截然不同的物理体系中运行。

通过努力用非易失性模拟存储器构建类脑系统，我们所做的不仅仅是制造更快的计算机。我们正在创造一个强大的新镜头来研究大脑，反过来，又利用大脑的原理来革新我们的技术。这项探索迫使我们跨越学科，既要说固态物理学的语言，也要说神经科学的语言，既要懂算法，也要懂热力学。正是在这种宏大的综合中，在发现支配着硅和细胞的统一原理的过程中，这项科学探索的真正美和希望才得以显现。