赫布学习理论

玻尔百科

定义

赫布学习理论是一种神经科学原理，该理论指出当两个神经元同时处于活跃状态时，它们之间的连接就会增强，这一机制常被总结为“一起放电的神经元会连在一起”。这一理论解释了大脑如何通过 NMDA 受体等巧合检测器实现记忆形成和突触可塑性等生物学过程。赫布原理是理解大脑发育的基础，并直接启发了包括 Hopfield 网络和类脑计算在内的人工智能模型。

核心要点

赫布学习理论提出，当两个神经元同时激活时，它们之间的连接会得到加强，这句名言概括为“共同发放的神经元会连接在一起”。
NMDA受体作为一种生物巧合检测器，仅在突触前谷氨酸盐释放与突触后去极化同时发生时，才促使突触得到加强。
不受调控的赫布学习会导致不稳定性，大脑通过突触归一化、稳态缩放和元可塑性等机制来应对。
这一原理解释了大脑发育、通过系统巩固形成的记忆，并启发了如Hopfield网络和神经形态计算等人工智能模型。

引言

大脑，这个重约三磅、复杂得令人惊叹的器官，是如何从经验中学习的？这个问题的核心在于一个简单而深刻的原则，即赫布学习，通常被浓缩为一句格言：“共同发放的神经元会连接在一起。”这一观点由Donald Hebb于1949年首次提出，为我们理解思维活动如何重塑神经回路提供了一个强有力的框架。本文旨在连接这一抽象概念与其具体现实。文章将探讨赫布可塑性的基本规则，从简单的相关性到精确的尖峰时间，以及在自增强系统中维持稳定性的挑战。首先，我们将深入探讨主导这一过程的原理与机制，揭示NMDA受体等使该理论成为现实的分子机制，以及大脑用以防止混乱的调控工具。随后，应用与跨学科联系部分将揭示这一简单规则如何塑造感知、编码记忆，并启发智能机器的创造。

原理与机制

大脑惊人学习能力的核心，在于心理学家Donald Hebb于1949年首次提出的一个极其简单的原则。这个想法是如此基础，以至于被提炼成一句简明扼要、令人难忘的口号：“共同发放的神经元会连接在一起。” 这不仅仅是一个诗意的比喻，更是对记忆和适应的物理本质的深刻陈述。它告诉我们，思考、感知和行动的行为本身就在物理上重塑着大脑，加强了协同活动的神经元之间的通信通路。但“共同发放”到底意味着什么？一个由细胞和蛋白质组成的微观集合又是如何执行如此优雅的规则的呢？让我们从这个简单的想法出发，踏上一段探索之旅，去了解那些将其付诸实践的复杂而美丽的生物机制。

生物巧合检测器

理论上这很优雅，但一个生物突触，即两个神经元之间的一个微小连接点，实际上是如何进行这种计算的呢？秘密在于一种卓越的分子机器，一种特殊类型的受体，称为N-甲基-D-天冬氨酸（NMDA）受体。

要理解它的作用，我们必须首先了解它不那么奇特的表亲——AMPA受体（ $\alpha$ -氨基-3-羟基-5-甲基-4-异恶唑丙酸受体）。当突触前神经元释放神经递质谷氨酸时，它会与突触后侧的AMPA受体结合，使其开放并允许正离子流入。这是神经元相互“交谈”并产生微小电信号的主要方式。

现在，想象一个发育中的大脑中的突触，它有NMDA受体但没有功能性的AMPA受体。这被称为静默突触。当谷氨酸到达时，什么也不会发生。这个突触是沉默的。NMDA受体虽然存在，但它们被一个镁离子（ $Mg^{2+}$ ）堵住了，就像瓶子里的软木塞。这个镁离子塞是电压敏感的。在神经元正常的静息电压下，它会待在原处。

神奇之处就在于此。要让NMDA受体被激活，必须同时满足两个条件：

谷氨酸必须结合：突触前神经元必须已经发放信号（“因”已存在）。
突触后神经元必须被强烈去极化：突触后神经元必须已经处于兴奋状态，这可能是由于许多其他活跃突触的活动总和，或是来自一个“反向传播”的动作电位。这种去极化提供了将 $Mg^{2+}$ 塞子从NMDA受体通道中排出的电力。

因此，NMDA受体是一种生物巧合检测器。它只在突触前活动与突触后活动同时发生时才会打开。当它打开时会发生什么呢？它会允许大量的钙离子（ $Ca^{2+}$ ）涌入突触后神经元。

钙是至关重要的信号。它是“巧合”事件的物理体现。钙的涌入触发了一系列生化反应，激活了像CaMKII（钙/钙调蛋白依赖性蛋白激酶II）这样的酶。这些酶进而调控全新的AMPA受体运输并插入到静默突触的膜上。静默突触被“激活”了。它现在是一个活跃的、功能性的突触，可以自己对谷氨酸做出反应。它确实是因以因果上有意义的方式被使用而“将自己连接”到了回路中。这个过程是一场惊人的分子舞蹈，完美地实现了赫布原则。

时机决定一切：尖峰时间编码

故事变得更加精确。事实证明，大脑运作的时间尺度远比平均发放率精细得多。单个尖峰的精确时间至关重要——精确到毫秒。这种对赫布学习的精炼被称为尖峰时间依赖可塑性（STDP）。

规则简单而强大，令人叹为观止：

如果一个突触前尖峰在突触后神经元发放信号前几毫秒到达，突触就会被加强。这被称为长时程增强（LTP）。这种时间顺序暗示了因果关系：突触前尖峰可能帮助引起了突触后尖峰。
如果突触前尖峰在突触后神经元已经发放信号后几毫秒到达，突触就会被削弱。这被称为长时程抑制（LTD）。这种顺序暗示了缺乏因果关系。

突触权重的变化量 $\Delta w$ 是精确时间差 $\Delta t = t_{\text{post}} - t_{\text{pre}}$ 的函数。对于正的 $\Delta t$ （因果关系），我们得到增强，随着时间间隔的增长呈指数衰减。对于负的 $\Delta t$ （反因果关系），我们得到抑制。因此，STDP将抽象的赫布假设转化为一个具体的、因果性的学习算法，并在突触的生物物理学中实现。

失控的火焰与稳定性的需求

所以我们有了这个美丽的、自组织的原则。有因果关系的连接会变得更强。这可能会出什么问题呢？

考虑一个由兴奋性神经元组成的网络，它们都相互连接。如果神经元A和B之间的连接加强，它们在未来就更有可能一起发放信号。这反过来又会进一步加强它们的连接。这就产生了一个强大的正反馈循环。如果不加控制，活动将会增长和蔓延，招募越来越多的神经元，直到整个网络陷入一场失控的、无意义的活动风暴——这种状态有时被称为赫布灾难。一个只基于正反馈的系统本质上是不稳定的。学习将变得不可能，因为任何新的模式都会迅速在一场饱和活动的雪崩中被抹去。

为了发挥作用，大脑必须有机制来驯服这头野兽，在允许学习的同时施加稳定性和控制。它通过一套惊人多样且巧妙的“刹车”机制来实现这一点。

驯服野兽：大脑的调控工具箱

大脑采用至少三种主要策略，以确保赫布学习保持其创造性而非破坏性。

1. 归一化：突触预算

单个神经元不能无休止地加强其连接；它的代谢预算是有限的。大脑通过各种归一化方案来强制执行这一点。一个优雅的数学表述是Oja法则，它在赫布更新中增加了一个“遗忘”项：

\frac{dw_j}{dt} = \eta \, (y x_j - y^2 w_j)

第一项 $y x_j$ 是经典的赫布增强。第二项 $-y^2 w_j$ 引入了一个衰减项，该衰减与突触后活动以及突触本身的当前强度成正比。一个高度活跃的神经元上的强突触将经历一个强烈的减弱推力。这种竞争迫使神经元上的总突触强度保持在有界范围内。一个迷人的结果是，神经元变得具有选择性，学会对其输入中最一致、最强大的模式做出最强的反应——这个过程被数学家称为主成分分析。另一个简单的约束是权重不允许变为负值，这通过在减弱更新会使权重越过零界限时简单地将其裁剪为零来实现。

2. 稳态缩放：细胞恒温器

在数小时到数天的较慢时间尺度上，神经元会监控自身的平均活动。如果一个神经元发现自己相对于一个偏好的“设定点”发放过多或过少，它会启动一种全细胞范围的补偿性反应，称为稳态突触缩放。它就像一个恒温器。如果活动过高，神经元会调低其所有输入突触的音量。如果活动过低，它会调高音量。至关重要的是，这种缩放是乘法性的：所有突触权重都乘以相同的因子。这保留了突触之间的相对差异，而这正是存储学习信息的地方，同时将神经元的整体兴奋性带回到一个健康的操作范围内。这个过程有一个清晰的结构对应物：在上调期间，神经元上所有的树突棘头都会按比例增长；在下调期间，它们会收缩。

3. 元可塑性：学会学习

也许最微妙的调控形式是元可塑性——即塑性规则本身也是可塑的这一思想。活动的历史可以改变突触对未来学习信号的反应方式。经典的Bienenstock-Cooper-Munro（BCM）模型完美地描述了这一点。在这个模型中，存在一个可塑性的滑动阈值。当一个神经元高度活跃时，这个阈值会上升，使得诱导进一步的增强（LTP）变得更加困难，而诱导减弱（LTD）变得更加容易。相反，经过一段时间的沉寂后，阈值会下滑，使神经元更容易接受增强。这防止了任何单一模式主导神经元的连接。这种“可塑性的可塑性”可以通过物理变化来实现，例如修改NMDA受体的组成或改变树突棘颈的形状和电阻，从而在不必然改变当前突触强度的情况下改变未来学习的规则。

总之，这些调控机制——归一化、稳态和元可塑性——形成了一个复杂的制衡系统。它们创造了一个稳定而灵活的基底，允许赫布学习的强大正反馈在不让系统陷入混乱的情况下，雕刻出有意义的模式。最后一层复杂性来自于将这一过程与生物体的目标联系起来，这是通过一个非凡的强化机制实现的。当一系列神经事件导致一个理想的结果时，一个全局性的“奖励”信号，例如神经调节剂多巴胺的爆发，可以验证最近被“标记”为可能重要的突触变化，使其永久化。这是通过所谓的资格迹实现的，即由因果尖峰对留下的临时化学标记，等待延迟的奖励信号的确认。通过这种方式，“共同发放，共同连接”这一简单规则成为有目的、目标导向学习的基础。

应用与跨学科联系

在掌握了赫布学习的基本原则——共同发放的神经元会连接在一起——之后，我们现在可以踏上一段旅程，去观察这个简单规则的实际作用。孤立地理解一条定律是一回事；见证它作为我们周围及内心世界的主要建筑师，则是另一回事，远为激动人心。这个原则并非理论神经科学中某个尘封的遗物。它是一种充满活力、动态的力量，塑造着我们的大脑，存储着我们的记忆，甚至启发着智能机器的设计。我们在临床、心理学实验室以及计算机工程的前沿都能找到它的回响。让我们来探索这幅由相关活动的简单线条编织而成的宏伟织锦。

塑造大脑：从原始感觉到丰富感知

一个新生儿，被光和声的嘈杂轰炸，是如何最终看到一个由连贯物体组成的世界的？大脑并非天生就预装了所有可能景象的目录。它是通过学习获得的。而它的主要老师就是世界本身的统计结构，赫布学习则是那位不知疲倦的工匠。

想象一下皮层中视觉的第一个中转站，初级视觉皮层（V1）。它从眼睛接收输入，但它的神经元学会了“看”到什么呢？自然界充满了轮廓和边缘。任何时候有边缘存在，视网膜中的一整排光感受器都会以相关的方式被激活。一个赫布类型的学习机制，在其输入中寻找最显著的相关性，会自然地加强从一排输入细胞到单个V1神经元的突触。结果如何？V1神经元变成了一个专门的“边缘检测器”，在看到具有特定方向的线条时发放最强烈。它在没有任何明确监督的情况下，学会了视觉世界的一个基本特征，这是一项了不起的自组织壮举（）。其感受野的正负波瓣，对应我们所说的ON和OFF子区域，正是这种习得的统计规律的直接物理体现。

但我们不只看到线条；我们看到脸、房子和动物。当我们沿着大脑的腹侧视觉通路进一步移动到如下颞叶（IT）皮层等区域时，神经元表现出对更为复杂和抽象类别的选择性。这不是另一种魔法；这是同样的赫布原则，被递归地应用。IT区的神经元接收来自早期区域神经元的输入，这些早期神经元检测线条、曲线和纹理等更简单的特征。当这些特征的特定组合可靠地一起出现时——就像在一张脸的图像中那样——一个下游的IT神经元将通过赫布学习，将自己连接起来以响应那个特定的特征星座。通过这种方式，大脑纯粹利用感觉世界的统计连贯性，建立了一个从简单特征到复杂物体的表征层级（）。

然而，这种竞争性学习过程也有其阴暗面。这是一个“不进则退”的系统。考虑一下弱视（或“懒惰眼”）的悲剧案例，其中一只眼睛在关键发育时期向大脑提供的信号较弱或较嘈杂。来自健康眼睛的输入在驱动皮层神经元的赫布竞争中持续“获胜”。强眼输入与皮层细胞反应之间的相关活动加强了它们的连接。与此同时，弱眼的输入，由于与皮层神经元发放的相关性较低，被逐渐削弱并被修剪掉。大脑实际上学会了忽略弱视眼（）。这一临床现实是赫布可塑性作用的鲜明例证。好消息是，这种理解也为治疗指明了方向。通过重新平衡输入信号——例如，通过强迫使用较弱的眼睛或数字增强其输入——我们可以利用同样的赫布规则来鼓励那些丢失连接的再生。

记忆的架构：将过去编织进现在

如果说感知是学习世界的结构，那么记忆就是学习我们自身经历的结构。在这里，赫布学习再次成为主角，从一个瞬间的短暂捕捉到它永久固化为我们生命故事的一部分。

记忆是在哪里制造的？对于我们的个人情景记忆——回忆你早餐吃了什么或你上学的第一天——一个关键角色是海马体。根据海马索引理论，这个结构不充当记忆仓库，而是主索引器。当你经历一个事件时，无数的皮层区域都处于活跃状态：视觉皮层负责景象，听觉皮层负责声音，前额叶皮层负责思想。海马体从所有这些区域接收输入，利用稀疏编码和赫布可塑性迅速将它们连接在一起。一小撮独特的海马神经元“连接在一起”，形成一个联合索引，一个指向构成原始事件的分布式皮层活动模式的指针（）。之后，如果一个部分线索重新激活了原始模式的一部分（例如咖啡的香味），这可以触发海马体完成索引模式。被重新激活的索引随后投射回皮层，恢复原始经历中完整的神经活动交响乐。你不仅记住了咖啡；你还记住了咖啡馆、对话和清晨的阳光。

然而，这个海马索引注定是暂时的。记忆是如何变得稳定和持久的呢？答案似乎在于睡眠。在深度睡眠期间，海马体活动异常活跃，不断“重放”近期经历的神经序列。每一次重放事件都会驱动相应皮层神经元的共同激活，为赫布学习提供了新的机会。但这一次，学习加强的是皮层内部的连接。经过许多夜晚的重放，一个丰富的皮层-皮层连接网络得以形成，记忆逐渐变得独立于海马索引（）。这个过程，被称为系统巩固，就是脆弱的、依赖海马体的记忆如何转变为一个坚固、持久的痕迹，编织进新皮层的结构之中。

然而，“共同发放”并非故事的全部。时机至关重要。想象一下学习弹钢琴。仅仅C、E、G的神经元一起发放是不够的；它们必须以正确的顺序发放才能产生一个和弦或一段旋律。这时，一种更精炼的赫布学习版本，即尖峰时间依赖可塑性（STDP），就派上了用场。STDP规定，如果一个突触前神经元在突触后神经元发放之前刚刚发放，从而导致其发放，那么突触就会被加强。如果它在之后刚刚发放，突触就会被削弱。这种因果规则对于学习精确的时间序列至关重要，从运动员的精细运动技能到诗人的口若悬河（）。它使大脑不仅能学习什么是相关的，还能学习谁在驱动谁。

从大脑到机器：赫布理论在人工智能领域的遗产

赫布原则的优雅力量并未被工程师和计算机科学家所忽视。事实上，它在神经科学和人工智能之间架起了一座深刻而持久的桥梁。

最早的学习算法之一，感知机，可以被看作是一种监督式的赫布学习。其学习规则根据输入活动乘以一个指示正确输出的“教师”信号来调整神经元的权重。这本质上是一个赫布式的“前乘以-后”规则，其中突触后项由外部监督者提供（[@problem-id:3099446]）。虽然现代深度学习已远超于此，但基于活动和错误信号修改连接的核心思想是其直接的智力后裔。

一个更直接、更优美的应用见于Hopfield网络，这是一种作为内容可寻址存储器的循环神经网络。模式通过一个简单的赫布规则存储在网络的突触权重中：两个神经元之间的权重与它们在所有待存储模式中的活动乘积之和成正比。这个过程创造了一个“能量景观”，其中存储的记忆是稳定的谷底。如果你向网络呈现一个存储模式的部分或损坏版本，网络动力学将自然地使其状态滚下山坡，进入最近的记忆谷底，从而检索出完整、正确的模式（）。这个连接了统计物理学、赫布学习和计算的优雅模型，展示了鲁棒的记忆检索如何从一个简单的局部学习规则中涌现出来。

今天，赫布的遗产正在推动计算硬件本身的未来。神经形态工程旨在构建模仿大脑结构和功能的计算机芯片。与传统计算机中内存和处理分离不同，这些芯片具有共置的处理单元（“神经元”）和内存单元（“突触”），后者可以根据局部活动更新自身强度，就像大脑中一样。这些片上学习电路通常实现赫布和STDP规则的变体，有时还结合了防止失控活动并保持学习稳定的稳态机制（）。通过在硅片中物理地体现赫布原则，这些受大脑启发的芯片有望以比今天可能的速度和能效高出几个数量级的水平执行人工智能和机器学习任务。

从我们自己眼睛的布线、我们最珍贵记忆的存储，到下一代人工智能的设计，相关性孕育连接这一简单思想，被证明是所有科学中最深刻、最具生成性的原则之一。它是一条统一的法则，揭示了自然界中创造智能的过程与我们用来在机器中创造智能的过程之间深刻的连续性。

赫布学习理论

引言

原理与机制

相关的交响乐

生物巧合检测器

时机决定一切：尖峰时间编码

失控的火焰与稳定性的需求

驯服野兽：大脑的调控工具箱

1. 归一化：突触预算

2. 稳态缩放：细胞恒温器

3. 元可塑性：学会学习

应用与跨学科联系

塑造大脑：从原始感觉到丰富感知

记忆的架构：将过去编织进现在

从大脑到机器：赫布理论在人工智能领域的遗产

赫布学习理论

引言

原理与机制

相关的交响乐

生物巧合检测器

时机决定一切：尖峰时间编码

失控的火焰与稳定性的需求

驯服野兽：大脑的调控工具箱

1. 归一化：突触预算

2. 稳态缩放：细胞恒温器

3. 元可塑性：学会学习

应用与跨学科联系

塑造大脑：从原始感觉到丰富感知

记忆的架构：将过去编织进现在

从大脑到机器：赫布理论在人工智能领域的遗产