try ai
科普
编辑
分享
反馈
  • 霍普菲尔德网络

霍普菲尔德网络

SciencePedia玻尔百科
核心要点
  • 霍普菲尔德网络通过将信息编码为稳定的“吸引子”状态来模拟记忆,这些状态是高维能量景观中的最低点。
  • 网络的连接通过赫布学习(“一起发放冲动的神经元会连接在一起”)形成,其动力学保证了网络总是通过向更低的能量状态移动来稳定于一个记忆。
  • 该模型有一个临界存储容量;过载会导致向“自旋玻璃”态的相变,此时记忆会丢失,并被虚假的随机模式所取代。
  • 这一框架为模式完成等认知功能提供了有力的解释,并已被应用于解决旅行商问题等复杂计算问题。

引言

被遗忘的香水气味如何能瞬间唤起生动的记忆?几个音符如何能引出整段旋律?大脑从部分线索中重建完整模式的能力是一个深奥的谜题。霍普菲尔德网络是理论神经科学和人工智能领域的一个开创性模型,它提出了一个令人信服的答案:记忆并非文件柜中的某个位置,而是广阔能量景观中的一个稳定谷底。它在神经元的简单相互作用与联想记忆这一复杂的涌现现象之间架起了一座桥梁。本文探讨了这一开创性思想背后优雅的物理学原理及其强大应用。

我们的探索将分为两部分。首先,在“原理与机制”一章中,我们将剖析网络本身,了解赫布学习如何将记忆刻入能量景观,以及网络的动力学如何使其能够“滚下山坡”以找到最近的记忆。我们将揭示保证这一过程的数学之美,并探索其固有局限——超出临界容量后,记忆会消融于混乱的“自旋玻璃”相中。接下来,“应用与跨学科联系”一章将拓宽我们的视野,考察霍普菲尔德网络如何作为大脑联想记忆的强大模型,如何成为解决复杂优化问题的工具,以及如何作为统计物理学中一个引人入胜的研究课题,揭示了计算、认知与物质基本属性之间的深刻联系。

原理与机制

要理解霍普菲尔德网络,我们必须从一种新的记忆思维方式开始。忘掉计算机文件柜的概念,那里每条信息都有一个离散的地址。相反,想象一个位于极高维度空间中的广阔起伏的景观。这个景观中的每一点都代表了网络的一个完整状态——其所有神经元的一种特定活动模式。记忆不是点,而是刻入此景观的深邃、稳定的山谷。回忆的过程就像将一个球释放到这个表面上;它会自然地滚下山坡,最终停在最近的山谷底部。这个山谷就是被记起的模式,是系统动力学的一个​​吸引子​​。

我们的任务是理解这个景观背后的物理学。我们如何雕刻出我们想要的山谷?是什么力量将球拉下山坡?当景观变得过于拥挤时又会发生什么?

雕刻山谷:赫布学习与能量函数

我们系统的组成部分很简单:大量相互连接的“神经元”,我们将其建模为简单的二元单元或自旋,可以处于“开启”(+1+1+1)或“关闭”(−1-1−1)两种状态之一。假设我们有 NNN 个这样的神经元,第 iii 个神经元的状态是 si∈{−1,+1}s_i \in \{-1, +1\}si​∈{−1,+1}。一个完整的网络状态是一个向量 s=(s1,s2,…,sN)\mathbf{s} = (s_1, s_2, \ldots, s_N)s=(s1​,s2​,…,sN​)。它们之间的连接是突触,其强度由一个权重矩阵 WWW 给出,其中 wijw_{ij}wij​ 是从神经元 jjj到神经元 iii 的连接强度。

要创造一个记忆,我们必须雕刻这个景观。完成这项工作的工具是 Donald Hebb 在1949年提出的一个极其简单且具有生物学合理性的想法:​​“一起发放冲动的神经元会连接在一起”​​。如果我们想存储一个特定的模式,比如 ξμ=(ξ1μ,ξ2μ,…,ξNμ)\boldsymbol{\xi}^\mu = (\xi_1^\mu, \xi_2^\mu, \ldots, \xi_N^\mu)ξμ=(ξ1μ​,ξ2μ​,…,ξNμ​),我们会加强在该模式中处于相同状态的神经元之间的连接。如果 ξiμ\xi_i^\muξiμ​ 和 ξjμ\xi_j^\muξjμ​ 同为 +1+1+1 或同为 −1-1−1,它们的乘积为 +1+1+1,我们应该增加 wijw_{ij}wij​。如果它们处于相反的状态,它们的乘积为 −1-1−1,我们应该减弱它。如果我们想存储 PPP 个不同的模式,我们只需将这些贡献相加即可。这就得到了著名的​​赫布学习规则​​:

wij=1N∑μ=1Pξiμξjμw_{ij} = \frac{1}{N} \sum_{\mu=1}^P \xi_i^\mu \xi_j^\muwij​=N1​μ=1∑P​ξiμ​ξjμ​

我们设置 wii=0w_{ii}=0wii​=0 是因为神经元不从自身的活动中学习,并且我们强制要求对称性,wij=wjiw_{ij} = w_{ji}wij​=wji​,这一点将被证明至关重要。

现在我们有了雕刻工具,我们必须定义景观本身。这就是​​霍普菲尔德能量函数​​,它是一个单一的数值,描述了任何给定网络状态 s\mathbf{s}s 的整体“海拔”:

E(s)=−12∑i≠jwijsisjE(\mathbf{s}) = -\frac{1}{2} \sum_{i \neq j} w_{ij} s_i s_jE(s)=−21​i=j∑​wij​si​sj​

这个方程有一个优美而直观的含义。当强正相关连接(wij>0w_{ij} > 0wij​>0)的神经元对 (i,j)(i, j)(i,j) 处于相同状态(sisj=1s_i s_j = 1si​sj​=1)时,以及当强负相关连接(wij0w_{ij} 0wij​0)的神经元对处于相反状态(sisj=−1s_i s_j = -1si​sj​=−1)时,能量降低得最多。网络寻求一种由突触连接加权的最大共識状态。

当我们把赫布规则代入能量函数时,真正的魔力就出现了。经过一些代数运算,我们发现能量与网络的当前状态 s\mathbf{s}s 和每个存储模式 ξμ\boldsymbol{\xi}^\muξμ 之间的​​重叠度​​(或相似度)密切相关。这个重叠度是一个介于 −1-1−1 和 111 之间的数,定义为 mμ=1N∑iξiμsim^\mu = \frac{1}{N} \sum_i \xi_i^\mu s_imμ=N1​∑i​ξiμ​si​。重叠度 mμ=1m^\mu = 1mμ=1 意味着网络状态与模式 ξμ\boldsymbol{\xi}^\muξμ 完全匹配。用这些重叠度来表示,能量函数为:

E(s)=−N2∑μ=1P(mμ)2+P2E(\mathbf{s}) = -\frac{N}{2} \sum_{\mu=1}^P (m^\mu)^2 + \frac{P}{2}E(s)=−2N​μ=1∑P​(mμ)2+2P​

常数项 P2\frac{P}{2}2P​ 只是将整个景观向上或向下平移,对其形状没有影响。关键部分是求和项。当与某个模式的重叠度的平方 (mμ)2(m^\mu)^2(mμ)2 尽可能大时,能量达到最小值!通过使用赫布学习,我们自动雕刻出了一个景观,其最深的谷底恰好对应我们希望存储的模式。

必然的下降:网络如何找到记忆

我们有了一个在记忆处存在山谷的景观。现在,“球”(网络状态)如何滚下山坡?这个过程是美妙的去中心化的。没有主控制器。相反,每个神经元都遵循一个简单的规则独立行动。在任何给定时间,我们选择一个神经元,比如神经元 kkk,让它“决定”自己的新状态。它通过听取其邻居的意见来做到这一点。它计算其​​局部场​​ hkh_khk​,这仅仅是所有输入信号根据突触强度加权的总和:

hk=∑j≠kwkjsjh_k = \sum_{j \neq k} w_{kj} s_jhk​=j=k∑​wkj​sj​

然后神经元简单地与这个场对齐:如果净输入 hkh_khk​ 是正的,它就将自己的状态设置为 sk=+1s_k = +1sk​=+1;如果是负的,就设置为 sk=−1s_k = -1sk​=−1。这就是更新规则:sk←sgn(hk)s_k \leftarrow \mathrm{sgn}(h_k)sk​←sgn(hk​)。然后我们随机选择另一个神经元并重复这个过程。这种一次一个神经元更新的程序称为​​异步动力学​​。

奇迹就在这里,这也是使霍普菲尔德网络成为真正记忆系统的核心结果。在两个简单的约束条件下——​​对称权重​​(wij=wjiw_{ij} = w_{ji}wij​=wji​)和​​异步更新​​——这个简单的局部规则保证了整个网络的全局能量永远不会增加。实际上,每当一个神经元翻转其状态时,能量都会严格减少。

这个证明是如此简单和优雅,值得一看。翻转单个神经元 kkk 引起的能量变化 ΔE\Delta EΔE 是 ΔE=−hkΔsk\Delta E = -h_k \Delta s_kΔE=−hk​Δsk​,其中 Δsk\Delta s_kΔsk​ 是神经元 kkk 的状态变化。如果神经元翻转,那一定是因为它的状态与其局部场相反。如果 hkh_khk​ 为正,那么神经元必须是 sk=−1s_k = -1sk​=−1 才能翻转到 +1+1+1。在这种情况下,Δsk=2\Delta s_k = 2Δsk​=2,并且 ΔE=−hk(2)0\Delta E = -h_k (2) 0ΔE=−hk​(2)0。如果 hkh_khk​ 为负,那么神经元必须是 sk=+1s_k = +1sk​=+1 才能翻转到 −1-1−1。在这种情况下,Δsk=−2\Delta s_k = -2Δsk​=−2,并且 ΔE=−hk(−2)=2hk0\Delta E = -h_k (-2) = 2h_k 0ΔE=−hk​(−2)=2hk​0。在每一种发生变化的情况下,能量都会下降。网络状态就像一个只能滚下坡的球。由于可能的状态数量是有限的(虽然巨大,为 2N2^N2N),球不可能永远滚动下去。它最终必须停留在一个山谷中——能量函数的一个局部最小值,一个​​不动点​​,从那里任何单个神经元的翻轉都不能再降低能量。

这两个约束条件不仅仅是技术细节,它们是问题的核心。

  • 如果权重​​不对称​​,能量函数就不再是良定义的。作用在神经元上的“力”不再是某个势的梯度,系统可能会进入极限环,永远追逐自己的尾巴而无法稳定下来。
  • 如果更新是​​同步的​​(所有神经元同时更新),系统也可能无法收敛。想象一下两个神经元,每个都希望对方翻转。如果它们并行更新,它们可能会同时翻转,然后在下一步发现自己处于同样的困境中并再次翻转回来,即使在权重对称的情况下也会永远在一个周期为2的循环中振荡。异步更新允许网络温和地、一步一步地沿着能量景观向下探索。

拥挤的记忆:串扰与存储极限

这个机制似乎好得令人难以置信。我们能存储任意数量的模式吗?当然不能。每个物理系统都有其极限。这种局限性源于赫布规则的本质。当我们检查一个存储模式中的神经元是否稳定时,它的局部场由两部分组成:一部分是来自该模式本身的强“信号”,告诉它保持原状;另一部分是“串扰”项,即所有其他存储模式发出的嘈杂声音。

这种串扰是大量微小的、随机的贡献之和。根据中心极限定理,这种噪声的行为就像从高斯(钟形曲线)分布中随机抽取的一个值。关键的洞见是,这种噪声的方差(或强度)与​​存储负载​​ α=P/N\alpha = P/Nα=P/N——即存储模式数与神经元数之比——成正比。当我们塞入更多模式(增加 α\alphaα)时,噪声会变得更大。

在某个点上,噪声会变得非常大,以至于压倒信号,导致神经元翻转到错误的状态,从而破坏记忆。一项更复杂的分析——无序系统统计物理学的伟大成就之一——揭示了一个急剧的相变。当负载超过​​αc≈0.138\alpha_c \approx 0.138αc​≈0.138​​ 的临界容量时,检索记忆的能力就会崩溃。一个拥有一万个神经元的网络可以可靠地存储大约1380个随机模式,但再多就不行了。

机器中的幽灵:虚假态与自旋玻璃

当我们使网络过载超过这个临界点时会发生什么?记忆并不仅仅是失效;它进入了一个奇怪的新状态。我们记忆所对应的那些最初被精美雕刻的山谷,被噪声的海洋冲刷殆尽。然而,能量景观并没有变平。它变得异常崎岖复杂,充满了无数并非有意设置的新极小值点。这些就是​​虚假吸引子​​。

其中一些是“混合态”,是原始模式的奇异嵌合体。有趣的是,奇数个模式(例如三个)的混合可以形成稳定但较浅的山谷。这是因为对于任何神经元来说,这些状态的信号永远不会完全抵消。相比之下,偶数个模式的混合通常是不稳定的,因为信号可以为一部分神经元完美抵消,使它们受到随机噪声的冲击。

随着负载进一步增加,系统进入​​自旋玻璃​​相。这是一个物理学术语,用来描述一种“阻挫无序”的状态。景观上布满了天文数字般的局部最小值,它们与任何原始模式的相关性基本为零。重叠度 mμm^\mumμ(我们可以将其视为一个​​序参量​​)下降到零。从检索相(记忆可以被“有序化”并被选择)到自旋玻璃相(完全无序)的转变是一次真正的相变,类似于液体凝固成玻璃而非晶体。当网络接收到提示时,它仍然会稳定在一个山谷中,但最终的状态只是一个稳定的、看似随机的模式——机器中的幽灵。

遗忘的艺术:如何清理混乱的景观

这些虚假吸引子很讨厭,它们使景观变得混乱,并将网络困在无意义的状态中。有办法清理这个烂摊子吗?值得注意的是,答案是肯定的,而且解决方案和问题本身一样优雅。这个过程被称为​​反学习​​(unlearning),有时也被诗意地称为“做梦”。

关键的洞见是,在过载的网络中,虚假状态不仅数量众多,而且它们的集体吸引盆也非常广阔。如果你从一个随机状态启动网络,它落入虚假最小值的可能性远大于落入原始“纯粹”记忆状态之一的可能性。

反学习算法利用了这种偏向。我们让网络从许多随机起点运行,并观察它最常稳定在哪些状态。然后,我们应用一个小的反赫布更新:对于在这些频繁访问的虚假状态中相关的连接,我们稍微削弱它们。

这个过程就像选择性地打磨掉我们景观中最突出的不必要特征。由于虚假吸引子被访问得最频繁,它们成为反学习规则最积极的攻击目标。它们的能量被提高,山谷变浅,吸引盆缩小。另一方面,纯粹的记忆虽然深邃,但从随机起点出发很少能找到。它们对反学习平均值的贡献很小,因此基本未受影响。这个巧妙的机制,与大脑中快速眼动睡眠(REM sleep)的 предполага功能有着惊人的相似之处,它允许网络提炼自己的记忆,去粗取精,忘记不重要的东西。这是对复杂智能行为如何从简单的分布式规则中涌现出来的最后一次美妙展示。

应用与跨学科联系

既然我们已经看到了霍普菲爾德网络的齿轮和杠杆,我们就可以退后一步,欣赏我们建造的这台奇妙机器。它有什么用?一个伟大科学思想的真正美妙之处不仅在于其内在的优雅,还在于它能打开的意想不到的大门数量之多。霍普菲爾德网络,以其在“能量景观”上寻找最低点的简单规则,也不例外。它是一把钥匙,能打开神经科学、计算机科学乃至物质基本物理学中的锁。让我们来一览这些引人入勝的联系。

大脑中的记忆?

霍普菲尔德网络最引人入勝的应用也许是作为大脑记忆的模型。我们如何仅凭几个开头的音符就记住整首歌?玛德琳蛋糕的气味如何引发童年记忆的洪流?这种由部分线索触发完整回忆的现象被称为​​模式完成​​。这是联想记忆的一个标志,而霍普菲尔德网络为其可能的工作原理提供了一个极其简单的解释。

神经科学家们早就假设,海马体中一个名为海马区3区(Cornu Ammonis 3, 或 ​​CA3​​)的区域就像这样一个联想记忆系统。该区域密布着循环连接,意味着神经元之间进行广泛的交流——这一特征与霍普菲尔德网络的结构完美匹配。在这个模型中,记忆并非存储在单个神经元中,而是被编码为整个网络上的一种特定活动模式——一个稳定的“吸引子”状态,或能量景观中的一个深谷。

当向网络呈现一个部分线索时——比如说,你感知到一张熟悉面孔的几个特征——这就像把一个弹珠放在其中一个山谷的斜坡上。网络的自然动力学,即异步更新神经元以降低总能量的过程,就相当于弹珠滚下山坡。在滚动过程中,它沿着山谷的轮廓移动,当它在谷底稳定下来时,网络的状态就对应着那张脸的完整、稳定的记忆。网络“完成了模式”。

这个模型不仅仅是一个松散的类比;它做出了具体的、可检验的预测。该理论以统计物理学为基础,预测一个由 NNN 个神经元组成的网络在过载前可以可靠地存储一定数量的模式。对于经典的霍普菲尔德模型,这个临界存储容量大约是 Pc≈0.138NP_c \approx 0.138NPc​≈0.138N。如果你试图向网络中塞入太多的记忆,能量景观就会被破坏。山谷(记忆)变浅,它们开始合并,并出现新的、非预期的山谷——即所谓的​​虚假吸引子​​。网络会变得混乱,要么无法检索到正确的记忆,要么稳定在几个记忆的奇异混合状态中。这种“过载”灾难为记忆的真实局限性提供了一个令人信服的理论解释。从经验中学到的赫布权重雕刻了这个景观,将神经元绑定在一起形成这些稳定的记忆吸引子,而这些吸引子又可以重新激活存储在大脑其他地方的完整感官体验。

从记忆到迷宮:优化的艺术

检索记忆的相同机制也可以用来解决极其复杂的逻辑谜题。从记忆到优化的这一飞跃是抽象力量的一个绝佳例子。问题不再是寻找“最接近”的存储模式,而是在数量惊人的可能性中找到唯一的“最佳”配置。

考虑著名的​​旅行商问题(TSP)​​:一个销售员必须访问一个城市列表中的每个城市一次,然后返回家中,走过的路程要尽可能短。即使对于数量不多的城市,检查所有可能的路线在计算上也是不可能的。在这里,霍普菲尔德网络提供了一种巧妙的替代方案。我们不是编程让计算机检查路线,而是可以设计一个能量景观,其中坐标代表一个潜在的旅行路线。我们非常仔细地雕刻这个景观,在能量函数中使用惩罚项,使得任何一点的高度都对应于它所代表的旅行路线的无效性和长度。

例如,我们可以在能量函数中添加一个项,如果一条路线两次访问同一城市,或者未能访问某个城市,该项的值就会很高。我们再添加另一项,如果路线的总距离很长,该项的值也会很高。通过将问题的约束和目标映射到网络的能量函数上,我们创造了一个景观,其中最深的山谷对应于最短的有效路线。

然后,我们只需将网络初始化为一个随机状态并让它运行。网络盲目地遵循其最小化能量的局部规则,会自然地滑下山坡,如果运气好,就会稳定在全局最小值。它不是通过遵循明确的算法,而是通过服从其自身构造的“物理”定律找到了最优解。这种通过松弛进行计算的深刻思想,为使用物理和模拟系统解决组合优化问题开辟了新的前沿。

物理学家的视角:记忆的相

霍普菲尔德网络与物理学之间的联系比能量类比还要深刻。从物理学家的角度来看,我们可以将网络不仅仅看作一台计算机,而是一块具有自身迷人属性的物质。网络的权重由赫布规则从随机模式中设定,其本身就是随机的。这种设置在数学上类似于一种被称为​​自旋玻璃​​的奇异磁性材料。

在普通磁体中,所有原子“自旋”都希望朝同一方向排列。而在自旋玻璃中,相互作用是吸引力和排斥力的混乱随机混合。自旋会变得“受挫”,无法找到一个单一的、满意的构型。当霍普菲尔德网络加载了许多模式时,它就是一种自旋玻璃,其作为记忆的功能可以通过研究它的“相”来理解,就像我们研究水的固、液、气三相一样。

  • ​​顺磁相:​​ 在高“温度”下,神经元的更新是嘈雜和随机的,系统处于混乱状态。热能压倒了能量景观。无法保持任何记忆;弹珠剧烈地跳动,无法在任何地方稳定下来。这对应于​​玻尔兹曼机​​的行为,它是霍普菲尔德网络的随机推广,在零温度极限下可以恢复为确定性模型。

  • ​​检索(铁磁)相:​​ 在低温和低记忆负载下,能量景观具有对应于存储记忆的深邃、清晰的山谷。系统可靠地稳定在这些状态之一,成功检索记忆。这类似于铁磁体,其中自旋排列以创建稳定的宏观磁场。

  • ​​自旋玻璃相:​​ 在低温但高记忆负载(超过临界容量)的情况下,系统进入自旋玻璃相。景观变得异常崎岖,充满了无数微小、错误的谷底(虚假吸引子)。网络陷入这些无用的状态,无法检索任何预期的记忆。记忆“冻结”在一种无用的无序状态中。

这一视角揭示,高负载下的记忆崩溃是一次名副其实的相变,是系统集体状态的一次根本性变化,从有用的有序转变为受挫的无序。

控制流向:注意与现代回响

能量景观并非不可改变。我们可以影响网络的行程。想象一下对我们的自旋玻璃施加一个外部磁场;我们可以鼓励特定的排列。同样,我们可以向霍普菲尔德网络的神经元添加一个小的外部“偏置”输入。这就像轻轻地倾斜整个能量景观,使得对应于所需记忆的山谷比其他山谷更深、更有吸引力。这为​​线索提示回忆和注意力​​提供了一个强大的模型——我们的大脑如何在充满可能性的海洋中选择性地聚焦并检索特定记忆。

稳定到能量最小值,并通过观察该最小值如何被扰动来学习的这一原则,并不仅仅是一个历史注脚。它在现代人工智能研究的最前沿角落里回响。一些机器学习算法,如​​平衡传播​​(Equilibrium Propagation),正是建立在这个思想之上。网络首先稳定到一个“自由”平衡状态。然后,施加一个来自正确答案的“推动”,网络会稳定到一个新的、受扰动的平衡状态。这两个静止状态之间的差异为如何更新网络权重以进行学习提供了强大的信号。这是对 Hopfield 原始概念的美妙回响,表明在能量景观上下坡的旅程仍然是我们探索自然和人工智能的核心和鼓舞人心的主题。霍普菲尔德网络的动力学中,模式之间的竞争是内隐于连接之中的,这与像“赢家通吃”电路等其他模型形成对比,后者使用明确的全局抑制来强制产生单一结果,这突显了自然界和工程师在做决策时可以使用的多样化策略 [@problemid:3970071]。

从我们大脑错综复杂的布线,到数学的抽象之美和物质的基本定律,霍普菲尔德网络矗立着,成为一个简单而优雅的思想所具有的统一力量的丰碑。