try ai
科普
编辑
分享
反馈
  • 玻尔兹曼机

玻尔兹曼机

SciencePedia玻尔百科
核心要点
  • 玻尔兹曼机是一种基于能量的神经网络,它通过为每个状态分配一个能量值来对概率分布进行建模,这一原理直接源于统计力学。
  • 受限玻尔兹曼机 (RBM) 是一种实用的简化模型,它禁止层内连接,从而实现了高效、精确的采样和易于处理的训练。
  • RBM 中的学习过程涉及调整权重,以降低真实数据样本的能量(正向阶段),同时提高模型生成的“幻想”样本的能量(负向阶段)。
  • 除了数据建模,玻尔兹曼机还可作为科学探究的强大工具,从发现生态数据中的潜在因子到表示量子系统的复杂波函数。

引言

在人工智能、统计物理学和神经科学的迷人交汇点上,诞生了玻尔兹曼机——一种通过塑造能量景观进行学习的独特神经网络。与许多依赖确定性、前馈处理的流行网络不同,玻尔兹曼机是一种生成式、随机模型,它能捕捉数据的底层概率分布。它通过将热力学原理转化为计算语言,解决了无监督学习的根本挑战——在没有明确标签的数据中寻找有意义的结构。本文将带领读者深入了解这一强大的框架。首先,我们将探讨其基本原理和机制,追溯该模型在物理学中的起源,定义其能量函数,并理解使受限玻尔兹曼机 (RBM) 成为实用工具的关键简化。随后,我们将综述其广泛的应用和跨学科联系,揭示这单一模型如何能够检索记忆、推荐电影、生成科学假说,甚至描述量子现实的基本性质。

原理与机制

要真正理解玻尔兹曼机,我们必须踏上一段始于物理学而非计算机科学的旅程。想象一下,有一大堆微小的、相互作用的磁体,每个磁体可以指向上或下。所有这些磁体的特定排列方式——即一种特定的上下组合构型——具有一定的能量。大自然以其无穷的智慧,对此有所偏好。在给定温度下,它不会以相同的可能性访问每一种可能的排列。相反,它偏爱能量较低的构型。这一由​​玻尔兹曼分布​​描述的统计力学基本原理,正是玻尔兹曼机的灵魂所在。

作为能量景观的世界

让我们将这个想法具体化。对于我们系统的任意给定状态,我们称之为 xxx,我们可以为其分配一个数值,即其​​能量​​ E(x)E(x)E(x)。玻尔兹曼分布告诉我们,系统处于状态 xxx 的概率与一个包含此能量的指数因子成正比:

p(x)∝exp⁡(−E(x)kBT)p(x) \propto \exp\left(-\frac{E(x)}{k_B T}\right)p(x)∝exp(−kB​TE(x)​)

在这里,TTT 是温度,kBk_BkB​ 是自然界的一个基本常数,即玻尔兹曼常数。负号至关重要:它意味着随着能量 E(x)E(x)E(x) 的降低,概率 p(x)p(x)p(x) 会呈指数级上升。高能量状态是可能出现的,但很罕见;低能量状态则是稳定且受偏好的构型。为简单起见,在机器学习领域,我们通常将 kBTk_B TkB​T 合并为一个单一的“温度”参数 τ\tauτ,甚至直接将其设为 1。

将这种正比关系转化为等式的分母是一个极其重要且出了名难以处理的量,即​​配分函数​​ ZZZ。它是 exp⁡(−E(x))\exp(-E(x))exp(−E(x)) 这一项对系统所有可能状态求和的结果:

Z=∑all states xexp⁡(−E(x))Z = \sum_{\text{all states } x} \exp(-E(x))Z=all states x∑​exp(−E(x))

因此,完整的概率为 p(x)=1Zexp⁡(−E(x))p(x) = \frac{1}{Z}\exp(-E(x))p(x)=Z1​exp(−E(x))。可以把 ZZZ 看作是热学可及状态总数的度量。它是一个归一化常数,确保所有概率之和为一。但计算它通常是一项艰巨的任务,因为状态的数量可能达到天文数字。这一个量是我们将会遇到的许多计算挑战的根源。

这种“基于能量”的视角非常强大。我们可以将所有可能状态的集合想象成一个巨大的高维景观。能量 E(x)E(x)E(x) 定义了每个点 xxx 的“海拔高度”。受热涨落支配的系统,倾向于将大部分时间花在这个景观的深谷(低能量状态)中。

从物理到神经元:能量函数

现在,让我们来构建我们的机器。我们用简单的计算单元或“神经元”来取代微小的磁体,这些神经元可以处于两种状态之一:开启 (1) 或关闭 (0)。这些神经元分为两组:​​可见单元​​ (vvv),代表我们能看到的数据(如图像的像素);以及​​隐藏单元​​ (hhh),它们是内部的特征检测器,学习表示数据中的抽象模式。

我们机器的“状态”是所有可见单元和隐藏单元的完整构型 (v,h)(v, h)(v,h)。这些神经元之间的“相互作用”由一组权重 WWW 描述,每个神经元都有其自身对于开启或关闭的内在偏好,由偏置 bbb 描述。

在通用的​​玻尔兹曼机 (BM)​​ 中,每个神经元都可以连接到其他任何神经元。特定状态 (v,h)(v, h)(v,h) 的能量是通过对所有这些相互作用求和来定义的。这种能量函数的一个常见形式,类似于物理学中的伊辛模型,是:

E(v,h)=−12v⊤Wvvv−12h⊤Whhh−v⊤Wvhh−b⊤v−c⊤hE(v,h) = -\frac{1}{2}v^{\top}W_{vv}v - \frac{1}{2}h^{\top}W_{hh}h - v^{\top}W_{vh}h - b^{\top}v - c^{\top}hE(v,h)=−21​v⊤Wvv​v−21​h⊤Whh​h−v⊤Wvh​h−b⊤v−c⊤h

在这里,WvvW_{vv}Wvv​、WhhW_{hh}Whh​ 和 WvhW_{vh}Wvh​ 分别是可见-可见、隐藏-隐藏以及可见-隐藏连接的权重矩阵。向量 bbb 和 ccc 是可见单元和隐藏单元的偏置。层内相互作用的因子 12\frac{1}{2}21​ 是为了避免重复计算每个连接的惯例。两个神经元之间的一个正权重 wijw_{ij}wij​ 意味着当它们都“开启”时,它们对能量的贡献为负,使得该状态更可能出现。它们“喜欢”保持一致。而负权重则意味着它们“不喜欢”同时开启。

随机单元之舞:温度与选择

机器的状态是如何演变的?与许多人工神经网络中的确定性神经元不同,玻尔兹曼机中的单元是​​随机的​​。在任何时刻,我们可以选择单个神经元,比如说神经元 iii,并根据其所有邻居的当前状态,来决定它应该是开启还是关闭。

邻居们为神经元 iii 创造了一个“局部场”或输入,这仅仅是它们状态的加权和加上神经元 iii 自身的偏置:ai=∑jwijsj+bia_i = \sum_j w_{ij} s_j + b_iai​=∑j​wij​sj​+bi​。这个局部场决定了如果神经元 iii 翻转其状态,能量的变化量 ΔE\Delta EΔE。翻转的决定并非确定性的。相反,神经元以逻辑​​sigmoid 函数​​给出的概率翻转到“开启”状态:

p(si=1∣s∖i)=σ(βai)=11+exp⁡(−βai)p(s_i = 1 \mid s_{\setminus i}) = \sigma(\beta a_i) = \frac{1}{1 + \exp(-\beta a_i)}p(si​=1∣s∖i​)=σ(βai​)=1+exp(−βai​)1​

其中 β=1/T\beta = 1/Tβ=1/T 是“逆温度”。这个优美的结果直接源于玻尔兹曼分布。它表明,神经元发放的概率是其输入的平滑S形函数。

温度 TTT 扮演着一个引人入胜的角色。

  • ​​高温 (T→∞T \to \inftyT→∞, β→0\beta \to 0β→0):​​ sigmoid 曲线变得平坦。神经元的输出接近 0.5,无论其输入如何。系统被随机热噪声主导,行为变得不稳定。
  • ​​低温 (T→0T \to 0T→0, β→∞\beta \to \inftyβ→∞):​​ sigmoid 曲线变得陡峭,成为一个阶跃函数。神经元变得确定性,如果其输入为正就发放,如果为负就保持关闭。这个零温极限恰好是​​Hopfield 网络​​的更新规则,Hopfield 网络是一种早期的联想记忆模型。

这个温度参数与现代分类器中使用的​​softmax 函数​​中的“温度”直接类似。低温会使概率分布变得尖锐,导致对单个类别的高置信度预测。高温则会使其变得平滑,产生一个跨类别更均匀、更不确定的分布。在玻尔兹曼机中,温度控制着忠实遵循能量梯度与探索状态空间之间的平衡。

伟大的简化:“受限”玻尔兹曼机

通用的玻尔兹曼机,凭借其全连接的结构,是一个强大的理论工具,但在实践中却是一场噩梦。隐藏层内部和可见层内部的耦合 tạo成了一张错综复杂的依赖网络。如果我们知道了可见单元的状态,隐藏单元之间仍然是相互耦合的。要弄清楚它们的集体状态 p(h∣v)p(h|v)p(h∣v),需要考虑 2nh2^{n_h}2nh​ 种可能的隐藏构型中的每一种——这是一项难以完成的任务。

​​受限玻尔兹曼机 (RBM)​​ 的出现带来了突破。“限制”是一个简单但深刻的架构改变:我们禁止层内的所有连接。RBM 具有一个​​二分图​​,其中连接只存在于可见层和隐藏层之间,而不在层内。这将 WvvW_{vv}Wvv​ 和 WhhW_{hh}Whh​ 矩阵设为零,能量函数也得到了优美的简化:

E(v,h)=−v⊤Wh−b⊤v−c⊤hE(v,h) = -v^{\top}Wh - b^{\top}v - c^{\top}hE(v,h)=−v⊤Wh−b⊤v−c⊤h

这个看似微小的改变带来了巨大的影响。当可见单元 vvv 被固定(或“钳位”)时,连接任意两个隐藏单元的路径被切断。给定 vvv,所有隐藏单元彼此之间变得​​条件独立​​。对于给定隐藏单元的可见单元来说,情况也是如此。

这种独立性意味着我们可以通过简单地将每个隐藏单元的个体概率相乘来计算整个隐藏层构型的概率:

p(h∣v)=∏jp(hj∣v)p(h|v) = \prod_j p(h_j|v)p(h∣v)=j∏​p(hj​∣v)

既然我们知道如何使用 sigmoid 函数计算 p(hj∣v)p(h_j|v)p(hj​∣v),我们就可以轻松地计算整个条件分布 p(h∣v)p(h|v)p(h∣v)。这使得极其高效的​​块吉布斯采样​​成为可能:我们可以在一个步骤中同时对所有隐藏单元进行采样,然后在下一步中同时对所有可见单元进行采样。这不是一个近似;这是 RBM 的受限结构所实现的精确采样过程。

这种易处理性延伸到另一个关键量,即​​自由能​​。自由能 F(v)F(v)F(v) 是在考虑并平均了所有可能的隐藏状态之后,一个可见构型的有效能量。对于 RBM,它有一个优雅的封闭形式解:

F(v)=−b⊤v−∑jln⁡(1+exp⁡(cj+∑iWijvi))F(v) = -b^{\top}v - \sum_{j} \ln\left(1 + \exp\left(c_j + \sum_i W_{ij}v_i\right)\right)F(v)=−b⊤v−j∑​ln(1+exp(cj​+i∑​Wij​vi​))

这个函数定义了 RBM 学习到的数据空间上的能量景观。

学习:塑造能量景观

RBM 是如何学习的?目标是调整其参数(W,b,cW, b, cW,b,c),使其定义的概率分布 p(v)=exp⁡(−F(v))Zp(v) = \frac{\exp(-F(v))}{Z}p(v)=Zexp(−F(v))​ 与真实数据的分布相匹配。我们通过最大化数据的对数似然来实现这一点。单个数据点 vvv 的对数似然相对于权重 WijW_{ij}Wij​ 的梯度结果惊人地简单和直观:

∂ln⁡p(v)∂Wij=⟨vihj⟩data−⟨vihj⟩model\frac{\partial \ln p(v)}{\partial W_{ij}} = \langle v_i h_j \rangle_{\text{data}} - \langle v_i h_j \rangle_{\text{model}}∂Wij​∂lnp(v)​=⟨vi​hj​⟩data​−⟨vi​hj​⟩model​

这个方程是玻尔兹曼机学习的核心。它告诉我们,要根据两个相关性之间的差异来更新权重 WijW_{ij}Wij​:

  1. ​​正向阶段 (⟨vihj⟩data\langle v_i h_j \rangle_{\text{data}}⟨vi​hj​⟩data​):​​ 我们将一个数据样本 vvv 钳位到可见单元,并测量 viv_ivi​ 与由此产生的隐藏单元 hjh_jhj​ 的激活之间的相关性。这一项推动模型降低其所见数据点的自由能,在真实数据所在的位置雕刻出能量景观中的“山谷”。它加强了有助于重建数据的连接。

  2. ​​负向阶段 (⟨vihj⟩model\langle v_i h_j \rangle_{\text{model}}⟨vi​hj​⟩model​):​​ 我们让机器通过长时间运行吉布斯采样器来“做梦”,从其自身的分布 p(v,h)p(v,h)p(v,h) 中生成样本。然后,我们测量这些幻想粒子中 viv_ivi​ 和 hjh_jhj​ 之间的相关性。这一项与正向阶段的作用相反:它提高了模型自身倾向于生成的构型的能量,防止能量谷变得无限尖锐和狭窄。

因此,学习规则是一个微妙的平衡:让现实更可能发生,让幻想更不可能发生。

难驯的野兽及其驯服者:吉布斯采样

然而,这里有一个问题。负向阶段需要从模型的真实分布中生成样本,这意味着要运行吉布斯采样链直到它达到其稳态的平衡分布。理论上,这可能需要无限长的时间。这就是配分函数 ZZZ 的难处理性再次困扰我们的地方。

一个被称为​​对比散度 (CD)​​ 的实用解决方案是,仅从一个数据点开始,运行吉布斯链几个步骤(通常只有一个!)。这为负向阶段的统计数据提供了一个粗略、有偏的估计,但在实践中效果出奇地好。我们不再是沿着对数似然的真实梯度下降,而是沿着一个不同的、近似的目标下降。

吉布斯采样过程本身是 MCMC(马尔可夫链蒙特卡洛)方法的一个美妙例子。采样器的每一步,从一个状态 xxx 到另一个状态 x′x'x′,都经过精心构建,以满足一个称为​​细致平衡​​的条件。这个条件,π(x)K(x→x′)=π(x′)K(x′→x)\pi(x) K(x \to x') = \pi(x') K(x' \to x)π(x)K(x→x′)=π(x′)K(x′→x),其中 π\piπ 是目标玻尔兹曼分布,而 KKK 是转移概率,确保如果我们运行链足够长的时间,它所访问的状态分布将不可避免地收敛到我们期望的分布 π\piπ。

这整个框架——从能量函数到随机更新和学习规则——都可以被层叠。一个​​深度玻尔兹曼机 (DBM)​​ 堆叠了多个隐藏层,创建了一个具有逐步更抽象表示的模型。然而,这重新引入了一种形式的难处理性。当我们钳位一个可见向量 vvv 时,隐藏层虽然没有直接连接,但通过中间层变得耦合。计算后验分布 p(h∣v)p(h|v)p(h∣v) 再次需要对指数数量级的状态求和,近似方法再次变得必要。表达能力和计算易处理性之间的博弈是设计这些宏伟机器的核心主题。

应用与跨学科联系

在回顾了玻尔兹曼机的基本原理之后,我们已经看到它的特性是如何源于统计力学和网络理论的结合。我们探讨了它的内部动力学,那是一场由能量景观引导的、永不停歇的概率之舞。但要真正领会其重要性,我们现在必须将目光投向外部,并提问:我们能用这样一台机器做什么?它在何处找到其用武之地?

正如我们将看到的,答案既广阔又令人惊讶。玻尔兹曼机不仅仅是用于单一任务的单一工具。它是一个概念框架,一种描述复杂系统的语言,在神经科学、数据科学乃至量子物理学最前沿等截然不同的领域中都找到了归宿。在本章中,我们将巡礼这些应用,不仅发现玻尔兹曼机的实用性,还将揭示它所展现的深刻而美丽的科学思想的统一性。

发现模式的艺术

从本质上讲,玻尔兹曼机是模式大师。其结构本身——一个由相互连接的单元组成的网络,最终稳定在低能量状态——非常适合捕捉、完成和生成复杂的相关结构。这种能力并非抽象的好奇心;它直接呼应了我们认为对智能本身至关重要的过程。

能量景观中的记忆

像玻尔兹曼机这样的模型的最初灵感来自于一个问题:大脑是如何存储和检索记忆的?想象一下,一个记忆不是文件夹里的文件,而是一个广阔、崎岖景观中的稳定山谷。当我们试图回忆某事时,就像把一个球放在这个景观上;即使我们把它放在靠近山谷的斜坡上,它也会自然地滚落到谷底,稳定在存储的记忆中。

玻尔兹曼机以数学的优雅实现了这一愿景。“待记忆的模式”被编码在连接权重中,塑造出一个能量景观,其中每个记忆对应一个独特的能量最小值。当机器被呈现一个部分或带噪声的线索——一幅损坏的图像,一张半记起的脸——这相当于将系统的状态置于该景观上。网络的随机动力学,即单元为降低总能量而翻转的过程,就是球滚下山坡的过程。最终,系统稳定在一个低能量状态,从而从带噪声的输入中完成模式,并检索出原始、清晰的记忆。这种联想记忆的概念,即通过与线索的相似性来检索内容,是人类认知方面的一个强大模型,并为基于能量的模型提供了基础性应用。

发现隐藏的品味与特征

这种发现模式的能力远不止简单的记忆检索。它可以用来发现数据中未被明确标记的隐藏特征。也许这类应用最著名的成功案例来自推荐系统领域。想象一下,试图预测一个人会喜欢哪些电影。原始数据是一个巨大的、稀疏的矩阵,记录了哪些用户喜欢了哪些电影。当一个 RBM 在这些数据上训练时,它会做一些了不起的事情。它的隐藏单元,在没有任何明确指令的情况下,学会了表示潜在特征——诸如“古怪的独立喜剧”、“动作密集的科幻片”或“奥斯卡获奖剧情片”等抽象概念。用户的偏好档案变成了这些隐藏特征单元上的激活模式,而一部电影也同样被表示出来。通过学习用户模式和电影模式如何关联,RBM 可以预测用户对他们从未看过的电影的评分,有效地填补了我们知识中的空白。

这个特征发现的原理是通用的。同样的数学机制可以被调整以发现空间和时间中的模式。

  • ​​空间中的模式:​​ 在​​卷积 RBM​​ 中,权重在图像的不同位置共享。这个简单的约束,灵感来自于视觉皮层的结构,使得网络能够学习空间不变的特征,如边缘、角落和纹理,无论它们出现在图像的哪个位置。这是一个将问题的已知对称性(平移不变性)直接构建到模型架构中的美丽例子,为统治现代计算机视觉的卷积神经网络搭建了一座概念桥梁。

  • ​​时间中的模式:​​ 通过使 RBM 的参数依赖于最近的过去,我们得到了一个​​条件 RBM​​。这样的模型可以学习序列数据的规则。例如,当应用于音乐时,它可以学习和弦进行的统计规律。前一个和弦动态地“启动”网络,改变能量景观,使某些后续和弦更可能出现,从而使模型能够生成音乐上合理的序列。

科学发现的新视角

玻尔兹曼机的力量超越了工程解决方案;它可以作为科学探究本身的强大工具。通过在科学数据上训练 RBM,学习到的隐藏特征可以代表关于生成该数据的底层机制的假说。

考虑生态学领域,科学家们研究决定哪些物种在哪里生存的复杂相互作用网络。一位生态学家可能会收集一个大型数据集,记录数百个不同地点物种的有无情况。通过将每个地点视为一个数据点,每个物种视为一个可见单元,可以在这个矩阵上训练一个 RBM。由此产生的隐藏单元通常学会表示未被观察到的环境因素或潜在的栖息地类型。例如,一个隐藏单元可能对“高海拔且沼泽的”或“干燥且沙质土壤的”地点变得活跃,即使这些信息并不在原始数据中。这些隐藏单元捕捉了偏好此类栖息地的物种的共现模式,成为生成关于生态系统隐藏驱动因素的新的、可检验假说的有力工具。

同样地,RBM 可用于模拟人类学习这一不可观察的过程。在“知识追踪”中,学生对问题的一系列正确和错误答案是可见数据。一个模型,如深度信念网络中的顶层 RBM,可以被训练来推断学生对底层概念的潜在“掌握程度”。模型的隐藏状态对应于这种不可观察的认知状态,使教育工作者能够更好地理解学生的学习轨迹并提供有针对性的帮助。

伟大的统一:物理、计算与心智

我们现在来到了最深刻、最美丽的联系。玻尔兹曼机这个名字本身就暗示了它在统计物理学中的起源。这仅仅是一个方便的类比,还是指向一个更深层次的真理?答案是,这种联系是深刻的、真实的,并且已经彻底改变了我们处理一些科学中最棘手问题的方法。

核心思想是将玻尔兹曼机反过来使用。我们不再用它来建模来自系统的数据,而是可以用它来成为物理系统本身的描述。在物理学中,特别是在量子力学中,核心挑战通常是找到系统的“基态”——能量最低的构型,它决定了系统在低温下的性质。变分原理指出,真实的基态能量是任何有效的描述或*拟设*(ansatz)所能具有的最低能量。

这将寻找基态的问题变成了一个宏大的优化问题。而一个 RBM,不就是一个高度灵活、可参数化的数学形式吗?物理学家们意识到他们可以把 RBM 用作一种变分拟设。此时,“训练”的目标不再是匹配一个数据集,而是调整网络的权重和偏置,以最小化它所代表的状态的物理能量。对于像伊辛磁性模型这样的经典系统,RBM 学习一个关于自旋构型的概率分布,该分布集中在低能量状态上。

进入量子世界的飞跃更加惊人。在这里,RBM 被用来表示一个多体量子系统的*波函数*。网络本身作为一个函数,将量子自旋的构型映射到其波函数振幅,这个振幅可以是复数值。量子力学中,描述一个系统所需的参数数量随其规模呈指数增长,这种惊人的复杂性可以被神经网络中多项式数量级的参数所捕获。此外,深层的物理原理可以直接编码到网络的设计中。例如,在量子自旋晶格中强制实现平移对称性,是通过为 RBM 权重使用卷积结构来实现的——这与用于图像识别的原理相同!这揭示了照片中的特征与量子基态结构之间令人惊叹的联系。

这个研究项目在物理学和机器学习的交叉点上创造了一个充满活力的新领域。科学家们正在使用 RBM 和其他网络架构来模拟分子的势能面,并通过理解参数空间本身的内在几何(一个由量子几何张量捕获的概念)来寻找更有效的变分优化方法。

为了让我们的故事回到原点,这种深层的物理联系也反映了我们最初的灵感:大脑。研究人员已经表明,一个由生物学上合理的“脉冲”神经元组成的网络,以异步和局部规则运行,可以自然地实现玻尔兹曼机的采样动力学。每个神经元的膜电位代表了局部能量梯度,而随机的发放率则执行了吉布斯采样步骤。

因此,这个抽象的基于能量的模型在物质和心智的物理基底中都找到了一个潜在的归宿。支配磁体中原子集体行为的相同原理,可以用来描述大脑中神经元的集体行为,而两者都可以被玻尔兹曼机这个同样优雅的数学框架所捕获。正是在这种模式识别、科学发现、基础物理学和认知科学的宏大综合中,玻尔兹曼机的真正力量和内在美才得以彰显。