try ai
科普
编辑
分享
反馈
  • 神经流形

神经流形

SciencePedia玻尔百科
核心要点
  • 神经流形是高维神经活动中的低维几何结构,代表了思想、感知和行动背后的协调模式。
  • 像 PCA、Isomap 和拓扑数据分析等方法被用来从神经记录中揭示和表征这些流形的形状、维度和拓扑结构。
  • 在神经修复学中,从这些流形解码神经活动,可以实现对脑机接口更准确、更稳健和更具适应性的控制。
  • 神经流形的几何形状反映了像高效编码这样的基本计算原理,即大脑的内部表征被优化塑造,以镜像世界的信息结构。

引言

人类大脑由数十亿个相互连接的神经元组成,产生惊人数量的活动。理解连贯的思想、感知和运动如何从这看似混沌的状态中涌现,是神经科学最大的挑战之一。如果我们倾听单个神经元,我们听到的只是噪音;真正的音乐在于它们集体、协调的交响。本文探讨了​​神经流形​​这一强大概念:即大脑的复杂活动被约束在代表计算本质的低维几何结构上。这一框架为理解大脑的内部语言提供了一座桥梁,从单一神经元的活动超越到思想本身的形状。

本文旨在解决高维神经混沌与低维认知功能之间的根本差距。我们将探讨大脑如何利用这些内部几何结构来高效、稳健地执行复杂任务。在整个探索过程中,您将对神经流形的理论和应用获得全面的理解。第一章“原理与机制”将介绍核心概念,详细说明什么是神经流形、用于揭示它们的数学工具,以及产生它们的动力学原理。随后的章节“应用与跨学科联系”将展示这一框架如何革新神经修复学等领域,并为我们深入理解大脑的内部地图及其高效编码策略提供深刻见解。

原理与机制

想象一个由数十亿音乐家组成的交响乐团。如果每个音乐家都演奏一个随机的音符,结果将是难以忍受的杂音。但一个伟大的乐团能演奏出美妙的交响乐,因为音乐家们协调他们的行动,遵循着共同的乐谱。大脑,拥有数十亿神经元,很像这个乐团。单个神经元的“尖峰”是音符,但大脑真正的音乐——思想、感知或运动的本质——在于庞大神经元群体中活动的协调模式。这些涌现的、低维的协调模式就是我们所说的​​神经流形​​。它们是噪音中的交响乐。

大脑的内部画布:从高维混沌到低维有序

当神经科学家同时记录例如 N=100N=100N=100 个神经元的活动时,他们可以将这个神经元群体在任何瞬间的状态表示为一个100维空间中的单点。这个​​状态空间​​中的每个坐标轴代表一个神经元的放电率。随着大脑思考和行动,这个点在这个巨大的高维画布上描绘出一条路径,即一条轨迹。

乍一看,这个空间似乎复杂得令人绝望。一个100维的空间是一个大得令人困惑的地方。但​​流形假说​​的核心思想优美而精妙:大脑并未使用这整个空间,远非如此。与特定任务或思想相对应的神经轨迹被约束在嵌入于高维状态空间内的一个更小、更平滑、维度更低的几何形状上或其附近。这个形状——可能是一条曲线、一个曲面,或一个更高维的推广——就是神经流形。

更正式地说,我们可以想象一组定义任务的潜在变量——例如,你手臂的角度或你正在看的一张脸的身份。我们称这个低维潜在空间为 Z\mathcal{Z}Z。神经流形 M\mathcal{M}M 是一个平滑编码映射 f:Z→RNf: \mathcal{Z} \to \mathbb{R}^Nf:Z→RN 的像,该映射将简单潜在空间中的一个点映射到高维神经空间中一个复杂的活动模式。这个映射的平滑性至关重要;它确保了相似的思想或刺激在流形上由邻近的点来表示。这个特性,被称为​​编码的连续性​​,赋予了大脑内部表征连贯性和对噪声的鲁棒性。

寻找形状:从平面投影到曲面

如果这些流形存在,我们如何找到它们?我们如何看到大脑交响乐的形状?我们武器库中最简单的工具是​​主成分分析 (PCA)​​。想象你有一团点云,在三维空间中形成一个细长的圆柱体。PCA 就像是为观察这团点云找到最佳的摄像机角度。它会识别出沿圆柱体中心延伸的主轴作为最大方差方向,并将定义其圆形横截面的两个轴识别为次要重要的方向。如果我们只看前几个主成分 (PCs),我们就能得到数据的低维“阴影”或投影。对于许多任务,特别是在运动皮层中,少数几个主成分就能捕获超过90%与任务相关的神经方差,从而揭示出神经动力学展开的低维子空间。

PCA很强大,但它有一个根本的局限性:它假设流形是“平”的,即位于状态空间的线性子空间内。对于像​​环形吸引子​​这样的结构,它工作得很好。在环形吸引子中,神经活动描绘的圆完全位于嵌入在NNN维空间中的一个二维平面上。在这种情况下,前两个主成分将精确找到那个平面,并完美地表示出该圆形流形。

但如果流形是内在弯曲的,比如球面或“瑞士卷”呢?用 PCA 将瑞士卷投影到一个二维平面上,就像从侧面看它一样——所有的层都会塌陷在一起,内部结构就会丢失。为了处理这种情况,我们需要非线性方法。一个经典的例子是​​等度量映射 (Isomap)​​。Isomap 背后的直觉是,像蚂蚁在流形表面行走一样测量距离(即​​测地距离​​),而不是像鸟一样直接飞越空旷的环境空间(即欧几里得距离)。通过构建邻近点的图并在此图中寻找最短路径,Isomap 可以估算测地距离。然后,它会找到一个最能保持这些内在距离的低维嵌入。对于一个瑞士卷,Isomap 可以漂亮地将其“展开”回它最初的扁平矩形,揭示其真实、简单的二维性质。更现代的技术,如​​均匀流形近似与投影 (UMAP)​​,甚至更为复杂,它们专注于保持数据的局部拓扑结构——即谁是谁的邻居——这通常能为我们提供关于流形形状的最稳健的洞见。

思想的形状:表征流形

一旦我们有了流形的图像,我们就可以开始分析它的属性。它的形状并非偶然;它是正在执行的计算的直接反映。

维度

最基本的属性是流形的​​内在维度​​。大脑在执行一项任务时,究竟使用了多少个独立的变量或“旋钮”?我们可以从数据的协方差矩阵的特征值 {λi}\{\lambda_i\}{λi​}(由 PCA 提供)中得到一些线索。一个名为​​参与率​​的度量,DPR=(∑iλi)2/∑iλi2D_{\mathrm{PR}} = (\sum_i \lambda_i)^2 / \sum_i \lambda_i^2DPR​=(∑i​λi​)2/∑i​λi2​,给出了一个“有效”维度。如果所有活动都局限于一个维度,DPR=1D_{\mathrm{PR}}=1DPR​=1;如果它均匀地分布在 ddd 个维度上,DPR=dD_{\mathrm{PR}}=dDPR​=d。在局部上,我们可以通过查看编码映射的雅可比矩阵的秩来估计维度,这告诉我们需要多少个潜在维度来张成流形的局部邻域。

曲率

流形是平的还是弯的?神经轨迹的​​曲率​​告诉我们,随着大脑状态的演变,神经计算的“规则”是如何变化的。我们可以把神经状态想象成一个在潜在空间中移动的粒子。它的一阶导数 μ′(t)\mu'(t)μ′(t) 是其速度,二阶导数 μ′′(t)\mu''(t)μ′′(t) 是其加速度。直观地说,曲率是加速度中垂直于速度的分量——即让路径弯曲的部分。一个精确的公式是 κ(t)=∥Π⊥(t) μ′′(t)∥/∥μ′(t)∥2\kappa(t) = \|\Pi_{\perp}(t)\,\mu''(t)\| / \|\mu'(t)\|^{2}κ(t)=∥Π⊥​(t)μ′′(t)∥/∥μ′(t)∥2,其中 Π⊥(t)\Pi_{\perp}(t)Π⊥​(t) 投影到与速度向量正交的子空间上。流形上的高曲率区域可能对应于策略快速变化的时刻或不同计算机制之间的边界。

拓扑

除了像曲率这样的局部几何性质,流形的全局形状,即它的​​拓扑​​结构是什么?它是一条线、一个圆、一个球,还是像环面(甜甜圈形状)这样更奇特的形状?这些全局属性可以揭示任务变量的基本结构。例如,代表头部方向的流形可能是一个圆 (S1S^1S1),而代表两个周期性变量(如眼睛在屏幕上的水平和垂直位置)联合的流形可能是一个环面 (T2T^2T2)。

​​拓扑数据分析 (TDA)​​ 为发现这种潜在形状提供了一个强大的工具包。通过在不同的空间尺度 ϵ\epsilonϵ 上构建一系列单纯复形(由点、边、三角形等组成的网络),一种称为​​持续同调​​的方法可以追踪拓扑特征的“诞生”和“消亡”。这些特征由​​贝蒂数​​来概括:β0\beta_0β0​ 计算连通分量的数量,β1\beta_1β1​ 计算一维“孔洞”或环的数量,β2\beta_2β2​ 计算二维“空腔”或空洞的数量。在持续同调的“条形码”中,一个持久的特征表明这是数据的一个稳健特征。例如,从环上采样的数据会显示一个持久的 β1\beta_1β1​ 特征,而从环面上采样的数据会显示两个持久的 β1\beta_1β1​ 特征和一个持久的 β2\beta_2β2​ 特征。

拓扑学的深刻见解在于,这些贝蒂数是​​拓扑不变量​​。这意味着即使流形被拉伸、扭曲或变形,只要它不被撕裂(即在微分同胚下),这些贝蒂数都保持不变。这意味着,如果大脑使用拓扑结构来编码信息,那么这种编码对于神经表征中某些类型的几何扭曲具有极强的鲁棒性。

为何是流形?控制与动力学的交响

这提出了一个更深层次的问题:大脑为什么首先要使用这些低维流形?答案似乎在于物理学、动力学和高效控制的交叉点。

最有力的证据之一来自运动系统。初级运动皮层 (M1) 发出指令来移动我们的身体。但身体并非一个无限灵活的工具。肌肉充当低通滤波器,平滑神经信号。骨骼具有惯性,抵抗运动变化。由于这些物理约束,只有某些协调的神经活动模式——即“输出有效”维度——才能有效地产生运动。一个旨在以最小努力实现目标的最优控制策略,会自然地将其神经信号集中到这个小的、有效的子空间中。结果是,M1 活动的巨大复杂性被引导到一个低维流形中,其结构与控制身体的任务精确匹配。大脑的软件是为其物理硬件量身定做的。

此外,流形不仅仅是静态结构;它们是动力学上演的舞台。在许多神经系统中,我们观察到时间尺度上的分离。存在快速动力学,它迅速将神经状态推向一个​​慢流形​​,然后是慢速动力学,引导状态沿着这个流形运动。这个慢流形代表了系统稳定且与计算相关的状态。流形上的不动点可能代表记忆或决策,而沿流形的流动则决定了它们之间的合法转换。流形本身成为机制的关键部分,是引导计算流动的通道。

最后的谦逊:洞穴壁上的阴影

当我们揭示这些优美的几何结构时,我们必须保持一份科学的谦逊。我们重建的潜在空间和流形是模型。它们是我们理解大脑内部语言的最佳尝试,但它们本身并非语言。​​可识别性​​问题说明了这一点。

想象我们有一个模型,其中潜在空间中的线性动力学 xt+1=Axt\mathbf{x}_{t+1} = A \mathbf{x}_txt+1​=Axt​ 通过一个映射 yt=f(xt)\mathbf{y}_t = f(\mathbf{x}_t)yt​=f(xt​) 在可观测流形上产生非线性动力学。事实证明,我们可以对我们的潜在空间施加任何可逆的线性变换——旋转、缩放、剪切——来得到一个新的坐标系。如果我们相应地变换我们的动力学矩阵 AAA 和映射函数 fff,我们可以产生完全相同的可观测数据 yt\mathbf{y}_tyt​。

这意味着什么?这意味着我们推断出的潜在空间的特定坐标轴是任意的。它们是我们的选择,不必然是大脑的选择。在某种意义上,我们就像柏拉图洞穴寓言中的囚徒,看着洞壁上的阴影。我们可以推断出投射阴影的物体的形状和运动,但我们无法确定它们的绝对方向。然而,有些属性是可识别且真实的。动力学矩阵 AAA 的特征值,决定了潜在动力学的稳定性和速度,在这些变换下是不变的。流形的拓扑结构——它的贝蒂数——也是不变的。这些是我们能提取的基本真理。因此,我们的追求是识别这些不变属性——那些位于大脑宏伟、协调的交响乐核心的、深层的结构和动力学常数。

应用与跨学科联系

在我们迄今的旅程中,我们揭示了神经流形这一概念——即数十亿神经元看似混沌的放电,实际上常常被约束在一个优美的、低维的曲面上,滑行于一个巨大的状态空间中。这是一幅优美的几何图景。但这仅仅是一个奇特的抽象,一个数学比喻吗?远非如此。神经流形的概念不仅仅是描述性的;它是一个强大的、具有预测性的工具,正在彻底改变我们阅读、解释甚至辅助大脑的能力。它提供了一座桥梁,将神经科学与工程学、计算机科学以及类似物理学基本原理的信息论联系起来。现在让我们来探究这些流形是为了什么而存在的。

解码大脑意图:神经流形在神经修复学中的应用

想象一下,仅凭思想就能控制一个机械臂。这是脑机接口(BCI)的承诺,在这个领域,神经流形概念已将科幻小说变为现实。挑战是巨大的:你如何将成千上万个神经元噼啪作响的交响乐转换成一个平滑、从容的动作?试图单独解读每个神经元,就像试图通过听一个千人演员阵容中的单个演员来理解一出戏剧一样。

流形假说提供了一条生命线。如果与(比如说)伸手拿杯子相对应的集体活动被限制在一个低维轨迹上,那么我们的任务就大大简化了。我们不再需要追踪每个神经元;我们只需要找到系统在其流形上的“状态”——一个低维曲面上的单点。计算神经科学家已经开发出复杂的统计工具来做到这一点。像因子分析 (FA) 和高斯过程因子分析 (GPFA) 这样的方法,旨在深入观察高维神经记录并提取这些潜在的平滑轨迹。它们巧妙地将定义流形状态的协调共享信号与单个神经元特有的“私有”噪声分离开来,其中 GPFA 在捕捉运动随时间变化的平滑连续性方面尤其擅长。

然而,一旦我们找到了一个流形,一个新的挑战便出现了:它的形状。如果一个对应于手部运动的流形是一个简单的平面,我们可以使用一个直接的线性解码器——就像一把简单的尺子——来读出预期的速度。但如果流形是弯曲的呢?将线性解码器应用于弯曲的流形,就像试图用一把直尺测量地球上两个城市之间的距离一样;它会系统性地出错。这种误差,或称偏差,是解码器的线性假设与流形的内在曲率不匹配的直接后果。解决方案是像地图制作者一样思考。我们可以使用由许多小的局部地图组成的地图集,而不是一张全局的平面地图。在解码中,这是通过“局部线性”切空间解码器实现的。通过在小邻域内将流形近似为平的,这些解码器可以显著减少曲率引起的偏差,并实现对神经修复设备更精确的控制。

BCI难题的最后一块是适应性。大脑不是静态的;神经活动模式会随时间漂移。周一训练的 BCI 可能在周二就不那么准确了。用许多新的试验来重新校准整个系统是不切实际的。在这里,流形概念再次提供了一个强有力的解决方案。如果我们知道神经活动位于一个相对稳定、低维的流形上,但可能在其他方向上漂移,我们就可以构建更智能的学习算法。在一种迁移学习方法中,我们可以通过假设核心计算结构——即稳定的流形——保持不变来“锚定”解码器。然后,来自新的、稀疏数据的更新被约束为仅在这个低维子空间内发生。这极大地减少了需要估计的参数数量,从而用很少的新数据就能实现稳健而快速的适应,这是创造适用于日常使用的 BCI 的关键一步。

揭示大脑的内部地图:神经编码的拓扑学

除了像 BCI 这样的实际应用,神经流形的几何学为我们提供了一个前所未有的窗口,以窥探大脑的内部逻辑。通过研究这些流形的形状,我们可以提出深刻的问题:思想的形状是什么?大脑如何内部表征外部世界的结构?答案原来在于一个被称为拓扑学的数学领域——研究形状及其基本属性,如孔洞和连通性。

考虑大鼠大脑中的一群“头朝向”细胞。每个神经元在动物的头部指向特定方向时放电。被编码的外部变量是一个角度,即圆上的一个点,S1S^1S1。我们如何仅从神经记录中就确认大脑确实在使用一个环形编码?答案来自拓扑学中一个优美的定理,称为神经引理。想象每个神经元的偏好放电范围是圆上的一个小弧段。作为一个群体,这些弧段相互重叠并覆盖整个圆。神经引理告诉我们,如果我们根据哪些神经元共同放电(即它们的弧段重叠)来构建一个网络,该网络的结构将与它所覆盖的空间具有相同的拓扑结构。一个具有重叠调谐曲线的神经元环必然会创建一个与圆同伦等价的单纯复形。通过观察哪些神经元是共激活的,我们可以在不看外部世界的情况下推断出动物内部罗盘的环形形状。

这个原理可以扩展到更复杂的表征。一个惊人的例子是在内嗅皮层的网格细胞中发现的,它们构成了动物在空间中二维位置的神经地图。每个网格细胞在多个位置放电,这些位置形成一个周期性的三角形晶格。整个细胞群对于由两个独立的晶格向量引起的平移是不变的。在拓扑学中,一个平面被这样一个晶格相除的商空间是一个二维环面,T2T^2T2——一个甜甜圈的表面。理论预测,网格细胞群的神经流形应该具有环面的拓扑结构。研究人员使用一种称为持续同调的强大工具,可以分析其高维空间中神经活动的点云。这种方法就像一个“拓扑X射线”,可以检测在不同尺度上持续存在的特征。对于一个环面,它应该找到两个独立的一维“环”(β1=2\beta_1=2β1​=2)和一个二维“空腔”(β2=1\beta_2=1β2​=1)。令人惊讶的是,当应用于网格细胞记录时,这正是所发现的,为大脑采用环面流形来表示二维空间提供了惊人的证实。

衡量变化与稳定性:学习的几何学

随着动物的学习,或者大脑在不同任务间切换,其内部表征会发生适应性变化。与这些任务相关的神经流形可能会拉伸、旋转或完全改变形状。我们如何量化这种“表征漂移”?几何学再次提供了答案。

如果我们将来自两种不同条件(例如,学习前后)的神经流形表示为整个nnn维神经空间中的两个不同的kkk维子空间,我们可以问它们是如何对齐的。​​主角​​的概念提供了一种严谨的测量方法。第一个主角度是第一个子空间中的任意向量与第二个子空间中的任意向量之间可能形成的最小角度。随后的角度是通过在剩余的正交方向中寻找最佳对齐来找到的。这kkk个角度的余弦值(可以通过奇异值分解 (SVD) 优雅地计算出来)给出了两个流形之间相似性的详细、基不变的特征。如果所有余弦值都接近111,则流形几乎完全对齐;如果它们接近000,则表征是正交且完全不同的。

这组角度可以被提炼成一个单一而强大的度量:​​格拉斯曼距离​​。Rn\mathbb{R}^nRn 的所有kkk维子空间的集合本身构成一个优美的数学对象,称为格拉斯曼流形 Gr(k,n)\mathrm{Gr}(k,n)Gr(k,n)。在这个“流形的流形”上,我们可以定义一个真正的测地距离——两点(即我们的两个子空间)之间的最短路径长度。这个距离,计算为主角度向量的欧几里得范数 ∑θi2\sqrt{\sum \theta_i^2}∑θi2​​,提供了一个单一的数值,总结了两种神经编码之间的总差异。接近000的距离意味着神经编码是稳定的,而大的距离则表明发生了重大的重组或“表征漂移”。这为神经科学家提供了一把精确的尺子,来衡量学习、注意力和时间对大脑内部表征的几何影响。这个距离是内在地基不变的;它只依赖于子空间本身,而不依赖于我们选择用来描述它们的特定神经元,这使其成为科学探究的稳健工具。

更深层次的联系:高效编码与机器学习

流形概念不仅提供了工具,还指向了神经计算的深层、统一的原理,与现代机器学习建立了紧密的联系。许多先进的人工智能模型,如​​去噪自编码器​​,其核心就是流形学习器。当一个自编码器被训练来接收一个损坏的输入(例如,一个有噪声的图像)并重建原始的清晰版本时,它实际上是在隐式地学习“真实”数据所在的低维流形。该网络学习到一个向量场,它能将高维空间中任何有噪声的点轻轻地拉回到流形上最近的点,那里的数据密度最高。这与数据概率分布的得分函数有着精妙的联系,揭示了深度学习、统计学和信息几何学之间的深刻联系。

这引出了一个最终的、宏大的问题:为什么神经编码会以这种方式构建?是否有更深层次的原理在起作用?​​高效编码假说​​表明确实存在。该假说认为,感觉系统已经进化到在生物约束下,尽可能准确和高效地表征世界。这个抽象的原则可以被赋予一个精确的几何公式。

从大脑的角度来看,衡量两个刺激之间距离的“自然”方式是看它们对应的神经反应的可区分性有多大。这种统计可区分性的概念被​​费雪信息度量​​所捕捉。对于刺激的一个微小变化 dθ\mathrm{d}\boldsymbol{\theta}dθ,它在神经编码中产生的“距离”由一个二次型给出,ds2=dθ⊤I(θ)dθ\mathrm{d}s^2 = \mathrm{d}\boldsymbol{\theta}^\top I(\boldsymbol{\theta}) \mathrm{d}\boldsymbol{\theta}ds2=dθ⊤I(θ)dθ,其中 I(θ)I(\boldsymbol{\theta})I(θ) 是费雪信息矩阵。这个度量在刺激空间本身上定义了一个几何结构。

于是,高效编码假说做出了一个惊人的预测:一个最优的神经编码应该形成一个流形,其内在几何结构是刺激流形信息几何的一个忠实副本——一个等距映射。这意味着从刺激到神经反应的映射应该保持局部距离,最多相差一个反映资源约束的全局缩放因子。实现这种等距映射的条件是,神经编码的费雪信息矩阵必须与刺激流形的度量张量成比例,J(s)=k gS(s)J(s) = k \, g_{\mathcal{S}}(s)J(s)=kgS​(s)。这意味着,神经群体最敏感的刺激空间方向,恰恰是那些内在最重要或变化最大的方向。看来,大脑是一位几何大师,它塑造其内部表征,以完美地镜像它试图理解的世界的信息结构。