
人类大脑拥有近千亿个神经元,是一个复杂得惊人的系统。这个错综复杂的网络是如何产生流畅、连贯且相对简单的思想和行动输出的呢?这个问题是神经科学的核心挑战之一。神经活动的维度极其巨大——大脑在任何时刻的状态都可以用一个包含数十亿个数字的列表来描述——这在计算上似乎是难以处理的。然而,一个源自数学的强大概念为此提供了解决方案:流形假说。该理论假设,有意义的神经活动模式并非随机散布在这个巨大的空间中,而是被限制在一个维度低得多的、隐藏的几何结构上,即“神经流形”。
本文将深入探讨神经流形的世界,将抽象的几何学与可感知的脑功能联系起来。它旨在回答一个根本性问题:大脑是如何通过沿着这些内在曲面进行自我组织,从而实现其卓越的效率的?通过探索这一概念,您将获得一个关于大脑如何进行计算的全新视角。第一章“原理与机制”将剖析其核心理论,解释我们如何能用一套强大的分析工具来识别和刻画这些流形的形状。随后的“应用与跨学科联系”一章将展示这种几何学视角的深远影响,揭示它如何解开运动控制、感觉知觉的秘密,甚至为下一代人工智能的发展提供信息。
想象一个在舞台上跳舞的牵线木偶。它的手、脚、头和躯干可以摆出令人眼花缭乱的各种姿势。如果你要写下每个关节的坐标,你会得到一个非常长的数字列表——一个高维空间中的点。然而,木偶优美、协调的动作并非随机的;它们都由木偶师手中的几根线控制。木偶所能摆出的所有自然的、可能的姿势集合,并不是那个包含所有关节位置的广阔空间,而是其中一个更小、更平滑、更具结构化的子集。
这就是神经流形背后的核心思想。大脑拥有数十亿个神经元,其运作于一个天文数字般的高维空间中。在任何时刻,一个神经元群体的“状态”都可以用一个长长的数字列表来描述,每个数字代表相应神经元的发放率。然而,流形假说认为,这些神经活动模式并非随机散布在这个巨大的状态空间中。相反,它们被约束在低维曲面(即流形)之上或其附近,就像木偶的姿势受木偶师的线所约束一样。这些“线”是组织神经活动的潜在潜在变量——它们可能是感觉刺激的参数、一个计划好的动作、一段记忆,或是思想的静静演进。
在找到流形之前,我们必须首先定义它所在的空间。神经元的语言由离散的电脉冲,或称动作电位组成。单个神经元的原始脉冲序列是一系列时间上的脉冲。为了捕捉一个包含 个神经元的群体的集体状态,我们不能只用一个脉冲时间的列表。相反,我们需要执行一个关键的平滑步骤。我们可以在一个小的时间窗口内计算脉冲数量,或者更优雅地,将脉冲序列与一个平滑核(如一个窄的高斯凸起)进行卷积。这个过程将断续的脉冲序列转换为每个神经元连续的、实值的发放率。
通过将这 个发放率在时间点 组合在一起,我们创建了一个单一的向量 ,它代表了 维“神经状态空间”中的一个点。因此,流形假说是一个意义深远的论断,即这些点 的轨迹被限制在一个内在维度 低得多的子流形 上,其中 。这是可能的,因为神经元的发放率通常是其输入的平滑函数,这是突触整合和膜动力学滤波特性的结果。这种生物物理上的平滑性为我们预期底层结构是一个光滑、可微的流形,而不是一个锯齿状或不连通的点集提供了物理依据。
这样的流形可能是什么样子的呢?最简单的一种可能性是它是“平坦的”——一条线、一个平面,或其高维推广,称为仿射子空间。这是线性模型所描述的世界。例如,在一个线性动力系统 (LDS) 中,一个低维潜在状态 随时间演化,而观测到的神经活动 是该状态的一个简单线性投影:,其中 是一个“载荷”矩阵。在这里,神经流形恰好是所有可能的点 的集合,也就是由向量 平移后的矩阵 的列空间。在这个线性世界中,像主成分分析 (PCA) 这样的方法——它能找到最能拟合数据的平坦子空间——可能非常强大。例如,如果一个神经元群体以一个环形的“环形吸引子”编码动物的头部方向,那么其活动可能位于一个二维平面内的一个完美圆上。PCA 将成功地将这个平面识别为前两个主成分,并无失真地揭示神经编码的环形结构。
然而,大脑的计算根本上是非线性的。这意味着神经流形通常是弯曲的。一个经典的类比是“瑞士卷”数据集:一张二维纸片在三维空间中被卷起来。如果你对这个卷上的点应用 PCA,它会将它们投影到一个平坦的平面上,把所有层次都压在一起,从而破坏了底层的矩形结构。为什么?因为 PCA 只关心在周围三维空间中的邻近性。在卷的不同层次上的两个点,即使沿着卷的表面行进的距离非常大,它们在三维空间中也可能非常接近。
这就是非线性流形学习算法变得至关重要的地方。例如,Isomap 被设计用来感知流形的内在几何。它首先构建一个邻域图,将每个数据点与其最近的邻居连接起来。然后,它通过寻找该图内的最短路径来估计任意两点之间的“测地距离”——即沿着流形表面的最短路径。最后,它找到一个能最好地保持这些测地距离的点集的低维嵌入。对于瑞士卷,Isomap 可以成功地将其“展开”回它原来的平坦矩形,揭示出 PCA 所错过的真实低维结构。其他强大的方法,如均匀流形逼近与投影 (UMAP),采用了一种更偏向拓扑学的方法,专注于保持数据的局部邻域结构,这使得它们在捕捉流形的局部连通性方面表现出色,即使全局距离被扭曲了。
一旦我们获得了流形的表示,我们就可以开始研究它的特征,就像地理学家研究一片新地貌一样。我们可以提出三个基本问题:它有多少个维度?它的弯曲程度如何?它的整体形状是什么?
流形的“内在维度”对应于描述神经活动所需的潜在变量的数量——我们那个木偶上的线的数量。虽然活动向量存在于一个由 个神经元构成的高维空间中,但流形本身可能只有,比如说,二维。一个估计这一维度的有效方法是“放大”流形的一个小片区域。就像地球弯曲表面的一小块对我们来说看起来是平的一样,弯曲流形上的一小邻域点可以被一个平坦的切空间很好地近似。通过对这些小邻域应用局部 PCA,我们可以计算出解释局部方差需要多少个维度。如果这个数字在整个流形上始终很小(比如 ),我们就找到了我们的内在维度。一个相关的全局度量是参与率,它是从数据协方差矩阵的特征值计算得出的,用于量化数据所占据的“有效”维度数。如果内在维度没有稳定在一个小数上,而是随着我们收集更多数据而持续增长,这将是反对流形假说的有力证据。
曲率告诉我们流形偏离平坦的程度。在神经编码的背景下,它衡量的是潜在变量与神经反应之间关系的非线性程度。我们可以通过考虑一个沿着流形移动的思想轨迹 来将其形象化。速度向量 告诉我们轨迹的方向和速率。加速度向量 告诉我们这个速度是如何变化的。这部分加速度可能有一部分是沿着运动方向的(加速或减速),但与速度正交的部分才是迫使轨迹转弯的力量。曲率 正是这个转向加速度的大小,并经过速度的适当归一化。它可以优雅地用以下公式计算: 其中 投射到与速度正交的子空间上。高曲率意味着神经表征正在以高度非线性的方式变化。
除了像曲率这样的局部几何性质,我们还可以探究流形的全局形状,即拓扑结构。它是一条线、一个球体,还是更奇特的东西?拓扑学是研究当一个形状被拉伸、扭曲或变形而没有被撕裂或粘贴时保持不变的性质的学科。例如,一个咖啡杯和一个甜甜圈在拓扑学上是相同的,因为它们都有一个孔。这是一个深刻的区别:如果我们有一个代表神经活动的流形,它的几何(距离、角度、曲率)可能会根据我们记录或处理数据的方式而改变,但它的拓扑——孔的数量——应该是底层神经计算的一个不变属性。
拓扑数据分析 (TDA) 是一套旨在从一团数据点中揭示这种不变形状的工具。其核心方法持续同调通过“增厚”数据来工作。想象一下,在每个数据点周围放置一个半径为 的小球。当我们慢慢增加 时,这些球开始重叠、合并,并形成单纯复形。TDA 跟踪在此过程中出现和消失的“拓扑特征”。一个特征,如一个环或一个空洞,如果它在很宽的 尺度范围内都存在,就被认为是稳健的或“持续的”。
结果通常用条形码来总结,其中每个条形代表一个拓扑特征,其长度对应于其持续性。每个维度中持续条形的数量给出了贝蒂数: 是连通分支的数量, 是一维环(如圆环或甜甜圈中的环)的数量, 是二维空洞(如空心球体中的空洞)的数量。通过检查条形码,我们可以推断出流形的形状。例如,来自环形吸引子(拓扑上是一个圆,)的数据将在维度1中显示一个长条(一个持续的 )。来自一个编码两个周期性变量的系统(拓扑上是一个环面,)的数据将在维度1中显示两个长条,在维度2中显示一个长条(持续的 )。为了使 TDA 起作用,从潜在变量到神经状态的映射必须是单射的(一对一的);否则,潜在空间的不同部分可能会被“粘合”在一起,人为地改变拓扑结构。
这一切听起来很美妙,但我们如何能确定这些优美的几何和拓扑结构是真实的大脑特征,而不仅仅是数学幻想或噪声数据的产物呢?流形学习背后的理论提供了一些强有力的保证。
其中一个最优雅的理由来自于流形学习与去噪之间的联系。想象一下,真实的神经状态位于一个光滑的流形上,但我们的测量被噪声所污染,导致一团点围绕着流形分布。去噪自编码器是一种神经网络,它被训练用来接收一个噪声点,并将其映射回其在流形上的原始、干净的位置。研究表明,在这样做时,网络会含蓄地学习到流形本身的结构。它用来将一个点移回流形的校正向量,指向数据概率密度最陡峭上升的方向——它学会了将点推回到高密度区域,从而有效地从噪声中勾勒出流形的形状。
此外,对于拓扑学方法,有一个非凡的稳定性定理。真实的神经数据总是有噪声的,这意味着我们测得的数据点之间的距离与它们的真实值相比有轻微的扰动。这个定理提供了一个数学上的保证:数据中的小扰动(用一个叫做格罗莫夫-豪斯多夫距离的概念来衡量)只能导致所得的持续性图中的小变化(用瓶颈距离来衡量)。这确保了我们检测到的拓扑特征,比如环形吸引子中的那个孔,是稳健的,而不仅仅是测量噪声的偶然结果。正是这种稳定性,让我们有信心将我们发现的形状解释为大脑内部结构的真实反映。
在了解了神经流形的原理之后,我们可能会倾向于将它们视为大脑内部运作中一种优雅但抽象的奇观而加以欣赏。但这就像发现了罗塞塔石碑却只欣赏它的书法艺术。神经流形的真正奇妙之处不仅在于它的存在,更在于它让我们能够做什么。它是一把钥匙,能解开大脑的密码,揭示思想与行动的逻辑,甚至为构建智能机器提供了蓝图。一旦我们学会看到这些隐藏的结构,一幅壮丽的应用前景和深刻的跨学科联系画卷便在我们面前展开。
神经流形最直接、最能改变生活的应用或许是在脑机接口(BCI)领域。想象一下,仅凭思想就能控制假肢。这已不再是科幻小说,而神经流形正是其工作原理的核心。当我们决定伸手去拿一杯咖啡时,运动皮层的成百上千个神经元会爆发出一场活动风暴。对于外部观察者来说,这种活动看起来像是无法理解的噪声。但如果我们知道该看哪里——如果我们知道了流形——混乱就会变为有序。
神经科学家可以记录几百个神经元的活动,并使用主成分分析等技术,发现一个低维“控制面板”,在这个面板上,看似复杂的神经模式以简单、平滑的轨迹展开。这个流形上的每一点都对应着手臂运动的一个特定状态——它的位置、它的速度。通过实时追踪大脑在这个流形上的位置,计算机可以“读取心智意图”,并将其翻译成给机械臂的指令。单个神经元的高维嘈杂信号被简化为一种低维的运动语言。
然而,事情变得更加复杂。这个“控制面板”不是一个简单的平坦表面。它是一个弯曲、扭曲的空间,一个真正的流形。一个简单的线性解码器,如果假设神经活动和运动之间的关系是直线,将不可避免地出错,尤其是在进行大幅度或快速运动时。这就像试图用一张平坦的地图在地球的曲面上导航一样;扭曲是不可避免的。为了构建更精确的解码器,我们必须尊重这种几何结构。现代方法使用一系列“局部坐标图”——微小的、平坦的切空间——来近似弯曲的流形。通过确定大脑当前处于流形的哪个局部区域,我们可以应用一个高度精确的局部线性解码器,从而显著减少由曲率引起的偏差。这类似于用一套局部的、详细的城市地图来导航,而不是用一张单一的、失真的世界地图。
对于现实世界的 BCI 来说,最后一个巨大的挑战是大脑自身的可塑性。神经编码并非一成不变;它每天都会“漂移”,这意味着针对同一动作的特定发放模式可能会改变。周一训练好的解码器到了周二可能就没用了。这将需要每天进行繁琐的重新校准——这对一个实用的设备来说是行不通的。在这里,流形概念再次拯救了我们。虽然单个神经元的活动可能变化无常,但底层的低维流形——计算本身的几何结构——通常在很长一段时间内都非常稳定。迁移学习中的新技术利用了这一事实。它们将解码器“锚定”到这个稳定的流形上,只需几次校准试验,就能快速适应新一天的神经活动。这种方法极大地降低了解码器的方差和脆弱性,使稳健、长期的神经修复设备成为一个触手可及的现实。
除了简单地读取编码,流形的结构还为我们提供了深刻的见解,让我们理解为什么大脑的编码会以这种方式书写。为什么运动皮层要用一个低维系统来控制一个拥有如此多肌肉和关节的身体?答案是物理学、控制论和神经科学的美妙融合。
我们的身体不是简单的木偶。肌肉扮演着低通滤波器的角色,平滑掉突兀的神经指令。我们的四肢有惯性;它们抵抗运动状态的改变。大脑不需要——也无法——独立地微观管理每一根肌纤维。相反,它已经学会,只有某些协调的神经活动模式,即“输出有效”模式,才能有效地产生行为。其余的则被身体自身的动力学过滤掉了。一个寻求以最小努力实现目标的最优控制策略,会自然地将其能量集中到这少数几个有效模式中。因此,神经流形并非任意选择;它是大脑在身体物理特性和能量效率原则的约束下找到的一个解决方案。流形的维度 通常略大于任务的机械自由度 ,但远小于神经元的数量 ,反映了这种优雅的简化 ()。
此外,流形不仅是静态的表征;它们还是思想动力学展开的舞台。许多行为,从走路、呼吸到脑中排练一段旋律,都是有节奏和周期性的。大脑是如何产生这些可靠的模式的?通过在其神经流形上实现动力系统。一个神经元群体可以被连接成这样一种方式,使其集体活动被吸引到一个稳定的轨迹上,即一个“吸引子”。对于周期性行为,这个吸引子呈现为极限环的形式——流形上的一个闭合回路。一旦神经状态接近这个环,它就会被动力学捕获,并一次又一次地沿着这个环路运行,从而产生一个稳定、周期性的输出。这种环的存在与稳定性取决于神经相互作用的精确参数,而它们的周期则取决于在流形上“旋转”的“速度” [@problem-gpid:3993316]。在这种观点下,流形成为了一个“模式生成器”,一个用于产生复杂的、具有时间结构的行为的动力学引擎。
神经流形的概念远远超出了运动控制的范畴,为我们理解大脑如何表征周围世界提供了一个几何窗口。我们的感官提供源源不断的信息流,大脑必须将其组织成连贯的现实内部地图。这些地图的形状并非任意;它常常反映了被表征事物的形状。
一个经典的例子来自许多动物大脑中的“头朝向”细胞。这些神经元像指南针一样工作,仅当动物头部指向特定方向时才发放。如果我们考虑所有可能的头部方向所构成的空间,它在拓扑上是一个圆,。那么,大脑对这个空间的内部表征是否也具有圆的拓扑结构呢?通过应用代数拓扑学的工具,我们可以给出响亮的肯定回答。导致每个神经元发放的刺激区域集合(头朝向的弧段)构成了这个圆的一个“好的覆盖”。数学中著名的神经引理告诉我们,这个覆盖中的重叠模式——哪些神经元会同时发放——构建了一个单纯复形,其拓扑结构与被覆盖的空间等价。在这种情况下,共同发放的神经元网络确实编织出了一个与圆同伦等价的结构。大脑实际上在它自己的高维状态空间中画了一个圆,来表征现实世界中的一个圆。
这一原理可以扩展到更高维度。2014年获得诺贝尔奖的内嗅皮层“网格细胞”的发现,揭示了一个更为奇妙的结构。当动物在开放环境中探索时,这些神经元的发放呈现出惊人规则的六边形晶格模式。单个细胞的活动在空间上是周期性的。但整个群体呢?群体的活动沿着空间中两个独立的方向是周期性的。在数学中,当你将平面的对边等同起来时,你会创造出一个环面,或称甜甜圈形状 ()。理论预测,网格细胞系统的神经流形应该具有二维环面的拓扑结构。
这是一个大胆的预测。在成千上万个神经元的发放模式中,真的隐藏着一个甜甜圈形状的结构吗?利用拓扑数据分析中强大的技术——持续同调,科学家们可以分析从一只觅食动物身上记录的神经活动点云。这种方法在所有可能的尺度上从数据中构建结构,并寻找那些稳健且持续的拓扑特征——连通分支、环和空洞。对于网格细胞,分析结果恰好揭示了环面的特征:一个连通分支 ,两个独立的环 ,以及一个封闭的空洞 。我们实际上可以在机器中找到甜甜圈的幽灵,证实了大脑使用复杂的拓扑结构来构建其内部的世界地图。
这些例子暗示了信息、几何和神经计算之间存在着深刻的关系。是什么赋予了流形特定的形状?它是由什么“织物”编织而成的?答案在于一个名为信息几何的领域。
想象一下,你想定义两种刺激之间的“距离”,比如说,两种略有不同的红色。对大脑来说,定义这个距离的自然方式是看对这两种红色的神经反应的可区分性。如果两种刺激产生的神经反应概率分布几乎相同,它们就“近”;如果它们产生非常不同的分布,它们就“远”。这种可区分性的概念可以用 Kullback-Leibler 散度来形式化。对于无限接近的刺激,这种散度产生了一种称为费雪信息度量的黎曼度量。在刺激流形上任意一点的费雪信息矩阵 (FIM) 告诉我们,神经编码对沿着每个可能方向的刺激变化的敏感程度。它本质上是大脑自己的尺子,由信息的通货锻造而成。
这引出了理论神经科学中最优雅的思想之一:高效编码假说。该假说提出,感觉系统通过进化被优化,以便在生物约束下尽可能高效地表征自然世界。用几何的语言来说,这可以被精确地表述为:一个最优的编码应该是一个等距映射。这意味着神经表征的几何(由费雪信息度量定义)应该忠实地匹配刺激空间本身的内在几何,可能按一个与代谢资源相关的常数因子进行缩放。在刺激空间中最重要的方向应该被分配最多的神经资源,使它们最易于辨别。这是一个深刻而美丽的原则,它表明大脑的内部宇宙拥有一个几何结构,这个结构是它试图理解的世界的完美、高效的镜像。
流形概念的力量并不局限于生物大脑。它是信息处理的一个基本原则,与人工智能的构建直接相关。现代人工智能系统,如能够创造出惊人逼真图像的生成对抗网络 (GAN),也学会在低维流形上表征复杂数据。GAN 中的生成器网络学习一个从简单的低维潜空间(例如,一团随机数)到高维图像空间(例如,所有可能的像素排列)的映射。它能产生的所有“可信”图像的集合,构成了这个像素空间内的一个流形。
理解这个流形对于诊断和改进人工智能至关重要。GAN 训练中一个常见的失败模式是“模式坍塌”,即生成器变得缺乏创造性,只产生种类非常有限的输出——例如,一个在动物面孔上训练的人工智能可能只会生成猫的图片。这个失败可以从几何上理解:生成器的输出流形坍塌到了一个维度更低、更贫乏的子空间。我们可以通过测量生成样本的局部内在维度 (LID) 来实时检测这种坍塌。估计的 LID 突然急剧下降,是一个明确的警示信号,表明网络的多样性正在崩溃,从而让工程师能够介入并稳定训练过程。
从控制假肢到理解我们自身运动的逻辑,从看到我们内部指南针的形状到检验大脑效率的宏大理论,最后到构建更具创造力的人工心智——神经流形是一条金线,将这些看似无关的领域联系在一起。它揭示了大脑中一个隐藏的组织层次,一个美丽、动态的几何世界,这个世界不仅在智力上令人满足地去研究,而且在应用上也极其有用。它证明了一个事实:在大脑中,正如在物理学的许多领域一样,最深刻的真理往往是用几何的语言书写的。