
大脑由数十亿神经元构成,理解其集体活动如何产生思想、知觉和行动,是科学界最巨大的挑战之一。乍一看,从数千个神经元记录到的信号揭示了一场看似混乱的电信号风暴。这种复杂性提出了一个根本性问题:大脑的活动真的像表面上看起来那样随机吗?还是在其表面之下隐藏着一个更简单、更根本的结构?本文旨在通过引入“神经子空间”这一强大概念来填补这一知识空白。这个概念认为,大脑巨大的计算能力源于被约束在低维几何结构中的活动。
在接下来的章节中,您将踏上一段从抽象理论到具体应用的旅程。在“原理与机制”部分,我们将探讨什么是神经子空间,这些结构是如何形成的,以及我们用来在复杂数据中发现它们的数学工具。随后,“应用与跨学科联系”部分将展示该框架如何为理解多样的脑功能提供统一的语言,从协调运动到构建我们对世界的感知。我们将从一个更熟悉的领域中类似挑战的思考开始:我们如何在管弦乐队的嘈杂声中找到旋律?
想象一下,你试图通过分别聆听管弦乐队中每一种乐器来理解一首交响乐。你会被淹没在各种独立音符的嘈杂声中——这里是小提琴的尖锐声,那里是小号的嘹亮声。这似乎是一片混乱。音乐的魔力,即旋律与和声,只有当你意识到乐器们并非各自为政,而是在共同遵循一个共享的、潜在的乐谱时,才会显现出来。
大脑也提出了类似的挑战。我们现在可以同时记录成千上万个神经元的电“信号”。如果我们将每个神经元的脉冲发放视为孤立事件,我们看到的是一场看似随机的活动风暴。但如果,像管弦乐队一样,神经元们正在合奏一首协调的曲子呢?如果大脑巨大的复杂性只是一个高维的幻觉,掩盖了一个更简单、更优雅的现实呢?这就是“神经子空间”或“神经流形”概念背后的核心思想。
要开始寻找这份隐藏的乐谱,我们首先需要一种方式来表示管弦乐队的集体声音。我们不能简单地列出每个神经元的每一次脉冲。相反,我们采用一个简单而强大的技巧:平滑原始的脉冲序列。对于每个神经元,我们可以想象在一个小的滑动时间窗口内计算其脉冲数量,或者更优雅地,将其脉冲序列与一个平滑核(如高斯凸起)进行卷积。这个过程将离散的、全有或全无的脉冲转化为每个神经元连续波动的发放率。
通过在每个时间点将这些发放率堆叠在一起,我们在一个非常高维的空间 中创建了一个向量,我们称之为 ,其中 是我们正在监听的神经元数量。这个“群体活动向量”代表了我们记录的神经群体在时间 的完整状态。当大脑思考、感知或行动时,这个向量在其高维状态空间中翩翩起舞。
现在,革命性的假设来了:这场舞蹈并非随机。向量 并不会自由地探索所有 个维度。相反,它的运动被约束在一个嵌入于更大空间内的小得多的低维结构中。这个结构就是“神经流形”。
流形到底是什么?想象一根长长的绳子。它是一个一维物体。你可以把它在桌子上放直,也可以把它缠成一个复杂的三维结。无论它变得多么纠结,一只沿着绳子爬行的蚂蚁只需要一个数字——它爬了多远——就能知道自己的位置。这根绳子就是一个嵌入在三维空间中的一维流形。同样,一张纸是一个二维物体。你可以把它卷成一个圆柱体,或者揉成一个球。它的内在维度仍然是二,即使它生活在我们的三维世界中。
神经流形假说提出,大脑活动也是如此。存在一个由隐藏变量或“控制旋钮”构成的低维“潜在空间”,其维度为 ,其中 远小于神经元的数量 。这些旋钮在时间 的状态是一个向量 。我们观察到的高维神经活动 仅仅是这个潜在状态的一个平滑映射:。
可以描绘出的所有可能点的集合,构成了一个嵌入在 维神经空间中的 维流形 。这是一个深刻的简化。如果一只猴子伸手去拿香蕉,我们可能会记录1000个神经元。但也许它的运动皮层的状态实际上只由少数几个潜在变量描述——比如手部目标的X-Y-Z位置。流形就是那本“词典”,将这几个潜在指令翻译成横跨所有1000个神经元的复杂发放率交响乐。
为什么这个映射 应该是“平滑”的?为什么不是锯齿状和不连续的?答案在于大脑的生物学特性。神经元不是数字开关。它们的细胞膜和连接它们的突触起着天然的低通滤波器的作用,平滑输入和输出。潜在变量的一个微小变化应该只导致神经发放率的微小变化,而不是灾难性的跳跃。这一生物物理现实为将这些结构建模为平滑、可微流形提供了依据。[@problem-id:3993266] 这种平滑性是连续稳定神经编码的基础:相似的刺激或意图由流形上邻近的点编码,而流形上邻近的点解码为相似的含义。
这种弯曲流形的想法,与那些假定活动局限于一个“线性子空间”(相当于假定纸张必须总是平的)的旧模型相比,是一个巨大的飞跃。线性子空间只是映射为仿射函数 的特例,但大脑在其全部荣耀中,似乎更偏爱优美的弯曲几何。
如果这些流形存在,我们如何找到它们?我们无法直接看到它们。我们拥有的只是由点 构成的高维数据云。我们需要工具——降维算法——来充当我们的制图师。
经典的工具是“主成分分析 (PCA)”。PCA试图为数据找到最佳拟合的“平坦”子空间,就像试图用一张以你所在城市为中心的平面地图来表示弯曲的地球。它找到数据中方差最大的方向。如果神经流形碰巧相对平坦,比如代表头朝向信号的环状活动,PCA可以工作得很好,在一个二维平面内捕捉到环的圆形结构。
但如果流形是高度弯曲的呢?想象一个“瑞士卷”形状的数据——一个在三维空间中卷起来的二维薄片。PCA为了保留方差的主要轴,会从侧面观察这个卷,并将其投影成一个实心矩形,完全丢失了其分层结构。 这时,非线性方法就至关重要了。
“等距映射 (Isomap)”采用了一种更聪明的方法。它不是用一把能穿过空白空间的尺子(欧几里得距离)来测量数据点之间的距离,而是像蚂蚁走路一样测量距离——始终停留在表面上(测地线距离)。通过保留这些内在的流形距离,Isomap可以比喻性地“展开”瑞士卷,揭示出它原本的平坦二维薄片。
一个更现代、更强大的工具是“UMAP (均匀流形近似与投影)”。UMAP是局部拓扑学的大师。它专注于确保在高维空间中是邻居的点,在低维嵌入中仍然是邻居。它创建了一个模糊的、概率性的局部连接图,然后试图创建一个保留这种连通性的低维地图。其结果通常是一个视觉上令人惊叹且信息丰富的表示,它在保留数据的局部和全局拓扑结构方面表现出色。
这些方法是探索性的,但我们也可以构建明确的统计模型。像“因子分析 (FA)”和“高斯过程因子分析 (GPFA)”这样的技术假定从潜在变量到观测值是线性映射,但增加了一个关键成分:一个复杂的噪声模型。它们将定义流形的“共享变异性”与每个神经元特有的“私有噪声”分离开来。GPFA更进一步,它假定潜在变量随时间平滑演化,这使得它非常适合于追踪流形上思想和行动的平滑轨迹。
找到流形仅仅是开始。真正的激动之处在于研究它的结构,因为这告诉我们神经计算本身的性质。在这里,我们必须区分形状的两个基本方面:“几何”和“拓扑”。
“几何”处理如距离、角度和“曲率”等度量属性。曲率告诉我们流形弯曲的程度。我们可以直接从数据中提取的潜在轨迹计算它。对于在流形上移动的轨迹 ,其曲率 本质上是其垂直于速度的加速度的大小,再由其速率归一化。一个高曲率区域可能代表认知过程中的一个急剧转变点。 另一个几何属性是流形的“内在维度”。到底有多少个潜在变量在起作用?这并不总是一个简单的整数。我们可以使用“参与率”等度量来估计一个“有效”维度,该度量衡量数据方差在不同维度上的分布广度。[@problem-id:4166155]
另一方面,“拓扑”处理在连续拉伸和弯曲下保持不变的属性。它会问这样的问题:流形是连成一片的吗?它有孔洞吗?你不能在不撕裂球体的情况下把它变成一个甜甜圈,因为甜甜圈有一个孔而球体没有。这些是基本的、不变的属性。
来自“拓扑数据分析 (TDA)”的现代技术,如“持续同调”,使我们能够计算数据云在不同尺度下的“孔洞”数量。输出通常是一个“条形码”,其中每个条代表一个拓扑特征。短条很可能是由噪声引起的,但长而持续的条揭示了底层流形的真实拓扑。例如,如果我们的数据显示在第一同调维度 () 中有一个长条,这表明流形的形状像一个环或圆 ()——这是表示像头朝向这样的循环变量的完美结构。如果我们发现 中有两个长条, 中有一个长条,数据告诉我们流形具有环面 () 的拓扑结构,即甜甜圈的表面。
流形不仅仅是一个静态的形状;它是神经活动动力学展开的“游戏板”。大脑的状态是一个点,它沿着这个表面上的轨迹流动,受一套规则的支配。
考虑一个简单模型来描述循环行为,如呼吸或行走。在潜在空间中,动力学可能由一套简单的方程描述,这些方程创造一个“极限环”——一个稳定的闭环轨迹。例如,一个具有径向更新 和角度更新 的系统,在选择合适的参数后,会使任何起始点螺旋进入一个半径为 的完美圆。 潜在空间中的这个圆形路径将在高维神经空间中表现为重复的、周期性的群体活动模式序列——节律过程的神经标志。
潜在空间中的规则与我们看到的动力学之间的关系可能非常微妙。可能潜在动力学极其简单——例如,完全线性,由 描述。然而,由于到神经空间的映射是非线性的(),观察到的轨迹可能极其复杂和非线性。 这提出了一个关于“可辨识性”的深刻问题。我们能知道“真实”的潜在动力学和坐标系吗?答案是否定的。存在一个根本性的模糊性:潜在空间的任何可逆线性变换(旋转、剪切或缩放)都会产生观测上相同的数据。但并非全无希望!虽然我们无法确定确切的坐标系,但我们可以识别对这类变换不变的属性,比如动力学矩阵 的“特征值”。这些特征值告诉我们隐藏的认知过程的稳定性和时间尺度,这是一个透过表征模糊性而闪耀的深刻真理。
这把我们带到了最后一个关键问题。这些美丽的几何结构是大脑的真实特征,还是我们强加于噪声数据之上的精致幻觉?答案在于严谨性和稳定性测试。
我们的数据总是被噪声污染。我们如何确定我们发现的流形不仅仅是这种噪声的产物?数学中一个强大的结果,“Wedin sin-theta 定理”,为我们解决了这个问题。它告诉我们,我们估计的子空间的稳定性关键取决于我们数据中的“谱隙”——即定义我们流形的奇异值()与我们归因于噪声的下一批奇异值()之间的差异。该定理提供了一个界限:我们估计的子空间的误差与噪声水平除以这个谱隙成正比。
其含义是巨大的。如果谱中存在一个巨大而清晰的间隙,我们发现的流形就是鲁棒和稳定的;它是一个真实存在的特征,高高地耸立在噪声之上。如果间隙很小或不存在,我们的结果就是脆弱的;一个稍微不同的噪声样本就可能产生一个完全不同的流形。这一原则,连同交叉验证等其他方法,使我们能为我们的发现赋予一个置信度。
因此,对神经流形的探索不仅仅是寻找漂亮的图片。它是一次深入探究神经计算基本原理的旅程。这是一个结合了生物学直觉、复杂数学和健康自我批判的科学计划,旨在揭示支撑大脑宏伟高维交响乐的简单低维乐谱。
在我们之前的讨论中,我们发现了一个惊人的事实:大脑狂乱的高维 chatter(信号交流)常常会自我组织成我们称之为神经子空间的、优美而简单的低维结构。你可能会倾向于认为这只是一种聪明的数据分析技巧,是科学家们用来简化一个过于复杂以至于我们无法理解的问题的方法。但这是一个深刻的错误。这些子空间不仅仅是一种方便的描述;它们似乎正是认知的舞台,是大脑雕琢思想、知觉和行动的工作台。
要理解这一点,我们必须超越原理,探索其应用。我们将看到这一个单一而优雅的思想——在子空间内进行计算——如何提供一种统一的语言,来理解从伸手拿杯子这样简单的动作,到学习的抽象几何,再到我们内心世界的形态等一系列令人眼花缭乱的大脑功能。
让我们从我们都非常熟悉的事情开始:运动。当你决定伸出手去拿一支铅笔时,你的大脑向数十块肌肉发出一连串指令。你的运动皮层有数以百计的神经元,每个都能以复杂的模式放电。那么,为什么当我们记录这些神经元时,却发现它们的集体活动在一个仅有几个维度的极薄子空间内展开呢?
答案既优雅又深刻,它不仅存在于大脑中,也存在于身体本身的物理特性中。你的手臂有惯性;你的肌肉不是瞬时执行器,而是像低通滤波器一样,平滑掉任何快速、急促的神经指令。身体本身施加了一个强大的约束:只有某些协调的神经活动模式——“输出有效”模式——才能产生有效、平滑的运动。而其他大量可能的神经模式则是“输出无效”的——它们对肢体的位置没有影响。一个经过进化磨练的高效大脑,如果浪费能量去产生身体根本无法利用的神经信号,那将是愚蠢的。因此,大脑的控制策略自然地将其指令集中到一个低维的“输出有效”子空间中,寻找最有效的神经解决方案来驱动身体。这不仅仅是一个假设;当我们分析运动皮层的记录时,这正是我们所看到的****。
通过实验,我们可以非常清晰地揭示这些结构。通过让动物一遍又一遍地执行简单的伸手任务,我们可以对神经活动进行平均,以洗去随机的、逐次试验的噪声,从而增强与运动相关的潜在信号。将主成分分析(PCA)等技术应用于这些经试验平均的数据,揭示了该运动子空间的主轴。这些成分不是随机方向;它们是运动指令的基本构建模块,是运动语言中的基本“词汇”[@problem-it:3973458]。
这种划分为有效和无效子空间,赋予了大脑一份非凡的礼物:分离规划与行动的能力。你是否曾在行动前犹豫过?在那些时刻,你的大脑正 furiously active,准备着运动计划。神经科学家发现,这种准备活动通常完全存在于“输出无效”子空间内。这是一种真实的、结构化的计算,一种关于未来运动的“思考”,被巧妙地限制在一组不会引起肌肉收缩的神经模式中。这就像踩下离合器空转汽车引擎。引擎在轰鸣,但汽车不动。只有当“行动”的决定做出时,神经轨迹才会进入输出有效子空间以执行指令****。这是一个美丽的例子,说明了神经活动中的几何结构如何直接促成一种复杂的认知功能。
如果说运动控制是将大脑的意图投射到世界上,那么感觉知觉则是构建一个关于世界的内部模型。在这里,子空间同样是关键。当你看到一幅图像时,输入在技术上是巨大的——数百万个光感受器的光强度。但我们感知的世界是由物体、纹理和形状构成的,这些本身就是低维结构。
我们发现这些结构的工具变得越来越复杂。一种经典的方法是找到使感觉神经元放电的“平均”刺激,这个量被称为脉冲触发平均(STA)。但这只揭示了神经元偏好的一个维度。如果神经元不仅对单一模式敏感,而是对模式的“组合”敏感呢?脉冲触发协方差(STC)分析让我们能够发现这一点。通过分析脉冲前刺激的“方差”,我们可以识别出一个神经元所关心的整个刺激特征子空间。其中一些维度可能是“促进性的”,意味着沿这些轴的刺激能量会增加放电概率。另一些则可能是“抑制性的”,即沿这些轴的能量会使神经元安静下来。这些维度共同定义了一个刺激子空间,它构成了神经元在世界中“寻找”什么的更丰富的画面****。这个神经元不是一个简单的单物探测器;它是一个在多维特征空间上操作的复杂分析师。
在大多数现实世界的行为中,感觉、决策和行动都无可救药地交织在一起。当棒球运动员看到投球,决定挥棒,并执行动作时,他们大脑中的神经元因与所有这些过程相关的活动而尖叫。我们怎么可能将它们解开呢?
这就是PCA的一个杰出扩展,称为解混PCA(dPCA)的用武之地。想象一位音响工程师拿一份完整的音乐录音,并使用混音台分离出人声、吉他和鼓的音轨。dPCA为神经数据做了类似的事情。在一个我们可以控制例如所呈现的刺激、做出的决策和经过的时间的实验中,dPCA可以为这些变量中的每一个找到独立的子空间。它将纠缠在一起的群体信号“解混”成纯粹的成分:一个其几何结构完全关于所见内容的“刺激子空间”,一个其几何结构反映选择的“决策子空间”,以及一个追踪试验进程的“时间子space”****。这为我们提供了一个前所未有的清晰视角,让我们看到不同的认知变量是如何在神经群体中被表示和转换的。
一旦我们能够分离和定义这些子空间,我们就可以开始将它们视为独立的几何对象。我们可以提出这样的问题:两个神经表征有多相似?当动物学习时,表征会改变吗?
为了回答这些问题,我们需要一种比较两个子空间的方法。一个强大的工具是计算“主夹角”。这种方法提供了一种与基底无关的度量,衡量两个子空间之间的对齐程度,将其几何关系提炼为一组角度。如果两个子空间相同,所有主夹角都为零。如果它们完全正交,所有角度都是。通过应用这种方法,我们可以例如追踪学习的过程。我们可以取动物是新手时执行任务的神经子空间,并将其与它成为专家后的子空间进行比较。主夹角的显著变化表明发生了“神经重组”——一种可触摸的、刻在大脑结构中的学习的几何印记。
这引出了一个更深层次的问题:为什么这些子空间应该具有它们所具有的几何形状?这是任意的吗?“高效编码假说”表明并非如此。该理论认为,大脑的表征经过优化,以便在有限资源的情况下传递关于世界的最多信息。这一思想的一个优雅表述提出,神经编码的几何形状应该是刺激世界本身几何形状的缩放复制品——一种等距映射。两个神经表征之间的“距离”(它们的统计可区分性,由费雪信息矩阵 捕捉)应该与现实世界中实际刺激之间的“距离”(由刺激度量 捕捉)成正比。这导致了优美的条件 。大脑在追求效率的过程中,学会了一种保留重要事物几何形状的映射,将其表征能力投入到对行为最相关的世界维度上。
到目前为止,我们主要讨论的是“平坦”的子空间,如直线和平面。但如果大脑的内部表征是弯曲的呢?如果“工作台”不是一个平坦的桌子,而是一个球体,或一个甜甜圈呢?
令人惊讶的是,我们也有能够揭示这一点的工具。考虑一下老鼠大脑中的头朝向细胞。当老鼠的头指向不同方向时,不同的细胞会放电。可能的头朝向空间是一个圆,。这个空间有一个非平凡的形状或拓扑——中间有一个“洞”。通过观察哪些神经元倾向于同时活动(这是它们具有重叠调谐曲线的结果),我们可以构建一个抽象的共活动图。数学中一个美妙的结果,称为“神经引理”,保证了如果神经元调谐曲线以一种良好方式覆盖刺激空间,那么这个共活动图的拓扑形状将与刺激空间本身的形状相同。我们简直可以从神经元的原始放电模式中看到动物内部方向表征的“圆形性”****。神经流形的几何形状反映了它所代表的世界的拓扑。
旅程并未在生物大脑处结束。事实证明,我们发现的低维计算原理是如此强大,以至于它们在我们自己的创造物中重现:人工神经网络。当我们训练一个深度学习模型时,它也学会了将高维输入(如图像)投影到低维特征子空间中,在这些子空间中,问题(如分类猫和狗)变得更容易解决。
这种平行提供了诱人的新见解。我们可以应用来自工程和信号处理的思想,比如来自压缩感知的受限等距性质(RIP),来理解这些人工特征空间。这使我们能够发展关于何时可以“修剪”网络——移除连接以使其更高效——而不会损害其性能的理论,方法是确保关键子空间的几何形状得以保留****。
于是,我们回到了起点。从我们手臂的肌肉到机器学习的抽象空间,在低维子空间内进行计算的概念提供了一条强大而统一的线索。它揭示了智能的一种基本策略,无论是自然的还是人工的:征服复杂性不是通过在其完全的、无法管理的维度中与之搏斗,而是通过发现隐藏在其中的简单、优雅和强大的结构。看来,大脑是一位几何大师。