腹侧视觉通路：大脑的“内容”通路

玻尔百科

定义

腹侧视觉通路：大脑的“内容”通路指视觉系统中负责识别物体的神经回路，与指导空间行为的背侧通路有所不同。该通路采用分级处理机制，从处理基础特征逐渐演变为下颞叶皮层中复杂的物体表征，从而实现稳定的物体不变性识别。这一系统不仅是理解视觉失认症等神经疾病的基础，也为现代人工智能视觉系统的架构提供了重要启发。

核心要点

腹侧视觉通路是大脑的“内容”通路，负责识别物体，与引导行为的背侧“位置/方式”通路不同。
它像一个层级流水线一样运作，从V1中的简单特征，逐步发展到下颞叶（IT）皮层中复杂的、完整的物体表征。
这个层级结构的一个关键成就是不变性，它使得物体识别能够在观察位置、大小或角度发生变化时保持稳定。
腹侧通路的原理对于理解如视觉失认症等神经系统疾病和如卡普格拉综合征等精神疾病至关重要，并启发了现代人工智能视觉系统的架构。

引言

大脑是如何将纷乱的光线洪流转化为一个我们能够识别和理解、充满意义的物体世界的？神经科学的这个基本问题，很大程度上可以通过我们视觉系统中的一个宏大分工来回答。大脑将这项任务分成了两条主要通路：一条用于识别一个物体“是什么”，另一条用于确定它“在哪里”以及“如何”与之互动。本文聚焦于前者，即物体识别的大师——腹侧视觉通路，或称“内容”通路。我们将探讨关于这个系统是如何构建的、它如何实现其卓越的稳定性，以及当这个复杂的机制出现故障时会发生什么的知识空白。在接下来的章节中，您将对这个系统有一个全面的了解。首先，在“原理与机制”中，我们将剖析从低级特征检测器到高级物体表征的层级结构，并解释它如何解决不变性识别这一关键问题。然后，在“应用与跨学科联系”中，我们将看到这些原理如何对临床神经病学、精神病学以及人工智能的设计产生深远影响。

原理与机制

大脑是如何做到这一点的？它如何将视网膜上纷乱的光子洪流转化为一个我们能够命名、理解和互动的稳定、有意义的物体世界？答案并非单一的魔术，而是一场精心编排的计算交响乐，在两条宏大的视觉处理高速公路上演奏。想象一下，你看到桌子上有一杯咖啡。识别出它“是”一杯咖啡——它的形状、它作为饮用容器的身份——是一条通路的工作。另一条通路则计算出它的确切位置、大小和朝向，这样你就可以伸出手去抓住它而不会失手。

这两条通路从大脑后部的初级视觉皮层分叉而出，被称为腹侧视觉通路和背侧视觉通路。背侧通路向上投射到顶叶，是“位置”或“方式”通路，引导我们在空间中的行为。然而，我们的重点是它的伙伴：腹侧通路。这条通路向下延伸至颞叶，是“内容”通路。它是大脑的物体识别大师。

关于这种劳动分工的最引人注目且有说服力的证据，并非来自健康大脑如何工作，而是来自它可能如何失灵。神经心理学为我们提供了一个自然实验。枕颞皮层中的腹侧通路受损可能导致一种名为视觉失认症的奇异病症。一个患有视觉失认症的病人可能看着一个熟悉的物体，比如一把钥匙，却完全无法说出它的名字或用途。他们能看到它的颜色、线条和基本特征，但物体的“是什么”这一属性却消失了。然而，如果你让他们捡起这把钥匙，他们的手可能会完美地塑形以抓住它，这是由他们完好无损的背侧通路引导的。相反，后顶叶皮层的背侧通路受损可能导致视动性共济失调。在这种情况下，病人可以看着钥匙说：“那是一把钥匙”，但当他们伸手去拿时，他们的手却会胡乱挥舞，无法在空间中找到目标。这种惊人的“双重分离”是大自然给我们的一个深刻线索，表明我们的大脑确实将一个物体“是什么”的问题与它“在哪里”以及“如何”与之互动的问题分开了。

识别的流水线

那么，“内容”通路，即腹侧通路，究竟是如何构建一个物体的表征的呢？它的工作方式就像一条精密的流水线，一个多阶段的处理层级，在这个层级中，光线的原始材料被逐步精炼成可识别物体的成品。这个过程通常经过一系列皮层区域：从初级视觉皮层（V1），经过像V2和V4这样的中间区域，最终汇集于下颞叶（IT）皮层。

V1：像素警察。 在第一阶段，V1中的神经元就像微小的侦探，每个神经元负责视觉场中的一小块区域。它们是简单的专家，只对特定方向的线条或边缘等原始特征做出反应。在这个阶段，大脑没有物体的概念，只有一个由不相连的线段组成的马赛克。
V2：连接点滴。 V2中的神经元接收来自许多V1神经元的输入，并开始将局部线索拼接在一起。它们可能对由多个对齐边缘形成的轮廓或简单纹理做出反应。图像仍然是碎片化的，但表面和形状的雏形正在显现。
V4：雕塑家的学徒。 这是一个至关重要的中间阶段。V4神经元有更大的感受野——它们能看到更大块的世界——并且它们对更复杂的特征做出反应，如曲线、角度和轮廓的组合。它们对于在形式背景下处理颜色也至关重要。V4不仅仅是一个被动的中继站；它是一个活跃的工作坊，视觉世界在这里被过滤和组织。例如，扰乱V4不仅会使图像变暗，还会严重损害泛化能力——即在物体移动或置于杂乱场景中时识别该物体的能力。
IT皮层：识别大师。 在层级结构的顶端是下颞叶（IT）皮层。这里的神经元有巨大的感受野，有些甚至覆盖了半个视觉场。它们不是对简单的线条或曲线做出反应，而是对整个物体或高度复杂的特征做出反应。在灵长类动物的IT皮层中，人们可能会发现一个神经元，它对看到一张脸会剧烈放电，但对一堆打乱的面部特征则不会，而另一个神经元则专门对手做出反应。这是流水线的终点：一种稀疏、高效的物体身份编码。

不变性的魔力

腹侧通路面临的最大挑战——也是其最卓越的成就——是不变性。想一想：一个咖啡杯无论远近（改变大小）、在你的视野中心还是偏向一侧（改变位置）、从上方看还是从侧面看（改变视角），或者部分被你的笔记本电脑遮挡（遮挡），它仍然是一个咖啡杯。在每种情况下，你视网膜上的原始图像都大相径庭，但你对“杯子”的感知是稳定的。这就是不变性。

层级结构是这个魔术的关键。当信息从V1向IT上传时，两件事同时发生：

感受野变大： 每个神经元汇集了来自下一层许多神经元的输入。这种汇聚意味着一个V4神经元的感受野是许多为其提供输入的更小的V2感受野的并集，而一个IT神经元的感受野是许多V4感受野的并集。感受野可以从V1中的几分之一度增长到IT皮层中的超过 $20^{\circ}$ 。一个高级IT神经元几乎可以在视觉场的大部分区域“看到”一个物体，因为它通过层级结构接收来自所有这些位置的输入。这种层级汇集是实现平移不变性（对位置变化的容忍度）和尺度不变性（对大小变化的容忍度）的主要机制。
特征复杂度增加： 系统学会对更简单特征的特定组合做出反应。一个对面孔做出反应的IT神经元之所以如此，是因为它被连接起来以检测来自V4神经元的特定排列的输入，这些V4神经元编码了正确配置的眼睛、鼻子和嘴巴形状。

这个过程巧妙地解决了敏感性与不变性之间的权衡。腹侧通路学会了对定义物体身份的特征极其敏感，同时对位置、大小和中等旋转等“干扰变量”变得越来越不敏感——或容忍。相比之下，背侧通路则相反：它必须对这些变量保持高度敏感，以引导你的手到正确的位置。该系统甚至学会了一定程度的遮挡不变性；通过整合物体可见部分的信息，你的大脑可以推断出整体的存在，只要关键的、诊断性的特征没有被隐藏。

深入了解其内部机制

这个功能层级不仅仅是一个抽象的概念；它在生理上体现在大脑的解剖结构和生理机能中。

“流水线”不仅仅是一个比喻；它是一条真实的通路。信息通过一大束神经“电缆”——一个称为下纵束（ILF）的白质束——从枕叶流向颞叶。这是腹侧通路的解剖学主干，是连接不同处理阶段的物理高速公路。

再进一步放大，即使是皮层的微观结构也反映了这种层级流动。新皮层具有特征性的六层结构。在感觉层级中，前馈连接——信号“向上”流，如从V4到IT——倾向于终止于中间的第四层。反馈连接——信号“向下”流——倾向于起源于深层（第五和第六层），并终止于较低区域的浅层和深层。IT皮层的解剖结构本身，其接收来自V4输入的相对较薄的第四层，证实了它作为一个高级联合区的地位，这与初级感觉皮层不同，后者有厚得多的第四层以接收来自丘脑的原始输入。

而这整个过程的发生速度惊人。如果我们将从V1到IT的旅程建模为一系列四个不同的皮层-皮层中继（例如，V1→V2, V2→V4, V4→后部IT, pIT→前部IT），并假设每次跳跃的突触传递延迟约为 $3\,\mathrm{ms}$ ，那么总的突触延迟将仅为 $4 \times 3\,\mathrm{ms} = 12\,\mathrm{ms}$ 。然而，我们从记录中知道，代表物体身份的第一批信号在刺激出现后大约 $80$ 到 $100\,\mathrm{ms}$ 到达IT皮层。那段“缺失”的时间证明了真实的计算正在发生。它被从眼睛到V1的初始旅程、信号沿轴突“导线”传播所需的时间，以及最重要的是，在结果传递之前在每个皮层区域内发生的处理所占据。

这种生物学设计已被证明是如此强大，以至于它启发了人工智能领域的领先模型。在图像识别方面表现出色的深度卷积神经网络（DCNNs），正是建立在完全相同的原则之上：一个由局部卷积（如感受野）组成的层级结构，其后是逐步构建更复杂和不变的特征表征的非线性和池化操作。

一个专业化且不断学习的大脑

腹侧通路并非单一、统一的物体识别器。就像一个拥有专业化区域的城市一样，它包含了一些区域，这些区域成为了对我们生存或专业知识特别重要的物体类别的专家。其中最著名的是：

梭状回面孔区（FFA），它优先对面孔做出反应，并对其特定配置高度敏感。
海马旁回场景区（PPA），它调整以适应场景的空间布局，如风景或房间。
外侧枕叶（LO）区，它是一个更通用的形状专家，对物体的结构做出反应，而不管其表面纹理或光照如何[@problem_-id:5013715]。

此外，这个复杂的机制不是静态的；它不断被经验所塑造。这种可塑性以非陈述性记忆的形式表现出来——这种学习是内隐的，无需有意识的努力。当你第二次看到一个物体时，你会更快地认出它。这就是启动效应，它在IT皮层中有一个神经标志，称为重复抑制：编码该物体的神经元群体在第二次观看时反应更高效、更稀疏。通过持续练习，如在知觉学习中，你可以成为分辨非常相似事物的专家（比如放射科医生看X光片）。这对应于像V4这样的区域中的表征锐化，其中相关神经元的调谐变得更窄、更精确。大脑在物理上精炼其“流水线”，以更好地处理它反复面对的任务。

一个理解框架

为了将所有这些思想联系在一起，伟大的视觉科学家 David Marr 提出了一个强大的框架来理解任何复杂的信息处理系统。他认为，我们需要在三个不同的层面上理解它：

计算层面： 系统的目标是什么？它在解决什么问题？对于腹侧通路来说，目标是不变性物体识别。
算法层面： 策略是什么？为实现目标使用了哪些表征和过程？对于腹侧通路来说，算法是特征提取和池化的层级级联。
实现层面： 算法是如何物理实现的？实现是大脑皮层的神经元、突触和白质束。

一个DCNN是一个算法层面的假设。保护ILF的神经外科医生是在实现层面工作。患有失认症的病人揭示了计算层面的失败。通过从这些不同的视角——从它解决的宏大计算问题到解决它的微观硬件——来审视腹侧通路，我们开始欣赏到大脑最卓越的创造之一的真正美丽和统一性。

应用与跨学科联系

既然我们已经走过了腹侧视觉通路——大脑精湛的“内容”通路——的复杂机制之旅，我们可能会倾向于将其归档为一件美丽但专门化的生物工程作品。但这样做将是只见树木，不见森林。我们所揭示的原理并不仅限于物体识别这个安静的世界。它们是一条统一的线索，贯穿于临床神经病学、精神病学、发展心理学，甚至人工智能的前沿领域。要真正欣赏腹侧通路，我们必须看到它的实际作用，不仅在于其优雅的设计，还在于其对人类体验深刻乃至惊人的影响。

临床中的“双流记”

也许对腹侧通路功能最生动的说明，并非来自它做了什么，而是当它的伙伴——背侧“位置/方式”通路——失灵时，还剩下什么。想象一位中风后的病人，给他看一个简单的咖啡杯。当被要求描述它时，他的报告完美无瑕：“这是一个蓝色的咖啡杯。”他能读出上面写的字。他的腹侧通路工作完美，传递出关于物体身份的丰富而完整的知觉。但现在，让他拿起它。一种奇怪而令人沮VERB的笨拙出现了。他的手没有预先塑造成杯柄的形状；他的伸手方向不准，动作笨拙。这种被称为视动性共济失调的病症，是一种鲜明的分离。关于那里“是什么”的知识完好无损，但使用视觉来引导朝向它“在哪里”的行动的能力却丧失了。就好像世界变成了一个无法触摸的展品的博物馆。这幅临床图景为腹侧通路提供了一幅强有力的“留白”肖像，在背侧通路失灵的背景下，其功能显得格外明亮。

但如果腹侧通路本身没有损坏，只是……过度活跃，会发生什么？我们倾向于从功能丧失的角度来思考脑损伤——无法看见、无法说话、无法记忆。然而，有时大脑的机制会失控，产生阳性现象。考虑一位患有颞叶癫痫的病人，其癫痫发作起源于腹侧通路的高级处理中心附近。在发作期间，他们不会失去视觉；相反，他们的世界突然充满了幻影。复杂的、彩色的形状旋转着出现。在没有面孔的地方出现了面孔的碎片。这些并非人们可能预期的、源于早期视觉皮层干扰的随机光斑。它们是成形的、复杂的幻觉，正是腹侧通路被构建来处理的东西。这是一个深刻的线索，表明这条通路不是一个被动的相机，而是我们知觉现实的一个主动生成器，能够从内部创造世界。

知觉、精神病学与自我

腹侧通路的影响超越了简单的识别，深入到我们现实感和自我感的核心。精神病学中一些最奇异和迷人的综合征，其根源在于这条通路的细微中断。

以令人困惑的卡普格拉综合征为例，这是一种病人变得完全相信一个亲人——配偶、父母、孩子——已被一个长相完全相同的冒名顶替者取代的病症。这样的信念是如何形成的呢？答案似乎在于一个双重失败。首先，存在知觉异常。神经精神病学证据表明，在这些病人中，腹侧通路正确地完成了其识别工作——那个人看起来和他们的配偶一模一样——但与边缘系统（大脑的情感核心）的一个关键连接被切断了。视觉感知到达时，没有了本应伴随而来的那种温暖的、熟悉的自主神经“辉光”。大脑面临一个悖论：“这看起来像我的妻子，但感觉不像我的妻子。”这个预测误差，即预期与观察到的情感价值之间的不匹配，是第一击。第二击是信念评估的失败，这通常与大脑额叶的功能障碍有关。一个健康的头脑可能会忽略这种奇怪的感觉，但在这些病人中，大脑抓住了一个绝望的解释来解决这个悖论：“她一定是个冒名顶替者。”这是一个令人不寒而栗的例子，说明了认知识别与其情感对应物分离如何能粉碎一个人的现实。

腹侧通路在精神疾病中的作用可能更为微妙。在躯体变形障碍（BDD）中，个体因对自己外貌上感知到的缺陷的执念而备受折磨。这并非无法识别面孔或物体的问题，而是如何感知它们的问题。研究表明，BDD与视觉系统中的一种处理偏差有关。他们的腹侧通路似乎被锁定在一种注重细节、高空间频率的模式中，而不是将面孔作为一个“格式塔”（整体）来看待。它就像一个放大镜，放大微小的瑕疵——一个毛孔、一个微小的不对称、一个轻微的斑点——而牺牲了整体的轮廓。这种知觉偏差，这种只见树木不见森林的倾向，成为了定义该障碍的检查和痛苦的强迫循环的种子。

心智与机器的构建基石

腹侧通路的原理是如此基础，以至于它们不仅塑造了我们的即时知觉，还成为其他认知能力的基础，并启发了我们最先进的技术。

我们的记忆不是抽象的数据点；它们是丰富的、多模态的体验。当你回忆起一个过去的事件时，你不仅记得事实；你还记得你看到了什么，你在哪里，以及你感觉如何。腹侧通路是“内容”成分的入口。关于物体身份的信息，经过腹侧通路处理后，流入内侧颞叶，特别是鼻周皮层。在那里，它与来自其他区域的关于“位置”的背景信息相遇。海马体的作用是作为一个主绑定器，将这些信息流编织成我们称之为情景记忆的单一、连贯的织锦。没有腹侧通路对场景中物体的初步分析，我们的记忆将是空洞的舞台布景，没有演员或道具。

这种用于物体识别的优雅生物学解决方案并没有被工程师和计算机科学家忽视。几十年来，制造一台能像人一样看的机器是一个难以实现的目标。当研究人员开始明确地复制大脑的架构时，突破到来了。深度卷积网络（DCN），现代计算机视觉背后的技术，本质上是腹侧视觉通路的一个模型。它的力量来自两个直接从皮层借鉴的简单而深刻的“归纳偏置”：局部性和权重共享。局部性，通过小型卷积核实现，模仿了视觉神经元的局部感受野。权重共享，即在整个图像上应用相同的特征检测器，是视觉特征平稳性的一个类似物——一条边无论出现在哪里，它都是一条边。这种直接转化自生物学原理的架构，最终让机器能够以人类水平的准确性识别物体。

我们如何能确定这些人工网络真的像大脑一样学习呢？我们可以观察它们“心智”的内部。通过使用一种优化技术，该技术实质上是询问网络中的一个单元它“想”看到什么——什么样的输入图像会最能激发它——我们可以将其偏好的刺激可视化。结果令人震惊。网络早期层级的单元变得对简单的东西如定向边缘和颜色具有选择性，就像V1中的神经元一样。中间层级的单元发展出对纹理和重复模式的偏好。而最深层级的单元则学会对复杂的物体部分做出反应：一只眼睛、一只狗的鼻子、一辆汽车的轮子。这种从简单特征到复杂组合的层级性复杂性构建，与生物腹侧通路的层级处理过程形成了惊人的平行。

当然，这个类比并不完美。我们必须以健康的科学怀疑态度来对待它。像脉冲卷积神经网络（SCNNs）这样更先进的模型试图通过使用脉冲进行通信来更加忠实于生物学。但即使在这里，我们也必须承认其局限性。DCN中的“权重共享”远比皮层中发现的任何东西都更僵化和完美。用于建立不变性的“池化”操作，是对真实神经元中发生的复杂树突和循环计算的粗略模拟。这些模型不是复制品；它们是强大的简化模型。它们抓住了基本原理，但省略了那些杂乱、复杂且可能很重要的生物学细节。

最终，腹侧视觉通路的故事是一个关于统一的故事。它是一个始于简单地命名一个杯子的概念，但其触角延伸至触及意识、记忆和精神疾病的最深层问题。它提醒我们，心智不是孤立模块的集合，而是一个整合的整体。它也作为一个美丽的证明，说明一个在大脑中发现的简单而优雅的想法，如何能激励我们去制造那些在某种程度上开始像我们一样看世界的机器。