视觉皮层

玻尔百科

定义

视觉皮层是大脑中负责处理视觉信息的区域，通过将外部世界映射到神经资源的层级结构来发挥作用。该系统分为用于识别物体的腹侧流和用于引导动作的背侧流，其结构和功能在早期发育阶段具有显著的神经可塑性。视觉皮层的组织原理直接启发了现代人工智能领域中卷积神经网络的架构设计。

核心要点

初级视觉皮层（V1）创建了一个精确但扭曲的视觉世界“视网膜拓扑图”，通过皮层放大效应将大量神经资源投入到中央视觉。
视觉信息分流进入用于物体识别的腹侧“内容”通路和用于指导行动的背侧“位置/方式”通路，这一概念被称为双通路假说。
视觉皮层并非一成不变；它表现出神经可塑性，这意味着其结构和功能深受经验的塑造，尤其是在早期发展的关键期。
弱视、视动性共济失调和盲视等障碍揭示了大脑中用于视觉、行动和有意识感知的不同系统。
视觉皮层的层次化组织直接启发了现代人工智能的架构，特别是卷积神经网络（CNNs）。

引言

视觉行为，一个我们在清醒的每一刻都毫不费力地进行的过程，是大脑最复杂和最卓越的成就之一。看见世界的不是我们的眼睛，而是位于我们头后部一个巨大而复杂的脑区：视觉皮层。这片神经区域将简单的光能转化为我们所感知的丰富、详细且有意义的世界。但这片生物组织是如何解构一个场景、识别物体并指导我们与世界互动的呢？支配其复杂布线和惊人适应性的基本规则又是什么？

本文深入探讨视觉皮层的核心原理，旨在连接基础神经科学与其深远影响之间的鸿沟。我们将探索大脑内部的视觉世界地图，区分物体“是什么”与“在哪里”的专门通路，以及让皮层得以学习和适应的被称为可塑性的强大能力。首先，在“原理与机制”一章中，我们将揭示视觉的解剖学和计算基础。然后，在“应用与跨学科联系”一章中，我们将看到这些原理如何为临床神经学、发展心理学乃至人工智能的设计提供深刻的见解。

原理与机制

视觉的画布：大脑中的地图集

要理解我们如何看见，我们必须首先知道我们在何处看见。虽然我们的眼睛捕捉光线，但视觉行为是一个创造性的过程，它在大脑内部展开，特别是在我们头后部一个称为视觉皮层的区域。视觉信号的旅程就像一封到达宏伟中央车站的信件。在丘脑中一个名为外侧膝状体（LGN）的中继站短暂停留后，信息隆重进入初级视觉皮层，其历史名称为Brodmann 17区（V1）。

如果你观察大脑半球的内表面，你会发现V1区坐落在一个名为距状沟的深层褶皱的两岸。但真正使这片脑组织与众不同的是一个肉眼可见的显著特征：一条贯穿皮层灰质中部的淡白色条纹。这就是Gennari氏纹。几个世纪以来，解剖学家们看到了这条线，但其意义一直是个谜。我们现在知道，这条纹路正是视觉信号抵达皮层的物理证据。它是一条由有髓神经纤维——即从LGN传递信号的轴突——组成的极其密集的带，这些纤维已经深入到皮层六层结构中的第四层。由于这条显著的条纹，V1区被独特地称为纹状皮层。

这个皮层区域并非神经元的随机堆砌，而是以惊人的精确度组织起来的。外部世界投射到我们视网膜上的空间排列，在一个视网膜拓扑图中被一丝不苟地保留了下来。你视野中的相邻点会激活V1区中的相邻神经元。这种组织形式是一种拓扑图，即大脑保留感觉表面空间布局的原理，就像制图师在纸上保留大陆的地理信息一样。这种映射非常精确，以至于你所见的世界上半部分在距状沟的下岸处理，而世界的下半部分则在其上岸处理，这是眼球晶状体反转图像的直接结果。

但这张地图并非忠实、按比例的复制品，而是经过了奇妙的扭曲。大量的皮层“不动产”被专门用于我们视觉的最中心——中央凹，而周边区域所占的比例则逐渐减少。这一原理被称为皮层放大效应。你可以把它想象成一幅城市地图，其中拥有密集街道和重要地标的市中心被以巨大的比例绘制，而广阔的郊区则被挤压在边缘。其数学关系优雅而简单：线性皮层放大因子 $M(e)$ ，衡量一度视野占据多少毫米皮层，与离中央凹的距离（离心率 $e$ ）成反比。一个常见的模型将其表示为 $M(e) = \frac{k}{e + e_0}$ ，其中 $k$ 和 $e_0$ 是常数。这样做的后果是深远的：神经资源的这种不均衡分配，正是我们中央视觉如此清晰锐利，能让我们阅读细小文字或在人群中认出朋友面孔的原因，而我们的周边视觉则更擅长探测运动而非辨别细节。

第一笔：解读线条与边缘

这张组织精美的地图并非一张被动的照片，而是一个动态的计算表面，真正的视觉过程由此开始。在很长一段时间里，我们曾以为视觉皮层中的神经元可能只是对光点作出反应，很像视网膜中的细胞。然而，David Hubel 和 Torsten Wiesel 在一系列获得诺贝尔奖的实验中做出了革命性的发现：V1区的神经元使用一种完全不同的语言。

通过精细记录麻醉猫皮层中单个神经元的活动，他们发现有些细胞对光点完全不为所动。但是，在一个偶然的时刻，他们发现这些神经元会对一条光带产生剧烈放电，并且只有当这条光带具有非常特定的方向时——比如垂直，而不是水平或倾斜——才会如此。他们发现了方向选择性神经元。

这是第一个线索，表明皮层开始将视觉场景分解为其基本组成部分：线条和边缘。这一特性的关键在于神经元感受野的结构——即它所“倾听”的视觉世界的特定区域。与视网膜和LGN中简单的圆形“中心-周边”感受野不同，这些V1区的简单细胞具有拉长的感受野，并被划分为独特的“ON”（兴奋性）和“OFF”（抑制性）子区域。一条与长条形中央ON区完美对齐的垂直光带会使细胞疯狂放电。如果将同一条光带稍微移动，使其落入平行的OFF区域，细胞的活动则会被主动抑制。大脑不仅仅是在探测光线，它在进行计算，检测刺激与其偏好模板之间的匹配度。这是构建形态知觉的第一步，是视觉画布上的第一笔计算性描绘。

通往知觉的两条路径：“内容”与“位置/方式”通路

在V1区及其邻近区域（V2和V3）进行初步处理，提取了方向、颜色和运动等特征之后，视觉信息并不会进入一个单一的主处理中心。相反，它著名地分流，流入两条主要的处理高速公路，或称通路，以支持视觉的根本不同方面。这就是著名的双通路假说。

第一条是腹侧通路，向下延伸至颞叶。这是“内容”通路，负责识别物体、面孔和场景。当信息沿此通路流动，经过对处理形状和颜色至关重要的V4区，并进入下颞叶皮层时，神经元会对越来越复杂和特定的物体作出反应。在此通路深处，比如在梭状回这样的区域，你会发现对人脸有选择性反应的神经元。这条由一束名为下纵束（ILF）的巨大白质纤维束支持的通路，让你能够认出朋友、阅读书籍或识别花朵。这是一条识别的通路。

第二条是背侧通路，向上延伸至顶叶。这是“位置/方式”通路，负责空间、运动和指导我们的行动。它从像中颞区（MT或V5）这样的运动敏感区域接收强有力的输入，并投射到后顶叶皮层，包括顶内沟（IPS）。这条通路不太关心一个物体是什么，而更关心它在哪里、如何移动以及你如何与它互动。正是这条由上纵束（SLF）承载的通路，让你能够接住扔过来的球、在拥挤的房间里穿行而不撞到人，或者伸手拿起你的咖啡杯。这是一条行动的通路。这种优雅的劳动分工使大脑能够同时知道它在看什么，以及如何与其空间环境互动。

活的雕塑：可塑性的力量

这个复杂的处理架构似乎是工程学的杰作。但或许更引人注目的是，它并非根据固定的蓝图建造而成，而是一座活的雕塑，由经验本身雕琢和完善。这种改变的能力被称为神经可塑性。

这一点在先天失明者的案例中得到了最戏剧性的说明。在早期发育过程中，大脑是竞争的温床。来自不同感觉系统的轴突都在争夺皮层领地。在正常发育的大脑中，来自眼睛的持续、模式化的输入确保了视觉皮层为视觉而布线。但如果在脑部形成的关键年份——一个关键期——缺乏这种输入，这场竞争就会有不同的结果。来自其他感觉（如触觉）的投射，本应被修剪掉，反而能够侵入并占领“未被占用”的视觉皮层。结果是，当一个先天失明的人用指尖阅读盲文时，他们的视觉皮层会变得活跃。这不是假象，而是一种功能性接管。在被剥夺了预期输入后，皮层为一项新任务重新调整了自身用途。

关键窗口这一概念对于理解大脑发育和诸如弱视（“懒惰眼”）等障碍至关重要。可塑性并非一种全有或全无的现象。似乎存在一个早期且强烈的关键期，在人类中大约持续到生命的前两年，在此期间，视觉经验（或其缺乏）可以导致视觉皮层布线发生深刻且不可逆的解剖学变化，例如分配给每只眼睛输入的区域大小。之后是一个更长的敏感期，延伸至大约7或8岁，在此期间，大脑仍然具有足够的可塑性，可以通过治疗（如遮盖好眼）来恢复功能，即使底层的解剖学框架已不那么容易改变。

这种非凡适应性背后的机制是什么？在细胞层面，神经元在不断地自我调整。一个优雅的原理是稳态突触缩放。想象一个在完全黑暗中长大的动物的视觉皮层中的神经元。由于其输入变得沉寂，该神经元的活动水平骤降。为了抵消这一点，神经元会努力维持其偏好的基线放电率。它通过上调其所有兴奋性突触的强度来实现这一点，实际上是调高所有输入的音量，以便更好地听到残留的微弱信号。这个过程是乘法性的，保留了其连接的相对重要性，并由像TNF-alpha这样的信号分子协调。相反，突触也可以通过长时程抑制（LTD）等过程被选择性地削弱，而实现这一点的精确分子配方可以被神经调节剂微调和门控，甚至在不同脑区之间也有所不同。

从视觉世界的宏观地图到突触的分子之舞，视觉皮层不仅仅是信息的处理器。它是一个动态的、自组织的系统，完美地展示了神经计算、组织和适应的原理。它是大自然创造一个既结构精巧又对其所遇世界有深刻响应能力的系统的证明。

应用与跨学科联系

要真正欣赏视觉皮层，我们不能满足于仅仅像植物学家将花朵压入书中那样，绘制其结构并分类其神经元。我们必须看到它在行动。我们必须将其理解为一个动态的、活生生的工具，它解决着各种各样的问题，而不是一个静态的物体。当我们开始追问它做什么以及它是如何变成这样时，我们发现自己正踏上一场穿越其他科学领域的宏大旅程——从神经学家的诊所到工程师的实验室，从发育的摇篮到广阔的进化时间尺度。我们在前一章揭示的原理并非抽象的好奇之物；它们是解开医学、心理学乃至哲学中谜题的钥匙。

作为临床侦探的皮层

如果你是一名侦探，而大脑是你的城市，那么视觉皮层就是一个将其街道上印有整个世界地图的区域。你视野中的每一点都对应着这张皮层地图上的一个精确位置。这绝非纯粹的学术事实；对神经学家来说，它是一个强大的法医工具。当病人中风时，他们失明的模式就成了一组线索，可以以惊人的准确性确定损伤的确切位置。

考虑一位突然失去右半边视野的病人。视交叉后方通路上的任何一处病变都可能是罪魁祸首。但一位技术娴熟的临床医生可以进一步缩小范围。视野缺损是否“幸免”了他们注视的最中心区域？许多损伤视觉皮层的中风确实如此，因为负责看世界中心的皮层部分——枕极——通常从另一条动脉获得备用血液供应。这是一种内置的冗余。但如果失明锐利地穿过中心，这种情况被称为“黄斑分裂”，那就说明了不同的情况。这意味着病变位置如此精确或广泛，以至于尽管有这种双重供应，它还是摧毁了黄斑本身的表征。这种“幸免”与“分裂”之间的细微差别，将诊断从猜测转变为推论，这一切都归功于大脑美丽而可预测的组织结构。

我们不仅能绘制损伤的位置，还能测量思想的速度。想象一下，沿着一根长电线发送一个信号，并计时回声返回需要多长时间。我们完全可以用视觉通路做到这一点。临床医生使用一种名为视觉诱发电位（VEP）的技术，在病人眼前闪烁棋盘格图案，同时记录他们枕叶上方头皮的电活动。在健康的大脑中，一个巨大的正向电波，被称为P100，在闪光后约 $100$ 毫秒可靠地出现。这个波是视觉信号到达初级视觉皮层的宏大、同步的宣告。

现在，如果信号迟到了怎么办？在像多发性硬化症这样的疾病中，视神经周围的髓鞘绝缘层受损，减慢了电脉冲的速度。信号仍然能通过，但被延迟了。在VEP上，这表现为一个迟到的P100波——比如说，在 $130$ 毫秒时到达。这种对时间延迟的简单测量，为我们提供了一个强大的、非侵入性的窗口，来了解视觉通路的健康状况，使医生能够检测到其他方式无法看到的损伤。

有时，皮层复杂的布线本身也会成为其弱点。我们都知道闪光灯对癫痫患者有危险，但为什么呢？答案在于一个源于物理学的概念：共振。在丘脑和视觉皮层之间循环的回路有一个自然的节律，一个它们喜欢振荡的内在频率——通常在每秒 $8$ 到 $20$ 次循环（ $8–20\,\mathrm{Hz}$ ）的范围内。如果一个外部刺激，比如频闪灯，以接近这个自然共振的频率闪烁，它就可能将系统推入一种剧烈的、放大的振荡状态，就像一支军队以完美的步伐走过一座桥梁导致其坍塌一样。对于一个皮层过度兴奋的人——其神经元兴奋与抑制之间的微妙平衡被打破——这种共振放大可能会压倒大脑的防御机制，并引发一场全面的癫痫发作，其始发点就在枕叶。

活的、学习的皮层

视觉皮层不是一块固定的、不可改变的计算机芯片，在出生时安装好，终生运行相同的软件。它更像是一座活的雕塑，不断被经验塑造和重塑。这方面最引人注目的证据来自早期发育。婴儿并非生来就会看东西；其大脑必须学会看东西。这种学习发生在一个“关键期”，此时皮层对输入极其敏感。

如果在此期间，一只眼睛因白内障甚至只是一块简单的眼罩而被剥夺了清晰的视觉，其后果是深远的。眼睛本身保持完全健康，但这个人会在那只眼睛上永久失明。这种被称为弱视的状况，不是眼睛的疾病，而是大脑发育的疾病。发生了什么？在视觉皮层中，来自双眼的输入到达并为争夺领地展开激烈竞争。来自睁开眼睛的活跃、信息丰富的输入加强了它们的连接，而来自被剥夺眼睛的微弱、嘈杂的输入则被修剪掉。活跃的神经元 literalmente 征服了不活跃神经元的皮层领地。大脑以其智慧，决定拥有一只好眼睛比拥有两只令人困惑的眼睛更好。这个“用进废退”的原则是神经发育的基本法则，它强调了为什么尽早矫正儿童的视力问题如此重要。

这种可塑性并不仅仅在童年之后就停止了。你的视觉皮层此刻正在学习和适应。你是否曾注意到，在人群中识别一张熟悉的面孔比识别一张不熟悉的面孔快得多？这是一种被称为启动效应的非陈述性记忆。神经科学家在皮层中为此找到了一个有趣的对应物：重复抑制。当你的大脑第二次看到一个刺激时，代表它的视觉皮层神经元的放电实际上减少了。就好像大脑在说：“啊，我以前见过这个。我不需要那么费力了。”系统变得更有效率，用更少的能量编码相同的信息。

另一种学习是知觉学习——伴随练习而来的长期进步，就像放射科医生在X光片上发现肿瘤的能力越来越强一样。在这里，神经的变化是不同的。单个神经元的调谐曲线变得更尖锐、更狭窄。一个曾经对“大致垂直”的线条有广泛调谐的神经元，经过训练后，可能会成为一个对精确 $90$ 度线条有精细调谐的专家。这被称为表征锐化。大脑不仅仅是变得更快；它正在投入资源来为我们需要看清楚的事物建立一个更精确、高保真的表征。这些现象向我们展示，皮层不仅仅是一个被动的接收者，而是一个活跃的、终身学习者。

伟大的分离：分裂知觉、行动与意识

我们的直觉告诉我们，看是一个单一、统一的体验。我们看到一个咖啡杯，在那一瞬间，我们知道它是什么，它在哪里，以及如何去抓它。但大脑以其奇特的智慧，并不这样看。它进行了一次伟大的分离，将视觉世界分裂成两条并行的处理流。

一条流，即腹侧通路或“内容”通路，向下流入颞叶，负责物体识别。它是你大脑中看着杯子说“那是一个蓝色陶瓷杯”的部分。另一条流，即背侧通路或“位置/方式”通路，向上流入顶叶，负责空间感知和指导行动。它是计算杯子位置并告诉你的手如何塑形以抓住把手的部分。

通常，这两条通路完美和谐地工作。但罕见的脑损伤可以揭开这种分工的帷幕。在一种称为视动性共济失调的病症中，背侧通路受损的病人可以看着一个咖啡杯并完美地描述它，但当他们试图伸手去拿时，他们的手却胡乱挥舞，找不到目标或无法正确定位。他们知道它是什么，却不知道如何与它互动。这种惊人的分离揭示了大脑组织的一个深层原理：知觉和行动，虽然看似交织在一起，却由独立、分开的神经系统处理。视觉皮层不仅仅是为我们创造一幅世界图画供我们欣赏；它还为我们创造了一套行动指令，而这两者是截然不同的。一个简单的指令，如将你的目光从一个远处的标志转移到你附近的手指上，就启动了一个极其复杂的级联反应，始于视觉皮层中的模糊和视差信号，这些信号下传到中脑的指挥中心，然后协调“近反射三联征”：你的眼睛会聚、瞳孔收缩和晶状体调节。

这种分离甚至可以变得更奇怪。如果你能看到某物而没有意识到自己看到了它，会怎样？这就是盲视患者的现实。初级视觉皮层（ $V1$ ）的损伤会导致视野相应部分的有意识失明。病人会坚称他们在那里什么也看不见。然而，如果你在他们的盲区闪烁一个光点，并让他们“猜测”它在哪里，他们可以以惊人的准确性指向它。这怎么可能呢？原来，通过 $V1$ 的膝状体-纹状体通路是通往有意识视觉的主要道路，但它不是唯一的道路。一条更古老、更原始的通路——顶盖-丘脑枕通路——绕过了 $V1$ ，将信息从眼睛发送到中脑结构（如上丘），然后再到更高阶的皮层区域。这条通路是粗糙的，擅长检测运动和位置，但不擅长精细细节，并且至关重要的是，它的运作似乎不进入我们的有意识感知。盲视为我们提供了一个深刻的、甚至有些令人不安的启示：我们的有意识体验只是我们大脑所做事情的一部分。

从生物到硅基，再回归

视觉皮层的结构是如此优雅和有效，以至于它已成为一种新形式智能的蓝图。腹侧通路的层次化组织——早期区域检测边缘等简单特征，并逐渐组合形成后期区域中复杂物体的表征——直接启发了卷积神经网络（CNNs）的架构，这些AI模型为从自动驾驶汽车到医学图像分析的一切提供动力。

这种并行关系不止于此。工程师们发现，通过模仿发育生物学，他们可以更有效地训练这些网络。他们没有一次性向一个“新生”网络抛出一百万张复杂图像，而是采用了一种名为课程学习的策略。他们从向网络展示非常简单的图像开始——模糊、低频、完全居中——让网络的早期层学习稳定的“V1样”边缘检测器。然后，他们逐渐增加难度，引入更高频率以及如平移和旋转等变换。这使得更深的层能够建立在稳定的基础上，并学习“IT样”的不变物体表征。这种神经科学启发更好的AI，而AI又为大脑提供可测试模型的优美协同作用，正处于科学的前沿。

最后，让我们放大到可能的最大时间尺度：进化。我们为什么首先拥有如此庞大和复杂的视觉皮层？因为对灵长类动物来说，视觉是主导感觉。但并非必然如此。大脑是一种有限的资源；投资于一个系统通常是以牺牲另一个系统为代价的。想象一种适应了地下生活的哺乳动物。对这样的生物来说，视觉几乎无用，而嗅觉至关重要。在进化过程中，自然选择会偏爱那些将更多“神经领地”投入其嗅球的个体，即使其视觉皮层萎缩。现在想象它的一个表亲适应了水生生活，在水中嗅觉困难但视觉至关重要。在这里，情况会相反：视觉皮层会扩张和特化，而嗅觉系统则会退化。每个物种的大脑都是对其环境挑战的独特解决方案，是其进化历程的美丽记录，书写在其各部分相对大小之中。我们自己宏伟的视觉皮层也不例外。它不是一台抽象、完美的计算机，而是一台生物机械，经过数百万年的精妙适应，以帮助一种特定的灵长类动物在一个特定的世界中导航。