try ai
科普
编辑
分享
反馈
  • 双眼视差

双眼视差

SciencePedia玻尔百科
核心要点
  • 大脑通过测量双眼视差(即物体在双眼视网膜上成像位置的微小差异)来计算深度。
  • 随机点立体图证明,大脑通过匹配原始模式来解决对应问题,而不是先识别物体。
  • 立体视觉在婴儿期的关键期内发育,需要双眼提供平衡且相关的输入,以正确连接视觉皮层。
  • 理解双眼视差对于诊断弱视等病症以及推动机器人手术和虚拟现实等技术的发展至关重要。

引言

我们对丰富三维世界的感知是人脑最卓越的成就之一。虽然我们生活在一个有深度的世界里,但投射到我们视网膜上的图像本质上是平面的。大脑从两个略有差异的二维图像中重建第三维度的能力,是一个称为立体视觉的过程,它依赖于一个基本线索:双眼视差。本文探讨了针对这一几何难题的精妙生物学解决方案,阐述了我们的视觉系统如何计算深度以及为何这一过程如此重要。我们将从立体视觉的基本原理出发,探讨其在现实世界中的意义,全面概述这一视觉感知的基石。

首先,“原理与机制”一章将揭示双眼视差的几何与神经基础,从对应问题的挑战到视觉皮层错综复杂的连接。然后,“应用与跨学科联系”一章将展示立体视觉在各个领域的深远影响,探讨其在弱视等临床病症中失常时会发生什么,它如何在医学和技术中得到利用,甚至它的缺失如何塑造了艺术史。

原理与机制

要真正领略我们三维世界的丰富性,我们必须首先明白,它是一个宏伟的构造,一个由双眼讲述给我们大脑的故事。世界本身有深度,但投射到我们视网膜上的图像却像照片一样平坦。立体视觉的魔力在于大脑如何像一位侦探大师,从这两条平面的线索中推导出第三维度。这段从平面图像到生动深度感知的旅程,是一个关于精巧几何、聪明计算和优雅神经结构的故事。

两个视点的几何学

为什么我们的双眼长在脸部前方?去问问兔子或马,它们可能会觉得这种排列很奇怪。它们的眼睛位于头部两侧,这赋予了它们全景视野,能时刻警惕来自任何方向的威胁。而像我们、猫头鹰和猫这样的捕食者,则牺牲了这种全景感知,以换取另一个奖赏:高保真度的深度知觉。原因很简单,也很几何。朝前的眼睛创造了一个广阔的视觉区域,能被双眼同时看到。这被称为​​双眼重叠区​​。

你可以亲身体验一下。在脸前不远处竖起一根手指,看着远处的墙壁。现在,先闭上左眼,再闭上右眼。注意你的手指相对于背景是如何左右跳动的。这种表观上的跳动就是问题的核心。因为你的双眼被一小段距离——瞳孔间距——隔开,所以每只眼睛都有一个略微不同的视角。你的手指在左视网膜上的成像位置与在右视网膜上的成像位置是不同的。这种视网膜位置上的差异被称为​​双眼视差​​。

这种视差并非随机的;它是由世界的几何结构决定的。比你正在注视的点(你的注视点)更近的物体,具有所谓的​​交叉视差​​,因为要看清它们,你的双眼需要更进一步地交叉。更远的物体则具有​​非交叉视差​​。大脑利用这种视差的大小和方向作为判断距离的有力线索。

这一线索最显著的组成部分是​​水平视差​​,即沿着连接双眼的水平轴的位移,这是我们深度知觉的主要来源。但还有一个更微妙的组成部分:​​垂直视差​​,即物体成像在垂直位置上的差异。对于一个位于我们正前方正中平面上的物体,且双眼对称会聚时,几何结构是完美平衡的,垂直视差为零。然而,一旦我们看向侧方的物体或倾斜的表面,微小但系统的垂直视差就会出现。水平视差告诉我们“有多远”,而这些垂直视差则提供了关于表面三维朝向和观看几何本身的关键信息。

大脑的巨大挑战:对应问题

知道视差的存在是一回事,而利用它则完全是另一回事。想象一下,你的大脑接收到两幅略有不同的图像。对于左眼图像中的任何一个特征——比如说,一个黑点——大脑如何知道右眼图像中的众多黑点中哪一个才是它真正的配对,即由空间中同一个物理点产生的那个?这就是​​立体对应问题​​,一个规模宏大的计算难题。错误的匹配将导致深度计算的严重失误,世界将呈现为一堆由错误深度构成的混乱杂烩。

很长一段时间里,人们认为大脑必须先在每幅图像中识别出物体——“这是左眼看到的一盏灯,这是右眼看到的同一盏灯”——然后再计算它们之间的视差。但在 20 世纪 60 年代,一位名叫 Bela Julesz 的视觉科学家设计出一种巧妙的工具,彻底颠覆了这一观念:​​随机点立体图 (RDS)​​。

一个 RDS 由两幅充满随机黑白点的图像组成。单眼观看时,每幅图像都是毫无意义的视觉噪声,就像老式未调谐的电视屏幕。没有可识别的物体、轮廓或形状。然而,这些图像并非完全随机。其中一幅是另一幅的副本,只是中央的一块点被水平移动了。当一个人用立体镜观看这两幅图像,使每只眼睛只看到其中一幅时,一个形状——比如一个正方形——就会神奇地以生动的 3D 效果跃然眼前。

这个演示是革命性的。它证明了大脑不需要在看到深度之前识别物体。相反,它在更基础的层面上解决对应问题,即匹配双眼之间的原始点阵模式。这意味着立体视觉不是一个高级认知过程,而是视觉本身早期且基础的一部分。大脑必定在使用内置的规则或约束,在数百万种可能性中找到正确的匹配。

神经机制:精妙的生物学解决方案

大脑的“硬件”是如何构建起来以完成这一非凡壮举的?答案在于一条极为精妙的神经通路,这是生物工程的杰作,它使来自双眼的信号保持分离但又完美对齐,为后续的比较做好准备。

这段旅程始于信号从视网膜沿视神经向下传递。在一个称为视交叉的十字路口,发生了一次部分分拣:来自每侧视网膜靠近鼻子那一半的信号交叉到大脑对侧,而来自颞侧(外侧)的信号则停留在同侧。结果是,左侧视野(由双眼的部分区域看到)被发送到大脑右半球,而右侧视野则被发送到左半球。

下一站是中脑的一个称为​​外侧膝状体 (LGN)​​ 的中继站。在这里,大自然保存信息的解决方案得到了充分展示。LGN 不是一个简单的混合容器;它是一个精美的分层结构,就像一本六页的书。来自左眼的信息被写入,比如说,第 1、4、6 页,而来自右眼的信息则被写入第 2、3、5 页。至关重要的是,每一页上的视觉世界地图都与所有其他页上的地图完美对齐。如果你用一根针垂直穿过这本书,它会穿过每一页上对应于视觉空间中完全相同位置的点。这种结构巧妙地将来自双眼的信号严格分开,同时保持了完美的点对点配准。

从 LGN 出发,这些平行的、已配准的信号传到大脑后部的​​初级视觉皮层 (V1)​​。在这里,这些信息流首次汇合。来自 LGN “左眼层”和“右眼层”的输入,以交替相邻的斑块形式到达一个称为 4C 的皮层层,形成一种名为​​眼优势柱​​的模式。现在,V1 不同层(比如第 3 层)的一个神经元终于可以同时监听两个通道。它可以发出连接,从一个左眼柱和一个相邻的右眼柱接收输入。

这个神经元是通路中第一个真正的​​双眼神经元​​。它是一个视差探测器。如果它从左眼和右眼柱的输入中同时接收到强烈的信号,它就会剧烈放电。精确的连接方式决定了神经元的偏好。如果它连接到两个柱中具有轻微水平偏移的点,它就会对特定的双眼视差产生最强烈的反应。皮层中充满了数百万个这样的神经元,每个神经元都对不同的视差进行调谐,形成一个丰富的神经编码,代表了视野中每一点的深度。

生活在三维世界:限制与技巧

这个复杂的系统并非没有限制。然而,这些限制并非缺陷;它们是使系统在真实世界中导航时既稳健又高效的特性。

一个基本的限制由​​潘诺融合区​​定义。你不能融合任意一对图像。在你的注视点周围有一个小的视差区域,大脑可以在这个区域内成功地将两个视网膜图像融合成一个单一、连贯的知觉。如果一个物体的视差太大——即落在了潘诺融合区之外——大脑就无法再融合图像,你就会经历复视,或称​​diplopia​​。这个融合区起着缓冲作用,确保即使在我们的双眼没有完全对齐时也能有稳定、单一的视觉。有趣的是,这个区域在整个视网膜上并非恒定。它在中央凹处非常小,允许进行高精度的深度判断,而在周边区域则变大,优先考虑融合而非精度。我们能检测到的最精细视差被称为我们的​​立体视敏度​​,这个度量通常以角秒为单位报告,并在临床环境中用于测试立体视觉。

另一个更微妙的限制是​​视差梯度限制​​。重要的不仅是一个点的绝对视差,还有视差在整个视野中变化的速度。如果你看一个离你倾斜度过大的表面,视差会从近边缘到远边缘迅速变化。如果这个视差“梯度”变得太陡,视觉系统就会放弃融合,立体知觉就会崩溃。这个限制是大脑用来解决对应问题的另一个巧妙技巧;它有效地排除了那些可能意味着物理上不合理的表面结构的潜在匹配,比如图像中两个点紧挨在一起,但深度却相差悬殊。

构建双眼大脑:经验的作用

我们所描述的这种不可思议的感知和神经机制是与生俱来、完全成型的天赋吗?通过里程碑式的实验发现,答案是响亮的“不”。虽然基本的解剖框架是由我们的基因奠定的,但它需要通过视觉经验进行一段时期的调整和校准,才能完全发挥功能。

这个至关重要的时间窗口,主要在婴儿早期,被称为双眼发育的​​敏感期​​。在此期间,大脑的回路具有高度可塑性,并被其接收的信号所塑造。“共同放电的神经元会连接在一起”的赫布原则至高无上。为了让 V1 中的双眼神经元正常发育,它们需要从双眼接收相关的信号——即源自世界上相同物体的信号 [@problem_-id:4657440]。

在敏感期内对动物模型进行的​​单眼剥夺​​经典实验揭示了这种平衡经验的深远重要性。如果一只眼睛被遮盖,其输入将不再与睁开的眼睛相关。在皮层中产生的后果是戏剧性的:来自被剥夺眼睛的突触会萎缩,而睁开的眼睛则接管其皮层区域。双眼神经元的数量骤减,动物长大后会永久性地丧失立体视觉能力。

因此,我们感知丰富、稳定、三维世界的能力,并不仅仅是拥有两只朝前眼睛的结果。它是一种主动技能,由我们的大脑在生命最初的数月和数年里学习而来,是一种由两个视点的简单几何学构建、并由观看这一行为本身所雕琢而成的宏伟感知能力。

应用与跨学科联系

现在我们已经剖析了双眼视觉这一精美机制,审视了其几何基础和赋予其生命的复杂神经回路,我们可能会问一个简单的问题:这一切都是为了什么?事实证明,理解我们的大脑如何从两张平面图像计算出深度,并不仅仅是学术上的好奇。它是一把钥匙,能为我们解锁医学、外科、技术乃至我们如何学会表现世界的历史等领域的深刻见解。这段从视网膜到心智的旅程,对于治愈身体、构建新现实、欣赏自然与艺术的天才之作都具有直接而实际的意义。

脆弱的结构:当立体视觉失常时

看见深度的能力是神经计算的宏伟成就,但支撑它的结构却惊人地脆弱,尤其是在童年时期。大脑并非生来就拥有完全成型的立体视觉系统;它通过实践来学会看深度。在生命早期的“关键期”,视觉皮层根据接收到的信号进行自我连接。为了让双眼神经元正常发育,它们必须从双眼接收清晰、平衡且相关的信息。如果这种微妙的对话被中断,后果可能是深远且永久的。

想象一个患有屈光参差的小孩,他的一只眼睛比另一只眼睛的焦距不准。大脑从一只眼睛接收到清晰的图像,而从另一只眼睛接收到模糊的图像。这些输入是不相关的——它们无法匹配。大脑遵循“用进废退”的残酷原则(根植于赫布可塑性),开始削弱来自模糊眼睛的连接。随着时间的推移,专门用于那只眼睛的皮层区域会缩小,而计算视差的双眼神经元数量也会锐减。大脑甚至会发展出一种称为抑制的主动抑制过程,以完全忽略“坏”的输入。一旦关键期结束,这种异常的连接就会被巩固下来,被大脑抑制回路的成熟所锁定。结果就是弱视(或称“懒惰眼”),在这种情况下,一个人可能有一只生理上健康的眼睛,但就是看不清楚,更重要的是,无法参与立体视觉。

这个发育过程揭示了为什么及早发现双眼视觉问题至关重要。一个孩子在分开测试时,每只眼睛可能都有完美的 20/20 视力,但在三维空间中却是功能性失明。他们可能有一个微小到几乎无法察觉的眼位偏斜(微斜视),这会产生一个小的中央抑制区以避免复视。表面上看,一切正常。但是一个简单的随机点立体图筛查测试,除了双眼视差外不包含任何其他深度线索,可以立即暴露问题。一个无法看到图中隐藏形状的孩子,表明其双眼系统没有正常工作,这提示需要在大脑仍然具有足够的可塑性可以被重新布线时进行干预。

此外,理解这种病理生理学解释了治疗弱视时一个常见的难题。一个标准的治疗方法是遮盖“好”眼睛,迫使大脑使用“懒惰”的那只。这通常可以改善弱视眼的单眼视力。但值得注意的是,视力的改善并不能保证立体视觉的恢复。病人可能能够阅读视力表,但他们仍然将世界看作是平面的。这是因为遮盖加强了单眼通路,但对解决核心问题毫无帮助:破碎的双眼系统和根深蒂固的抑制习惯。恢复立体视觉需要能够迫使双眼协同工作的疗法,重新建立平衡的沟通,并引导双眼神经元恢复活力。来自视差的感觉输入也是帮助运动系统保持双眼对齐的关键“锁”。当一只眼睛的视力永久性变差时,这个融合锁就会被打破,双眼常常会分开漂移,这种情况被称为感觉性外斜视,生动地说明了“看”与“瞄准”之间持续、主动的伙伴关系。

外科医生的第三只眼:扩展人类感知

双眼视差的力量不仅在其丧失时显而易见,在其被刻意利用时也同样如此。在医学上,准确感知深度的能力可能关系到一次成功的诊断和一次错失的机会,或是一次干净的切口和一次关键的失误。

考虑一位医生检查病人眼后部,即眼底。使用传统的直接检眼镜,医生用一只眼睛通过一个小窥孔观察。这提供了一个放大的、但本质上是平面的二维视图。他们可以看到表面的特征,如出血或异常血管。但如果他们怀疑病人的脑内压力增高呢?这种情况称为视乳头水肿,会导致视神经头肿胀并向前凸出。用单眼视图准确判断这种肿胀的三维隆起是不可能的。医生必须换用能提供立体视觉的工具,比如双目间接检眼镜。通过从略微不同的角度用双眼观察眼底,医生的大脑可以立即计算视差,感知到肿胀神经的真实三维轮廓,从而确认一个可能挽救病人生命的诊断。

这一原理在手术室中得到了极大的扩展。几十年来,进行微创“锁孔”手术的外科医生都在一个不利条件下工作:他们在二维电视屏幕上观看手术区域。他们实际上是闭着一只眼睛在操作。他们必须依赖单眼线索,比如器械投下的阴影或移动摄像头产生运动视差,来判断深度。这既缓慢,又对认知要求高,且不精确。

立体视觉(3D)腹腔镜和机器人手术的出现改变了一切。通过使用带有两个摄像头“眼睛”的内窥镜,这些系统向外科医生的每只眼睛呈现一个单独的视图,从而恢复了双眼视差。突然间,外科医生可以以真实的深度感知来观察他们正在工作的空间。这不仅仅是一个小小的改进。正如知觉心理学的研究所示,大脑是一个最佳估计器。它结合所有可用的深度线索——视差、运动、阴影——以形成最可靠的判断。加入双眼视差这个强大而精确的线索,极大地减少了深度估计的不确定性,从而使动作更快、更自信、更准确。对于一个在身体深处穿针引线于微小脆弱血管的外科医生来说,这种恢复的深度感简直是革命性的。

机器中的幽灵:虚拟世界中的立体视觉

随着我们用虚拟现实和增强现实(VR 和 AR)推动技术边界,我们再次被提醒我们自身生物学的基本规则。立体头戴式显示器是围绕双眼视差的原理设计的。它们通过向每只眼睛输送略微不同的图像来创造引人入胜的 3D 世界,就像在机器人手术中一样。这些系统可用于极具价值的应用,从在虚拟病人身上训练外科医生到帮助人们在受控环境中克服恐惧症。

然而,这里有一个陷阱——机器中的幽灵。在现实世界中,两个动作是密不可分的:当你看着一个物体时,你的眼睛会向内旋转以对准它(视轴辐合),你眼中的晶状体也会改变形状以聚焦于它(调节)。这两个反应由神经回路紧密耦合。看近处的东西时,你的眼睛会同时为“近”进行辐合和调节。看远处时,它们会同时为“远”进行散开和调节。

目前大多数 VR 显示器打破了这种古老的联系。虚拟物体可能被渲染出视差,告诉你的视轴辐合系统将眼睛指向一个模拟的距离,比如说半米。但是显示器本身有一个固定的光学屏幕,可能焦距在两米。所以,你的调节系统被告知要聚焦在一个两米远的平面屏幕上。你的大脑接收到两个矛盾的命令:“向近处辐合”和“向远处聚焦”。这就是所谓的辐合-调节冲突 (VAC)。长时间强迫你的大脑对抗自身的反射会导致视觉疲劳、眼睛疲劳和头痛。这种冲突是使 VR 成为真正舒适、可长期使用的界面的主要障碍,它提醒我们,无论我们的技术变得多么复杂,最终都必须尊重我们神经系统来之不易的逻辑。

视觉的复兴:艺术、科学与单眼线索

我们的探索表明,双眼视差对于我们感知一个坚实的三维世界是多么核心。这就提出了一个有趣的问题:如果立体视觉如此重要,那么文艺复兴时期的伟大艺术家——例如,在 Titian 圈子里工作的艺术家们——是如何在完全平坦的画布或木刻上创造出如此惊人逼真的 3D 空间描绘的?Andreas Vesalius 于1543年出版的开创性解剖学图谱《De humani corporis fabrica》又如何能以如此强烈的体量感传达人体复杂、重叠的形态?

答案为我们大脑的灵活性提供了最后的美好见解。Vesalius 的插图画家无法为观众提供双眼视差;这个线索在印刷页面上丢失了。因此,他们成为了视觉系统可用的所有其他深度线索——即单眼线索——的大师。通过精湛地运用明暗对照法(chiaroscuro,即光与影的运用),他们为大脑提供了重建肌肉曲度所需的阴影信息。运用线性透视和短缩法,他们模仿了三维世界到二维平面的几何投影,告诉大脑哪些部分更远。通过投射阴影和遮挡,他们明确定义了不同器官之间的空间关系。

这些并不仅仅是“艺术性”的修饰。它们是对知觉心理学原理的系统性、科学性应用,比这个领域存在早了几个世纪。这些艺术家为观众的大脑提供了一个丰富的数据集,而大脑作为卓越的推理引擎,利用这些数据构建了一个生动的 3D 模型。在某种程度上,双眼视差的缺失迫使所有其他线索达到了完美的境地。这种历史联系揭示了我们视觉系统的全部天才之处:双眼视差是我们看深度的最有力工具,但它并非我们唯一的工具。大脑是一个务实的投机者,它会利用任何能得到的信息来解决感知三维世界这个宏大的难题。