try ai
科普
编辑
分享
反馈
  • 复杂细胞

复杂细胞

SciencePedia玻尔百科
核心要点
  • 视觉皮层中的复杂细胞对刺激提供相位不变的响应,这与相位敏感的简单细胞不同,从而实现了稳定的知觉。
  • 能量模型解释了复杂细胞如何通过汇集一对正交的类简单细胞的平方输出来实现相位不变性。
  • 从简单细胞到复杂细胞的层级转换是大脑用于完成运动和深度知觉等任务的一项基本计算原理。
  • 这种层级处理和池化的生物学原理直接启发了人工智能领域中现代卷积神经网络(CNN)的架构。

引言

尽管视觉输入存在持续而细微的变化,但我们感知稳定世界的能力是神经工程学的一项了不起的成就。这种稳定性并非与生俱来,而是必须由我们的大脑主动构建。在这一过程的核心,即初级视皮层内,存在一种被称为复杂细胞的特殊神经元。这些细胞解决了一个关键问题:如何在不过分敏感于其精确位置的情况下识别一个特征,例如边缘或线条。本文深入探讨了大脑为构建这些稳健的特征检测器所采用的精妙计算策略。

首先,在“原理与机制”部分,我们将探讨区分复杂细胞与其更简单的对应物——相位敏感的简单细胞的基本概念。我们将剖析颇具影响力的“能量模型”,这是一个优美的数学理论,它解释了如何通过汇集输入来实现相位不变性。我们还将审视该模型如何解释其他响应特性,以及现代分析技术如何揭示出一个计算的连续谱,而非两个刻板的细胞类别。接下来,在“应用与跨学科联系”部分,我们将揭示这种从简单到复杂的转换所带来的深远影响。我们将看到大脑如何巧妙地复用这同一个计算“小工具”来感知运动和深度,并追溯其从皮层到计算机的传承,揭示其在现代人工智能发展中的基础性作用。

原理与机制

为理解世界,我们的大脑必须首先将撞击视网膜的光子洪流解构成有意义的东西。它在位于大脑后部的初级视皮层(V1)开始这项艰巨的任务,这里的神经元如同专门的侦探,每个都在视觉场景中寻找特定的线索。这些神经元工作方式的故事,优美地展示了生物学如何实现精妙而强大的数学思想。这是一段从简单、“挑剔”的检测器到复杂、稳健的特征分析器的旅程。

简单细胞:一个挑剔的特征检测器

想象一下,你正在设计一个视觉系统的第一阶段。一个好的起点是创造一个神经元,每当它“看到”特定方向的小条纹或边缘时就会发放冲动。这本质上就是一个​​简单细胞​​。每个简单细胞都有一个​​感受野​​,即它所关注的一小块视觉世界。在这块区域内,细胞的敏感性并非均匀一致;它有不同的亚区,光点在某些亚区会使其兴奋(​​ON​​亚区),而在另一些亚区则会抑制它(​​OFF​​亚区)。

我们可以将这个感受野想象成一个模板。神经元不断地将这个模板与投射到其感受野上的图像进行比较。用数学术语来说,神经元的响应是线性滤波操作的结果:它计算其感受野上光强度的加权总和,权重由其模板 w(x,y)w(x,y)w(x,y) 定义。对图像 I(x,y)I(x,y)I(x,y) 的响应 rrr 本质上是内积 r=∬w(x,y)I(x,y)dxdyr = \iint w(x,y) I(x,y) dx dyr=∬w(x,y)I(x,y)dxdy。

这种结构带来一个至关重要的后果:简单细胞对刺激的精确位置极其敏感。这被称为​​相位敏感性​​。想象一下用漂移的黑白条纹图案(正弦光栅)来测试一个简单细胞。当白色条纹与其ON亚区完美对齐时,细胞会剧烈发放冲动。但如果你将图案移动半个周期,使得白色条纹落在了OFF亚区,细胞就会沉寂下来。随着光栅的漂移,其响应会急剧调制,形成一种时断时续的发放与沉寂的节奏。简单细胞是一个挑剔的检测器;特征必须具有正确的方向和正确的位置。

不变性之谜:需要“复杂”的解决方案

这种挑剔性带来了一个问题。我们自身的知觉并非如此脆弱。我们能将一条垂直线识别为垂直线,无论它是在这里,还是偏左一发之差。一个仅由简单细胞构建的视觉系统会过于脆弱;每一次微小的眼球运动都可能让世界闪烁不定甚至消失。大脑需要一种方法来建立稳健性,创造一个能响应特定方向边缘但不太关心其精确位置的检测器。

​​复杂细胞​​应运而生。复杂细胞正是这样一种神经元,由 David Hubel 和 Torsten Wiesel 在其获得诺贝尔奖的研究中首次描述。与简单细胞一样,它也对特定方向敏感。但与简单细胞不同,它会对放置在其感受野内几乎任何位置的定向条纹做出持续的爆发性活动响应。它表现出​​相位不变性​​。如果我们向它展示那个让简单细胞时而发放冲动时而沉寂的漂移光栅,复杂细胞则会以一种稳定、增强的发放率做出响应,很大程度上忽略了光栅的相位。

大脑是如何构建这种不变性的?它是如何从一个挑剔的简单细胞发展到一个稳健的复杂细胞的?答案是层级处理的一个绝佳范例,即一层神经元整合前一层神经元的输入,以创造出一种新的、更强大的表征。

能量模型:一个精妙的技巧

关于复杂细胞如何实现相位不变性,最具影响力的思想是​​能量模型​​。想象一个复杂细胞不只接收一个简单细胞的输入,而是接收一小组简单细胞的输入。让我们从最简单的组合开始:两个简单细胞。这两个细胞调谐到完全相同的方向和位置,但它们的感受野在空间上相互偏移四分之一个周期。它们形成一个​​正交对​​,类似于数学中的余弦和正弦函数。

让我们回到光栅刺激,我们可以用相位 ϕ\phiϕ 来描述它。由于它们的感受野存在偏移,“余弦”简单细胞的响应幅度可能与 cos⁡(ϕ)\cos(\phi)cos(ϕ) 成正比,而“正弦”简单细胞的响应幅度则与 sin⁡(ϕ)\sin(\phi)sin(ϕ) 成正比。单独来看,两者仍然是完全相位敏感的。

奇妙之处在于:如果复杂细胞不是简单地将它们的响应相加,而是将它们响应的平方相加呢?那么输入到复杂细胞的总和将与以下成正比:

(Response1)2+(Response2)2∝cos⁡2(ϕ)+sin⁡2(ϕ)(\text{Response}_1)^2 + (\text{Response}_2)^2 \propto \cos^2(\phi) + \sin^2(\phi)(Response1​)2+(Response2​)2∝cos2(ϕ)+sin2(ϕ)

根据一个基本的三角恒等式,我们知道对于任何 ϕ\phiϕ 值,cos⁡2(ϕ)+sin⁡2(ϕ)=1\cos^2(\phi) + \sin^2(\phi) = 1cos2(ϕ)+sin2(ϕ)=1!相位 ϕ\phiϕ 从方程中完全消失了。复杂细胞的响应现在与刺激的精确位置无关。这种计算通常写作 R=se2+so2R = s_{\mathrm{e}}^{2} + s_{\mathrm{o}}^{2}R=se2​+so2​(其中 ses_ese​ 和 sos_oso​ 分别是偶对称和奇对称简单细胞的输出),是能量模型的核心。这个量之所以被称为“能量”,是因为它与物理学中简谐振子能量的公式相似。这是一个极其精妙的解决方案,用一个简单的数学规则创造出一种极其有用的神经计算。

构建稳健性:模型的泛化

这个核心思想可以被扩展,以创建更稳健、生物学上更合理的模型。

首先,不变性的概念可以从光栅的相位推广到任何刺激的位置。我们可以想象一个复杂细胞汇集的能量 (se2+so2)(s_{\mathrm{e}}^{2} + s_{\mathrm{o}}^{2})(se2​+so2​) 不仅来自一个位置,而是来自分布在一个小空间区域内的一整组简单细胞对。通过对许多不同位置的局部能量求和,复杂细胞的感受野变得比任何单个贡献给它的简单细胞的感受野都大,并且它能够容忍刺激在这个更大的区域内移动。正是这种汇集(pooling)赋予了复杂细胞特有的“宽容性”。

其次,我们必须考虑细胞的响应如何随刺激强度(即对比度)而变化。能量 se2+so2s_{\mathrm{e}}^{2} + s_{\mathrm{o}}^{2}se2​+so2​ 与输入对比度 CCC 的平方成正比。如果对比度加倍,能量则增加四倍 (C2C^2C2)。然而,大脑中许多神经元的响应或多或少与对比度成线性比例。能量模型为实现这种行为提供了一条简单的途径。如果复杂细胞的最终输出 RRR 不是能量本身,而是通过指数 β\betaβ 与之相关,如 R=(se2+so2)βR = (s_{\mathrm{e}}^{2} + s_{\mathrm{o}}^{2})^{\beta}R=(se2​+so2​)β,那么为了实现线性缩放(R∝CR \propto CR∝C),我们需要 CCC 的指数为 111。由于能量项与 C2C^2C2 成正比,我们需要 (C2)β=C2β(C^2)^{\beta} = C^{2\beta}(C2)β=C2β 与 C1C^1C1 成正比。这意味着 2β=12\beta = 12β=1,即 β=12\beta = \frac{1}{2}β=21​。换句话说,一个计算能量平方根的复杂细胞,其响应将与对比度成线性关系。

最后,虽然平方是能量模型的一个关键组成部分,但它不是构建复杂细胞的唯一方法。一种替代模型可以使用更简单的非线性,如​​整流​​,即细胞的输出仅为线性滤波器响应的正数部分(max⁡(0,input)\max(0, \text{input})max(0,input))。通过对两个整流后的正交对亚基的输出求和而构建的复杂细胞模型,同样可以实现高度的相位不变性,并且有趣的是,它从一开始就与对比度成线性关系。这提醒我们,生物学可能已经为同一个计算问题找到了多种同样有效的解决方案。然而,平方机制有一个特别强大的优势。真实的神经元需要以一种在不同光照条件下都保持稳定的方式对模式做出响应。这是通过​​除法归一化​​实现的,即一个神经元的响应被其局部邻域的总活动所除。如果我们比较一个基于平方的分子(Nsq=r12+r22N_{\mathrm{sq}} = r_{1}^{2} + r_{2}^{2}Nsq​=r12​+r22​)和一个基于绝对值的分子(Nabs=∣r1∣+∣r2∣N_{\mathrm{abs}} = |r_{1}| + |r_{2}|Nabs​=∣r1​∣+∣r2​∣),并用能量 E=r12+r22E = r_{1}^{2} + r_{2}^{2}E=r12​+r22​ 对两者进行归一化,我们会发现一个非凡的现象。平方模型的归一化响应 Rsq=Nsq/ER_{\mathrm{sq}} = N_{\mathrm{sq}}/ERsq​=Nsq​/E,总是 111。它对对比度的变化是完全不变的。而绝对值模型则不是。这为大脑偏好类似平方的非线性提供了深刻的计算理由。

现代综合:简单-复杂连续谱

历史上的描绘呈现了一个由简单和复杂两种截然不同的神经元类别组成的世界。但大自然真的如此井然有序吗?现代技术允许我们用更复杂的刺激,如随机的“白噪声”,来探测这些细胞,并用更复杂的数学方法分析结果,从而为我们提供一个更细致入微的视角。

这种方法包括计算​​发放触发平均(Spike-Triggered Average, STA)​​——即神经元发放冲动前刺激的平均值——以及​​发放触发协方差(Spike-Triggered Covariance, STC)​​,后者告诉我们引起神经元发放冲动的刺激的方差信息。

对于一个典型的简单细胞,其发放由单个线性滤波器决定,STA 将完美地重现该滤波器感受野的形状。该细胞的功能由单个一维特征来描述。

对于一个典型的能量模型复杂细胞,情况则有所不同。因为它的响应取决于滤波器输出的平方,所以它对暗背景上的亮条和亮背景上的暗条响应同样好。当我们对所有引起发放的刺激进行平均时,这些对比度相反的模式会相互抵消,导致 STA 结果为零,或是一片模糊不清!然而,STC分析揭示了一些深刻的东西。它表明,虽然平均发放触发刺激为空,但这些刺激的方差在刺激空间中的两个特定方向上很高。这两个方向精确地对应于构成该细胞的潜在正交对滤波器(正弦和余弦)。该细胞不是由单个特征驱动,而是由一个二维子空间内的能量驱动。

这个现代框架的真正美妙之处在于,它消除了简单细胞和复杂细胞之间的僵硬界限。我们看到的不是两个离散的类别,而是一个连续的光谱。一个神经元可以是“类简单”的,具有强烈的 STA 和单一的主导特征;也可以是“类复杂”的,具有微弱的 STA 和由 STC 揭示的多个特征;或者介于两者之间。这个连续谱提供了一个统一的框架,将历史上的现象学描述与对我们视觉大脑所采用的计算策略的更深入、定量的理解联系起来。从简单到复杂的旅程不是两种神经元之间的跳跃,而是沿着计算复杂性不断增加的轴线的平滑过渡。

应用与跨学科联系

一旦我们掌握了区分简单细胞和复杂细胞的原理,一个自然而令人兴奋的问题便随之而来:那又怎样?这种转换是为了什么?复杂细胞仅仅是大脑部件目录中的另一个条目,还是解锁对知觉和智能更深层次理解的钥匙?我们将看到,后者的正确性惊人。从简单到复杂的转换不仅仅是视觉皮层的一个细节;它是自然界最深刻、用途最广的计算技巧之一,一个从知觉机制到现代人工智能架构都回响着的统一原则。

我们对这些应用的探索始于科学的源头:在实验室里,面对着区分这些细胞的实际挑战。

从实验室到电路理论

如果你是一位神经生理学家,你将如何判断你正在监听的神经元是简单细胞还是复杂细胞?理论上的区别——相位敏感性与相位不变性——必须转化为一个具体、可测量的量。经典方法既简单又巧妙。我们向细胞展示一个漂移的正弦光栅,就像平滑移动的理发店标志灯柱,并记录其电活动。简单细胞对其感受野中条纹的位置极为敏感,会随着条纹扫过其偏好的位置而有节奏地爆发式发放冲动。而复杂细胞只关心其感受野内是否有条纹存在,而不在乎其精确位置,因此会以更稳定的速率发放冲动。

我们可以通过测量响应节律的峰值发放率(Rmax⁡R_{\max}Rmax​)和谷值(Rmin⁡R_{\min}Rmin​)来量化这种差异。简单细胞的响应会有很大的波动,而复杂细胞的波动则很小。一个“调制指数”,例如 M=(Rmax⁡−Rmin⁡)/(Rmax⁡+Rmin⁡)M = (R_{\max} - R_{\min}) / (R_{\max} + R_{\min})M=(Rmax​−Rmin​)/(Rmax​+Rmin​),完美地捕捉了这一点。当我们为整个视觉神经元群体测量这个指数时,一个惊人的模式出现了:这些值并没有形成一个单一的、连续的分布。相反,它们常常聚集在两个不同的组中,一组具有高调制(简单细胞),另一组具有低调制(复杂细胞)。这表明大自然确实构建了两种不同类型的处理单元。利用这些数据,我们甚至可以设计一个最优的统计分类器来标记我们发现的任何新细胞,在两者之间划出一条最佳的分界线。

这个简单的测量是一个有力的开端,但我们可以做得更好。我们可以构建体现我们理论的计算模型——例如简单细胞的“整流线性”模型和复杂细胞的“能量模型”——然后看哪个模型能更好地数学描述神经元的实际响应。这将我们从单纯的分类推进到基于模型的推断,这是现代计算神经科学的基石。当然,这整个事业都依赖于巧妙的实验设计,使用的刺激和指标需要对生物“噪声”(如神经元基线兴奋性的缓慢漂移)具有稳健性。

更先进的技术使我们甚至可以在不预设模型的情况下探测细胞的内部工作机制。通过向神经元展示一个闪烁的随机黑白像素屏幕——就像电视雪花——并分析哪些刺激模式使其发放冲动,我们可以反向工程出其“偏好的特征”。对于一个典型的复杂细胞,这种称为发放触发协方差(STC)分析的方法揭示了一个迷人的特征:其平均偏好特征(即发放触发平均,STA)是一片空白的灰色区域。但更深入的二阶分析揭示了不是一个,而是两个显著的特征维度。这正是构建该复杂细胞的两个隐藏的、相位偏移的类简单细胞亚基的鬼魅般的指纹。

这些方法为我们提供了识别复杂细胞的工具。但最深刻的问题依然存在:它们到底有何用处?

大脑的工具箱:用一个“小工具”构建知觉

事实证明,定义复杂细胞的池化操作是大脑工程工具箱中的一个万能“小工具”。通过调整输入,大脑利用这同一个“小工具”解决了截然不同的知觉问题。

感知运动

我们如何感知运动?投射到我们视网膜上的可能是一幅静态图像,但我们看到的世界却充满了动态。这种魔法的一部分始于复杂细胞。想象一个复杂细胞接收来自两个类简单细胞亚基的输入。这些亚基对相同的方向敏感,但它们的感受野在空间上略有偏移。现在,让我们再增加一个要素:一个微小的延迟。假设来自第一个亚基的信号瞬间到达,而来自第二个亚基的信号由于神经“线路”稍长而延迟了零点几秒。

当一个物体穿过视野,先激发第一个亚基,片刻之后再激发第二个亚基时,会发生什么?如果物体的速度和方向与空间偏移和时间延迟完美匹配,两个输入将完全同步地到达复杂细胞,从而驱动其剧烈发放冲动。如果物体朝相反方向移动,输入将不同步到达,响应就会很弱。这个细胞变成了一个方向检测器!

能量模型为这一现象提供了优美的数学描述。为了构建最有效的运动检测器,时间延迟应该精确到使两个输入处于“时间正交”状态——也就是说,它们的响应节律相移90度,就像正弦波和余弦波一样。对于一个以时间频率 ftf_tft​ 引起响应的刺激,这种完美的正交相移可以通过一个恰好为周期四分之一的延迟来实现,即 Δ=14ft\Delta = \frac{1}{4f_t}Δ=4ft​1​。一个简单、精妙的生物物理机制实现了一种复杂的信号处理计算。

感知深度

大脑,作为一个节俭的工程师,会重复使用其最佳技巧。它将完全相同的复杂细胞逻辑应用于一个完全不同的问题:三维视觉。我们的双眼提供了略有差异的世界视图,这种差异被称为双眼视差。大脑巧妙地利用这种视差来计算深度。

如何做到呢?考虑一个双眼复杂细胞,它同时接收来自左眼和右眼的输入。让我们用同样的能量模型框架来为其建模。每只眼睛都从其自身的类简单细胞亚基提供输入,这些亚基有自己的空间相位偏好。双眼复杂细胞汇集所有这些输入。当我们推导数学过程时,一个非凡的结果出现了:细胞的响应不再对刺激的绝对位置敏感,但它变得对左右眼图像之间的相位差异极其敏感。这个差异正是双眼视差。

所以,同一个计算原理——汇集经整流、相位偏移的输入——既可以用来构建运动检测器(通过汇集在时间上分离的输入),也可以用来构建深度检测器(通过汇集双眼之间分离的输入)。这是神经计算统一性与精妙性的一个绝佳范例。

为何需要不变性?神经编码的逻辑

我们已经看到,复杂细胞的一个关键特性是它们对其感受野内刺激的精确位置(或相位)具有不变性。但为什么这种不变性如此重要?答案在于大脑的基本任务:从充满噪声且不断变化的感觉信号中构建一个稳定的世界表征。

让我们做一个思想实验。想象你是一个“下游”神经元,你的工作是确定视觉世界中一个垂直边缘的对比度。你可以从两个来源获取信息:一个简单细胞或一个复杂细胞。

简单细胞是个靠不住的信息提供者。当边缘与其感受野完美对齐时,它会发出一个强烈、明确的信号。但如果边缘稍微移动一点,响应就会骤降。如果你,作为下游神经元,收到一个弱信号,你无法确定:这是一个低对比度的边缘,还是一个位置“不对”的高对比度边缘?简单细胞的信息将“是什么”(对比度)与“在哪里”(相位)纠缠在一起,无法分开。基于该细胞输出的对比度估计器将会有很大的偏差和高度的可变性,特别是如果自然世界中特征的相位是不可预测的。

现在考虑复杂细胞。通过汇集来自略微不同位置的亚基的输入,它实现了相位不变性。只要垂直边缘在其感受野内的某个地方,它就会稳健地发放冲动。它传递给你的信息是一份关于刺激对比度的稳定、可靠的报告。它有效地将特征的身份与其精确位置“解耦”了。基于复杂细胞响应的估计器要稳健得多,偏差和方差都显著降低。这就是建立不变性表征的精髓,是实现不依赖于物体的精确位置、大小或方向来识别物体的关键一步。

从皮层到计算机:在人工智能中的传承

复杂细胞的故事并没有在生物学中终结。它在人工智能领域找到了一个壮观的回响。灵长类视觉系统的层级结构——简单细胞的输出汇入复杂细胞,复杂细胞的输出再汇入对更精细特征敏感的神经元——直接启发了现代人工智能中最强大的技术之一:深度卷积神经网络(CNN)。

在CNN中,“卷积”层将一组滤波器应用于图像,非常像一组具有不同方向偏好的简单细胞。下一层通常是“池化”层。该层接收来自卷积层的输出并将它们组合起来。这听起来熟悉吗?应该很熟悉。CNN中的池化阶段正是皮层复杂细胞的直接计算模拟。其功能是相同的:创建一个对输入图像中的微小位移和平移更稳健的表征。

计算机科学家们已经尝试了不同类型的池化。“平均池化”取输入的平均值,而“最大池化”只取最强的输入。这可以被看作是由一个更通用的 LpL_pLp​ 池化规则所描述的光谱的两端。有趣的是,大脑自身的解决方案,即平方和能量模型,对应于一种 p=2p=2p=2 的池化。分析揭示了一个根本性的权衡:平均池化(p=1p=1p=1)提供了最稳健的不变性,但可能会模糊特征;而最大池化(p→∞p \to \inftyp→∞)对最突出的特征具有高度选择性,但稳定性较差。大脑的 p=2p=2p=2 策略似乎是不变性与选择性之间一个完美平衡的折衷方案。通过艰苦的生物学实验发现的神经设计原理,为构建能够观察和解释世界的人工系统提供了蓝图。

我们对这一非凡回路的理解仍在不断发展。这些理论不仅仅是静态的描述;它们是等待被检验的动态模型。借助光遗传学等革命性工具,我们现在可以进行因果实验,深入皮层以激活或沉默特定层次中的特定细胞类型,并观察其对计算的影响。例如,这些实验使我们能够证实,表层神经元的复杂特性确实是从它们从更深层次接收到的更简单的输入中继承而来的,从而验证了这个已有半个世纪历史的层级模型的核心原则。

复杂细胞的旅程——从猫脑中的一个奇特观察到人工智能的基本原则——是科学之美与统一性的有力证明。它展示了一个单一、精妙的计算思想,如何通过不断地被重新利用和完善,催生了丰富的知觉,并可能预示着一种新形式智能的曙光。