
计算神经科学旨在通过将大脑视为一个复杂的信息处理系统来揭示其奥秘。这个生物机器的巨大复杂性,从其数十亿的神经元到丰富的意识体验,构成了一项巨大的科学挑战。仅仅描述其各个部分是不够的;我们需要一个框架来理解这些部分如何协同工作,从而产生知觉、思想和行动。本文通过提供一场结构化的旅程,深入该领域的核心信条,以弥合这一差距。文章首先在“原理与机制”一章中确立了基本的构建模块和理论原则,探索了从单个神经元的计算特性到大脑功能的宏大统一理论。随后,“应用与跨学科联系”一章展示了这些原理如何被应用于解构像知觉、运动控制和决策等复杂的认知功能,揭示了其与人工智能和控制理论等领域的深刻联系。我们将发现,一套统一的计算思想如何能够解释一个物理系统是如何感知、思考和行动的。
要理解像大脑这样复杂而奇妙的机器,我们必须首先学会如何提出正确的问题。一个汽车发动机可以从交通的经济需求、内燃的热力学原理,或其组装的具体螺母和螺栓等不同角度来理解。每个描述层面都是正确的,但每个层面都只讲述了故事的一部分。先驱神经科学家 David Marr 提出,要真正理解像大脑这样的计算系统,我们必须在三个不同的分析层面上对其进行研究。这个框架将成为我们的指南,引导我们从单个神经元的生物物理基础,走向可能支配思想本身的宏大原理。
Marr的第一个层面是计算层面。它问的是:目标是什么? 系统试图解决什么问题,以及为什么?对于视觉而言,目标可能是从一对变化的二维视网膜图像中构建一个稳定的三维世界表征。这个层面关注的是抽象问题,与其解决方法无关。
第二个层面是算法层面。它问的是:策略是什么? 计算目标是如何实现的?这涉及到定义输入和输出的表征,以及将前者转换为后者的算法。为了解决视觉问题,一个算法可能包括寻找边缘、检测双眼图像之间的差异,并利用这些差异来计算深度。
最后一个层面是实现层面。它问的是:硬件是什么? 算法是如何在物理上实现的?在大脑中,这是神经元、突触及其错综复杂的生物物理和生物化学机制的领域。
这个框架之所以如此强大,在于多重可实现性这一概念:一个单一的计算目标和算法策略,通常可以由截然不同的物理硬件来实现。例如,一个计算像 这样函数的算法——这是现代人工智能中的一个核心操作——可以在大脑中由一个神经元网络实现,该网络中神经元的平均放电率遵循这个方程。但它也可以由一个更复杂、生物物理细节更丰富的脉冲神经元网络实现,其动力学在时间上平均后,会产生完全相同的输入-输出关系。你电脑中的硅芯片,也可以被编程来执行这一计算,代表了又一种实现方式。这告诉我们一个深刻的道理:我们可以在一定程度上独立于实现的繁琐细节(硬件),来研究计算的原理(“是什么”和“如何做”)。这使我们能够构建和分析抽象模型,这些模型虽然不是生物学的完美复制品,但却抓住了大脑计算策略的精髓。
让我们开始下降到实现层面。大脑计算的基本构建模块是什么?1943年,Warren McCulloch 和 Walter Pitts 提出了一个极其简单的答案:神经元是一个逻辑门。他们设想了一个单元,该单元对其输入进行求和,如果总和超过某个阈值,它就发放一个‘1’;否则,它保持静默,输出一个‘0’。通过巧妙地选择权重和阈值,人们可以创造出计算基本布尔函数(如“与”、“或”、“非”)的单元。通过将这些简单的单元联网,原则上可以构建一台能够执行任何数字计算机所能执行的计算的机器。这是一个里程碑式的洞见,首次在生物学和计算理论之间架起了桥梁。它确立了简单元件组成的网络可以非常强大。
当然,这是一种抽象。真实的神经元是生物物理工程的奇迹。它的细胞膜像一个电容器,储存电荷;而嵌入其中的各种离子通道则像电阻器,允许电流流过。在其最简单的被动状态下,神经元的行为类似于一个并联的电阻-电容(RC)电路。总输入电阻 决定了神经元电压对稳定输入电流的响应程度(神经元的欧姆定律),而膜时间常数 则决定了它对变化响应的速度。
这不仅仅是电气上的记账;它是计算的基石。考虑像GABA这样的抑制性神经递质的作用。当它与 受体结合时,会打开一个氯离子通道,使其穿过细胞膜。这就像在现有的漏电通道上并联了另一个电阻。因为并联电路的电导(电阻的倒数)会相加,所以总膜电导会急剧增加。结果,输入电阻 和时间常数 都会骤降。这种现象被称为分路抑制,它使神经元变得“更易漏电”且反应更快。它对其他输入的敏感度降低,并且在更短的时间窗口内对它们进行整合。这不是一个缺陷,而是一个特性——一个在毫秒时间尺度上控制神经元增益和时间整合特性的动态机制。
McCulloch-Pitts 神经元是全或无的。然而,真实的神经元过着连续的生活,其膜电压不断波动,直到决定发放一个脉冲。我们可以用动力系统这一优美的语言来捕捉这种行为。神经元的状态(其电压,或一个相关的相位变量 )随时间根据一个常微分方程(ODE)演化。
一个极其优雅的模型是θ神经元模型。其动力学由方程 给出,其中 代表输入电流。当输入 为负时,该方程在相位圆上有两个平衡点:一个稳定点(一个“节点”)和一个不稳定点(一个“鞍点”)。神经元被吸引到稳定平衡点,即其静息状态。但是当输入电流 增加并越过临界值 时,神奇的事情发生了。稳定平衡点和不稳定平衡点相互靠近、碰撞并湮灭。对于 的情况,不再有平衡点存在。神经元无处可息。它被迫在相位圆上不停地前进,每转一圈就发放一个脉冲。
这个事件被称为不变圆上的鞍节分岔(SNIC)。它是重复性脉冲发放诞生的数学体现。从静息到活动状态的转变不是一个模糊的决定,而是当一个参数改变时,潜在动力学所产生的精确、可预测的后果。这是一个基本原理,解释了神经元如何作为积分器,将连续的输入电流转换为离散的、频率调制的脉冲输出。
神经元通过突触进行交流,但这种交流不是确定性的;它在根本上是概率性的。当一个脉冲到达突触前末梢时,它会触发充满神经递质的囊泡的潜在释放。对于一个给定的突触,我们可以这样建模:存在一个包含 个囊泡的即时可释放池,每个囊泡以概率 独立释放。实际释放的囊泡数量决定了突触后信号的强度,因此它是一个遵循二项分布 的随机变量。
在大脑的许多区域,释放概率 非常小,而囊泡池大小 可能适中。在这种情况下,会出现一个优美的数学简化:离散且有些笨拙的二项分布可以被优雅的泊松分布极好地近似,后者仅由一个参数,即其均值 来描述。这不仅仅是一个懒惰的捷径;它是一个严格的极限。这种近似的“误差”是可以量化的。例如,总变差距离——衡量两种分布差异程度的指标——由量 界定。当 且 时,这个误差小于 。这告诉我们,在常见的生理条件下,自然界复杂的二项分布现实可以被理论家更简单的泊松模型以极高的保真度捕捉。这是计算神经科学中一个反复出现的主题:在复杂的生物机制中寻找隐藏的简单而强大的原理。
有了我们的构建模块——脉冲神经元和概率性突触——我们就可以开始探索它们是如何连接在一起以执行计算的。网络的结构不是任意的;它与其需要解决的问题类型密切相关。
对于静态任务,如识别图片中的物体,输出仅取决于当前的输入。在这种情况下,前馈神经网络(FNN)通常就足够了。信息在神经元层中单向流动,没有环路。通用近似定理告诉我们,如果这样的网络足够大,它可以近似任何连续函数。
对于时间性任务,如理解语言或控制运动,记忆至关重要。特定时刻的输出取决于过去输入的历史。这需要一个带有环路的结构:循环神经网络(RNN)。循环连接使得网络的活动得以持续和演化,从而创造出一个能够随时间整合信息的内部“状态”或记忆。
一种引人入胜的RNN类型是随机储备池,或称储备池计算。在这里,网络的循环部分是由固定的、随机的权重创建的。网络中唯一学习的部分是最后的输出层。其思想是,储备池的随机、高维动力学充当一个丰富的非线性滤波器,将输入历史投影到一个空间中,在这个空间里,期望的输出可以被一个简单的线性解码器轻松读出。为了使其工作,储备池必须具备回声状态属性:其状态必须是输入历史的唯一函数,这意味着它最终必须“忘记”遥远的过去。这一属性通常通过保持储备池权重矩阵的谱半径 小于一来确保。这导致了一个基本的权衡:当 接近一时,网络的动力学变慢,其记忆容量增加,但它也更接近混沌和不稳定的边缘,此时回声状态属性会丧失。
在这些庞大的网络中,自然界采用了经典的计算基元。其中最普遍的一个是除法归一化。一个神经元的响应 被建模为其驱动输入 除以一个项,该项包含一个常数 和其邻近神经元加权活动的汇集,即 。公式很简单:。这个电路有一个显著的特性。当输入被一个全局对比度因子 (例如,房间里的灯光变亮)缩放时,响应基本保持不变。一阶分析表明,在高对比度条件下,响应变为 ,这是一个与 无关的项。除法归一化创造了一种对比度不变的表征,使大脑能够对世界中的相对模式做出响应,而不仅仅是它们的绝对强度。这种简单的电路基元无处不在,从视网膜到皮层都有发现,它证明了生物学中优雅计算解决方案的力量。
将神经元组装成功能性网络之后,我们现在能跳跃到解释认知吗?让我们考虑一个简单的决策,比如判断屏幕上的一团点在平均上是向左还是向右移动。这是一个涉及随时间累积噪声证据的任务。漂移扩散模型(DDM)对这一过程提供了一个惊人成功的解释。
想象一个决策变量 ,它代表累积的证据。它从零开始。在每个时刻,它都会受到一个朝向正确答案的微小“推动”(漂移,)和一个随机的“颠簸”(噪声,)。这个过程由随机微分方程 描述。噪声项 是一个维纳过程,即布朗运动的数学形式化。其定义特征是其增量是独立的且服从正态分布。这个方程的解是 。
在时间 时,决策变量的均值就是 ,代表证据的稳定累积。其方差是 ,随着噪声的累积而随时间线性增长。当 穿过两个边界之一时,决策就做出了,一个边界代表“右”,另一个代表“左”。这个简单的模型能够以惊人的精确度解释人类被试的平均反应时间和选择分布(包括错误)。它提供了一座强大的桥梁,将神经元的噪声活动与认知决策的速度和准确性联系起来。
我们现在上升到Marr的最高层面:大脑的终极计算目标是什么?一个强大且有影响力的思想是贝叶斯大脑假说。它假定大脑的核心是一台推断机器。像科学家一样,它不断地对其感官观察()的隐藏原因()形成假设。为了做到这一点,它必须应对不确定性。
这需要一种对概率的特定看法。频率主义的解释将概率视为重复试验中事件的长期频率。但是,面对一个独特的、一次性的情况,生物体不能依赖长期频率。相比之下,贝叶斯解释将概率视为一种理性的信念程度。这正是大脑所需要的。它可以从一个关于世界状态的先验信念()开始。当感官数据到达时,它使用概率规则(特别是贝叶斯定理)来更新其信念,形成一个后验信念(),该信念结合了先验信念和来自感官的证据(似然,)。知觉即推断。
建立在这个基础之上的是自由能原理,一个试图将大脑功能统一在一个单一指令下的宏大理论:最小化惊奇(surprise)。一个生命有机体,为了维持其完整性,必须避免惊奇状态。在数学上,最小化惊奇等同于最大化其世界内部模型的证据。然而,直接计算这个证据通常是难以处理的。因此,大脑采取了次优策略:它最大化一个被称为证据下界(ELBO)的代理指标。
ELBO可以优雅地分解为两项:。
根据这一原理,大脑被锁定在一个优美的平衡行为中。它不断努力形成准确的信念来解释其感觉,同时又使其世界模型尽可能地简单和简约。这单一的优化过程不仅可以支配知觉(更新信念以匹配感觉),还可以支配行动(作用于世界以使感觉匹配信念)。从单个细胞膜上离子的舞蹈,到贝叶斯推断的宏大逻辑,计算神经科学旨在揭示那一套统一的原理,这些原理使得一个物理系统能够感知、思考和行动。
既然我们已经探索了计算神经科学的一些基本原理和机制——神经计算的构建模块——现在让我们退后一步,看看它们在实践中的应用。这才是真正神奇的地方。我们将看到这些抽象思想如何为我们理解从感知世界到学习记忆的一切注入生命力。这就像学会了国际象棋的规则,现在得以观看并理解一位特级大师的对局。您会看到,少数几个强大的计算概念充当了一种统一的语言,使我们能够描述和连接那些否则可能看起来完全不相关的现象。这段旅程不仅将带我们跨越大脑功能的不同领域,还将搭建通往其他伟大学科领域的桥梁,如人工智能、控制工程和信息论。
花点时间看看这个页面上的文字。这看起来毫不费力,不是吗?但你的大脑正在执行一项极其复杂的计算壮举。这个过程始于视网膜,但它不像简单的相机拍照。它是一个主动的计算和推断过程。
最早的计算步骤之一发生在视网膜神经节细胞中。许多这类细胞具有所谓的“中央-周边”感受野,即其视野中心的光线会使其兴奋,而周围区域的光线则会抑制它。这种简单的结构是一种非常巧妙的方法,用于检测边缘和对比度,而不仅仅是原始的光线水平。但一个更深层次的问题出现了:周边究竟是如何抑制中心的?是简单地从中心的信号中减去一个固定的量吗?还是它执行了更复杂的操作,比如调低中心响应的“音量”或“增益”?这不是我们仅用显微镜就能回答的问题。计算建模提供了关键。通过为简单的减法抑制和更复杂的除法归一化建立数学模型,我们可以对神经元响应如何随着背景对比度增加而变化做出不同的预测。将这些预测与真实神经元的记录进行比较,使我们能够推断出大脑可能正在执行的计算。这是一个典型的例子,说明我们如何使用模型来区分关于大脑内部算法的竞争性假说。
当信号从视网膜传输到大脑皮层时,另一个计算原则凸显出来:效率。视觉世界在细节上极其丰富。如果大脑试图通过让每个神经元都稍微发放一点来表征所有事物,那将是能量上的浪费和计算上的混乱。一种替代的、更有效的策略是稀疏编码。其思想是,对于任何给定的输入,一个群体中只有极小部分的神经元高度活跃,而绝大多数保持沉默。这就像一个图书馆,为了查找特定主题的信息,你从书架上取下几本高度相关的书,而不是从大楼里的每一本书中都摘录一小段。这个原则或许可以解释我们如何用有限数量的神经元来表征大量的不同事物——面孔、物体、场景。但我们如何确定大脑确实在使用这种策略呢?科学要求我们从定性思想转向定量测量。我们可以从第一性原理出发,正式定义一个“稀疏性指数”,这是一个单一的数字,捕捉了神经活动在群体中的集中或分散程度。值为 表示最大稀疏的编码(只有一个神经元发放),而值为 表示最大密集的编码(所有神经元均等发放)。有了这样的工具,神经科学家就可以分析来自大脑的真实数据,并检验大脑确实使用一种稀疏语言的假说。
大脑不仅仅是一个被动的观察者;它是一个主动的行动者。而且它的行动带着一种非凡的、近乎随意的优雅。做一个简单的实验:伸出手指触摸你的鼻尖。注意动作的平滑性。你的手并没有以不连贯的步骤跳跃。它的速度以一种优雅、对称的钟形曲线上升和下降。为什么?这是偶然的吗?
运动控制中最优美的理论之一认为,这种平滑性是最优性原则的直接结果。大脑就像一个才华横溢但无意识的工程师,它规划了一条轨迹来最小化一个称为“jerk”的量——即加速度的变化率。加速度的突然变化会产生冲击且效率低下;字面意思就是“jerky”(颠簸的)。通过将这个问题数学化——寻找两点之间使整个运动过程总平方jerk最小化的路径——我们发现其唯一解的速度曲线正是在我们自身行动中观察到的钟形曲线。这种惊人的一致性表明,我们对动作“自然性”的主观感觉可能就是对其潜在数学最优性的直接感知。从贝叶斯角度看,这可以被视为大脑对动作应该平滑有着强烈的“先验”信念。
然而,这个优雅的模型假设大脑有一个完美的计划和对身体及世界的完美模型。但在现实中,当我们的内部模型永远不完美时,会发生什么呢?假设你的大脑内部的“前向模型”(它预测运动指令的感觉后果)对你手臂的质量有轻微的错误。整个系统会失控吗?这就是大脑作为控制系统的鲁棒性发挥作用的地方。通过应用控制理论的原理,我们可以分析当大脑的内部模型与身体的真实动力学之间存在不匹配或误差 时会发生什么。我们可以推导出真实的闭环动力学,并确定稳定性的确切条件。这使我们能够计算出控制器在系统变得不稳定之前可以容忍的模型误差的最大界限。这揭示了一个更深层次的真理:大脑的运动系统不仅是最优的,而且是鲁棒的,这对于任何在不确定和不断变化的世界中行动的智能体来说都是一个至关重要的特性。
我们生活中的大部分时间都在做出选择,从结果中学习,并为未来做计划。计算神经科学为理解这些认知功能提供了一个强大的框架,并常常与人工智能(AI)领域产生直接对话。
让我们从一个简单的决定开始,即在两个选项之间做出选择。大脑是如何下定决心的?一个非常成功的理论是漂移扩散模型(DDM)。它假定大脑会随着时间的推移为一个选项累积证据以对抗另一个选项。这些证据由一个单一变量表示,该变量向两个决策边界之一漂移。因为证据是有噪声的,所以该变量在漂移时会随机抖动。一旦变量触及其中一个边界,选择就做出了。这个一个粒子在两个吸收壁之间游走的简单而优雅的模型,可以用一个精确的随机微分方程来描述。通过求解这个方程,我们可以推导出一个在触及另一个边界之前先触及某个边界的概率的闭合形式表达式。这个模型不仅完美地解释了我们可能做出哪个选择,还解释了我们做出选择需要多长时间——即我们的反应时间。
当然,为了做出好的决定,我们必须从其后果中学习。这是强化学习(RL)的领域,它是现代AI和计算神经科学的基石。行动者-评论家结构是一个关于大脑如何实现RL的著名模型。在这个方案中,一个称为“行动者”(通常与基底节相关)的大脑系统学习一个策略,即采取哪些行动的策略。一个独立的“评论家”系统学习评估情境,预测当前状态下未来的预期奖励。学习的关键是“预测误差”:你期望的奖励和你实际得到的奖励之间的差异。这个误差信号,被广泛认为是由神经递质多巴胺携带的,被用来更新行动者的策略和评论家的预测。整个过程可以用马尔可夫决策过程(MDPs)的数学来形式化,这使我们能够精确计算任何给定策略的价值,并理解学习的动力学。
RL提供了一种强大的学习方式,但它可能很慢。如果世界突然改变了怎么办?如果你喜欢的咖啡馆开始提供难喝的咖啡,你会希望立即调整你的早晨习惯,而不是经过数周的试错。这需要一种更灵活的规划形式。后继状态表征(SR)提供了一种绝妙的计算折衷方案,介于缓慢的、习惯性的学习和计算成本高昂的、完全基于模型的规划之间。其思想是,大脑学习一个世界的预测地图:从任何给定状态出发,我在不久的将来可能会访问哪些状态?这张地图,即SR矩阵,可以逐渐学习。一旦学会,它就带来了令人难以置信的灵活性。如果与特定状态相关的奖励发生变化,大脑可以立即将这个新的奖励信息与其稳定的预测地图相结合,重新计算其世界中每个其他状态的价值。这使得行为能够快速适应,这对于生存至关重要。
我们最高级的认知功能——记忆、语言、推理——依赖于大脑储存、检索和操纵大量信息的能力。在这里,计算原理也为理解底层结构提供了深刻的见解。
思考一下情景记忆——我们对生活事件的记忆。大脑是如何储存和检索看似无穷无尽的独特经历的?根据海马索引理论,海马体并不完整地储存记忆。相反,它像图书馆的卡片目录一样,为每个经历储存一个紧凑而稀疏的“索引码”。这个索引然后指向或重新激活代表原始事件的视觉、声音和情感的分布式皮层神经元。这就提出了一个引人入胜的设计问题:什么才是一个好的索引?信息论为寻找答案提供了工具。我们面临一个根本性的权衡。如果索引码过于稀疏(使用太少的活跃神经元),我们可能无法生成足够的唯一代码来编目我们所有的记忆,从而导致灾难性干扰。如果代码过于密集,我们将有限的“突触预算”分散得太薄,使得任何单个记忆的检索都充满噪声且容易出错。通过对编码容量和检索保真度之间的这种权衡进行建模,我们可以证明存在一个最优的稀疏度水平——一个计算上的最佳点,它最大化了可以从记忆中可靠检索的信息总量。
这引出了一个最后、更宏大的问题:我们究竟如何能从外部推断出这些隐藏的因果结构和计算策略?我们如何仅通过测量硬件的活动来研究大脑的软件?答案在于一种称为通过合成进行分析的方法。像动态因果模型(DCM)这样的框架将这一思想形式化。科学家首先提出一个生成模型:一个以微分方程形式出现的具体假说,关于不同大脑区域如何相互影响以产生我们用fMRI或EEG等工具观察到的活动模式。然后,使用复杂的贝叶斯推断技术,他们“反演”这个模型,以找到最能解释所测量数据的因果连接强度集。这种强大的方法要求我们对我们的假设异常清晰,并正式区分被动观察一个系统和主动干预它——这是“看”与“做”之间的关键区别。
最后,要开始构建这些宏伟的模型,我们必须能够从我们嘈杂和间断的测量中追踪隐藏的神经状态。假设我们有一个突触电流的模型,它在时间上连续演化,但我们只能每隔几毫秒测量一个相关的信号。我们如何获得对真实、潜在电流的最佳估计?再一次,一个计算工具提供了答案:卡尔曼滤波器。它本身就是一个简单的生成模型,当给定系统参数时,可以以惊人的准确性追踪潜在变量。数学上的挑战和美妙之处在于,如何从神经元潜在的连续时间动力学中正确推导出这个离散时间滤波器的参数,这是连接我们理论和数据之间差距的关键数学工程。
从单个神经元的微观力学到记忆和决策的宏观组织,我们发现同样的计算思想反复出现:优化、推断、控制和信息。它们提供了一种共同的语言,一个统一的框架,来理解大脑不仅仅是细胞的集合,而是我们所遇到过的最复杂的计算设备。理解它的探索是当今时代伟大的科学冒险之一,它站在生物学、物理学、数学和工程学的激动人心的交汇点上。