
几十年来,机器人技术一直由在固定时钟下运行的数字计算机主导,这些计算机处理的是世界的静态快照。虽然这种方法功能强大,但在应对复杂动态环境所需的速度和效率方面却力不从心。神经拟态机器人技术提供了一种根本性的替代方案,其灵感来源于已知的最复杂的计算设备:生物大脑。该领域旨在理解神经计算的原理——效率、异步性和具身性——并将其转化为新一代的智能机器。它要解决的核心问题是克服传统机器人技术的局限性,如高能耗、数据冗余和高延迟,这些都阻碍了其在真实世界互动中的表现。本文旨在探讨这一变革性方法的基础和应用。在第一章“原理与机制”中,我们将深入探讨该领域的核心信条,从生物启发的设计逻辑到大脑基于事件的“货币”以及为处理它而构建的专用硬件。随后,“应用与跨学科联系”一章将展示这些原理如何在机器人感知、运动和软体机器人学中创造革命性的解决方案,从而在工程学、生物学和物理学之间建立起强大的联系。
大自然是最有耐心的工程师。经过数亿年的演化,自然界进行了一场宏大的、并行的设计实验,测试了无数种解决生存基本问题的方法:移动、感知和思考。这些实验的结果以生物学的语言书写,遍布我们周围。对于机器人工程师来说,这个活生生的图书馆是无与伦比的灵感来源。神经拟态机器人学的核心思想不只是简单地模仿自然,而是理解其成功背后的原理,并将其转化为新技术形式。
趋同进化原理是这一思想的绝佳例证。想想海豚的鳍状肢和企鹅的鳍状肢。海豚是哺乳动物,其鳍状肢是由陆生动物的前肢演化而来,其骨骼与我们自己的手指同源。企鹅是鸟类,其鳍状肢是改造过的翅膀,建立在完全不同的解剖学蓝图之上。这两种生物在演化上相隔了超过三亿年。然而,如果你分析它们鳍状肢的横截面形状,你会发现一个惊人的事实:它们几乎完全相同。两者都趋同于一种极其高效的水翼设计,这种形状在水中移动时能以最小的阻力提供最大的升力。
这种趋同并非偶然。它是物理学规律的明证。流体动力学定律对任何在水中移动的物体都是相同的,这些定律决定了特定形状——水翼——是一个最优解。演化在两个完全不同的起点上独立工作,却发现了这同一个最优形式。这就是生物启发设计的指导思想:我们在生物学中发现的解决方案并非任意;它们通常是对棘手物理问题的优雅而高效的解答。
这种优化而又多样化的解决方案原则无处不在。以视觉为例。像鹰这样的掠食性鸟类拥有“相机眼”,与我们自己的眼睛非常相似,用单个晶状体将光线聚焦到密集的光感受器阵列上。这种设计为实现惊人的空间分辨率——从高空发现一只小老鼠的能力——而优化。相比之下,像蜻蜓这样的飞虫拥有“复眼”,这是一个由数千个称为小眼的微小独立光学单元组成的半球形结构。这种设计牺牲了空间分辨率,但获得了巨大的视野和极高的时间频率——能够以使世界看起来像是慢动作的速度探测运动并作出反应。
这两种眼睛并非哪一个就普遍“更好”。它们代表了对一个基本工程权衡的不同回答:你是需要以极高的细节看清事物,还是需要以极快的速度对事物作出反应?通过研究这些不同的解决方案,我们学会了不去考虑建造一个单一的、全能的机器人,而是去设计一系列的机器,每台机器的传感器和大脑都为其特定目的和环境进行了精确的调校。
在被大自然的造物所启发后,我们可以提出一个更深层次的问题:它如何计算?在过去70年里,我们的数字世界一直由冯·诺依曼架构主导。在这种范式中,中央处理器从内存中获取指令和数据,与全局时钟同步运行。当我们将相机连接到这样的计算机时,它通常会以固定的时间间隔(例如每秒30或60次)发送一整帧像素——一幅完整的、静态的世界快照。
大脑不是这样工作的。它不处理现实的“帧”。它处理的是由称为动作电位或脉冲的离散信号承载的连续、异步的信息流。你大脑中的一个神经元不会喊出一个像“亮度是73!”这样的值;相反,它通过在特定时间点发送一个短暂的电脉冲来进行通信。信息不仅编码在神经元是否发放脉冲,还精确地编码在它何时发放脉冲。大脑的“货币”不是数据值,而是时间中的事件。
神经拟态工程学采纳了这一理念。最清晰的例子莫过于动态视觉传感器(DVS),或称事件相机。与传统相机不同,DVS没有快门,也不拍摄照片。相反,每个像素都是一个独立的、异步的电路。只要它看到的光线保持不变,它就什么也不做——几乎不消耗能量,也不发送数据。但一旦该像素检测到亮度变化(无论是增加还是减少)超过某个阈值,它就会发放一个数字事件。一个事件是一个微小的信息包,只包含三样东西:像素的位置()、事件的确切时间()以及其极性(亮度增加为,减少为)。
这一简单机制的后果是深远的。因为没有“曝光时间”的概念,事件相机不会产生运动模糊。在传统照片中会变成一团无用涂抹的快速移动物体,在事件相机中则被渲染成一串清晰的事件序列。因为它只报告变化,所以相机实现了惊人的数据压缩和效率。静态场景不产生数据,节省了功耗和带宽。这与传统相机的暴力方法形成了根本性的区别,后者即使在没有任何变化的情况下,也会一帧接一帧地忠实发送数百万个冗余的像素值。
当然,这种范式也有其自身的权衡和独特的“盲点”。如果一个带有事件相机的机器人看着一堵均匀、无纹理的白墙会发生什么?由于没有空间上的亮度变化(),运动不会产生任何事件。相机什么也看不见。另一个微妙的问题是著名的孔径问题。如果你通过一个小孔(或者在局部层面上,像单个像素那样)观察一条长长的直边,你只能确定垂直于边缘的运动;任何平行于边缘的运动都是不可见的。事件相机的核心在于,它只测量沿局部亮度梯度方向的运动分量。这些并非不可克服的缺陷,而是该设计固有的属性。正如我们将看到的,大自然的解决方案通常是融合来自多个来源的信息,以创造一个更完整的现实图景。
当基于事件的传感器连接到基于事件的处理器,形成一个与物理世界互动的感知与行动闭环时,事件系统的真正威力就显现出来了。想象一下,一架神经拟态无人机正在高速穿越复杂环境。一个传统的、基于帧的系统会很快失效。相机会产生一连串模糊的图像,而在固定时钟周期下运行的处理器将难以跟上,其计算总是落后于迅速变化的现实。
现在考虑神经拟态无人机。当它静止时,它的DVS几乎是静默的,其神经拟态处理器也基本处于空闲状态。当它开始移动时,DVS开始涌现事件流。无人机飞得越快,视觉场景的变化就越剧烈,相机产生的事件率就越高。无人机的运动也由一个神经拟态惯性测量单元(IMU)测量,该单元产生的脉冲率与无人机的加速度和旋转成正比。该系统自然地实现了一种自适应数据采集的原则。信息流恰好在情况变得更动态和不确定时自动增强。
这种自适应数据流被送入一个运行状态估计算法的神经拟态处理器。该算法的任务是维持无人机对其状态——位置、速度和姿态——的最佳猜测。这种估计不断受到不确定性的侵蚀;运动导致估计误差增大。在传统系统中,无论不确定性增长多快,校正更新都以固定速率到达。但在神经拟态系统中,来自传感器的校正更新以匹配不确定性增长速率的速率到达。无人机移动得越快,它得到的用于修正其路径的更新就越多。这创造了一个非常鲁棒和自稳定的反馈回路,使得无人机能够以基于帧的同类产品无法达到的速度进行精确导航。
这种感知与处理之舞依赖于一个关键要素:极其精确的时间同步。如果你的数据意义编码在事件的到达时间中,那么你必须能够以极高的保真度测量这个时间。将相机和处理器的独立时钟同步到微秒级精度,是神经拟态机器人学中一个严峻的工程问题。解决方案多种多样,从能够学习时钟之间相对漂移和偏移的巧妙软件算法,到使用外部硬件源(如GPS校准振荡器)将所有组件同步到一个单一、超精确的时间基准。对时间的这种关注是神经拟态范式的一个标志;时间不仅仅是数据的坐标,它就是数据本身。
我们如何为这种新型计算构建硬件?为顺序任务设计的传统CPU,或为密集数据块并行操作设计的GPU,都不适合处理神经拟态工作负载的稀疏、异步、事件驱动的特性。需要一类新的处理器——神经拟态芯片。
这些芯片的主要目标有两个:显著降低能耗和最小化延迟。对于靠电池运行的机器人来说,能量就是生命。对于与动态世界互动的机器人来说,速度就是生存。我们可以用新的基准来衡量这些芯片的性能,比如每个突触事件的能量,这类似于汽车的“每加仑英里数”。这个指标告诉我们处理一个基本神经操作需要多少能量。在这个指标上,神经拟态芯片的效率可以比传统CPU或GPU高出几个数量级。
这种效率源于它们的架构。它们没有大型的集中式内存,而是将内存分布式地与处理单元(“神经元”和“突触”)共置。它们被设计为在没有事件到达时处于空闲状态,功耗接近于零。当一个事件到达时,它会触发一连串局部的、并行的计算,然后芯片再次归于沉寂。
这个领域年轻而充满活力,研究人员正在探索几种截然不同的架构理念,每种都有其自身的优势和权衡。
当我们在机器人中使用这些芯片时,延迟和抖动的物理约束变得至关重要。为了让机器人执行稳定的动作,如平衡或抓取,整个感知、计算和驱动的回路必须在严格的时间预算内完成,通常只有几毫秒。这个回路中的任何延迟都会引入相位滞后,这会破坏系统稳定并导致其失败。因此,神经拟态硬件的选择以及神经网络如何映射到其上的方式,是直接影响机器人与世界成功互动能力的关键工程决策。
最后,神经拟态机器人学促使我们扩展对“计算”本身的定义。我们倾向于认为大脑是身体中唯一的计算机。但如果身体本身也执行计算呢?这就是形态计算背后的思想。机器人的物理形式和材料属性——其力学特性、弹性、几何形状——可以为大脑分担计算工作。一个简单的例子是一个设计良好的奔跑机器ンの被动稳定性;其腿部的弹簧般特性自动处理了大部分保持平衡的工作,从而使“大脑”可以专注于像导航这样的更高层次的目标。
我们可以沿着两个轴来思考不同的计算范式:动态丰富性和具身性。动态丰富性指的是计算基底内部状态的复杂性和适应性。一个活体脑类器官,拥有无数可塑的突触和生物过程,具有巨大的动态丰富性。一个标准的储备池计算,使用固定的、随机的节点网络来处理信息,其内在丰富性较低。另一方面,具身性描述了计算基底与其环境之间双向耦合的强度。一个拥有柔顺身体、能主动塑造物理世界并被物理世界所塑造的机器人,表现出高度的具身性。一个培养皿中的脑类器官,其与世界的互动由受控的微电极阵列介导,其具身程度较低。
神经拟态机器人学正处于这些思想的交汇点。它不仅仅是关于构建一个高效、孤立的硅脑(高动态丰富性)。它是关于将该大脑与物理身体深度整合,并允许它通过与复杂、不可预测世界的持续互动之舞来学习和行动。最终目标不是构建一个人工大脑,而是创造一种具身智能,其中计算分布于大脑、身体和环境本身之中。
在探索了神经拟态机器人学的基础原理之后,我们现在到达一个激动人心的目的地:真实世界。我们能用这种优雅的、受大脑启发的范式做些什么?如果说上一章是学习一门新语言的语法,那么这一章就是用它来创作诗歌和散文——解决机器人学中一些最具挑战性的问题,并建立跨科学学科的惊人联系。
我们将看到,神经拟态机器人学不仅仅是创造外形像动物的机器。它是一场与大自然的深度对话,使用物理学和数学的语言将生物学的杰作转化为工程学的奇迹。从苍蝇闪电般的反应到章鱼无声而有力的抓握,大自然的解决方案是效率和鲁棒性的案例研究。通过学习理解它们,我们不仅能制造出更好的机器人,还能对科学本身的统一性获得更深刻的领悟。
想象一下,试图用传统摄像机拍摄蜂鸟翅膀的模糊振动。即使帧率很高,你得到的也只是一系列模糊的快照。相机浪费时间和精力在每一帧中捕捉静态背景,却仍然错过了最关键的信息:精确、快速的运动。正如我们所了解的,神经拟态事件相机则恰恰相反。它是一款为运动世界而生的传感器。
这种看似简单的视角转变——从捕捉静态帧到捕捉动态事件——对机器人感知产生了革命性的影响。考虑任何移动机器人都面临的最基本任务之一:弄清楚自己是如何移动的。这被称为自我运动估计。对于快速移动的无人机或机器人来说,这是一个艰巨的挑战。传统相机会因运动模糊而“失明”。但事件相机却在这种情况下茁壮成长。当机器人旋转时,世界似乎从其“眼前”流过。场景中的每一条边缘都会触发一连串事件,为机器人自身的角速度提供了丰富、连续的数据流。
值得注意的是,对于纯粹的旋转,图像中物体的表观运动——即“旋转流”——完全与它们的距离无关。这是一个优美的几何事实,神经拟态系统可以极好地利用它。通过将事件相机的稀疏、高速数据与惯性测量单元(IMU)的连续但会漂移的测量数据相融合,我们可以创建一个“1+1>2”的混合传感器系统。事件相机提供快速、低延迟的更新,以纠正IMU不可避免的漂移,而IMU则即使在机器人看着一堵没有事件产生的空白、无纹理的墙壁时,也能提供平滑的运动估计。虽然像素运动和角速度之间的基本关系在数学上是复杂且非线性的,但巧妙的算法可以将其提炼为一个适定问题,并以惊人的效率和准确性加以解决。
这种强大的自我运动估计能力为一项更宏伟的目标奠定了基础:同步定位与地图构建(SLAM)。这是自主机器人的“圣杯”——能够被投放到一个未知环境中,仅通过视觉就能构建该世界的地图,同时不断追踪自己在其中的位置。传统的SLAM算法处理离散的相机帧,大约每30毫秒处理一批信息。然而,基于事件的SLAM系统以完全不同的方式运作。它是一个真正的连续时间过程。每个异步到达的独立事件都提供了一小片信息,可用于更新机器人对其位姿和周围环境地图的演化估计。其背后的数学框架堪称优美,它优雅地描述了系统的状态——机器人的位置、方向、速度,甚至其传感器的偏差,以及世界中路标的位置——并随着传感器记录到的每一次光线闪烁来更新这个状态。这不仅仅是增量式的改进;这是朝着构建真正反应灵敏、有感知能力的机器迈出的范式转变,这些机器能感知正在发生的世界,而不是一系列脱节的快照。
大自然的生物不仅是卓越的传感器,还是运动的大师。一只小小的蠓虫每秒可以扇动翅膀超过一千次,而蛇怪蜥蜴可以在池塘表面“奔跑”。要制造能够复制这些壮举的机器人,我们必须成为物理学的学生,特别是流体物理学。仅仅复制翅膀或脚的形状是不够的;我们必须理解支配其底层动力学的无量纲数。
想象一个机器人团队试图研究让微小昆虫产生惊人升力的“拍合-抛甩”机制。制造一个昆虫毫米尺度的机器人几乎是不可能的,所以他们建造了一个几何上相似但大一百倍的模型。但是,这个巨大的机器人翅膀应该以多快的速度扇动呢?如果扇动太慢,气流会完全不同。如果扇动太快,可能只是浪费能量。答案在于一个名为斯托哈尔数(Strouhal number)的无量纲量,,它关联了扇动频率 、翅膀尺寸 和翼尖速度 。这个数表征了在振荡流中产生升力的涡旋的形成。为了确保其巨大机器人翅膀周围的气流与微小昆虫的在运动学上相似,工程师必须调整模型的扇动频率以匹配昆虫的斯托哈尔数。这种动态缩放的原则是一个强大的工具,让我们能够在巨大的尺度差异之间转化物理定律。
当我们观察蛇怪蜥蜴时,类似的故事也在上演。它那看似神奇的水上奔跑能力是其前进速度与重力之间的一场精妙舞蹈。这里的关键参数是弗劳德数(Froude number),,它比较了蜥蜴拍击水面产生的惯性力与试图将其拉入水下的重力。如果弗劳德数足够高,脚就能在被吸入之前逃离它在水中造成的凹陷。一个旨在模仿这种行为的机器人也必须在正确的弗劳德数范围内运行,平衡其速度 与其与水相互作用的特征尺寸 。这些例子揭示了一个深刻的真理:生物启发设计不仅仅是模仿,而是一门植根于基本物理定律的定量科学。
当我们想到计算机时,我们通常会想到硅芯片。但在生物学中,计算常常“具身化”于生物体自身的物理结构中。例如,章鱼可以让其手臂适应岩石的形状,其吸盘适应表面的纹理,这是一项分布在其柔软、灵活身体中的计算壮举。
受此启发,工程师们正在构建“软体机器人”,其智能既存在于其材料中,也存在于其中心处理器中。想象一个受章鱼启发的吸盘,由柔软的弹性材料制成。它产生的粘附力来自外部空气与内部部分真空之间的压差 。但什么限制了这种力?不仅仅是制造真空的泵,还有吸盘本身的结构完整性。如果压差变得过大,半球形的外壳会发生灾难性的屈曲,密封就会失效。临界压力 取决于材料的刚度(杨氏模量 )和吸盘的几何形状,特别是其厚度 与半径 的比值。
当我们将屈曲物理学与力的定义(压力乘以面积)结合起来时,一个迷人而又极其简单的结果出现了。最大可能的粘附力 最终与 成正比。令人惊讶的是,它不依赖于吸盘的半径 !这意味着,对于给定的材料和厚度,一个小吸盘和一个大吸盘具有相同的理论最大粘附力。这种源于将固体力学应用于生物启发设计的非直觉性见解,对于工程化高效、鲁棒的软体抓手至关重要。
最后,我们从看到和移动转向行动的真正引擎:驱动器及其控制器。典型的生物驱动器是肌肉。一个多世纪以来,生理学家一直在研究肌肉能产生的力与其收缩速度之间的关系。这一关系被希尔特征方程(Hill's characteristic equation)优雅地捕捉,揭示了一个基本的权衡。当肌肉完全不动时(等长收缩),它可以产生最大力 。相反,只有在完全无负载(零力)的情况下,它才能以最大速度 收缩。
但功率又如何呢?机械功率是力与速度的乘积,。在这两个极端——最大力或最大速度——功率输出都为零!最大功率在两者之间的某个点达到。对希尔方程的仔细分析表明,峰值功率出现在肌肉以其最大速度的特定比例收缩时,该值取决于肌肉的内在特性。这不仅仅是一个生物学上的奇闻;它是驱动器设计的一个普遍原则。大自然优化了肌肉,使其在平衡力量和速度以高效传递最大功率的“最佳点”运行。为他们的机器人设计电动机、液压活塞或新型人造肌肉的工程师们必须应对这同一个原则。
这些驱动器是如何被控制的呢?大脑使用复杂的神经元网络。在机器人学中,我们可以构建作为非线性控制器的人工神经网络,输入位置和速度误差等传感器数据,并输出校正力矩。这些控制器功能强大,但它们的非线性特性可能使其看起来像难以理解的“黑箱”。然而,在这里我们也可以找到通往传统工程学的桥梁。通过使用微积分的工具,我们可以将神经网络在特定工作点周围的行为线性化。这类似于在曲线上某一点找到切线。这个过程产生一个简单的增益矩阵,它告诉我们,对于微小的偏差,每个输入的变化如何影响输出。这使我们能够使用经典控制理论中成熟而强大的语言来分析我们复杂的、受生物启发的控制器的局部稳定性和性能,从而将人工智能的新世界与经过时间考验的工程学原理联系起来。
正如我们所见,神经拟态机器人学的应用既多样又深刻。它们挑战我们以不同的方式思考感知、行动和计算。通过向自然世界寻求灵感,我们踏上了一段跨越生物学、物理学、材料科学和控制理论边界的旅程,揭示了支撑这一切的深刻而美丽的统一性。