
几十年来,我们一直将大脑比作计算机,但它究竟是哪种计算机?虽然早期的模型设想它是一台能计算出单一、确定性答案的机器,但这种观点很难解释我们如何在一个充满模糊和不确定性的世界中游刃有余。大脑真正的天赋或许不在于找到那个“最好”的答案,而在于优雅地管理所有可能性的全景。这就引出了神经科学中的一个根本问题:神经元的物理硬件如何能够表征并运用像概率这样的抽象概念进行计算?
本文将探讨一个强大而精妙的答案:神经采样。我们将从一个关于大脑功能的理论框架出发,走向一种普适的计算原理。在第一部分“原理与机制”中,我们将剖析其核心理论,探索大脑可能如何利用其固有的噪声性从概率分布中进行采样,以及为何在处理不确定性方面,这是一种优于更简单的“最优猜测”模型的策略。随后,在“应用与跨学科联系”部分,我们将揭示同样的想法如何在科学和工程领域被独立地加以利用,为从先进的人工智能到复杂的物理模拟等一切提供动力。我们将从探究大脑本身如何以概率方式思考的基础机制开始。
说大脑进行计算几乎是老生常谈。但它进行的是哪种计算?袖珍计算器会计算。它接收 2+2,然后给出 4。一个单一、确定的答案。很长一段时间里,我们认为大脑可能也在做类似的事情,只是规模要宏大得多——接收感官数据,然后计算出对世界的单一“最佳”解释。但世界很少如此确定,单一的最佳猜测可能具有危险的误导性。我们现在相信,大脑方法的精妙之处在于它对模糊性的包容。它不只是找到一个答案;它会考虑由众多答案组成的整体。
想象一下,在夜晚,你听到灌木丛中传来微弱的沙沙声。是风声吗?是猫吗?还是更危险的东西?一个“最优猜测”型的大脑可能会选择一个答案——比如,“是风”——然后就不再理会。如果猜错了,你会感到惊讶。一种更复杂的方法是考虑所有可能性,并为每一种可能性赋予一个信念或概率。这就是贝叶斯大脑假说的核心思想:大脑计算的不是单一输出,而是一个完整的后验概率分布。这个分布通常写作 ,表示在给定感官证据(结果)的情况下,所有可能原因的概率。
灌木丛中的沙沙声并不仅仅是“风”;它是一个可能性的图景:也许有60%的可能是风,30%的可能是猫,9%的可能是浣熊,还有1%的可能是别的什么。持有这个完整的分布远比持有一个单一答案要强大得多。它能让你在面对不确定性时明智地行动——保持警觉而不过度恐慌,收集更多证据,权衡对与错的潜在后果。但这引出了一个深刻的问题:一个物理实体,一个三磅重的由神经元和胶质细胞构成的物体,如何能真正地表征像概率分布这样抽象的数学对象?
现代计算神经科学中最优雅、最强大的思想之一是,大脑通过采样来表征这些概率分布。
可以这样来理解。与其试图用一个单一、复杂的数学方程来描述一个复杂的山脉,你可以简单地在山脉周围漫步,从不同位置拍摄数千张快照。这集成千上万张快照的集合,能让你对这片景观有一个丰富而直观的认识——山峰在哪里,山谷有多深,哪些路好走,哪些路险峻。
神经采样理论提出,大脑也在做类似的事情。一个神经元群体不断变化、波动的活动并不代表一个单一的数值。相反,在任何给定时刻,该神经元群体的状态都是对你感觉的某个可能原因的单个“快照”,或一个样本。随着时间的推移,当神经活动不断演化和闪烁时,它描绘出了这些样本的完整轨迹。“可能性空间”中神经活动最常访问的区域对应于高概率的原因;它很少访问的区域则是那些不太可能的原因。随着时间推移生成的样本集合,就像山脉的照片集一样,隐含地构成了该概率分布。
这是一种非常直接和鲁棒的方式来表征不确定性。它不需要存储复杂的公式。它可以捕捉任何形状的分布,包括那些具有多个相互竞争的峰值的分布——这一特性后来被证明至关重要。
为了领会采样的精妙之处,了解其他方法如何失败会很有帮助。许多计算模型,比如那些基于一种常见的机器学习技术——变分推断(VI)的模型,试图用一个更简单的分布,如单一、对称的钟形曲线(高斯分布),来近似真实、复杂的后验分布。
如果真实分布很简单,这种方法效果很好。但如果它不简单呢?思考一下著名的内克尔立方体错觉。有两种同样有效的方式来感知它。关于“我看到了什么?”的真实后验分布有两个截然不同的峰值,这种状态称为多模态(multimodality)。如果你试图用一个单一的钟形曲线去拟合这个双峰的现实,你就会遇到麻烦。
一种策略是选择一个峰值。这种近似可能完美地描述了立方体的一种解释,却完全忽略了另一种。这被称为寻找众数(mode-seeking)的行为。它固守一种可能性并变得过度自信,极大地低估了真实的不确定性。这就像断定灌木丛中的沙沙声绝对是风,并将所有其他可能性抛之脑后。
另一种策略是试图用一个宽的钟形曲线覆盖两个峰值。这被称为覆盖质量(mass-covering)的行为。为了跨越两个峰值,这个近似必须将其大量的概率质量放在它们之间的山谷中——一个实际上不可能存在的“中间”解释区域。这就像断定内克尔立方体是一个奇怪、扁平、非立方的形状,或者沙沙声是由“风猫”混合体发出的。你“覆盖”了所有可能性,却是通过将它们平均成某种无意义的东西。
采样优雅地回避了这个问题。一个表征内克尔立方体的基于采样的系统,其神经状态会在两种有效的解释之间来回跳跃。它不会卡在某一种解释中,也不会将它们平均成不可能的事物。它只会在每个状态上花费与该状态合理性成正比的时间。它提供了一种对心智不确定性的真实、动态的表征。
这一切听起来很美妙,但它给我们留下了机制问题。一个由神经元构成的去中心化网络,每个神经元只有局部信息,它们如何协同合作,从一个单一、连贯的全局概率分布中生成样本?事实证明,答案存在于一类被称为马尔可夫链蒙特卡洛(MCMC)的优美算法中。
MCMC算法本质上是一种进行“智能”随机游走的配方。在每一步,你提出一个随机的移动,然后根据一个简单的规则决定是否接受它,这个规则偏爱向高概率区域移动,但仍允许偶尔向低概率区域移动。可以保证的是,只要你走得足够久,你在任何给定区域花费的时间比例将与该区域的概率成正比。
令人惊讶的是,一个由脉冲神经元组成的网络似乎就是为实现这样的过程而生的。考虑一个简化的神经网络模型,其中每个神经元可以处于开启()或关闭()状态。每个神经元从其邻居接收输入。这些输入被加总起来,形成一个膜电位,反映了其邻居“鼓励”它开启的程度。然后,神经元做出一个随机选择:它会以一定的概率从关闭状态翻转到开启状态,并以另一个概率从开启状态翻转到关闭状态。
神奇之处在于这些概率是如何设定的。如果一个神经元决定发放脉冲的概率是其膜电位的一个简单、常见的函数(逻辑斯谛函数),那么就会发生一些非凡的事情。整个网络,在每个神经元都只遵循自己简单、局部、嘈杂的规则的情况下,将会集体组织其活动。随着时间的推移,在网络中闪烁的“开启”和“关闭”状态的全局模式,将构成从一个被称为玻尔兹曼分布(Boltzmann distribution)的复杂全局概率分布中采样得到的样本。
这是最纯粹形式的涌现。没有中央指挥官,没有主算法告诉网络该做什么。从目标概率分布中采样的全局计算目标,是通过一群简单的、独立的智能体进行局部交互来实现的。
此外,这种局部的、随机的更新正是使一种算法具有“神经可信度”的原因。一些采样算法,比如刚才描述的那种(一种吉布斯采样),很自然地与大脑的结构相契合。而另一些算法,比如强大的哈密顿蒙特卡洛(HMC),则很可能不是大脑的运作方式。HMC需要非局部信息(梯度)、完全可逆的动力学以及一个全局的“接受/拒绝”步骤,所有这些都难以映射到真实神经硬件的嘈杂、耗散和局部特性上。
在这幅图景中,大脑固有的噪声并非缺陷,而是一个基本特征。神经元何时放电的随机性,正是驱动采样过程的引擎,它让系统能够探索各种可能性的图景,避免陷入僵局。
这种随机性可以被看作是一种计算温度。在物理学中,温度对应于粒子的随机运动。在采样中,温度控制着随机游走的尺度。一个高温采样器会进行大而胆的跳跃,广泛地探索整个图景。这对于获得全局概貌很有用,但可能不够精确。一个低温采样器则会迈出小而谨慎的步伐,专注于高概率区域的细节。
大脑中的物理噪声,例如神经元膜电位的随机波动,可以直接作为这种计算温度的基底。事实上,可以证明,对于一个简单的神经元模型,采样器的有效温度与该膜噪声的方差直接相关。这开启了一个引人入胜的可能性:或许大脑可以通过简单地调节一个回路中的神经噪声水平,来控制其思维过程的本质——从探索性和创造性(高温)到专注和果断(低温)。
这是一个优美且引人注目的理论故事。但它是真的吗?我们如何才能证明大脑实际上在进行采样?
幸运的是,该理论做出了一个清晰、可检验的预测,这使其区别于更简单的“最优猜测”模型。关键在于操控进入大脑的信息的不确定性,并观察大脑自身变异性的响应方式。
想象我们设计一个实验。我们给一个人看一个刺激物,比如说一张略微模糊的倾斜线条的图像,然后我们记录代表该线条角度的神经元的活动。图像的模糊程度决定了大脑的后验不确定性。一条非常模糊的线条会导致一个关于角度的宽泛、不确定的后验分布。一条非常清晰的线条则会导致一个狭窄、高度确定的后验分布。
如果大脑在进行采样,神经活动的变异性应直接反映这种后验不确定性。当图像模糊时,角度的神经表征应在宽范围内波动,因为它在采样许多可能的角度。当图像清晰时,神经活动应变得非常稳定,仅在真实角度周围轻微波动。神经编码的方差应与感官证据的质量成反比。
如果大脑在计算最大后验(MAP)估计——一个单一的最优猜测——情况就不同了。原则上,编码应该收敛到一个值。我们观察到的波动将只是偶然的硬件噪声。虽然这种噪声可能会产生一些变异性,但没有内在的理由使其大小根据刺激是模糊还是清晰而改变。
这给了我们一个石蕊试纸测试。我们可以测量神经编码的统计数据——特别是其方差()以及其涨落随时间如何相关(其自相关函数)。如果我们发现神经编码的方差随着任务的不确定性系统地变化——对于简单任务收缩,对于困难任务扩张——那么我们就捕捉到了大脑正在进行采样的证据。这个实验范式在抽象的计算理论与具体的、可测量的神经生物学之间架起了一座桥梁,为最终理解大脑那微妙、优美且充满概率性的语言开辟了道路。
在上一部分中,我们探讨了一个引人入胜,甚至可能令人惊讶的观点:大脑本身可能是一种采样机器,它不是通过单一、确定性的预测来导航世界,而是通过一团充满假设的概率云。这是我们对生物计算看法的深刻转变。现在,我们将调转视角。我们将看到,作为科学家和工程师,我们是如何独立发现并利用这套完全相同的“通过采样进行计算”的哲学,使其成为我们最强大、最通用的工具之一。
我们即将开始的旅程将展示这一思想非凡的统一性。我们将看到采样如何让我们能够解码大脑自身的信息,如何帮助我们训练更鲁棒的人工智能,以及如何使我们能够模拟从聚变反应堆核心到河口复杂水流的一切。一个始于大脑理论的想法,最终成为一种理解和建模我们世界的通用语言。
想象一下,你是一名工程师,正在设计一个脑机接口,以帮助瘫痪者控制一个机械臂。你可以记录运动皮层中数百个神经元的电“脉冲”,但你如何将这片嘈杂的信号转换成平滑、有意的运动?这不仅仅是找到一个简单公式的问题;这是一个在不确定性下进行推断的问题。同一模式的脉冲在不同时刻可能意味着略有不同的事情,而手臂的运动是一个连续、演变的故事。
与其为手臂的位置和速度锁定一个单一的“最优猜测”,一种更强大的方法是维持一整个假设群体。这就是一类被称为粒子滤波器(或称序贯蒙特卡洛方法)的算法的核心思想。我们可以将每个“粒子”看作一个微型模拟,一个关于手臂状态的完整猜测:它的位置、速度、加速度。在任何时刻,我们都有一团这样的粒子,代表着我们信念的分布。
当新一轮的神经脉冲到来时,它充当了新的证据。我们可以评估每个粒子的假设对这个新证据的解释程度如何。那些预测与观察到的脉冲一致的粒子被赋予更高的“权重”——它们变得更可信。不一致的粒子的权重则被降低。
随着时间的推移,一个问题出现了:少数“幸运”的粒子可能会累积几乎所有的权重,而其余的则变得无关紧要。我们的可能性云崩溃了,如果真实运动稍有偏离,我们就失去了追踪它的能力。我们假设的多样性丧失了。为了解决这个问题,我们必须定期“重采样”我们的粒子,剔除那些不太可能的,并复制那些有希望的,以探索它们的邻近区域。这正是采样艺术与科学的真正用武之地。一个简单的重采样方案可能很快,但它可能会意外地消灭掉整个系列的优良假设。更复杂的、“基于传输”的方法可以保留粒子云的多样性,但计算成本要高得多。在神经解码这个精度至上的高风险世界里,选择正确的采样策略需要在算法速度和我们推断的统计丰富性之间进行精妙的权衡。
采样原理不仅是解释复杂系统的工具,它也是构建这些系统的基本策略。这一点在现代人工智能中表现得尤为明显,采样已成为教会机器如何学习的关键要素。
考虑训练一个AI生成序列的任务,无论是创作音乐、写文本,还是预测神经元未来的放电模式。一种常见的训练方法被称为“教师强制(teacher forcing)”。在每一步,我们都向模型展示序列中正确的下一个项目,并要求它预测再下一个。这就像学骑自行车时,辅助轮从未被拆下一样。模型在近期历史完美无误的情况下,变得非常擅长预测下一步,但它从未学会如何从自己的错误中恢复。如果在现实世界中,它犯了一个小错误,它可能会发现自己处于一个在训练中从未见过的情况,从而导致一连串无意义的输出。这种脆弱性被称为“暴露偏差”。
一个绝妙的解决方案是“计划采样(scheduled sampling)”。我们不总是给模型喂入真实数据(教师强制),而是引入一点随机性。在每一步,我们抛一枚硬币。如果是正面,我们给它正确的答案。如果是反面,我们取模型在前一步的自身预测——一个来自其内部“想象”的样本——并让它从那里继续。
这个简单的想法带来了深远的影响。它迫使模型学会承受自己预测的后果,使其变得更加鲁棒。训练过程本身变成了现实与模型采样想象的混合体。当然,这样做必须巧妙。一个有原则的计划不仅仅是抛一枚公平的硬币。它可能在模型还是新手时以教师强制为主,随着它变得越来越专业,逐渐增加使用模型自身样本的概率。此外,一个真正智能的计划可能会更加谨慎,在模型对其预测高度不确定时,或者在试图学习一个特别复杂和不稳定的模式(如一阵神经脉冲)时,减少采样的量。这将训练从一个僵化、确定性的过程,转变为数据与模型之间一种自适应的、随机的舞蹈。
让我们把学习和采样之间的联系再推进一步。到底“训练”一个神经网络意味着什么?标准的观点是,我们正在寻找一套单一、最优的连接——即“最佳”权重——以最小化一个损失函数。但这暗示着只有一个正确答案。一个更深刻的、植根于贝叶斯统计原理的观点认为,不存在一套最佳权重,而是存在一个由众多良好权重构成的完整图景。学习的目标不是找到这个图景中的一个峰顶,而是描绘整个可能性的分布。
我们该如何做到呢?我们从中采样。这引出了一个与统计物理学的优美类比。我们可以为任何给定的网络权重集 定义一个“能量” ,这里的能量就是损失函数(例如,均方误差)。能量越低,意味着对数据的拟合越好。遵循统计力学的原理,我们就可以说,给定一组权重的概率与一个玻尔兹曼因子成正比:,其中 是一个“温度”参数。
突然之间,训练一个神经网络就等同于模拟一个物理系统。网络的权重是粒子的位置,损失函数定义了一个能量景观。我们可以直接借用计算物理学中的算法,如Metropolis算法,来探索这个景观。“模拟退火(simulated annealing)”[@problem-id:2412853] 就是这个思想的直接应用:我们在高温 下开始模拟,让“权重粒子”疯狂地跳跃,探索整个景观。然后,我们慢慢地冷却系统,降低 。随着系统冷却,粒子会沉降到低能量的深谷中,这对应于我们学习问题的优秀解。这将优化问题重构为一个物理采样的过程。这个视角也揭示了深层次的联系:例如,常见的机器学习技术“权重衰减”或 正则化,在数学上等同于在贝叶斯公式中对网络权重施加一个高斯先验概率。一个曾经看似临时的技巧,被揭示为关于我们对解决方案信念的一个基本陈述。
采样的力量远远超出了大脑和人工智能的范畴。它是现代计算科学的支柱之一,使我们能够解决任何其他方法都无法处理的棘手问题。
让我们离开抽象的权重空间,去往一颗恒星的中心——或者至少是我们试图在地球上建造的恒星:一个像托卡马克(tokamak)这样的聚变反应堆。设计这些机器的一个关键挑战是理解中性原子在超热等离子体边缘的行为。这些原子的行为不遵循简单的流体方程;它们的行为由一个复杂的动力学方程(玻尔兹曼方程)控制,该方程追踪粒子在位置和速度的六维空间中的分布。直接求解这个方程几乎是不可能的。
解决方案是蒙特卡洛方法。我们不试图一次性描述所有粒子的类流体行为,而是模拟大量代表性粒子的个体“生命故事”。每个模拟粒子的生命都是一系列概率性事件,是一个通过采样讲述的故事。一个粒子在反应堆壁上“诞生”,其初始速度从一个模拟等离子体-表面相互作用物理过程的分布中采样得到。然后它沿直线行进一段距离,这个长度是从一个由局部碰撞概率决定的指数分布中采样得到的。当碰撞发生时,相互作用的类型(例如,与离子的电荷交换)根据所有可能事件的相对概率进行采样。粒子的速度根据所选碰撞的物理原理发生变化,然后开始新的自由飞行。这个过程不断重复,直到粒子被吸收或离开模拟区域。通过模拟数百万个这样的生命故事并对结果进行平均,我们可以构建出一幅极其精确的集体行为图景,从而在概率意义上直接求解动力学方程。
我们最后的例子让我们回到了起点,融合了物理模拟和机器学习的世界,以解决紧迫的环境问题。想象一下,我们想为某个复杂河口的水流、温度和盐度建立一个高精度的模型。一种新兴且强大的技术是物理知识通知的神经网络(Physics-Informed Neural Network, PINN),这是一种不仅根据数据进行训练,而且还要遵守流体动力学基本定律的人工智能。
为了确保PINN遵守这些定律,我们必须在空间和时间的许多不同点上检查控制方程的残差。但是我们应该在哪里检查呢?河口不是一个均匀的浴缸。它在靠近海床和表面的地方有薄而湍急的边界层,以及密度急剧变化的尖锐内层(密度跃层,pycnoclines)。这些恰恰是物理过程最活跃、梯度最陡峭的区域。一个将采样点均匀分布的天真采样方案,会错过大部分这些关键区域,导致模型在平均意义上看起来不错,但却无法捕捉到最重要的动力学特征。
解决方案再次是一种更智能的采样形式:重要性采样。在我们的物理理解指导下,我们设计一种采样策略,将采样点集中在这些物理上至关重要的区域。我们可以利用我们对流体动力学的知识来识别这些层的特征长度尺度——比如振荡的斯托克斯(Stokes)边界层厚度 ,以及分层湍流的奥兹米多夫(Ozmidov)尺度 ——并利用这些尺度来构建一个概率分布,将更多的样本放置在最需要它们的地方。在这里,我们对物理的知识指导了采样,而采样反过来又帮助我们建立一个忠实代表物理过程的机器学习模型。这是一个优美而强大的反馈循环。
我们的探索之旅带领我们从大脑的内部运作到人工智能的前沿,从聚变反应堆的核心到地球生态系统的建模。在这些截然不同的领域中,我们发现了一条共同的、统一的线索:通过采样进行计算的原理。
当一个系统过于复杂、维度过高,或者充满不确定性,以至于无法得到一个单一、简洁、确定性的答案时,将我们的知识表示为样本的集合——一团可能性的云——便提供了一条前进的道路。无论是大脑在权衡不同的知觉解释,算法在探索可能解的图景,还是模拟在追踪粒子的可能路径,其核心策略都是相同的。这证明了科学中一些最深刻的思想也是最普适的,它们以我们可能从未预料到的形式反复出现,将人类探究的各个不同领域联结成一个连贯的整体。