
几个世纪以来,我们一直认为大脑是一个被动的设备,一台精确记录周围世界的生物相机。贝叶斯大脑假说挑战了这一观点,提出了一个革命性的替代方案:我们的大脑不是记录器,而是一台活跃、不知疲倦的预测机器。它不断建立和完善一个关于世界的内部模型,利用感觉输入不是作为待处理的原始数据,而是作为更新其信念和减少自身不确定性的证据。这种方法解决了大脑如何从其接收到的嘈杂和模糊的信号中创造一个稳定现实的根本问题。
本文将引导您了解这一开创性的理论。在第一部分 “原理与机制” 中,我们将深入探讨贝叶斯推理的核心逻辑,探索预测编码这一优雅的机制如何在大脑的层级结构中实现它,并研究注意力和神经调节物质如何调控这场预测之舞。随后,“应用与跨学科联系” 将揭示这一思想惊人的解释力,展示它如何统一我们对身体感知、精神疾病、安慰剂效应乃至人工智能内部运作的理解。准备好以全新的视角看待心智——它不是世界的镜子,而是世界的主宰叙事者。
为了理解世界,我们常常认为大脑是一台精密的相机,被动地记录视觉和声音,然后进行处理。但如果这幅图景从根本上是错误的呢?如果大脑不是一个被动的接收器,而是一个活跃、永不停歇的预测者呢?贝叶斯大脑假说正是这样主张的:我们的大脑是一台预测机器,不断生成关于世界的模型,然后利用感觉信息来更新该模型。它是一个统计器官,一个推理大师,其根本任务是减少自身对其所处世界的不确定性。
想象一下,你正走过一个光线昏暗的房间。你在角落里看到一个形状。是椅子?一堆衣服?还是一个人?你的眼睛无法提供一个清晰明确的答案。感觉数据是嘈杂且不完整的。一个确定性的大脑,即一个将给定输入映射到单一固定输出的大脑,将被迫只下一个赌注:“这是把椅子。”如果错了,它几乎学不到任何东西。
贝叶斯大脑采取了一种更复杂的方法。它明白确定性是一种奢侈。它不会固守单一解释,而是会考虑一整套可能性,每种可能性都有一定的概率。它计算的是后验概率——即在给定感觉证据()的情况下,所有可能原因()的可能性。这被优雅的贝叶斯法则所概括:
在这里, 是先验:在你看到那个形状之前就已存在的信念。根据你的经验,你知道房间角落里出现一把椅子的可能性比出现一只袋鼠要大得多。 是似然:如果那个物体是一把椅子,你所获得的感觉数据有多大的可能性?大脑结合这两个信息来源——其先验知识和当前证据——从而得出后验信念 。
这不仅仅是一个抽象的公式;它有一个优美、直观的结构。如果我们将这些信念建模为简单的高斯分布(即我们熟悉的“钟形曲线”),这个过程就变得异常清晰。大脑最终的“最佳猜测”(后验分布的均值)是其先验猜测和新感觉数据的加权平均值。权重由精度决定——即方差的倒数,这是衡量置信度的指标。如果你的感觉数据非常精确(清楚地看到了物体),它将在你的最终信念中占据主导地位。如果数据嘈杂且不精确(在黑暗中匆匆一瞥),你会更严重地依赖你的先验知识。你的最终信念的精度就是你的先验和你的数据的精度之和。通过结合信息来源,你会变得更加确定。
表示整个概率分布,而不仅仅是单一的最佳猜测,是至关重要的。单一的猜测会丢弃所有关于不确定性和其他可能性的信息。如果形状确实模棱两可,后验分布可能会有两个峰值——一个代表“椅子”,另一个代表“一堆衣服”。单一的猜测会落在两者之间的某个位置,代表一个完全没有概率的东西,或者它会任意选择一个峰值,忽略另一个合理的现实。为了灵活地驾驭世界并做出最优决策,大脑不仅需要知道它认为什么是真实的,还需要知道它有多确定,以及其他可能性是什么。
这种贝叶斯逻辑很强大,但一堆神经元和突触究竟如何实现它呢?这正是预测编码理论提供的一个异常简单且在神经生物学上合理的机制的地方。
想象一下,大脑皮层被组织成一个层级结构。较高级别代表更抽象的概念(如“猫”),而较低级别代表更简单的特征(如边缘、纹理和颜色)。在预测编码中,这个层级结构变成了一个预测的级联。一个更高级别的区域不会等待信息传到它这里;它会主动预测其下一级区域的活动。“猫”区域会预测低级视觉区域应该看到的边缘和纹理模式。
然后,这些自上而下的预测会与实际的自下而上的感觉信号进行比较。沿层级结构向上流动的关键信息不是原始感觉数据本身,而是预测误差:预测与现实之间的不匹配。然后,整个系统会致力于在所有层级上最小化这个预测误差。它通过不断更新其信念(即生成预测的事物)来为感觉输入提供更好的解释。
把它想象成一个“二十个问题”的游戏,但在你自己的大脑层级之间进行。更高级别问:“你看到一个45度角的毛茸茸边缘吗?”较低级别回答:“不,边缘是垂直的,误差是45度。”然后,更高级别更新其假设——“啊,也许这不是猫的背,而是它的腿”——并向下发送一个新的预测。这种预测与误差校正之间反复来回的舞蹈会一直持续,直到误差被最小化,此时大脑已经确定了对外部事物的最佳解释。感知就是通过找到最佳假设来平息这些误差信号的过程。
这个框架优雅地解释了我们的先验期望如何塑造我们的感知。来自我们内部模型的自上而下的预测有效地“解释掉”或抑制了感觉流中可预测的部分。只有那些令人惊讶、不可预测的元素——即预测误差——才被允许向前传播以供进一步处理。这是极其高效的。它还解释了为什么当世界充满噪音或模棱两可时,我们大脑的模型最有用。当你试图在一张模糊的照片中认出一位朋友时,你大脑中关于朋友面孔的自上而下模型会生成强烈的预测,这有助于填补缺失的细节,并减少由低质量数据带来的不确定性。
当然,并非所有预测误差都是生而平等的。源自模糊、不确定信号的预测误差,其对你信念的影响应该小于来自清晰观察的预测误差。大脑需要一种方法,根据误差信号的可靠性来调节其“音量”或“增益”。这就是精度加权的工作。
预测误差的影响力由其估计的精度来调节。如果大脑认为某个感觉信号是高度精确的(即可靠且无噪音),相应的预测误差将被赋予高增益,从而导致大脑信念的大幅更新。如果信号被认为不精确,误差的权重将被调低,大脑将更紧密地坚持其先验信念。
这就提出了一个引人入胜的问题:大脑中究竟是什么在编码这种“精度”信号?一个有说服力的答案是神经调节物质——如多巴胺、去甲肾上腺素和乙酰胆碱等化学物质,它们广泛地播散到整个大脑。这些化学物质可能不仅仅是模糊地代表“奖赏”或“唤醒”,它们可能有一个更具体的计算角色:设定神经信息的精度。
例如,一个突发的、意想不到的事件可能会引发蓝斑核释放一阵去甲肾上腺素。在预测编码框架中,这可以被看作一个全局信号,它在说:“注意!世界发生了意想不到的变化。现在感觉数据非常可靠且重要。”这将起到增加整个皮层感觉预测误差增益的效果,使大脑对自下而上的输入更加敏感,并允许快速学习。这完美地将因惊奇而产生的意识和注意力增强的感觉与一个精确的计算功能对应起来。高估这种精度可以加快学习速度,但代价是会变得紧张不安并对噪音反应过度,这是大脑必须不断管理的偏差与方差之间的权衡。
在这种视角下,注意力本身可以被优美地重塑为精度的选择性分配。
关键的区别在于时机。自上而下的、目标导向的注意可以在刺激出现之前就部署,从而预先偏置大脑的活动。这表现为一种以特定方式解释事物的准备状态,这可以加速正确反应,但也会增加误报。自下而上的显著性纯粹是反应性的,只在刺激到达后发生。
当我们思考当这种预测、误差和精度加权的精妙舞蹈出错时会发生什么,贝叶斯大脑假说的真正力量就显现出来了。它为理解令人困惑的精神疾病症状提供了一个强大的、机械论的框架。
以精神病和妄想为例。异常显著性假说认为,大脑中过量的多巴胺会导致对随机、无意义的感觉事件异常地赋予高精度。一次巧合、一句无关紧要的评论、一个随机的模式——这些通常被当作噪音而忽略。但在多巴胺过剩的状态下,大脑将它们视为需要解释的高精度预测误差。心智争先恐后地构建一个故事,一种新的信念,来解释这些看似重要的信号。这可能导致妄想的形成,因为患者会将不相关的、“显著的”事件连接成一个复杂但错误的叙事。
这个问题可能因其他因素而加剧。例如,如果对形成和维持稳定的自上而下预测(先验)至关重要的谷氨酸能系统功能低下(NMDAR功能减退),大脑的内部模型就会变得薄弱和不稳定。这就造成了一场“完美风暴”:提供背景和稳定性的自上而下模型正在失效,而自下而上的信息流却充斥着异常精确、毫无意义的误差信号。世界可能变成一个混乱、可怕的地方,充满了深刻但无法解释的意义。
幻觉也可以在这个框架下得到理解。想象一个场景,大脑严重低估了其感觉输入的精度——实质上是告诉自己外部世界极其嘈杂和不可靠。在这种情况下,当最小化预测误差时,大脑将很大程度上忽略自下而上的数据,而几乎完全依赖其自上而下的先验。如果一个人有听到声音的强烈先验期望,他的大脑就会生成听到声音的预测。由于实际的听觉输入被忽略,这个预测得不到纠正。这个人将自己大脑产生的声音感知为仿佛来自外部世界。在非常真实的意义上,他们正在感知自己的预测。
到目前为止,我们一直将大脑描述为一个观察者,更新其信念以匹配世界。但大脑并非缸中之脑;它是具身的,并且能够行动。行动如何融入这幅图景呢?在一个最终的、优美的综合中,该理论提出,行动仅仅是最小化预测误差的另一种方式。这是自由能原理的核心思想,它是贝叶斯大脑假说的一个更广泛的表述。
有两种方法可以减少你的模型与世界之间的不匹配:
如果你预测你的手正握着一杯热咖啡,你可以移动你的手臂和手指来让这个预测成真。从这个角度来看,所有的行动——从最简单的反射到最复杂的计划——都是为了实现大脑自身关于其身体状态和感觉输入的预测。我们行动是为了让我们的世界更可预测,为了采样我们预期的信息,并为了将我们的信念变为现实。
这个统一的观点也为压力的本质提供了深刻的洞见。一种持续的、无法解决的预测误差状态——在这种状态下,你既不能改变你的信念,也不能通过行动使世界与你的预测相匹配——是一种高度意外(surprise)的状态。这种持续的意外,这种无法成功地为世界建模并与之互动的失败,是压力的计算本质。由这种慢性的意外状态导致的生理“磨损”就是我们所说的静态负荷(allostatic load)。
因此,大脑不仅仅是一个逻辑引擎,而是一个具身的、主动的代理,永远在努力减少其内部模型与来自世界源源不断的感觉流之间的不协调。它通过编织一张信念的挂毯,用精度加权的证据更新它们,并采取行动使其自身的预测成真来做到这一点。这就是贝叶斯大脑宏大而统一的原则:一场在信念与现实之间持续而优雅的舞蹈。
科学上的一大成就是发现一个单一、简单的想法能够突然照亮一片广阔而多样的现象领域。大脑从根本上说是一台预测机器、一个贝叶斯推理引擎的观念,也拥有类似的统一力量。在探讨了贝叶斯大脑的原理和机制之后,我们现在可以探索它帮助我们理解的世界。我们将看到这一个想法如何能解释断肢的幻觉、精神疾病的痛苦症状、安慰剂的神秘力量,甚至人工智能的内部运作。这是一段揭示生物学、医学和技术之间深刻且意想不到的统一性的旅程。
我们的旅程从何处开始?让我们从我们所知的最私密的空间开始:我们自己皮肤内的宇宙。我们对自己身体的感觉——它的位置、健康状况、感受——似乎是如此直接和即时。然而,预测编码框架告诉我们这是一种错觉。我们的自我感觉不是直接的读数,而是一个精心构建的故事,一个从嘈杂数据中得出的推论。
考虑一个令人不安的经历:一个人在恐慌中感觉心跳加速,但医生在经过大量检查后却发现其心脏完全健康。一种感觉怎么会如此强烈,却又如此错误?贝叶斯大脑提供了一个优雅的解释。大脑维持着一套关于身体状态的先验信念。如果一个人由于经验或焦虑,形成了一个强烈的、高精度的“心脏受到威胁”的先验信念,这个自上而下的预测就可能压倒来自心脏的实际自下而上的感觉证据,而后者可能正在发出“一切正常”的信号。大脑在被迫调和强烈的信念与相冲突的微弱证据时,会选择站在信念一边。预测误差——即预期的威胁与实际的平静之间的差异——被解释为噪音,而心跳加速的感觉则持续存在。症状是真实的,不是因为心脏有毛病,而是因为大脑的预测模型陷入了警报状态。
这个想法在幻肢痛现象中得到了最戏剧性的体现。失去手臂的人可能会在多年里继续感觉到它,有时还伴有疼痛。这个“幽灵”肢体从何而来?它来自大脑中强大、根深蒂固的身体生成模型。在截肢之前,大脑对该手臂的存在有着一个极其强烈、高精度的先验信念。截肢之后,感觉通道变得沉寂。自下而上数据的流动停止了。面对这种证据的极度缺乏,预测机器会做什么?它会默认采用其最强的先验信念。它继续预测肢体的存在,而这个强有力的自上而下预测就成了有意识的感知。大脑本质上是在幻化出这个肢体,因为它关于“我”的内部故事比感官的沉寂现实更强大。
这听起来可能像是我们是我们内部模型的无助傀儡,但该框架也暗示了我们如何能获得控制。想想注意力。当你专注于指尖时,你能感觉到自己的脉搏。当你不注意时,那种感觉就消失了。在贝叶斯框架中,注意力可以被看作是调高感觉通道“精度旋钮”的机制。通过注意一种感觉,你是在告诉你的大脑:“这个信号重要且可靠;提高它的精度。”这使得自下而上的数据在最终的知觉推理中占有更大的权重。正如我们将看到的,这种有意识地调节精度的能力,是像正念这样强大的治疗技术的基础。
如果我们的现实感知是一种受控的幻觉,那么当我们失去控制时会发生什么?贝叶斯大脑框架正在彻底改变精神病学,它将精神疾病重新定义为可预测的推理机制功能障碍,而不再是神秘的化学失衡。它表明,精神病理学的各种症状可以被理解为特定类型的计算错误。
也许最引人注目的例子是关于精神分裂症和自闭症的大统一理论。这两种疾病表现出截然不同的症状。然而,它们可能是同一枚硬币的两面:自上而下的先验与自下而上的感觉证据之间平衡的失调。在精神分裂症中,大脑可能病态地为其内部先验赋予过高的精度。信念和期望变得如此强烈,以至于压倒了感觉现实,从而产生幻觉(感知到不存在的东西)和妄想(不可动摇的错误信念)。自上而下的信息流是洪流,而自下而上的信息流只是涓涓细流。
在自闭症中,情况可能恰恰相反。大脑可能为其先验赋予异常低的精度,或者反过来,为其感觉似然性赋予异常高的精度。世界以其原始、未经过滤和压倒性的强度被体验。大脑的预测模型太弱,无法“平滑”嘈杂的感觉细节并提供稳定、连贯的背景。这可能导致该病症特有的感觉超负荷和社交线索处理困难。在这里,自下而上的信息流是洪流,而自上而下的背景是涓涓细流。一个单一的原则——精度的平衡——可以通过向相反方向调节,创造出截然不同的意识世界。
该框架还超越了感知,延伸到行动和情感。以强迫症(OCD)为例。其核心体验通常是一种“不恰当”的感觉和一股不可抗拒的冲动,要去执行一种纠正性的、强迫性的行为。这可以被建模为预测误差精度的问题。被认为与此相关的大脑区域,即前扣带皮层,其功能可能像一个过度敏感的烟雾探测器。它对意图状态和感知状态之间的任何不匹配都赋予异常高的精度。干净表面上一个几乎看不见的尘埃斑点,会产生一个被放大到无法忍受的“错误”程度的误差信号,从而产生一种强大的、强迫性的驱动力去执行纠正行为——去清洗、去检查、去对齐。问题不在于误差本身,而在于大脑对该误差重要性的过度自信。
即使是我们复杂的社会判断也可以通过这个视角来审视。例如,偏执狂可以被计算建模为一种关于他人意图的特殊贝叶斯推理。偏执心态可以用两个参数来表征:一个悲观的先验(即他人很可能是恶意的基线信念)和一个高的“遗忘因子”(即认为他人意图高度易变且随时间推移不可信的信念)。当一个拥有这些先验的人观察他人的行为时,即使是中性或积极的行为也会通过这个怀疑的滤镜来解释,从而在一个恶性循环中强化了最初的信念。我们的“心智理论”本身就是一个预测引擎,其失调可导致严重的社会功能障碍。
如果精神疾病是一种计算错误,那么治疗就是一种调试。贝叶斯大脑框架不仅为疾病提供了新的描述;它还指向了新的治愈机制。
以安慰剂效应为例。几个世纪以来,它一直被认为是心智的把戏。但在我们的框架中,它清晰地展示了自上而下预测的力量。当患者在被引导相信一种惰性药膏是强效止痛药后使用它时,这种信念会建立一个关于“疼痛缓解”的强先验。这种自上而下的期望直接作用于大脑的疼痛处理回路。它不仅改变了对疼痛的主观报告;它还能触发身体自身内源性阿片类物质的释放,后者接着在脊髓水平上调节上传的疼痛信号。信念在物理上改变了身体处理伤害性信息的方式。Naloxone是一种阻断阿片受体的药物,可以减弱这种效应,但通常无法完全消除它,因为预测中纯粹的认知部分——即先验信念——仍然完好无损。安慰剂不“仅仅是一种信念”;它是信念化为肉身。
这种理解为那些通过帮助患者重新校准自身预测机制的疗法打开了大门。例如,正念冥想可以被看作是一种“精度训练”。正如我们所见,过度警觉和焦虑可能源于将过多的注意力——因而也是过多的精度——放在有威胁性的内部信号上。正念教导的是一种非评判性的、分散的注意力技巧。这是一种学习有意识地调低令人痛苦的想法和感觉的精度旋钮的方法,降低它们的增益,从而剥夺它们主导我们意识体验的力量。
更为激进的是,该框架为迷幻剂辅助心理治疗如何起作用提供了一个令人信服的模型。慢性抑郁症或创伤后应激障碍(PTSD)可以被看作是大脑陷入了强大、高精度的负面先验(例如,“我一文不值”、“世界是危险的”)的引力井中的状态。这些信念如此根深蒂固,以至于任何正常的经历或治疗都无法撼动它们。像psilocybin这样的迷幻化合物被假设其作用机制是短暂而剧烈地降低这些高层级先验的精度。它们“夷平”了我们信念的“景观”,使其更具可塑性,更易于修正。在这种可塑性增强的状态下——有人称之为“机会之窗”——治疗师的指导可以帮助引入新的证据和新的思维方式,让患者从根本上更新并摆脱那些病态的信念结构。在这种观点下,迷幻剂不仅治疗症状;它们重启了预测引擎本身。
我们的旅程以一个最终的、惊人的联系收尾。支配我们心智的原则现在正被用来构建机器的心智。神经科学与人工智能之间的深入对话揭示,贝叶斯大脑不仅仅是一个比喻;它本身就是智能的蓝图。
回想一下患有Charles Bonnet综合征的人,他们的大脑会用生动的、内部生成的图像来“填补”其衰退视力留下的空白。这正是现代生成式人工智能模型所做的事情。当你要求像DALL-E这样的人工智能画一幅“宇航员在月球上骑马”的画时,它并不是在检索一张照片。它是在从其庞大的、关于世界的内部生成模型——其复杂的先验网络——中进行采样,以合成一幅符合你要求的图像。像大脑一样,它是一台预测机器,能构想出与其信念一致的现实。
这种联系甚至更深。构建复杂人工智能系统的工程师们常常面临与自然界同样的问题:如何在一个嘈杂、不确定的世界中做出稳健的预测。现代机器学习中最有效的技术之一被称为“dropout”。为了防止神经网络变得过于僵化和过度自信,工程师们在训练期间会随机地“丢弃”网络内部的连接。后来人们发现,从数学的角度来看,这个巧妙的工程技巧是一种近似贝叶斯推理的形式。它含蓄地迫使网络学习的不仅仅是一组参数,而是它们的整个分布。在预测时,用不同的dropout掩码多次运行模型会生成一系列答案,而这些答案的分布范围则给出了模型不确定性的度量。
这是一个深刻的趋同。在构建智能机器的探索中,工程师们独立地发现了一个进化已使用了数百万年的原则。为了应对不确定性,大脑和人工智能都趋同于一个贝叶斯解决方案。对大脑的研究启发了更好的人工智能,而构建人工智能的挑战为理解大脑提供了一种形式化语言。
从我们神经中的幽灵到精神疾病的阴影,从安慰剂的古老力量到迷幻科学和人工智能的前沿,贝叶斯大脑假说编织出一条单一而统一的线索。它揭示了我们的心智并非客观现实的被动记录者,而是积极的、富有创造力的叙事者,不断试图预测接下来会发生什么。而在理解这个过程中,我们向着理解我们自己、我们的缺陷以及我们非凡的治愈和成长能力迈出了一大步。