首页贝叶斯大脑：一种预测性加工的视角

贝叶斯大脑：一种预测性加工的视角

玻尔百科

定义

贝叶斯大脑：一种预测性加工的视角是神经科学领域的一种理论框架，认为大脑像统计学家一样通过结合先验信念与感官证据来构建感知。该视角利用预测编码机制处理自上而下的预测与自下而上的感官输入之间的误差，并通过主动推理将这一逻辑扩展到人类行为。该框架在认知科学研究中具有核心地位，并将多种精神与神经疾病重新诠释为内部推断精度的失调。

核心要点

贝叶斯大脑假说认为，大脑如同统计学家一样运作，通过结合先验信念与传入的感觉证据，并根据它们的相对可靠性来创造知觉。
通过预测性编码，大脑自上而下地主动预测感觉输入，并主要以自下而上的方式处理“预测误差”——即预测与现实之间的不匹配。
许多精神和神经系统疾病可以被重新定义为推断障碍，具体表现为对先验信念或感觉证据所赋予的精度分配不当。
该框架通过“主动推断”扩展到行动，认为我们选择的行动旨在最小化未来的预测误差，从而有效地采取行动使我们的预测成真。

引言

大脑是如何从持续不断的嘈杂、模糊且常常相互矛盾的感觉信息流中，创造出一个稳定、连贯的现实的？当我们的眼睛告诉我们一件事，而我们的平衡感又告诉我们另一件事时，大脑必须解决这种冲突，以指导我们的知觉和行动。这个根本性的挑战——驾驭不确定性——是认知功能的核心。贝叶斯大脑假说提供了一个强大而统一的答案，它提出大脑并非被动的数据接收器，而是一个依据概率原则运作、主动生成预测的机器。该假说认为，我们的心智在不断地对世界的状态做出最佳猜测，并随着新证据的到来而持续更新这一猜测。

本文探讨了这一关于大脑功能的革命性视角。它剖析了使大脑能够像一个复杂的统计学家一样运作的核心计算思想。在第一部分原理与机制中，我们将深入探讨贝叶斯推断的基本概念，包括大脑如何根据证据的可靠性来权衡证据、预测性编码的效率，以及自由能原理的精妙平衡作用。随后，在应用与跨学科联系部分，我们将把理论与现实联系起来，探索该框架如何帮助我们解读大脑活动，解释我们选择的逻辑，并提供一个深刻的新视角来理解乃至治疗精神健康障碍。

原理与机制

想象一下，你正处于一个前沿的虚拟现实（VR）模拟中。你眼前的屏幕展现出一幅引人注目的景象：世界正向左侧飞速掠过，给你一种向右移动的鲜明感觉。然而，你舒适地坐在椅子上的身体却告诉你一个不同的故事。你内耳中精密的平衡器官——你的前庭系统——报告的是绝对的静止。那么，你到底在动吗？你的大脑必须回答这个问题，而且它必须通过调和来自其感官证据的直接矛盾来做到这一点。它是如何完成这一非凡壮举的？

根据现代神经科学中一个强大而统一的观点，答案是，大脑的行为不像一个简单的信号处理器，而像一个复杂的统计学家。这就是贝叶斯大脑假说的核心。它提出，大脑的基本“通货”不是确定性，而是概率。它通过不断做出最佳猜测，并在一个充满模糊和噪音的世界中导航，同样重要的是，它知道自己对这个猜测应该有多大的信心。

大脑作为统计学家：先验、似然与后验

要理解这是如何运作的，让我们像贝叶斯统计学家一样思考。这个过程涉及三个关键要素：先验（prior）、似然（likelihood）和后验（posterior）。

想象一下，你的自我运动速度是一个变量，我们称之为 $s$ 。在你观看屏幕或咨询你的内耳之前，你的大脑已经有了一些预期。你身处一个诊所，坐在一把椅子上。你实际在移动的可能性很低。这种基于情境和过去经验形成的预先存在的信念，就是先验信念（prior belief），或简称先验。我们可以将其表示为一个概率分布 $p(s)$ ，也许是一个以 $s=0$ （无运动）为中心，但有一定宽度的钟形曲线，以容纳微小的运动可能性。

然后，证据出现了。你的眼睛看到了与向右每秒2度的速度相对应的光流。这是一条证据。然而，你的前庭系统报告的速度是 $s=0$ 。这是另一条证据。对于任何给定的假设速度 $s$ ，观察到你正在接收的感觉数据都有一定的概率。这就是似然。例如，看到那个特定光流的似然性在你确实以 $s=2$ 的速度移动时最高，而感觉不到任何前庭感觉的似然性在你静止于 $s=0$ 时最高。因此，我们有两个似然， $p(\text{visual data} | s)$ 和 $p(\text{vestibular data} | s)$ ，每个感官一个。

最后一步是将先验与似然相结合，形成一个更新后的信念。这个新的、更新后的信念被称为后验信念（posterior belief），即 $p(s | \text{data})$ 。这是大脑在考虑了所有证据之后对世界状态的最佳估计。这个更新信念的过程由一条简单而深刻的概率规则所支配，即贝叶斯法则：

p(s | \text{data}) \propto p(\text{data} | s) \ p(s)

用文字来说，后验信念与数据的似然乘以先验信念成正比。

结合证据的艺术：精度加权平均

但大脑究竟是如何结合这些相互矛盾的信息的呢？它并非简单地进行多数表决或简单平均。它执行的是一种远为智能的计算：精度加权平均（precision-weighted average）。

把每一条信息——先验、视觉线索、前庭线索——都看作是一位提供意见的专家。有些专家比其他专家更值得信赖。在统计学中，这种可信度被称为精度（precision），它就是方差（或信号的“噪音水平”）的倒数， $\tau = 1/\sigma^2$ 。一个非常精确的信号噪音低；一个不精确的信号则噪音很大。

你的视觉系统可能相当可靠，所以它的精度 $\tau_v$ 很高。你的前庭系统通常也非常可靠，但或许在这个特定的VR设置中，它的确定性已知较低，所以其精度 $\tau_{vest}$ 较低。你静坐不动的先验信念也只是一种信念，有其自身的精度 $\tau_p$ 。

贝叶斯大脑对你速度的最终估计 $\mu_{\text{post}}$ ，结果是来自每个来源估计值的加权平均，其中每个来源的权重就是其精度：

\mu_{\text{post}} = \frac{\tau_p \mu_p + \tau_v x_v + \tau_{vest} x_{vest}}{\tau_p + \tau_v + \tau_{vest}}

这里， $\mu_p$ 是先验的猜测 (0)， $x_v$ 是视觉系统的猜测 (2)，而 $x_{vest}$ 是前庭系统的猜测 (0)。在我们的例子中，由于视觉相当精确（高 $\tau_v$ ），它会将最终估计强烈地拉向2。但由于先验和前庭系统都“投票”给0，最终的知觉将是一种折衷——速度介于0和2之间，但可能更接近2。这是一种惊人优雅且最优的信息融合方式。大脑不只是听从其感官；它根据感官已被证明的可靠性，在它们之间进行智能仲裁。

这可以看作是一种神经计算，其中不同的输入通道——一个用于先验，每个感官各一个——被结合起来。每个通道的“音量”或增益（gain）由其精度设定。当一个感觉信号清晰可靠时（高精度），其增益被调高。当它嘈杂或模糊时（低精度），其增益被调低，大脑更多地依赖于其他感官或其先验信念。

超越单一猜测：全貌的重要性

有人可能会问，为什么要费尽周折地表示一个完整的概率分布？为什么不只计算最可能的值然后就此了事？答案揭示了该理论更深层次的力量。单一的点估计，如均值或最可能的值（众数），会丢弃关于不确定性和模糊性的关键信息。

想象一下观看内克尔立方体（Necker cube），那个著名的视错觉。你的大脑在两种同样有效的解释之间来回切换。该立方体方向的后验分布将有两个峰值——它是双峰的（bimodal）。这两个峰值的平均值将是一个无意义的、不可能的构型。然而，完整的分布告诉你真相：存在两种不同的、相互竞争的可能性。这些信息对于规划和行动至关重要。

此外，要采取的最佳行动通常取决于概率分布的整个形状，而不仅仅是其峰值。如果你必须下注，你的策略会根据赔率是集中在一个结果上还是稀疏地分布在多个结果上而改变。对于任何具有特定损失函数（一个定义犯错成本的函数）的任务，最优决策都需要完整的后验分布 [@problem_id:4008928, @problem_id:4063575]。通过维持一个完整的概率信念，大脑保持了灵活性，可以调整其决策以适应任何任务的需求。

规模化：预测性大脑

世界不是一堆互不相关的变量的随机集合；它有结构。事件有其原因，这些原因本身又有更深层次的原因。大脑似乎在其自身的组织结构中反映了这种层级结构。预测性编码（predictive coding）框架提出了一个优美且在神经上貌似可行的机制，来解释一个层级化的贝叶斯大脑可能是如何工作的。

其核心思想是，大脑不是感觉信息的被动接收者，而是一个主动生成预测的机器。大脑皮层层级中处理更抽象概念的较高级别，在不断地生成关于较低级别、更侧重感觉的层次应该体验到什么的预测。

自上而下的预测：这些预测通过皮层层级向下流动。你的视觉皮层可能会预测与“看到一张脸”相对应的特定光影模式。这些预测通过反馈通路（feedback pathways）发送。
自下而上的预测误差：较低级别将这些自上而下的预测与实际的感觉输入进行比较。其不匹配之处，即信号中未被预测到的部分，就是预测误差（prediction error）。这个误差信号正是通过前馈通路（feedforward pathways）向上传递的内容。

在这种观点下，知觉是更新大脑内部模型以最小化预测误差的过程。当你认出朋友的脸时，那是因为你大脑内部的“脸部模型”生成了一个预测，这个预测完美匹配或“解释掉”了传入的视觉信息。剩余的预测误差是最小的。向上层传递的不是原始的感觉数据，而仅仅是那些令人惊讶的、未被预测到的部分。这是一种极其高效的信息处理方式。

这与大脑的解剖结构有直接的对应关系。经典的皮层微回路似乎就是为此过程量身定做的。人们认为，皮层的深层（例如，第5/6层）容纳着预测单元（prediction units），它们通过反馈连接向下发送预测。而浅层（例如，第2/3层）则容纳着误差单元（error units），它们计算不匹配度，并通过前馈连接将误差信号向上传递到下一级别。

大脑中的奥卡姆剃刀：自由能原理

这种预测与误差校正的持续互动引出了一个深刻的问题：大脑如何避免沉溺于幻想？是什么阻止它发明越来越复杂和怪诞的解释来完美预测嘈杂的感觉输入？大脑似乎有其内置版本的奥卡姆剃刀（Occam's razor）：它偏爱既能充分拟合数据又最简单的解释。

这一原理被形式化为所谓的变分自由能原理（variational free energy principle）。虽然其数学可能错综复杂，但核心思想却惊人地优雅。大脑的目标——最小化自由能——可以分解为两个相互竞争的部分：准确性（accuracy）和复杂性（complexity） [@problem_id:4027078, @problem_id:4063568]。

准确性要求大脑的模型能很好地拟合感觉数据。这是驱动模型减少预测误差的部分。
复杂性惩罚模型与先验的差异过大。它推动模型的信念尽可能简单——紧贴其默认预期，除非证据势不可挡。

因此，知觉是一种平衡艺术。大脑不断试图找到一个既能准确预测又能形式简单的世界模型。正是这种权衡将我们的知觉与现实紧密相连，防止我们陷入日益精巧和不可能的解释的螺旋中。它确保了我们的知觉世界既丰富又稳定。

这个框架不仅仅是一个哲学上的“故事而已”。它做出了具体的、可检验的预测。如果我们操纵一个感觉线索的可靠性，一个贝叶斯大脑应该会以可预测的方式改变它赋予该线索的权重。如果大脑表征不确定性，那么必定有编码它的神经信号，我们可以去寻找这些信号。当大脑的内部模型出错时，我们可以观察它通过突触可塑性（学习）和神经调质（调节精度）等过程进行调整，以减少误差并提高其对现实的掌握。

贝叶斯大脑假说，凭借其概率推断、预测性编码和自由能最小化等原理，提供了一个关于心智的深刻而统一的愿景。它将大脑重新定义为一个并非执行僵硬逻辑的计算机，而是一位在不确定性世界中探索的科学家，不断在面对新证据时修正其理论，努力追求一种既简单又真实的理解。

应用与跨学科联系

在探索了贝叶斯大脑的原理之后，我们已经看到心智可能是如何通过预测与校正的不懈舞蹈来构建其现实的。这是一个优美而雅致的理论。但是，一个理论，无论多么优美，最终都必须离开黑板，走向现实世界。这个框架仅仅是提供了一个动听的故事，还是它真的能帮助我们理解大脑错综复杂的运作方式、我们选择的奥秘、精神疾病的阴影，甚至为新疗法指明方向？这才是真正冒险的开始。我们现在从“如何运作”转向“为了什么”，探索这个思想将神经元与叙事联系起来的广阔图景。

皮质的交响曲：解读大脑的编码

谈论“预测误差”沿层级上升和“预测”沿层级下降是一回事，而在大脑的实际机制中找到它们的踪迹则完全是另一回事。真正非凡的是，这种对话不仅仅是一个比喻。神经科学家已经找到了诱人的证据，表明它被物理地写入了大脑的电节律中。

想象一下，大脑皮层的各个层次是大型公司中的不同部门。深层（如V层和VI层）的“高管”负责战略和长远规划。他们将他们的预测——他们对世界的期望——向下传递给较低的层次。浅层（如II层和III层）的“一线员工”负责处理传入的数据。他们将数据与高管的预测进行比较，并在出现不匹配时大喊“意外！”。

这两种类型的信息似乎在不同的通道上传播，这些通道以不同的振荡频率为特征。庄重的、自上而下的预测似乎由较慢的脑电波承载，如alpha和beta节律（约 $8$ – $30\,\mathrm{Hz}$ ）。这是期望的稳定嗡鸣。相比之下，紧急的、自下而上的预测误差消息——那声“意外！”——似乎沿着快得多的gamma节律（约 $30$ – $80\,\mathrm{Hz}$ ）飞驰。这为我们提供了一种原则上可以“窃听”大脑内部对话的方式，观察着平静的预测波被尖锐的误差爆发所打断，从而推动整个系统更好地理解世界。

从思想到行动：选择的逻辑

贝叶斯大脑不是一个被动的观察者，仅仅试图构建关于世界的最准确的图景。它是一个主动的代理，不断地做出选择。主动推断（active inference）的框架将贝叶斯原理扩展到行动，提出我们选择行动的方式与我们确定信念的方式相同：通过试图最小化意外（或者更正式地说，预期自由能）。我们采取行动是为了让我们的预测成真。

但这导致了一个根本性的两难困境。你是应该利用你已知的好选择，还是应该探索可能更好的新选项？这就是经典的“探索-利用”（exploration-exploitation）权衡。贝叶斯框架为我们提供了一种优美的方式来形式化这一点：策略精度（policy precision）。想象你有几个行动计划，每个都有一个期望值。高策略精度意味着你的行动像激光一样，无情地选择你已确定的最佳选项（利用）。低策略精度意味着你更具随机性，更愿意尝试第二或第三好的选项，以防万一（探索）。

奇妙的是，这个抽象的计算“旋钮”似乎在大脑中有一个物理位置：基底节（basal ganglia），并由神经递质多巴胺（dopamine）调节。基底节的回路，以其著名的“Go”（直接）和“NoGo”（间接）通路，似乎实现了这种增益控制。更多的基础多巴胺，通过兴奋“Go”通路和抑制“NoGo”通路，似乎能增加策略精度，促使我们进行利用。这就是为什么兴奋剂有时能增加对单一任务的专注力。相反，减少多巴胺作用的状况或药物可以降低这种精度，使我们的选择更加随机和探索性。突然之间，决策的一个根本性挑战被置于特定大脑回路和分子的相互作用之中。

当模型误入歧途：精神健康的新视角

也许贝叶斯大脑假说最深远的影响是在精神病学领域。它将精神疾病重新定义为并非“化学失衡”或性格弱点，而是一台有故障的推断机器所产生的合乎逻辑但痛苦的后果。一个障碍的症状可以被看作是大脑在给定一套错误的假设——特别是精度的失调——下对一个问题的最佳解决方案。

感觉的重负：自闭症与焦虑症

思考一下感觉超载的体验，这是自闭症谱系障碍（ASD）的一个标志。在预测性编码框架内，这可以被理解为大脑对自下而上的感觉预测误差赋予了异常高的精度。就好像传入感觉数据的“音量旋钮”被卡在了最高档。荧光灯的每一次微小闪烁，远处的每一次低语，都被当作一个紧急、高度可靠的信号来处理，压垮了系统过滤噪音的能力。大脑无法忽视与其预测的微小偏差，导致世界感觉上极其强烈和不可预测。

类似的机制可能在焦虑障碍中起作用，但带有一个关键的情境转折。在这里，大脑并非调高所有感觉输入的音量，而是特别针对可能预示威胁的信号。一个焦虑的大脑可能对其自身中性的、自上而下的信念（例如，“这个社交场合是安全的”）的信心降低（精度较低），而对任何可能被解释为危险的自下而上的感觉证据（例如，一个中性的面部表情被视为敌意）的信心则过度膨胀（精度较高）。结果是一个感知系统持续偏向于推断威胁，一种高度警觉的状态，其中最轻微的模糊性也被解释为最坏的情况。

期望的暴政：躯体障碍与抑郁症

虽然某些疾病可能源于对感觉证据的过度加权，但其他疾病似乎源于相反的问题：自上而下的预测或先验过于强大和精确。

思考一下慢性疼痛状况，如功能性腹痛或肠易激综合征（IBS），在这些情况下，尽管没有明确的器质性原因，却出现了显著的痛苦。预测性编码框架提供了一个强有力的解释。如果一个人形成了一个关于自己正在经历疼痛的强烈、精确的先验信念（可能源于过去的疾病），这种期望就可能成为一个自我实现的预言。对疼痛的自上而下的预测实际上可以通过下行神经通路改变对来自肠道的嘈杂信号的处理。大脑基本上“告诉”身体产生与疼痛一致的信号，然后又通过其不可动摇的先验信念的透镜来解释这些信号。这就形成了一个恶性循环：期望疼痛会产生疼痛信号，而这又证实了期望，从而进一步加强了先验。

这种“先验的暴政”在像躯体症状障碍（Somatic Symptom Disorder）这样的疾病中也很明显，患者会经历令人痛苦的身体症状。一个强大、高精度的先验信念（“我病得很重”）可以完全主导那些嘈杂、良性的身体感觉。即使来自身体的自下而上数据很弱（在10分制上为 $s=2$ ），一个高精度的疾病先验信念（ $\mu_0 = 5$ ， $\tau_0 = 10$ ）也会将最终的知觉（后验）几乎完全拉向先验，使人尽管有相反的客观证据也感觉自己生病了。这种信念是如此僵化，以至于拒绝被现实所更新。

这种逻辑延伸到了情绪和信念的核心。在精神病性抑郁症中，为什么妄想常常与心境一致（例如，内疚、贫穷或虚无的主题）？为什么信念如此坚定？贝叶斯视角表明，一种强烈的负面情感状态就像一个精度极高的先验。那种压倒性的无价值感不仅仅是一种感觉；它是一种强大的推断偏见。它极大地增加了任何与之一致的假设的先验概率（“我犯下了不可饶恕的罪”）。这再结合一个异常的突显系统（可能由多巴胺介导），该系统将任何证实性的证据碎片“标记”为高度重要，从而创造出一种几乎不可动摇的妄想性信念，将人与现实隔绝开来。

分裂的自我：分离与偏执

该框架甚至可以触及一些最深刻的自我同一性障碍。什么是“自我”，不就是我们最高层次的生成模型——一系列关于我们是谁、我们的历史和我们性格的深层先验吗？在分离性神游（dissociative fugue）这种奇异现象中，一个人突然失去身份，并可能前往一个新地方。预测性加工的解释可能会假设这是自我模型的灾难性失败。在难以忍受的压力下，自我模型（“我是个好人”）与传入的证据（“我经历/做了一些可怕的事情”）之间的冲突所产生的预测误差可能变得如此难以处理，以至于大脑唯一的解决方案是一个极端的措施：将整个高层自我模型的精度调低到接近于零。它有效地“拔掉”了旧的身份以逃避意外。这提供了一种新的、计算上明确的机制，与经典的心理动力学压抑理论形成对比，并且它对与自我相关的网络（如默认模式网络）中的大脑活动做出了可检验的预测。

重校大脑：治疗的新前沿

将病理学理解为推断问题不仅给了我们一种新的语言；它还给了我们新的治疗思路。如果问题在于先验和证据的权重分配不当，那么解决方案必须是重新校准它们。

这一视角可以改进现有的疗法。例如，它为治疗偏执的认知行为疗法（CBT）提供了一个新的视角。从CBT的角度来看，治疗包括挑战核心信念和减少安全行为（如回避）。从预测性编码的角度来看，这些干预措施正在做一些非常具体的事情：行为实验是强迫系统采样新的、不一致数据的一种方式，而减少安全行为则阻止患者将这些新证据解释掉。其目标是增加安全的感觉证据的精度（ $\pi_L$ ），直到它足够强大以更新对威胁的过分精确的先验信念（ $\pi_p$ ）。

更令人兴奋的是，这个框架激发了全新的治疗方法。思考一下对迷幻剂辅助心理治疗重新燃起的兴趣。REBUS（迷幻剂下信念松弛）模型提出，作用于 $5-\text{HT}_{2A}$ 受体的血清素能迷幻剂做了一件非凡的事情：它们选择性地降低了高层先验的精度。它们“放松”了那些支撑着许多精神疾病的自上而下的信念。这暂时地“夷平”了大脑的推断景观，使得根深蒂固的、病态的关于自我和世界的叙事，能够在新的证据——无论是感觉的、情感的还是治疗性的——光照下被重新审视和修正。它创造了一个宝贵的神经可塑性窗口，在这个窗口中，大脑的世界模型可以被从根本上重塑。

从单个神经元的放电到我们身份的构造，从我们选择的逻辑到精神疾病的迷宫，贝叶斯大脑假说提供了一条单一、统一的线索。它揭示了可能支配我们内在宇宙的深刻而优雅的逻辑，表明即使是我们最深重的挣扎，也并非一台破碎机器的标志，而是一个预测引擎在逆境中努力理解这一切的证明。