贝叶斯解码

玻尔百科

定义

贝叶斯解码是统计学和机器学习中的一种正式过程，通过将初始先验假设与新的证据（似然）相结合来更新后验信念。该推断机制为神经科学、人工智能和遗传学等领域在不确定性下的解码问题提供了统一框架。贝叶斯解码能够解释噪声感官数据并支持最优决策，在机器学习模型中还可作为一种正则化手段来防止过拟合。

核心要点

贝叶斯解码是一个规范化的过程，通过将初始假设（先验）与新证据（似然）相结合来更新信念（后验）。
“贝叶斯大脑”假说认为，大脑利用这种推断过程来解释充满噪声的感官数据，并做出最优决策。
在机器学习和统计学中，先验可作为一种正则化形式（例如在 Ridge 和 Lasso 回归中），用于强制模型简化以防止过拟合。
贝叶斯推断提供了一个统一的框架，用于解决神经科学、医学成像、遗传学和人工智能等不同领域在不确定性下的解码问题。

引言

大脑如何理解一个充满模糊视觉和声音的世界？从识别黑暗中的微弱声响到做出复杂决策，我们的心智始终面临着从不完整和充满噪声的信息中得出确定结论的挑战。这种有根据的猜测过程并非随机；它遵循一种精确而强大的逻辑，即贝叶斯推断。本文旨在揭开贝叶斯解码的神秘面纱，它是一种在不确定性下进行推理的规范化框架，被认为是神经计算和前沿人工智能的基础。我们将从该理论的基础数学出发，探讨其在整个科学领域的广泛影响。第一章“原理与机制”将解析贝叶斯逻辑的核心组成部分，从著名的贝叶斯法则到先验信念在形成我们结论过程中的关键作用。随后的“应用与跨学科联系”一章将揭示这一思想如何统一我们对从大脑的感觉知觉到医学图像重建乃至自觉人工智能创造等万物的理解。

原理与机制

有根据猜测的逻辑

想象一下，你身处一个安静的房间，听到一阵微弱而有节奏的敲击声。这是什么声音？是水龙头漏水？还是树枝敲打窗户？你的大脑在瞬间完成了一项非凡的推理。它接收模糊的感官数据——敲击声——并将其与庞大的过往经验库相结合，形成一系列有根据的猜测，并按可能性大小进行排序。这个面对新证据更新信念的过程，不仅仅是思维的技巧；它是一项基本的推理原则，它的名字是：贝叶斯推断。

这一过程的核心是一个简单却极其强大的方程，即贝叶斯法则。其本质在于，该法则告诉我们在观察到一些证据（ $E$ ）之后，如何更新我们对一个假设（ $H$ ）的信念：

p(H \mid E) \propto p(E \mid H) \times p(H)

让我们像侦探办案一样，把它分解成三个关键部分：

先验， $p(H)$ ：这是你在看到证据之前对假设的初始信念。就像是偵探最初的怀疑。在我们敲击声的例子中，你认为声音来自漏水龙头的先验信念，可能远高于你认为是你房子里有只啄木鸟的信念。
似然， $p(E \mid H)$ ：它量化了如果你的假设为真，你观察到该证据的可能性有多大。如果假设是“水龙头漏水”，听到这种特定敲擊声的概率是多少？这是因果之間的联系。在神经科学中，这通常被称为编码模型：它描述了在给定特定刺激（假设）的情况下，出现特定神经反应（证据）的概率。
后验， $p(H \mid E)$ ：这是最终的结果。它是在考虑证据之后，你对假设更新后的信念。偵探将他们最初的怀疑（先验）与线索的一致性（似然）相结合，得出一个新的、更具信息量的怀疑（后验）。对大脑而言，这代表了在给定神经活动模式的情况下，某个特定刺激的概率——这正是解码的精髓。

贝叶斯法则是将先验转化为后验的引擎。它是从经验中学习的规范化方法。

到底什么是“概率”？

在进一步讨论之前，我们必须解决一个深刻的哲学问题，这个问题将统计学界一分为二。像“ $p(H) = 0.7$ ”这样的表述究竟意味着什么？

一种思想流派，即频率派方法，将概率定义为长期频率。如果你将一枚均匀的硬币投掷一百万次，它出现正面的次数大约是50%。这种观点对于可重复的实验非常有效。但它有一个奇怪的局限性：你不能用它来讨论单一、独特事件的概率。一个频率派学者不能谈论“Einstein 的相对论为真的概率”，因为它不是一个可以重复的实验。它要么是真的，要么不是。

贝叶斯解释是我们在此感兴趣的，它将概率视为一种信念程度或置信度的衡量。它是关于我们对世界知识的陳述，而不仅仅是世界本身的一个属性。这使我们能为几乎任何事物赋予概率，包括独特的假设，如“敲击声是水龙头漏水引起的”或“我们新软件功能的用户满意度真实比例在 83% 到 87% 之间”。这是一种截然不同，且对许多人来说更为直观的思维方式。

大脑在面临决策时，必须对此时此刻发生的独特、不可重复的事件采取行动。它无法等到一百万个相同的宇宙展开来计算频率。它必须根据当前的信念状态下注。这就是为什么贝叶斯大脑假说认为，神经计算基本上是贝叶斯的，通过操作信念程度来推断感官信号的隐藏原因。

这种哲学上的分歧带来了一个非常实际的后果。当一位贝叶斯统计学家报告一个 $[0.83, 0.87]$ 的“95%可信区间”时，他们是在做一个直接、直观的陈述：“根据我所看到的数据，我试图估计的真实值有95%的概率落在这个范围内”。这与频率派的“置信区间”不同，后者的解释更为 convoluted，关乎计算方法本身的长期成功率。贝叶斯方法允许我们直接谈论我们关心的事情：我们对世界的不确定性。同样的逻辑可以从估计一个单一数字扩展到识别一组可能的罪魁祸首，例如，在一大组基因变异中精确定位哪些可能是导致某种疾病的 causal variants。

先验的力量：从假设到稀疏性

先验， $p(H)$ ，也许是贝叶斯框架中最具争议也最强大的部分。它是我们假设的数学体现。如果你听到蹄声，你会先猜“马”而不是“斑马”，因为在你家附近出现马的先验概率要高得多。一个强先验可以有力地引导你的推断，尤其是在证据薄弱或模糊时。相反，一个弱的或“平坦的”先验代表无知，让数据自己说话。

在现代机器学习和统计学中，先验被赋予了新的生命，成为一种正则化形式——一种防止模型变得过于复杂并拟合数据中噪声的方法。选择先验等同于选择一种你希望强加于解决方案的特定简约性。两个著名的例子是 Ridge 和 Lasso 回归。

想象一下，你正试图根据一百个不同的经济指标来预测某支股票的价格。这些指标中有很多可能只是无用的噪声。

Ridge 回归：这相当于对每个指标的重要性施加一个高斯先验。高斯（钟形曲线）先验表明一种信念，即大多数指标的影响会很小，集中在零附近，而非常大的影响是不太可能的。这种先验的作用是将所有指标的估计重要性都向零收缩，但很少会使任何一个指标完全为零。这是一种全面应用的温和怀疑主义。
Lasso 回归：这相当于对每个指标的重要性施加一个拉普拉斯先验。拉普拉斯先验在零处有一个尖峰，并且比高斯分布有更重的尾部。这对应于一种更强的信念：它假设大多数指标是完全不相关的（它们的重要性完全为零），只有少数几个有显著影响。这会产生一个稀疏解，自动选择一小部分最重要的指标并丢弃其余的。这种特征选择是自动发生的，因为拉普拉斯先验在零处的尖銳“尖点”对小系数起到了磁铁般的作用。

大脑从哪里获得它的先验？通过学习。高效编码假说提出，感觉神经元会调整它们的反应以适应环境的统计规律性。如果在自然界中某些刺激（比如垂直和水平边缘）比斜向边缘常见得多，那么视觉皮层的神经元会将更多的动态范围和敏感性用于编码那些频繁出现的刺激。通过这样做，神经元的反应函数，即其“调谐特性”，就内在地代表了它所设计用来观察的刺激的先验概率分布。先验不仅仅是一个抽象的假设；它被铭刻在我们神经硬件的结构中。

实际运作机制

让我们看看这个过程是如何运作的。假设一个神经元对刺激 $s$ 的反应 $r$ 是有噪声的，并以真实值为中心：似然 $p(r|s)$ 在 $s=r$ 处达到峰值。现在，假设大脑有一个先验信念，认为较小的刺激更常见，这个假设可以通过一个指数先验 $p(s) \propto \exp(-s/\lambda)$ 来捕捉。当观察到一个反应 $r$ 时，大脑不只是猜测刺激是 $r$ 。相反，它结合了似然（将估计拉向 $r$ ）和先验（将估计拉向零）。最终的最佳猜测，即最大后验（MAP）估计，是一个折衷： $\hat{s}_{MAP} = r - \sigma^2/\lambda$ （只要结果为正）。先验扮演着系统性修正的角色，将原始测量值拉回到刺激空间中一个更合理的区域。

这种预测和修正的循环是许多现代技术的基础。著名的 Kalman 滤波器，从火箭制导到你手机的 GPS 都有它的身影，是递归贝叶斯推断的一个优美实现。它从关于一个物体状态（其位置和速度）的先验信念开始，并用它来做出预测。当一个新的、有噪声的观测到来时，它计算该观测的似然，并使用贝叶斯法则计算一个后验——对物体状态的更新、更准确的分析。这个后验随后成为下一个循环的先验。这是信念与证据之间持续而优雅的舞蹈。

注意：地图并非疆域

尽管贝叶斯框架功能强大，但它也伴随着一个关键警告：结论的好坏取决于模型本身。先验和似然是我们对世界做出的假设。它们是地图，而不是疆域。

如果你的模型假设世界是平滑的，而实际上它是锯齿状的，你的贝叶斯推断会自信地得出一个 krásně hladký 但却是错误的答案。你的模型可能会报告其结论具有高度的确定性，但这只是在假设正确的前提下的确定性。如果假设被违反，实际性能可能会很差，这一事实可以用预测风险等指标来量化 [@problemid:3418410]。

此外，虽然像 MAP 估计这样的捷径很有用，但它们只给出了后验分布的“峰值”，忽略了其宽度和形状，而这些信息包含了关于我们不确定性的关键信息。一个完整、诚实的贝叶斯分析需要处理整个后验分布。一些常见的做法，比如使用交叉验证来调整 Lasso 中的惩罚项，雖然功能強大，但应被視為實用的混合方法，而非純粹的貝葉斯程序，因為它們沒有完全考慮到所有不确定性的來源。

贝叶斯解码的真正美妙之处不在于提供一个单一的、最终的答案，而在于为不确定性下的推理提供一种完整且连贯的语言。它教导我们用分布而非单一数字来思考；明确我們的假設；并以有原则的方式随着对世界了解的加深而更新我们的信念。归根结底，它是常识的数学。

应用与跨学科联系

在了解了贝叶斯推断的原理之后，我们可能会倾向于将其视为一个简洁、自成体系的数学分支。但这样做就完全错失了重点。这个框架真正的力量和美妙之处不在于其抽象的形式主义，而在于其惊人的普适性。它是一面审视世界的透镜，一种在不确定性面前进行推理的通用语言。一旦你学会了说这种语言，你就会开始在各处看到它的语法，从你自己心智的内部运作到人工智能的前沿，再到关于我们演化历史的最深层问题。这不仅仅是统计学家的工具；它是一条连接着一系列惊人多样科学学科的线索。

大脑作为贝叶斯推断引擎

贝叶斯解码最自然、最深刻的应用或许在于理解我们所知的最复杂机器：人脑。大脑生活在一个“暗室”——头骨之中，只能通过我们的感官从外部世界接收间接、嘈杂和模糊的信号。然而，它从这股损坏的数据洪流中，构建出一个稳定、丰富且有用的现实模型。它是如何做到的？“贝叶斯大脑”假说认为，大脑本质上是一台推断机器。

想象你触摸一个既不明显热也不明显冷的表面。你的皮肤含有不同类型的感觉神经元——一些对温暖反应更强烈，另一些则对寒冷反应更强烈。它们的信号天生就有噪声，就像收音机线路上的静电。来自“温暖”感受器的某个放电率并不能唯一确定温度；它只提供了一条线索。同时，你也有先验预期。如果你在天气宜人的一天待在室内，你会期望物体表面接近室温。一个关于知觉的贝叶斯模型表明，大脑将给定某个温度下观察到的神经放电模式的似然，与它对温度可能值的先验期望相结合。结果是一个后验信念——你对温度的主观感知。这不仅仅是一个假设场景；它是一个精确、可检验的感觉整合模型，神经科学家可以通过使用诸如永远有用的高斯分布等来建模放电率和先验信念进行探索。

这个原则超越了单一感觉，延伸到复杂的决策。考虑一下你如何在一瞥之间识别一个物体。你的视觉皮层包含数百万个神经元，每个都“调谐”到偏好特定特征，如特定方向的边缘。当你看到一幅图像，比如一条倾斜的线时，这些神经元中的一整个群体会放电。那些其偏好方向与刺激相匹配的神经元会剧烈放电；其他的则不然。一个贝葉斯解码器会把这种群体范围的活动模式作为它的证据。对于一个简单的辨别任务——这条线是向左倾斜还是向右倾斜？——大脑可以计算对数后验几率，这是一个单一的数字，它权衡了一个选择相对于另一个选择的证据。这个决策变量优雅地结合了来自每个神经元的“投票”，并根据每个神经元反应的信息量进行加权，同时加入了你可能对某个方向的任何先验偏见。这种解码器的数学形式直接源于神经放电的统计特性（通常建模为泊松过程），它展示了来自单个神经元的尖峰脉冲是如何被加总和加权以产生一个单一、最优的决策的。

这种认为知觉是“无意识推断”过程的观点并不新鲜。伟大的19世纪物理学家和生理学家 Hermann von Helmholtz 早在贝叶斯统计的语言被形式化之前就提出了这一观点。他认为，我们的知觉不是对现实的直接读取，而是大脑对其感官信号原因的“最佳猜测”，这个猜测是基于过去的经验。一个现代临床医生在解读一个有噪声的医疗仪器读数时，也在执行类似的任务：将关于患者状况的先验信念（基于其病史）与来自仪器的新、不确定的证据相结合。通过将先验信念和仪器的噪声都建模为高斯分布，我们可以推导出后验估计，它是两者的加权平均——这与 Helmholtz 的无意识推断是完美的数学模拟。大脑似乎一直在做统计。

超越大脑：科学的通用语法

贝葉斯推断的逻辑是如此基础，以至于它的应用远远超出了大脑。它为处理医学成像、材料科学和演化生物学等不同领域的“解码”问题提供了一个共同的框架。

考虑一下像 SPECT（单光子发射计算机断层扫描）这样的医学成像技术所面临的挑战。目标是在体内重建示踪剂分布的三维图像，但原始数据只是投影——由身体外的探测器记录的活动的阴影。这是一个经典的“逆问题”：我们想从观察到的效应（ $y$ ，探测器计数）推断出隐藏的原因（ $x$ ，图像）。由于噪声和信息丢失，直接反演通常是不可能的。在这里，贝葉斯方法具有变革性。我们可以根据光子计数的物理原理（一个泊松过程）写下一个似然函数。至关重要的是，我们还可以为图像指定一个先验分布， $p(x)$ 。这个先验编码了我们关于医学图像外观的知识；例如，它们通常是平滑的，而不是由随机的、像素间的噪声组成。一个常见的选择是高斯马尔可夫随机场（GMRF）先验，它惩罚相邻像素之间的巨大差异。这个先验有超参数，控制图像的总体预期方差及其空间相关长度——也就是我们预期它有多“平滑”。最终的 MAP 估计是在拟合数据（似然）和满足我们对平滑度的期望（先验）之间取得平衡，使我们能够从嘈杂、不完整的数据中“解码”出清晰的图像。

这种将先验作为整合现有知识方式的想法出现在许多领域，有时以不同的名称出现。在晶体学中，当从衍射数据精修晶体结构时，科学家们经常应用“约束”来引导键长或原子振动趋向于从其他实验中获得的化学上合理的值。一个贝葉斯视角揭示，这些约束不是一种临时的技巧；它们在数学上等同于对那些结构参数施加一个高斯先验。一个约束的权重就是先验方差的倒数——我们的先验知识越确定，那个“约束”就越强。同样地，在计算化学中，像用于计算自由能差异的 Bennett Acceptance Ratio (BAR) 等方法可以被优雅地置于贝葉斯框架中，其中先验信息可以用来正则化估计，尤其是在数据稀疏或信息量不足时。

贝葉斯推断的触角甚至延伸回了过去。遗传学家试图确定一个基因是否与某种疾病相关，实际上是在解码用遗传语言写成的信息。著名的 LOD 得分是遗传连锁分析的基石，它有一个直接的贝葉斯解释。它是一个贝葉斯因子的以10为底的对数——一种衡量在一个家族中观察到的遗传模式在多大程度上增加了连锁相对于无连锁的几率的度量。追溯得更远，演化生物学家可以“解码”早已灭绝的祖先的特征。通过建模性状如何沿着系统发育树的分支演化，他们可以利用现存物种的性状（数据）来计算祖先具有某种特征（例如，是水生的还是陆生的）的后验概率。这涉及到对模型中所有不确定性进行积分，比如演化变化的速度，以获得祖先状态的边际后验——这是对过去的真正重建。

现代前沿：贝葉斯人工智能与机器学习

近年来，贝葉斯推断的原理与机器学习的力量相结合，创造出新一代的智能系统，它们不仅能做出预测，还能对自己 uncertainty 进行推理。

传统的回归模型通常假设一个固定的函数形式（例如，一条直线）。但如果我们不知道我们试图学习的关系的形状怎么办？高斯过程（GP）回归提供了一个强大的贝葉斯解决方案。GP 不是对函数参数施加先验，而是直接对所有可能函数的空间施加先验。这是一种灵活的、非参数化的方法，让数据自己说话。当用于神经解码时，GP可以学习从神经放电模式到行为变量的复杂映射，而无需限制性假设。值得注意的是，GP回归的数学揭示了一个美丽的对偶性：它的平均预测器与一种著名的称为核回归的方法相同。但GP提供了更多东西：一个完整的后验预测分布，包括在数据稀疏区域变宽的可信区间。它不仅告訴我們它的預測是什麼，还告訴我們它对該預測有多自信。

这种量化不确定性的能力或许是贝葉斯思维对现代人工智能最重要的贡献。考虑一个用于高风险任务的深度神经网络，比如根据卫星图像预测降水。一个标准的网络可能输出一个单一的数字，但贝葉斯方法追求更多。使用像变分 dropout 这样与贝葉斯近似有深刻联系的技术，我们可以训练能夠捕捉自身不确定性的深度学习模型。这使我们能够将总预测不确定性分解为两个不同的组成部分：偶然不确定性，即天气本身的内在随机性，以及认知不确定性，它反映了模型由于训练数据有限而产生的无知。知道这两者之间的区别至关重要：如果模型不确定是因为天气本质上是混沌的，我们能做的很少。但如果它不确定是因为它从未见过像当前这样的情况，我们就知道需要收集更多的数据。这种对不确定性的 principled 处理，通过将像 dropout 这样的方法解释为贝葉斯近似而成为可能，正在改变那些可靠决策至关重要的领域。

从单个神经元的放电到全球天气模式的预测，贝葉斯推断的逻辑提供了一条统一的线索。它是常识的数学形式化：从你所知道的开始，权衡新证据，并更新你的信念。在看到这个简单的思想如何在如此多的学科中发挥作用时，我们不仅看到了它的实用性，还看到了它固有的优雅和美丽。它證明了科學思想深刻而常常令人驚訝的統一性。