
在现代科技领域,我们淹没在数据的海洋中,却又充满了不确定性。在这样的背景下,一种有数百年历史的思维方式——贝叶斯方法——已成为一种变革性的工具。它不仅仅是一种统计技术,更是在信息不完整的情况下进行推理、学习和决策的基本框架。其力量在于它与科学过程本身的直观契合——从我们已知的事物出发,收集证据,并相应地更新我们的知识。
支撑这种强大方法的核心转变,是对概率这一定义的重新审视,这使其与长期占主导地位的频率学派思想形成鲜明对比。本文旨在探讨这两种观点之间的差异,并阐明为何贝叶斯观点在处理我们今天面临的许多复杂推断问题时具有独特的优势。
在接下来的章节中,我们将首先深入探讨贝叶斯推断的“原理与机制”,探索构成学习引擎核心的先验、似然和后验等概念。然后,我们将涉足“应用与跨学科联系”的广阔领域,看这些原理如何被用来为无形世界创造显微镜,为过去创造时间机器,甚至为心智本身构建蓝图。
要真正掌握一种新的思维方式,我们必须从其核心的、简单的思想开始,而不是从复杂的细节入手。对于贝叶斯方法而言,这个核心思想源于一个出人意料的基本概念的转变:概率本身的含义。
什么是概率?几代人以来,科学界的主流答案一直是频率学派的观点。在这个世界里,概率是某个事件在大量、多次相同重复中发生的长期频率。如果你说一枚硬币正面朝上的概率是0.5,一个频率学派学者会理解为,如果你把它抛掷成千上万次,正面朝上的比例将趋近于二分之一。这是一个植根于可观察世界的、直观的、物理的概念。
但如果我们无法重复一个实验呢?William Shakespeare写下那些归功于他的剧作的概率是多少?恐龙因小行星撞击而灭绝的概率是多少?我们无法重演这些事件。频率学派将概率定义为长期频率的观点在这里变得沉默而尴尬。
这时,贝叶斯学派的观点应运而生,提供了一种不同且更广阔的视角。对于贝叶斯学派来说,概率不是事件的频率,而是关于一个命题的置信度。它是我们确定性或不确定性的度量。在这个框架下,谈论一次性事件的概率是完全合理的,因为我们可以对其持有不同程度的信念。
这种哲学上的分歧对我们如何进行科学推断产生了深远的影响。想象一下,我们正在研究一种新药的疗效。我们可以称其真实、潜在的疗效为 。
这似乎只是一个微妙的视角转变,但它却是打开新世界大门的钥匙。通过将未知参数视为随机变量,贝叶斯主义开启了一种全新的、强大的、并且可以说更直观的推理方式,来处理证据并更新我们的知识。
如果概率是信念,那么学习就是在面对新证据时更新该信念的过程。驱动这一过程的数学引擎是一个简单而优雅的公式,即贝叶斯定理。它并非什么深奥的数学,而是改变想法的逻辑规则。
其本质上,贝叶斯定理表述为:
让我们来分解这些部分,因为它们构成了每个贝叶斯分析的核心:
先验 是你在看到数据之前对一个参数的信念。例如,在一项校准气候模型的研究中,与光合作用相关的参数的先验可能来自数十年对植物生理学的实验室实验。这并非弱点或“偏见”的来源,而是对我们假设的明确陈述,也是一种将现有知识融入模型的强大方式。
似然 是数据的代言人。它提问:如果参数的真实值为 ,我们实际收集到的数据的观测概率是多少?似然将我们关于世界的抽象假设()与具体证据(数据)联系起来。
后验 是计算的结果——我们在考虑证据之后对参数的更新信念。它是一种巧妙的折衷,是我们先前的想法与新数据所揭示信息之间的加权平均。
这个过程是连续的。随着我们收集更多数据,今天的后验可以成为明天的先验。它本身就是科学方法的一个正式、量化的模型:从一个假设(先验)开始,收集证据(数据),然后完善假设(后验)。
贝叶斯方法最美妙的方面之一是它对不确定性的诚实和明确的处理。传统方法通常以一个单一的点估计——即“最佳”答案——以及一个置信区间告终。然而,95%置信区间的含义很特殊:它是一个声明,即如果你重复实验一百次,你计算出的区间中有95个会包含真实参数。请注意,这并非关于参数本身的直接陈述;而是关于计算方法长期表现的陈述。
相比之下,贝叶斯方法提供了参数的整个后验分布。这不仅仅是一个数字;它是我们所知和所不知的全貌。它告诉我们最可能的值(分布的峰值),但也向我们展示了其他所有可能值的完整范围,以及我们的信念是如何分布在这些值上的。
想象一下,你是一名进化生物学家,试图重建生命之树。传统方法可能会给你单一的“最可能”的树。而贝叶斯分析则会给你一整片可信的树林,每棵树都有一个相关的后验概率,代表我们在给定数据下对其的相信程度。你可能会发现,一种树拓扑的后验概率为0.85,另一种为0.10,第三种为0.05。这提供了丰富得多的信息!它告诉你,虽然有一棵树是明显的首选,但仍有不可忽略的可能性表明另一种选择是正确的。你还可以提出这样的问题:“无论其他关系如何,物种A和B形成一个独特群组的概率是多少?”只需将包含该分组的所有树的概率相加即可。
这种直接量化不确定性的能力,为我们提供了更丰富、更诚实的知识总结。对于一个远古祖先的特征,贝叶斯方法不会给出一个看似确定的单一答案,而是可以揭示,虽然某种状态最有可能(例如,60%的概率),但另一种不同的状态仍然相当可信(40%的概率),这反映了数据中真实的模糊性。这可以防止我们夸大我们的确定性,并引导未来的研究指向我们模型中最不确定的部分。
对贝叶斯方法的一个常见反对意见是先验是“主观的”。但这没有抓住重点。先验使我们的假设明确且可检验。此外,在许多现实场景中,尤其是在数据稀缺或嘈杂的情况下,一个精心选择的先验不是一个缺陷,而是一个具有巨大力量的特性。
考虑一个只有12名患者的新药小型试点研究。样本量如此之小,结果可能因随机机会而极具变数。仅依赖这12个数据点的频率学派分析可能会产生一个非常大且不确定的药物效应估计。现在,假设我们有来自先前类似药物研究的先验信息,表明非常大的效应在生物学上是不太可能的。贝叶斯分析可以将这一知识作为先验分布纳入。由此产生的后验估计将是一种折衷:它将被从小数据集中看到的极端值拉回,或“收缩”到先验所指示的更合理的范围。这不是作弊;这是一种稳定估计并更好地平衡偏差与方差的原则性方法,通常会得到更准确的最终结论。
这种“借用力量”的思想在贝叶斯分层模型中得到了最优雅的体现。想象一下,你正在研究从一个生物体不同组织中取样的细胞的转录反应。你可以完全独立地分析每个组织(“不汇集”),但你会丢失它们都来自同一个生物体的信息。或者,你可以将所有细胞混在一起(“完全汇集”),但你会忽略组织间真实的生物学差异。
分层模型做的事情要聪明得多。它按照系统真实的样子——嵌套式——来建模。它包含了每个组织的参数,但同时也指定这些参数本身是从描述整个生物体的更高层级分布中抽取的。在实践中,这意味着每个组织的估计都被部分汇集,或收缩,向总体平均值靠拢。拥有大量数据的组织,其估计将能自成一体。数据稀疏、嘈杂的组织,其估计将从其他组织“借用力量”,从而得到更稳定、更合理的结果。这个强大的思想使我们能够以一种既统计高效又科学直观的方式,为复杂的、结构化的系统建模。
你可能会想,如果这种方法这么好,为什么不是一直都这样做呢?事实是,虽然核心思想已有数百年历史,但其实际应用常常困难到不可能完成。计算后验分布需要解复杂的积分,这只对最简单的玩具问题才可行。
20世纪末的贝叶斯革命是由计算机革命推动的。诸如马尔可夫链蒙特卡洛(MCMC)等算法被开发出来,提供了一种巧妙的变通方法。MCMC算法不是通过解析方式解积分,而是在可能的参数值空间中进行“随机游走”。这种游走被巧妙地设计,使其在任何特定区域停留的时间与该区域的后验概率成正比。通过长时间运行模拟并追踪其轨迹,我们可以构建出整个后验分布的高分辨率图像,即使对于有数千个参数的模型也是如此。这使我们能够执行所谓的贝叶斯模型平均——在所有可能的模型上累加证据,而不是仅仅依赖一个——而无需明确地枚举所有模型。
这就引出了最后一个区分贝叶斯和频率学派世界的美妙而微妙的原则:似然原则。贝叶斯推断通过其对 公式的依赖,内在地遵守了这一原则。该原则指出,实验中关于参数的所有证据只包含在似然函数中。这意味着你的最终推断只取决于你实际观察到的数据,而不取决于你可能观察到的数据,或你设计实验时的意图。
例如,在临床试验中,如果研究人员多次“偷看”数据,频率学派分析就必须进行调整,因为这些多次查看在长期来看会增加假阳性的概率。然而,贝叶斯分析不需要这样的调整。后验信念是根据分析时可用的数据进行更新的。如果你本可能在数据不同时更早停止试验,这一事实与你实际得到的数据的似然无关。证据就是证据。这个优雅的特性简化了许多复杂的统计挑战,并使统计推断过程更接近于纯粹的证据推理逻辑。
在我们了解了贝叶斯推断的原理和机制之后,你可能会想:这是一个美丽的理论结构,但它有何用途?我们能用它做什么?事实证明,这种思维方式不仅仅是一个抽象的数学游戏;它是一个理解世界的强大透镜,也是构建智能系统的多功能工具。同样的核心思想——根据新证据更新我们的信念——在看似迥异的科学和工程领域中反复出现,将它们统一起来。让我们来浏览其中一些应用。你会看到,贝叶斯推理就像一种解决推断问题的通用溶剂,让我们能够为无形世界构建显微镜,为过去构建时间机器,为心智本身构建蓝图。
科学的很大一部分工作是测量我们无法直接看到的东西。一个细胞内部的回收系统工作有多快?一个病人血液中病毒的真实浓度是多少?对于特定的人来说,一种危险但能救命的药物的正确剂量是多少?这些都是关于“潜变量”——我们只能通过间接和嘈杂测量的迷雾瞥见的隐藏量——的问题。贝叶斯推断提供了一种有原则的方法来穿透那层迷雾。
想象一下,你是一名细胞生物学家,试图测量“自噬通量”,即细胞回收自身成分的速率。你不能直接给它装上一个速度计。相反,你有一系列的检测方法:你可以测量某些蛋白质水平的变化,追踪细胞区室的酸度,或者观察荧光标签随时间褪色。每一次测量都是一条线索,但每一条都充满噪音、是间接的,并且有其自身的尺度。你的一些实验甚至可能失败了,留下了缺失的数据。你该怎么办?贝叶斯方法鼓励你建立一个生成模型:一个用数学写成的故事,描述你关心的隐藏通量将如何生成你观察到的测量结果。这个模型成为你似然函数的一部分。然后你加入先验来编码常识性的生物学约束,比如速率不能为负。接着贝叶斯法则施展其魔力:它将这个故事反转过来,利用你实际的、混乱的测量数据,为隐藏的通量生成一个后验概率分布。这是一种系统地融合所有证据、尊重每一份证据中的不确定性,从而为这个无形过程描绘出最完整画面的方法。
同样的原理也让我们能够描述分子的动态特性。许多蛋白质,尤其是所谓的“内在无序”蛋白质,并没有单一固定的形状。它们以不同构象的动态集合形式存在,不断地变换和舞动。当我们使用像小角X射线散射(SAXS)这样的技术时,我们得到的数据是这个整个集合的模糊平均值。贝叶斯分析可以使这幅图景变得清晰。通过将数据建模为,比如说,一个紧凑态、一个中间态和一个伸展态的混合体,它可以推断出发现蛋白质处于每种状态的概率。结果不是一个静态的快照,而是对蛋白质构象生命的概率性描述。
这种量化不确定性的能力在医学中成为生死攸关的问题。当病人使用像锂这样治疗窗口狭窄的药物时,“一刀切”的剂量是一种危险的虚构 [@problem-id:4597582]。病人的年龄、肾功能和其他药物会显著改变他们身体清除药物的方式。基于简单比例的草率剂量增加,很容易导致毒性过量。用于治疗药物监测的贝叶斯模型就像一位智慧、经验丰富的临床医生。它从基于群体数据的先验开始——即成千上万的人对该药物的平均反应。然后,它利用来自个体病人的少数数据点——一次血液测试、他们的年龄、他们新联合使用的药物——并使用贝叶斯法则为该特定病人的药物清除率创建一个后验分布。这个个体化的模型随后可以模拟不同的给药方案,以回答关键问题:“对于这个人,什么剂量能以最高概率达到目标浓度,同时将毒性风险保持在可接受的阈值以下?”这是概率论在个性化、挽救生命的决策中的直接应用。从qPCR病毒载量量化(其中对扩增效率的先验帮助我们获得更诚实的不确定性区间)到临床药理学,贝叶斯推断是我们从群体知识推断个体预测的最佳工具。
过去是固定的,但我们对它的了解是不完整的。未来是未知的,但并非完全不可预测。贝叶斯推理通过严格考虑我们所知和所不知,为我们提供了一种重建历史和预测不远未来的方法。
考虑一下实时追踪一场流行病的挑战。今天报告的病例数并不反映今天的感染情况;它们反映的是几天甚至几周前发生的感染,经过了症状出现、进行检测和报告结果的延迟。真实的感染曲线被隐藏起来,被报告过程平滑和延迟了。试图从这些延迟的数据中重建“现在”是一个出了名的困难的逆问题。那些试图直接“解卷积”数据的幼稚方法通常会产生剧烈振荡、毫无意义的感染曲线,因为它们放大了报告中的每一个细微噪声。贝叶斯方法提供了一个极其简单的解决方案:平滑先验。我们可以在模型中加入一个先验信念,即今天的感染人数可能与昨天相近。这个先验,通常是一个简单的“随机游走”模型,起到了正则化的作用,惩罚了快速的日常变化并稳定了估计。它滤除了噪音,揭示了感染曲线的潜在形态,为公共卫生官员提供了关于当下情况的更清晰的画面。
这种在疫情面前指导行动的能力并非新生事物。我们可以用贝叶斯思维回到1847年的维也纳,回到Ignaz Semmelweis的诊所。他观察到产褥热的可怕致死率,并提出了一个假设:如果医生用氯溶液洗手,死亡率就会下降。他实施了这项政策,死亡率从超过骤降至左右。证据似乎势不可挡,但应如何将其形式化以说服持怀疑态度的权威机构?对这份历史数据的贝叶斯分析做了两件事。首先,它计算了后验概率:给定数据,洗手有效的信念几乎是确定的,其超过。但它还做了更多。它让我们能够计算该政策的*期望效用*。预期的死亡率降低约为。每600个新生儿,我们预计能挽救大约48条生命。这将论证从一个关于统计证据的陈述,转变为一个指导道德行动的量化指南。
这台“时间机器”的触角延伸到了最遥远的过去。我们如何确定数百万年前两个物种分化的年代?我们可以使用基于基因突变率的“分子钟”。但这口钟并不精确。另外,地质学家可以为我们提供诸如分裂一个种群的地峡形成等事件的确切日期。贝叶斯系统发育学提供了一个框架来融合这两条证据线。我们可以将地质信息编码为进化树中某个节点年龄的先验——例如,通过声明分裂不可能在某个陆桥被淹没之前发生。然后,推断过程会完美地平衡来自基因序列的信息(似然)和来自化石记录的约束(先验),以产生最可靠的生命史。每天,同样强大的逻辑被用来重建病毒的家族树,让我们能够追踪它们的全球传播并理解其演化。
到目前为止,我们已经看到贝叶斯推断被用作科学家理解世界的工具。但当我们意识到我们可以将这些相同的原则体现在构建能够自己理解世界的系统中时,一个深刻的转变发生了。
假设我们想开发一个人工智能模型来预测一个大型卫生系统中病人的风险。我们从十家不同的医院收集数据来训练我们的模型。问题在于每家医院都略有不同:病人不同,设备不同,临床实践也不同。这是一个“数据集漂移”的问题。如果我们简单地汇集所有数据并训练一个“主模型”,它在任何特定医院的表现都可能不佳,因为它忽略了重要的局部差异。如果我们为每家医院训练十个独立的模型,我们可能会为较小的医院得到嘈杂、过拟合的模型,而且我们无法为一个新的、第十一家医院做出预测。
贝叶斯分层模型提供了一个绝妙的第三条路。它不假设模型参数都完全相同(完全汇集),也不假设它们都完全独立(不汇集)。它假设它们是可交换的。也就是说,它将每家医院的参数视为从一个共同的、群体层面的分布中抽取的。它同时学习每家医院的特性和医院总体的特征。这被称为“部分汇集”,它允许较小医院的模型从较大医院“借用统计强度”,从而为所有医院带来更稳定、更可靠的估计。最重要的是,它为我们提供了一种向新医院泛化的原则性方法。因为我们已经学习了医院模型可能形态的分布,我们可以通过对该新站点所有可能的模型进行平均,从而为它做出稳健的预测。这是一个深刻而强大的思想,用于构建能够从多样化来源学习并泛化到新情况的系统。
如果这不仅仅是一个巧妙的工程技巧,而是我们所知的最复杂的学习机器——人脑——的基本设计原则呢?这是贝叶斯大脑假说惊人的主张。该理论提出,大脑的核心是一个推断机器。它假定大脑维持着一个世界的内部生成模型——一套关于其感官输入原因的丰富、复杂的信念。根据这种观点,感知不是一个被动吸收感官数据的过程。相反,感知是一个主动的推断过程。你所看到、听到和感觉到的,不是流入的原始数据,而是你的大脑对其成因的最佳猜测,这是通过贝叶斯法则反转其生成模型计算出来的。
因为对于像现实世界这样复杂的模型,精确的贝叶斯推断在计算上是不可行的,所以大脑必须使用巧妙的近似方法。关于它可能如何做到这一点的一个主要候选理论叫做预测性处理。在这个方案中,大脑的更高层皮质区域不断地生成自上而下的预测,预测低层区域应该体验到什么。低层区域则反过来报告预测与实际感官输入之间的差异——即“预测误差”。这个误差信号驱动着学习和感知,迫使大脑更新其内部模型以提供更好的预测,从而“解释掉”误差。在这种观点下,所有的感知都只是最小化预测误差的过程。
从单个细胞的内部运作到演化的宏大画卷,从拯救生命的临床决策到思想本身的架构,贝叶斯推断的简单逻辑提供了一条统一的线索。它不仅仅是一套技术;它是一种思维框架,一种表达不确定性的语言,以及在复杂和不确定的世界中理性行动的指南。