首页不当先验

不当先验

玻尔百科

定义

不当先验是贝叶斯统计学中的一个概念，指其积分不为一且不构成真实概率分布的先验分布。尽管不当先验常被用于表示无信息信仰，但它们在贝叶斯模型比较中在数学上是无效的，因为这会导致边缘似然和贝叶斯因子变得任意且无意义。在包含不可识别参数的模型中，不当先验缺乏恰当先验所具备的正规化功能，而这种功能对于解决复杂的估计问题至关重要。

核心要点

寻找普遍适用的“无信息”先验是徒劳的，因为即使是看似中性的平坦先验也会引入强烈的、通常是随意的假设。
不当先验在数学上对贝叶斯模型比较无效，因为它们会导致随意且无意义的边缘似然和贝叶斯因子。
在具有不可识别参数的模型中，正常先验可以充当正则化项，使原本无法解决的估计问题变得可解。
精心选择的先验是将现有科学知识和物理约束整合到统计模型中的重要工具，从而带来更稳健、更有意义的推断。

引言

在科学实践中，我们通过将新证据与现有知识相结合来不断更新我们对世界的理解。贝叶斯推断为此过程提供了一个形式化框架，将其构建为我们先验信念与所收集数据之间的一场对话。然而，该框架中一个关键且常被误解的元素是“先验”本身。对客观性的渴望可能导致研究人员使用所谓的“无信息”或“不当”先验，这一选择充满了隐藏的假设和重大的统计风险。本文将直面这一关键问题。第一章“原理与机制”将剖析贝叶斯推断的机理，揭示为何寻求真正无信息的先验是徒劳的，先验如何与模型的可识别性相互作用，以及为何不当先验使模型比较变得不可能。在这一理论基础之后，第二章“应用与跨学科联系”将展示这些原理在实践中如何应用，说明精心构建的先验如何成为解决从神经科学到演化生物学等领域复杂问题的重要工具。

原理与机制

在我们理解世界的征程中，我们常常发现自己身处一场先验信念与所获证据之间的对话。贝叶斯推断为这场对话提供了形式化语言，而贝叶斯定理则是其语法核心。引言部分已经铺垫好舞台，向我们展示了这个框架是进行科学推理的强大工具。现在，我们将拉开帷幕，审视其内部机制。这些“先验”到底是什么？它们如何运作？当我们不经意地处理它们时会发生什么？我们将发现，虽然它们提供了巨大的力量，但也为粗心大意者设下了微妙的陷阱。

追求“无信息性”的危险之旅

当我们初次接触贝叶斯分析时，一种高尚的本能常常占据主导：我们希望保持客观。我们希望“让数据自己说话”。这种愿望引导我们去寻找所谓的无信息先验，即一种完全中立、不施加任何假设的初始信念。这类先验最明显的候选者似乎是一条平坦的直线：为我们参数的每一个可能值赋予相等的概率。如果我们在估计一个参数 $\theta$ ，我们或许会简单地设 $p(\theta) \propto 1$ 。

但这个看似简单的想法，就像试图在一张平坦的纸上绘制一幅完美的、无失真的地球球面地图一样，是不可能的。地图可以保持角度（如墨卡托投影）或面积，但不能两者兼得。同样地，一个对于参数 $\theta$ “平坦”的先验，对于 $\theta^2$ 或 $\ln(\theta)$ 却并非平坦。如果我们认为一个反应速率 $\lambda$ 在 1 和 2 之间的可能性与在 99 和 100 之间的可能性相同，那么我们实际上是在说，100% 的增长与 1% 的增长可能性一样。我们的“无信息”先验已经悄悄引入了一个非常强的信念：它偏爱大的绝对变化。对于像速率这样的尺度参数，一个真正中立的立场应该将从 1 翻倍到 2 与从 50 翻倍到 100 同等看待。这对应于速率的对数服从一个平坦先验，等价于先验 $p(\lambda) \propto 1/\lambda$ 。

这就把我们引向一个更危险的东西：不当先验。如果我们的参数可以取任何正值（比如速率，不能为负但没有固定的上限），一个平坦先验就会延伸到无限的定义域上。如果你试图计算总概率，你将一个常数从零积分到无穷，得到一个无穷大的结果。这个“分布”的积分不为 1，因此它根本不是一个真正的概率分布。它是一个数学上的抽象概念，一种分布的幻影。

即使我们通过对平坦先验设置严格的有限界限来避免无穷大的问题——例如，假设系统发育模型中的一个替换率必须在 0 到 100 之间——我们也会遇到另一个问题。数字 100 是完全随意的。正如一篇对系统发育分析的评论所指出的，如果我们将时间单位从百万年改为年，我们所有的速率参数都会改变一百万倍。一个曾经是 Uniform(0, 100) 的先验，现在可能需要变成 Uniform(0, 0.0001)。一个如此随我们单位选择而变化的先验，不可能是我们知识（或缺乏知识）的基本表示。寻求一个普遍“无信息”的先验就如同一首诱人的海妖之歌；一个更好的目标是选择那些对其假设透明，并且对单位选择等随意决定具有稳健性的先验。

当数据无法自己说话时：先验与可识别性

我们来玩一个简单的游戏。我告诉你我有两个数， $\theta_1$ 和 $\theta_2$ ，它们的和正好是 10。现在，请告诉我 $\theta_1$ 的值是多少？

你无法回答。是 5？是 9？还是 -2.7？对于你选择的任何 $\theta_1$ 值，你都可以找到一个相应的 $\theta_2$ 使陈述成立。在直线 $\theta_1 + \theta_2 = 10$ 上存在无穷多的解。这就是不可识别性的本质。在这种情况下，数据（在此例中是和为 10）不足以确定参数的唯一值。

这种情况在科学建模中频繁发生。在简单的工程校准中，我们可能只能测量两个组件贡献的总和。在基因表达的生物学模型中，仅测量最终的稳态蛋白质水平能告诉我们合成速率 ( $k_{\mathrm{syn}}$ ) 与降解速率 ( $k_{\mathrm{deg}}$ ) 的比值，但无法解开这两个独立的速率。在这些情况下，似然函数——贝叶斯定理中代表数据声音的部分——没有单一的峰值。相反，它形成了一个长而窄的“山脊”，上面所有的参数组合都与我们观察到的结果同样兼容。

当我们试图在这里进行贝叶斯推断时会发生什么？这时，我们先验的性质变得至关重要。

如果我们固执地坚持我们的“无信息”理想，并对 $\theta_1$ 和 $\theta_2$ 都使用不当的平坦先验，我们就有麻烦了。贝叶斯定理告诉我们要将似然山脊乘以我们的平坦先验。结果呢？一个同样是延伸至无穷的平坦山脊的后验分布。我们没有学到任何关于单个参数的更多信息，更糟糕的是，我们的后验分布是不当的——它包含了无穷大的概率量！计算未能产生一个有效的答案。

但现在，如果我在我们的游戏中加入一条新信息呢？“顺便说一下，”我说，“我有充分的理由相信 $\theta_2$ 非常接近 6。”我们可以将这个信念编码为一个关于 $\theta_2$ 的正常的、信息丰富的先验——也许是一个以 6 为中心的尖锐高斯分布。突然间，一切都变了。谜题解开了。似然告诉我们 $\theta_1 + \theta_2 \approx 10$ ，而我们的先验告诉我们 $\theta_2 \approx 6$ 。不可避免的结论是 $\theta_1$ 必须近似为 4。通过提供关于一个参数的信息，先验使我们能够识别另一个参数。 $\theta_1$ 的后验分布变成了一个行为良好、正常的、以 4 为中心的高斯分布。

这是一个深刻的结果。先验不仅仅是一些哲学上的空谈；它是一个数学工具，可以使一个原本无法解决的问题变得可解。它充当了一个正则化项，驯服了由不可识别性产生的巨大不确定性。当模型的参数被数据弱识别时，一个正常的先验能确保后验分布行为良好。潜在的不确定性并没有神奇地消失；它在后验的形状中被揭示出来。例如，后验可能仍然是一个拉长的山脊，但一个正常的先验确保了山脊在两端逐渐消失，包含一个有限且可解释的概率量。在更复杂的场景中，比如模拟基因家族演化，其中出生率和死亡率几乎相互抵消，最有效的策略通常是对模型本身进行重新参数化，将新参数与数据所建议的可识别方向（净变化）和弱可识别方向（总周转率）对齐。

比较世界：为何不当先验会破坏模型选择

到目前为止，我们一直在一个单一的、假定的世界模型内部估计参数。但科学常常涉及一项更宏大的任务：比较完全不同的模型，或不同的“世界”。一个简单的锁钥模型是否足以解释这种酶的结合，还是我们需要一个更复杂的诱导契合模型？一个基因的演化速率是恒定的，还是在不同位点间变化？

为了回答这类问题，贝叶斯主义者计算一个称为边缘似然的量，也称为模型的证据。其定义简单，但意义深远： $p(\text{Data} | \text{Model}) = \int p(\text{Data} | \theta, \text{Model}) p(\theta | \text{Model}) d\theta$

用通俗的话说，边缘似然是模型的预测性能。它是观测到我们实际数据的概率，对模型可能有的每一种参数设置进行平均，其中每种设置都按其先验概率加权。

这个积分执行了一个优美且自动的奥卡姆剃刀版本。一个参数少的简单模型，其参数空间很小。它的先验概率是集中的。如果它能合理地拟合数据，它的平均得分（边缘似然）将是可观的。然而，一个复杂的模型拥有一个巨大的参数空间。为了成为一个有效的概率分布，它的先验必须稀疏地分布在这个巨大的体积上。为了让这个复杂的模型获得高分，它不仅需要很好地拟合数据，而且需要在其参数空间的一个小区域内特别好地拟合，以克服来自所有其他拟合不佳的参数设置的低平均分。复杂性被自动惩罚了。

现在是致命一击。如果先验 $p(\theta | \text{Model})$ 是不当的，会发生什么？边缘似然的积分涉及乘以一个总面积不为有限值的函数。结果要么是无穷大，要么更糟，取决于一个完全随意的常数。如果你试图通过计算两个模型 $M_1$ 和 $M_2$ 的边缘似然之比（贝叶斯因子）来比较它们，你最终会得到两个随意常数的比值。答案是无意义的。这就像问两个无限大的房间哪个更大一样。没有合理的答案。

这不是一个小小的技术细节；这是一个灾难性的失败。它意味着不当先验不能用于贝叶斯模型比较。句号。

这对广泛使用的工具有着至关重要的影响。许多科学家使用像贝叶斯信息准则（BIC）这样的标准来比较模型，常常认为这是一种无需先验的捷径。这是一个危险的幻觉。BIC 实际上是对数边缘似然的一个近似，其推导仅在特定假设下有效，包括先验是正常的且其性质不依赖于样本大小。当你使用不当先验时，BIC 与贝叶斯模型选择之间的理论联系就被切断了。

教训是明确的。当从估计参数转向比较模型时，先验从一个有用的正则化项转变为计算中不可或缺的核心组成部分。如果我们想问几个相互竞争的理论中哪一个更好地被数据支持，我们必须使用正常的先验。此外，为了使比较公平，这些先验必须经过深思熟虑的选择。最符合原则的方法涉及设计先验——通常通过层次结构——以确保不同的模型在看到证据之前对可观察数据做出可比较的预测，从而将它们置于一个公平竞争的平台上。先验不是一个需要被掩盖的麻烦，而是对构建我们科学问题的假设的诚实和明确的陈述。

应用与跨学科联系

我们花了一些时间学习贝叶斯推断的形式化规则——先验、似然和后验的语法。但是学习语法并不等同于欣赏诗歌。真正的魔力在于我们看到这些工具在实践中的应用，不是作为抽象的数学公式，而是作为一种帮助科学家在知识的宇宙中解决深刻而迷人谜题的思维方式。

在本章中，我们将踏上一段穿越不同科学学科的旅程。我们将看到，“先验”不仅仅是一个主观的初始猜测；它是一个强大的工具，用以将物理约束、现有科学知识和一种基本的“合理性”感觉编码到我们的模型中。当我们的数据本身模棱两可——当它们同时低语着几个不同的故事时，这一点变得尤为关键。

科学家的困境：纠缠的参数

想象你是一名调查犯罪的侦探。你有一组线索——数据——但它们似乎以同等的可信度指向两个不同的嫌疑人。线索是模糊的。在科学中，这种常见的困境被称为可识别性问题。这意味着数据不足以区分一种潜在解释（一组参数值）与另一种。我们模型的许多不同参数组合可以产生完全相同的可观察结果，使我们陷入一堆可能性的困境中。正如我们接下来将看到的，“纠缠的参数”这一主题在几乎每个科学角落都反复出现。

揭开突触的秘密

让我们从大脑内部开始我们的旅程。两个神经元之间的通信发生在一个称为突触的专门连接处。这种通信以离散的神经递质包或“量子”的形式发生。当我们观察到一个突触变得更强时，我们面临一个经典的难题：是因为神经元现在有了更多的潜在释放位点（ $n$ ），还是因为每个现有位点的释放概率（ $p$ ）增加了？

在有限且带有噪声的实验数据下，这两种可能性—— $n$ 的变化或 $p$ 的变化——是出了名地纠缠不清。一个朴素的统计分析不仅可能无法区分它们，甚至可能导致荒谬的结论，例如单个神经递质包产生负的电响应，这在物理上是不可能的。

在这里，贝叶斯先验充当我们理性的声音。我们可以构建一个尊重系统基本生物学特性的模型。我们可以指示我们的模型：“单个量子包的响应，即量子大小 $q$ ，必须为正。”我们可以告诉它：“释放位点的数量 $n$ 必须是一个正整数。”而且我们可以温和地将释放概率 $p$ 推离恰好为零或恰好为一的荒谬极端，这在一个动态的生物系统中是不太可能的。这不是作弊；这是将基础知识嵌入到我们的统计机制中。通过这样做，我们可以在原本无法做出推断的情况下，对 $n$ 和 $p$ 做出合理的推断。

测量溪流的呼吸

现在让我们离开大脑，去看看一条森林里的溪流。一位生态学家想要测量溪流的“新陈代谢”——白天光合作用产生了多少氧气（总初级生产力，GPP），以及所有生活在其中的生物消耗了多少氧气（生态系统呼吸作用，R）。策略是在一个完整的24小时周期内测量溶解氧浓度。

但如果这是一个阴暗、多云的日子，而且溪流位于森林深处阴暗的地方呢？光照水平 $I(t)$ 在一天中几乎没有变化。光合作用由光驱动，所以我们可以将其速率建模为 $P(t) = \alpha I(t)$ ，其中 $\alpha$ 是光利用效率。呼吸作用 $R$ 被假定在一天中大致恒定。如果 $I(t)$ 在某个平均水平 $\bar{I}$ 附近几乎不变，那么氧气数据实际上只能告诉我们净效应，即组合 $\alpha \bar{I} - R$ 。模型无法解开光合作用的贡献与呼吸作用的贡献。任何对光合效率（ $\alpha$ ）的估计增加，几乎可以被对呼吸作用（ $R$ ）的估计的等量增加完美抵消。我们的参数再一次纠缠在一起。

解决方案是通过先验引入外部科学知识。我们从基础生物化学中知道，呼吸速率是温度依赖的。我们可以将这种关系编码到 $R$ 的先验中。我们还从大量文献中知道，水生植物的光合效率 $\alpha$ 落在一个合理的范围内。通过将这些来之不易的生态学智慧融入我们的先验，我们提供了打破统计僵局所需的额外信息，从而分别测量出溪流的吸入和呼出。

基因中的幽灵：遗传力与演化

纠缠参数的问题在遗传学和演化生物学领域尤为突出。考虑一个要么存在要么缺失的性状，比如从某种疾病中存活下来。数量遗传学家常常想象一个潜在的、不可观察的连续性状，称为“易感性”。如果一个个体的易感性超过某个阈值，他们就表现出该性状。这种易感性的总变异来自基因（加性遗传方差， $V_A$ ）和环境及其他非遗传因素（残差方差， $V_R$ ）。

仅通过观察二元结果（例如，存活或死亡），我们永远无法确定 $V_A$ 和 $V_R$ 的绝对值。如果我们同时将 $V_A$ 和 $V_R$ 加倍，跨越阈值的潜在概率不会改变。潜在易感性的整体尺度仅从数据来看是根本不可识别的。许多统计软件包中的标准解决方案是通过将其中一个方差固定为一个常数来简单地固定尺度，例如，假设 $V_R = 1$ 。这实质上是一个极其强大和僵硬的先验！一个更明确的贝叶斯方法可以更优雅地处理这个问题。例如，我们可以对模型进行重新参数化，并直接对我们真正关心且可识别的量设置先验：易感性尺度上的遗传力， $h^2 = V_A / (V_A + V_R)$ 。

这种思维方式——构建具有层次化参数水平的模型——在研究演化实践时非常强大。想象一个实验，有多条重复的植物品系都在经受相同性状的人工选择。我们希望通过观察对选择的响应来测量实现的遗传力（ $h^2$ ）。然而，在任何有限大小的种群中，由于一种称为遗传漂变的过程，基因频率会从一代到下一代随机波动。这种漂变在选择响应中造成了随机的、品系特有的偏差。一个忽略这种效应并将所有数据汇集在一起的简单模型会受到误导。

然而，贝叶斯层次模型提供了一个优美的解决方案。它可以将每个重复品系视为一个共同主题的变体。它被设计用来同时估计所有品系共有的全局遗传力 $h^2$ ，同时也估计使每个品系独特的随机“漂变噪声”的大小（ $\sigma_b^2$ ）。模型在所有品系间“借力”，以获得对全局情况更稳健的估计，这是结构化先验如何让我们能够剖析具有多种变异来源的复杂过程的一个典型例子。

时钟、树与久远的过去

估计数百万年前不同物种何时分化的挑战是另一个充满可识别性问题的领域。两个物种间观察到的遗传差异数量取决于它们分化时间（ $T$ ）和突变率（ $r$ ）的乘积。没有一些外部信息，就不可能将速率与时间分离开来。较短时间内的较快速率看起来与较长时间内的较慢速率完全相同。

一个强大的解决方案是在许多不同基因上使用层次模型。我们可能不知道任何单个基因 $\ell$ 的具体突变率 $r_\ell$ ，但我们可以合理地假设所有这些基因特有的速率都来自某个共同的分布。如果我们能够锚定这个分布——例如，通过假设其平均速率 $\mu_0$ 从其他校准中已知——我们就可以打破这种混淆，并估计分化时间 $T$ 。这些层次模型还有一个很好的稳定特性，称为“收缩”或“部分池化”。单个基因的速率估计被温和地拉向总体平均速率。这可以防止单个具有异常高或低突变数量的基因扰乱我们整个演化时间线。

这个框架让我们能够提出更复杂的问题。例如，像体重这样的生活史性状是否会影响分子演化的速率？我们可以建立一个模型，其中生命之树上每个分支的演化速率取决于生活在该分支上的祖先推断出的体重。但我们必须再次小心。我们首先必须将系统锚定在绝对时间上，要么使用化石记录，要么分析在不同时间点采样的“异时”数据（例如古代DNA或快速演化的病毒）。我们还必须诚实地面对我们的不确定性。如果我们的体重数据有噪声而我们忽略了这种测量误差，我们将系统地低估体重对演化速率的真实影响——这是一个经典的统计陷阱，称为衰减偏误。先验和层次模型为我们提供了应对所有这些棘手问题的工具。

用正则化驯服过拟合的野兽

有时问题不在于我们的模型太简单，而在于它太灵活。当试图重建生物多样性的历史——地质时期内物种形成率减去灭绝率——时，我们可能会允许速率在许多小的时间间隔内自由变化。有了如此大的自由度，模型可能会开始“过拟合”数据；也就是说，它开始追踪我们单个重建的系统发育树的随机、嘈杂的波动，而不是捕捉真实、平滑的潜在历史趋势。

先验以一种正则化的形式前来救援。我们可以设计先验来实施奥卡姆剃刀，引导推断走向一个更简单、更可信的解释。例如，我们可以使用一个惩罚多样化速率有太多突变模型的先验。或者我们可以使用一个通过惩罚相邻时间间隔之间速率的大幅跳跃来鼓励平滑性的先验。无论是鼓励稀疏性的拉普拉斯先验，还是鼓励平滑性的高斯马尔可夫随机场，其原理都是相同的：先验让我们能够构建更稳健的模型，捕捉信号而不迷失在噪声中。

一种通用的不确定性演算

从神经元的微观放电到演化历史的宏大画卷，模糊性、混淆和过拟合的挑战在科学中是普遍存在的。我们已经看到，精心选择的先验——通常以层次模型的形式——如何通过整合外部知识和施加合理约束，为解决这些问题提供了一种强大的方法。

但即使没有强大的先验知识，贝叶斯框架也提供了一些无价之宝：一种连贯的不确定性演算。想象一位系统生物学家正在整合来自两个不同实验的数据：用于测量信使RNA（mRNA）水平的RNA测序，以及用于测量蛋白质水平的质谱分析。每种技术都有其特有的噪声和变异来源。目标是确定蛋白质与mRNA的比率在两种实验条件之间是否正在改变。这是一个关于依赖于两种测量的派生量的问题。贝叶斯机制允许我们构建一个单一模型，该模型包含所有部分：真实（但未知）的mRNA水平、真实的蛋白质水平、连接它们的比率，以及来自每个实验的已知测量误差。然后，该框架会自动并正确地将所有不确定性来源传播到整个计算过程中。最终的后验分布为我们提供了一幅完整而诚实的画面，展示了我们所知道的，以及同样重要的，我们知道得有多清楚。

先验不是拐杖或凑数的因子。它是一种推理工具，一种将不同知识线索编织成一幅推断织锦的方法，以及一条让我们的模型保持诚实并专注于信号的缰绳。它是现代科学家工具箱中至关重要的一部分，用以导航我们都试图理解的这个复杂而不确定的世界。