无信息先验：对客观贝叶斯推断的探索

玻尔百科

定义

无信息先验：对客观贝叶斯推断的探索指的是统计学中旨在让数据自身说话的一种概念框架，通常利用基于位置和尺度不变性原理推导出的先验分布。这些先验在实践中作为客观基准或正则化工具来稳定稀疏数据的分析，但重参数化悖论表明完全无信息的先验可能并不存在。该领域深入探讨了表面平滑的先验可能隐藏的偏差，例如在进化树拓扑结构中对不平衡形状的强烈偏好。

核心要点

无信息先验的理想是让数据自己说话，这通常通过使用从位置和尺度不变性等原则推导出的“平坦”先验来实现。
真正“无信息”的先验这一概念是一种幻象，因为重参数化悖论揭示了“平坦性”完全取决于所选择的参数空间。
表面上客观的先验可能包含显著的隐藏偏见，例如，演化树拓扑上的“均匀”先验会强烈偏好不平衡的树形。
在实践中，无信息先验和弱信息先验是不可或缺的工具，它们可作为客观基准，或通过提供正则化来稳定稀疏数据下的分析。

引言

贝叶斯推断提供了一个强大的框架，用于根据新证据更新我们的信念，它融合了先验知识与观测数据。整个过程取决于一个关键的起点：先验概率。但是，当科学家进入一个没有可靠先验知识的未知领域时，应该怎么做呢？我们如何能确保分析尽可能客观，让数据本身来说话？这个问题开启了对无信息先验的艰难但至关重要的探索。本文记录了这段旅程，探讨了将无知形式化的前景与风险。第一章“原理与机制”将剖析让数据说话的理论理想、用于构建这些先验的优雅不变性原则，以及揭示真正客观性幻象的深刻悖论。随后的章节“应用与跨学科联系”将展示这些概念如何在不同科学学科中被应用——有时甚至是误用——从而将它们从一个抽象的理想转变为一个用于探索发现的实用工具包。

原理与机制

在我们理解世界的征程中，贝叶斯推断提供了一种极其理性的方式来更新我们的信念。它告诉我们如何将我们自认为已知的东西——我们的先验概率——与我们刚刚观察到的东西——我们数据的似然——相融合，以形成一种新的、更精确的信念，即后验概率。整个引擎由贝叶斯定理驱动，我们可以将其理解为：

\text{后验信念} \propto \text{数据似然} \times \text{先验信念}

如果我们有一些先验知识，这一切都很好。一位地质学家可能会利用化石记录来为一个新发现生物的年龄设定先验。但如果我们正进入一个真正未知的领域呢？如果我们想以完全客观的方式处理一个问题，让数据，且仅让数据，来说话呢？这就是对无信息先验的崇高且出人意料地棘手的追求。

客观性的理想：让数据说话

想象一下，我们是物理学家，试图测量一个基本常数，我们称之为 $\theta$ 。我们有了一台精良的新机器，但对 $\theta$ 可能是什么没有任何预设概念。我们的数据是一组测量值，其平均值为 $\bar{x}$ 。我们关于 $\theta$ 的先验信念由一个均值为 $\mu_0$ 、方差为 $\tau_0^2$ 的分布来描述，这个方差代表了我们的置信度。事实证明，在这种简单情况下，我们的最终估计——后验分布的均值——是我们先验猜测和新数据的加权平均：

\text{Posterior Mean} = w \cdot \bar{x} + (1-w) \cdot \mu_0

权重 $w$ 取决于我们对先验和数据各自的置信度。现在，让我们来探讨一下。如果我们对自己的先验信念绝对确定（一个“教条式”先验），我们可以将其方差设为 $\tau_0^2 \to 0$ 。这使得数据的权重 $w$ 趋于零，我们的后验信念就只是我们的先验信念。我们什么也没学到，因为我们拒绝倾听！

但另一个极端呢？如果我们想表现出最大限度的无知呢？我们可以将先验的方差调至无穷大， $\tau_0^2 \to \infty$ 。这代表了一个极其模糊、薄弱的初始信念。在这种极限下，数据的权重 $w$ 趋近于1。我们的后验均值变成了样本均值 $\bar{x}$ 。我们让数据完全为自己说话。这就是无信息先验的目标。

不变性原则：对一致性的追求

那么，我们如何构建一个代表“一无所知”的先验呢？一个绝佳的指路明灯是不变性原则。这是一个简单但深刻的思想：我们对无知的陈述不应该依赖于我们在测量系统中所做的任意选择。

假设我们试图确定一个粒子撞击探测器上某个位置 $\theta$ 。如果我们对其着陆点一无所知，那么即使有人走进实验室将我们的尺子移动几厘米，我们的先验信念也不应改变。“零点”的选择是任意的。这就是位置不变性原则。唯一具有这种性质——无论如何平移看起来都一样——的数学函数是常数。这引导我们得到了平坦先验：

\pi(\theta) \propto 1

这个先验给予了从 $-\infty$ 到 $+\infty$ 的每一个可能的 $\theta$ 值相同的权重。现在，数学家会很快指出，这个“分布”无法被归一化——它在整条实数线上的积分是无穷大。这使其成为一个非正常先验（improper prior）。但在贝叶斯推断的奇妙世界里，这通常无关紧要。当我们将其与来自数据的正常似然函数结合时，得到的后验分布通常是行为良好且正常的。

我们可以将同样优雅的推理应用于尺度参数，比如一个分布的散布程度 $\beta$ 。如果我们对一个组件的寿命一无所知，我们的先验信念不应取决于我们是用小时还是分钟来测量它。这就是尺度不变性。如果我们为 $\beta$ 声明一个平坦先验 $p(\beta) \propto 1$ ，就会遇到一个问题。将单位从小时改为分钟意味着将 $\beta$ 乘以60。一个平坦分布在这样拉伸之后就不再平坦了。对这种尺度变换保持不变的先验是在对数尺度上平坦的先验。这对应于在原始尺度上的先验为：

\pi(\beta) \propto \frac{1}{\beta}

这些不变性原则为我们提供了一种强大且有原则的方法来生成似乎能捕捉无知状态的先验。

惊人的桥梁：当贝叶斯与频率派思想交汇时

当我们使用这些基于不变性的先验时，奇妙的事情发生了。对于某些基本问题，贝叶斯分析的结果在数值上与来自完全不同哲学的频率派统计学的结果完全相同。

再次考虑从已知方差的正态分布数据中估计均值 $\mu$ 的问题。频率派统计学家会为 $\mu$ 构建一个95%的“置信区间”。而贝叶斯主义者从无信息平坦先验 $\pi(\mu) \propto 1$ 出发，会计算一个95%的“可信区间”。这两种方法的哲学解释截然不同：频率派说的是在95%的重复实验中，该区间会包含真实值；而贝叶斯派说的是真实值有95%的概率落在这个区间内。然而，当你写下这两个区间的公式时，它们是完全一样的。

\left( \bar{x} - 1.96 \frac{\sigma}{\sqrt{n}}, \bar{x} + 1.96 \frac{\sigma}{\sqrt{n}} \right)

这是一个惊人的趋同时刻。它让我们相信，我们对“无信息”先验的追求正引导我们走在一条合理的道路上，一条与其他成熟的推断方法相连接的道路。感觉就像我们找到了“客观”的答案。

“平坦性”的麻烦：重参数化悖论

但就在这里，情节变得复杂起来。平坦先验的美丽简洁背后隐藏着一个微妙的悖论。“平坦性”这个概念本身取决于你如何看待问题。

想象一下，我们正在研究一个组件的寿命，它遵循指数过程。这个过程可以用其速率参数 $\lambda$ 来描述。我们可能会想：“我对 $\lambda$ 一无所知，所以我会使用一个平坦先验， $p(\lambda) \propto 1$ 。”

但另一位物理学家可能会过来说：“我更喜欢用速率的对数来思考，即 $\phi = \ln(\lambda)$ 。我对 $\phi$ 一无所知，所以我会使用一个平坦先验， $p(\phi) \propto 1$ 。”

这两种选择似乎都同样有效且“无信息”。然而，它们会导致不同的答案！对 $\phi$ 使用平坦先验等同于对原始参数使用 $p(\lambda) \propto 1/\lambda$ 的先验。结果是，如果你和另一位物理学家分析相同的数据，你们会得出不同的后验结论，仅仅因为你们选择在不同的参数空间中定义“无知”。

这就是重参数化问题。这是一个深刻且令人不安的发现。“平坦性”不是一个绝对的属性。从车窗看平坦的景观，从飞机上看却绝非如此。在一个坐标系中均匀的东西，在另一个坐标系中并不均匀。拥有一个单一、普适、真正无信息的先验的梦想是一种幻觉。

Jeffreys的洞见与“无信息”的隐藏偏见

那么，我们该怎么办呢？地球物理学家 Harold Jeffreys 提出了解决这个难题的最有力的尝试之一。他设计了一条规则，用于创建一个根据其构造本身就在重参数化下保持不变的先验。Jeffreys先验与Fisher信息量的平方根成正比，Fisher信息量是衡量数据能为参数提供多少信息的量。虽然这在数学上很复杂，但其直觉是，在数据预期能提供更多信息的区域，先验应该提供更少的信息。

即使这个优雅的解决方案也不是万能的。对于具有多个参数的模型，比如正态分布的均值 $\mu$ 和标准差 $\sigma$ ，对 Jeffreys 思想的不同合理应用（如“标准Jeffreys法则”与“参考先验”算法）可能会导致不同的先验。探索仍在继续。

关于无信息性幻觉的最引人注目的教训来自演化生物学领域。假设我们想要重建八个物种的亲缘关系树。我们不知道这棵树长什么样，所以我们决定使用一个“均匀”先验，为每个可能的有标签树拓扑分配相等的概率。还有什么能比这更客观呢？

事实证明，这个先验包含了一个惊人且巨大的隐藏偏见。它极大地偏爱某些树的形状而非其他。对于八个物种，这个“均匀”先验使得完全不平衡的“毛毛虫状”树比完全平衡的“灌木状”树的可能性高出64倍。这是因为一个对称的形状可以用物种名称标记的方式远少于一个不对称的形状。一个感觉上“无信息”的选择，实际上是对某种特定演化模式的强烈陈述。如果我们的数据很弱，后验将仅仅反映出先验的这种隐藏偏见。

寻求无信息先验的旅程是令人谦卑的。它始于一个简单直观的目标——让数据自己说话——并引导我们对知识的本质有了深刻的认识。根本不存在“无立场的观点”。每一次将无知形式化的尝试都受到我们选择的语言和坐标系的影响。

因此，无信息先验并非真正、绝对无知的表达。最好将它们视为参考先验：经过精心构建的、标准化的起点。它们的设计初衷是让数据占据主导地位，并为可重复的科学探究提供一个基准。它们是贝叶斯工具箱中不可或缺的工具，但使用它们需要智慧，并需要意识到其潜在的假设以及它们可能包含的微妙、有时甚至是惊人的信息。

应用与跨学科联系

在我们经历了无信息先验的原理与机制之旅后，你可能会留有一种优美、抽象的数学感。但它有什么用呢？就像科学家工具箱中的任何强大工具一样，真正的魔力发生在我们将其应用于混乱、复杂而又迷人的现实世界时。无信息先验的故事不仅仅是让数据“为自己说话”；它是关于与自然进行更深刻、更诚实的对话。这是一个跨越多个学科展开的故事，从最深邃的太空到生命本身的代码。

让我们开始一次对这些应用的巡礼。我们将看到这个看似简单的“陈述我们的无知”的想法如何让我们能够解决深刻的科学问题，我们也将揭示那些迫使我们成为更成熟思考者的微妙陷阱和悖论。

客观基准：探索的起点

在许多科学探索中，我们都从一种近乎完全无知的状态开始。我们在噪声的海洋中寻找微弱的信号，我们希望有一种方法不会从一开始就将我们的希望和偏见融入分析中。在这里，无信息先验就充当了宝贵的客观基准。

想象一下，你是一位经济学家或物理学家，正在追踪一个似乎随时间随机游走的值，比如股票价格或进行布朗运动的粒子的位置。对此的一个简单模型是“带漂移的随机游走”，其中每一步的值是前一步的值加上某个恒定的“漂移”和一个随机扰动。如果我们想估计这个漂移项，我们事先应该对它作何假设？一个平坦的无信息先验是经典的起点。它代表了对漂移方向和大小最大限度的不可知状态。通过应用这个先验，我们可以得出一系列漂移的合理值——一个可信区间——它几乎完全由观测数据驱动。这为我们提供了一个参考点；如果一个更复杂的理论提出了一个特定的漂移，我们可以将其预测与这个基线性的、由数据驱动的结果进行比较。

当我们将望远镜转向天空时，赌注就更高了。物理学家目前正在寻找时空结构中一种微弱而持续的嗡嗡声——一个随机引力波背景。探测到它将是一项里程碑式的发现。然而，来自我们传感器的数据充满了噪声，而且并不总是我们在教科书中了解到的那种干净、行为良好的高斯噪声。有时，由于罕见但显著的干扰，噪声具有重尾特性，这种情况用学生t分布（Student's t-distribution）描述更佳。为了在这些噪声中找到微弱的引力波信号——一个恒定的背景水平，我们称之为 $\mu$ ——我们必须在查看数据之前，首先陈述我们对 $\mu$ 的了解。答案是：一无所知。一个平坦先验， $p(\mu) \propto 1$ ，是这种初始无知的完美表达。它允许数据中的微妙模式来塑造我们对引力波背景存在与否及其强度的最终信念，而不受我们先验理论的偏见影响。

信念的光谱：从无知到专业

世界很少是黑白分明的，先验的选择也并非“无知”与“知识”之间的简单切换。它是一个光谱。贝叶斯框架的真正力量在于其能够模拟这整个光谱，从模糊的预感到成熟的理论。

思考一位计算生物学家的工作，他正在估计数百万年来的基因突变率。这个速率 $\mu$ 是理解演化的一个关键参数。这位生物学家拥有两个物种的DNA序列数据，并且可以计算差异的数量。他们应该为 $\mu$ 使用什么先验呢？

一种选择是平坦先验，代表一种“开放的心态”。由此产生的后验分布将完全由手头的遗传数据决定。另一种选择是使用信息先验。通过对其他脊椎动物数十年的研究，我们对DNA突变的速度有了一个大概的了解。我们可以将这些知识编码成一个对数正态先验，该先验表明突变率可能在某个已知的、合理的范围内。

当我们比较结果时，我们看到了贝叶斯对话的实际运作。来自平坦先验的后验仅反映了我们两个物种的数据。而来自信息先验的后验则是一种折衷：它被从数据偏好的值拉向先前研究所确立的范围。如果数据很强，它将压倒先验。如果数据很弱，先验会提供一种稳定作用，防止我们基于有限信息做出疯狂的估计。信息先验并不会让数据沉默；它只是要求数据与现有的科学知识体系进行对话。

这种光谱思想在现代数据分析中至关重要。在基因组学等领域，我们可能同时分析数千个基因的表达水平。在观察实验后单个基因表达的变化时，我们可以使用一个非常宽泛的、“模糊”的先验，比如具有巨大方差的正态分布 $\mathcal{N}(0, 1000)$ 。这非常接近一个无信息的平坦先验。但我们也可以使用一个弱信息先验，比如 $\mathcal{N}(0, 10)$ 。这个先验仍然非常宽泛，但它温和地暗示，巨大的基因表达变化比微小的变化可能性更小——这是一个非常合理的假设。其效果是一种微妙的“收缩”：估计值被轻微地推向零。这种小小的推动通常足以稳定分析并产生更可靠的结果，尤其是在处理来自少量重复实验的噪声数据时。这并非强行得到答案，而是构建一个更微妙、更现实的世界模型。

天真的危险：当“无知”成为糟糕策略时

对完美客观、无信息先验的理想是美好的，但它可能是一支诱人的海妖之歌，将粗心的科学家引入意想不到的陷阱。在不理解其背景的情况下，天真地应用“平坦”先验可能导致奇怪甚至灾难性的结果。

一个引人注目的例子来自经济学。宏观经济学家构建名为向量自回归（VARs）的复杂模型，以同时预测许多经济变量的相互作用——通货膨胀、GDP、失业率等等。这些模型可以有数百个参数。如果我们对所有这些参数都使用平坦先验会发生什么？结果将是一片混乱。当参数（“可调旋钮”）比数据点还多时，平坦先验会给予数量惊人的参数组合相同的合理性。参数不确定性会爆炸式增长，导致预测区间过宽而变得毫无用处。

解决方案不是放弃，而是变得更聪明。经济学家们发展出了“明尼苏达先验”（Minnesota prior），这是一种结构化的弱信息先验。它基于一个简单而合理的直觉：明天GDP的最佳预测可能就是今天的GDP，而通货膨胀率不太可能被六个月前的失业率强烈预测。这个先验温和地将大多数参数收缩向零，从而驯服模型并产生更稳定、更有用的预测。这是一个美丽的教训：在高维世界中，一点点结构性知识比声称完全无知要强大得多。

一个更微妙的悖论出现在系统发育学领域，科学家们在这里重建演化的“生命之树”。这棵树的形状，或称拓扑结构，是一个关键的未知数。比如说，对于10个物种，有超过两百万种可能的有根树！一种看似“无信息”的方法是分配一个平坦先验：每一种树拓扑结构都是等可能的。但这会带来一个奇怪的、意想不到的后果。事实证明，纯粹从组合学的角度来看，大多数可能的树都是高度不平衡或“阶梯状”的。平衡的、“灌木状”的树要稀有很多。因此，对拓扑结构的平坦先验实际上隐含地偏爱不平衡的树。另一种选择是Yule先验，它基于一个简单的物种形成模型。这种先验倾向于偏爱更平衡的树。如果数据模棱两可，平坦先验会将答案推向大量不平衡的树，而Yule先验则会将信念集中在较小的一组更平衡的树上。这就提出了一个深刻的问题：哪种先验真正更“无知”？是平等对待每个个体对象的那个，还是基于一个简单、中性的基本过程的那个？

这里的教训是要始终保持批判性。一个看似无害的先验可能隐藏着假设。例如，在分子演化中，一些模型有参数表示不同DNA碱基相互转换的速率。如果研究人员对这些速率使用一个简单的平坦先验，比如 $\mathrm{Uniform}(0, 100)$ ，他们就犯了两个错误。首先，总速率通常与演化树的枝长纠缠在一起，产生了一个天真的先验无法解决的不可识别性问题。其次，100这个上限是完全任意的，并且取决于所使用的时间单位！这个“无信息”先验实际上以一种荒谬的方式提供了大量信息。

一种更成熟的无知：让数据指导先验

摆脱天真客观性的旅程并未以纯粹的主观性告终。相反，它引向了更复杂、更强大的客观推理形式。

参考先验就是这样一种进步。其数学原理很复杂，但思想却很深刻。事实证明，“最客观”的先验可能取决于你最感兴趣的参数是哪一个！对于模拟财富不均等现象的帕累托分布（Pareto distribution），其两个参数的参考先验会根据你的主要目标是估计尾部陡峭度还是最小值而改变。这告诉我们，客观性不是一个单一的概念；它相对于我们所问的问题而言。

也许最优雅的想法是让数据本身来告知先验。这听起来像是循环论证，但它是一种被称为经验贝叶斯的强大技术。想象一下，你正在研究五种不同细胞培养物中的蛋白质表达。你可以用一个模糊的先验独立分析每一个。或者，你可以假设所有五种培养物（因为它们相关）的真实表达水平都来自某个共同的、总体的分布。诀窍是利用所有五种培养物的数据来估计这个总体先验分布的参数。你正在使用数据的集合来了解总体背景，然后利用这个背景来改进对每个个体案例的估计。这导致估计值向群体均值“收缩”，这种现象几乎总能提高整体准确性。这是一种在相关实验之间“借力”的方式——是“着眼大局能学到更多”这一思想的统计体现。

务实科学家的工具箱

让我们用一个来自保护生物学前沿的故事来结束我们的旅程。一个团队正在研究一种濒危蜥蜴，他们的数据非常有限——只有一个季节里对少数几只动物的观察记录。他们需要估计成年存活率和繁殖力等关键比率，以评估该物种的灭绝风险。在数据如此稀疏的情况下，使用平坦先验是危险的。一些偶然事件可能导致一个过分乐观的存活率估计值 $0.99$ 或一个悲观的估计值 $0.1$ ，而这两者在生物学上都不太可能。

在这里，完美的工具是弱信息先验。生物学家不知道确切的存活率，但他们从一般的蜥蜴生物学中知道，它不可能是 $0.999$ 或 $0.001$ 。一个典型的范围可能在 $0.2$ 到 $0.8$ 之间。这种一般性知识可以转化为 logit尺度（一种常见的概率统计变换）上的一个宽正态先验。这个先验以 $0.5$ 为中心，但足够宽，可以让数据发表意见。然而，它温和地惩罚极端值，提供了足够的正则化，以防止稀疏数据产生生物学上荒谬的结论。这是一个完美的综合体：它尊重数据，融入了合理的领域知识，并产生了一个稳定、合理的结果。

无信息先验，以其最纯粹的形式，是一个美丽的理想。它作为一个至关重要的基准和分析的起点。但它最伟大的遗产是它所引发的智识之旅。在与其悖论和局限性作斗争的过程中，我们开发出了一套更丰富、更实用的工具包。我们学到，选择先验不仅仅是一个技术性的准备工作，而是科学建模的核心行为——一种将经验数据与理论理解相融合的、微妙而强大的方式。而归根结底，这正是知识追求的全部意义所在。