客观先验

玻尔百科

核心要点

客观先验旨在最小化贝叶斯分析中初始信念的影响，从而让数据在最终结论中占据主导地位。
Jeffreys 先验提供了一种使用费雪信息创建客观先验的正式方法，确保无论模型的参数如何描述，结果都保持一致。
标准参数类型有明确定义的 Jeffreys 先验，例如位置参数的均匀先验和尺度参数的正比于 $1/\sigma$ 的先验。
客观先验的原则被广泛应用于工程、数据科学、物理学和天文学等不同领域，以确保推断的公正性。

引言

在贝叶斯推断的世界里，每一个结论都始于一个先验信念。但如果我们想尽可能不带偏见地处理一个问题，让证据引导我们的理解，该怎么办？对公正性的追求引出了客观先验的概念，这是一个让数据为自己发声的基础工具。然而，核心挑战在于，在一种情境下看似“无信息”的先验，在另一种情境下可能具有很强的影响力，这是一个被称为参数化的视角问题。我们如何才能以一种一致、有原则且普遍适用的方式来定义无知呢？

本文深入探讨了这一统计学难题的优雅解决方案。我们将探索客观先验背后的原理，重点关注 Harold Jeffreys 爵士的开创性工作。你将学习到统计信息本身的几何结构——由费雪信息量化——如何为构建对参数标记方式不变的先验提供方法。在接下来的章节中，我们将首先揭示 Jeffreys 先验背后的“原理与机制”，其不变性属性，以及它在常见参数类型上的应用。然后，我们将通过其“应用与跨学科联系”进行一次旅行，见证这一单一的统计学原理如何在工程、数据科学和天体物理学等不同领域为客观推理提供一种通用语言。

原理与机制

想象一下，你是一名到达犯罪现场的侦探。你没有嫌疑人，也没有任何先入为主的观念。你希望尽可能让证据自己说话。在科学和统计学的世界里，这就是客观先验所扮演的角色。当我们使用贝叶斯推断从数据中学习时，我们必须从一个关于我们试图估计的参数的“先验信念”开始。但如果我们希望我们的初始信念尽可能中立，尽可能“无知”，以便最终的结论几乎完全由数据塑造，该怎么办？这就是对客观性的追求，它远比初看起来要微妙得多。

先验问题：一个视角问题

你可能会认为，最客观的起点是平等地对待所有可能性。如果你正在估计一枚硬币正面朝上的概率 $p$ ，为什么不直接假设一个平坦的、均匀的先验，即 $p$ 从 0 到 1 的每个值都是同样可能的？这被称为拉普拉斯的“理由不充分原则”。这听起来很合理，但它隐藏着一个深层次的问题。

这个问题是一个视角问题，或者数学家所说的参数化问题。我们可以用成功的概率 $p$ 来描述硬币的偏倚。但我们也可以同样容易地用成功的赔率 $\omega = p / (1-p)$ 来描述它。或者是对数赔率 $\ln(\omega)$ 。如果我们在 $p$ 上设置一个均匀先验，那么赔率 $\omega$ 上的先验就不是均匀的。在一个描述中看似“无信息”的选择，在另一个描述中就变得有信息了。那么，哪种描述是“正确”的呢？没有“正确”的描述。我们的无知原则不应依赖于我们用来描述问题的语言。

我们需要一个无论如何标记参数都保持一致的原则。我们需要一个规则，无论我们讨论的是放射性衰变率 $\lambda$ 还是其倒数，即平均寿命 $\tau = 1/\lambda$ ，都能给出相同的根本答案。这个难题的答案来自杰出的地球物理学家和统计学家 Harold Jeffreys 爵士。

信息即几何：Jeffreys 的洞见

Jeffreys 有一个深刻的想法。他建议，无信息先验不应基于参数值本身，而应基于数据能提供的关于该参数的信息。指导原则应该是：如果一个先验不偏好数据能提供更多信息的参数值，那么它就是无信息的。

为了使这个想法具体化，他使用了一个名为费雪信息的统计学工具，记为 $\mathcal{I}(\theta)$ 。你可以将费雪信息看作是衡量实验“灵敏度”的指标。它量化了单个数据点为你提供关于未知参数 $\theta$ 的信息量。如果费雪信息 $\mathcal{I}(\theta)$ 很大，意味着似然函数曲线很陡峭，数据可以非常精确地确定 $\theta$ 的值。如果它很小，似然函数就很平坦，数据提供的帮助就较少。在某种意义上，费雪信息在参数空间上定义了一种“距离”或“几何”。

Jeffreys 提出了一个通用方法：参数 $\theta$ 的先验概率，我们称之为 $\pi_J(\theta)$ ，应与费雪信息的平方根成正比。

\pi_J(\theta) \propto \sqrt{\mathcal{I}(\theta)}

为什么是平方根？这是一个数学细节，但这正是实现不变性这一奇妙特性的关键。

不变性的魔力

Jeffreys 先验真正的美在于其重参数化不变性。这意味着，如果你遵循 Jeffreys 的规则，无论你选择哪种参数化方式，你的结论都将是一致的。

让我们看看这个魔术是如何运作的。考虑一位工程师正在研究激光二极管的故障，其寿命遵循指数分布。她可以用故障率 $\lambda$ 来建模。通过计算费雪信息，她发现 $\mathcal{I}(\lambda) = 1/\lambda^2$ 。于是 Jeffreys 先验为：

\pi_J(\lambda) \propto \sqrt{\frac{1}{\lambda^2}} = \frac{1}{\lambda}

现在，假设她的同事更喜欢用故障前的平均寿命 $\theta = 1/\lambda$ 来思考。如果他为他的参数 $\theta$ 计算 Jeffreys 先验，他会发现费雪信息是 $\mathcal{I}(\theta) = 1/\theta^2$ 。所以他的先验是：

\pi_J(\theta) \propto \sqrt{\frac{1}{\theta^2}} = \frac{1}{\theta}

看！函数形式是相同的。一个与 $1/\lambda$ 成正比的率的先验，与一个与 $1/\theta$ 成正比的平均寿命的先验是完全等价的。通过概率变换规则，一个可以推导出另一个。不存在矛盾。Jeffreys 先验提供了一种自洽的方式来表达无知。

位置和尺度参数的通用方法

这个原则为我们在科学中遇到的两种最常见的参数类型提供了一些非常简单和通用的规则。

位置参数：它在哪里？

想象一个参数，它只是将一个分布向左或向右平移，而不改变其形状。这被称为位置参数。正态分布的均值 $\mu$ （当方差已知时）是一个经典的例子。或者，在气候科学中使用的 Gumbel 分布的峰值位置 $\mu$ 。其概率密度的一般形式是 $f(x-\theta)$ 。

对于这样一个参数 $\theta$ ，Jeffreys 的规则对我们的无知说了些什么？它告诉我们，费雪信息 $\mathcal{I}(\theta)$ 是一个常数。它不依赖于分布的位置。因此，Jeffreys 先验也是常数：

\pi_J(\theta) \propto \sqrt{\text{constant}} \propto 1

这是一个在整个实数线上的平坦、均匀的先验。它表示我们没有理由相信分布的中心在这里而不是在那里。这可能看起来很奇怪，因为如果你将一个常数从 $-\infty$ 积分到 $\infty$ ，你会得到无穷大，而不是 1。这样的先验被称为非正常先验。但别担心！虽然它本身不是一个真正的概率分布，但它是一个完全有效的工具。一旦我们将其与数据结合以获得后验分布，后验几乎总是一个正常的、行为良好的分布。

尺度参数：它有多大？

现在考虑一个拉伸或压缩分布的参数，比如正态分布的标准差 $\sigma$ 或指数分布的平均寿命 $\theta$ 。这被称为尺度参数。其一般密度形式为 $\frac{1}{\sigma}f(x/\sigma)$ 。

对于任何这样的尺度参数 $\sigma$ ，Jeffreys 先验总是相同的：

\pi_J(\sigma) \propto \frac{1}{\sigma}

这个先验也是非正常的。为什么是这种形式？它将我们对尺度的无知应该在对数尺度上的想法形式化了。 $\sigma$ 从 1 变到 2 的变化，应该与从 10 变到 20，或从 100 变到 200 的变化同等重要。重要的是百分比变化，而不是绝对变化。这个先验为所有数量级分配了相等的概率。这个规则适用于正态分布的标准差 $\sigma$ ，也适用于其方差 $\sigma^2$ 。一个快速的计算表明，如果 $\pi(\sigma) \propto 1/\sigma$ ，那么方差 $\theta = \sigma^2$ 的先验是 $\pi(\theta) \propto 1/\theta$ ，这与我们直接计算正态分布方差的 Jeffreys 先验时得到的结果完全相同。这种一致性是美妙的。

即使对于抛硬币这样简单的问题，Jeffreys 先验也给出了一个不那么直观的结果。对于成功概率 $p$ ，先验不是均匀的，而是与 $p^{-1/2}(1-p)^{-1/2}$ 成正比，这是一个 U 形的 $\text{Beta}(1/2, 1/2)$ 分布。这个先验表明，我们应该对接近 0.5 的 $p$ 值更加怀疑，而对接近 0 或 1 的值则不那么惊讶，直到我们看到一些数据。它反映了这样一个事实：数据更难区分 $p=0.5$ 和 $p=0.51$ ，相比于区分 $p=0.01$ 和 $p=0.02$ 。

复杂性与改进：故事仍在继续

统计学的世界，就像物理学一样，充满了美丽的理论，但当你仔细观察时，它们会变得更加微妙。Jeffreys 先验是一项胜利，但它并不是最终的定论，尤其是在同时处理多个未知参数时。

考虑一个经典的正态分布案例，其中均值 $\mu$ （一个位置参数）和标准差 $\sigma$ （一个尺度参数）都未知。我们基于单参数规则的直觉可能是简单地将各个先验相乘： $\pi(\mu, \sigma) \propto \pi(\mu) \cdot \pi(\sigma) \propto 1 \cdot \frac{1}{\sigma} = \frac{1}{\sigma}$ 。

然而，当我们应用正式的多元 Jeffreys 法则（它使用费雪信息矩阵的行列式）时，我们得到了一个不同的答案：

\pi_J(\mu, \sigma) \propto \frac{1}{\sigma^2}

这种差异一直是许多争论的根源。事实证明，原始的用于多参数的 Jeffreys 法则有时会产生具有不良性质的先验。这提醒我们，即使是最优雅的原则也可能产生令人惊讶的后果。

这导致了进一步的改进，其中最著名的是由 José-Miguel Bernardo 和 James Berger 开发的参考先验。参考先验是一种更复杂的算法，旨在最大化实验的预期信息增益。它通常需要区分“感兴趣的参数”和其它的“讨厌参数”。对于正态分布问题，如果我们声明均值 $\mu$ 是我们的主要兴趣，而 $\sigma$ 是一个讨厌参数，参考先验算法给出的结果是：

\pi_R(\mu, \sigma) \propto \frac{1}{\sigma}

这与我们最初的直觉相符！对一个真正“客观”先验的追求是一个持续的故事，是原则、数学和哲学之间美妙的相互作用。它展示了科学如何通过理解旧思想的局限性并在其强大的基础上进行建设来取得进步，而不是抛弃它们。Jeffreys 的不变性原则仍然是一个核心里程碑，是我们让数据尽可能清晰地说话的旅程中的一个指路标。

应用与跨学科联系

现在我们已经了解了 Jeffreys 先验的机制，学习了它的定义和关键的不变性属性，一个自然而紧迫的问题出现了：它有什么用？它仅仅是一个优雅的数学机器，一个理论家的好奇心玩物吗？还是它与科学发现和工程实践的真实世界相连？

你会很高兴地听到，答案是响亮的“是！”在本章中，我们将踏上一场跨学科之旅，看看这个单一的、抽象的原则是如何在实践中发挥作用的。我们将看到它如何提供一条共同的线索，一种客观推理的通用语言，将工程、数据科学、物理学甚至是我们太阳系之外新世界的探索中的问题联系在一起。这是一个美丽的例证，说明一个深刻的数学思想如何在自然科学中具有几乎不合理的有效性。

尺度的通用语言

也许我们在科学中遇到的最常见的参数类型是尺度参数——一个设定现象特征大小或持续时间的量。想想放射性衰变中的半衰期，一个制造部件的平均寿命，或者一束光的波长。我们如何表达关于这样一个参数的“客观无知”状态呢？

想象你是一位可靠性工程师，任务是评估一种新的微芯片。芯片的寿命预计遵循指数分布，由一个失效率参数 $\lambda$ 控制。更大的 $\lambda$ 意味着更短的寿命。你对这项新技术没有任何先入为主的观念。 $\lambda$ 的客观先验是什么？Jeffreys 法则给出了一个明确的答案：先验应与 $1/\lambda$ 成正比。

这个 $\pi(\lambda) \propto 1/\lambda$ 的先验起初可能看起来很奇怪，但它背后有深刻而直观的逻辑。对于尺度参数，只有相对大小才重要。认为 $\lambda$ 在 1 和 2 之间的信念强度，应该与认为它在 10 和 20 之间，或在 100 和 200 之间的信念强度相同。在每种情况下，上界都是下界的两倍。这个先验在对数尺度上看是平坦的——它平等地对待所有数量级。这是一个对尺度“无知”的先验。这种相同的先验形式一再出现。如果我们将一种新的放射性同位素的衰变建模为具有一个最大可能寿命 $\theta$ ，那么这个上界的 Jeffreys 先验也是 $\pi(\theta) \propto 1/\theta$ 。物理背景不同——一个是速率，一个是最大值——但尺度不变性的底层逻辑是成立的。

真正引人注目的是，当我们将这个先验与数据结合时会发生什么。如果我们观察了 $N$ 个组件，发现它们的平均寿命是 $\bar{x}$ ，那么失效率 $\lambda$ 的后验均值恰好是 $1/\bar{x}$ 。这与非贝叶斯统计学家使用最大似然法得出的答案相同！在这种情况下，客观贝叶斯方法形式化并最终得到了一个早已被认为是好答案的结果。

从点击到类别：比例的逻辑

让我们从连续的尺度参数转向计数和比例的世界。一个数据科学团队想要估计网站上一项新功能的真实点击率 $p$ 。每次用户互动要么是成功（点击），要么是失败（未点击）。在这里，参数 $p$ 是一个介于 0 和 1 之间的比例。这种情况下的 Jeffreys 先验是一个参数为 $\alpha=1/2$ 和 $\beta=1/2$ 的贝塔分布，所以 $\pi(p) \propto p^{-1/2}(1-p)^{-1/2}$ 。

这个先验有一个奇特的 U 形，将更多的权重放在接近 0 或 1 的 $p$ 值上。这是先验表达最大不确定性的一种方式：它不是猜测比例接近中间值（0.5），而是承认该功能有很大可能性要么是完全失败，要么是巨大成功。当与数据——比如说 $n$ 次会话中有 $k$ 次点击——结合时，后验均值变为 $\mathbb{E}[p|k,n] = (k+1/2)/(n+1)$ 。这就像从一个“伪观测”的半个成功和半个失败开始，然后加上我们的实际数据。这是一个温和的推动，使推断远离极端，是一个稳健的起点。

当与主观方法对比时，这种客观性的力量就显而易见了。想象一位资深科学家，因过去的经验而感到悲观，设定了一个强烈偏向于低成功率的主观先验。如果早期数据稀疏（例如，20 次尝试中只有 3 次成功），这个悲观的先验将严重拉低最终的估计值。相比之下，Jeffreys 先验提供了一个中立的基础，让数据——即使稀疏——也能有更大的发言权。

而且这种逻辑可以很好地扩展。如果我们有 $k$ 个可能的类别，而不是两个结果（点击/不点击）——比如说，将星系分为螺旋星系、椭圆星系或不规则星系——Jeffreys 法则可以推广。它产生一个所有参数都为 $1/2$ 的狄利克雷分布。这为无数领域中的多项式问题提供了一个一致、客观的基础，从遗传学（等位基因频率）到自然语言处理（词频）。

信息、几何与宇宙

Jeffreys 先验不仅仅是针对不同问题的食谱集合。它是一个植根于统计信息几何本身的单一、统一的原则。考虑一个泊松过程，它模拟随机事件，如放射性核的衰变或光子到达望远镜探测器。该过程由一个速率参数 $\lambda$ 控制。你可能会倾向于认为，既然 $\lambda$ 是一个“速率”，它的先验应该是 $1/\lambda$ ，就像指数分布的情况一样。

但自然更微妙！Jeffreys 法则告诉我们，先验实际上是 $\pi(\lambda) \propto \lambda^{-1/2}$ 。为什么会有区别？因为在两种模型中，一次观测提供给我们的关于 $\lambda$ 的信息量是不同的。费雪信息是一个度量，一种测量两个略有不同的概率分布之间“距离”的方法。Jeffreys 先验与这个空间的体积元成正比。泊松过程的“信息几何”与指数过程的根本不同，而 Jeffreys 先验自动并正确地反映了这一点。

这种几何观点在复杂的多参数问题中真正活跃起来。考虑寻找系外行星的问题。一个简化的凌日模型依赖于两个参数：行星与恒星的半径比 $p$ ，以及凌日的撞击参数 $b$ 。在这里应用 Jeffreys 法则并不会得到一个简单的、平坦的先验。相反，我们得到一个复杂的函数： $P(b,p) \propto \frac{p b}{\sqrt{(1+p)^2 - b^2}}$ 。

这个结果是宏伟的。它粉碎了“无信息”先验必须是均匀的幼稚想法。这个先验绝非均匀。它被凌日模型本身的几何结构所扭曲。它内在地“知道”，某些 $p$ 和 $b$ 的组合比其他组合更难从数据中区分出来，并相应地调整先验权重。这是问题的信息景观图，由一个普适原则免费提供给我们。

更深的联系与一句警示

Jeffreys 先验的故事还有更令人惊讶的篇章。它与一个完全不同的思想流派——频率学派决策理论和博弈论——有着深刻而出人意料的联系。想象你正在与“自然”进行一场“博弈”。你必须为比例 $p$ 创建一个估计器。然后，“自然”会选择一个 $p$ 值，使你的估计器看起来尽可能糟糕（最大化你的平方误差）。你的目标是选择一个能够最小化这个最大可能误差的估计器——即所谓的“极小化极大”策略。令人震惊的结果是，对于单次观测，产生这个极小化极大估计器的先验恰恰是 Jeffreys 先验，即 $\text{Beta}(1/2, 1/2)$ 。这就像两个探险家，从不同的大陆用不同的地图出发，却到达了同一个隐藏的宝藏。这表明 Jeffreys 先验不仅仅是贝叶斯的便利工具，而是推断数学理论中的一个基本对象。

然而，这个强大的工具并非魔杖。客观先验不能凭空创造信息。在某些情况下，尤其是在参数众多且数据极少时，使用 Jeffreys 先验可能导致后验分布是“非正常的”——它无法被归一化到积分为一，使得概率陈述变得毫无意义。这不是原则的失败，而是来自数学的深刻警告：无中不能生有。客观性必须以至少少量的经验证据为基础，才能产生连贯的推断。

从工厂车间到最遥远的恒星，当我们希望数据尽可能为自己说话时，Jeffreys 先验提供了一个有原则的、统一的框架来从数据中学习。它证明了这样一个理念：在科学中，最深刻的原则往往是那些连接看似最不相干现象的原则，揭示了发现逻辑中隐藏的统一性。