最短可信区间

玻尔百科

核心要点

最短可信区间，或称最高后验密度（HPD）区间，是在给定概率水平下总结参数后验分布的最简洁范围。
与等尾区间不同，HPD区间在处理偏态或多峰分布时表现出色，因为它只包含最可能的值，即使这会导致不相交的区间。
在分析有边界约束的参数或单调的后验分布时，HPD区间通常会变成一个单侧范围，这在风险和可靠性分析中很常见。
在实践中，HPD区间通常是通过从MCMC样本中找出包含所需百分比排序样本的最短区间来计算的。

引言

在从天文学到动物学的每一个实证科学领域，测量都绝非完美。我们受限于仪器限制、随机噪声和内在变异性，这意味着任何单一的测量都只是对真相的近似。这就提出了一个根本性的挑战：我们如何不仅传达我们最好的猜测，还要传达围绕它的不确定性？贝叶斯框架通过将我们的知识表示为一个完整的概率分布（称为后验分布）来解决这个问题。但这又引出了一个新问题：我们如何将这整个信念图景提炼成一个单一、简洁且诚实的区间？

本文探讨了对该问题最有效的答案：最短可信区间，或称最高后验密度（HPD）区间。在接下来的章节中，我们将剖析这个强大的统计工具。第一章“原理与机制”将解释什么是最短可信区间、它是如何构建的，以及为什么它为复杂和非对称的信念提供了更优的总结。随后，“应用与跨学科联系”一章将展示HPD区间在解决生物学、生态学和工程学等领域的实际问题中的实用价值，揭示其作为真实量化科学知识不可或缺的方法。

原理与机制

想象你是一位古代天文学家，将你新建的望远镜指向天空。你正试图测量一颗附近恒星的距离。你进行了一次测量，然后又进行了一次，结果略有不同。你又进行了一百次测量。这些测量值聚集在某个数值周围，但它们并不完全相同。你的仪器有局限，大气在闪烁，还有成千上万个微小的效应引入了噪声。现在，你该如何向国王汇报？给他一个单一的数字吗？这似乎不诚实，因为它没有捕捉到不确定性。一个更好的方法是给他一个数值范围和一个置信水平，说：“陛下，我有95%的把握确定这颗恒星位于这个距离和那个距离之间。”

这就是推断的基本问题：在我们看到数据后，如何总结我们的知识，包括其局限性。在贝叶斯世界里，我们的“知识”不是一个单一的数字，而是一个完整的概率分布。经过观察后，我们得到所谓的后验分布，它为我们正在测量的参数——比如到那颗恒星的距离，或一块古老化石的年龄——的每一个可能值赋予一个信念程度，或称概率密度。一个95%的可信区间就是一个包含了该后验分布95%“概率墨水”的范围。这是一个直接的信念陈述：给定我们的数据和模型，真实值有95%的概率落在这个区间内。这是一个非常直观的概念，与频率学派的“置信区间”有着深刻的不同，后者谈论的是一个程序在长期运行中的表现，而不是我们对单一结果的信念。

但一个新问题立刻出现了。有许多可能的范围可以包含95%的概率。我们应该选择哪一个呢？

最短且最精炼的区间

让我们思考一下我们对一个区间有什么要求。我们希望它信息量大。我们希望它尽可能精确地指出参数的位置。这意味着我们想要在捕获我们期望的95%信念的同时，得到最短的可能区间。我们该如何构建这样的东西呢？

想象一下后验分布是一片风景，有山丘和山谷，任何一点的高度都代表概率密度。要构建我们的95%可信区间，我们想要占据最有价值的“地盘”。我们应该从这片风景的最高点开始——后验众数，即最可能的值。然后，我们逐渐扩大我们的领地，总是并入下一个可用的最高密度区域。我们持续这个过程，直到我们领地的总面积覆盖了整个风景的95%。得到的区域被称为最高后验密度（HPD）区间。

从其构建方式来看，HPD区间是在给定概率水平下可能的最短范围。为什么？因为我们优先只包含最“可信”的值，并毫不留情地排除了那些不太可信的值。任何其他包含95%概率的区间都必须用一些高密度区域换取一些低密度区域，这意味着为了弥补损失的概率质量，必须将区间拉得更宽。

当信念出现偏斜

当后验分布——我们的信念状态——不是一个对称、友好的钟形曲线时，这种“最短即最好”的理念才真正显示出其威力。我们的信念常常是偏斜的。

考虑一位种群生物学家正在研究一种罕见的基因突变。他们对100个个体进行抽样，发现零个突变实例。他们能对该突变在种群中的真实频率 $p$ 说些什么？常识告诉我们 $p$ 可能非常小，但它可能不完全是零。 $p$ 的后验分布将是严重偏斜的。它的密度峰值会在 $p=0$ 处，并有一条长长的尾巴延伸向更高的值。

我们该如何在这里构建一个95%的区间呢？

一种常见的方法是等尾区间，我们简单地从分布的两端各切掉2.5%的概率。但看看那条长长的右尾！为了找到切掉顶部2.5%的点，我们必须走到一个概率密度极低的区域。我们正在包含那些不怎么可信的值。

HPD区间的做法要聪明得多。由于密度在 $p=0$ 处最高并从那里递减，HPD区间将恰好从0开始，向外延伸直到捕获95%的概率。它拒绝包含尾部那些遥远、低可信度的值，因为要这样做，它就必须排除掉那些在0附近、可信度高得多的值。结果是一个更短的区间，并且可以说，是对我们信念更诚实的总结。

这可能导致一个有趣且违反直觉的后果。在严重偏斜的分布中，均值（“质心”）被拉向长尾深处。然而，HPD区间是围绕众数（峰值）构建的。完全有可能，尾部将均值拉得离峰值如此之远，以至于均值最终落在了95% HPD区间的外面！。这不是一个悖论，而是一个深刻的教训。HPD区间告诉你最可信的值的范围，而均值告诉你长期平均值。对于偏斜的信念，这两者不是一回事。

不确定性的形状：悬崖与峡谷

HPD区间的真正美妙之处在于，它不会强迫我们的信念进入一个单一、简单的范围。它能适应我们的后验分布所呈现的任何形状，无论多么奇特。

想象一下，我们的后验分布是针对一个有物理约束的参数，比如方差，它不能是负数。如果我们的数据表明该值非常接近于零，我们的后验分布可能看起来像一个滑雪坡，从零处的“悬崖边”的最高点开始，然后从那里递减。在这种情况下，HPD区间自然会从边界开始。最可信的值包括边界本身，我们的区间也反映了这一点。

现在来看一个更奇特的例子。假设我们正在分析来自一个传感器的信号，但我们不确定该传感器是A工厂还是B工厂制造的。来自每个工厂的传感器具有略微不同的特性。分析数据后，我们关于关键参数 $\theta$ 的后验信念可能有两个不同的峰：一个中心在A工厂的典型值上，另一个中心在B工厂的典型值上。我们得到了一个双峰（两个峰）分布。在两个峰之间有一个低概率的“峡谷”。

$\theta$ 的95% HPD区间是什么？遵循我们的规则，我们开始占据最高密度的区域。这意味着我们将取第一个峰周围的区域和第二个峰周围的区域。中间的低密度山谷将是最后被考虑的区域之一。很可能，在我们需要跨越它们之间的鸿沟之前，我们已经通过取两个独立的区域累积了95%的概率。结果呢？95% HPD“区间”实际上是两个不相交区间的并集！。

这是一个惊人的结果。HPD区间告诉了我们一些至关重要的信息： $\theta$ 的可信值聚集在两个不同的群体中，而介于两者之间的值实际上并不那么可信。任何迫使我们报告一个单一、连通区间的方法都会掩盖我们知识的这一重要特征。

从理论到实践

那么，在现实世界中我们如何找到这些区间呢？其基本原理是，对于单峰分布，HPD区间下界的后验密度必须等于上界的后验密度，即 $p(L|\text{data}) = p(U|\text{data})$ 。这在直觉上很有道理：如果一个端点的密度低于另一个端点，你可以通过修剪密度较低的一端并增加一小块密度较高的一端来缩短区间，同时保持总概率不变。

在简单的情况下，我们可以使用微积分来求解满足此条件的端点。但对于现代科学中使用的复杂模型，后验分布的“地貌”对于简单的数学来说过于崎岖。这时，计算机来拯救我们了。现代贝叶斯分析依赖于像马尔可夫链蒙特卡洛（MCMC）这样的算法，这些算法实质上是在后验地貌上游走，在海拔较高的区域花费更多时间。其输出是一个庞大的列表，比如从后验分布中抽取的10,000个样本。

有了这个样本列表，找到一个近似的HPD区间就变成了一个惊人地简单的计算任务。我们将样本从小到大排序。如果我们想要从10,000个样本中得到一个90%的区间，我们需要找到一个包含9,000个连续样本的子列表，该子列表具有最小的范围（即其最大值和最小值之间的差最小）。我们可以简单地检查所有可能的长度为9,000的连续子列表——从样本1到9000，从2到9001，依此类推——并找到宽度最小的那个。这是一种暴力方法，但它在实践中完美地实现了HPD的理念。

因此，最短可信区间远不止是一个技术选择。它是一种诚实而高效地传达我们所知信息的原则。它尊重我们不确定性的真实形状，无论它是一个简单的山丘、一个偏斜的斜坡，还是一个由多个山峰和山谷构成的地貌。它为最可信的现实提供了最简洁的总结，这是任何科学家——或国王——都应该珍视的品质。

应用与跨学科联系

在科学中，“知道”某件事意味着什么？如果我们测量光速，我们不仅仅得到一个数字；我们得到一个范围，一个关于我们不确定性的陈述。如果我们预测飓风的路径，我们不会在地图上画一条线；我们画一个“不确定性锥”。现代科学的核心不仅仅是找到“正确”的答案，而是诚实而精确地描述我们知识的边界。在贝叶斯世界里，我们的知识被一个概率分布所捕获，而最短可信区间是我们绘制这些边界最有力的工具。它是对我们信念最简洁、最有效的总结。但这绝非纯粹的统计抽象。当我们看到这个工具在科学领域解决实际问题时，它便焕发了生机。

精确定位远古事件：生物学家的时间机器

我们怎么可能知道人类和黑猩猩最后一次拥有共同祖先是什么时候？我们不能用秒表；这个事件埋藏在数百万年前的过去。答案隐藏在我们的DNA中。通过比较不同物种的基因序列，并对突变累积的速率——一个被称为“分子钟”的概念——做出假设，我们可以创建一个统计模型来估计这些古老的分歧时间。

当然，这个时钟并不完美；它滴答作响并不规律。贝叶斯方法拥抱这种不确定性。计算机模拟（通常是马尔可夫链蒙特卡洛（MCMC）采样器）不会产生一个单一的日期，而是会生成成千上万个可能的日期，每一个都是从后验概率分布中抽取的样本。想象一下，我们的模拟给出了一个物种形成事件的一系列可能日期，以百万年为单位： $11.2, 11.3, 11.4, \dots, 12.9, 13.0$ ，然后还有一些令人惊讶的异常值，比如 $13.8$ 。我们如何将这一堆可能性总结成一个单一、诚实的范围？

这正是最短可信区间，或称最高后验密度（HPD）区间，展示其简单力量的地方。我们取所有抽样的日期，将它们排序，然后找到包含（比如说）95%样本的最短可能区间。对于我们的样本列表，这个过程迅速揭示出，从 $11.2$ 到 $13.0$ 百万年的区间，比一个试图包含异常值 $13.8$ 百万年而牺牲另一端更可信的值的区间要短。HPD区间自然地隔离了我们信念分布中“最拥挤”的区域，正确地识别出具有最高后验密度的日期范围。

现代科学常常不仅要处理参数的不确定性，还要处理模型本身的不确定性。如果我们有两种关于分子钟如何运作的竞争理论怎么办？一个“宽松时钟”模型可能会为一个分歧事件产生 $[79.9, 85.6]$ 百万年的95% HPD区间，而一个更简单的“严格时钟”模型则建议区间为 $[77.1, 82.2]$ 百万年。贝叶斯框架不强迫我们做出选择。相反，我们可以计算一个“模型平均”的后验，通过我们对每个模型的信心（源于它解释数据的能力）来加权其预测。然后我们可以提出更复杂的问题，比如“真实日期落在两个模型都同意的区域的概率是多少？”这就是科学的实践：承认、量化并整合多种不确定性来源，以构建一幅关于我们遥远过去的更稳健的图景。

计算未见之物的微妙艺术

想象一位生态学家设置了一个光诱捕器来调查一种稀有的蛾类。一整夜过去了，捕获器是空的。这是一个失败的实验吗？还是这是有价值的数据？对贝叶斯统计学家来说，“零”的观察结果常常富含信息。挑战在于，一个零可能意味着两种截然不同的事情：要么该区域没有蛾（一个“结构性零”），要么有蛾但它们恰好躲过了捕获器（一个“抽样零”）。

像零膨胀泊松（ZIP）这样的模型正是为这种情况设计的。它们包含一个参数，我们称之为 $\pi$ ，它代表结构性零的概率——即蛾类确实不存在的概率。现在，在观察到一个空的捕获器之后，我们对 $\pi$ 的信念被更新了。事实证明，在简单情况下， $\pi$ 的后验概率密度不是一个对称的钟形曲线。相反，它可能是一个在 $\pi=0$ 处最低，并向 $\pi=1$ 稳定增加的分布。

如果我们想为 $\pi$ 构建一个95%的可信区间，我们应该怎么做？一个天真的“等尾”方法会从低端切掉2.5%的概率，从高端切掉2.5%的概率。但这将意味着我们扔掉了靠近1的 $\pi$ 值，而那正是我们信念最强的地方，却保留了靠近0的值，而那正是我们信念最弱的地方。这毫无道理！

HPD区间做了唯一合乎逻辑的事情。由于后验密度总是在增加，最高密度的区域集中在高端。因此，95% HPD区间将是一个形如 $[L, 1]$ 的单侧区间。它尊重我们知识的形状，告诉我们基于证据，我们的信念现在集中在蛾类确实不存在的更高概率上。这是HPD原则的一个美丽而深刻的例证：它不仅关乎包含95%的概率，更关乎包含最可信的95%。

衡量风险与可靠性：从工程到经济

一个失灵的太空探测器、一个动荡的股票市场和一个不可预测的经济体有什么共同点？它们都是复杂的系统，我们都迫切希望理解风险、失败或方差的来源。我们想问这样的问题：这个系统可靠吗？哪个组件是最大的风险来源？市场波动中，有多少比例是由于突然的、冲击性的跳跃，而不是日常的噪声？

在可靠性工程中，一个系统可能由串联的组件构成，只要一个组件失效，整个系统就会失效。总的系统失效率 $\Lambda$ 是各个组件失效率的总和， $\Lambda = \lambda_1 + \lambda_2$ 。一项贝叶斯分析可能会发现， $\Lambda$ 的后验分布是一个指数分布——一条在 $\Lambda=0$ 处达到最大值并稳定递减的曲线。

在金融建模中，一只股票回报的总方差可以分解为一个连续部分和一个来自市场突然冲击的“跳跃”部分。一个关键问题是，总方差中有多大比例 $\phi$ 是由这些危险的跳跃造成的。事实证明，这个比例的后验分布通常遵循一个贝塔分布，对于典型的参数值，它也是一个递减函数，在 $\phi=0$ 处最高。

在宏观经济学中，国民经济的波动是由各种“冲击”驱动的——政策冲击、技术冲击等等。经济学家可能想知道，总产出方差中，仅由其中一种冲击解释的比例 $R$ 是多少。同样，这个比例 $R$ 的后验分布通常也是一个递减函数。

请注意这个统一的主题。在所有这些看似毫不相关的领域中，我们感兴趣的量——失效率或风险比例——的后验分布都是单调的。就像我们的蛾类生态学家一样，一个等尾区间将是荒谬的。HPD区间提供了清晰直观的答案：它是一个形如 $[0, U]$ 的单侧区间。这告诉我们，我们最强的信念是风险或失效率非常小，但我们不能排除它可能大到 $U$ 的可能性。这个单一而强大的概念统一了我们对各种应用中风险的理解。

差异问题：对称性的特例

那么，最短可信区间总是某种偏斜、不对称的东西吗？完全不是。考虑一个最经典的科学问题之一：比较两个过程。一种新药比安慰剂更有效吗？广告活动A比广告活动B更好吗？我们最感兴趣的基本量是它们成功率的差异， $\delta = p_A - p_B$ 。

如果我们对A和B的有效性持有对称且无偏的信念（例如，假设它们的成功概率在0和1之间均匀分布），那么差异 $\delta$ 的后验分布通常是单峰且完全对称的，其峰值在 $\delta=0$ 处。在这种特殊但非常重要的情况下，我们如何找到包含95%概率的最短区间？我们只需将区间围绕分布的峰值居中。最短的区间就是关于众数对称的那个。

在这里，最短可信区间（HPD）和我们熟悉的等尾可信区间变得完全相同。这是一个至关重要且令人欣慰的结果。它表明HPD概念是一个强大的推广，而不是一个完全陌生的想法。它将我们通常最先学到的简单、对称的情况作为一个自然的结果包含在内。它没有抛弃我们的直觉，而是完善并完成了它。

不确定性的忠实代言人

这次跨越生物学、生态学、工程学和经济学的旅程揭示了一条共同的线索。最短可信区间不是一把僵硬的尺子，而是一个灵活的模板，它会根据我们知识的形状而塑造自己。当我们的知识是偏斜的，区间也是偏斜的。当知识由一个来自模型校准问题的简单三角形描述时，区间的边界通过对三角形进行简单的几何切割来找到。即使在处理极其复杂的对象时，比如由高斯过程学习到的函数的最大值，这种寻找最紧凑信念区域的原则仍然是我们坚定的向导。

最短可信区间的真正力量在于其诚实。它迫使我们面对我们不确定性的真实形状——后验分布——并毫无扭曲地报告它。它提供了对概率分布最精简的总结，为我们在给定的置信水平下，对我们认为真实的情况给出了最短的可能陈述。而对于一个科学家，或任何有好奇心的人来说，没有比这更高的目标了。