
在贝叶斯推断中,每一次分析都始于一个先验信念。但是,当我们没有任何先验知识,或者希望以最客观的方式处理一个问题时,会发生什么呢?试图用数学形式化这种“无知”状态,揭示了一个被称为重参数化悖论的根本性挑战,即看似等价的中立性表达却导致了不同甚至矛盾的结论。这表明,我们对无信息先验的选择远非小事,需要一个有原则的解决方案。
本文将直面这一问题。首先,在“原理与机制”一章中,我们将剖析无知悖论,并介绍 Harold Jeffreys 爵士提供的优雅解决方案。我们将探讨费雪信息和重参数化不变性的概念,以理解杰弗里斯法则如何为推断提供一个一致且客观的起点。随后,“应用与跨学科联系”一章将展示这一强大工具的实际应用。我们将看到无信息先验如何应用于物理学、数据科学和演化生物学等不同领域,揭示其深远的影响、令人惊讶的局限性,以及与信息论本身的深刻联系。
在我们用不确定性进行推理的旅程中,我们已经看到贝叶斯框架需要一个起点——一个先验信念。但是,如果我们是,或者声称自己是,真正地一无所知呢?我们如何量化一种完全开放的心态?这个问题听起来近乎哲学,却引导我们走上了一条充满深刻数学之美的道路,揭示了信息、几何与推断之间的深层联系。
让我们想象自己是统计学家,任务是分析一种新型电子元件(比如激光二极管)的寿命。我们用指数分布来为其寿命建模,这是处理此类问题的常见选择。该模型只有一个参数,即失效率,我们称之为 。高 意味着元件很快失效;低 意味着它们寿命长。在我们看到任何数据之前,关于 的一个“中性”或“无信息”的信念应该是什么样的?
一个自然而然的想法是完全不偏不倚。我们设定一个“平坦”先验,。这意味着,对于任何给定宽度的区间,我们都认为 的真值等可能地落在那里。这似乎就是公正的定义。
但请等一下。一位同事可能会争辩说,用失效率 来思考太抽象了。更直观的方式是思考元件的平均寿命,我们称之为 。对于指数分布,它就是失效率的倒数,。显然,如果我们对失效率一无所知,那么我们对平均寿命也应该一无所知。所以,应用同样的不偏不倚逻辑,我们应该给 赋予一个平坦先验:。
悖论就在这里。这两个看似相同的无知状态,却导致了不同的数学表达式。根据概率的变量变换法则,对 的平坦先验等价于对 的一个形式为 的先验。反之,对 的平坦先验等价于对 的一个形式为 的先验。它们并不相同!
这不仅仅是一个数学上的奇特现象,它会带来实际的后果。如果我们对一个元件的寿命进行单次测量,并基于此数据计算我们期望的平均失效率,那么这两个“无知”的起点会给出系统性不同的答案。事实上,对于这个问题,从 的平坦先验出发得到的 的估计值,恰好是从 的平坦先验出发得到的估计值的两倍。我们的最终结论竟然取决于我们如何标记未知量这样一个完全随意的选择。这在科学中是不可接受的。我们对无知的描述不应依赖于我们用来描述它的语言。
解决这个难题的先驱是英国地球物理学家和数学家 Harold Jeffreys 爵士。他意识到,要构建一个对参数化选择不变的先验,我们必须从统计模型本身的基本构成部分来构建它。这个基本对象就是似然函数,。似然函数是我们观察参数 的窗口;它告诉我们,当我们设想 的不同值时,观察到我们的数据 的概率是如何变化的。
Jeffreys 的关键洞见在于从参数空间的几何角度思考。我们如何测量两个可能的参数值(比如 和 )之间的“距离”?一个合理的方式是问,它们所描述的世界有多容易区分。如果它们预测的数据概率分布 和 非常不同,很容易分辨,那么 和 就应该被认为是“相距甚远”。如果这两个分布几乎相同,难以区分,那么它们就是“相近”的。
这种可区分性的概念被一个称为费雪信息的量所捕捉,记作 。从数学上讲,它被定义为对数似然函数二阶导数的负期望值。但其直觉意义更为重要:费雪信息衡量了似然函数对参数 微小变化的敏感度。大的 意味着对数似然函数曲线陡峭,像一个深谷。即使 的微小变化也会引起似然函数的大幅改变,因此数据将对 的真值提供高度信息。小的 意味着对数似然函数平坦,像一片宽阔的平原。数据几乎无法帮助我们确定 的值。
有了费雪信息这个武器,Jeffreys 提出了他关于无信息先验的黄金法则:
在任意点 的先验信念应与该点可用的信息量的平方根成正比。为什么要用平方根?正是这种数学形式像魔术一样,实现了我们所期望的重参数化不变性。当我们从一个参数 变换到一个新的参数 时,费雪信息和微分元素 的变换方式恰好能使得赋予某个区域的总概率保持不变。这个法则自动地解释了当我们重新标记参数空间时发生的“拉伸”或“收缩”。
让我们回到激光二极管的问题。对于失效率 ,可以计算出费雪信息为 。应用杰弗里斯法则:
现在,让我们考虑平均寿命,。如果我们使用参数 从头开始计算,会发现其费雪信息为 。再次应用该法则:
看!先验 和先验 在变换 下是完全一致的。悖论解决了。杰弗里斯法则给了我们一个单一、一致的无知状态。
杰弗里斯法则的真正美妙之处在于,它能够生成在各种问题中都符合直觉的先验。它不是一个“一刀切”的“平坦”先验,而是能适应手头问题的几何特性。
位置参数:考虑一个只是将分布沿坐标轴平移的参数,比如正态分布的均值 。在这种情况下,费雪信息是一个与 值无关的常数。几何结构在各处都是“平坦”的。杰弗里斯法则给出 。对于位置参数,我们最初对平坦先验的朴素猜测是正确的!杰弗里斯法则为我们提供了其背后的深层原因。
尺度参数:现在考虑一个拉伸或收缩分布的参数,比如正态分布的标准差 ,或者指数寿命模型中的尺度参数 。对于这些尺度参数,杰弗里斯法则一致地产生先验 。这个先验表明,从 变到 (100%的增长)与从 变到 (同样是100%的增长)具有同等的重要性。它捕捉了对数尺度或乘法尺度上的无知。
概率:对于单次硬币投掷(伯努利试验)的成功概率 呢?参数 存在于区间 上。一个平坦先验似乎是合理的。然而,费雪信息为 ,这导出的杰弗里斯先验为 。这是一个U形分布,在 和 附近赋予了更多的先验权重。为什么?这反映了数据在区分接近边界的概率时能力较弱。要自信地分辨 和 比分辨 和 需要多得多的数据。“信息距离”在区间的两端被拉长了,而杰弗里斯先验考虑到了这一点。
计数率:如果我们正在计算随机事件,如放射性衰变或顾客到达,我们可能会使用带有率参数 的泊松分布。在这里,杰弗里斯先验是 。这与指数分布的率参数 () 的先验不同,尽管它们都被称为“率”。这是一个关键的教训:杰弗里斯先验依赖于整个似然函数,而不仅仅是参数的名称或物理诠释。
许多这类先验都有一个奇特的特点。像是在整个实数线上 的先验,或是对于 的 的先验,都不能成为真正的概率分布。如果你试图在它们的定义域上对它们进行积分,积分会发散到无穷大。它们被称为非正常先验。
这是否意味着整个框架都崩溃了?完全不是。可以把非正常先验看作一个有用的理想化,是一系列分布范围非常广的正常先验的极限。只要数据提供的信息足够多,贝叶斯定理的魔力就能发挥作用。当我们将似然函数乘以非正常先验时,结果可以是一个行为良好、可归一化的后验分布。数据足够强大,足以驯服先验的无穷大。例如,即使是来自正态分布的单个数据点,也足以将关于其均值的非正常平坦先验 转化为一个正常的正态后验分布。
杰弗里斯法则对于单参数模型来说是一项胜利。但世界往往更加复杂。当我们有两个或更多未知参数时,比如正态分布的均值 和标准差 都未知时,会发生什么?
人们可能会天真地猜测,联合的无信息先验就是单个杰弗里斯先验的乘积:。然而,杰弗里斯法则对多参数的正式推广(使用费雪信息矩阵的行列式)给出了一个不同的答案:。
这种差异并非错误,它标志着我们已到达统计理论的前沿。它揭示了“无信息”的概念在更高维度下变得更加微妙和备受争议。这激发了数十年的研究,催生了如“参考先验”等替代原则。这是一个令人谦卑又兴奋的提醒:寻求一种完美、普适的客观推断语言是一场正在进行的科学冒险,而不是教科书中已尘埃落定的章节。
至此,我们已经穿越了费雪信息和重参数化不变性的抽象世界,锻造出一种特殊工具:无信息先验。它是一件优美的数学机器,旨在以有原则的方式表示无知。但一个工具的好坏取决于它能构建什么。现在,真正的乐趣开始了。我们将把这个工具带出作坊,投入实践。我们将看到它如何帮助我们解决从亚原子领域到宏大的生命织锦等各个科学领域的实际问题。你会发现,这个看似简单的“保持客观”的想法,具有深远甚至有时令人惊讶的后果。
让我们从科学中最基本的行为之一开始:计数。物理学家计算放射性衰变次数,计算机科学家计算漏过过滤器的垃圾邮件数量,生物学家计算培养皿中突变的细胞数。在所有这些情况下,我们都在观察随机事件,并试图推断支配它们的潜在速率或概率。
假设我们是物理学家,试图测量一种罕见量子事件的速率 ,比如在新设计的约瑟夫森结中发生的自发隧穿。我们设置了 个相同的实验,总共观察到 次事件。一个简单、符合常识的猜测是,每个实验的平均速率就是原始平均值 。但如果我们观察到零次事件呢?速率真的是零吗?我们的直觉强烈反对;也许我们只是等待的时间不够长,或者我们的实验不够灵敏。这正是贝叶斯方法的闪光之处。使用泊松率的杰弗里斯先验(我们的原理告诉我们是 ),我们可以计算出 的后验分布。该后验分布的均值,即我们对速率的新的最佳猜测,结果是 。那个小小的“”正是先验的精妙之处!它温和地将我们的估计值从原始数据拉开,反映了我们对有限知识的谦逊承认。当计数值很低时,这种校正尤为关键,它防止我们基于有限的观察期就做出速率恰好为零这样的荒谬断言。
同样的故事也发生在我们估计比例时。想象你是一位数据科学家,正在评估一个新的垃圾邮件过滤器。你用120封已知的垃圾邮件来测试它,它正确识别了其中的90封。对其真实成功率 的直接估计是 。这个二项比例的杰弗里斯先验恰好是一个贝塔分布,具体来说是 。当我们将这个先验与数据结合时, 的最可能值(后验众数)不再是精确的 ,而是 。对于我们的垃圾邮件过滤器,这个值是 。这里的差异很小,但它是一个有原则的差异。
此时,你可能会问一个很好的问题:“为什么要费这么大劲?为什么不直接使用均匀先验,假设 在0到1之间的所有值一开始都是等可能的呢?” 这触及了问题的核心。均匀先验看似“无信息”,但这可能是一种错觉,与你选择如何衡量事物有关。如果你声明概率 是你的参数并且它服从均匀分布,那么另一种完全有效的衡量同一事物的指标,比如优势比 ,将会有一个非均匀分布。你仅仅通过选择参数化的方式,就不经意地在你的分析中加入了偏好!而杰弗里斯先验,从统计模型的结构本身构建而来,具有*重参数化不变性*的魔力。无论你如何标记你的未知量,它都能给出一致的推断结果。从均匀先验和杰弗里斯先验得到的答案之间的差异,在数据量很少时最为明显。当证据如山时,数据会自己说话,先验的温和声音会淡入背景。但在科学的前沿,每个数据点都弥足珍贵,这种选择就至关重要了,它不仅影响你的最佳猜测,还影响你对该猜测的不确定性的大小。
杰弗里斯先验的真正力量在于,它不仅仅是针对特定问题的一系列临时配方,它是一种直接从模型的数学形式生成先验的通用方法。它为客观性提供了一个统一的途径。
假设你的实验设计改变了。你不是进行固定次数的试验,而可能是一位生物学家,等待观察到固定数量 次成功的基因插入。你在停止前观察到的失败次数现在是随机变量,它遵循负二项分布。在这种新情景下,成功概率 的客观先验是什么?我们不必猜测或从头开始。我们只需转动杰弗里斯机制的曲柄:计算负二项模型的费雪信息并取其平方根。先验就此产生,。这个配方每次都有效,它会根据所提问题的结构进行自我调整。
这种普适性优雅地扩展到更复杂的情况。如果你有两个以上的可能结果怎么办?想象你正在分析某个基因中四种DNA碱基(A、C、G、T)的频率。你有一个概率向量 ,其总和必须为一。杰弗里斯法则优美地推广到这种多项式情况。先验被发现与概率平方根的乘积成对称比例:。这对应于一个狄利克雷分布,它是我们之前遇到的贝塔分布的多变量推广。这里有一种深邃的优雅:数学本身揭示了概率空间的“自然”几何结构,而杰弗里斯先验正是尊重这种内在几何的那个。
到目前为止,这个故事似乎非常连贯。但当我们进入更复杂的模型时,“客观性”的版图展现出意想不到的轮廓,甚至为粗心者设下了一些隐藏的陷阱。
大多数真实世界的模型都有不止一个未知参数。考虑一下所有科学中最常见的分布:正态分布,由一个均值 和一个标准差 描述。如果你是一位试图测量某个基本常数的物理学家, 是你的目标,而 只是描述你测量误差的“讨厌参数”。如果我们盲目地将标准的多变量杰弗里斯法则应用于 这对参数,我们会得到一个先验 。然而,更复杂的方法,如 Berger 和 Bernardo 开发的“参考先验”算法,旨在在存在讨厌参数的情况下,对感兴趣的参数()尽可能地无信息。对于正态分布,这个更精细的程序给出了一个不同的答案:。这场持续的讨论表明,寻求一个单一、完美的客观先验并非一个已完结的篇章;它是一个活跃、演进的研究领域。“无信息”意味着什么,可能取决于你到底在问什么问题。
现在来看一个来自演化生物学的真正令人费解的例子。试图从DNA数据重建生命之树的科学家们经常使用贝叶斯方法。他们想要推断的“参数”是树的拓扑结构本身——即演化的分支模式。比如,对于8个物种,有成千上万种可能的树。一位希望保持客观的研究者可能会对所有可能的有标签树赋予一个均匀先验,这意味着8个物种在树结构上的每一种特定排列方式事先都是等可能的。这听起来非常公平,不是吗?错了。这是一个微妙但巨大的陷阱。问题在于,不同的树形状(例如,一个完全平衡的、茂密的树与一个长的、细长的“毛毛虫”树)可以用截然不同数量的方式进行标记。一个对称的形状,比如平衡树,其独特的标记方式远少于非对称的形状。结果呢?对有标签树的“均匀”先验实际上对应于对底层演化形状的一个极度不均匀的先验。仅仅对于8个物种,事实证明这个先验使得最不平衡的毛毛虫形状的概率比完全平衡的形状高出64倍!如果DNA数据含糊不清,分析将压倒性地偏向于一个阶梯状的生命之树,不是因为证据,而是因为那个本应“无信息”的先验中存在着巨大的、隐藏的偏见。这是一个强有力的警告:“均匀性”取决于观察者的视角,在一种表述中看似公平的东西,在另一种表述中可能带有深刻的偏见。
让我们以一个深刻统一的观点来结束。我们一直在讨论我们对一个参数信念的不确定性,它由其后验分布的方差来量化。这似乎是一个纯粹的统计概念。在科学的另一个完全不同的角落,Claude Shannon 发展了信息论,其中随机结果的不确定性由一个称为熵的函数来量化。对于一个概率为 的二元事件,这就是二元熵,。这两种“不确定性”——贝叶斯学者的后验方差和信息论者的熵——有关联吗?一个惊人的发现揭示,它们是密不可分的。如果你进行大量的伯努利试验来使用杰弗里斯先验估计 ,你的后验信念的方差 会与 成比例缩小。同时,熵函数 的曲率衡量了系统信息含量对 变化的敏感度。事实证明,在 很大的极限下,这些量被一个简单而优美的定律锁定在一起: 收敛到一个普适常数,。这非同寻常。我们统计推断的精度,从根本上并定量地与现象本身的内在信息属性联系在一起。这是一条宇宙真理,将数据和信念的世界与信息的基本法则连接起来。正是这样的发现,揭示了科学世界深刻而隐藏的统一性——而这段旅程,往往始于一个简单而诚实的问题:当我们一无所知时,该如何推理?