频率学派性质

玻尔百科

核心要点

频率学派的性质，如置信度和p值，评估的是一种统计方法的长期性能，而非某个单一具体结果的概率。
与将概率赋予假设的贝叶斯推断不同，频率学派统计使用p值来衡量在原假设为真的前提下，观测数据令人意外的程度。
模拟提供了一个强大的频率学派标准，用以检验任何统计程序（包括贝叶斯程序）的可靠性和校准情况（例如覆盖率）。
用于控制错误率的频率学派框架，如错误发现率（FDR），对于在基因组学和蛋白质组学等“大数据”领域做出可靠发现至关重要。

引言

我们如何从充满噪声的数据中得出可靠的结论？当一项科学研究提出一个结果——某个物理常数的范围，或某种新药有效性的证据——其相关的概率究竟意味着什么？这个根本性问题是科学界在频率学派统计与贝叶斯统计之间深刻哲学分歧的核心。理解频率学派的性质，就是要把握这场关键对话的一方：一个用以量化不确定性并基于证据做出决策的务实、强大且被广泛使用的框架。这种方法将概率定义为结果的长期频率，而非信念程度，为科学发现提供了一个稳健的工具箱。

本文将探讨频率学派世界观的核心信条和应用。首先，在“原理与机制”部分，我们将剖析置信区间、p值和长期覆盖率等基本思想，通过与贝叶斯对应概念的直接对比，阐明它们独特的解释和用途。随后，在“应用与跨学科联系”部分，我们将看到这些原理的实际应用，探索它们如何助力神经科学、遗传学等领域的科学家设计严谨的实验，在规模化研究中控制错误，并建立一个值得信赖的知识体系。

原理与机制

想象一下，你正在尝试测量一座遥远山峰的高度。你无法带着卷尺亲临其境，所拥有的只是一套仪器——经纬仪、激光测距仪、气压计——每种仪器都有其自身的怪癖和误差来源。你进行一次测量，做一些计算，然后得到一个答案：“这座山的高度在8840米到8856米之间。”

这个陈述究竟意味着什么？你是否以95%的确定性相信，那座山固定不变的、由岩石和冰雪构成的真实高度就在那个特定的范围内？或者，它意味着别的什么？这个问题听起来简单，却直击现代科学中最深刻、最引人入胜的分歧之一：频率学派统计与贝叶斯统计之间的哲学鸿沟。理解频率学派的性质，就是要理解这场宏大对话的一方，这是一种务实而强大的思考不确定性的方式。

统计学家如同赌徒：赌方法，不赌赛马

频率学派的哲学从任何单次测量中后退一步。它并不试图告诉你山峰的真实高度在你计算出的区间内的概率。从频率学派的角度来看，山峰的高度是一个固定不变的数字。它是什么就是什么。它要么在你的区间内，要么不在。其概率要么是1，要么是0，我们只是不知道是哪个。

那么，“95%”从何而来？它不是山峰的性质，也不是你特定区间的性质。它是你的方法的一个性质。

想象一下，不是一个勘测团队，而是五十个独立的团队，都被派去测量同一座山，或者一颗新发现的系外行星的质量。每个团队都使用相同的“92%置信度”程序，但由于随机噪声，他们各自的数据都略有不同，因此他们各自发表的区间也略有不同。一位频率学派的统计学家在审视这一系列结果时，并不会声称任何单个区间有92%的概率是正确的。相反，他们会对长期表现做出陈述：“如果我们多次使用这个程序，我们期望我们生成的区间中约有92%能成功捕获那个未知的真实值。”

这就是频率学派覆盖率的核心思想。概率是附着在程序上的，而不是结果上。这就像有一台向钉子投环的机器。一台“95%置信度”的投环机，在长期运行中，会有95%的时间成功地将环套在钉子上。当你拿起它扔出的一个环时，你不知道这是95次成功中的一次，还是5次失败中的一次。你所拥有的只是对扔出它的那台机器的信心。频率学派赌的是方法，而不是单个结果。

概率的两个世界：我们提出的问题 vs. 我们能回答的问题

这种对概率的程序性观点有时会让人觉得反直觉。如果一项新药的临床试验得出的p值为0.03，人们很自然地会说：“这种药无效的可能性只有3%。”但这不是一个频率学派p值的含义。

让我们用一个经典场景来剖析这个问题。频率学派分析设立一个“原假设”（ $H_0$ ），一种“魔鬼代言人”的立场：让我们假设这种药没有效果（ $\theta = 0$ ）。然后，p值回答一个非常具体且颇为奇特的问题：“假设这种药是无用的，我们得到与实际观测数据一样极端，甚至更极端的数据的概率是多少？”一个小的p值，比如0.03，意味着如果我们观测到的结果是在药物确实无效的情况下发生的，那将是相当令人惊讶的。这是反对原假设的证据，但它不是原假设的概率。

相比之下，贝叶斯框架解决了我们可能觉得真正想问的问题。它不将参数——药物的真实疗效 $\theta$ ——视为一个固定的常数，而是我们对其不确定的一个量。这种不确定性由一个概率分布来表示。在实验之前，我们对 $\theta$ 有一个先验分布的信念。收集数据后，我们使用贝叶斯定理将我们的信念更新为后验分布。一个贝叶斯分析可能会得出结论：“药物有效（ $\theta > 0$ ）的后验概率是0.98。”这是一个关于参数本身的直接信念陈述，以数据和模型为条件。

所以，对于同一个实验，我们得到了两个数字：

频率学派p值（ $p = 0.03$ ）：一个衡量在假设原假设为真的情况下，数据有多令人惊讶的指标。它是 $P(\text{data or more extreme} | H_0)$ 。
贝叶斯后验概率（ $P(\theta > 0 | \text{data}) = 0.98$ ）：一个关于在给定数据的情况下，对假设的信念陈述。它是 $P(H_1 | \text{data})$ 。

它们不是一回事。它们回答了不同的问题，根植于对概率本身的不同定义。频率学派将概率视为世界上可重复事件的长期频率。贝叶斯则将其视为对任何命题（无论是否可重复）的信念程度。这种区别同样适用于区间估计。频率学派的置信区间关乎长期覆盖率，而贝叶斯的可信区间则代表了一个包含一定量后验信念的范围。在系统发育研究中，一个物种分支的95%频率学派自助法支持率并不意味着该分支有95%的概率是真实的；它意味着该分支的系统发育信号非常稳定，以至于在95%的通过重采样原始数据创建的模拟数据集中，推断程序都能恢复它。然而，一个0.95的贝叶斯后验概率则被直接解释为，在给定模型和数据的情况下，该分支有95%的概率是真实的。

当世界碰撞：相同的数字，不同的故事

现在来点魔法。如果我告诉你，在某些非常纯粹的情况下，频率学派的置信区间和贝叶斯的可信区间在数值上可以完全相同，你会怎么想？

考虑一位工程师在测量一个已知服从方差为 $\sigma^2$ 的正态分布的电压。平均电压 $\mu$ 的标准频率学派95%置信区间以样本均值 $\bar{x}$ 为中心。事实证明，如果一个贝叶斯派从一个奇特的“先验信念”出发——即 $\mu$ 从负无穷到正无穷的每个可能值都是等可能的（这是一个“非正常”先验，因为其总概率不为1）——他们得到的95%可信区间在数值上是完全相同的。

假设这个区间是 $[12.1, 12.3]$ 伏特，而设计规格是 $\mu_0 = 12.0$ 伏特。由于12.0在该区间之外，两位统计学家都会得出结论，认为该电源不符合其规格。但请听听他们如何论证：

频率学派说：“我用来生成区间的程序有95%的时间产生正确的区间。这个特定的区间 $[12.1, 12.3]$ 不包含值 $12.0$ 。鉴于我方法的可靠性，我将拒绝真实均值为 $12.0$ 的假设。”其推理完全基于程序的长期性质。
贝叶斯派说：“看到数据后，我对平均电压的后验信念是一个以12.2伏特为中心的钟形曲线。我95%的信念集中在 $[12.1, 12.3]$ 的范围内。值 $12.0$ 远远超出了我信念分布的尾部。因此，我觉得真实均值为 $12.0$ 是极不可能的。”

数字是相同的，但叙述却截然不同。一个是关于可靠过程的故事；另一个是关于信念状态的故事。忽视这一区别就等于错过了整个要点。

终极试金石：通过往绩评判方法

如果哲学理念如此不同，我们如何为一个给定的科学问题决定信任哪种统计方法，无论是频率学派的还是贝叶斯派的？在这里，频率学派的思维方式提供了一个强大且普适的工具：模拟。

在现实世界中，我们永远不知道“基准真相”。我们不知道昆虫和花卉共同祖先的真实年龄，也不知道加热板内部的真实最高温度。但在计算机里，我们可以创造一个我们确实知道真相的世界。

这就是模拟研究的逻辑。首先，我们创造一个基准真相的现实——例如，一个具有精确分化日期的系统发育树。然后，我们编写一个程序来模拟数据收集的混乱过程，从我们的“真实”树中生成假的DNA序列，并带有随机突变和类似时钟的速率变化。我们可以创建成百上千个这样的模拟数据集。

现在，我们可以对我们的统计方法进行审判。我们将每个模拟数据集喂给它，并要求它推断分化日期。因为我们知道真实的日期，所以我们可以检查它的表现如何。

准确性：该方法的平均猜测值是否接近真实值？
覆盖率：这是关键的频率学派性质。如果该方法产生95%的可信区间或置信区间，这些区间是否在我们95%的模拟重复中确实包含了真实值？

如果一个贝叶斯方法持续产生的95%可信区间在模拟中只有70%的时间捕获了真实值，那么尽管贝叶斯框架在哲学上很纯粹，我们也有一个频率学派的理由对其结果持谨慎态度。该程序没有得到良好校准；它对其自身不确定性的声明在重复试验中站不住脚。这个过程，有时被称为基于模拟的校准，使用频率学派的衡量标准来评估任何方法的性能，为我们的统计机器是否如宣传的那样工作提供了必要的检验。

伟大的和解：当信念与频率一致时

在强调了这两个学派之间的巨大差异之后，以一个令人惊讶的和谐音符结束是公平的。虽然它们的起点相距甚远，但它们的终点往往比人们想象的要近，尤其是在数据充足的情况下。

这种趋同性被一个名为Bernstein-von Mises (BvM) 定理的卓越结果所捕捉。简单来说，该定理表明，在许多常见情况下，当你的样本量变得非常非常大时，你最初的贝叶斯先验信念的影响会被来自数据的压倒性证据所冲淡。你的后验信念分布开始看起来不像你的主观先验，而更像一个简单的、客观的钟形曲线。

关键在于：这个钟形曲线的形状和位置是由数据决定的，其方式与频率学派计算其置信区间的方式几乎完全相同。结果是，贝叶斯派的 $(1-\alpha)$ 可信区间在数值上变得与频率学派的 $(1-\alpha)$ 置信区间几乎完全相同。

但BvM定理告诉我们一些更深层次的东西。它证明，在这个大样本极限下，贝叶斯可信区间也获得了关键的频率学派性质：其覆盖概率实际上接近 $(1-\alpha)$ 。只关心描绘个人信念的贝叶斯派，最终得到的区间也具有频率学派所要求的优异长期性能。

最终，在纯粹的证据权重引导下，两种哲学被带入了一个令人惊讶的统一。主观的信念状态开始反映客观的长期成功频率。这是数据塑造共识力量的一个美丽的数学证明，揭示了我们在量化未知过程中的一种隐藏的统一性。

应用与跨学科联系

在我们迄今的旅程中，我们探讨了频率学派世界的抽象原理——置信度的架构、误差的演算以及假设检验的逻辑。这些思想似乎是数学家们深奥的构想，本身很美，但或许与杂乱、有形的科学发现世界脱节。事实远非如此。这些原理不仅是理论上的奇珍；它们正是科学家们从原始数据的基石中雕刻出理解的工具。它们构成了智力脚手架，让我们能够对从单个神经元的放电到宏大的进化历程乃至我们社会的安全等一切事物做出可靠的论断。在本章中，我们将看到这些原理的实际应用，见证它们如何助力科学家驾驭不确定性、发掘新发现，并建立一个值得信赖的知识体系。

精确定位现实：区间的艺术

许多科学研究的核心是测量行为。我们想知道一个事物的价值——电子的质量、化学反应的速率、生物效应的强度。但没有测量是完美的。频率学派方法直面这个问题，不是给出一个单一的“最佳”数字，而是构建一个区间，并对用于创建它的程序提供一个非凡的保证。

想象一位神经科学家透过显微镜观察一个突触——两个神经元之间的连接点。每次刺激，都会释放出一小撮神经递质分子，或称“量子”。每次事件中释放的量子数量似乎是随机的，受机遇法则支配，可以用泊松分布完美地描述。科学家想要估计平均释放率，一个我们可以称之为 $\lambda$ 的参数。在记录了少量事件后——比如，在五次试验中观察到计数为 $(0, 1, 0, 2, 0)$ ——我们能对真实的、潜在的 $\lambda$ 说些什么？频率学派置信区间给出了答案。它提供了一个范围，例如 $[0.124, 1.754]$ ，这是一个程序的结果，如果用新数据一遍又一遍地重复该程序，它将在 $95\%$ 的实验中捕获 $\lambda$ 的真实值。这不是关于我们对这个特定区间的信念的陈述，而是关于我们对方法本身的信心的深刻陈述。这是长期可靠性的保证。有趣的是，对于像这些计数这样的离散数据，“精确”的频率学派方法通常是保守的，意味着它们的实际覆盖率至少是 $95\%$ ，这证明了它们稳健的设计。

在更复杂的情景中，这个概念变得更加关键。考虑一位化学工程师研究一个简单的反应 $\mathrm{A} \to \mathrm{B}$ ，试图确定速率常数 $k$ 。A的浓度呈指数衰减，这是一个关于 $k$ 的非线性关系。当浓度测量有噪声时， $k$ 的似然函数可能会变得形状笨拙且不对称。在这里，频率学派置信区间与其贝叶斯对应物——可信区间之间的区别变得非常明显。一个频率学派区间，例如根据似然函数的轮廓构建的区间，可能高度不对称，反映了问题的非线性性质。而贝叶斯可信区间则同时受到数据和对 $k$ 选择的先验信念的影响。在数据稀少或先验很强的情况下，这两个区间可能大相径庭，凸显了它们根本不同的哲学基础：一个是关于长期程序性能的陈述，另一个是关于后验信念的陈述。在大样本极限下，在某些条件下，两者通常会趋于一致——这是一个被称为Bernstein-von Mises定理的美丽结果——但正是在具有挑战性、数据有限的情况下，它们的差异以及频率学派保证的独特性质才真正显现出来。

在基因搜寻中，区间估计的戏剧性表现得最为淋漓尽致。进行数量性状位点（QTL）定位的遗传学家基本上是在沿着染色体寻找影响身高或疾病易感性等性状的基因的寻宝者。他们扫描染色体，其证据被绘制成优势对数（LOD）得分图谱，一个由峰和谷构成的景观。一个尖锐的山峰表明了基因的位置。但它究竟在哪里？“1-LOD下降支持区间”是回答这个问题的一种常用方法。事实证明，这个区间骨子里是一个渐近的频率学派置信区间。LOD得分的下降与似然比检验统计量有关，根据Wilks定理，该统计量应遵循卡方分布。

但在这里，大自然抛出了一个曲线球。优雅的渐近理论在估计一个位置时并不完美适用。该定理的正则性条件被违反了。结果呢？这些区间的实际覆盖率——真正的频率学派性能——可能低于简单理论预测的名义水平。通过仔细的模拟和分析，这是一项检查自己工具的基本频率学派实践，统计遗传学家们了解到，一个更宽的区间，如“1.5-LOD下降区间”，通常能提供更接近期望的 $95\%$ 的经验覆盖率。这是一个强有力的教训：覆盖率的频率学派保证不仅仅是一个抽象的理想；它是一个可测量的属性，必须根据特定科学问题的严酷现实进行验证，必要时还要进行校准。

伟大的搜寻：驯服多重性猛兽

现代科学通常不是单一、集中的测量，而是在广阔的可能性景观中进行的一场伟大搜寻。基因组学家测试数百万个遗传变异与疾病的关联。生态学家检查数十种性状，看哪些受到自然选择。蛋白质组学家在样本中鉴定数千种蛋白质，以找出哪些在癌细胞中水平升高。在每种情况下，我们执行的不是一次，而是成千上万次甚至数百万次假设检验。这就是多重检验问题，如果没有一个严谨的频率学派框架，它会把我们带入一个充满错误发现的哈哈镜迷宫。

想象一位研究野花种群的进化生物学家。他们测量 $m$ 个不同的性状——花瓣宽度、茎高、花蜜浓度等等——并且想知道哪些性状正在受到定向选择。对于每个性状，他们检验选择梯度 $\beta_j$ 为零的原假设。如果他们对每个检验都使用标准的0.05的p值阈值，并且实际上没有任何性状受到选择，他们仍然期望仅凭纯粹的运气就能为其中5%的性状得到“显著”结果！。

经典的解决方案是Bonferroni校正，它控制了族错误率（FWER）——即做出哪怕一个假阳性发现的概率。这是一种严厉、保守的方法：为了保持整体假警报的低概率，它要求任何单一声明都必须有非凡的证据。这是一个强有力的保证，但它以牺牲统计功效为代价；我们可能会错过许多真实的、尽管较弱的效应。

一个更现代且通常更强大的想法是控制错误发现率（FDR）。我们不承诺没有错误，而是承诺控制我们发现中的错误比例。想象一个实验室进行大规模蛋白质组学实验，从复杂的生物样本中鉴定出数千种肽段。他们希望发布一个可信鉴定的肽段列表。通过将FDR控制在比如1%，他们可以做出一个强有力的声明：“我们预计这个列表上的肽段中，假阳性不会超过1%。”这是一个非常有用的实践保证。这个想法已经彻底改变了高通量领域。该过程通常涉及将来自机器的原始分数转换为p值或后验错误概率（PEP），汇集来自多个实验的这些值，然后为每个潜在发现计算一个“q值”。给定肽段的q值是你可以宣布该肽段为发现的最低FDR——它是其在证据列表中的地位的直接度量。从控制任何错误的风险（FWER）到控制发现中的错误率（FDR）的智力转变，在释放生物学大数据的潜力方面发挥了重要作用。

作为系统的科学：设计、决策与质疑

频率学派思想的影响超出了数据分析，延伸到科学探究的根本设计和科学本身的治理。它为严谨的推理、自我问责，甚至对科学过程进行批判性审视提供了一个框架。

考虑一下进化论中最基本的问题之一：两组生物是同一物种的不同种群，还是两个不同的物种？这是物种界定的问题。很容易被愚弄；强大的种群结构可能看起来像一个物种边界。严谨的方法需要一个清晰的统计公式。我们可以将其构建为一个假设检验： $H_0$ 是“单一物种”模型（具有种群结构），而 $H_1$ 是“两个物种”模型。我们如何收集数据来在它们之间做出决定而又不自欺欺人？答案在于序贯检验，这是频率学派设计的巅峰之作。在这里，研究人员预先注册他们的整个计划。他们定义自己的模型、统计检验（无论是频率学派的似然比检验还是贝叶斯派的贝叶斯因子），以及至关重要的停止规则。然后，他们一次收集一个位点的数据，更新他们的检验统计量，直到它越过一个预先定义的界限，以宣告支持 $H_0$ 或 $H_1$ 的证据。这不是偷看数据；这是与自然进行的有纪律的、序贯的对话，统计错误率（I型和II型）从一开始就得到严格控制。

频率学派性质也可以用于元科学——关于科学的科学。无处不在的p值有一个关键特性：在真实的原假设下，它是均匀分布的。如果存在真实效应，p值的分布会变得“右偏”，即小p值更多。这个简单的事实使我们能够诊断整个科学文献体系的健康状况。想象一位研究人员回顾关于一个流行假设的研究，比如性选择的“优良基因”理论。如果他们收集所有已发表的、统计上显著的p值，其分布应该是什么样的？如果文献中充满了真实效应，p曲线应该是右偏的。然而，如果它是一堆被选择性发表的无效结果，曲线将看起来是平坦的。更糟糕的是，如果研究人员从事“p值操纵”——尝试不同的分析直到结果勉强低于 $p \lt 0.05$ 的门槛——曲线将是“左偏”的，在0.05以下有可疑的p值堆积。这种p曲线分析是一个强大的法证工具，源于频率学派的第一性原理，可以揭示发表偏倚和有问题的研究实践，有助于将稳健的发现与夸大的声明区分开来。

最后，这些错误控制原则并不仅限于实验室。它们对于在面对不确定性时做出理性决策至关重要，尤其是在风险很高的情况下。考虑一个监督合成生物学的国家机构，其任务是监测可能被滥用于伤害的受关注两用研究。他们监测领先指标：异常的DNA订单、实验室事故报告等。他们需要一个政策来决定何时将实验室转入具有更严格保障措施的“更安全模式”。这是政策背景下的假设检验。原假设 $H_0$ 是基线风险水平。备择假设 $H_1$ 是风险升高。过于频繁地触发更安全模式（I型错误）是一种假警报，会施加不必要的负担。当风险确实升高时未能触发它（II型错误）则可能是灾难性的。通过对指标建模并使用Neyman-Pearson框架，监督机构可以设计一个触发器——一个综合得分的阈值——来明确平衡这些风险。他们可以将假警报率（ $\alpha$ ）设定在一个可接受的低水平（例如1%），并确保如果风险真的翻倍，检测概率（功效， $1-\beta$ ）足够高（例如80%）。这是频率学派决策理论为公共政策和安全提供的一个理性、透明和可审计的基础。

从突触的微观世界到科学和社会的宏观事业，频率学派的性质是证据的沉默仲裁者。它们提供的工具不是为了确定性，而是为了更有价值的东西：一个有原则、可靠的方式，在一个充满数据和不确定性的世界中学习和行动。