频率主义推断：原理、应用与现代前沿

玻尔百科

核心要点

频率主义将概率定义为结果的长期频率，并将真实参数视为固定但未知的常数。
95%置信区间是由一个在95%的重复实验中能够捕获真实参数值的程序生成的。
p值衡量的是在零假设（即没有效应）为真的前提下，数据出现的惊奇程度。
在现代大数据分析中，经典的频率主义方法必须进行调整，以避免选择后推断带来的“赢家诅咒”等陷阱。

引言

在探求科学知识的过程中，数据是我们通往真理的主要纽带。但我们如何将原始、随机的观测数据转化为关于世界的可靠结论呢？频率主义推断为此提供了一个强大而严谨的框架，它所提供的哲学和数学工具支撑了现代科学的诸多发现。然而，其核心概念——如p值和置信区间——却出了名地容易被误解，其经典方法在当今大数据时代也面临着新的挑战。本文旨在引导读者穿越这片至关重要的统计学领域，揭开其原理的神秘面纱，并展示其实践应用。

本文的旅程分为两个主要部分。首先，在“原理与机制”部分，我们将探讨频率主义统计学的基础世界观，理解它如何定义概率，以及为何参数被视为固定的常数。我们将解构置信区间、假设检验和p值的运作机制与正确解释，并考察剖面似然和自助法等使科学家能够驾驭现实世界复杂性的精密技术。随后，“应用与跨学科联系”部分将使这些理论鲜活起来，展示它们如何被用于在生物学中寻找基因、在物理学中发现新粒子，以及如何应对机器学习和高维数据带来的独特挑战，从而揭示一个在科学前沿不断演化的动态框架。

原理与机制

进入频率主义推断的世界，就意味着要采纳一种独特且极其严谨的方式来思考知识、不确定性和真理。这一切始于一个简单，甚至近乎朴素的概率定义，而这个定义塑造了后续的一切。

频率主义眼中的世界

什么是概率？如果你问一个朋友，他们可能会说这是他们信念的度量。“我有八成把握我锁了门。”这是一种完全合理且非常人性化的思考方式。但这并非频率主义的方式。对于频率主义者来说，概率不是关于信念的陈述，而是关于在一系列相同、可重复的实验中，一个事件的长期频率的陈述。如果你说一枚硬币正面朝上的概率是0.5，你的意思是，如果你将其抛掷成千上万次，甚至数百万次，正面出现的比例将越来越接近0.5。

这个看似简单的定义带来了一个深远的结果。我们宇宙的基本常数和参数——电子的质量、光速、一种新药的真实平均疗效——不被视为可重复的事件。电子的质量只有一个真实值。因此，在频率主义的世界观中，这样的参数是一个固定但未知的常数。它对我们来说可能是未知的，但它不会摇摆或改变。它不是一个随机变量，因此，在这个框架下，我们不能谈论真实值是这个或那个的“概率”。

那么随机性从何而来？它来自我们的抽样过程。想象一下，你试图测量一张桌子的精确宽度。宽度本身，我们称之为 $\mu$ ，是一个固定的常数。但每次你用卷尺去测量时，你都会得到一个略有不同的结果——也许一次是 $150.1 \text{ cm}$ ，下一次是 $149.9 \text{ cm}$ 。你的测量值是从一个可能的测量值分布中随机抽取的样本，但桌子的宽度并非如此。频率主义推断的全部要义，就是利用我们随机样本中的信息，来对那个固定但未知的常数做出精确的陈述。

套圈游戏：理解置信区间

如果我们不能为我们感兴趣的参数赋予一个概率，我们如何表达对其的不确定性呢？我们不能说：“真实值 $\mu$ 在此范围内的概率为95%。”这可能是所有统计学中最常见的误解。频率主义者的答案是一种名为置信区间的巧妙设计。

为了理解它，我们来玩一个游戏。想象一个钉在板子上的钉子。那个钉子的位置就是真实、固定的参数 $\mu$ 。你，作为科学家，被蒙上眼睛向板子扔圈。你计算区间的统计“程序”就是你的投掷方法。有些投掷会使圈套住钉子；其他的则会错过。

一个95%置信区间对应一种投掷方法，从长远来看，这种方法有95%的时间能成功地将圈套在钉子上。

现在，你进行了一次实验。你收集了数据。你扔出了你的一个圈，它落在了板上的某个地方。你摘下眼罩，看到那个圈静静地躺在那里，形成一个固定的区间，比如一种食品防腐剂的浓度为 $[185.0, 192.0]$ ppm。此时，对于这一次投掷来说，游戏已经结束。钉子( $\mu$ )就在它的位置上。圈也就在它的位置上。钉子要么在圈内，要么不在。这不再有任何概率可言。

那么“95%”意味着什么呢？它不是你刚刚扔出的那个特定圈的属性。它是投掷者的属性——即生成这个圈的程序的属性。当你报告一个95%置信区间时，你不是在说“我有95%的把握真实值在这里。”你是在说，“我使用了一种方法，如果反复重复，它所产生的区间有95%的时间会捕获真实值。” 你是对你的方法有信心，而不是对某个特定的结果。这是一个关于我们从单个实验中能知道什么和不能知道什么的微妙但优美而诚实的陈述。相比之下，贝叶斯的可信区间确实对参数做出了直接的概率陈述，但这需要一个不同的哲学起点。

惊奇程度的度量：假设检验与P值

我们如何利用这个框架来进行科学发现？假设我们开发了一种新药。“怀疑论者”的观点是这种药毫无作用。这被称为零假设，记为 $H_0$ 。它是“没有效应”或“没什么有趣的事情发生”的假设。与之相对的备择假设 $H_1$ 则是该药有效。

我们进行实验并收集数据。现在，我们问一个非常具体的问题：“假设怀疑论者是对的，药物完全无效，那么仅仅由于随机机会，我们得到与实际观察到的数据一样极端，甚至更极端的数据的概率是多少？”

这个问题的答案就是p值。

把它想象成一个“惊奇度计”。如果p值很大（比如0.50），这意味着我们观察到的结果在零假设下一点也不令人惊讶。这是你期望仅凭运气有一半时间会看到的那种事情。但如果p值非常小（比如0.03），这意味着我们的结果非常令人惊讶。如果药物真的无效，我们在100次相同的实验中只会看到3次这么强的结果。在某个时刻，我们判定这个结果太令人惊讶了，不可能是巧合，于是我们拒绝零假设，转而支持备择假设。

注意p值不是什么。它不是零假设为真的概率。p值为0.03并不意味着药物无效的可能性是3%。这是另一个普遍存在的误解。频率主义的p值无法告诉你一个假设的概率，只能告诉你数据与该假设的一致性如何。相比之下，贝叶斯分析可以计算一个像 $P(\text{药物有效} | \text{数据})$ 这样的后验概率，这直接回答了关于信念的问题，但它是通过从一开始就把参数本身视为一个随机变量来实现的。

驯服混乱：讨厌参数与剖面似然

现实世界的实验很少是简单的。我们对单个感兴趣参数的测量往往与许多其他不确定性纠缠在一起。当大型强子对撞机的物理学家寻找新粒子时，其信号强度（ $\mu$ ，即感兴趣的参数）与他们对探测器效率、背景噪声和其他校准因素的不完美知识紧密相关。这些其他必需但我们不感兴趣的参数被称为讨厌参数（ $\theta$ ）。[@problem_taming_the_mess_nuisance_parameters_and_profile_likelihood:3524821]

我们如何在诚实地考虑 $\theta$ 不确定性的同时，对 $\mu$ 做出陈述呢？频率主义的方法是一种非常巧妙的技术，称为剖面似然。

想象一下，你正试图在一片广阔的山脉中找到最高点，但整个地貌都被浓雾笼罩。你关心的坐标是经度（你感兴趣的参数 $\mu$ ），但你的海拔高度也取决于纬度（讨厌参数 $\theta$ ）。为了找到顶峰，你不能简单地忽略纬度。相反，你采取一个策略：对于每一个可能的经度值 $\mu$ ，你在南北方向上探索雾中的地形，并找到在那个固定经度上你能达到的绝对最高点。这给了你 $\hat{\hat{\theta}}(\mu)$ ，即对于那个特定的 $\mu$ 值，讨厌参数的最佳可能取值。你对所有可能的经度都这样做。连接所有这些条件最高点的曲线形成了一个新的一维山脉——真实地貌的一个“剖面”。这就是剖面似然。找到这条新曲线的峰值，就给了你对感兴趣参数的最佳估计，而它的宽度则告诉你你的不确定性，这个不确定性已经恰当地考虑了讨厌参数维度。

这种优化方法（为每个 $\mu$ 找到最佳的 $\theta$ ）与贝叶斯方法的边缘化形成鲜明对比，后者更像是根据某种先验信念对所有可能的 $\theta$ 值进行平均。剖面法问的是：“对于这个 $\mu$ ，讨厌参数最有利的情景是什么？”边缘化问的是：“对于这个 $\mu$ ，在所有可能的讨厌参数情景中，平均结果是什么？”这是两种截然不同的驱散迷雾的方式。

现代引擎：模拟与自助法

置信区间和p值背后优雅的数学往往依赖于我们能够写出抽样分布的公式——即所有可能实验结果的分布。对于今天研究的复杂系统，从粒子物理到系统生物学，这通常是不可能的。

这时，计算机通过一个强大的思想——自助法（bootstrap）——成为了频率主义者最伟大的盟友。这个名字来源于“依靠自己的鞋带把自己拉起来”这个异想天开的想法，这是一个贴切的比喻。其核心思想是：我们只有一个来自真实世界的数据样本，但如果我们把这个样本看作是我们所拥有的对真实世界的最佳代表呢？然后，我们可以用计算机从我们的原始数据中抽取新的、模拟的数据集，从而有效地创造出成千上万个“平行宇宙”，以模仿定义频率主义概率的“长期重复实验”。

它主要有两种形式：

参数自助法（Parametric Bootstrap）：如果我们对实验有一个可靠的理论模型（例如，我们确信我们的事件计数遵循泊松分布），我们首先将这个模型拟合到我们的数据上，以获得最佳拟合参数。然后，我们将这个拟合好的模型用作一个“玩具宇宙”生成器。我们让计算机从这个玩具模型中生成数千个模拟数据集，并对每一个数据集重新运行我们的分析。我们在这些模拟中看到的变异就给出了我们对抽样分布的估计。
非参数自助法（Nonparametric Bootstrap）：如果我们甚至没有一个可信的参数模型呢？我们可以使用一个更大胆的策略。假设我们有一个包含1000个测量事件的数据集。我们可以通过从原始数据集中进行1000次有放回的抽样来创建一个新的模拟数据集。一些原始事件会被多次选中，另一些则根本不会被选中。通过重复这个过程，我们可以生成数千个新的数据集，这些数据集捕捉了我们原始样本中的变异，而无需假设任何底层的数学形式。这是一种非常强大的技术，用于理解不确定性，例如在粒子物理拟合中使用的分布形状的不确定性。

自助法是现代的引擎，它使得频率主义的核心原则——通过在重复实验中的表现来评估一个程序——能够应用于几乎任何问题，无论多么复杂。

一道深刻的分歧：似然原则

我们在一个更具哲学性的注释上结束本节，它揭示了统计学核心处一个迷人而深刻的张力。似然原则是一个看似无伤大雅的观点：它指出，对于一个给定的模型，数据所提供的关于参数的所有信息都包含在似然函数中——这个函数告诉我们，对于任何给定的参数值，观察到我们特定数据的概率。

贝叶斯推断通过将先验与这个似然函数相乘来进行，因此它自动遵守这个原则。如果两个不同的实验恰好产生了相同的似然函数，贝叶斯主义者总会得出相同的结论。

然而，频率主义方法常常违反似然原则。为什么？因为p值或置信区间不仅取决于我们看到的数据，还取决于我们本可能看到但没有看到的所有其他数据（即“或更极端”的部分）。

考虑一个经典的例子：一位粒子物理学家进行了一项实验，并计数到10个事件。一个计划可能是让探测器运行固定的时间，比如一年。另一个计划可能是运行探测器直到观察到10个事件为止。在这两种情况下，实验室笔记本中记录的数据可能完全相同（观察到10个事件），并且粒子发生率的似然函数也会相同。然而，频率主义分析可能会得出不同的置信区间或p值，因为在这两种“停止规则”下，其他可能结果的集合是不同的。这不是一个错误；它是频率主义哲学的直接后果。因为目标是评估一个程序在其所有可能结果上的长期表现，所以如何定义可能的结果至关重要。对于频率主义者来说，旅程——即完整的实验计划——与目的地同等重要。

应用与跨学科联系

在深入探讨了频率主义推断的抽象原理之后，我们现在踏上一段旅程，去看看这些思想在现实世界中的应用。就像一位刚学会一门新语言语法的旅行者，我们准备离开教室，去聆听我们周围正在发生的对话。我们会发现，这种关于概率和假设检验的语言，在生物实验室里、在巨大的粒子对撞机旁，以及在驱动我们数字世界的嗡嗡作响的数据中心里被广泛使用。我们的旅程不仅将揭示频率主义框架在构建科学发现方面的巨大力量，还将展示其引人入胜的局限性，以及科学家们为推动其边界而采用的巧妙方法。这是一个强大思想与自然界混乱、复杂且常常出人意料的现实相遇的故事。

发现的基石：与生命的对话

也许频率主义语言最常见的方言是假设检验，其最著名的词汇是“p值”。让我们走进一个系统生物学实验室来正确理解它。想象一位生物学家正在研究一个酵母菌落中的两个基因，想知道它们的活性水平是否相关。他们在许多样本中测量了基因GEN1和GEN2的表达量，并发现了一个负相关。这种关系是真实的，还是仅仅是这次特定实验的偶然现象？

为了回答这个问题，他们陈述了一个精确、可证伪的假设——零假设——该假设断定，在所有酵母的宏大图景中，这两个基因之间绝对没有相关性。他们计算出的p值，比如 $p = 0.015$ ，是一个以这个悲观的零假设为真为条件的陈述。它回答了这样一个问题：“如果这两个基因之间真的没有任何联系，那么我们仅凭纯粹的随机机会，观察到至少与我们刚刚发现的一样强的相关性的概率是多少？”一个小的p值，如 $0.015$ ，意味着如果零假设为真，观察到的结果将非常令人惊讶。它是数据与零假设不相容程度的度量。

至关重要的是要理解这个p值不是什么。它不是零假设为真的概率。也不是观察到的结果“由随机机会导致”的概率。这些都是诱人但错误的解释。频率主义框架不会为固定的假设分配概率。它只告诉我们，通过一个特定的“如果...会怎样”情景的视角来看，我们的数据有多么令人惊讶。这个微妙但关键的区别是解读你在科学论文中可能遇到的任何p值的核心。

同样的证据评估逻辑也延伸到频率主义统计的另一个基石：置信区间。让我们从基因相关性转向基因搜寻。遗传学家在寻找一个数量性状基因座（QTL）——一段与玉米抗旱性等性状相关的DNA区域——时，可能会报告其在染色体上位置的“95%支持区间”。同样，进化生物学家在比较DNA序列以构建生命家族树时，可能会报告某个分支点的“95%自助法支持度”。

将这些陈述解释为“基因有95%的概率位于这个区间内”几乎是不可抗拒的。但这同样是一种误解。做出这种关于参数的直接概率陈述的是贝叶斯的可信区间。频率主义的置信区间有一个更奇特、更优美的解释。把它想象成一个套圈游戏。基因的真实位置是地上一个固定的钉子。你的实验和统计程序为你提供了一种扔圈的方法。“95%置信度”是你扔圈方法的一个属性，而不是你扔出的任何单个圈的属性。它的意思是，如果你一遍又一遍地重复实验，你生成区间的方法将有95%的时间成功地将圈套在固定的钉子上。对于你实际计算出的那个区间，比如[82.0 cM, 94.0 cM]，我们对生成它的程序有信心，但我们不能说参数有95%的机会在里面。钉子要么在圈里，要么不在。我们的信心在于我们过程的长期可靠性。这就是频率主义连贯性的本质：通过在假设重复的长期运行中的表现来评估程序。

驯服复杂性：物理学家的工具箱

简单的假设检验是一个强大的工具，但是当一个测量受到数十个不确定性困扰时会发生什么？在这里，我们转向高能物理学家，他们已将频率主义方法提炼成一种用于在宏大和微观尺度上进行发现的精致机器。

考虑在大型强子对撞机（LHC）上寻找一个新粒子。物理学家正在寻找一个微小的事件超出现象——数据中的一个“小包”——它位于一个巨大的、被充分理解的背景之上。这个小包的高度与一个我们感兴趣的参数，即信号强度 $\mu$ 有关。如果 $\mu=0$ ，就没有新粒子；如果 $\mu > 0$ ，则有。但测量是混乱的。探测器的效率可能不确定，背景水平可能不完全清楚，加速器的亮度（其“亮度”）也有一些浮动空间。这些不确定性中的每一个都是一个*讨厌参数*。

讨厌参数就像部分遮蔽我们观察信号的迷雾。如果我们的探测器可能比我们想象的更亮或更暗（亮度 $\kappa$ 的不确定性），它可能使我们的信号 $\mu$ 看起来比实际更大或更小。频率主义方法在此处的卓越之处在于剖面似然法。对于我们想要测试的每一个可能的信号值 $\mu$ ，我们问：“能使数据与这个 $\mu$ 最相容的所有讨厌参数的最有利设置是什么？”我们通过不断地重新优化来“剖析掉”讨厌参数。

这个过程正确地解释了一个参数的不确定性如何降低我们对另一个参数的认识。我们可以精确计算出亮度的不确定性 $\sigma_L$ 如何“模糊”我们对信号强度 $\mu$ 的测量，从而降低我们的对数似然函数的曲率。一个更平坦的似然函数意味着一个不太精确的测量和我们结果上一个更大的最终误差棒。

这个机制不仅仅是一个理论练习；它是发现的引擎。为了宣称一个新粒子被发现，物理学家必须检验“只有背景”的假设，即 $H_0: \mu=0$ 。他们使用一个特定的检验统计量 $q_0$ ，它由剖面似然比构建，比较了数据在最佳拟合信号假设 $(\hat{\mu}, \hat{\theta})$ 下的合理性与其在零假设 $(\mu=0)$ 下的合理性，其中讨厌参数 $\theta$ 已被剖析掉。这个统计量使他们能够计算一个p值并确定他们发现的“西格玛”水平。正是这种严谨的频率主义形式，给了世界宣布发现希格斯玻色子的信心。

现代前沿：大数据时代的推断

经典的频率主义框架是在小型、精心设计的实验时代锻造的。但是，当我们将它应用于21世纪海量、高维的数据集时会发生什么？我们发现旧的规则受到了挑战，导致了令人惊讶的悖论和一波创新浪潮。

预测与解释

现代统计学的一个核心张力是预测与推断（或解释）之间的区别。有时我们想要预测一个结果，我们不关心黑箱是如何工作的。其他时候，我们想要理解其内部运作——推断哪些特定因素正在驱动结果。频率主义推断传统上关注后者。

考虑一个线性模型， $Y = X\beta + \varepsilon$ 。推断是关于估计真实的系数 $\beta_j$ 。但是如果我们的预测变量（ $X$ 的列）彼此高度相关，这个问题被称为多重共线性，会发生什么？标准的频率主义估计器，普通最小二乘法（OLS），在推断方面变得不可靠。系数估计 $\hat{\beta}_j$ 的方差会爆炸，使得无法分清每个预测变量的单独效应。我们的置信区间变得巨大，我们的统计功效急剧下降。

一个只关注预测的机器学习从业者，可能会使用像岭回归这样的技术。通过增加一个小的惩罚项，岭回归在估计中引入了一点偏差，将它们拉向零。这对于推崇无偏性的经典推断来说是不可接受的。但作为这个小偏差的回报，岭回归可以显著降低估计的方差，通常导致更低的预测误差。交叉验证可用于调整这个惩罚项以优化预测准确性。这揭示了一个深刻的权衡：为预测而优化的方法通常不适合经典推断，反之亦然。当我们从贝叶斯视角看待岭回归时，这种对比更加鲜明，其中正则化惩罚等同于在系数上放置一个高斯先验，即使在OLS完全失效的情况下（例如在我们有比数据点更多的预测变量（ $p > n$ ）的“高维”设置中），也能产生一个明确的后验分布和可信区间。

挑选数据的危害：选择后推断

将经典频率主义工具应用于大型数据集的最大危险也许是“挑选数据”的问题，或者统计学家所说的选择后推断的失败。

想象一位系统免疫学家，他测量了200名患者的50种不同的细胞因子（信号蛋白），以查看哪些与疾病的严重程度有关。他们测试了50种细胞因子中每一种与疾病的相关性，发现其中5种具有“显著的”p值。然后他们发表一篇论文，重点关注这5种细胞因子，并报告它们的OLS系数和置信区间，就好像这个5预测变量模型从一开始就是他们的假设一样。

这个过程存在严重缺陷，是导致科学不可重复的根源。通过从一大批候选中选择“赢家”，然后用用于选择的相同数据来分析它们，统计检验变得无效。把它想象成一个有50人的警察阵容。如果你事先决定要检验“3号嫌疑人是否有罪？”的假设，一个标准的检验是公平的。但如果你查看所有50人，挑选出看起来最可疑的那个，然后检验“这个人是否有罪？”的假设，你就已经使整个过程产生了偏见。即使每个人都是无辜的，总会有人因偶然看起来最可疑。

标准的t检验假设假设是在看到数据之前固定的。幼稚的选择后程序会夸大第一类错误率，导致“赢家诅咒”，即效应量被夸大，错误发现比比皆是。幸运的是，对这个问题的认识已经激发了频率主义统计学的一场革命，产生了几种巧妙的解决方案：

数据分割： 最简单、最诚实的方法。用你的一半数据来探索和选择你的变量，然后用另一半原始数据来进行有效的假设检验。
选择性推断： 一种复杂的数学方法，它推导出检验统计量的正确零分布，条件是它“赢得”了选择过程。
仿冒变量（Knockoffs）： 一个绝妙的想法，即为每个真实预测变量创建一个具有相同相关结构的合成“仿冒品”。然后我们进行一场公平的竞争：一个真实变量只有在击败它自己的分身后才被宣布为重要。这种优雅的方法即使在复杂的高维设置中也能提供严格的错误控制。

超越峰值：双重下降的奇异世界

我们旅程的最后一站将我们带到统计学理解的最前沿，在这里我们的经典直觉完全失效。几十年来，偏差-方差权衡一直是统计学的中心法则：随着模型复杂度的增加，其方差也会增加。最佳模型是一种折衷，一个“甜蜜点”，它足够复杂以捕捉信号（低偏差），但又不过于复杂以至于过拟合噪声（低方差）。这导致了预测误差与模型复杂度之间的U形曲线。

近年来，人们发现对于许多现代机器学习模型来说，这并非故事的全部。当我们继续将模型复杂度增加到远超经典范畴，进入参数多于数据点（ $p > n$ ）的过参数化世界时，一些奇妙的事情发生了。在测试误差在“插值阈值”（ $p \approx n$ ）达到峰值后，它开始再次下降，描绘出第二个出乎意料的下降。

在这个奇异的领域，我们可以有完美拟合训练数据（零训练误差）的模型，但它们对新数据的泛化能力仍然非常好。这种“双重下降”现象颠覆了经典的统计智慧。但这种预测能力是以高昂的代价换来的：推断能力丧失了。当 $p > n$ 时，有无限多个参数向量 $\hat{\beta}$ 可以完美拟合数据。数据无法在它们之间进行区分。询问单个参数 $\beta_j$ 的置信区间变得毫无意义，因为参数本身不再可识别。预测与解释之间的区别变成了一道无法逾越的鸿沟。

这段从简单的p值到令人费解的双重下降曲线的旅程表明，频率主义推断不是一套静态的规则，而是一个活生生的、不断演化的框架。它提供了做出可信科学声明的纪律，处理巨大复杂性的机制，以及认识到自身局限性的理智诚实。与自然的对话正在进行中，每一次新的挑战都迫使我们发明一种更丰富、更细致的语言来继续这场对话。