Bootstrap 方法

玻尔百科

定义

Bootstrap 方法是一种统计学技术，通过从原始数据集中进行有放回的重复抽样来估计统计量的不确定性。该方法提供了一种数据驱动的途径来构建置信区间，且无需依赖关于数据分布的强假设。尽管可以通过块自助法等专门技术处理时间序列等复杂数据结构，但 Bootstrap 方法无法识别或修正模型及实验设计中的系统性偏差。

核心要点

Bootstrap 方法通过从原始数据集中有放回地重复抽取新样本，来估计统计量的不确定性。
它提供了一种数据驱动的方法来构建置信区间，而无需依赖关于数据分布的强假设。
诸如块 bootstrap 和案例重抽样等专门技术，使该方法能够适应复杂、有依赖性的数据结构，如时间序列或聚类数据。
虽然 bootstrap 可以量化随机抽样变异性，但它无法修正或识别有缺陷的模型或实验设计中固有的系统性偏差。

引言

在从机器学习到生物统计学的每一个定量分析领域，一个根本性的挑战始终存在：我们如何衡量从单个有限数据样本中得出的结果的可靠性？我们计算出一个值——一个均值、一个中位数、一个回归系数——但如果我们能重复实验，这个值会有多大变化？传统上，回答这个关于抽样不确定性的问题依赖于优美的数学公式，但这些公式通常附带着对数据性质的限制性假设，例如要求数据服从正态分布。但当我们的数据杂乱无章、包含异常值，或者我们正在处理一个没有简单公式可用的复杂指标时，该怎么办呢？

本文介绍的 bootstrap 方法是一种革命性的、计算密集型的方法，它仅使用我们已有的数据，就为这个问题提供了稳健的答案。它基于一个简单而深刻的原则：将收集到的样本视为整个总体的微缩表示，并通过从中重抽样来模拟重复实验。这篇概述将引导您了解这一不可或缺的统计工具的核心逻辑和多样化应用。首先，“原理与机制”一章将揭示重抽样的过程，解释它如何生成抽样分布，并展示这如何导向直观的置信区间。随后，“应用与跨学科联系”一章将展示 bootstrap 卓越的通用性，探索其在处理复杂数据结构和解决进化生物学、宇宙学、人工智能伦理等不同前沿领域问题中的应用。

原理与机制

拽着自己的鞋带把自己提起来

我们主题的名称来源于一句著名且公认不可能实现的短语：“拽着自己的鞋带把自己提起来”(to pull oneself up by one's own bootstraps)。它唤起了一幅仅凭意志力实现不可能之事的画面。在统计学中，bootstrap 方法施展的技巧几乎同样神奇：它让我们仅使用已有的数据就能衡量研究结果的不确定性。我们如何能从未进行另一次抽样的情况下，从我们数据来源的那个广阔、未知的总体中学到东西？我们如何能知道，在现实中只做了一次实验的情况下，如果能重复一千次，我们的结果会“跳动”多少？

想象一下，你是一名数据科学家，正在评估一个新机器学习模型的延迟。你收集了一个包含 11 个测量值的小样本：[125, 118, 132, 145, 121, 250, 129, 115, 135, 122, 139] 毫秒。其中一个值，250 毫秒，看起来是一个显著的异常值。因此，你决定中位数是比均值更稳健的典型延迟概括。你的样本中位数是 129 毫秒。但你对这个数字有多大信心？如果你再进行 11 次测量，你会得到一个略有不同的样本，以及一个略有不同的中位数。核心问题是：它会有多大差异？这就是抽样不确定性的问题。

解决这个问题的传统方法涉及优美的数学公式，但这些方法通常附带条件——即关于数据分布形状的假设（例如，它遵循正态分布，或称“钟形”曲线）。但我们的数据，由于存在异常值，看起来并不那么正态。而且，中位数不确定性的理论公式也出了名的复杂。

这就是 bootstrap 核心的、大胆的想法发挥作用的地方。Bootstrap 说：“如果我们将已有的一个样本视为整个总体的替身呢？”如果我们的样本具有合理的代表性，它应该包含了其来源总体的基本特征——其形状、离散程度、集中趋势。我们的样本是真实世界的一个微缩、像素化的版本。所以，与其再次尝试从真实世界中抽样（这可能成本高昂或不可能），我们可以通过从我们自己的数据中抽样来模拟这个过程。

这就是 bootstrap 的障眼法。我们将要依靠我们自己的数据“自力更生”。

Bootstrap 机器：一个模拟数据的宇宙

实现这一模拟的机制是一个极其简单的过程，称为有放回重抽样。让我们回到我们的 11 个延迟测量值。想象一下，把每个数字写在一个弹珠上，然后把所有 11 个弹珠放进一个袋子里。要创建一个新的、模拟的样本，我们这样做：

伸进袋子里，取出一个弹珠。
记下它的数字。
关键是，把弹珠放回袋子里。
重复这个过程 11 次（与我们原始样本的大小相同）。

结果是一个包含 11 个数字的新列表。因为我们每次都放回弹珠，这个新列表会与我们的原始列表不同。一些原始值可能会出现多次，而另一些则可能根本不出现。这个新数据集被称为 bootstrap 样本或伪重复样本 (pseudo-replicate)。

“伪重复样本”这个术语是经过精心选择的。一个真正的重复样本将涉及从模型中收集 11 个新的、独立的延迟测量值。那将是从所有可能延迟的真实、未知的总体分布中抽取的新样本。相比之下，伪重复样本不是从真实总体中抽取的，而是从我们的原始样本中抽取的。用统计学术语来说，我们是从经验分布中抽样——这个分布为我们 $n$ 个观测数据点中的每一个赋予了 $1/n$ 的概率。Bootstrap 的核心假设是，这个经验分布是真实总体分布的一个足够好的代理。

通过运行这个“bootstrap 机器”数千次，我们可以生成数千个伪重复数据集，每一个都是我们原始数据的略微不同版本。我们可以在不离开计算机的情况下，创造出一个充满各种可能的替代数据集的宇宙。

从统计量之云到置信区间

这个由虚假数据构成的宇宙有什么用呢？对于我们数千个伪重复数据集中的每一个，我们都可以计算我们关心的统计量。在我们的延迟例子中，我们会计算每个 bootstrap 样本的中位数。如果我们生成，比如说，1000 个 bootstrap 样本，我们最终会得到 1000 个 bootstrap 中位数。

这 1000 个中位数的集合形成了一个值的“云”。这片云就是我们的奖品。它是 bootstrap 对中位数抽样分布的近似。它向我们展示了基于原始样本中所含信息，我们本可以期望看到的各种中位数的范围和可能性。

现在，构建一个置信区间变得异常直观。如果我们想要一个 95% 的置信区间，我们只需问：“包含我们 bootstrap 云中心 95% 的范围是什么？”为了找到它，我们将 1000 个 bootstrap 中位数从低到高排序。然后，我们只需去掉最低的 2.5% 和最高的 2.5% 的值。对于 1000 个值，这意味着我们剪掉前 25 个和后 25 个。该区间由我们排序列表中的第 26 个值和第 975 个值构成。例如，如果第 26 个 bootstrap 中位数是 119.8 毫秒，第 975 个是 148.7 毫秒，我们的 95% 百分位数 bootstrap 置信区间就是 $[119.8, 148.7]$ 。

这种百分位数法非同寻常。它不需要正态性假设，没有复杂的公式，也无需查阅深奥的统计表格。它直接从数据本身得出答案。这就是 bootstrap 如此强大的原因。面对一个包含强异常值的小样本，传统用于均值的 t-区间会因正态性假设被违反而变得不可靠，而 bootstrap 则提供了一个更值得信赖的、数据驱动的不确定性近似。

纷繁多样的改进方法

百分位数法仅仅是个开始。Bootstrap 是一种丰富而灵活的哲学，催生了一整套相关技术。虽然百分位数法追踪的是统计量本身（例如 $\bar{x}^*$ ）的分布，但一些改进方法通过追踪一个更“稳定”的量的分布来获得更好的性能。

其中一种改进是基础 (或枢轴) bootstrap。它不关注 bootstrap 均值 $\bar{x}^*$ 的云，而是关注差异 $\delta = \bar{x}^* - \bar{x}$ 的云，其中 $\bar{x}$ 是我们原始样本的均值。这个分布近似了样本均值偏离真实总体均值的程度。通过使用这个差异分布的分位数，我们可以为真实均值构建一个通常更准确的区间，尤其是在抽样分布是偏态的情况下。Bootstrap 能够自动检测并校正这种偏态是其最优雅的特性之一。

一个更强大的思想是学生化 (studentization)。在统计学中，一个稳定化数量的常用技巧是用其自身的不确定性度量来对其进行缩放。得到的比率，如 t-统计量，被称为“学生化”或枢轴量 (pivotal quantity)，因为它的分布通常较少依赖于问题中具体的、未知的参数。Bootstrap-t 方法应用了这一思想，通过创建数千个 bootstrap t-统计量， $T^* = (\hat{\beta}^* - \hat{\beta}) / \widehat{SE}(\hat{\beta}^*)$ ，其中 $\hat{\beta}$ 是我们的估计量（如回归系数）， $\widehat{SE}$ 是其标准误。近似这个枢轴量的分布所产生的置信区间是“二阶准确”的，这是一个理论性质，意味着它们的覆盖率通常比简单方法更接近所期望的 95%。这使得 bootstrap 能够产生非对称的置信区间，更好地反映估计量的潜在偏态，这是对经典正态理论方法产生的严格对称区间的一大改进。

超越简单列表：调整 Bootstrap

重抽样思想的妙处在于其灵活性。假设我们分析的不仅仅是一个数字列表，而是一个回归问题，比如一组患者的血清钠 ( $X_i$ ) 与血压 ( $Y_i$ ) 之间的关系。我们该如何重抽样？主要有两种策略，它们之间的选择揭示了对统计建模的深刻见解。

案例重抽样 (Case Resampling)：我们将每个患者的数据，即数据对 $(X_i, Y_i)$ ，视为一个单元。然后我们对这些数据对进行有放回重抽样。这种方法非常不可知论。它不对 $X$ 和 $Y$ 之间的关系形式做任何假设。它保留了真实的基础数据结构，包括非恒定方差（异方差性）等任何复杂性。
残差重抽样 (Residual Resampling)：这种方法更信任我们的回归模型。我们首先拟合模型并计算残差（误差， $\hat{\varepsilon}_i$ ）。然后，我们通过保持原始 $X_i$ 值不变，并将一个随机重抽样的残差加到每个拟合值上来创建新的 bootstrap 数据集： $Y_i^{*} = \hat{Y}_i + \hat{\varepsilon}_i^{*}$ 。这种方法只有在模型的假设正确时才有效——特别是，误差是独立的且具有恒定方差。

这种选择反映了统计学中的一个基本权衡。案例重抽样是一种非参数方法；它很稳健，不依赖于强的模型假设。残差重抽样是一种参数方法；它可能更强大、更高效，但前提是其底层的世界模型是正确的。Bootstrap 框架优雅地容纳了这两种哲学。

一个深刻的警示：Bootstrap 的阿喀琉斯之踵

Bootstrap 是一个宏伟的工具，但它不是一个神奇的预言机。它不能凭空创造信息，并且它有一个致命的弱点：系统性偏差。

要理解这一点，我们必须绝对清楚 bootstrap 的作用：它估计一个统计量的抽样变异性。它不能修复一个失败的实验或一个有缺陷的分析模型。让我们来看一个来自进化生物学的警示故事。科学家们知道四个物种的真实进化树是 ((A,B),(C,D))。然而，物种 A 和 C 独立进化以适应高温环境，导致它们的 DNA 同样富含 GC。一个标准的系统发育分析，使用了一个错误地假设所有物种 GC 含量恒定的模型，被这种相似性所迷惑，推断出了错误的树：((A,C),(B,D))。这是一种系统性偏差；模型将趋同进化误认为是共同祖先。

当您将 bootstrap 应用于这种情况时会发生什么？您对有偏差的数据进行重抽样，对于几乎每一个 bootstrap 样本，有偏差的模型仍然推断出错误的树。结果是：对这个错误的结论，bootstrap 支持度高达 99%。

Bootstrap 忠实地完成了它的工作。它告诉我们，鉴于我们的数据和我们选择的模型，结果 ((A,C),(B,D)) 是极其稳定和一致的。精度很高，但准确度为零。Bootstrap 无法知道模型本身是错误的。它只能告诉你由于随机抽样行为产生的不确定性，而不能告诉你由于我们自己对世界的错误理解而产生的不确定性。至关重要的是，要区分 bootstrap 的目的——评估抽样变异性——与其他方法的目的，例如多重插补，后者旨在处理由缺失数据引起的不确定性。

所以，当我们为 bootstrap 让我们能依靠自己的数据“自力更生”而喝彩时，我们必须保持谦逊，记住如果我们的靴子朝向了错误的方向，bootstrap 只会帮助我们以更强的信心向那个方向前进。

应用与跨学科联系

在掌握了 bootstrap 优雅的机制之后，我们现在踏上一段旅程，去看看它的实际应用。就像一把万能钥匙，bootstrap 在几乎所有定量科学领域都打开了大门，从最深的太空到我们自身 DNA 的复杂编码。它真正的美不仅在于其数学基础，更在于其惊人的通用性。它为每个科学家和工程师都为之困扰的问题提供了一种统一的思考方式：“我有一些数据。我算出了一个数。我该多信任它？”

通用工具箱：为任何统计量提供置信度

从本质上讲，bootstrap 是一个计算思想实验。它问道：“如果我抽样的宇宙只是我样本的一个巨大版本，那么如果我重复我的实验，我会得到什么样的结果？”这个简单的想法足够强大，可以处理从平凡到奇特各种任务。

想象你是一名网络工程师，正在评估一种新互联网路由算法的稳定性。你收集了一小组延迟测量值——数据包的往返时间。你可以轻松计算样本的标准差，但你有多大信心这个数字能反映真实、长期的变异性？Bootstrap 提供了一个直接、直观的答案。通过反复重抽样你手中的少数测量值，并每次重新计算标准差，你建立了一个可能的标准差分布，从中你可以像从树上摘果子一样轻松地提取出一个置信区间。

同样的逻辑几乎适用于你能想到的任何统计量。考虑一位生物统计学家正在研究一种新疗法后患者的生存时间。他们可能对中位生存时间感兴趣，对于偏态数据而言，这是一个比均值更稳健的度量。虽然经典统计学为构建中位数的置信区间提供了“精确”方法，但这些方法通常依赖于简化的假设。Bootstrap 提供了一个引人注ّ目的替代方案。通过对患者生存数据进行重抽样，我们可以直接观察样本中位数的变异性。将 bootstrap 区间与精确区间进行比较，常常会揭示一些有趣的见解：bootstrap 区间可能更窄，反映了我们数据的特定特征；或者如果数据有许多相同值等奇特之处，它的行为可能会有所不同。这种比较教会了我们一个重要的教训：bootstrap 是一个强大而灵活的近似方法，是一个计算透镜，有时能看到僵化公式所忽略的细节，但它并非魔法——它的准确性仍然取决于我们原始样本的质量和大小。

驯服纠缠：具有结构和记忆的数据

简单的 bootstrap，即把我们所有的数据点扔进一顶帽子里再抽出来，依赖于一个关键假设：数据点是独立的。但如果它们不是呢？如果我们的数据有记忆，或者成簇出现呢？在这里，bootstrap 展示了它的聪明才智，通过调整其策略来尊重数据固有的结构。

想象一个分子动力学模拟，我们追踪原子随时间的抖动舞蹈。一个原子在某一时刻的位置显然不独立于它前一时刻的位置。数据形成了一个具有序列相关性的时间序列。如果我们在原子的轨迹上使用简单的 bootstrap，我们就会破坏这种时间结构，就像把电影胶片撕碎再随机重组画面一样。结果将是无稽之谈。解决方案是块 bootstrap (block bootstrap)。我们不是重抽样单个时间点，而是重抽样整个轨迹的块或“片段”，然后将它们拼接在一起。这保留了块内的短期记忆，为我们提供了对扩散系数等依赖于这种记忆的量的不确定性的更忠实的估计。当然，这也引发了新的问题——块应该多长？——对于具有非常长程记忆的数据，即使是这个聪明的技巧也可能失败，提醒我们没有工具是无限制的。

类似挑战也出现在分层或聚类数据中，这在医学和社会科学中无处不在。想象一项在十二家不同医院评估一种新药的研究。由于当地惯例或人口统计学特征，同一家医院内的患者可能比其他医院的患者更相似。患者不是独立的，但医院可以被视为独立的单元。Bootstrap 的原则简单而深刻：重抽样独立的单元。所以，我们不重抽样患者；我们重抽样整个医院！如果一家医院被选中，它的所有患者都会随之而来，从而保留了关键的簇内相关性。

这个想法是诸如 wild cluster bootstrap 这类强大技术的基础，这是一种当我们只有少数几个聚类（比如我们的十二家医院）时使用的复杂工具。这种情况对于传统统计学来说是出了名的困难，传统统计学通常依赖于大量的聚类。Wild bootstrap 使用一个巧妙的数学技巧，通过随机的符号翻转来生成尊重聚类结构的新数据集，即使在聚类层面我们的数据很稀疏时，也能提供可靠的推断。

终极压力测试：对整个流程进行 Bootstrap

也许 bootstrap 威力最壮观的展示，在于我们感兴趣的“统计量”不是一个简单的数字，而是一个漫长、复杂的计算链的最终输出。

考虑一位系统生物学家正在研究一个基因共表达网络。这个过程是一个流程：

从 20 个实验的基因表达水平矩阵开始。
计算所有基因对之间的数千个相关性。
通过连接高相关性的基因来形成一个网络。
在该网络上运行社区检测算法以找到基因簇。
最后，计算一个单一的数字，即网络的模块度 $Q_{\text{max}}$ ，它衡量这些簇的定义有多好。

现在，我们对这个最终的模块度值有多大信心？试图为其标准误推导出一个数学公式将是一项艰巨的、甚至不可能的任务。然而，bootstrap 毫不畏缩。它将整个流程视为一个黑匣子。它只是简单地重抽样基因表达矩阵的原始列（即独立的实验），然后从头到尾再次运行整个流程，得到一个新的 $Q_{\text{max}}$ 值。通过这样做一千次，我们得到了一个 $Q_{\text{max}}$ 的分布，它告诉我们网络的社区结构对于我们初始实验中的特定噪声有多稳健。这就是 bootstrap 的精髓：一个对极其复杂问题的蛮力而又优雅的解决方案。

跨越科学前沿的旅程

有了这个通用工具，我们现在可以探索它如何塑造各个领域的研究。

窥探深邃时光：进化生物学

当生物学家从 DNA 序列重建“生命之树”时，他们面临着从随机突变噪声中区分真实进化信号的挑战。Bootstrap 是评估这棵树分支置信度的黄金标准。通过重抽样 DNA 序列比对的列，生物学家生成数千个替代数据集，并为每个数据集重建树。一个特定分支（或分支，clade）的“bootstrap 支持度”就是该分支在这些 bootstrap 树中出现的百分比。一个高值表示对该分组有信心。有趣的是，研究人员经常发现，对于更深、更古老的分支，支持度较低。这不是方法的失败；它反映了一个生物学现实：在巨大的时间尺度上，突变饱和会侵蚀系统发育信号，因为不同的谱系在同一位点独立地演化出相同的 DNA 碱基（非同源相似性，homoplasy）。Bootstrap 帮助我们量化了我们能了解古代进化历史的极限。

绘制宇宙地图：宇宙学

在宇宙学中，研究人员绘制星系的分布图，以了解宇宙的大尺度结构。一个关键的统计量是两点相关函数 $\xi(r)$ ，它衡量了在距离 $r$ 处找到两个星系的超额概率。为了估计他们测量 $\xi(r)$ 的误差，宇宙学家使用空间版本的重抽样，如刀切法 (jackknife)（bootstrap 的一个近亲）或块 bootstrap。他们将天空中的观测区域划分为更小的子区域，并通过系统地排除一个区域或重抽样这些区域来重新计算 $\xi(r)$ 。这为协方差矩阵提供了一个稳健的、数据驱动的估计，这对于将观测结果与理论模型进行比较至关重要。这个应用也揭示了 bootstrap 的局限性：内部重抽样无法告诉我们关于尺度大于被调查体积本身的波动——即所谓的“超样本协方差”——这是一个深刻的提醒，我们的统计推断总是受到我们观察宇宙的窗口的限制。

构建一个更公平的世界：人工智能伦理

在其最现代和最具社会相关性的应用之一中，bootstrap 已成为审查算法公平性的重要工具。想象一下，一家医院使用人工智能模型来预测患者风险。我们希望确保该模型在不同的人口统计群体中表现同样出色。我们可以定义一个公平性度量，例如统计均等差异 (Statistical Parity Difference, SPD)，它衡量模型为两个群体给出阳性预测的速率差异。值为零意味着完全均等。

但是，如果我们从数据中计算出的 SPD 为 -0.05，这是真实的偏见还是仅仅是随机抽样噪声的结果？Bootstrap 直接回答了这个问题。通过重抽样患者数据并每次重新计算 SPD，我们可以为真实的 SPD 生成一个置信区间。如果这个区间是，例如，[-0.09, -0.01]，它不包含零，这就提供了统计上显著的证据，表明该模型对其中一个群体存在偏见。这使得机构能够超越简单的点估计，就部署和纠正影响人们生活的 AI 系统做出有原则的、基于证据的决策。从放射组学到诊断学，bootstrap 为医学领域负责任的创新提供了所需的不确定性语言。

从网络电缆的抖动到宇宙的结构，再到我们算法的伦理，bootstrap 方法提供了一条单一而强大的逻辑线索。它证明了一个理念：凭借足够的计算能力，一个简单的概念——重抽样——可以被锻造成一个用于科学发现的通用工具，让我们能够量化我们的不确定性，并在此过程中，更深刻地理解我们真正知道什么。