非参数统计：真实世界数据分析

玻尔百科

核心要点

非参数统计用秩次取代原始数据值，使得分析对离群值和非正态分布具有稳健性。
除非满足特定的分布假设，否则像曼-惠特尼U检验这样的检验根本上评估的是随机优势，而不仅仅是中位数的差异。
许多非参数检验的推断逻辑植根于置换，即通过打乱数据标签来生成精确的零分布。
这些稳健的方法在基因组学和机器学习等数据密集型领域中至关重要，用于分析复杂数据集和进行公平的模型比较。

引言

在教科书统计学的理想世界里，数据常常遵循完美、可预测的钟形曲线。然而，真实世界的数据很少如此整洁；它可能是偏态的，包含极端离群值，或者来自理论保证不适用的小样本。这种不匹配给研究人员带来了一个关键问题：经典的参数检验，如t检验，建立在正态性假设之上，当这些假设被违背时，可能会产生误导性结果。我们如何从实际拥有的混乱数据中得出可靠的结论？本文通过探索非参数统计这个强大而灵活的世界来提供答案。我们将开启一段旅程，首先在原理与机制一章中揭开其基本概念的神秘面纱，揭示用秩次取代原始值并利用置换逻辑如何能驯服最狂野的数据集。随后，应用与跨学科联系一章将展示这些稳健的方法在从基因组学到机器学习等现代科学领域中对于科学发现是如何不可或缺的，为任何面对真实世界研究复杂性的数据分析师提供一个实用的工具包。

原理与机制

想象你是一位物理学家。你有一个优美、精确的理论，描述了行星的运动。但这个理论依赖于一个关键假设：行星是完美的球体，在完全真空中运动。在大多数情况下，这套理论运作得很好。但当你试图把它应用于一个在宇宙尘埃云中翻滚的土豆状小行星时，会发生什么呢？你那优雅的方程可能会开始给你一些荒谬的结果。问题不在于你的物理学是错的，而在于你对世界的假设是错的。

统计学与此非常相似。你最先学到的经典“参数”方法，比如古老而备受推崇的t检验，就像那个行星运动理论。它们强大而精确，但它们建立在一系列假设的基石之上——其中最著名的是，你的数据遵循干净、对称、行为良好的钟形曲线，即正态分布。但当你的数据不那么行为良好时会怎样？如果数据是偏斜的，或者有几个疯狂的极端值呢？如果你的样本量太小，以至于无法指望那些令人安心的理论定理发挥作用来抚平一切呢？这便是我们进入非参数统计之旅的起点。这是一场从钟形曲线的暴政中解放出来的运动。

参数完美性的问题

让我们来看一个非常真实的场景。一位生物学家正在少数细胞培养物上测试一种新药，希望观察它是否会改变某个基因的表达。她有两个小样本组，每组八个样本：一组使用药物，另一组使用安慰剂。在测量了该基因的活性后，她发现数据严重偏斜。少数接受治疗的细胞反应剧烈，而大多数则没有。

她的第一反应可能是进行t检验。但t检验的有效性取决于一个假设：即每组中的数据都来自一个正态分布的总体。样本量仅为八个，且分布明显不是正态的，这个假设就站不住脚了。t检验比较的是各组的算术平均值，它对偏态数据和离群值是出了名的敏感。

让我们具体化这个问题。想象一下她测得的某种代谢物浓度数据是这样的：

对照组: [10.5, 12.1, 11.3, 13.0]
处理组: [15.2, 17.5, 16.1, 42.8]

看看处理组中的那个42.8！这是一个巨大的值，一个离群值。也许它是一个测量误差，或者它代表了一种真实但罕见的对药物的超强反应。无论其来源如何，它都会对t检验造成严重破坏。处理组的平均值 ( $22.9$ ) 被这一个点远远拉高，更糟糕的是，该组的方差急剧膨胀到对照组方差的近150倍。t检验试图通过其正态世界观的假设来理解这种混乱，结果可能无法发现显著差异，尽管处理组四个值中的三个都明显高于所有对照组的值。这个工具已经不再适合这项工作了。我们需要一种不同的工具，一种建立在更稳健基础上的工具。

逻辑的解放：用秩次思考

如果我们决定忽略精确的数值，而关注一些更简单的东西：它们的相对顺序，会怎么样？这是许多非参数检验的核心哲学飞跃。它们不问“多出多少？”，而是问“哪个更大？”。

让我们拿来代谢物实验的数据，将所有八个值汇集在一起，然后从最小到最大排列，同时记录它们来自哪个组。这个过程称为排序或秩转换。

10.5 (C), 11.3 (C), 12.1 (C), 13.0 (C), 15.2 (T), 16.1 (T), 17.5 (T), 42.8 (T)

现在，我们给它们分配从1到8的秩次：

对照组秩次: 1, 2, 3, 4
处理组秩次: 5, 6, 7, 8

注意我们的离群值42.8发生了什么。它不再是一个数值惊人的数字；它仅仅是秩次8。它扭曲分析的能力已经被驯服了。

曼-惠特尼U检验（也称为威尔科克森秩和检验）的逻辑便直接源于此。如果药物没有效果（零假设），那么‘C’和‘T’的标签会随机散布在排序列表中。你会预期对照组的秩和与处理组的秩和大致相等。但在这里，我们看到了完美的分割！所有最低的秩次都属于对照组，而所有最高的秩次都属于处理组。这极不可能是偶然发生的。曼-惠特尼检验将这种直觉形式化，根据秩次分割的清晰程度计算出一个p值。对于这些数据，它会发现一个非常显著的结果，而t检验却失败了。

这种基于秩的方法是在非参数世界中比较两个独立组的主力。它在超过两组情况下的扩展称为克鲁斯卡尔-沃利斯检验。而且美妙的是，这些检验之间有着深刻的联系。在只有两组的特殊情况下，克鲁斯卡尔-沃利斯检验在数学上等同于曼-惠特尼U检验。如果你计算克鲁斯卡尔-沃利斯统计量 $H$ 和来自曼-惠特尼检验的标准化Z分数，你会发现 $H = Z^2$ ，这揭示了一种隐藏的统一性。

我们真正检验的是什么？

人们很容易说，既然t检验比较的是均值，那么曼-惠特尼U检验肯定比较的是中位数。这是一个常见且有用的简化说法，但并非全部事实。为了触及问题的核心，我们必须更加精确。

曼-惠特尼U检验从根本上说是一种检验随机优势的方法。它回答的问题是：“如果我从A组随机抽取一个值，从B组随机抽取一个值，那么A组的值大于B组的值的概率是多少，即 $P(A > B)$ ？”。该检验的零假设是这个概率恰好为 $1/2$ 。

只有在一个额外假设下，这个检验才会变成对中位数的检验：即两个分布的形状相同，即使它们的位置不同。如果这个假设成立，那么 $P(A > B)$ 不等于 $1/2$ 的唯一方式就是A的中位数与B的中位数不同。

但如果形状不同呢？想象两个生产流程生产的组件，其寿命中位数都为0。流程A的寿命是均匀分布的，而流程B的寿命呈偏斜的非对称分布。尽管它们的中位数相同，计算表明 $P(A > B)$ 不等于 $1/2$ 。曼-惠特尼检验可能（正确地）返回一个显著的p值，表明分布是不同的。如果你因此错误地得出结论说它们的中位数一定不同，你就误解了结果。

这就是为什么克鲁斯卡尔-沃利斯检验的不显著结果并不意味着三种网站布局“功能上等效”。如果一种布局产生了双峰分布的参与时间（一些用户立即离开，另一些则停留很长时间），而其他布局产生单峰分布，那么它们显然是不等效的，即使它们的中位数碰巧相似。该检验只是缺乏检测这种特定形状差异的能力。

另一种工具，柯尔莫哥洛夫-斯米尔诺夫(KS)检验，正是为这种情况设计的。它不关注秩次，而是比较两个样本在每个点上的经验累积分布函数(ECDFs)，并寻找它们之间的最大垂直距离。它检验的是分布中的任何差异——无论是位置、离散程度还是形状。在一个巧妙的例子中，构造了两个分布，它们的秩和相似，从而欺骗了曼-惠特尼检验。然而，它们的形状差异如此之大，以至于KS检验轻易地检测到了这种差异。这说明了一个至关重要的原则：你必须选择那个能问出你真正感兴趣问题的检验。

配对数据的亲密世界

到目前为止，我们处理的都是独立组。那么“前后”研究或匹配配对呢？在这里，我们分析的是每对内部的差异。

最简单的方法是符号检验。对于每一对，你只需记录差异是正、是负还是零。然后你计算正号和负号的数量。零假设是正差异和负差异的可能性相同。用参数来说，这是一个检验差值中位数为零的检验。这个检验非常简单，几乎没有任何假设。但它也有点粗糙，因为它丢弃了关于变化大小的信息。

一个更强大且更受欢迎的选择是威尔科克森符号秩检验。这个检验是一个巧妙的混合体。首先，你计算差异。然后，你对这些差异的*绝对值*进行排序，从最小到最大。最后，你将对应于正差异的秩次相加。这个检验比符号检验使用了更多的信息——不仅是变化的方向，还有其相对大小——因此通常在检测一致性效应方面更具效力。

但这种额外的效力是以一个额外的假设为代价的：威尔科克森符号秩检验假设差值的分布是关于其中位数对称的。如果差值高度偏斜，该检验的有效性就会受到损害。此外，为了使大小的秩次有意义，数据必须至少是区间标度。如果你的数据纯粹是顺序标度，比如从'新手'到'大师'的熟练度等级，那么'大师'(5)和'专家'(4)之间的差异不一定与'学徒'(2)和'新手'(1)之间的差异相同。这些数值的大小是任意的。在这种情况下，威尔科克森检验是不合适的，你必须退回到更简单但更诚实的符号检验。

基石：通过置换进行推断

所有这些p值是从哪里来的？对于参数检验，它们来自于将一个检验统计量与一个理论分布（如正态分布、t分布或卡方分布）进行比较。非参数检验有一个更根本、更优美的来源：数据本身。

这就引出了置换检验这个优雅的想法。让我们回到那个有十对相邻地块的肥料实验。在每一对中，一块地被随机施肥（处理组），另一块则没有（对照组）。我们计算每对的产量差异，并求出平均差异。我们如何知道这个平均值是否大得惊人？

我们援引尖锐零假设：肥料对任何地块都绝对没有影响。如果这是真的，那么我们分配的‘处理’和‘对照’标签纯粹是任意的。我们观察到的每对地块的产量，无论哪一块施肥，都会是相同的。

如果标签是任意的，那我们就来玩玩它们！对于第一对，我们可以抛一枚硬币。正面，我们保持差异为 $(X_1 - Y_1)$ ；反面，我们将其翻转为 $(Y_1 - X_1)$ 。我们对所有十对都这样做。这就给了我们一个在零假设下的新的可能数据集。我们可以为这个新数据集计算平均差异。我们可以对所有 $2^{10} = 1024$ 种可能的标签翻转组合重复此过程。这1024个平均差异的集合构成了精确的零分布，它是由我们自己的数据生成的，没有任何关于钟形曲线的假设！p值就简单地是这1024个值中等于或大于我们实际观察到的那个值的比例。

这是统计推断最基本、最直观的形式。许多“有名字的”检验，如曼-惠特尼检验和克鲁斯卡尔-沃利斯检验，本质上是在排序数据上执行置换检验的巧妙计算捷径。当我们为一个微小样本推导克鲁斯卡尔-沃利斯统计量的精确分布时，我们做的正是这件事：列举所有可能的秩次分配给各组的方式，并为每一种方式计算统计量。

实践综合

选择正确的统计工具，不是为了找到那个能给你想要的p值的工具。而是要理解你的数据性质和你想要问的问题。让我们用一个来自计算生物学的现代复杂场景来结束。一位研究员比较两小组样本之间的基因表达。数据有离群值，且未能通过正态性检验。韦尔奇t检验给出的p值为 $p=0.06$ ，而威尔科克森秩和检验给出的p值为 $p=0.04$ 。在 $0.05$ 的阈值下，这就是“显著”与“不显著”的区别。

该相信哪一个？我们现在有智慧来回答。t检验的假设明显被违背；其结果是不可靠的。威尔科克森检验对离群值和非正态性具有稳健性，是更合适的工具。我们应该相信 $p=0.04$ 。但故事并未就此结束。在基因组学中，我们同时检验成千上万个基因。在多重检验校正之后，单个 $p=0.04$ 几乎肯定不显著。真正的科学结论需要将这种有原则的统计工具选择嵌入到整个实验的更广阔背景中。

因此，非参数统计并非一堆用于处理“坏”数据的晦涩检验。它是一种强大而灵活的关于推断的思维方式，植根于秩次和置换的逻辑。它使我们摆脱了限制性的假设，但它要求我们更清晰地思考我们的数据真正能告诉我们什么，以及我们真正问的是什么问题。这是一段从理想化的完美球体世界到更复杂、最终也更有趣的真实数据世界的旅程。

应用与跨学科联系

在掌握了非参数统计的原理之后，你可能会想：“这一切都很巧妙，但它到底在哪些地方真正重要？”答案可能会让你惊讶：无处不在。当我们走出教科书问题的整洁世界，进入科学研究那混乱而壮丽的现实时，我们发现大自然很少将自己局限于完美的钟形曲线。参数检验的假设在纸面上如此方便，但在面对真实数据时却常常土崩瓦解。

正是在这里，非参数工具包才真正大放异彩。这些方法不仅仅是一个备用计划；它们代表了一种不同且更稳健的数据分析哲学。它们赋予我们直接向数据提问的自由，而无需先将其强行塞入一个预设的形状。让我们踏上一段跨学科之旅，看看这种自由如何推动从临床到基因组宇宙的发现。

比较的基石：是否存在差异？

科学中最简单也最常见的问题是比较。药物有效吗？这种新的教学方法比旧的好吗？要回答这些问题，我们需要比较测量值。

想象一位生物学家正在测试一种新化合物对癌细胞的作用。目标是看它是否能抑制细胞迁移。一个经典的实验涉及测量几个不同细胞系在用药前后细胞速度的变化。这是一个配对设计——每个“后”的测量值都有一个相应的“前”的测量值。很自然的做法是观察每一对的变化。如果药物有效，我们期望看到速度持续下降。

但“持续”意味着什么？传统的配对 $t$ -检验会考察平均变化。但它依赖于这样一个假设：这些变化来自一个正态分布。如果一些细胞系反应剧烈，而另一些几乎没有变化，该怎么办？这可能会产生一个偏斜的差异分布，违反了检验的核心假设。

在这里，非参数方法不仅是一种替代方案；它是一种更诚实地提出问题的方式。符号检验，以其优美的简洁性，抛弃了变化的大小，只问：有多少细胞系速度减慢（一个“负号”）与速度加快（一个“正号”）？。如果药物没有效果，你会期望一个大约50/50的分割，就像抛硬币一样。看到一个不平衡结果（比如8个案例中有7个有效）的概率可以用二项分布精确计算出来。完全不需要关于数据形状的假设！

虽然符号检验很优雅，但它有点浪费信息——它忽略了变化是大还是小。威尔科克森符号秩检验是绝妙的下一步。它考察差异，将它们从小到大排序（忽略符号），然后将属于正变化和负变化的秩次分别加总。这样，一个大的变化比一个小的变化对证据的贡献更大，但又不会被一个巨大的离群值不成比例地影响。它在稳健性和效力之间取得了完美的平衡。

这些思想远不止于配对设计。假设我们想比较三种不同数字学习工具的有效性。如果我们随机将不同的学生组分配给每种工具，我们就有了三个独立组。如果他们的考试分数不是正态分布的（这在教育数据中很常见），那么参数化的方差分析(ANOVA)检验就不合适了。它的非参数表亲，克鲁斯卡尔-沃利斯检验，就来救场了。它的工作原理是汇集所有组的所有分数，将它们从低到高排序，然后检验平均秩次在各组之间是否存在系统性差异。如果某个工具真的更好，它的学生应该持续获得更高的秩次。另一方面，如果同一组学生按顺序尝试了所有三种工具，那么测量值就是相关的。在这种情况下，我们需要弗里德曼检验，即重复测量方差分析的非参数等价物，我们稍后会再谈到它。这一系列工具的选择——符号检验、威尔科克森检验、曼-惠特尼检验（用于两个独立组）、克鲁斯卡尔-沃利斯检验、弗里德曼检验——构成了一个逻辑武器库，武器的选择完全由实验的设计决定。

重排与重抽样的艺术

非参数思维的下一个飞跃更为深刻。它告诉我们，如果我们有一台计算机，我们通常可以即时为我们的问题发明一个量身定制的统计检验。两个宏大的思想是置换检验和自助法。

置换检验：终极的“如果……会怎样？”

想象你是一位生物信息学家，分析了数千个单细胞，在使用像PCA这样的降维技术后，你在图上看到了两团截然不同的点云，你认为它们对应两种不同的细胞类型。你如何证明这种视觉上的分离在统计上是真实的，而不仅仅是侥幸，尤其是当你知道数据是高维、非正态，并且受到实验批次效应困扰的时候？

像霍特林 $T^2$ 检验这样的参数化多变量检验会因为其假设被违反而失败。置换检验提供了一个惊人直接的解决方案。其逻辑是：“让我们假设零假设是成立的——即细胞类型之间没有真正的区别。”如果真是这样，那么“A型”和“B型”的标签就是无意义的。那么，如果我们只是在细胞间随机打乱这些标签，然后重新计算我们的分离度量（比如两组中心之间的距离），会怎么样？我们可以这样做数千次，创建一个纯粹由偶然产生的可能的分离度得分分布。然后，我们看看在真实数据中观察到的实际分离度。如果它比我们通过打乱标签得到的99%的分离度都大，我们就可以相当自信我们的结果是真实的。这就是置换多元方差分析（PERMANOVA）的精髓，它是现代生态学和生物信息学的基石。它作用于一个距离矩阵，不对数据的分布做任何假设，并且可以优雅地处理复杂的设计，比如校正批次效应。同样的逻辑也可以应用于检验一种新的DNA测序错误校正算法是否真的优于旧算法，通过分析多个数据集上性能的配对差异，并随机翻转这些差异的符号，来看观察到的优异结果偶然出现的频率有多高[@problem-id:2430529]。

自助法（The Bootstrap）：从单一样本中获得置信度

自助法是另一个计算上的奇迹，其著名的描述是“靠自己的鞋带把自己拉起来”。它回答一个不同的问题：“我对我刚刚计算出的这个数字有多大的置信度？”假设你从DNA序列构建了一个进化树，发现物种A、B和C形成一个独特的群体，或称“进化枝”。你对这个分组的正确性有多确定？

自助法通过将你原始的DNA比对序列视为一个代表“真实”遗传历史的迷你宇宙来提供答案。然后，它通过从原始数据中有放回地重复抽样列（遗传位点）来创建数千个新的伪比对序列。这意味着一些原始位点可能被选择多次，而另一些则根本不被选择。对于每一个这样的自助数据集，你都构建一个新的进化树。最后，你只需计算这些树中有多少百分比重构了A、B和C的进化枝。如果这个值是，比如说，82，这并不意味着该进化枝为真的概率是82%。它意味着，你的数据中支持该进化枝的系统发育信号是如此一致地存在，以至于它在82%的重抽样世界中都出现了。这个非参数过程为我们的推断提供了一个稳健的支持度量，摆脱了复杂的参数化进化模型。

这项技术具有惊人的通用性。我们可以用它来找到几乎任何统计量的标准误，从一个简单的均值到一个复杂的机器学习模型参数。在底层，自助法是一种近似估计量抽样分布的方法，对于简单情况，其理论性质可以被精确推导，证明它建立在坚实的数学基础之上。

科学前沿的非参数方法

稳健性、基于秩的分析和重抽样的原则不仅仅用于整理简单的实验；它们是数据密集型科学前沿不可或缺的工具。

在机器学习和材料科学中，研究人员可能会开发多种复杂的算法——如高斯过程、随机森林和图神经网络——来预测新材料的属性。为了确定哪个模型真正优越，他们在一系列基准数据集上进行测试。这些模型在不同任务上的性能（例如，错误率）不太可能遵循任何简单的分布。弗里德曼检验，它作用于模型在每个数据集上的秩次，是探究性能是否存在整体差异的完美工具。如果发现了显著差异，像内梅尼(Nemenyi)检验这样的事后检验可以揭示哪些模型在统计上是可区分的，这通常在一个“临界差异图”中进行可视化。这使得严谨、公平的模型比较成为可能，而这是人工智能进步的基石。

在现代基因组学中，数据的规模带来了独特的挑战。在一次全基因组CRISPR筛选中，科学家敲除数千个基因，以观察哪些基因对癌细胞生存至关重要。每个基因都由多个向导RNA靶向，但一些向导RNA可能效率低下或有脱靶效应，从而产生离群数据点。一个参数模型可能会被这些离群值干扰，可能错过一个真正的生物学命中点或追逐一个幻影。一种基于秩的方法，如MAGeCK算法中使用的稳健秩聚合（RRA），则要坚韧得多。它问的是，某个特定基因的向导RNA是否在最耗尽的向导中持续排名靠前，从而降低了单个极端离群值的影响。这是一个生死攸关的权衡：面对混乱的生物学现实和少量重复，非参数方法的稳健性通常比一个完美指定（但很可能不正确）的参数模型的理论效力更有价值。

这个主题在昼夜节律的研究中得以延续。为了找出我们哪些基因遵循24小时生物钟，科学家们随时间测量基因表达。但这些时间序列实验通常不完美，采样不均匀，表达模式也非正弦（例如，急剧的“黎明”峰值）。像RAIN和JTK_CYCLE这样的基于秩的算法被设计用来检测此类节律。通过关注秩次的有序升降模式，而不是拟合一个僵硬的正弦波，它们即使在混乱的、真实的采样计划下也能有力地检测出多样的节律形状。

最后，即使在像进化生物学这样的领域，非参数思维也能揭示微妙的模式。思考一下对两侧不对称性——生物体左右两侧之间的微小差异——的研究。这些差异不仅仅是随机噪声。它们可以分为不同的类别：定向不对称（例如，心脏总是在左边）、反对称（左偏和右偏个体的稳定混合）和波动不对称（衡量发育压力的微小随机偏差）。区分这些不仅仅是检验平均差异是否为零。它需要检查左右差异分布的形状。它是正态的（波动不对称）？还是双峰且平坦的（反对称）？这需要一个复杂的工具包，结合位置检验（如 $t$ -检验或威尔科克森检验）与分布形状的非参数检验，例如正态性检验（夏皮罗-威尔克检验）或单峰性检验（哈蒂根凹陷检验）。

一种自由的哲学

从临床试验中数正负号，到驾驭基因组的高维景观，非参数方法提供了一种统一而强大的哲学。它们将我们从对世界做出强假设的需求中解放出来，让我们能够在数据自身的条件下与之相遇。它们是直观的，常常反映了实验性洗牌和复制的内在逻辑。它们是稳健的，为应对真实研究中作为常态而非例外的离群值和奇怪分布提供了安全网。它们是适应性强的，构成了一些科学前沿最复杂分析背后的引擎。这种自由不仅仅是统计上的便利；它是现代科学家知识工具箱中必不可少的一部分。