正态性检验

玻尔百科

定义

正态性检验是一种用于确定数据集或模型残差是否符合正态分布的统计程序，这是 t 检验和方差分析等方法的基础前提。该评估通常通过 Shapiro-Wilk、Jarque-Bera 或 Anderson-Darling 等正式检验完成，每种检验都通过相关性或矩等不同的数学机制进行评估。验证这一假设可确保统计结论的准确性，而未能通过检验通常意味着需要更复杂的模型。

核心要点

许多基础统计方法，如 t 检验和方差分析 (ANOVA)，都要求正态性假设，违反此假设可能导致误导性或错误的结论。
正态性可以通过多种检验进行正式评估，例如 Shapiro-Wilk 检验（基于相关性）、Jarque-Bera 检验（基于矩）和 Anderson-Darling 检验（基于经验分布函数），每种检验都具有独特的敏感性。
在统计建模中，通常需要检验的是模型的残差（误差），而非原始变量，以验证模型的正态性假设。
正态性检验未通过通常不是障碍，而是一项科学发现，它表明简单模型不够充分，并暗示了更复杂的潜在机制或相互作用。

引言

正态分布，又称钟形曲线，是统计学的基石，为众多强大的分析方法提供了基础。从 t 检验到方差分析 (ANOVA)，研究人员工具箱中的许多工具都基于一个关键假设：数据遵循这种优雅、对称的形状。但当我们的数据偏离这一理想状态时会发生什么呢？盲目地将这些方法应用于非正态数据可能导致有缺陷的解释和无效的结论，从而在统计理论与实际应用之间造成关键的知识鸿沟。

本文直面这一挑战，为正态性检验提供了全面的指南。在接下来的“原理与机制”部分，我们将深入探讨我们检验正态性的根本原因，探索所使用的假设检验框架，并剖析 Shapiro-Wilk、Jarque-Bera 和 Anderson-Darling 等关键检验的内部工作原理。随后，在“应用与跨学科联系”部分，我们将遍览生物学、金融学和工程学等不同领域，了解这些检验如何不仅作为统计学的“守门人”，而且成为科学发现的强大工具。通过理解如何提出“你是正态的吗？”这个问题并解释其答案，您将对您的数据及其结论的有效性有更深入的见解。

原理与机制

在科学探索中，我们常常发现一些简单而强大的思想构成了复杂理论的基石。统计学也有其自身的基础概念，其中最突出的一个，堪称大量分析方法的指路明灯，就是正态分布。我们所熟知的钟形曲线，那种优雅、对称的形状，似乎无处不在，从人群的身高到精密测量的随机误差。

但如果世界并非总是那么……正态呢？如果我们的数据不遵守钟形曲线的规则怎么办？本章将探讨我们作为严谨的科学侦探，如何向数据提出一个简单而深刻的问题：“你是正态的吗？”同样重要的是，我们将探索为何这个问题的答案如此至关重要。

钟形曲线的“暴政”

想象一下，你试图建造一台复杂的机器，其中每个螺丝、螺栓和电线都有其独特的定制规格。那将是一场噩梦。标准使得工程成为可能。同样地，正态分布对于庞大的统计程序工具箱来说，就像一种通用标准。强大且流行的方法，如用于比较两组的 t 检验或方差分析 (ANOVA)，其设计都包含一个关键的附加条款：你的数据，或者至少是你模型中的误差，应该服从正态分布。

这个假设不仅仅是一个友好的建议；它是数学机制的一部分。当它成立时，这些检验效果极佳。当它不成立时，结果可能会产生误导，甚至完全错误。

考虑一个来自生物学的真实场景。科学家们正在比较一个对照组和一个处理组之间某个基因的表达水平。其中一组的数据呈现出“重尾”，意味着存在一个明显的异常值——一个远高于其余数据的值。他们运行了两种不同的检验来查看该基因的表达是否发生了变化。首先是 Welch t 检验，该检验假定正态性。它受异常值的影响很大，报告的 p 值为 $0.06$ ，略高于传统的 $0.05$ 显著性阈值。结论是什么？没有显著变化。

但接着他们运行了 Wilcoxon 秩和检验，这是一种不作正态性假设的“非参数”方法。它通过对数据进行排序来工作，因此异常值仅仅是“最高值”，其极端的大小被淡化了。这个检验得出的 p 值为 $0.04$ ，表明存在显著变化。你相信哪个结果？答案不是选择你更喜欢的那个！答案是认识到 t 检验的基本假设被违反了。数据的非正态性使其成为不合适的工具。而 Wilcoxon 检验对这种偏差具有稳健性，给出了更可靠的结果。这就是我们进行正态性检验的原因：确保我们使用正确的工具来构建我们的科学结论。

怀疑的艺术：如何提出“你是正态的吗？”

那么，我们如何正式地对我们的数据提出质疑呢？我们使用假设检验的框架。正如被告在被证明有罪之前被假定为无辜一样，我们从一个原假设开始，记为 $H_0$ 。在此情境下，原假设总是：

$H_0$ : 数据来自一个正态分布的总体。

与之对立的观点是备择假设， $H_1$ ：

$H_1$ : 数据并非来自一个正态分布的总体。

我们的工作是扮演一个持怀疑态度的检察官。我们从数据中收集证据，将其汇总为一个称为检验统计量的单一数值，然后计算一个 p 值。p 值回答了这样一个问题：“如果数据确实是正态的（即 $H_0$ 为真），那么观测到至少与我们所见偏差一样极端的可能性有多大？”一个极小的 p 值（例如，小于 $0.05$ ）就是我们的“确凿证据”。它告诉我们，在正态性假设下，我们观测到的数据是如此奇怪、如此不可能，以至于我们有理由拒绝这个假设，并断定数据实际上是非正态的。

三种“侦探”流派

检验正态性的方法不止一种。统计学家们已经发展出几种巧妙的方法，每种方法都从不同的角度看待问题。我们可以将它们视为三种“侦探”流派。

特征分析派：检查特征（矩）

识别一个人的方法之一是通过其关键特征：身高、体重、眼睛颜色。概率分布也有其自身的特征，称为矩。最著名的是均值（中心）和方差（离散度）。但更高阶的矩告诉我们关于形状的信息。三阶矩，偏度，衡量不对称性。完美的钟形曲线是对称的，偏度为 $0$ 。四阶矩，峰度，衡量“尾部厚度”。它告诉我们分布中有多少在尾部，多少在中心。对于正态分布，峰度恰好为 $3$ 。

Jarque-Bera (JB) 检验就像一个特征分析师。它计算样本的偏度 ( $\hat{S}$ ) 和峰度 ( $\hat{K}$ )，并观察它们偏离“正态”特征（ $0$ 和 $3$ ）的程度。它将这两个证据合并成一个单一的检验统计量：

$JB = \frac{n}{6}\hat{S}^2 + \frac{n}{24}(\hat{K} - 3)^2$

其中 $n$ 是样本量。注意它的构造方式：它取偏度与零的偏差的平方，以及峰度与三的偏差的平方。因子 $\frac{n}{6}$ 和 $\frac{n}{24}$ 是从理论中推导出的缩放常数，用于适当地加权每个偏差。如果数据是正态的，这个 $JB$ 值应该很小。如果它很大，就意味着不匹配。通过中心极限定理的一个优美结果，我们知道对于大样本，这个 $JB$ 统计量遵循一个已知的参考分布——自由度为 2 的卡方分布 ( $\chi^2_2$ )。通过将我们计算出的 $JB$ 值与此参考分布进行比较，我们便得到了 p 值。

整体比对派：比较整体形态（基于经验分布函数的检验）

除了只检查几个特征，另一种方法是将嫌疑人的整个轮廓与参考进行比较。这就是基于经验分布函数 (EDF) 的检验背后的哲学。EDF 是一张图，它显示对于任何值 $x$ ，数据点中小于或等于 $x$ 的比例。它是一条随着你从左到右沿着数据移动而从 $0$ 爬升到 $1$ 的阶梯状曲线。

像 Cramér-von Mises 检验这样的基于 EDF 的检验，衡量的是这条由数据驱动的阶梯状曲线与理论正态累积分布函数 ( $\Phi(x)$ ) 的平滑 S 形曲线之间的差异。检验统计量本质上是这两条曲线之间面积平方的度量。面积小意味着拟合好；面积大意味着拟合差。

这个思想的一个著名修正是 Anderson-Darling (AD) 检验。它是一位特别精明的侦探，因为它不平等地对待分布的所有部分。AD 检验使用一个加权函数，更加强调分布尾部的差异。这使得它在检测诸如“重尾”（高于正态分布的峰度）这类偏差时特别有效，而重尾是金融数据或其他易于发生极端事件的系统中常见的特征。虽然其他检验是很好的多面手，但当你怀疑极端情况中潜藏着问题时，AD 检验就是你要求助的专家。

审问派：相关性视角 (Shapiro-Wilk)

我们最后的方法也许是最直观的，并且在许多情况下是最强大的。它基于一个简单的可视化工具，称为分位数-分位数 (Q-Q) 图。这个想法非常巧妙：首先，你将数据从最小到最大排序。然后，对于每个数据点，你问：“如果我的数据来自一个完美的标准正态分布，那么在这个位置（例如，第 10 百分位数、中位数、第 90 百分位数）我应该看到什么值？”

然后，你将你的实际数据值与这些理论上的正态值绘制成图。如果你的数据真的是正态的，这个图上的点将沿着一条完美的直线排列。如果数据是偏斜的或具有重尾，这些点将以一种特有的模式偏离直线。

Shapiro-Wilk (SW) 检验是对“Q-Q 图有多直？”这个问题的数学形式化。它的统计量 $W$ 本质上是观测数据与理想正态分数之间相关系数平方的度量。一个非常接近 $1$ 的 $W$ 值表示一条近乎完美的直线，因此强力支持正态性。一个较小的 $W$ 值则表示一条弯曲的图，为反对原假设提供了证据。由于其在各种非正态形状下的卓越功效，Shapiro-Wilk 检验通常被认为是黄金标准，尤其适用于中小型样本。

“犯罪现场”：我们究竟在检验什么？

现在来谈一个微妙但绝对关键的点。当我们建立一个统计模型时——例如，一个用变量 $X$ 预测变量 $Y$ 的线性回归模型——正态性假设通常不适用于 $Y$ 或 $X$ 变量本身。它适用于残差，即模型的误差。

残差是观测值与模型预测值之间的差值（ $e_i = Y_i - \hat{Y}_i$ ）。这些是我们的模型未能解释的剩余信息。当我们进行正态性检验时，我们是在检查这些剩余信息是否表现得像来自高斯分布的随机噪声。如果它们是，这让我们相信我们的模型已经正确地捕捉了数据中的潜在结构。如果残差呈现出奇怪的、非正态的模式，这是一个警示信号，表明我们的模型可能错了——也许我们遗漏了一个变量，或者关系根本就不是线性的。所以，在建模中，正态性检验的“犯罪现场”不是原始数据，而是残差。

一点炼金术：作为解决方案的数据变换

如果我们的检验大喊“非正态！”时，我们该怎么办？我们就此放弃吗？完全不是。有时，在原始形式下看起来非正态的数据，通过不同的数学视角观察时会变得非常正态。这就是数据变换的艺术。

一个经典的例子来自工程学和生存分析。一个组件的失效时间可能遵循一个偏斜分布。但通常，如果你对每个失效时间取自然对数，得到的一组数字会是完全正态的。这种潜在的模式是如此普遍，以至于它有自己的名字：对数正态分布。

因此，一个检验数据是否为对数正态分布的巧妙方法是，简单地对每个数据点取对数，然后在变换后的数字上运行一个标准的正态性检验，比如 Shapiro-Wilk 检验。这揭示了一个深刻而优美的思想：世界充满了模式，但它们并不总是以最简单的方式呈现自己。有时，一个简单的变换就足以揭示潜在的秩序，并再次将我们熟悉而强大的钟形曲线带回舞台。

应用与跨学科联系

既然我们已经熟悉了正态性检验的机制，我们可能会倾向于将它们仅仅看作一项统计上的杂务，一个在进入“真正”科学之前需要勾选的方框。事实远非如此。实际上，这些检验不仅是我们方法的守门人，更是一面强大的放大镜，用以窥探世界隐藏的运作方式。它们是告诉我们假设错误的微妙低语，并在此过程中，常常为我们指向更深层次的发现。让我们开启一段穿越科学领域的旅程，看看这个简单的问题——“它是一个钟形曲线吗？”——如何在化学、工程、金融和生物学等截然不同的领域中，揭示出深刻的见解。

“守门人”的角色：确保为工作选择正确的工具

想象你是一位环境化学家，正在分析水样中一种有害污染物。你进行了六次测量，其中五次结果非常集中，但第六次结果高得可疑。这是一个真实的、令人担忧的峰值，还是你只是在实验室里犯了个错误？你的第一反应可能是扔掉那个奇怪的值。但科学家需要的理由不能只是“它看起来很奇怪”。幸运的是，有一个名为 Grubbs 检验的统计工具，正是为这种情况设计的。它可以告诉你，在一定的置信水平下，一个数据点是否是统计上的异常值。

但这里有个陷阱，也就是盒子上的小字：Grubbs 检验是建立在你的测量误差呈正态分布的假设之上的。如果不是，那么这个检验的结论就毫无意义。这就像在一艘摇晃的船上使用一台精密校准过的秤；它给出的数字是不可信的。所以，在你甚至还没问关于那个异常值的问题之前，你必须先问一个更根本的问题：你的数据与正态分布是否一致？这就是正态性检验，例如 Shapiro-Wilk 检验，变得不可或缺的地方。它扮演着守门人的角色，确保你不会在一个注定会得出无稽之谈的情况下使用一个强大的工具。

这个原则从化学实验室延伸到工程车间，那里的利害关系可能关乎生死。当工程师设计桥梁或飞机机翼时，他们必须了解材料如何疲劳并最终断裂。一个常见的模型假设，材料在失效前能承受的应力循环次数的对数，即其“疲劳寿命”，遵循正态分布。基于这个假设，他们可以计算出部件失效的概率。但如果这个假设是错的呢？如果真实的分布具有“重尾”——意味着极端事件（比如部件异常早地失效）比钟形曲线所预测的更有可能发生呢？

如果工程师盲目相信正态性假设，他们的计算将是危险的乐观，即“反保守的”。他们可能会认证一个部件在一百万次循环内是安全的，而实际上，相当数量的部件可能会早得多地失效。对疲劳数据进行正态性检验，就像一道关键的安全检查。如果它揭示出重尾，它就告诉工程师，简单的高斯模型只是一种幻想。他们必须使用更稳健的模型来解释这一点，比如基于学生 t 分布的模型，以获得更现实——也更安全——的材料可靠性评估。从这个角度看，正态性检验不仅仅是一个统计上的手续；它是负责任的工程实践的基石。

侦探的放大镜：当“失败”即是发现

正态性检验作为守门人的角色至关重要，但它最激动人心的角色是侦探。当一个数据集“未通过”正态性检验时，这并非实验的失败。更多时候，这标志着我们最初关于系统如何工作的假设过于简单，而大自然正试图告诉我们一些更有趣的事情。

考虑一位生物学家正在研究细胞如何响应其所处表面的硬度而移动。一个简单的假设可能是线性的：表面越硬，细胞移动得越快。这位生物学家收集数据并对其拟合一条直线。但当他们检查残差——数据点与拟合线之间的差异——时，他们发现残差并非正态分布。它们似乎形成了两个团块，产生了一个“双峰”分布。

这意味着什么？未通过的正态性检验是一条线索。它表明单一的直线是错误的模型。相反，它暗示细胞对硬度有一个阈值感应。在某个硬度以下，它们并不真正响应，其运动缓慢而随机。高于那个阈值，它们“醒来”并开始以一种强烈依赖于硬度的方式移动。那条单一的、不正确的直线试图平均这两种截然不同的行为，而双峰的残差正是这两种潜在过程的幽灵。这个失败的检验并没有毁掉实验；它揭示了一个更复杂、更引人入胜的生物学机制，否则这个机制将被隐藏起来。

我们可以将这个侦探故事更深入地推向生命本身的架构。在数量遗传学中，我们试图将生物体的性状（如身高或作物产量）与其基因联系起来。最简单的模型，即“无穷小模型”，假设一个性状是无数个来自许多基因的微小、独立、可加性效应的总和。根据中心极限定理，这应该导致该性状的分布呈现出优美的钟形曲线。但是，当我们拟合这个简单的可加性模型并发现残差不是正态的时，会发生什么呢？

非正态性的形状成为更复杂遗传相互作用的指纹。例如，如果残差系统性地向一侧偏斜，这可能暗示了一种称为方向性显性的现象，即增加性状值的等位基因也倾向于是显性的。如果残差有重尾（尖峰态），这可能指向上位效应，即基因之间以乘法或协同方式相互作用，或者指向复杂的基因型与环境的交互作用。在这里，像 Anderson-Darling 检验这样对分布尾部特别敏感的正态性检验，成为剖析简单模型所忽略的、错综复杂的非加性生命之网的极其强大的工具。

验证科学与金融的引擎

除了单个实验，正态性假设构成了驱动整个领域的庞大理论模型的基石。检验这些假设类似于检查摩天大楼的地基。

这一点在金融领域表现得最为明显。著名的 Black-Scholes 模型，它赢得了诺贝尔奖并改变了现代金融，其建立基础是假设资产价格的对数遵循一个具有正态分布步长的随机游走（一个称为几何布朗运动的模型）。这意味着股票的每日对数回报率应该遵循钟形曲线。但事实如此吗？当我们对真实市场数据应用正态性检验时，这个假设常常被壮观地推翻。真实的回报具有“肥尾”；市场崩盘和突然的繁荣远比正态分布所预测的要普遍。这一由正态性检验推动的发现，暴露了简单模型的局限性，并开启了数十年来寻求更现实金融模型的探索，这些模型包含了“跳跃”和其他特征，以更好地管理风险。

同样的模型验证精神也适用于所有科学领域。当进化生物学家想要重建一个古代祖先的性状时，他们使用的模型描述了性状如何沿着生命之树的分支进化。一个常见的模型，布朗运动，假设进化是一系列微小的、随机的、高斯分布的步长。通过将现存物种的数据转换为一组“系统发育独立比较”（如果模型正确，这组数据应该是正态分布的），科学家们可以检验这个关于数百万年进化过程的基本假设。

检验模型核心分布假设的原则并不仅限于正态分布。例如，在基因组学中，一个细胞中某个给定基因的 RNA 分子数量通常使用泊松分布来建模。泊松分布的一个关键特性是其均值和方差相等。然而，在真实的生物学重复实验中，方差几乎总是大于均值——这种现象被称为“过离散”。检验这一点在概念上与正态性检验是相同的；它是对数据是否符合模型所描述的世界的检查。检测到过离散是至关重要的，因为它告诉我们简单的泊松模型是不够的，必须使用一个更灵活的模型，如负二项分布，以避免对基因活动做出错误的断言。这个教训是普遍的：每个统计模型都在讲述一个故事，我们必须始终问数据是否相信这个故事。

反转剧本：当非正态性成为目标

为了结束我们的旅程，让我们考虑一个有趣的悖论。如果我们的科学理论预测数据不应该是正态的呢？如果我们正在积极寻找一种特定的、“奇异的”非正态形式呢？

这种情况在物理学和生物学中经常发生。扩散粒子的随机游走在经典模型中是高斯分布的。但是一些过程，从觅食的信天翁寻找食物的方式到复杂材料中的异常输运，用“Lévy 飞行”来描述更佳。这是一种由许多小步和偶尔惊人的长跳跃组成的随机游走。Lévy 飞行中的步长分布是一种重尾的、非高斯的分布，称为 Lévy $\alpha$ -稳定律，它一个著名的特性是具有无限方差。

你将如何检验一个随机数生成器是否正确地模拟了这样一个过程？正态性检验是一个很好的第一步——如果它通过了，那么你的生成器就是错的！但是拒绝正态性是不够的；你必须证明你的数据符合你正在寻找的特定 Lévy 分布。这需要一个更复杂的工具包，包括分析数据的特征函数或直接检查定义这些分布的独特“稳定性”属性。这完全反转了剧本。正态性检验不再是确认一致性的工具，而是为我们打开一扇通往大自然所使用的更丰富的统计分布世界的大门。

同样的严谨性也应用于化学的前沿领域，那里分子动力学模拟被用来检验像 Marcus 电子转移理论这样的基本理论。该理论预测一个关键变量——反应物和产物态之间的能隙——应该以高斯分布的方式波动。通过运行模拟并对这个能隙时间序列应用正态性检验（在仔细考虑了时间相关性之后！），物理学家可以直接验证或挑战现代化学动力学的一个支柱。

从实验室笔记本中的一个简单检查，到对生命和金融宏大理论的验证，正态性检验远非一个枯燥的统计程序。它们是我们的思想与现实之间的一场对话——这场对话不断推动我们完善模型，并在此过程中，加深我们对周围美丽而复杂世界的理解。