try ai
科普
编辑
分享
反馈
  • 箱形图

箱形图

SciencePedia玻尔百科
核心要点
  • 箱形图是一种标准化的图形,用于直观地表示数据集的五数概括:最小值、第一四分位数(Q1)、中位数、第三四分位数(Q3)和最大值。
  • 它擅长并排比较多个分布的中心、离散程度(四分位距)和偏度。
  • 箱形图使用 1.5×IQR1.5 \times \mathrm{IQR}1.5×IQR 规则来定义“须”并识别潜在的离群值,即落在此范围之外的数据点。
  • 尽管功能强大,箱形图可能会隐藏多峰性等特征,这催生了小提琴图等替代方案以及针对偏态数据的调整箱形图等高级版本的出现。

引言

在数据时代,原始数字可能令人不知所措。一长串的测量数据,无论是来自工程测试还是临床研究,往往掩盖了我们想要理解的故事。我们如何才能一眼找出集中趋势、理解变异性并发现异常结果呢?答案在于有效的数据可视化,而箱形图正是完成这项任务最高雅、最强大的工具之一。这个由统计学家 John W. Tukey 开发的简单而深刻的图形,将一组令人困惑的数字转化为清晰、简洁的视觉摘要。本文旨在弥合原始数据与可操作见解之间的鸿沟。第一章“原理与机制”将解构箱形图,解释它是如何通过五数概括构建的,以及它如何揭示分布的关键特征,包括其中心、离散程度和潜在的离群值。随后的“应用与跨学科联系”一章将探讨这个多功能工具如何在从生态学到基因组学等不同科学领域中用于比较群体、诊断模型假设和确保数据质量,从而证明一幅简单的图画确实胜过千言万语。

原理与机制

想象一下,你是一名工程师,刚刚测试了十几个新设备的电池续航时间。你得到了一列数字:31、25、42、28,等等。盯着这张列表,你能迅速掌握它所讲述的故事吗?电池续航时间是否稳定?典型的续航时间是多少?有没有哪些设备的表现出奇地好或令人失望地差?一列原始数字就像一群人同时大喊大叫,很难理解其中的集体信息。统计学为我们提供了一种方法,让喧嚣归于平静,倾听故事的精髓。

在统计学家的工具箱中,最高雅的“故事讲述者”之一便是​​箱形图​​,这是一种看似简单却蕴含惊人信息的图。要欣赏它的巧妙之处,我们必须首先理解它试图讲述的故事:一个关于分布的故事。

五数概括:五幕剧式的故事

我们可以用五个关键数字来捕捉分布的本质,而不是审视每一个数据点。这被称为​​五数概括​​。

首先,我们必须给混乱带来秩序。我们将所有数据点从小到大排列。对于我们的电池数据,排列后是:

22,25,28,30,31,33,36,39,41,42,45,5022, 25, 28, 30, 31, 33, 36, 39, 41, 42, 45, 5022,25,28,30,31,33,36,39,41,42,45,50

我们故事中的第一个角色是​​中位数​​。这是恰好位于中间的数据点。它将数据分成相等的两半:较小的一半和较大的一半。在我们包含12个设备的样本中,没有唯一的中间数,所以我们取中间两个数(第6个和第7个)的平均值,即 33+362=34.5\frac{33+36}{2} = 34.5233+36​=34.5 小时。中位数给出了我们数据世界的中心。一半设备的续航时间少于这个值,另一半则多于这个值。

接下来,我们想了解数据的离散程度。这些数值在多大程度上紧密地聚集在中位数周围?为此,我们找到数据较小一半和较大一半的中位数。这些被称为​​四分位数​​,因为它们与中位数一起,将数据分成四个相等的部分。

​​第一四分位数​​,或 Q1Q_1Q1​,是数据较小一半的中位数。对于我们的电池数据,较小的一半是 (22,25,28,30,31,33)(22, 25, 28, 30, 31, 33)(22,25,28,30,31,33)。它的中位数是 28+302=29\frac{28+30}{2} = 29228+30​=29。这意味着 25%25\%25% 的设备电池续航时间为29小时或更短。

​​第三四分位数​​,或 Q3Q_3Q3​,是数据较大一半的中位数:(36,39,41,42,45,50)(36, 39, 41, 42, 45, 50)(36,39,41,42,45,50)。它的中位数是 41+422=41.5\frac{41+42}{2} = 41.5241+42​=41.5。所以,75%75\%75% 的设备续航时间为41.5小时或更短,这也意味着 25%25\%25% 的设备续航时间更长。

这两个四分位数之间的距离,Q3−Q1Q_3 - Q_1Q3​−Q1​,是我们故事中的一个关键角色。它被称为​​四分位距(IQR)​​。对于我们的电池,IQR是 41.5−29=12.541.5 - 29 = 12.541.5−29=12.5 小时。IQR告诉我们中间 50%50\%50% 的数据所跨越的范围。它是一种衡量离散程度的指标,但有一个特殊的性质:它是​​稳健的​​。如果性能最好的电池续航时间是100小时而不是50小时,IQR根本不会改变!它不受极端值的影响,而是专注于数据稳定、核心的主体部分。

最后,我们有​​最小值​​和​​最大值​​,即最小 (222222) 和最大 (505050) 的值。这五个数字——最小值、Q1Q_1Q1​、中位数、Q3Q_3Q3​和最大值——构成了我们的概括。但是一列数字仍然不是一幅图画。

构建箱体:从数字到图画

箱形图的奇妙之处在于,它将这五数概括转化为一个简单而强大的图形,这一概念最初由伟大的统计学家 John W. Tukey 提出。

  1. ​​箱体​​:我们画一个从第一四分位数 (Q1Q_1Q1​) 延伸到第三四分位数 (Q3Q_3Q3​) 的箱体。这个箱体的长度正好是IQR。这个箱体直观地表示了你数据中间的 50%50\%50%。

  2. ​​中位线​​:我们在箱内中位数的位置画一条垂直线。这条线向我们展示了数据中心的所在。

  3. ​​须​​:现在是最有趣的部分。我们可以直接画线——或称“须”——延伸到最小值和最大值。但如果其中一个值是极端离群值呢?它会使须变得非常长,从而对数据的整体离散程度产生误导性的印象。

Tukey 的天才之处在于,他为数据定义了一个“合理”的范围,并将超出该范围的任何值都视为特殊情况。为此,他定义了“围栏”。围栏并不画在图上,但它们对图的构建至关重要。它们位于距离箱体两端 1.5×IQR1.5 \times \mathrm{IQR}1.5×IQR 的位置:

  • 下围栏 = Q1−1.5×IQRQ_1 - 1.5 \times \mathrm{IQR}Q1​−1.5×IQR
  • 上围栏 = Q3+1.5×IQRQ_3 + 1.5 \times \mathrm{IQR}Q3​+1.5×IQR

然后,从箱体画出须,延伸到仍在围栏内的最远数据点。

任何落在这些围栏之外的数据点都作为点单独绘制。这些是潜在的​​离群值​​——即那些异常远离群体其余部分、可能需要仔细研究的数据点。它们可能是测量误差,也可能是真正非凡的结果。

让我们通过一个来自15名住院患者的血乳酸水平样本来看看这个过程:中位数为 5.15.15.1,Q1Q_1Q1​ 为 4.14.14.1,Q3Q_3Q3​ 为 6.26.26.2。IQR 为 6.2−4.1=2.16.2 - 4.1 = 2.16.2−4.1=2.1。上围栏为 6.2+1.5×2.1=9.356.2 + 1.5 \times 2.1 = 9.356.2+1.5×2.1=9.35。最大的数据点是 10.510.510.5。由于 10.510.510.5 超出了围栏,它被标记为离群值。上须只延伸到围栏内的下一个最大值,即 7.27.27.2。这个简单的规则防止了单个极端值主导我们对数据离散程度的感知。

解读玄机:箱形图告诉我们什么

一旦构建完成,箱形图就成了洞察分布灵魂的一扇窗。一个对称的分布,其中位数大致在箱体的中心,且两侧的须长度相近。

但是非对称分布,即​​偏态​​分布呢?想象一下一场大学考试,大多数学生考得很好,分数在80到100之间,但有少数学生表现不佳,形成了一条长长的低分“尾巴”。这是一个​​左偏​​分布。它的箱形图会是什么样子?

  • 高分区域的分数高度集中,意味着占数据上半部分 25%25\%25% 的数据(从 Q3Q_3Q3​ 到最大值)被压缩在一个很小的范围内。这导致右须很短。
  • 中位数将被从密集的高分群拉向低分的长尾。中位数和 Q3Q_3Q3​ 之间的数据会比 Q1Q_1Q1​ 和中位数之间的数据更压缩。在视觉上,中位线会更靠近 Q3Q_3Q3​。
  • 低分的长尾意味着左须会比右须长得多。
  • ​​均值​​(即简单平均值),对极端值很敏感,会比中位数更被拉向尾部。因此,对于左偏分布,我们预期均值会小于中位数。

箱形图能让我们一目了然地揭示所有这些信息。更强大的是,箱形图在并排比较多个分布方面表现出色。想象一下,在一项临床研究中绘制不同年龄组的空腹血糖水平。通过将每个组的箱形图并排放在同一标度上,我们可以立即比较它们的中心、离散程度和偏度。年长患者的血糖水平平均更高吗?某一群体内的变异性更大吗?箱形图让这些比较变得直观。

一种有局限的工具:箱形图隐藏了什么

尽管功能强大,箱形图终究是一种概括。而每一种概括,就其本质而言,都会有所遗漏。理解箱形图没有告诉你的信息至关重要。

假设临床医生需要知道胆红素水平超过某个毒性阈值(比如 TTT)的患者比例。如果我们有直方图,我们可以简单地将高于 TTT 的条形的高度相加。但箱形图无法让我们恢复这些信息,除非 TTT 恰好与 Q1Q_1Q1​、中位数或 Q3Q_3Q3​ 重合。箱形图压缩了数据,丢失了回答此类问题所需的细粒度细节。

另一个被隐藏的特征是​​多峰性​​——即分布中存在多个峰值。想象一项关于疫苗反应的研究,其中一些人有先前的免疫力(“预激活”组),而另一些人没有(“初始”组)。预激活组可能会产生高抗体反应,而初始组则产生较低的反应。反应的总体分布可能会有两个明显的驼峰。标准的箱形图很可能会将这两组平均在一起,显示一个宽大的箱体,完全掩盖了底下两个子群体的结构。

为此,我们需要一个更复杂的工具,比如​​小提琴图​​。小提琴图本质上是一个箱形图,其两侧各有一个平滑的密度估计(像一个平滑的直方图)镜像。它显示了与箱形图相同的五数概括,但同时也揭示了分布的形状,包括任何驼峰或山谷。这提醒我们一个深刻的教训:图本身不是数据,而是数据的模型。即使是小提琴图中的“凸起”也依赖于一个“平滑”参数,盲目相信软件默认值可能会产生误导。一个视觉模式是一个线索,是探究的起点,而不是确凿的证据。

箱形图的前沿:挑战边界

简单的箱形图是如此基础,以至于统计学家们不断对其进行改进,以处理日益复杂的真实世界场景。这正是统计思维真正的美和统一性得以体现的地方。

修正偏度

我们已经看到,对于偏态数据,标准箱形图的解释可能很棘手。用于判断离群值的 1.5×IQR1.5 \times \mathrm{IQR}1.5×IQR 规则是对称的,但偏态分布并非如此。对于右偏数据集,上尾部天然更长,标准规则可能会将完全合理的数据点标记为“离群值”。

为了解决这个问题,统计学家开发了​​调整箱形图​​。这个巧妙的改进首先计算一个称为 ​​medcouple​​ 的稳健偏度度量。然后,它使用这个偏度度量来调整须的公式。对于右偏分布,该公式会自动延长上须并缩短下须。对于左偏分布,则反之。这是一个用更高级的数学来改进简单工具,使其更智能、更忠实于数据真实形状的绝佳范例。

看见无形:处理删失数据

如果你甚至无法看到所有的数据,该怎么办?这种情况在科学中经常发生。想象一下测量一种生物标志物,而实验室仪器的​​检测限(LOD)​​是存在的。任何低于检测限(比如 0.5 ng/mL0.5 \, \mathrm{ng/mL}0.5ng/mL)的值都会被简单地报告为“<0.5<0.5<0.5”。你知道它很小,但不知道确切的值。这被称为​​左删失​​数据。

你该如何制作箱形图呢?如果你不知道所有的数字,就无法计算中位数或四分位数。简单地忽略删失数据或用一个任意值(如 000 或 L/2L/2L/2)替代会引入严重的偏差。

真正符合原理的解决方案优雅得令人惊叹。统计学家们意识到,这个问题在数学上与一个完全不同领域的问题是相同的:生存分析,该领域研究事件发生的时间,如死亡或机器故障。他们可以借鉴一种名为​​Kaplan-Meier 估计量​​的工具——通常用于根据一些受试者尚未“失败”(右删失数据)的数据来估计生存概率——并将其应用于左删失的生物标志物数据。这种非参数方法利用来自观测值和删失值的信息来正确估计整个分布,从而可以准确地确定四分位数。这种思想的交叉融合——使用工程可靠性领域的工具来解决临床化学中的问题——证明了统计学原理的统一力量。

从一列简单的数字到对无形数据的复杂分析,箱形图的演进揭示了统计思维的核心。这是一个总结、可视化和质疑的过程。它关乎为工作选择正确的工具,理解其假设(例如四分位数是如何定义的),并永远不要忘记统计产物(如“分布离群值”)与现实世界决策边界(如临床指南)之间的区别。箱形图不仅仅是一幅画,它是你与数据之间的一场对话。

应用与跨学科联系

现在我们已经熟悉了箱形图的优雅构造,我们可以提出一个科学家能问的最重要的问题:它有什么用?这仅仅是一种紧凑的数据归档方式,还是一个用于发现的工具?你会欣喜地发现,答案是,这个简单的草图是现代科学家工具箱中最强大、最多功能的仪器之一。它就像侦探的放大镜,让我们能够窥探数据的核心,看到完整的故事——预期的和意外的,和谐与离群。它的应用范围从蝌蚪池塘的泥泞岸边,延伸到癌症基因组学闪亮的高通量实验室。

比较的基本功能

在其核心,箱形图是一种用于比较的工具。想象一位生态学家好奇温度如何影响蝌蚪的生长。她在三个环境中饲养三组蝌蚪:一组在冷水中,一组在舒适的环境温度下,还有一组在温水中。几周后,她对它们进行称重。她可以计算每组的平均体重,但那个单一的数字会是一个糟糕的骗子!它无法告诉她体重的分布情况。是温水箱里的所有蝌蚪都统一重了一些,还是少数几只变成了巨无霸而其余的则在挣扎?

通过并排绘制三个箱形图,每个热环境一个,故事便跃然纸上。我们可以一目了然地看到“温暖”组的中位体重是否高于“寒冷”组。我们可以看到体重的离散程度——四分位距,即箱体的高度——是否在某种条件下更宽,这告诉我们生长反应的变异性。我们甚至可能发现一个离群值,一只神秘地微小或出奇地巨大的蝌蚪,这会引出一个新问题:那一只发生了什么?

这种视觉比较功能强大,但一个好的科学家总是持怀疑态度。我们看到一个箱体的中位数高于另一个。这种差异是“真实”的,还是仅仅是我们碰巧测量的特定蝌蚪造成的偶然现象?为了帮助回答这个问题,统计学家发明了一种绝妙的增强功能:​​带缺口的箱形图​​。你可以将缺口想象成围绕中位数在箱体两侧刻出的一个“不确定性区域”。经验法则是出奇地简单:如果两个箱形图的缺口不重叠,这强烈暗示它们的中位数之间的差异是统计显著的。箱形图从一个描述性的肖像转变为一个非正式推断的工具,弥合了仅仅观察数据和做出稳健判断之间的差距。

科学研究中的诊断工具

除了简单的比较,箱形图还扮演着一个更深层、更微妙的角色,即作为一种诊断工具。许多科学研究依赖于建立模型来解释世界,但这些模型,就像任何机器一样,都带有假设。箱形图是我们检查这些假设是否站得住脚的首选工具。

想象一位农业科学家正在测试三种新肥料对番茄产量的影响。针对这种情况的一种常见统计模型,称为方差分析(ANOVA),其假设是三个肥料组的产量变异性是相同的。但如何检查这一点呢?科学家首先拟合模型并计算残差——即每株植物的实际产量与其肥料组平均产量之间的差异。这些残差代表了“无法解释”的变异或噪声。如果模型的假设是正确的,那么噪声在各处应该看起来相似。通过为每个肥料组并排绘制残差的箱形图,科学家可以直接检查这一点。如果所有箱体的高度大致相同,并且须的长度也相似,那么假设成立。如果一个箱体比其他箱体高得多,这是一个警示信号,表明变异性不是恒定的,需要一个更复杂的模型。

使用箱形图检查方差齐性这一思想至关重要。在一项比较新药与标准药物的临床试验中,医生可能想用一个简单的统计检验(如t检验)来观察新药是否对血压有不同的影响。但该检验最常见的版本假设两组患者的反应方差相同。快速查看每组的箱形图可以告诉你这是否是一个安全的假设。如果一个箱体明显比另一个宽,这表明方差不相等。这并不意味着我们必须放弃!它只是告诉我们应该使用一个更稳健的检验版本,比如Welch's t检验,它专门为这种情况设计。箱形图不给出最终答案,但它作为一个不可或缺的向导,确保我们为工作选择正确的工具。

有时,为了清晰地看到一个模式,我们必须首先转变我们看待它的视角。这是一个经典的物理学家的技巧。假设我们想严格检验一项试验中三个药物治疗组的血压反应方差是否不同。方差是衡量离散程度的指标,而不是位置。一个如此擅长显示位置(中位数)的箱形图,如何帮助我们比较离散程度呢?解决方案是巧妙的:我们发明一个新的量来绘制。对于每个患者,我们计算他们的血压读数与他们所在组中位数之间的绝对差值。这个新值,Zij=∣Yij−Y~i∣Z_{ij} = |Y_{ij} - \tilde{Y}_i|Zij​=∣Yij​−Y~i​∣,衡量了该患者离中心的距离。如果一个组的方差很大,其成员平均会离中心更远,他们的ZZZ值会更大。

现在,我们为每个组绘制这些新ZZZ值的箱形图。如果这些箱形图的中位数不同,那就意味着离中心的平均偏差—— وبالتالي 原始数据的方差——在各组之间是不同的!我们巧妙地将一个关于离散程度的问题转化为了一个关于位置的问题,而箱形图非常适合解决后者。这个原理是诸如Levene检验和Brown-Forsythe检验等稳健方差检验的基础。我们在这些转换后值的箱形图中看到的视觉效果,通常直接反映了正式假设检验的结果。

“大数据”前沿:在信息海洋中确保质量

或许箱形图最关键的现代应用是在高维生物学,即“组学”的世界中。在基因组学和蛋白质组学等领域,科学家可以从单个样本中测量数万个基因或蛋白质的丰度。面对如此海量的数据,隐藏的技术误差潜力巨大。箱形图成为第一道防线。

这些实验中的一个根本挑战是“批次效应”。想象一下,为进行基因表达分析而处理一组癌细胞样本。由于后勤限制,一半样本在周一用机器运行,另一半在周二运行。即使是微小且不可避免的差异——室温的轻微变化、不同批次的化学试剂、仪器的微小重新校准——都可能导致所有周二的测量值系统性地高于或低于周一的测量值。这就是批次效应:一种与处理分组相关的非生物学变异模式。如果你的对照样本在周一运行,而你的处理样本在周二运行,你可能会错误地得出你的药物有巨大效果的结论,而实际上,你只是在测量两天之间的差异!

我们如何发现这种危险的假象?箱形图提供了一个极其简单的解决方案。我们可以为每个样本创建一系列箱形图,每个箱形图显示该样本内所有20,000个基因表达值的分布。这些实验的一个核心假设是,大多数基因不会改变,所以每个样本的总体分布应该大致相同。如果我们将这些箱形图并排绘制,看到所有来自“批次1”的箱形图都对齐,但所有来自“批次2”的箱形图都系统性地向上移动,我们就找到了确凿的证据。批次效应暴露无遗。这种视觉检查是强制性的第一步,它告诉科学家,在进行任何有意义的生物学比较之前,必须进行数据标准化步骤来纠正这些技术性偏移。

生物信息学家甚至为此开发了专门的质量控制图。​​相对对数表达(RLE)图​​就是这样一种工具。它不是绘制原始表达值,而是为每个样本绘制一个箱形图,显示其与每个基因典型表达水平(在所有样本中计算得出)的偏差。在理想情况下,每个箱体都应以零为中心。如果整批箱体系统性地偏离零,这就为存在需要处理的技术性偏差提供了无可否认的证据。

从蝌蚪到番茄,从临床试验到癌症基因组学,箱形图一次又一次地证明了它的价值。它是一个极其简单而诚实的工具。它不会将一个丰富的数据集简化为一个通常具有误导性的单一数字。相反,它提供了一个关于分布的位置、离散程度、对称性和离群值的快速、直观且稳健的摘要。它是一个优秀数据科学家首先要看的东西,鼓励着所有科学习惯中最重要的一条:观察数据,看清其形状,并提出问题。