
几乎在从遗传学到经济学的每一个实证研究领域,科学家们都在努力应对一个不可避免的现实:缺失数据。面对不完整的数据集,最直观和常见的策略是列表删除法,即任何哪怕只有一个缺失值的记录都会被简单地丢弃。这种方法提供了一个干净、完整的数据集,但其简单性具有欺骗性,并掩盖了深远的统计风险。本文旨在弥合列表删除法表面上的简单性与其对科学探究产生的复杂且往往有害的后果之间的关键知识鸿沟。
本次探讨分为两部分。首先,“原理与机制”一章将解构缺失数据背后的统计理论,介绍 Donald Rubin 对缺失机制的基本分类——完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)。我们将揭示列表删除法在每种条件下的表现,其导致的结果从效率低下到灾难性的偏差不等。随后,“应用与跨学科联系”一章将展示这些原理的实际应用,借鉴来自临床试验、生物学和社会科学的真实世界示例,以说明该方法对研究结论的具体影响。通过理解理论及其实际后果,您将了解到为什么倾听数据中的“沉默”对于可靠的科学发现至关重要。
想象一下,你正在拼一幅美丽而复杂的拼图。当你快要完成时,你惊恐地发现有几片不见了。你该怎么办?你不能硬塞进错误的碎片。最直接的方法就是尽你所能完成拼图,在应有碎片的地方留下空白。你仍然能大致看清图像,但它是不完整的。最终的画面因缺口而受损。
列表删除法,或称完整案例分析,正是数据分析师版本的此策略。当我们的数据集中的一行——我们的“参与者”或“观测”——缺少一条关键信息时,我们便将其搁置一旁。我们仅使用那些完整、完美的行来进行分析。这看起来简单、干净、诚实。毕竟,我们只使用了我们实际拥有的数据。
但如果拼图碎片丢失的原因并非随机呢?如果所有丢失的碎片都来自天空部分,或来自某个特定角色的脸部呢?将它们搁置一旁会给我们一个对整体的严重误导性图像。在统计学中,就像在拼图中一样,缺失背后的故事至关重要。要理解列表删除法的后果,我们必须首先成为侦探,对我们数据缺失背后的“动机”进行分类。著名统计学家 Donald Rubin 为我们提供了一个基础框架,将缺失数据分为三种不同的类型。
让我们来探索缺失数据的世界,从良性到真正的险恶。
1. 完全随机缺失 (MCAR)
这是“纯属运气不好”的情形。数据点的缺失与数据本身(无论是观测到的还是未观测到的)毫无关系。想象一项调查,其中一些回复因为随机的计算机故障而丢失,或者一个遥感卫星出现零星、不可预测的设备故障,这些故障均匀分布在整个地貌上。
在一个 MCAR 的世界里,一个值缺失这一事实完全没有告诉我们那个值可能是什么,也没有告诉我们任何其他变量的信息。缺失数据只是整体的一个完全随机的子样本。这是最简单、最表现良好的一种缺失类型,但正如我们将看到的,它也并非全无后果。
2. 随机缺失 (MAR)
这个类别的名称有些误导性。事实上,数据并非按通俗意义上的随机缺失。相反,一个值缺失的概率是系统性的,但它可以由我们观测到的其他信息完全解释。
想象一位生态学家正在研究热带稀树草原的地上生物量。他们发现在岩石地形上采集样本比在沙质土壤上困难得多,导致来自岩石地块的生物量测量值更多地缺失。这种缺失并非完全随机——它取决于地形。但由于生态学家通过卫星地图知道每一块地的地形类型,因此在我们考虑了地形类型之后,这种缺失是“随机”的。换句话说,对于岩石地形上的任何给定地块,其生物量测量值缺失的几率与其生物量是高是低无关。数据缺失的原因可以从我们手中的其他数据中预测出来。
3. 非随机缺失 (MNAR)
这里,我们进入了危险区域。当一个值缺失的概率取决于缺失值本身时,就会发生 MNAR。这是一种“引人注目的缺席”,其间的空白说明了很多问题。
考虑一项针对新型止痛药的临床试验。主要结局是疼痛的减轻程度。一个常见而不幸的现实是,那些感觉药物无效——即经历很少或没有疼痛减轻——的患者最有可能变得灰心并退出研究。当他们退出时,他们最终的疼痛评分就缺失了。在这里,缺失与我们想要测量的结局直接相关。数据的缺失是结局不佳的信号。
同样,在一项癌症研究中,如果对于病情最严重的患者来说,获取生物标志物测量值在后勤上很困难,那么一个缺失的生物标志物值就是一个不祥之兆,代表着预后不良和更短的生存时间。
理解这三种类型是揭示列表删除法后果的关键。在每种情况下,简单地忽略不完整行的影响都大相径庭。
当数据为 MCAR 时:无偏但效率低下
如果我们的数据确实是完全随机缺失,那么列表删除法不会引入偏差。毕竟,完整案例只是原始目标总的一个较小的随机样本。对这个较小样本的分析,平均而言,会给你正确答案。
然而,这需要付出高昂的代价:损失统计功效。通过丢弃观测值,我们扔掉了宝贵的信息。这减少了我们的样本量,进而增加了我们估计的不确定性(即,它给我们带来更大的标准误和更宽的置信区间)。这就像在弱光下试图拍出清晰的照片;你捕捉到的光线(数据)越少,最终的图像就越粗糙、越不确定。如果你开始时有500名参与者,其中一半有缺失值,你的分析只能在250人中进行。你检测到两个变量之间真实但微弱关系的能力将严重减弱。因此,即使在最好的 MCAR 情况下,现代方法如多重插补通常更受青睐,因为它们在统计上更有效率,能够恢复部分丢失的信息并提供更精确的结果。在一个理想化的设定中,这种改进可以被量化:多重插补的估计方差可以比列表删除法的估计方差小。具体来说,前者可以是后者的 ,其中 是缺失数据的比例——这是效率上的巨大提升!。
当数据为 MNAR 时:通往错误结论之路
在这种情况下,列表删除法可能是灾难性的。当缺失与结局相关时,删除不完整的案例会产生选择偏差。你分析的不再是一个代表性样本;你分析的是一个被系统性过滤过的样本。
让我们回到那个结局不佳的患者退出的临床试验。如果我们使用列表删除法,我们实际上是从分析中移除了治疗失败的案例。剩下的样本主要由对药物(或安慰剂)反应良好的患者组成。当我们比较治疗组和安慰剂组时,我们可能会发现药物看起来效果惊人,但这个结论是建立在一个排除了药物对其无效的人群的有偏样本之上的。
或者考虑一下癌症研究。真实假设是高水平的生物标志物具有保护作用。而病情最重的患者,他们的生物标志物缺失比例过高,同时他们的结局也最差。通过进行完整案例分析,我们选择性地移除了一组本可以证明(可能)低生物标志物水平与短生存期之间联系的人。结果呢?在剩下的“更健康”样本中,观察到的生物标志物与生存期之间的关系被削弱了。分析偏向于无效假设,使得一个可能拯救生命的生物标志物看起来毫无用处。这是一个令人不寒而栗的例子,说明一个看似无害的数据清理步骤如何可能导致危险的错误科学结论。
当数据为 MAR 时:一个令人惊讶的情节转折
故事在这里变得真正有趣,并揭示了统计学的微妙之美。当数据是随机缺失时,列表删除法会导致偏差吗?令人惊讶的答案是:这取决于你问的是什么问题。
让我们回到那位想要估计整个地貌平均生物量的 savanna 生态学家。回想一下,数据更有可能在岩石地块上缺失,而这些地块的生物量也恰好比非岩石地块少。如果生态学家使用列表删除法,剩下的样本将不成比例地充满茂盛的非岩石地块。很自然地,从此样本计算出的平均生物量将高估真实平均值。这个估计是有偏的。我们甚至可以写出这个偏差的精确公式,它表明只有当生物量与基质无关,或者缺失率在各处都相同时,偏差才为零——而在这种 MAR 场景中,这些条件都被违反了。
但现在,让我们问一个不同的问题。一位社会学家想了解教育年限()和年收入()之间的关系。假设缺失仅取决于一个完全观测到的变量,比如说参与者的邮政编码,而邮政编码与收入无关。更有趣的是,考虑这样一种情况:收入()缺失的概率取决于教育水平()——例如,受教育程度较低的人更不愿意报告他们的收入。这是一个经典的 MAR 场景。如果我们使用列表删除法并对收入与教育进行回归分析,估计的斜率会是有偏的吗?
令人惊讶的答案是否。回归系数的估计量仍然是无偏的。为什么?回归模型的核心假设是,对于任何给定的教育水平 ,平均误差为零()。在我们的 MAR 场景中,选择哪些案例进入我们的分析也只取决于 。所以,如果我们看一群受过12年教育的人,他们中有些人的收入会缺失,但这与他们的收入在那个教育水平上是高是低无关。误差项和预测变量之间的关系没有被扭曲。我们试图建模的线性关系对于被选中的子群体仍然成立,即使该子群体的构成(例如,受教育程度低的人更少)已经改变。这是一个深刻而关键的区别:在 MAR 条件下,列表删除法会使像均值这样的简单汇总统计量产生偏差,但在适当的条件下,它可以使回归系数毫发无损。
通过对缺失机制的探索,我们发现列表删除法虽然简单,却是一个危险的选择。它假设删除数据的行为是中性的,而实际上,它可能从根本上扭曲数据试图讲述的故事。它充其量是效率低下,最坏的情况是严重产生偏差。
幸运的是,统计学家已经开发了一套功能强大且远胜于此的方法工具包。这些我们将在后续章节中探讨的方法,并不会扔掉整个拼图盒。相反,它们利用完整拼图碎片的信息,对缺失的碎片进行智能、有原则的猜测。
像逆概率加权 (IPW) 这样的方法,通过给予在完整案例样本中代表性不足的观测“更大的发言权”来起作用。如果我们缺少来自岩石地块的数据,IPW 会给我们确实测量到的岩石地块赋予更大的权重,从而恢复力量的平衡。
也许最强大和广泛使用的方法是多重插补 (MI)。它不是为每个缺失条目只猜测一个值,而是创建多个可能的完整数据集,每个数据集代表缺失数据可能的一种不同情况。通过分析所有这些数据集并汇总结果,MI 完全考虑了由缺失引起的不确定性,从而在 MCAR 和 MAR 条件下都能得出有效且高效的推断。
选择是明确的。为了在现实世界数据的险恶水域中航行,我们必须超越简单的删除行为,拥抱那些尊重隐藏在缺失模式本身信息中的方法。我们机器中的幽灵有故事要讲,而我们的工作就是倾听。
在我们完成了数据分析原理与机制的旅程后,很容易想象我们的工作已经完成。我们有了工具,有了数据,准备好寻找答案。但在这里,在科学实践的混乱现实中,我们遇到了一个看似简单却可能颠覆我们整个事业的问题:我们的一些数据缺失了。
我们该怎么办?最直接、最直观、也最诱人的答案是简单地丢弃任何不完整的记录。如果研究中的一个受试者、实验中的一个突变体或调查中的一颗恒星信息有缺口,我们就将其搁置一旁,只关注那些完美完整的条目。这种方法,即列表删除法,承诺提供一个“干净”、易于管理的数据集。它感觉很诚实;毕竟,我们只使用了我们实际拥有的数据。这是一个非常简单的想法。而像科学中许多非常简单的想法一样,它也促使我们更仔细地审视。当我们这样做时,我们发现这种简单的“清理”行为可能是一种深刻的扭曲行为,其后果波及所有探究领域。
让我们想象一下,我们是系统生物学家,试图发现哪些基因能帮助像*大肠杆菌*这样的细菌抵抗一种新的抗生素()。我们创造了数千个突变株,每个都缺少一个基因,然后我们测量两件事:它们的基线生长速率和它们在抗生素下的存活情况。我们的实验是自动化的,但测量生长速率的机器有一个怪癖:它有时无法读取生长极慢的菌落。现在,当我们发现这些缺失的生长速率值时,如果我们应用列表删除法丢弃那些突变体,会发生什么?
我们不仅仅是移除了一个不完整的记录。我们在不知不觉中移除了一个特定类型的突变体:生长缓慢的那些。我们“干净”的数据集现在系统性地产生了偏差。它过度代表了生长快的细菌。例如,如果缓慢生长是抗生素耐药机制的关键部分,我们可能会完全错过这个联系。我们根据我们正在研究的结局本身过滤了数据,在我们的培养皿中创造了一种“幸存者偏差”。我们最终得到的数据集讲述了一个故事,但这是一个关于一个不存在生长缓慢突变体的虚构世界的故事。这是列表删除法最危险的缺陷:当数据缺失的原因与数据本身相关时,丢弃不完整的记录并不能清理数据;它会毒害数据。
这不是一个孤立的问题。考虑另一个场景,这次是在蛋白质组学中,我们的目标是通过测量不同蛋白质的丰度来绘制细胞复杂的信号通路图()。我们的仪器,作为现代科技的奇迹,有一个检测下限。如果一种蛋白质的含量太少,它根本不会被记录下来,我们就会得到一个缺失值。细胞中许多最重要的蛋白质——作为主调节因子的激酶和转录因子——都刻意保持在低水平。它们是细胞交响乐中安静、微妙的指挥家。如果我们使用列表删除法移除任何有缺失值的蛋白质,我们就会系统性地消除这些关键的调节角色。由此产生的通路图将是一个极大的简化,就像试图通过只听声音最大的官员讲话来了解一个政府一样。故事中最重要的部分,那些微妙的协商和命令,完全丢失了。
这个原理是普适的。无论是在认知科学研究中,受试者在测试中的进步影响其分数是否被保存(),还是在临床试验中,经历最严重副作用的患者退出研究,模式都是相同的。如果“缺失”不是随机的,列表删除法就会创造一个扭曲的现实图景。你计算的平均值不是总体的平均值,而是一个幸运地进入你最终数据集的特殊、不具代表性的子群体的平均值。
“但是,”你可能会抗议,“如果数据丢失是真正随机的呢?”假设一个试管被意外打碎,一个文件被随机损坏,或者一页调查问卷被咖啡渍弄脏。这就是统计学家所说的完全随机缺失(MCAR)。在这种情况下,完整的记录确实是整个群体的一个公平、无偏的缩影。那么,列表删除法在这里肯定是完全没问题的吧?
在有限的意义上,它是有效的。它不会引入系统性偏差。但它带来了高昂的代价:浪费的代价。
让我们进入遗传学的世界,科学家们正在构建连锁图谱——本质上是显示基因相对位置的染色体图谱()。他们通过追踪基因共同遗传的频率来做到这一点。现在,想象我们有成千上万个个体沿染色体的数百个遗传标记的数据。基因分型是一个不完美的过程,一些标记会对某些个体失败。如果我们使用列表删除法,我们就会丢弃任何缺少哪怕一个这数百个标记的个体。我们扔掉的数据量是惊人的。一个可能缺少标记73的个体,但在标记1到72和74到200上拥有完美数据。这些数据对于绘制其周围区域的图谱非常有价值,但我们却将其完全丢弃。
我们这是在把婴儿和洗澡水一起倒掉。通过急剧减少我们的样本量,我们降低了估计的精度和检验的统计功效。我们的遗传图谱变得更模糊,我们对基因位置的信心也降低了。我们可能无法检测到一个更复杂的方法本可以发现的真实联系。正如对哈迪-温伯格平衡等基本群体遗传学原理的研究中所强调的,即使在MCAR下列表删除法在理论上是“有效的”,它的功效也不如那些能巧妙利用所有可用信息的方法()。这就像在随机扔掉一半碎片后试图拼一个1000片的拼图。剩下的碎片是一个无偏的样本,但你会更难看清全貌。
这种张力——非随机缺失的偏差与随机缺失的低效之间的矛盾——并不仅限于生物学或遗传学。它几乎是每个依赖真实世界数据的领域的核心挑战。
在临床试验中,退出研究的患者是缺失数据的典型例子。他们为什么离开?也许他们觉得新药无效,或者副作用难以忍受。这几乎从来不是一个随机事件。应用列表删除法可以使一种治疗看起来比实际上更有效、更安全,对公共卫生可能产生严重后果。
在经济学和社会学中,调查 notoriously 受到缺失数据的困扰。人们可能拒绝回答关于他们的收入、政治派别或个人习惯的问题。那些选择不回答的人几乎肯定与回答的人不同。只分析“完整”的受访者,就是研究一个被过滤的、不具代表性的社会漫画。
从列表删除法的幼稚简单到现代统计学更细致入微的方法的旅程,是一个美丽的科学进步故事。使用像期望最大化(EM)或构建复杂分层模型(,)等技术的方法,不仅仅是数学练习。它们代表了一种更成熟、更诚实的科学方式。它们承认我们数据中的空白并非空无一物。这些缺口携带着信息,通常是关于我们希望理解的过程本身的信息。这些先进方法的工作方式不是简单地忽略缺口,而是试图理解它们的形状和大小,传递我们的不确定性,并利用我们拥有的所有信息——无论完整与否——来描绘出最准确的画面。
学会正确处理缺失数据,就是学会一个关于科学本身的根本教训:我们必须以同样批判性的眼光审视我们看不见的数据,就像我们审视我们看见的数据一样。这是一门倾听沉默的艺术,这样做能让我们更清晰地听到真实的故事。