稀疏数据的科学：从缺失值到更深层次的洞见

玻尔百科

定义

稀疏数据的科学：从缺失值到更深层次的洞见是数据科学与统计学中的一个研究领域，通过将缺失信息分类为完全随机缺失、随机缺失和非随机缺失来评估偏倚风险。该学科的核心机制是利用多重插补等方法量化不确定性，并认为缺失模式本身与观测数据一样具有重要的信息价值。这一研究对于人工智能和系统发育学等领域至关重要，旨在通过区分“缺失”与“不适用”数据来确保分析模型的逻辑严谨性。

核心要点

缺失数据分为三类——完全随机缺失（MCAR）、随机缺失（MAR）和非随机缺失（MNAR）——每类都需要不同的策略，并带有独特的偏差风险。
对稀疏数据的有效分析侧重于通过多重插补等方法量化不确定性，而不仅仅是猜测缺失值。
缺失的模式可能与观测到的数据同样信息丰富，在从系统发育学到人工智能的各种领域中，正确处理缺失至关重要。
必须对“缺失”数据和“不适用”数据进行严格区分，以防止分析模型产生逻辑上荒谬的结果。

引言

在任何科学探索中，从基因组学到宇宙学，我们得到的数据集都鲜有完美。它们常常带有缺口、空白和空缺——这一现象被称为数据稀疏性。尽管人们很容易将这些缺失信息视为小麻烦而置之不理，但我们如何处理它，却可能决定一个结果是突破性发现还是误导性结论。稀疏数据的挑战不仅在于那些空格本身，更在于理解它们为何是空的，以及这种缺失意味着什么。本文直面这一根本问题，全面概述了缺失数据的原理及其在整个科学领域的深远影响。

我们的旅程始于第一章 原理与机制，在其中我们将剖析缺失的本质。我们将探讨缺失数据的经典分类——MCAR、MAR和MNAR——以理解数据消失的不同方式以及每种方式带来的独特后果。然后，我们将进入第二章 应用与跨学科联系，看看这些原理在现实世界中如何发挥作用。我们将见证进化生物学、统计学和人工智能等不同领域如何发展出复杂的工具和概念框架，不仅用以应对稀疏性，甚至将其转化为更深层次洞见的来源。通过探索这些概念，您将学会洞察无形之物，并领悟到在数据分析中，“不存在什么”通常和“存在什么”同样重要。

原理与机制

想象你是一名侦探，面前摆着一张巨大的线索电子表格——一个数据集。它包含了你为一个复杂案件收集的一切：测量数据、观察记录、目击者报告。但当你浏览它时，你注意到了它们：空白的单元格，本应有数据的地方却是空的。这些就是空白，是你拼图上缺失的部分。我们的第一反应可能是将它们视为小麻烦，只是知识上的一些小缺口。但在科学中，如同侦探工作一样，缺失之物的性质往往与存在之物同样能说明问题。要理解我们的数据，我们必须首先成为欣赏其缺失的行家。

缺失类型大观

并非所有缺失数据都是一样的。它们源于不同的过程，遵循不同的规则，并对我们的调查产生截然不同的后果。伟大的统计学家Donald Rubin为我们提供了一种讨论这些差异的语言，一种关于缺失的分类法，读起来就像一本悬疑小说中的人物阵容。让我们来认识一下这三个主要“罪魁祸首”。

无辜的旁观者：完全随机缺失 (MCAR)

想象一下，你正在一系列384孔板上进行数千次化学测试。漫长的一天结束后，你将结果从读板机传输到服务器。但网络有点不稳定，一些随机的数据包在传输过程中丢失了。结果是：来自任意孔的一些荧光读数就这么消失了。这就是完全随机缺失（Missing Completely At Random, MCAR）。

MCAR的关键特征是，一个数据点缺失的概率与所有事情都完全无关——既与你观测到的值无关，也与你未观测到的值无关。数据丢失纯粹是随机的意外，就像咖啡洒到纸上弄花了几个数字。它与某个化合物是强效抑制剂还是无效物毫无关系。这是最良性的一种缺失数据。它通过减少我们的样本量来削弱我们的论证，使我们的结论模糊一些，置信区间宽一些，但它不会系统性地误导我们。这种缺失是个麻烦，但它并没想欺骗你。

欺骗性的共犯：随机缺失 (MAR)

现在来看一个更微妙的角色。假设你正在研究一种新型膳食补充剂与认知分数之间的关系。你在研究开始时测量了分数，六个月后再次测量。当你拿到数据时，你发现许多六个月后的分数缺失了。经过一番调查，你发现了一个模式：受教育程度较低的参与者更有可能错过他们的最后一次预约。然而，对于任何给定的教育水平，某人是否出席与他们的认知分数本应是多少无关。

这就是随机缺失（Missing At Random, MAR）。这个名字是出了名的令人困惑，因为这种缺失整体上并不是随机的；它显然与教育水平有关！秘密在于其全称：数据是以我们已观测到的数据为条件随机缺失的。宇宙给我们留下了一条线索。认知分数缺失并非完全是个谜；它与我们确实测量到的一个“共犯”变量——教育水平——相关 [@problem--id:1936072]。

这是一个美妙而关键的洞见。如果我们足够聪明，我们可以利用来自这个“共犯”的信息来从统计上对缺失进行解释。通过在我们的统计模型中包含Education_Level，尽管数据缺失的性质并非随机，我们通常也能得到无偏的结果。MAR机制是一个谜题，但通常是可以解决的。

完美犯罪：非随机缺失 (MNAR)

这是最危险的罪魁祸首。某个值缺失的概率取决于该值本身。想象你正在筛选抑制某种酶的药物。你的一些化合物效力极强，以至于完全关闭了该酶的活性。荧光信号非常低，低于你仪器的检测限，于是软件尽职地将读数记录为“缺失”或无效。数据缺失恰恰是因为它的值“非常低”。或者，反过来说，某个化合物可能自发荧光过强，使检测器饱和，数据因其值“非常高”而缺失。

这就是非随机缺失（Missing Not At Random, MNAR）。缺失的原因正是我们试图揭示的信息。这就像一个嫌疑人，选择性地烧掉了所有会 incriminating 他们的文件。如果我们天真地只分析我们拥有的数据，我们的结论将会有系统性偏差。在我们的药物筛选例子中，通过忽略缺失值，我们将扔掉最有效的抑制剂，并完全误判我们化合物库的潜力。MNAR是最难处理的情况，因为纠正偏差所需的信息，根据定义，是未被观测到的。它要求我们对这种“完美犯罪”的性质做出强有力且通常无法检验的假设。

缺失的后果：从模糊的图片到彻头彻尾的谎言

那么，我们的数据中存在这些空白。这有什么大不了的？其后果从仅仅不便到灾难性的误导不等。

首先，即使是“无害”的MCAR数据也会导致统计功效的损失。当数据缺失时，我们的有效样本量会缩小。想象一下试图从一张照片中识别人。一张完整、高分辨率的照片是最好的。MCAR情景就像一张随机像素被涂黑的照片。整体画面变得模糊，我们对识别的信心下降。例如，在系统发育分析中，一个拥有大量缺失遗传数据的物种，可能导致其在生命之树中位置的统计支持（如自举值）急剧下降。这并非因为存在相互矛盾的证据，而是因为在自举分析期间创建的许多重抽样数据集中，那些能锚定该物种位置的少数关键信息位点根本没有被选中，使其位置的确定沦为由噪声决定。

其次，更为隐蔽的是，MAR和MNAR机制会引入偏差。这不再是一张模糊的照片；这是一张被蓄意修改过的照片。如果我们不小心，我们会被引向错误的结论。考虑一位生物学家正在研究动物的某种性状。如果具有该性状的物种更有可能被研究并被包含在数据集中（一种确认偏误），那么简单地从最终数据集中计算具有该性状的物种比例，将会得到一个对其在自然界中真实普遍性的极大夸大的估计。这个分析对于你拥有的数据在技术上是正确的，但数据本身讲述了一个歪曲的故事。

最后，对于某些类型的分析，缺失数据不仅会模糊或产生偏差，它会使整个机器崩溃。想象一下，你想根据样本的整体基因表达谱将它们聚类。一种常见的方法是计算每对患者之间的“距离”。但如果患者A缺少基因X的值，你如何计算患者A和患者B之间的距离？欧几里得距离的公式根本就失效了。一个样本测量向量中的单个缺失值，就可以使其与所有其他样本的距离变得无法定义。对于这类多变量方法，缺失数据的问题不仅是统计上的，也是结构上的。在处理这些空白之前，你无法继续进行分析。

基础之上：虚无的更深层本质

随着我们深入挖掘，我们发现缺失数据的世界拥有更多的微妙和美感。其结构不仅仅关乎MCAR、MAR或MNAR；它还关乎空白的模式，以及最深刻的，“缺失”的真正含义。

考虑一项随时间追踪患者的纵向研究。一些患者可能会中途退出，再也没有回来。这就产生了一种单调缺失数据模式：一旦一个患者在某个时间点的数据缺失，那么在所有后续时间点的数据也都缺失。这种整齐的、阶梯状的模式比那种值随意出现和消失的混乱的、瑞士奶酪般的模式要简单得多。单调模式中固有的顺序性允许一种优雅的、顺序的修复方法。我们可以首先根据完整数据插补（填补）第一组缺失值，然后使用现在完整的数据来插补下一组，以此类推，形成一个逻辑链。缺失的结构指向了其自身的解决方案。

但我们能问的最深刻的问题是：那个空白单元格真的是一个“缺失”的值，还是别的什么？假设你是一位古生物学家，正在为两个性状编目：（1）是否存在四肢，和（2）前肢的指头数量。对于人类，状态是(存在, 5)。对于蛇，四肢存在的状态是不存在。那么，指头数量的状态是什么？是缺失吗？

称之为缺失是一个范畴错误。蛇并没有一个未知数量的指头；指头数量这个问题本身就是不适用的。这个性状不存在。它不是缺失数据；它是一个可定义状态的缺席。

如果我们天真地将这个“不适用”的状态编码为标准的“缺失值”(?)，我们的分析软件由于无法识别这种逻辑上的区别，可能会产生荒谬的结果。一个系统发育程序可能会重建出蛇和蜥蜴的无肢祖先具有特定数量的指头，或者计算一种无花真菌拥有红色花瓣的概率。这是一个美妙的教训：我们的统计模型是强大但没有思想的工具。除非我们将这种理解构建到它们之中，否则它们不懂生物学或逻辑。处理此类数据的最先进方法涉及创建结构化模型，其中一个性状（指头数量）的演化受另一个性状（四肢存在）的状态所门控。这就是统计学与生物学结合之处，创造出一个不仅拟合数字，而且尊重其所描述世界逻辑的模型。

进入稀疏数据世界的旅程始于一个简单的空格，但它引导我们更深刻地欣赏信息本身的结构。它教导我们要对数据持批判态度，质疑缺失的本质，并构建不仅在统计上强大，而且在逻辑和哲学上都健全的模型。事实证明，这些空白能教给我们很多东西。

应用与跨学科联系

这是一个奇怪的事实：科学中一些最深刻的进步并非来自我们所见的，而是来自我们未见的。宇宙充满了缺口。化石记录是一本大部分页面都被撕掉的故事书。望远镜只捕捉到穿越宇宙的光子的一小部分。生物传感器未能触发。在每一种情况下，我们都只得到一幅不完整的图景。人们可能倾向于将这种缺失的信息，即稀疏性，视为一个简单的麻烦——地图上一个令人惋惜、如果可能就忽略的空白点。

但对科学家来说，地图上的空白点不是终点；它是一个邀请。它是一个挑战我们变得更聪明的谜题，要求我们不仅用已有的事实来推理，还要思考它们缺失的本质。处理稀疏数据的艺术就是看见无形之物的艺术。它关乎将一个问题转化为洞见的源泉，并在这样做时，它连接了一些最不相干的探究领域，从重建生命史到构建智能机器，再到为物理世界的基本参数建模。

重建过去：不完整的生命之书

缺失数据的挑战在进化生物学中表现得最为明显。当我们试图构建“生命之树”时，我们就像宇宙历史学家，从零散、破碎的线索中拼凑出一个叙事。考虑一位古生物学家的困境，他有一块精美的化石，但当然没有DNA。他想把这个已灭绝的生物放在生命之树上，与它那些我们拥有丰富基因序列的现存亲戚并列。由此产生的数据集是一个拼凑物：所有物种都有完整的形态学数据，但化石的遗传性状则是一大块“缺失”。

系统发育分析程序会怎么做？它不会放弃。它不会将缺失数据视为“第五种核苷酸”。相反，它做了一件非常聪明的事：它将缺失的条目视为通配符。对于任何一个提议的进化树，程序会临时用任何能使那棵特定树最合理、最“简约”或最可能的基因序列——A、C、G或T——来填补化石的缺失DNA。它对它评估的每一个可能的树都这样做。从本质上讲，算法在说：“我不知道这DNA是什么，但我不会让我的无知成为障碍。我将允许化石成为任何它需要成为的样子，以便最好地契合我确实拥有的数据所讲述的故事。”这种方法使得来自化石的宝贵信息能够与现代基因数据整合，让古老的骨骼和活着的DNA跨越亿万年进行对话。

然而，这种聪明才智伴随着一个深刻的警告。缺失数据的模式本身就能制造幻觉。想象一个场景，由于历史数据收集的怪癖，我们只有一组植物物种的某些基因（比如光合作用基因）的数据，而另一组动物物种只有另一些基因（比如呼吸作用基因）的数据。如果我们将这些合并成一个大的“超级矩阵”，分析将会发现对一个整齐地将植物与动物分开的树的压倒性但完全错误的支持。为什么？因为第一个数据块中唯一的信号是联合植物的，而第二个数据块中唯一的信号是联合动物的。没有数据可以连接这两者。算法在寻找最佳拟合时，找到了与数据可用性模式的完美拟合，并将其误认为是进化的模式。

这揭示了一个更深层次的原则：处理稀疏性不是一蹴而就的技巧，而是一个精细的工作流程。现代系统发育基因组学旨在从成千上万个物种的数千个基因构建进化树，它正面临着大规模的这一挑战。数据矩阵与其说是奶酪，不如说是孔洞。解决方案不是单一的算法，而是一个复杂的、多步骤的协议。科学家必须首先像侦探一样，调查数据为什么会缺失。是随机的，还是存在系统性偏差？然后他们过滤数据，不仅是为了完整性，也是为了质量——剔除那些进化得太快以至于信号饱和且充满噪声的基因，或者那些基本组成过于奇怪以至于违反我们模型假设的基因。他们仔细挑选那些能在整个树上提供均衡代表性的位点。只有这样，在拥有一个精心策划的数据集之后，他们才应用适当的统计模型——那些明确考虑到不同基因在同一组物种中可能有不同历史的模型。这整个过程是科学判断的大师课，平衡了对更多数据的渴望与被坏数据误导的风险。

统计学家的工具箱：量化不确定性与增强现实

在利用我们所拥有的和被我们所没有的愚弄之间的这种张力，正是统计学家登台的地方。统计学家的第一课至关重要：当一个值缺失时，目标不是猜出“正确”的值。目标是诚实地表示我们对那个值的不确定性。

这就是一种称为多重插补（Multiple Imputation, MI）的强大技术背后的基本思想。MI不是一次性填补一个缺失的数字，而是创建多个“貌似合理”的完整数据集。在一个版本中，缺失值可能是5.2；在另一个版本中是4.8；在第三个版本中是5.5。然后对这些填补完整的数据集中的每一个都进行单独分析，最后将结果汇总。这与像自举法（bootstrap）这样的技术有根本的不同，后者从一个完整的数据集中重抽样，以理解抽样过程本身的不确定性。MI是为另一个目的而设计的：解释由于不知道缺失值而产生的额外不确定性。

这种方法的奇妙之处在于它使我们的不确定性变得可以量化。通过观察答案（比如，平均作物产量）在不同插补数据集之间的变化程度，我们直接衡量了缺失数据对我们结论的影响有多大。如果来自不同插补数据集的估计值都非常相似，我们可以确信缺失数据不是一个主要问题。但如果估计值到处都是，那么“插补间方差”将会很大，这清楚地发出警报，表明我们的最终结果由于数据稀疏而高度不确定。

贝叶斯统计框架提供了一个更优雅、更统一的视角。在贝叶斯世界里，参数就是我们不知道的任何数量。从这个观点来看，一个未知的模型参数（比如一个分布的均值）和一个缺失的数据点之间没有根本的区别。它们都只是我们想要估计的东西。这一洞见引出了一种优美的技术，称为数据增强，通常通过吉布斯抽样（Gibbs sampling）实现。在这里，缺失的数据点被提升为模型中正式参数的地位。算法随后在两者之间来回跳跃：它使用模型参数的当前估计来对缺失数据做出一个好的猜测，然后它使用那些新填补的数据点来更新其对参数的估计。这个循环不断重复，将数据插补和参数估计的过程无缝地整合到一个单一、连贯的推理引擎中。缺失数据不再是一个预处理问题；它成了解决方案的一部分 [@problem-id:1920335]。

大数据与人工智能时代的稀疏性

这些统计思想并非仅仅是学术上的好奇心；它们是现代数据科学和人工智能赖以建立的基石。随着我们以爆炸性的速度生成数据，从基因组学到社交网络，我们的数据集反而变得越来越稀疏。

考虑构建一个机器学习模型，根据患者的基因表达数据来预测疾病的任务。数据矩阵是巨大的——数百名患者的数千个基因——并且充满了缺失值。一种天真的方法可能是先插补所有缺失值，然后将这个“完整”的数据集输入一个标准的交叉验证流程来训练和测试模型。这是一个灾难性的错误。通过使用整个数据集来为插补提供信息，测试集的信息不可避免地“泄露”到训练集中。模型最终在它已经以伪装形式见过的数据上进行测试，导致对其性能的 wildly 乐观和完全无效的估计。唯一正确的方法是将插补视为模型训练本身的一部分。在交叉验证的每一折中，插补模型必须仅使用该折的训练数据来构建，然后应用于保留的测试数据。这种严格的分离是诚实机器学习的基本规则。

有时，稀疏性不仅仅是一个技术挑战，而是一个根本的科学限制。在单细胞生物学的前沿领域，研究人员试图通过测量细胞的“RNA速度”——即基因被转录和处理的速率——来推断细胞的发育轨迹。这是根据剪接和未剪接的RNA分子的计数来估计的。然而，来自单细胞的数据极其稀疏；对于许多基因，计数就是零。这不仅仅是几个缺失值；这是缺失的洪流。在这种情况下，问题变得统计上不可识别。数据包含的信息太少，以至于无法唯一地确定潜在生物学模型的动力学参数。推断出的“速度”变成了一个幻影，其方向和大小更多地由噪声和平滑算法中做出的选择决定，而非任何真实的生物过程。这里的稀疏性是一堵墙，告诉我们已经达到了当前技术所能知晓的极限。

然而，即使在这些复杂的领域，重新构建问题也能带来新的洞见。在基因组学中，科学家使用一种称为Hi-C的技术来绘制基因组的三维折叠图。原始数据是DNA不同部分之间接触频率的图谱，但它受到偏差的困扰。一个绝妙的概念飞跃是停止将其视为一个“偏差校正”问题，而开始将其视为一个“缺失数据”问题。其想法是，存在一个“真实”的生物接触数量，但我们只观察到其中的一小部分。技术偏差不会创造接触；它们只是改变了真实接触被检测到的概率。这种重新构建完美地映射到统计学家的分层模型上。观测到的计数可以建模为一个泊松过程，其潜在速率是真实生物接触倾向和偏差驱动的检测概率的乘积。这个优雅的模型让科学家能够解开这两者，剥离技术伪影，揭示潜在的生物结构。

统一的观点：稀疏性与知识的结构

稀疏性的挑战在理论物理和化学的世界中达到了其最抽象和最强大的形式。在开发用于模拟分子行为的“力场”时，科学家需要为每一种可能的相互作用定义参数：每一次键的伸缩，每一次角度的弯曲。如果他们创建超特定的原子类型（例如，“一个与氮成键的五元环中的碳”），参数数量（ $M$ ）可能会爆炸式增长，远远超过可用于确定它们的实验或量子力学数据（ $N$ ）的数量。问题不再仅仅是缺失数据点，而是整个参数空间都稀疏地填充着信息。问题变得“不适定的”，有许多不同的参数集可以同样好地解释数据。

解决方案堪称绝美。科学家们将他们的物理直觉直接编码到数学中。他们构建一个图，其中化学上相似的参数被连接起来。然后，在拟合过程中，他们添加一个惩罚项，阻止该图上相邻的参数变得差异太大。这种技术，称为图拉普拉斯正则化，并不强迫参数完全相同；它只是产生一种“软”拉力，鼓励相似的原子类型拥有相似的参数，除非数据强烈反对。另一种贝叶斯方法是将参数分层建模，其中相关参数都从一个共同的父分布中抽取。这两种方法都是一种注入专家知识的方式，为高维问题的巨大空白空间提供结构，稳定解并使其具有物理意义。

从化石到力场，从机器学习到细胞的机制，稀疏数据的故事都是相同的。这是一个承认无知、量化不确定性，并利用结构——无论是来自进化论、统计原理还是化学直觉——在未知面前进行推理的故事。它教导我们，我们知识中的空白不是需要恐惧的虚空，而是画布，在上面，通过谨慎和创造力，我们可以描绘出一幅更完整、更诚实的世界图景。