填补策略：从理论到应用

玻尔百科

定义

填补策略：从理论到应用是统计学和数据科学中处理缺失数据的框架，通过识别随机缺失或非随机缺失等模式来估算替代值。该领域强调通过多重填补而非单一填补来准确量化不确定性，并遵循填补模型与分析模型一致的相容性原则。这种推断行为对于临床试验和人工智能等领域的科学有效性及伦理结果具有重要影响。

关键要点

理解数据是完全随机缺失（MCAR）、随机缺失（MAR）还是非随机缺失（MNAR）对于选择合适的填补方法至关重要。
单一填补会错误地减小方差并导致过度自信，而多重填补通过创建多个合理的数据集来如实地量化不确定性。
填补模型必须至少与最终分析模型一样复杂，这一原则被称为“协调性”（congeniality），以避免引入偏差和破坏科学信号。
填补不仅仅是一种技术修复，更是一种推断行为，对从临床试验到人工智能等领域的科学有效性和伦理结果具有重大影响。

引言

在任何数据驱动的探究中，从基因组学到公共卫生，我们对世界的看法都不可避免地是不完整的。缺失数据并非可以置之不理的麻烦，而是一个需要审慎统计推理的根本性挑战。用简单的平均值填补这些空白是一种常见的诱惑，但也是一条危险的捷径，它会扭曲现实、缩小变异性，并导致危险的过度自信结论。本文旨在解决如何正确处理缺失信息的关键知识空白，超越简单化的修复方法，转向一种更诚实、更稳健的方法论。

为引导读者理解这一复杂主题，本文的结构旨在从零开始建立您的理解。在“原理与机制”一章中，我们将剖析“缺失”的构成，对数据缺失的方式（MCAR、MAR 和 MNAR）进行分类，并揭示单一填补失败的原因。您将学习多重填补背后强大的理念及其正确应用的规则。在这一理论基础之后，“应用与跨学科联系”一章将把这些概念带入现实世界。我们将探讨填补策略如何在一些高风险领域发挥关键作用，从做出事关生死的临床决策、解码单细胞基因组数据，到确保算法系统的公平与公正。

原理与机制

应对缺失数据，就是应对知识本身的性质。当我们眺望宇宙、窥探细胞的微观世界，甚至审视一项简单的社会调查时，我们的视野从来都不是完美的。信息会丢失，数值会未被记录。在我们讨论用于“填补空白”的巧妙统计技术之前，我们必须首先提出一个更根本的问题：某个东西“缺失”意味着什么？

缺失的剖析

想象一下，你是一位生物学家，正在对人体细胞内的蛋白质进行编目。你的数据库中有一列名为“亚细胞定位”，其中的条目有“细胞核”（NUCLEUS）、“细胞质”（CYTOPLASM）和“线粒体”（MITOCHONDRIA）。但对于许多蛋白质来说，这一列只显示“未知”（UNKNOWN）。一个诱人的第一步可能是将“未知”视为另一个位置，一个独立的类别。然后，人们可以运行聚类算法，并且瞧，会发现一个巨大的、统计上显著的蛋白质簇，它们都“共定位”在“未知”区室中。

当然，这是一个巨大的错误。“未知”簇是我们自身无知的产物。其中的蛋白质并不共享一个生物学现实；它们唯一的共同点是我们未能观察到它们的现实。一个可能在细胞核中，另一个在线粒体中。将它们分组就像为你不知道名字的人组建一个俱乐部——唯一的共同属性是你缺乏信息。这个简单的思想实验揭示了处理缺失数据的第一个原则：缺失不是数据的一个特征，而是我们观察过程的一个特征。我们的目标不是分析这个空白，而是智能地推断可能填补它的内容。

物理学家眼中的缺失数据指南

要对未知进行推理，我们必须首先理解支配其产生的规律。统计学家，就像绘制自然界基本力量的物理学家一样，已将数据缺失的方式分为三个主要类别。理解这个分类法是后续所有内容的关键。

完全随机缺失（MCAR）

这是最简单、最温和的一种缺失形式。它在统计上等同于纯粹的、不折不扣的坏运气。一支试管掉落；一个计算机文件被宇宙射线损坏；一个实验室的网络中断一小时，导致期间所有测量数据丢失。完全随机缺失（MCAR） 数据的关键特征是，一个数值缺失的概率与该数值本身以及数据集中的任何其他信息都完全无关。数据中的空洞是由一个真正的随机过程造成的。虽然令人烦恼，但这种缺失最容易处理，因为观测到的数据仍然是整体的一个完美代表性样本，尽管规模更小。

随机缺失（MAR）

现在我们遇到了整个统计学中最重要、也是命名最令人困惑的概念之一。随机缺失（MAR） 并不意味着数据在日常意义上是随机缺失的。相反，缺失可以遵循一种非常清晰和系统的模式。“随机”部分的意思是，在以我们已经观测到的信息为条件时，缺失与缺失信息本身无关。

这就像一个侦探发现了一本日记，其中有几页被撕掉了。起初，这似乎毫无希望。但随后你注意到，所有被撕掉的页面都对应着日记作者与某人会面的日期，而那个人的名字尽职地记录在日记的其他地方。缺失并非随机——它完全可以被你能看到的另一个变量所预测！

考虑两个具体例子：

一位调查设计者担心冒犯参与者，指示助手对受过8年或以下正规教育的任何人跳过敏感的收入问题。教育水平总是被记录下来。在这里，如果教育水平低，收入缺失的概率是 $100\%$ ；如果教育水平高，则是 $0\%$ 。这是高度系统性的，但因为这个决定完全基于教育（一个可观测变量），而不是那个人的实际收入，所以数据是MAR。
在一家医院里，过度劳累的护士更有可能忘记记录病人的生命体征。医院也追踪一个代表护士工作量的代理指标。如果生命体征缺失的概率只取决于工作量水平，而不取决于病人的实际健康状况，那么数据就是MAR。

MAR假设是大多数现代填补方法所依赖的基石。它提供了一个强大的杠杆：我们可以利用观测数据内部的关系来建立一个模型，解释缺失的模式，然后用这个模型来智能地猜测缺失值可能是什么。

非随机缺失（MNAR）

这是最具挑战性的情况。对于非随机缺失（MNAR）数据，一个数值缺失的概率与该数值本身有关。你想要知道的东西本身就是它缺失的原因。

这种情况时常发生：

收入非常高或非常低的个人可能更感到尴尬或具有保护心理，因此更可能拒绝回答收入问题。缺失直接取决于未观测到的收入。
在蛋白质组学中，样本中某个肽的浓度可能非常低，以至于低于质谱仪的检测限（LOD）。数值未被记录，恰恰是因为它很小。

MNAR似乎是一个逻辑悖论。我们怎么可能解释一个依赖于我们看不见的数值的机制呢？情况并非毫无希望，但它对我们提出了更高的要求。我们不能再忽略缺失机制本身。相反，我们必须尝试直接对其建模。对于蛋白质组学的例子，我们可以建立一个明确包含已知检测阈值的统计模型。MNAR迫使我们从仅仅分析数据转向分析数据生成和数据丢失过程本身。

单一现实的愚蠢

一旦我们对数据可能缺失的原因有了一些了解，就很容易想简单地填补空白。最常见的方法是单一填补：用一个单一的数字替换每个缺失值，例如观测值的均值。

这是一个糟糕的想法。

这是一个善意的谎言。通过插入一个单一的值，你是在以绝对的确定性宣称，缺失的值就是（例如）其他值的精确均值。但你并没有这样的确定性。你把一个“不知道”替换成了一个非常具体的“知道”，这样做从根本上扭曲了你的数据性质。

其后果是极其有害的。通过用完全相同的数字填充许多缺失的空位，你人为地缩小了数据集的变异性。全方差定律告诉我们，数据的真实总方差来自两个来源：世界中自然的“抽样方差”，加上源于我们对缺失值不确定性的“填补方差”。单一填补，就其设计而言，假装这第二种方差来源不存在。这导致统计分析变得危险地过度自信。你的标准误会太小，置信区间会太窄，p值会具有欺骗性的显著性。你对本应是试探性的结论变得确信无疑。而且这个缺陷是根本性的——即使是复杂的单一填补，使用复杂的回归模型来预测缺失值，仍然是在空白处填入一个单一的、“完美”的数字，从而忽略了围绕该预测的不确定性。

拥抱数据的多重宇宙

如果创造一个单一的、虚假的现实是错误的，那么诚实的替代方案是什么？那就是拥抱不确定性，创造许多个合理的现实。这就是多重填补（MI）背后深刻而优美的哲学。多重填补不是假装知道缺失条目的唯一真值，而是利用观测数据中的关系（在MAR假设下）进行一系列有根据的随机抽样。其结果不是一个完整的单一数据集，而是许多个——可能是5个、20个或100个。每一个都是一个完整的、内部一致的“如果”情景，是数据未缺失情况下世界的一个合理解释。

这个过程是一个优美的三步舞：

填补（Impute）： 生成 $m$ 个完整的数据集。这些数据集之间填补值的变异不是噪音；它是我们不确定性的数学体现。
分析（Analyze）： 在每个数据集上独立地执行你想要的科学分析——无论是t检验、回归分析，还是复杂的机器学习模型。这将给你 $m$ 个略有不同的结果（例如， $m$ 个不同的回归系数）。这种变异是预料之中的，并且包含信息。
合并（Pool）： 使用一套被称为 Rubin's Rules 的公式将 $m$ 个结果合并成一个最终答案。其逻辑很直观：对于某个值（如回归系数）的最佳单一估计就是 $m$ 个估计值的平均值。关键部分在于不确定性。你的估计值的总方差是两个组成部分之和：每个分析内部方差的平均值，加上分析之间的方差。

那个“组间”方差是神奇的成分。它量化了我们因没有完整数据而付出的代价。单一填补通过只创建一个数据集，将这一项强制为零。多重填补则诚实地承认并量化了它，为我们的结论提供了现实的不确定性。

游戏规则

多重填补不是一根自动的魔杖。它是一个强大的工具，需要思考、谨慎和对其微妙之处的欣赏。正确地使用它意味着要理解游戏规则。

规则1：你的水晶球必须和你的问题一样聪明

用于生成填补值的模型（填补模型）必须至少与你用于最终分析的模型（分析模型）一样复杂。这个原则被称为协调性（congeniality）。如果你的科学假设涉及两个变量之间复杂的相互作用，但你的填补模型却假装这些变量不相关，你可能正在主动破坏你希望找到的信号。例如，如果你正在研究某个生物标志物对患者死亡率的影响，但在用于填补该生物标志物的模型中未能包含死亡率，你的分析将会系统性地偏向于发现根本没有效果。填补模型必须“知道”你的科学问题的结构。

规则2：天下没有免费的午餐

填补会改变你的数据。虽然其目标是恢复丢失的信息，但这个过程可能会产生意想不到的副作用。例如，在单细胞基因组学中，技术性的“脱落”（dropout）会使两个共同调控的基因看起来不相关。填补可以通过从相似的细胞中借用信息来填补这些假零，从而帮助解决这个问题。然而，正是这种信息共享的行为，会使一个群体内的细胞看起来比它们实际上更相似，从而人为地抑制了自然的生物学噪音。这种减小的方差可能导致统计检验将两个群体之间微小的随机波动标记为重大的生物学差异，从而引发大量的假阳性。填补是一种权衡，理解其解决问题和制造问题的潜力，是成熟分析师的标志。

规则3：填补与公平性

统计选择具有伦理后果。想象一个旨在从医学图像预测肿瘤侵袭性的AI模型。假设一家医院的扫描仪较旧，产生的图像伪影更多，导致该院患者的特征值缺失率更高。如果我们使用简单的全局均值填补，我们会用一个单一的平均值替换所有患者的缺失值。这将导致高缺失率群组的数据分布向全局平均值靠拢，而另一群组的分布则相对不变。这可能系统性地改变AI的预测，可能在原本没有差异的地方制造出差异，或者掩盖了真实的差异。一个公正而稳健的分析要求填补策略尊重数据的底层结构，保留子群条件分布而不是将其同质化。

最终，处理缺失数据是一种实践统计诚实的形式。它要求我们超越单一完美答案的舒适幻觉。它要求我们对我们无知的原因进行归类，拥抱不确定性，并在表达结论时不是虚张声势，而是带着对我们知识局限性的清晰和量化的理解。

应用与跨学科联系

在了解了填补的原理之后，我们可能会倾向于将其视为一种单纯的技术准备工作——在真正的科学研究开始之前，用一点数字腻子来修补数据集中的漏洞。但这将是一个巨大的错误。填补不仅仅是一件苦差事；它是一种推断行为，本身就是一项微型的科学探究。我们在这个“准备”步骤中做出的选择，会波及到随后的每一次分析，塑造我们的结论，指导我们的发现，在某些情况下，甚至触及我们工作的伦理核心。为了理解这一点，让我们离开纯粹的理论世界，进入那些每天都在实践填补的、混乱而迷人且高风险的竞技场。

第一诫：勿伤害

在我们使用填补来提供帮助之前，必须确保它不会造成伤害。填补几个数字能造成什么伤害呢？想象一个数据集就像一幅地形图，有高值形成的山丘，有低值形成的谷地，以及不同特征之间复杂的关联地形。一种天真的填补方法，比如用总体平均值替换每个缺失值，就像用推土机在这片地形上作业。它推平了山丘，填满了谷地，人为地压缩了数据的自然方差。变量之间错综复杂的关系——数据结构的精髓——被削弱了，因为相关性被系统性地拉向零。

这不是一个假设性的担忧。在一个简单的模拟中，可以生成两个强相关变量 $X$ 和 $Y$ 的数据。在随机删除一些值并用它们各自的中位数填充后，我们会发现新的“完整”数据集显示的相关性比原始真相要弱得多。数据的故事被扭曲了。我们讨论过的更复杂的方法，如链式方程多重填补（MICE），正是为了避免这种情况而设计的。通过将每个变量建模为其他变量的函数，它们试图从一个尊重数据原始地形的分布中抽取新值，从而尽可能忠实地保留其方差和错综复杂的相关性网络。这一原则——保留数据的底层结构——是所有负责任应用构建的基石。

医学：从实验室到临床

在数据分析领域，没有哪里的风险比医学更高，而在这里，从基础生物学研究到关键的临床决策，填补都扮演着主角。

想象一项小型临床研究，少数患者根据其生物标志物图谱进行分组。一名患者的单个测量值缺失似乎只是一个小麻烦。但根据我们如何填补它——是使用简单平均值还是更具情境意识的估计值——该患者在聚类分析中简直可以从一个组跳到另一个组。我们刚刚“发现”的“疾病亚型”的构成，完全取决于对一个缺失点的单个假设。这是一个令人谦卑的例证，说明了我们所掌握的力量。

让我们把规模放大。考虑为一种罕见且严重的神经系统疾病——视神经脊髓炎谱系障碍（NMOSD）——构建自动化诊断工具的挑战。数据来自患者病历，而病历的不完整是出了名的。患者的MRI病灶长度可能因为扫描仪停机维护而缺失——这是一个随机意外。腰椎穿刺的结果可能因为患者的年龄或其他药物禁忌而缺失。而一项特定的抗体测试可能因为临床医生最初对NMOSD的怀疑度低而没有开具，因此缺失。

这些情景中的每一种都对应着我们学到的一种不同的缺失机制：完全随机缺失（MCAR）、随机缺失（MAR）和非随机缺失（MNAR）。一个简单化的填补方法会同等对待它们，并会惨败。然而，一个复杂的策略则会进行侦探工作。它认识到缺失的抗体测试不是一个随机事件，而是一个线索——缺失本身就包含信息。因此，一个针对此问题的先进填补模型不仅会包含其他临床变量，还会包含结果本身，甚至可能包含一个特殊变量来指示是否执行了抗体测试，以便正确地对这一复杂现实建模并构建一个稳健的分类器。

当我们分析事件发生时间数据（癌症或心脏病研究的基石）时，对复杂性的需求仍在继续。在这里，我们必须处理“删失”（censoring）——例如，我们知道一名患者至少活了三年，但不知道此后发生了什么，因为研究结束了。将删失的事件时间视为一个要填补的“缺失”值是一个巨大的错误。删失不是缺失数据；它是关于观察区间的一种特定类型的信息。然而，其他变量，如患者的基线生物标志物水平，可能是缺失的。为了正确填补这些值，我们的填补模型必须与我们最终的生存分析模型“协调”（congenial）或兼容。这意味着填补过程本身必须知晓时间和事件信息，通常通过将生存数据的转换形式（如累积基线风险）作为预测变量包含在填补模型中来实现。这是一个绝佳的例子，说明了统计分析的各个部分必须用一种连贯的语言相互对话。

看见更大的图景：从基因到生态系统

填补不仅适用于单个患者记录；它对于理解复杂系统至关重要。

在单细胞基因组学这一革命性领域，科学家可以测量数千个单个细胞中数千个基因的活性。然而，这项技术并不完美，一个常见的问题是“脱落”（dropout），即一个在细胞中确实活跃的基因未能被检测到，而被记录为零。这是一个巨大的缺失数据问题！为了解决它，生物学家开发了针对这一特定背景的巧妙填补方法。一种方法，MAGIC，将细胞视为复杂流形或表面上的点。它构建一个连接相似细胞的图，然后在这个图上平滑基因表达数据，就像让信息在细胞间扩散以填补空白一样。另一种方法，SAVER，采用概率路径，使用贝叶斯统计来根据测量噪声模型估计“真实”的表达水平。这些方法可以揭示以前隐藏在噪声中的生物信号，但如果应用不当，也存在“过度平滑”的风险——模糊了细胞类型之间的真实差异。

在进化生物学中，尊重内在结构的需求同样至关重要。想象我们正在研究哺乳动物、鸟类甚至某些植物中温血性（endothermy）的进化。我们有一个代谢率的数据集，但许多数据是缺失的。我们不能简单地取平均值，因为鼩鼱与鼹鼠并非相互独立；它们共享一个近期的共同祖先。由于它们共享的历史，它们的性状是相关的，这种历史被系统发育树所捕捉。因此，一个针对此问题的稳健填补策略必须使用系统发育树本身。它沿着树的分支对性状进化进行建模，通过查看其亲属的数值并考虑将它们分开的进化时间，从而能够对一个物种的缺失性状做出智能的猜测。

这种利用已知结构的主题也延伸到其他领域。在遥感中，科学家使用主成分分析（PCA）从具有许多光谱波段的卫星图像中提取最重要的信息。但如果一些像素被云遮蔽了怎么办？简单的填补方法会扭曲数据的协方差结构，扰乱PCA所依赖的信息。一个更优雅的解决方案是基于模型的方法，如EM-PCA，它在一个统一的过程中同时估计主成分并填补缺失值，尊重数据底层的低秩结构。

警示：作为幻术师的填补

尽管填补具有揭示真相的力量，但它同样具有欺骗的力量。当我们进行填补时，我们正在添加原本并不存在的信息。如果我们不小心，最终可能会分析我们自己创造的假象。

考虑系统生物医学领域，研究人员在这里构建“患者相似性网络”，以从多组学数据中发现新的患者亚群。如果两名患者有大量缺失值，而我们使用像k-近邻这样的方法对它们进行填补，他们可能开始看起来相似，不是因为他们潜在的生物学特性，而仅仅是因为他们的缺失条目是用来自同一组邻居的值填充的。填补本身在他们之间创造了一个虚假的联系。这可能导致“发现”的聚类不是由生物学定义的，而是由原始数据中的缺失模式定义的。因此，需要先进的诊断方法来检查此类假象，例如，通过测试患者在网络中的连接性是否与他们数据缺失的程度相关。

最后的疆域：填补与伦理

或许，填补最深刻的应用在于统计学与伦理学的交叉点。我们在处理缺失数据时所做的决定不仅仅是技术性的；它们也可以是道德性的。

想象一个公共卫生场景，其中治疗是根据生物标志物水平分配的。存在一个已知的差异：一个受保护群体在历史上获得这种治疗的机会较低。现在，我们有一个包含缺失生物标志物值的数据集。一个标准的、“与公平无关”的方法可能是用总体平均生物标志物水平来填补所有缺失值。但如果受保护群体之间的真实平均水平不同呢？这种全局均值策略可能会系统性地低估一个群体的需求，同时高估另一个群体的需求，从而可能加剧我们所关心的治疗差异。

相比之下，一个“关注公平”的策略会使用特定群体的均值进行填补。这个看似微小的改变承认了群体之间的系统性差异，并可能导致更公平的结果。通过计算，人们可以直接量化一个简单的填补策略选择如何在现实世界的决策过程中增加或减少公平性。

这为我们的旅程画上了一个圆满的句号。我们看到，填补远不止是修补漏洞的简单工具。它是我们审视数据的透镜。它迫使我们深入思考生成数据的过程、将数据联系在一起的结构，以及我们分析的下游后果。它要求技术技能、科学创造力和伦理责任的结合。在追求知识的道路上，我们如何处理我们没有的数据，与我们如何处理我们拥有的数据同等重要。