
在科学研究中,我们经常通过对事件进行计数来分析数据:一个细胞中的基因转录本数量、患者到诊所的就诊次数,或森林中鸟类的数量。虽然看似简单,但这种计数数据常常呈现出一个令人困惑的特征:数量惊人的零值。这种现象通常被称为“过量零值”,对传统的统计模型构成了重大挑战,因为这些模型可能会误解这些零值,从而导致错误的结论。本文旨在直面这一问题,为理解和建模含有大量零值的数据提供一个概念性和实践性的指南。它将揭示这些零值出现的原因以及如何为此选择正确的统计工具。
第一部分原理与机制将贯穿统计理论,从简单的泊松模型开始,逐步构建到更复杂的负二项模型和零膨胀模型,教您如何区分不同类型的零值。随后的应用与跨学科联系部分将展示这些强大的概念如何应用于基因组学到生态学等领域,以解锁更深层次的见解,证明正确解释“无”的深远影响。
想象一下,你是一名城市规划师,你的工作是计算每分钟通过一个安静十字路口的汽车数量。有些分钟,一辆车通过。有些分钟,一辆也没有。偶尔,会有三四辆。如果这些事件是随机且独立的,那么有一个极其简单而优美的数学描述可以刻画这个过程:泊松分布。这个分布只有一个强大的参数,即平均速率,我们可以称之为 。如果你知道每分钟的平均车数是,比如说,,泊松分布就能告诉你其他的一切。它能预测看到零辆车、一辆车、两辆车等等的概率。其最显著的特征,也就是它的标志,是其方差等于其均值。在一个完美的泊松世界里,数据的离散程度完全由其平均值决定。
这是我们处理计数数据的基准线,是我们的“球形奶牛”。但是,当我们从教科书走向混乱而精彩的现实世界时——无论是在医学、生物学还是经济学中——这种优雅的简单性往往首当其冲地被打破。
让我们从一个安静的十字路口转到一个医院。一位医学研究人员正在研究一组患者在一年内因哮喘急性发作而计划外就诊的次数。她计算出每位患者的平均就诊次数很低,比如说 。如果世界是泊松的,她会期望计数的方差也在 左右。但当她计算样本方差时,她大吃一惊:结果是 ,是均值的三倍!
这种方差远大于均值的现象被称为过离散(overdispersion)。在生物和社会系统中,这是普遍规律,而非例外。为什么不呢?人不是完全相同、可以互换的单位。一些患者的哮喘更严重,一些有不同的环境诱因,一些则能更好地获得预防性护理。这种潜在的异质性(heterogeneity)意味着“平均”患者只是一种虚构。实际上,我们拥有的是一个由低风险个体(就诊平均率较低)和高风险个体(就诊率高得多)组成的群体。当你将这些群体混合在一起时,总体的方差就会爆炸性增长。
为了驾驭这种混乱,我们需要一个比泊松分布更灵活的工具。于是,负二项(Negative Binomial, NB)分布登场了。你可以把负二项分布看作是泊松分布的一个更复杂、更见多识广的表亲。它正是诞生于异质性的概念。在数学上,它可以被描述为一个混合体:想象每个患者都有自己个人的泊松率 ,但这些率本身不是固定的,而是在人群中根据一个伽马分布(Gamma distribution)而变化。当我们对所有这些不同的潜在率进行平均时,我们实际看到的计数的最终分布就是负二项分布。它有两个参数:一个均值 ,就像泊松分布一样,但还有一个离散参数(dispersion parameter),我们称之为 ,它捕捉了异质性的程度。负二项分布的方差是 。你可以看到,当 (没有异质性)时,我们就回到了我们熟悉的泊松方差,。但随着 的增加,方差的增长速度远快于均值。
现在,这里有一个微妙而精彩的观点。让我们回到哮喘研究。研究人员观察到,高达 的患者没有任何就诊记录。简单的泊松模型,其均值为 ,只会预测大约 的零值。这是一个巨大的差异。人们立刻就想宣称,这里面肯定有什么根本性的问题,肯定有一种特殊的机制产生了所有这些“过量零值”。但请等等。我们更复杂的负二项模型会怎么说?通过采用观测到的均值()和方差(),研究人员可以计算出能够解释这种过离散的离散参数 。当她接着用这个拟合好的负二项模型来预测零值的比例时,她得到了一个非常接近观测到的 的数字。谜团消失了!大量的零值根本不是“过量”;它们是患者群体中潜在异质性的一个自然且可预测的后果,被负二项分布的离散参数完美地捕捉了。
这揭示了一个深刻的真理:并非所有零值都是生而平等的。哮喘数据的经验告诉我们,大量的零值可能仅仅源于一个高度离散的过程。我们可以称之为抽样零值(sampling zeros)。想象一下一位生物学家正在对单个细胞中的基因进行测序。一个基因可能正在活跃地表达,但水平非常低。捕获和计数其 mRNA 分子的过程是随机的,就像在一个鱼很少的湖里钓鱼。你可能会撒网却一无所获,不是因为没有鱼,而只是因为你碰巧没有捕到。这是一个抽样零值。负二项模型通常能出色地描述这种情况,特别是对于使用唯一分子标识符(UMI)的现代高效测序技术。
但是,当负二项模型还不够时会发生什么?想象另一个研究,这次是关于医院获得性感染。数据再次显示均值为 和高方差,但这次零值的比例甚至更高,比如说 。我们的分析师现在更明智了,她首先拟合了一个负二项模型来解释过离散。但这一次,负二项模型只预测了 的零值。数据中的零值仍然比我们强大的负二项模型所能解释的要多。我们发现了一个真正的“过量”零值。这指向了另一种零,即结构性零值(structural zero)。
结构性零值不像抽样零值那样是“差一点就中”。它从一开始就是“不可能”。
在所有这些情况下,零值源于一个独立的、确定性的过程,而不是源于计数生成机器的随机波动。
为了对这个由两部分组成的故事进行建模,我们需要一种新的模型,一种明确承认结构性零值存在的模型。最流行的是零膨胀模型(zero-inflated models),例如零膨胀负二项(ZINB)模型。
其逻辑非常直观。想象一下,在我们的数据生成过程的起点有一个守门人。对于每一个观测(每个病人或每个细胞),守门人都会抛一枚有偏的硬币。
这个简单的两步叙事,一个混合模型,给了我们 ZINB 分布。现在,观察到零的总概率是两条路径的概率之和:得到一个结构性零值的概率,加上 处于“有风险”状态 并且 之后从负二项过程中得到一个抽样零值的概率。 这个框架允许模型区分两种零值的来源,将一部分归因于结构性的“关闭”状态(通过 ),其余部分归因于“开启”状态下的抽样变异性(通过负二项部分)。一个类似且相关的想法是 Hurdle 模型,它分两个阶段对数据进行建模:首先,是一个关于计数是零还是非零的二元选择(跨过“门槛”),其次,是一个仅针对正计数的模型。
那么,作为一名科学家,当你面对一堆包含许多零值的计数时,你如何决定哪个故事最适合你的数据呢?这就是统计建模变成一种侦探工作的时刻,一个系统性调查和证据收集的过程。其原则性工作流程大致如下:
从最简单的嫌疑人(泊松模型)开始: 拟合一个泊松模型。通过检查方差是否远大于均值来检测过离散。将观测到的零值比例与模型预测的比例进行比较。在大多数现实世界的情况下,这个模型会失败,但它提供了一个至关重要的基准。
引入过离散专家(负二项模型): 接下来,拟合一个负二项模型。这个模型的工作是仅用异质性来解释数据。检查其拟合统计量(如赤池信息准则,AIC,它在模型拟合度和复杂性之间取得平衡)。最重要的是,重复零值检查:将观测到的零值比例与这个新的、更强大的负二项模型预测的比例进行比较。
寻找确凿证据(零膨胀): 这是关键时刻。如果负二项模型准确地预测了零值的数量(就像我们的哮喘例子),你的调查可能就结束了。这些零值很可能只是抽样零值,是一个过离散过程的自然特征。但如果负二项模型仍然低估了零值的数量(就像我们的感染例子),你就有了支持结构性零值成分的有力证据。
召集专家(零膨胀/Hurdle 模型): 现在你可以自信地拟合一个 ZINB 或 Hurdle 模型。为了正式比较这些更复杂的模型,你可以使用像 AIC 这样的模型选择准则或执行特定的统计检验。因为负二项模型是 ZINB 模型在膨胀概率 时的特例,所以检验零膨胀涉及一些统计上的微妙之处(被称为在参数空间的边界上进行检验),需要专门的得分检验或自助法(bootstrap methods)。为了比较像 ZINB 和 Hurdle 模型这样的非嵌套模型,通常会使用一种名为 Vuong 检验 的不同工具。
这个旅程——从简单的泊松模型,到灵活的负二项模型,最后到细致入微的零膨胀模型——不仅仅是一个统计程序。这是一次深入你所研究现象本身结构的发现之旅。通过不仅问“平均值是多少?”,还问“为什么数据如此多变?”以及“所有这些零值从何而来?”,我们构建的模型不仅是统计上更拟合的模型,而且也是对现实世界美丽而复杂机制的更深刻、更忠实的表征。
在科学中,如同在生活中一样,我们常常关注那些我们能看到、能测量、能计数的事物。但那些我们没看到的呢?那些空白、静默的信号、缺席的事件呢?事实证明,对“无”的仔细研究可以成为我们理解世界最强大的工具之一。在探讨了“过量零值”的原理之后,我们现在踏上一次穿越科学领域的旅程。我们将看到,这个单一而优雅的理念——并非所有零值都生而平等——如何在基因组学、医学和生态学等迥异的领域中揭示更深层的真理,展现出我们在解释数据和发现自然运作方式上的美妙统一性。
我们的旅程始于细胞内那个熙熙攘攘的微观世界。过去二十年见证了生物学的一场革命:我们能够窥视单个细胞并对其中的分子进行计数。例如,在单细胞 RNA 测序(scRNA-seq)中,我们试图对每个基因的信使 RNA(mRNA)分子进行普查。这告诉我们哪些基因是活跃的,以及活跃到何种程度。由此产生的数据表格是庞大的,但它们也异常空洞。对于任何给定的细胞,大多数基因的计数都是一个简单而鲜明的零。
一个直接而关键的问题是:这个零意味着什么?是基因真的被关闭了,处于一种“真实缺失”的状态?还是基因是活跃的,但在我们匆忙捕获其转瞬即逝的 mRNA 信息时,我们只是错过了它们——一种“不完美检测”的情况?答案对于我们如何理解细胞功能具有深远的影响。这不是一个哲学难题;这是现代生物学的一个核心挑战。我们选择的统计模型就像一台显微镜,选择正确的模型决定了我们视野的清晰度。
在很长一段时间里,这些数据集中的“过量零值”被认为是一个重大的技术缺陷,一种需要特殊、复杂模型来修复的“脱扣”(dropout)。这些零膨胀负二项(ZINB)模型提出了两种获得零的方式:要么基因是真的关闭了(一个“结构性零值”),要么它是开启的,但我们从计数分布中得到了一个不幸的“抽样零值”。这对于早期的技术尤其如此,当时捕获和扩增 RNA 的过程效率较低,且容易对某些转录本造成灾难性失败。 然而,随着现代技术在扩增前用唯一分子标识符(UMI)标记每个分子,情况变得更加清晰。许多研究人员现在发现,一个标准的负二项(NB)模型——它允许高变异性(过离散)但没有一个单独的“结构性零值”部分——出人意料地很好地拟合了数据。这表明我们看到的许多零值毕竟不是技术故障,而是一种生物学的自然特征:基因表达通常是“脉冲式”且低水平的,所以得到零计数是一个频繁、预期的结果,而不一定是“过量”的。因此,理解过量零值讲述了一个技术进步和我们对基因组本身理解不断演变的故事。
但如果我们搞错了会怎样?赌注是什么?想象一下,你正在寻找通过改变基因表达来增加个人患病风险的遗传变异(eQTLs)。如果你使用一个不适合数据的模型——一个忽略了真正“过量零值”问题的模型——你可能会得到危险的误导性结果。模型可能会将一个真实的生物学效应(基因活性较低)与一个技术性效应(基因更难被检测)混为一谈,从而系统性地低估真实的遗传效应,导致你放弃一个可能至关重要的发现。这被称为衰减偏倚(attenuation bias)。为了解决这个问题,科学家们使用更复杂的“Hurdle”模型,将分析分为两个问题:首先,基因是否被检测到?其次,如果检测到,有多少?这种两部分的方法可以校正偏倚,并给出一个更真实的遗传影响图景。
这个原则远远超出了对单个基因的计数。它是构建描绘数千个基因之间复杂共表达关系的整个网络的基础。它也是复杂的人工智能和机器学习方法的核心,这些方法旨在整合单细胞数据的多个层面,如基因表达(scRNA-seq)和 DNA 可及性(scATAC-seq)。这些强大的深度生成模型具有感知零值的统计引擎,通常使用 ZINB 或类似 Hurdle 的似然函数,从稀疏、嘈杂的数据中学习细胞状态的统一表示。 “零的问题”并不仅限于 RNA。无论是分析构成癌症成因“特征”的稀疏突变目录,还是通过质谱仪中的谱图匹配数来量化蛋白质,都出现了同样的挑战:我们必须智能地对零值进行建模,才能准确地计算那些重要的事物。
让我们把镜头从分子世界拉回到人类健康的尺度。在这里,区分不同类型的零值对于做出明智的决策同样至关重要。
考虑一项关于初级保健利用率的研究,我们计算每个人一年内到诊所就诊的次数。许多人会有零次的记录。但为什么呢?一个人可能非常健康,不需要看医生。另一个人可能病得很重,但面临着获取医疗服务的障碍——没有保险、没有交通工具、没有时间请假。对于一个简单的模型来说,这两个人看起来是一样的。但一个零膨胀或 Hurdle 模型让我们能够解开这些情景。它帮助我们对一部分“结构性零值”人群——那些由于种种原因处于医疗体系之外的人——与“有风险”人群分开建模。这为公共卫生官员提供了一个更准确的工具来理解和解决医疗保健可及性方面的差异。
这种区分“真实缺失”与“检测失败”的想法在医学影像学中得到了生动的体现。想象一位肿瘤科医生使用 CT 扫描来计算癌性病变。计数为零是好消息,对吗?也许不是。CT 扫描有其检测极限;它可能会漏掉非常小的肿瘤。如果病人同时接受了更灵敏的 PET 扫描,我们常常会发现,大部分“零计数”的 CT 扫描对应的是清晰显示一个或多个病变的 PET 扫描。这是一个经典的“检测障碍”。来自 CT 扫描的零值并不意味着没有疾病,而是仪器未能“看到”它。Hurdle 模型是处理这种情况的完美工具。它将检测到任何病变(跨越障碍)的概率与在检测发生的情况下计数的病变数量分开建模。这提供了一个更现实的诊断过程模型,并帮助医生更好地解释一张“干净”的扫描结果。
在药物警戒,即监测药品安全的科学中,赌注也很高。当一种新药上市时,监管机构会对罕见不良事件进行序贯监测。对于一个非常罕见的事件,数据将绝大多数是零。问题是,非零计数的上升是真实的危险信号还是仅仅是随机噪声。一个简单的泊松模型,假设方差等于均值,通常不适合这类倾向于过离散的数据。如果我们使用一个没有正确考虑真实变异性和大量零值的错误指定的模型,我们的统计警报将校准得很差。我们要么冒着对一种安全的药物大喊“狼来了”并引起恐慌的风险,要么更糟的是,让我们的警报被一个糟糕选择的模型所压制,直到为时已晚才未能检测到真正的危害。一个零膨胀模型为这些关键的公共安全系统提供了更坚实的基础。
我们的最后一站将我们带出实验室和诊所,进入自然世界。生态学家每天都面临零的问题。想象一下,你的任务是绘制一种稀有的、栖息于树冠层的鸟类的分布图。你使用无人机飞越广阔的森林样线,记录你看到的鸟类数量。你的数据表大部分将被零填满。
同样,一个零意味着什么?它是否意味着无人机下方的这片森林是不适宜的栖息地——树种不对、太热、食物不足?这将是“真实缺失”。或者,栖息地完全没问题,但鸟儿当时就在那里,只是被厚厚的树冠挡住了无人机的摄像头,或者在无人机经过时它们很安静?这是一个“不完美检测”的问题。这两种零的来源——不适宜性和未检测到——是根本不同的,混淆它们可能导致灾难性的保护政策。我们可能会错误地断定一片森林对某个物种毫无价值,而实际上那里是优质栖息地,只是物种难以被发现。
零膨胀模型是现代统计生态学的基石,正是因为它们能正式地应对这一挑战。生态学家可以建立一个模型,其中“结构性零值”的概率(真实缺失)由环境变量如卫星衍生的植被指数(NDVI)和地表温度(LST)来预测。模型的另一部分,即计数过程,则描述了在适宜栖息地中预期的目击数量。至关重要的是,这些模型也迫使我们正视我们数据的局限性。对于单次访问的调查,从统计上讲,完全分清鸟类的真实丰度与我们探测它们的能力是不可能的。承认这一局限性,这是模型数学中内嵌的,是科学严谨性的一个标志。
我们的旅程结束了。我们已经看到,同一个基本问题在纷繁复杂的背景下一次又一次地出现。是基因沉默了,还是我们没能听到它?是病人健康,还是他们没能到达诊所?是森林空无一物,还是鸟儿只是藏起来了?在每一种情况下,通往更深层次理解的道路在于拒绝按表面价值接受“零”。
通过构建反映潜在过程的模型——区分抽样零值与结构性零值,真实缺失与不完美检测——我们创造了一个更清晰、更真实的现实影像。这便是一个伟大科学概念的美丽与力量。它不是一个用于单一工作的狭隘工具,而是一个多功能的透镜,当以谨慎和想象力应用时,它揭示了自然复杂织锦中隐藏的统一性。