try ai
科普
编辑
分享
反馈
  • 计数数据分析

计数数据分析

SciencePedia玻尔百科
核心要点
  • 标准线性模型不适用于计数数据,因为它们可能预测出不可能的负值,并错误地假设方差恒定。
  • 负二项 (NB) 分布是统计学中的一个主力模型,能有效模拟过离散的计数数据,这是一种方差大于均值的常见特征。
  • 零膨胀负二项 (ZINB) 模型通过区分偶然产生的零和因事件不可能发生而产生的零,为数据提供了更精细的解读。
  • 用于分析计数数据的统计学原理普遍适用于从基因组学到生态学的不同科学领域,解决了混杂变量和多重比较等共同挑战。

引言

在科学探究中,从广袤的生态系统到微观的细胞世界,我们总是在对事物进行计数。这些计数——基因、分子、物种或事件的数量——构成了现代定量研究的基石。然而,分析这些看似简单的“计数数据”带来了独特的统计挑战,而像线性回归这样的常用方法无法解决这些挑战。一种天真的方法可能会导致荒谬的预测和错误的结论,从而掩盖了我们试图揭示的真相。本文旨在通过为复杂的计数数据分析领域提供一份概念性指南,来弥合这一差距。我们将首先探索“原理与机制”,深入了解关键统计模型的理论基础,从理想化的泊松分布到更能捕捉现实世界数据复杂性的负二项和零膨胀模型。随后,在“应用与跨学科联系”部分,我们将看到这些模型的实际应用,揭示它们如何成为基因组学和生态学等领域不可或缺的发现工具。让我们从理解为何我们熟悉的工具会失效,以及哪些原则必须指导我们寻找更好的模型开始吧。

原理与机制

既然我们已经看到计数是如此普遍,那么让我们踏上一段旅程,去理解如何用数学来描述它们。我们的目标不仅仅是找到一个拟合的公式,而是要建立能够反映世界真实、潜在机制的模型。正如我们将看到的,发现正确模型的过程本身就是一场美妙的冒险,它引导我们从简单的想法走向对现实越来越精细、越来越强大的描述。

当好模型失灵时:线性模型的局限

当面对一个新问题时,一位优秀的科学家通常会从最简单的工具入手。要模拟两个变量之间的关系——比如说,一家公司的研发支出与其申请的专利数量——最熟悉的工具是线性回归。你绘制数据,画出最佳拟合直线,就大功告成了。很简单,对吧?

不幸的是,对于计数数据,这个可靠的工具可能会在根本上误导我们。想象一下,我们画出的直线可以延伸到任何地方,它预测一家公司明年将申请 -2 项专利。这当然是荒谬的。计数可以是零,但绝不可能是负数。一个不尊重数据这一基本边界的模型,不是一个好模型。

但还有一个更微妙、更深刻的问题。标准线性模型假设数据点在拟合线周围的“散布”程度大致相同。这个性质被称为​​同方差性​​(homoscedasticity)(我知道这个词很拗口,但它就是“相同离散程度”的意思)。对于计数数据,这几乎永远不成立。想一想:如果一家公司预计申请 2 项专利,实际数量可能是 1、2 或 3。变异性很小。但如果一个大公司预计申请 200 项专利,实际数量很可能在 180 到 220 之间波动。变异性大得多。计数数据的方差往往随其均值的增长而增长。使用一个假设方差恒定的模型,就像试图用一把尺子来描述炮弹的飞行轨迹;你用错了工具。

泊松世界:随机性的理想化

因此,我们必须放弃高中数学课本里的直线,去寻找一种天生就能处理计数的模型。我们的探索将我们引向了大名鼎鼎的​​泊松分布​​。这是计数数据的“理想气体定律”。它完美地描述了那些​​相互独立​​且以恒定平均速率发生的事件的计数。

想象一下总机接到的电话,或者一块铀中衰变的放射性原子。每一个事件都是空间或时间中一个微小、孤立的“点”,不受其他事件的影响。泊松分布的魔力在于其优雅的简洁性:它完全由一个参数 λ\lambdaλ (lambda) 定义,该参数代表事件的平均数。如果你知道平均值,你就知道关于整个可能性分布的一切。

泊松分布有一个确定不变的特性:其​​方差等于其均值​​。在一个完美的泊松世界里,如果我们期望一个培养皿上平均长出 5 个细菌菌落,那么在许多这样的培养皿中,菌落计数的方差也将是 5。这个单参数模型是一个优美、简洁的数学对象,对于许多现象,它都表现得非常好。

真实世界是“块状”的:过离散

但是,事实证明,自然界比理想化的泊松世界要混乱一些,也更有趣得多。当科学家们在实践中去计数时——无论是细胞中表达的基因、渔网中的鱼,还是工厂生产线上的次品——他们几乎无一例外地发现一个顽固的事实:方差远远大于均值。这种现象是计数数据分析的基石,它有一个名字:​​过离散​​(overdispersion)。

为什么真实世界是过离散的?因为泊松模型的核心假设——事件是独立的,且潜在的速率是恒定的——几乎总是被打破。现实并非平滑、均匀的概率迷雾;它是“块状”的。

让我们去一个生物实验室看看这种“块状性”是如何表现的。假设你通过将液体培养物涂布在培养皿上并计数产生的菌落来估计细菌浓度。泊松模型会假设每个细菌都落在琼脂上,并忠实地长成一个独立的菌落。但如果细菌是黏性的,在液体中容易形成团块呢?一个包含10个细胞的菌落团块可能落在培养皿上。这只是一个“到达事件”,但它会产生10个(或更多)菌落。这种聚集性打破了独立性的假设,极大地增大了你计数的变异性。

另外,即使细菌不聚集,琼脂板本身也可能不是完全均匀的。也许某一块的营养混合物稍浓一些,或者温度稍高一些,从而形成了一个生长的“热点”。这种潜在的​​异质性​​(heterogeneity)意味着平均率 λ\lambdaλ 在整个培养皿上并非恒定。无论是因为聚集还是环境异质性,结果都是一样的:过离散。

驯服“块状”分布:负二项分布

那么,当科学家面对一个块状的、过离散的世界时,该怎么办呢?我们需要一个更复杂的模型,一个能够包容而非忽视这种异质性的模型。这引出了一个相当优美的想法。如果率参数 λ\lambdaλ 不是一个固定常数呢?如果这个率本身就是一个随机变量,随着每次观测而波动,以反映潜在的“块状性”呢?

这正是催生​​负二项(NB)分布​​的思路。数学家称之为​​伽马-泊松混合分布​​。想象一个两步过程:首先,大自然从一个灵活的可能速率分布(伽马分布)中为这次特定的观测选择一个速率 λ\lambdaλ。然后,给定这个选定的速率,最终的计数从一个具有该速率的泊松分布中生成。通过对大自然可能选择的所有速率进行积分,我们得到了负二项分布。

负二项模型的真正威力体现在其均值-方差关系上。对于一个均值为 μ\muμ 的计数 YYY,其方差不仅仅是 μ\muμ,而是:

Var(Y)=μ+αμ2\text{Var}(Y) = \mu + \alpha\mu^2Var(Y)=μ+αμ2

让我们花点时间来欣赏这个公式的优雅之处。第一项 μ\muμ 是我们熟悉的“散粒噪声”或我们期望从泊松过程中得到的抽样变异。第二项 αμ2\alpha\mu^2αμ2 是关键的附加项。这就是直接源于系统潜在异质性或“块状性”的​​额外方差​​。​​离散参数​​ α\alphaα 是对这种“块状性”的直接、可量化的度量。

这个模型如此强大和直观,以至于它已成为现代高通量生物学的统计主力。例如,在空间转录组学中,科学家们在组织切片上对数千个基因的信使RNA分子进行计数,观察到的计数是极度过离散的。这既是由于技术变异(测量设备上的一些点比其他点更能捕获分子),也是由于更有趣的真实生物学异质性(不同细胞具有不同水平的基因活性)。负二项模型的 α\alphaα 参数完美地捕捉了这种生物学和技术上的综合过离散。当 α\alphaα 接近零时,它告诉我们系统表现得像一个行为良好的泊松过程。当 α\alphaα 很大时,它预示着高度的潜在变异性。奇妙的是,如果我们设置 α=0\alpha=0α=0,负二项模型会优雅地简化回其母体——泊松分布。

缺失之谜:当零值讲述故事

有了负二项分布这个工具,我们现在可以模拟各种各样的过离散计数数据。但有时,数据中会出现一种新的、甚至更奇怪的模式:数量惊人的零值。这些零值比灵活的负二项模型,即便考虑了其内置的离散性,所能合理预测的还要多得多。这个“零值过多”问题迫使我们更深入地思考生成我们数据的过程。

它向我们暗示,也许并非所有的零都是生而平等的。

为了理解这一点,让我们离开实验室,去加入一位正在岩石海岸线上调查固着无脊椎动物(如海葵)的生态学家。这位生态学家布下一个方形网格(样方),并计算每个样方中的海葵数量。他发现许多样方是空的。但一个空的样方可能出于两种根本不同的原因:

  1. ​​随机性零值​​:这个样方可能是一块非常适合海葵生长的地盘——有合适的纹理、合适的水流——但仅仅是由于偶然,近期没有海葵幼体碰巧在这里着陆并存活下来。这是一个“抽样”零值,一种偶然的缺失。负二项模型完全有能力解释这些。

  2. ​​结构性零值​​:这个样方可能是一片光滑、不适宜的岩石。海葵不可能附着在这里。这个样方中的计数值为零不是偶然,而是必然。这是一个“结构性”零值。

一个简单的负二项模型混淆了这两种类型的零。为了将它们分离开来,我们需要一个更智能的两部分模型。想象一个过程,首先会问:“这个地方适合生命吗?” 假设任何给定的样方在结构上不适宜的概率为 π\piπ。如果答案是“是的,不适宜”,那么计数值就是0,故事结束。如果它适宜(概率为 1−π1-\pi1−π),我们就进入第二步:从我们的负二项分布中抽取一个计数,以模拟幼体实际定居的聚集性、过离散过程。

这个两阶段模型被称为​​零膨胀负二项(ZINB)模型​​。它将两种生成过程都囊括在一个简洁的包中。观察到零的概率现在是两种途径的总和:处于结构上不适宜位置的概率,加上处于适宜位置但恰好从负二项过程中得到零计数的概率:

Pr⁡(Y=0)=π+(1−π)×[来自NB部分的零概率]\Pr(Y=0) = \pi + (1-\pi) \times [\text{来自NB部分的零概率}]Pr(Y=0)=π+(1−π)×[来自NB部分的零概率]

这是一个绝佳的例子,说明了统计建模如何成为一种科学叙事的形式。ZINB模型的每个组成部分——零膨胀参数 π\piπ、均值 μ\muμ、离散参数 α\alphaα——都对应着一个独特的、可解释的物理或生物学机制。通过将这个模型拟合到数据中,我们不仅得到一条与数字匹配的曲线;我们对产生这些数据的世界有了更深刻、更结构化的理解。

应用与跨学科联系

好了,我们已经组装了一台用于分析计数的精美机器。我们探索了它的内部工作原理——泊松分布和负二项分布、广义线性模型 (GLM) 的优雅以及假设检验的逻辑。但这套机制有什么用呢?物理学家的乐趣不仅在于建造粒子加速器,还在于将物质相互碰撞以观察结果。本着同样的精神,让我们来运用我们的统计框架,看看能揭示自然的哪些秘密。事实证明,一个简单的想法——计数——当与正确的统计工具相结合时,就会成为一把万能钥匙,在一些最活跃的现代科学领域打开大门。

现代生物学家的工具箱:破译基因组

也许没有任何一个领域像生物学,特别是在“组学”(-omics)时代,那样因计数数据分析而发生革命性影响。借助现代测序技术,我们可以同时测量数以万计基因的活性,生成海量的计数数据集。

我们的旅程始于这类实验的基本产出:计数矩阵。可以把它想象成一本庞大的生命账本。在典型的RNA测序实验中,每一行代表一个不同的基因——细胞遗传蓝图中的一个特定指令——每一列代表我们收集的一个不同样本,比如说,癌症细胞在治疗前后的样本。每个单元格中的数字非常简单:它是该样本中由该基因转录的RNA分子的原始计数。这个矩阵是我们的起点,是细胞内部生命的一张数字快照。

但自然界比一本简单的账本要混乱得多。我们首先注意到的事情之一是,我们计数的变异性并非恒定。一个高表达的基因,其表达的变异性平均也更大。方差不是一个固定的数值;它与均值同步变化。多年来,科学家们试图“驯服”这种行为,用如对数转换等数学变换来压平这种方差,以使数据符合旧的统计检验。但我们讨论过的现代方法要优雅得多。我们不与数据的本性抗争,而是拥抱它。我们的负二项模型包含那个特殊的离散参数,它让我们能够明确地模拟基因活性与其变异性之间这种优美且具有生物学意义的关系。

即使有了正确的模型,实验也可能不守规矩。在任何宏大的戏剧制作中,演员可能会漏掉提示,舞台灯光可能会闪烁。同样,单个生物样本也可能因某些技术故障而表现异常。我们如何确保我们的科学故事不被一个“奇怪”的数据点带偏?我们的模型有自己的舞台监督。其中一个最有用的诊断工具叫做库克距离(Cook’s distance)。它就像一束聚光灯,识别出任何一个极端到足以凭一己之力扭曲我们结论的计数。通过标记这些有影响力的点,我们可以对它们进行调查并进行审慎的修正,确保我们的结果是稳健的,而不是单个小故障的产物。

有了这些工具,我们就可以组建一个完整、强大的分析流程。假设我们想发现某种蛋白质如何重塑基因组的“线路图”。我们可以使用像染色质分析这样的技术来计算这种蛋白质与我们DNA上数千个不同位置结合的频率。从原始计数开始,我们首先进行巧妙的归一化,以考虑我们可能对某些样本测序比其他样本更深。然后,对于数千个潜在的结合位点,我们拟合一个负二项GLM来提问:“与对照组相比,我们实验条件下的蛋白质结合计数是否显著更高?”最后,由于我们重复了数千次这个问题,我们进行多重检验校正,如Benjamini-Hochberg程序,来控制我们的错误发现率。这个严谨的工作流程将我们从一个庞大的原始计数矩阵一直带到一个可信的、具有生物学意义的结合事件列表。

应用远不止于此。GLM框架非常灵活,可以被调整以回答更复杂的问题:

  • ​​寻找生死攸关的基因:​​ 在一种名为CRISPR筛选的强大技术中,科学家可以同时关闭数千个不同的基因,以观察在特定条件下(如暴露于药物)哪些基因对细胞存活至关重要。这带来了一个独特的统计难题。如果处理非常有效,很大一部分靶向基因的向导(guides)会从群体中“耗尽”,从而扭曲总计数。优雅的解决方案是将我们的归一化锚定到一组我们知道是中性的向导上——那些靶向“垃圾”DNA的向导。它们充当了稳定的内部参照,使我们能够准确地测量所有其他向导的耗尽程度。这是一个展现深思熟虑的实验设计与统计分析如何携手克服难题的绝佳例子。

  • ​​解码基因组的“语法”:​​ 我们可以从“什么改变了?”这个问题,深入到“它是如何工作的?”。通过合成数千个调控DNA序列(或增强子)的变体,并用报告基因实验测量它们的活性,我们可以建立一个其功能的预测模型。我们的GLM可以被设计成包含特定DNA基序存在的项,甚至是交互项,以观察整体是否大于部分之和。例如,模型可能会学到,如果存在基序XXX,增强子活性增加量为AAA;如果存在基序YYY,增加量为BBB;而只有当XXX和YYY同时出现时,才会产生一个额外的协同增加量CCC。这不再仅仅是统计检验;这是对基因组的计算语言学,让我们能够推断其语法的量化规则。

  • ​​绘制三维基因组图谱:​​ 基因组不是一个简单的一维字符串;它是一个复杂、折叠的物体。我们不仅可以计算一个基因的表达量,还可以计算基因组上两个遥远部分在三维空间中彼此靠近的频率。这给了我们一个计数的“接触矩阵”。为了分析这个矩阵,我们扩展了我们的GLM,以包含新的物理现实。例如,我们必须考虑一个强烈的趋势,即在字符串上彼此靠近的DNA位点更容易相互碰撞。通过添加一个代表这种距离依赖性衰减的项,我们的模型可以区分这些预期的背景相互作用与真正重要的、构成基因调控基础的远距离环路。

超越基因组:一种通用语言

基因和鱼有什么共同之处?这听起来像一个烂笑话的开头,但答案揭示了关于科学过程的深刻真理。两者都可以被计数。正因为它们可以被计数,所以同样的基本实验设计和统计推断原则也适用于两者。研究河流的生态学家的智力旅程与研究细胞的计算生物学家的智力旅程惊人地相似。

想象一下,一位生态学家在河流清理前后测量了一种鱼类的丰度,并发现了一个“显著”的增长,其ppp值为0.020.020.02。这引发了我们在基因组学中面临的所有同样问题:

  • ​​“显著”意味着什么?​​ ppp值为0.020.020.02并不意味着这一发现有2%2\%2%的可能是侥幸。它的意思是,如果清理没有效果,我们将只有2%2\%2%的时间会观察到这么大或更大的变化。这种在给定假设下数据的概率与假设本身概率之间的关键区别是普遍存在的。

  • ​​是否存在混杂变量?​​ 鱼群数量的增加可能仅仅是因为季节变化,而不是因为清理。这种时间上的混杂与测序中的“批次效应”完全类似,即所有的“后”样本都在与“前”样本不同的日子进行处理。在这两种情况下,时间的影响与处理的影响纠缠在一起。

  • ​​这些重复实验是真的吗?​​ 在同一天的同一地点计数鱼101010次,并不能给你101010个关于清理效果的独立重复。这是“伪重复”(pseudoreplication),这与将同一个RNA样本测序101010次并将其视为101010个独立的生物学实验是同样的错误。

  • ​​模型是否正确?​​ 鱼和RNA分子一样,都不是完美随机分布的。它们会成群结队。它们的计数是“过离散”的——方差大于均值。使用一个忽略这种过离散的简单泊松模型,会让生态学家对其发现过于自信,就像它对生物学家一样。

  • ​​你是否考察了太多的东西?​​ 如果生态学家研究了505050个不同的物种,却只报告了那个显示出显著变化的物种,那么他们就陷入了多重比较问题的陷阱——这正是生物学家在测试数千个基因时必须控制错误发现率(False Discovery Rate)的原因。

这种相似性不仅仅是一种巧合。它展示了科学推理的深刻统一性。为计数数据构建的智力工具箱是跨学科通用的。

随着生物学本身变得越来越跨学科,我们看到了这一点。在空间转录组学这个新领域,我们不再仅仅计算来自捣碎的组织样本的RNA分子;我们在它们原始的空间位置上进行计数,生成一幅基因表达的“图像”。为了理解这些数据,我们必须将我们的计数模型与信号处理和机器学习的工具结合起来。我们可能会使用小波变换将表达图像分解为不同空间“尺度”上的模式——从精细的细胞间模式到宽泛的组织范围梯度。然后,我们可以使用交叉验证和置换检验等统计技术来探究哪些尺度包含了真实的生物信号,从而提供一种严谨的方法来表征生命的结构。

从我们DNA的语法,到一条河流的健康,再到一个组织的空间结构,简单的计数行为,在有原则的统计框架指导下,变成了一个极其强大的发现工具。其根本逻辑是相同的,正是在这种跨越不同领域的思想统一性中,我们才能体会到科学的真正美丽和效用。