
从 RNA 测序(RNA-seq)数据中量化基因表达是现代生物学的基石,然而原始数据却具有欺骗性的复杂性。仅仅计算映射到每个基因的序列片段数量,并不能提供其活性的无偏且可靠的图像。这是因为较长的基因自然会产生更多的片段,而不同的测序实验产生的总读数数量也不同。面对这些扭曲,我们如何才能进行公平的比较?本文通过深入探讨一种最常见的归一化方法:每百万转录本数(TPM),来应对这一根本性挑战。
本文将引导您理解 TPM 的精妙逻辑,揭示它如何解决这些关键的测量问题。第一章“原理与机制”将详细介绍计算 TPM 的分步方法,解释其直观的解读方式,并揭示其最重大的陷阱——组分数据陷阱。随后,“应用与跨学科联系”一章将探讨 TPM 背后的核心思想如何从基因组学延伸到经济学等领域,以及对其原理的深入理解如何为生物学中的高级实验设计(从单细胞研究到临床诊断)提供信息。
要真正理解每百万转录本数 (TPM) 是什么,我们必须首先认识到它旨在解决的问题。想象一下,你正试图在一条巨大的、无限长的公路上对所有不同类型的汽车进行普查,但你唯一的工具是一台视野极窄、对准单一车道的相机。你看不到完整的汽车,只能看到从你镜头前经过的碎片。你如何才能估算出,比如说,紧凑型轿车与豪华轿车的比例?这正是 RNA 测序 (RNA-seq) 中面临的挑战。我们希望量化一个细胞中每种信使 RNA (mRNA) 转录本的丰度,但我们的测序机器只能“看到”这些转录本的短片段。仅仅计算每个基因的片段数是不够的;这是一次有偏好的普查。
我们的公路普查面临两个明显的问题。首先,一辆长长的豪华轿车远比一辆短小的紧凑型轿车更有可能被你的相机看到,即使公路上两者都只有一辆。这就是长度偏好。在 RNA-seq 中,一个更长的基因转录本为片段的采样提供了更多的“空间”。因此,一个低表达的长基因可能产生与一个高表达的短基因同样多的片段。为了在同一个样本内对“豪华轿车”基因和“紧凑型轿车”基因进行公平比较,我们必须首先校正这种长度偏好。最简单的方法是将我们为每个基因计数的片段数除以该基因的长度。这给了我们一个单位长度的片段“速率”,这是对实际转录本丰度更好的一个替代指标。
第二个问题是观察时间。如果你观察公路五分钟,你看到的汽车片段会比观察一小时少得多。这就是文库大小偏好(也称为测序深度)。在 RNA-seq 中,一个样本可能产生 2000 万个片段读数,而另一个样本则产生 5000 万个。第二个样本中的一个基因可能有更多的读数,仅仅是因为测序运行更深,而不是因为该基因更活跃。为了比较这两个样本之间的表达水平,我们必须对每个文库中的总读数数量进行归一化。
归一化方法就是为校正这些偏好而设计的计算方法。一种早期的方法,RPKM(每千碱基每百万读数),试图一次性解决这两个问题,但其方式存在一些细微问题。TPM,即每百万转录本数,通过改变操作顺序,提供了一个更优雅、更直观的解决方案。让我们一步步地遵循 TPM 的计算方法:
首先校正基因长度: 对于样本中的每个基因,取其原始片段计数值(),然后除以该基因的长度(),长度通常以千碱基(数千个碱基)为单位。这样就得到了每个基因的“每千碱基读数”(RPK)值。这一步将所有基因等同化,就好像它们具有相同的长度,从而解决了我们的豪华轿车与紧凑型轿车的问题。
估算总转录本池: 现在,将样本中所有基因的 RPK 值相加。这个总和,我们称之为 ,代表了你文库中经过长度归一化的总读数。你可以把它看作是样本中所有转录本总数的一个替代指标。
计算比例: 将每个基因各自的 RPK 值除以这个总和 。这个计算,,得出了属于基因 的总转录本池的比例。这就是 TPM 的精妙之处。它回答了这样一个问题:“在这个细胞的所有转录本中,有多大比例来自这个特定的基因?”
这种方法的美妙之处在于,根据其构造,如果你将单个样本中所有基因的 TPM 值相加,你将总是得到恰好 。这意味着 TPM 值有一个非常清晰的解释:如果一个基因的 TPM 为 120,就表示从该细胞中每采样一百万个转录本(在校正长度偏好后),其中将有 120 个来自该基因。它将基因的表达表示为其在总转录组中所占的比例份额。
这种比例视图非常有用,但它隐藏着一个微妙而危险的陷阱。因为一个样本中的 TPM 值总和必须为一个常数,它们代表了一个封闭的、零和的系统。这个属性被称为组分性。让我们把公路的比喻换成披萨。
想象一下,你分析一个披萨,并通过其表面积被各种配料覆盖的百分比来描述它:50% 意大利辣香肠,40% 蘑菇,10% 橄榄。这是披萨 A 的“TPM”画像。
现在,考虑披萨 B。它的蘑菇和橄榄的绝对量与披萨 A 完全相同。然而,你的一位意大利辣香肠狂热爱好者朋友在上面多加了一大堆意大利辣香肠,现在它覆盖了 80% 的面积。由于总面积必须是 100%,蘑菇和橄榄发生了什么变化?它们的百分比必须减少。披萨 B 的画像现在可能是 80% 意大利辣香肠,15% 蘑菇,5% 橄榄。
如果你比较这些百分比值,你会错误地得出结论,认为披萨 B 的蘑菇和橄榄比披萨 A 少。但从绝对量上看,它们是相同的!一个组分的大幅增加人为地“压缩”了所有其他组分的比例表示。这就是组分陷阱。
这种情况在 RNA-seq 中完全相同。让我们考虑一个基于思想实验的鲜明数值例子。我们有三个基因,长度分别为 、 和 kb。
样本 A(正常细胞): 计数值为 、、。根据我们的计算方法,我们发现 。
样本 B(癌细胞 - 情景 1): 基因 1 上调。计数值为 、、。此时,。TPM 的倍数变化为 。TPM 值如预期般上升了。
样本 B'(癌细胞 - 情景 2): 现在,想象基因 1 的计数值上调到 200,但一个致癌基因——基因 2——被大规模上调。计数值为 、、。基因 1 的计数值仍然与情景 1 中的 200 相同。但是因为基因 2 是“额外的意大利辣香肠”,它极大地膨胀了总转录本池。当我们在这种情况下计算基因 1 的 TPM 时,我们发现 。
这是一个惊人的悖论。基因 1 的原始计数值从样本 A 到样本 B' 翻了一番,但其 TPM 值却减半了。倍数变化现在是 。基于 TPM,你会得出基因 1 被下调的结论,而实际上它的转录本数量上升了。基因 1 的生物学信号被另一个基因的变化完全扭曲了。这表明 TPM 对于转录组组成的变化并不稳健。
这并不意味着 TPM 是一个“坏”的指标。这意味着我们必须用它来回答它被设计来解决的问题。
在单个样本内部,TPM 非常出色。如果你想知道在这个样本中基因 X 还是基因 Y 的表达水平更高,TPM 是正确的工具,因为它校正了长度,从而允许公平的比较。
在不同样本之间,正如我们所见,TPM 可能会产生误导。在进行差异表达分析——即寻找在不同条件(例如,肿瘤 vs. 正常)之间发生变化的基因——时,我们的主要问题是关于单个基因在样本间的变化。对于一个给定的基因,它的长度是恒定的,所以长度校正不是主要问题。真正的问题是组分偏好。
因此,像 DESeq2 或 edgeR 这样统计上稳健的差异表达方法是使用原始计数的。它们采用更复杂的样本间归一化策略(如 TMM 或中位数比值法),这些策略旨在找到不受少数高表达“异常”基因影响的稳定缩放因子。它们实质上是在归一化披萨的其余部分时,试图忽略那些“额外的意大利辣香肠”。将预先计算的 TPM 值用于这些工具在统计上是不合适的,因为它违反了它们基于整数计数建立的底层模型,并引入了这些工具旨在避免的组分偏好。
最终,TPM 是一个强大的概念,它优雅地解决了长度和文库大小的核心偏好,提供了一个清晰的、比例化的转录组视图。它的美在于其简单性和清晰的解释。但理解其固有的组分性质是明智使用它的关键,也是理解为什么寻求完美的“基因表达单位”的探索促使科学家们开发出一个多样化的工具包,其中每个工具都为一项非常具体的工作而打磨。
科学世界并非互不相连的事实集合,而是一幅相互关联的思想织锦。一个真正优美的思想,诞生于某个探究的角落,常常会在另一个领域找到归宿,揭示出事物本质中意想不到的统一性。每百万转录本数(TPM)归一化背后的原理就是这样一种思想。尽管它是在基因组学的特定熔炉中锻造出来,用以解决比较基因表达的问题,但其核心逻辑——一种处理相对测量的巧妙方法——的共鸣远远超出了细胞的范畴。它教给我们一种思维方式,一种在不断变化的尺度世界中进行公平比较的方法。
从本质上讲,TPM 是一种两步式的归一化之舞。首先,我们考虑我们所计数事物的一种内在属性。在 RNA 测序中,这是基因的长度;一个更长的基因自然会收集到更多的测序“读数”,就像一张更长的网会捕到更多的鱼,即使各处鱼的密度相同。其次,我们考虑“池塘”的总大小——即该样本的总测序投入。通过将所有东西都缩放到一个标准大小的池塘,一个“每百万”的总量,我们最终可以比较不同池塘之间的鱼密度。
这种逻辑具有惊人的普遍性。想象一下,你正在分析个人预算以了解消费习惯。“外出就餐”这一类别的“读数计数”是总花费金额,比如 $180。“基因长度”是每餐的平均成本,比如 $15。我们类似 TPM 的思维第一步是按这个“单位成本”进行归一化:180 / (\15/\text{meal}) = 12$ 餐。我们对所有消费类别——杂货、交通、娱乐——都这样做,以获得每个类别的“交易频率”度量。这类似于计算每千碱基读数。
现在,一个人一个月内可能有 66 次总交易,而另一个人有 100 次。为了比较他们的习惯,我们执行第二步:我们将每个人的交易频率进行缩放,使它们总和为一个共同的总数,比如说,一百万。那个在 66 次总交易中外出就餐 12 次的人,将得到一个约 的“外出就餐 TPM”。这个值现在代表了如果他们的总活动量恰好是一百万次交易,他们会有多少次外出就餐交易。这是一个公平且可比的比例度量,无论你是预算紧张的学生还是高收入的主管。
我们可以将同样的想法从个人预算扩展到全球舞台。假设我们想比较不同国家的碳效率。一个国家的总 排放量就像它的“读数计数”,而其国内生产总值(GDP)就像它的“基因长度”——衡量其经济规模的指标。一个大的经济体自然会排放更多的总 。为了进行公平比较,我们首先计算“碳强度”,即单位 GDP 的排放量 ()。这是我们的第一次归一化,类似于除以基因长度。然后,为了考虑到我们正在比较一组特定的国家,我们将它们所有的碳强度相加,并将每个国家的值与这个总数进行归一化,将结果缩放到一个“每百万”的值。最终的度量,,给了我们一个国家碳强度占所研究系统总强度一小部分的度量。这是一种强有力的方式,可以看出哪些经济引擎比其他引擎运行得更清洁,这个概念直接借鉴自分子生物学实验室的逻辑。
虽然这些类比揭示了 TPM 概念优美的普遍性,但其真正的力量和精妙之处在其原生栖息地——生物学中最为闪耀。在这里,简单的公式不是终点,而是更深层次推理的起点,导向巧妙的实验设计和更细致的解释。
测序中最深远的挑战之一是你的预算有限。对于任何给定的样本,你只能测序一定数量的分子——比如说,5000 万个。这创造了一个“零和”或更准确地说,一个“固定总和”的游戏。如果一种分子异常丰富,它将消耗你测序预算的巨大一部分,留给其他所有分子的读数就更少了。这就是组分数据的本质。
一个经典的例子发生在研究全血中的基因表达时。红细胞富含珠蛋白,因此,它们的信使 RNA (mRNA) 可能占样本中 RNA 总量的 60% 以上。如果你直接对这个样本进行测序,绝大多数的读数将映射到珠蛋白基因。一个罕见但具有重要临床意义的生物标志物可能存在,但它的信号被珠蛋白的巨大声响所淹没。它的相对丰度如此之低,以至于你可能只为它得到少数几个读数,甚至由于纯粹的偶然性而得到零。
我们对归一化的理解如何提供帮助?它确切地告诉我们如何修正实验。通过使用一种在测序前选择性去除珠蛋白 mRNA 的方案,我们改变了文库的组成。之前仅占池中 40% 的非珠蛋白转录本,现在可能占新的、更小的池的 90%。当我们将 5000 万个读数用于这个耗尽的文库时,其中更大的一部分将落在我们感兴趣的基因上。一个非珠蛋白基因的预期计数值不仅增加了;它被一个因子 重新缩放,其中 和 分别是耗尽前后珠蛋白的比例。这可以将一个无法检测的基因变成一个清晰检测到的基因,而无需改变总测序深度。这是一个优美的示范,展示了一个统计概念——组分性——如何直接指导物理干预以改善测量。
TPM 原理的灵活性也使我们能够将其应用于复杂的生物学场景。考虑一个来自感染了病毒的患者的样本。标准的 TPM 计算会将其分母中包含所有转录本,包括人类和病毒的。如果一个样本有大量的病毒载量,而另一个样本载量很低,那么病毒 RNA 将在第一个样本中消耗大部分测序预算。这将人为地压低该样本中所有人类基因的 TPM 值,与第二个样本相比,造成了广泛的基因抑制的假象。为了对宿主的反应进行有意义的比较,我们必须重新定义我们的“宇宙”。我们可以计算一个“宿主感知”的 TPM,其分母仅包括来自宿主转录本的归一化值的总和,。通过将“每百万”的缩放限制在宿主转录组本身,我们创造了一个对来自病毒的污染信号具有稳健性的度量。我们已经根据我们所问的问题量身定制了我们的工具。
这种尺度和组成的概念也是单细胞生物学革命的核心。对一块组织的批量 RNA-seq 实验就像预算类比:它给你一个平均消费画像。但组织是不同细胞类型的混合物。想象一个基因只在一种罕见的细胞类型中表达,这种细胞类型仅占组织的 10%,但在这些细胞内表达水平非常高。在批量 TPM 测量中,这种高表达被平均到所有细胞上,其中 90% 的细胞表达为零。最终的批量 TPM 值被稀释,可能显得中等甚至很低。单细胞 RNA 测序通过单独测量每个细胞的表达谱,规避了这种平均化。它使我们能够看到该基因并非在各处都“中等表达”,而是在一个特定的、罕见的群体中“高度表达”——这种区分可能是找到药物靶点与完全错失它的区别。
随着我们的工具变得越来越强大,我们对其局限性的理解也必须变得更加深入。TPM 的简洁优雅掩盖了其在临床诊断等高风险领域应用中至关重要的微妙之处。
其中一个微妙之处是“转录本”的定义本身。现代转录组已知不仅包含编码蛋白质的 mRNA,还包含大量的长非编码 RNA (lncRNA),其中一些非常丰富。这些是否应该包含在我们 TPM 计算的分母中?这个选择至关重要。将一个高表达的 lncRNA 包含在分母中会增加总和,从而降低每个其他基因的 TPM 值。如果一个临床实验室仅使用蛋白质编码基因计算 TPM,而另一个实验室使用所有注释的转录本,它们报告的同一个癌症相关异构体的 TPM 值可能会因这一分析选择而相差两倍或更多。为了使 TPM 成为一个可靠的临床工具,我们需要严格的标准来规定分母中到底包含什么——参考转录组、所包含的基因类型——以确保我们的测量是可重复和可比较的。
此外,TPM 公式本身并非神圣不可侵犯。它是一个基于特定技术(短读长测序)属性的模型。随着长读长测序等新技术的出现,它们也带来了自己独特的偏好。例如,一个长读长测序仪可能既产生全长读数,也产生随机组合的部分长度片段。一种有原则的方法不只是盲目地应用旧的 TPM 公式;它从头开始构建一个新的公式。通过对过程建模——一个特定长度的分子预期会产生多少全长和部分长度的读数——我们可以推导出一个新的分子丰度估计量 ,以及一个基于它的新的类似 TPM 的归一化方法。TPM 的精神不在于其特定的方程,而在于建模测量偏好并加以校正的原则。
最后,我们必须面对任何像 TPM 这样的相对度量的终极局限性。因为它反映的是比例,它无法区分两种根本不同的情况:(1)基因 A 的绝对表达量翻倍,而基因 B 保持不变,或者(2)基因 A 保持不变,而基因 B 减半。在这两种情况下,A 与 B 的比率都翻倍了。当一个大的、协调一致的基因群(例如,整个生物学通路)协同变化时,这就成了一个大问题。如果一个包含转录组分子 10% 的通路被强烈上调,它将占据总体的更大一部分。根据组分数据的规则,所有其他转录本必须现在占据更小的一部分,它们的 TPM 值将下降,在整个基因组中造成一个广泛的、人为的下调信号。
认识到这一局限性为我们指明了未来。一条路径是实验性的:使用“外参 (spike-in)”对照——添加到每个样本中的已知数量的合成 RNA——我们可以创建一个外部参考来打破组分约束,并在绝对尺度上估计变化。另一条路径是纯数学的:使用组分数据分析(CoDA)的工具,我们可以从直接分析 TPM 值转向分析基因丰度的对数比率(例如,一个通路相对于基因组其余部分的表达)。这些方法从一开始就是为正确处理相对数据而设计的。
TPM 的历程,从一个简单的工具到一个丰富的概念框架,是科学进步本身的缩影。我们从一个问题的优雅解决方案开始,在应用它的过程中,我们发现了它更深层的含义、其隐藏的微妙之处,并最终,它的边界。而正是在这些边界上,在我们最好的工具开始失效的地方,最激动人心的新发现得以产生。