UMI 计数

玻尔百科

定义

UMI 计数是一种基因组学定量方法，通过在扩增前为原始分子标记唯一的分子标识符，从而校正 PCR 扩增偏差。该技术利用数学修正手段处理 UMI 冲突和测序错误，实现了对每个细胞转录本的精确数字计数。作为单细胞 RNA 测序的核心组成部分，UMI 计数已被广泛应用于免疫库分析、调控基因组学和生态监测等领域。

核心要点

UMI 计数通过在复制前对每个原始分子进行唯一标记来校正 PCR 扩增偏倚，从而实现准确定量。
该方法通过数学校正和基于一致性的错误检查来解决 UMI 碰撞和测序错误等固有误差。
在单细胞 RNA 测序中，UMI 提供了每个细胞中转录本的精确数字计数，从而能够创建准确的基因表达图谱。
基于 UMI 的定量已经改变了单细胞分析以外的领域，包括免疫组库分析、调控基因组学和生态监测。

引言

在现代生物学中，计数分子的能力是理解生命内部运作的基础。从测量单个细胞中的基因活性到对生态系统中的生物多样性进行编目，定量数据都是关键。然而，我们观察分子世界的主要工具——聚合酶链式反应（PCR），却引入了显著的失真。通过将某些分子的复制次数比其他分子多出数千倍，这种“扩增偏倚”使得我们无法通过简单地计算最终产物来确定分子的原始数量。这就产生了一个关键的知识鸿沟：当我们唯一的放大镜是一个扭曲的透镜时，我们如何才能获得分子的真实普查数据？

本文探讨了解决这个问题的优雅方案：唯一分子标识符（UMI）计数。这种方法将充满噪声的模拟信号转化为精确的数字计数。我们将深入探讨其核心概念，从“先标记后复制”的基本原则到为弥补该方法自身缺陷而采用的复杂计算校正。在接下来的章节中，您将对这项关键技术有一个全面的了解。“原理与机制”部分将分解 UMI 的工作原理、误差来源，以及为实现准确性而使用的数学和计算策略。然后，“应用与跨学科联系”部分将展示 UMI 计数如何彻底改变了单细胞基因组学、免疫学和环境科学等领域，开辟了新的发现前沿。

原理与机制

想象你是一位图书馆员，接到了一项不可能完成的任务：数清一个神奇图书馆里所有的书，而那里的书会自发地复制。一些稀有的古籍可能只会复制一两本，而一本流行的新小说可能会产生一百万本。如果你只是简单地数一下书架上看到的每一本书，你的最终总数将会有极大的误导性，其中绝大多数都是那些最会复制的书。你数的将不是独特的书名，而是纸张的数量。

这正是我们在现代基因组学中面临的困境。我们想计算单个细胞内某个特定基因的信使 RNA（mRNA）分子的数量，以了解哪些基因是活跃的。我们用来让这些分子可见的主要工具是聚合酶链式反应（PCR），一台宏伟的分子“复印机”。但这台机器有一个怪癖：它表现出扩增偏倚。有些分子被复制了数千次，而另一些只被复制了几次。简单地计算得到的序列，即“读数”，就像数那个神奇图书馆里的书一样——它更多地告诉我们复印机的心血来潮，而不是细胞的原始状态。我们如何才能准确地计算出原始分子的数量呢？

一个简单而绝妙的想法：分子“狗牌”

解决方案是那些简单到堪称绝妙的想法之一。在启动复印机之前，我们给每一个原始分子都附上一个独特的“狗牌”。这个标签是一段短的、随机的 DNA 字母序列，我们称之为唯一分子标识符，即 UMI。

一旦一个分子被标记，PCR 产生的每一个副本也将携带那个原始标签的相同副本。这个过程很简单：

标记： 我们取初始的分子池，并为每个分子附上一个随机的 UMI。
扩增： 我们运行 PCR 复印机。一个单分子可能会变成一个包含数千个相同副本的家族。
计数： 测序后，我们不只是计算读数。相反，我们将来自同一基因的所有读数分组，然后查看它们的 UMI。所有共享相同 UMI 的读数都被认为是单个原始分子的后代。我们将这整个家族压缩为一个计数。为了得到最终数字，我们只需计算该基因所见的不同 UMI 的数量。

这样，一个分子制造了一千个副本，而另一个只制造了十个，这都无关紧要。两者都只被算作一个原始分子。复印机的偏倚被优雅地规避了。我们不再是数纸张，而是在数独特的书名。

从“狗牌”到完整地址：条形码的层级结构

在真实的实验中，我们通常会同时分析来自多个不同病人或条件的数千个细胞。仅凭一个识别单个分子的 UMI 是不够的。我们需要一个完整的寻址系统，以便将一条测序读数一路追溯到其源头。可以把它想象成一个邮政地址：

样本索引： 这就像邮政编码。它告诉我们分子来自哪个实验或病人。来自特定样本的所有分子都会获得相同的样本索引。这使我们能够将许多样本混合在一起（即多重混合）进行一次测序，然后在之后将它们分拣出来。
细胞条形码： 这是街道地址。在像基于液滴的单细胞测序这样的技术中，来自单个细胞的每个分子都被标记上相同的细胞条形码。这使我们能够汇集数千个细胞，但仍然知道哪个读数来自哪个细胞。
唯一分子标识符 (UMI)： 这是公寓号码。它用于区分同一细胞内的一个分子与另一个分子。

所以，一个读数上的完整“地址”让我们能够说：“这条读数来自样本 A，细胞 #1234，是肌动蛋白基因原始分子 #5678 的一个副本。” 样本索引和细胞条形码用于解复用——也就是分拣邮件——而 UMI 用于分子计数——也就是计算每个公寓发出的信件数量。

不可避免的缺陷 I：UMI 生日派对

这个系统是完美的吗？当然不是。大自然喜欢搞点统计学的花样。如果纯属巧合，同一细胞中的两个不同分子被标记上了完全相同的 UMI 怎么办？这被称为 UMI 碰撞。当这种情况发生时，我们的分析流程会看到两个不同的原始分子，却认为它们是同一个分子的副本，并错误地将它们合并为一个计数。这会导致对分子真实数量的低估。

碰撞的可能性是一个经典的“生日问题”。如果你把足够多的人放在一个房间里，很可能有两个人的生日是同一天。如果你用一个有限的 UMI 池来标记足够多的分子，很可能有两个分子会共享同一个 UMI。其概率取决于两件事：

我们正在标记的分子的数量 ( $N$ )。
UMI 池的大小，或称“UMI 空间” ( $M$ )。

对于一个长度为 $L$ 、使用四种 DNA 字母（A、C、G、T）的 UMI，UMI 空间为 $M = 4^L$ 。

让我们考虑两个真实的场景。在一个实验中，我们可能捕获了某个特定基因的 $N=600$ 个 mRNA 分子，并用一个 10 个碱基的 UMI 进行标记，这给了我们一个大小约为 100 万的 UMI 空间（ $M = 4^{10} \approx 1$ 百万）。在这里，分子的数量只是可用标签的极小一部分。发生碰撞的几率非常小，我们的 UMI 计数将非常准确地反映真实数量，约为 600。

但在另一个实验中，也许我们有更多的起始分子，比如说 $N=50,000$ 。即使使用相同的 100 万个标签的 UMI 空间，“生日派对”也变得拥挤得多。预期发生的碰撞次数不再可以忽略不计。在这种情况下，我们预计大约有 1190 对分子会发生碰撞，这意味着我们的最终计数大约是 48,810，这虽然是一个微小但显著的低估，真实数量是 50,000。这揭示了一个关键的设计原则：必须仔细选择 UMI 的长度，确保 UMI 空间对于你期望计数的分子数量来说足够庞大。

不可避免的缺陷 II：拼写错误、谣言和群体智慧

还有另一个相反的误差来源。如果复印机或测序仪在 UMI 序列本身上制造了一个“拼写错误”怎么办？仅仅一个碱基的错误就会创造出一个新的、虚假的 UMI，这个 UMI 从未在原始分子上存在过。如果我们天真地计算我们看到的每一个独特的 UMI，我们就会开始计算这些假冒品，从而导致对分子真实数量的高估。

再次，基于 UMI 的计数设计中包含了一个惊人优雅的解决方案：一致性纠错。因为 PCR 为每个原始分子创造了一个庞大的读数家族，我们有很多机会看到“真实”的 UMI。想象一下，单条读数的单碱基错误率为 $e = 0.01$ 。现在，想象我们的 UMI 家族平均只有六个成员（ $m=6$ ）。要让最终的判定出错，同一个拼写错误需要在家族的大多数成员中（至少六个中的四个）独立发生。这种情况发生的概率非常之小，约为 $10^{-7}$ 。错误率被削减了一百万倍！我们正在利用读数的“群体智慧”来过滤掉测序错误的随机噪声。

一个更微妙的问题是“头彩”PCR 错误，即在第一个复制循环中就引入了一个拼写错误。这个错误随后会被忠实地传播到大约一半的家族成员中。简单的多数投票可能会失败。对此的防御是纯粹的统计严谨性：我们要求一个真实的生物信号，比如癌症突变，必须存在于几个独立的 UMI 家族中。一个“头彩”错误仅限于一个家族，但一个真实的突变会出现在多个原始分子中，因此也出现在多个 UMI 家族中。

会计的最终账目：从原始计数到真实丰度

所以，UMI 计数的过程是生物学和信息论之间的一场优美的舞蹈。我们有一个旨在校正巨大 PCR 偏倚的系统，但它也受到自身缺陷的影响：碰撞导致的计数不足和错误导致的计数过多。

完整的计算流程是一部数字会计的杰作。对于每个细胞，以及细胞内的每个基因，软件会收集所有的读数。然后它对 UMI 进行分组，不仅是计数，还会通过合并“子”UMI（丰度低，可能是错误）到“父”UMI（丰度高，可能是真的）来进行纠错，条件是它们之间只有一个拼写错误（汉明距离为 1）的差别。

但最美妙的部分是最后一步。我们知道碰撞会导致可预测的计数不足。因为我们理解“生日问题”的数学原理，我们实际上可以反向推算。根据我们观察到的独特 UMI 数量（ $u$ ）和已知的 UMI 空间大小（ $M$ ），我们可以计算出我们起始时必须有多少分子才能得到那个结果的校正估计值 $\hat{N}$ 。这个从第一性原理推导出的公式是：

\hat{N} = \frac{\ln\left(1 - \frac{u}{M}\right)}{\ln\left(1 - \frac{1}{M}\right)}

这个方程代表了这段旅程的顶峰。它承认我们的工具并非完美，但它也胜利地宣告，通过用数学的精确性来理解这些不完美，我们可以洞穿它们，从而更清晰地看到生物学的现实。我们从一把有缺陷的尺子开始，最终得到了一种能以惊人准确度测量细胞内部宇宙的方法。

应用与跨学科联系

我们花了一些时间来理解唯一分子标识符的原理。这是一个令人愉快的简单技巧，几乎像一种魔术。通过在复制之前为每个分子附上一个随机、独特的标签，我们可以忽略 PCR 扩增那混乱且充满偏倚的喧嚣，转而进行一次冷静、有序的普查。我们计算独特的标签，这样做，我们就在计算原始的分子。这是一个从模糊、失真的照片到清晰、数字计数的转变。

但一个基本原理的真正美妙之处不仅在于其优雅，还在于其力量。这种力量将我们带向何方？这把简单的钥匙解锁了哪些新世界？事实证明，准确计数分子的能力为全新的研究领域打开了大门，连接了生物学中看似不相关的领域，从单个细胞的内部运作到整个生态系统的宏大尺度。让我们来游览一下这些新领域。

细胞宇宙：一次一分子地解构组织

或许 UMI 计数最深远的影响是在对细胞世界的探索中。一个组织，如肝脏或大脑，并非一个均质的团块；它是一个由个体细胞组成的繁华社会。它是一座由专家组成的城市——神经元、胶质细胞、免疫细胞等等——它们共同生活、交流并履行职责。要理解这座城市，将所有东西平均化的批量分析，就像试图通过将纽约的所有建筑和居民磨成均匀的灰色糊状物来理解它一样。要真正理解这座城市，你必须一个一个地调查它的市民。

这正是单细胞 RNA 测序（scRNA-seq）的目标。通过分离单个细胞并测序其信使 RNA，我们可以读出每个细胞的基因表达谱——即活跃基因的列表。但在这里我们遇到了扩增问题。单个细胞中微量的 RNA 必须被极大地扩增，而正如我们所知，这个过程是极不均匀的。没有 UMI，我们无法知道一个基因看起来丰度很高，是因为它真的高表达，还是仅仅因为它在 PCR 过程中是“嗓门大的喊叫者”。

UMI 完美地解决了这个问题。在现代基于液滴的 scRNA-seq 中，单个细胞被封装在一个微小的液滴中，液滴内有一个携带引物的微珠。这些引物有两个关键组成部分：一个“细胞条形码”，用于识别分子来自哪个液滴（也就是哪个细胞）；以及一个 UMI，用于识别分子本身。测序后，我们可以首先按细胞对所有数据进行排序，然后在每个细胞内，计算每个基因的独特 UMI 数量。结果是一个宏伟的数据矩阵：一个电子表格，其中行是基因，列是单个细胞，条目是经过 PCR 偏倚校正后的实际分子计数。我们得到了我们的普查数据。

这种定量的能力立即给我们带来了选择，并揭示了微妙的权衡。一些方法，如高通量的液滴技术，允许我们在一次运行中调查数十万个细胞，为我们提供了整个细胞城市的壮丽广角视图。其代价是我们可能无法捕获每个细胞中的每一个分子，导致每个细胞的灵敏度稍低。其他方法，如那些基于在孔板中物理分离细胞的方法，可能处理的细胞较少，但可以极其灵敏，捕获每个细胞中存在的分子的更大一部分。这就像在一张人群的全景照片和几位个人的高清详细肖像之间做出选择。选择取决于问题：你是想发现一种罕见的的新细胞类型，还是想精确量化已知细胞类型中的表达水平？

这突显了灵敏度——检测一个基因是否存在的根本能力——与定量准确性之间的优美区别。检测到一个基因的概率关键取决于首先捕获其 RNA 分子的效率。捕获率更高的方法自然对表达水平非常低的基因更为敏感。UMI 并不改变这个初始捕获步骤。它们的魔力在于之后：为任何被捕获的东西提供一个准确的计数。

有了这份准确的普查数据，我们可以执行计算上的奇迹。想象一下，研究一群处于不同生命周期阶段的寄生虫。批量测量会给你一个毫无意义的平均值。但通过基于 UMI 的 scRNA-seq，我们得到了每个寄生虫个体的精确表达快照。然后我们可以用计算机对这些快照进行排序，根据它们表达谱的相似性将细胞排列在一个连续的时间线上。这条“伪时间”轨迹使我们能够观察寄生虫的发育程序如何展开，识别出随着它成熟哪些基因开启和关闭，所有这些都来自一个单一的、混合的样本。我们不需要强迫寄生虫排成同步的合唱队；我们只需观察舞池中所有舞者的位置，就能推断出他们的舞步。同样的逻辑被用来绘制干细胞的分化图谱、疾病的进展过程或细胞对药物的反应。它甚至被用于先进的 CRISPR 筛选中，以可靠地将特定的遗传扰动与其完整的转录组后果联系起来，因为 UMI 计数精确地告诉我们哪个细胞中存在哪个向导 RNA。

身体的防御：编目免疫组库

现在让我们转向我们体内的另一个复杂系统：免疫系统。其惊人的力量来自于其多样性。你的身体维持着一支由 T 细胞和 B 细胞组成的私人军队，每个细胞都有一个独特的受体，能够识别特定的外来入侵者。这些受体的总集合——免疫组库——是巨大的。当你被感染或接种疫苗时，那些受体能识别威胁的细胞被命令增殖，形成一支克隆军队来对抗它。

为了研究这个过程，我们需要能够数清士兵的数量。每种特定克隆型的细胞有多少？这对 UMI 来说是完美的工作。通过测序编码 T 细胞或 B 细胞受体的信使 RNA，我们可以识别每个独特的受体序列。但要知道克隆军队的规模，我们必须计算有多少原始分子（也就是细胞）产生了每种序列。UMI 计数使我们能够做到这一点，为我们提供了免疫组库及其如何随时间变化的精确、定量的图像。

但在这个领域，UMI 揭示了第二个同样奇妙的超能力：纠错。PCR 和测序都是容易出错的过程。一个碱基可能被错误地复制或读取。如果我们试图区分两个仅相差一个核苷酸的 T 细胞受体，这样的错误可能是灾难性的，会造成多样性的假象。

技巧在于：所有源自同一个经 UMI 标记的分子的读数都应该是相同的。它们是姐妹，出生于同一个模板。如果我们看到在共享一个 UMI 的 100 个读数中，99 个在某个位置是‘A’，而一个是‘G’，那么几乎可以肯定那个‘G’是一个测序错误。通过对一个 UMI 家族中所有读数的每个位置进行“多数投票”，我们可以构建一个近乎完美的共识序列，有效地“洗掉”机器的噪声。实际上，逻辑可以更微妙。复杂的算法可以查看两个本身非常相似的 UMI 家族（比如相差一个碱基），并同时查看它们的计数。如果一个家族有 1000 个成员，而另一个只有 2 个，那么很可能第二个家族不是一个真正的、稀有的分子，而仅仅是由于第一个家族的 UMI 发生测序错误而产生的。通过设置一个计数比例阈值，我们可以通过计算将这些错误合并回它们的父代，进一步清洗数据，使我们对真实组库的看法更加清晰。

DNA 蓝图及其调控：双条形码的故事

到目前为止，我们一直在计数 RNA 以了解哪些基因是活跃的。但什么控制着这种活动呢？DNA 本身包含调控序列——启动子和增强子——它们充当基因的调光开关。随着人类基因组数据的大量涌现，我们有了数百万个遗传变异的列表，但一个关键问题仍然存在：哪些真正起作用？哪些变异改变了这些调光开关并导致疾病？

为了回答这个问题，科学家们开发了大规模并行报告基因检测（MPRA）。在这里，我们发现了一种特别优美的分子条形码应用，一种“复式记账法”。在典型的 MPRA 中，会创建一个包含数千种不同调控 DNA 序列（每种都有一个特定的变异）的文库。目标是测量每一种驱动转录的效率。

挑战是双重的。首先，我们在 RNA 侧有通常的 PCR 偏倚。其次，当我们将这个 DNA 文库引入细胞时，一些序列会比其他序列更有效地进入，所以我们开始时每种 DNA 模板的数量就不同。一个序列可能产生更多的 RNA 仅仅是因为它一开始就更多。

解决方案非常优雅。每段调控 DNA 都用两种条形码合成。第一种是一个静态的、预先确定的“插入片段水平条形码”，它唯一地标识了调控序列本身——这是“谁”的问题。然后，当这段 DNA 在细胞中转录成 RNA 时，在逆转录过程中像往常一样添加一个 UMI——这是“有多少”的问题。通过对起始的 DNA 文库和产生的 RNA 进行测序，我们可以使用插入片段水平条形码来计算每种调控 DNA 模板的丰度。然后我们使用 RNA 的 UMI 计数来获得一个准确的、经过 PCR 校正的转录本计数。调控活性的最终度量就是这个比率：RNA 分子数/DNA 分子数。这种双条形码策略完美地将被测元件的身份与其产出的数量解耦，同时校正了生物学（DNA 递送）和技术（PCR）两方面的偏倚。

超越有机体：计数野外的分子

计数分子的力量并不止于有机体的边界。它延伸到世界之外。生态学家发现，我们可以通过测序它们在环境中留下的 DNA 痕迹来了解一个生态系统——一个湖泊、一片森林、一片海洋——的居民。这就是环境 DNA（eDNA）领域。通过从池塘中舀取一升水，我们可以发现那里是否生活着一种稀有的蝾螈或特定种类的鱼，而无需看到或捕捉到它。

eDNA 最初的前景是定性的：该物种是否存在，是或否？但对于监测生物多样性、追踪入侵物种或管理渔业，我们需要知道更多。我们需要知道有多少。是昨天游过的一条鱼，还是一个拥有数千个体的繁荣种群？这是一个数量问题，它把我们带回了核心问题。原始的测序读数数量是生物量的一个很差的代表，因为它被 PCR 偏倚严重混淆了。

通过将 UMI 引入 eDNA 协议，我们可以更接近于真正的分子普查。我们计算特定物种的独特 UMI 标记的 DNA 片段数量，这为我们提供了其在样本中生物量的一个更好（尽管仍不完美）的相关指标。为了增加另一层严谨性，科学家们通常在最开始向样本中添加已知数量的“外参”——一种自然界中不存在的合成 DNA 分子。通过观察我们最终回收了多少来自这个已知外参的 UMI，我们可以估计我们整个工作流程（从 DNA 提取到测序）的总体效率，并用它来更好地校准我们对目标物种的估计。

当然，在处理来自环境的可能大量的分子时，我们必须注意 UMI 系统的局限性。如果我们试图用只有一百万个可能的 UMI 标签来标记两百万个分子，我们肯定会发生“碰撞”——两个不同的分子纯粹因为偶然得到相同的标签。这将导致我们计数不足。但即使这样也不是死胡同。通过理解这个随机标记过程的数学原理（一个经典的“球入箱”问题），我们可以估计碰撞的速率并向上校正我们的最终计数。起初的限制变成了计算中的另一部分而已。

从细胞的内部生命，到免疫系统的克隆军队，再到我们江河湖泊中的水，UMI 计数的简单原理赋予了我们一种新的视野。这是一种普查员的视野，能够穿行于隐藏的分子世界，并以新的精度不仅问“这里有什么？”而且问“有多少？”。而在科学中，计数的能力往往是迈向真正理解的第一步。