单细胞条形码技术

玻尔百科

核心要点

单细胞条形码技术为单个细胞分配独特的分子标识符，从而能够在复杂的生物系统内进行高通量分析和追踪。
通过使用可遗传的DNA条形码，科学家可以进行谱系追溯，以重建生物体中细胞完整的发育“家谱”。
该技术在免疫学中至关重要，它能将T细胞或B细胞克隆的身份与其功能联系起来，并能追踪CAR-T等治疗性细胞的命运。
伦理考量至关重要，因为来自人类单细胞条形码的详细数据可能被用于重新识别个体身份。

引言

在生物学中，一个器官或肿瘤就像一个由数百万个细胞组成的繁华都市，每个细胞都有自己的故事。几十年来，科学家只能从“卫星”视角研究这个都市，观察整个细胞群体的平均行为，却错过了单个“市民”的关键行动。这种“批量”方法掩盖了驱动发育、疾病和免疫反应的巨大细胞异质性。我们如何才能从模糊的平均视图转向每个细胞身份、历史和功能的高分辨率画像？答案在于一个极其简单的概念：给每个细胞一个独特的条形码。

本文旨在探索单细胞条形码技术这一正在改变现代生物学的革命性世界。它通过提供理解这一强大方法论的路线图，解决了剖析细胞复杂性这一根本性挑战。我们的旅程将从探索使这项技术成为可能的核心概念和技术创新开始。

首先，在原理与机制部分，我们将解析单细胞条形码的工具箱。我们将审视独特的分子标签——从简单的荧光染料到复杂的DNA序列以及基于CRISPR的基因组“疤痕”——是如何被设计和应用，以区分单个细胞及其分子。随后，应用与跨学科联系一章将展示该方法所促成的突破性发现。我们将看到条形码技术如何使科学家能够重建发育家谱、在疾病的战场上追踪免疫细胞，甚至推动计算建模采用更严谨的方法，同时我们也将探讨这一强大技术开启的伦理新前沿。

原理与机制

想象一下，你是一位图书馆员，任务不是整理成千上万本书，而是数以百万计的书。而且这些书非同寻常；它们是活的，它们的故事在不断变化。这就是生物学家在研究细胞世界时所面临的挑战。一个器官、一个肿瘤或一滴血都包含着数量惊人的单个细胞，每个细胞都是自己故事的主角。我们怎么可能读完它们所有的故事呢？

逐一研究它们是一项不可能完成的任务。而从超市收银台借鉴来的解决方案，既优雅又深刻：给每一件物品一个独特的条形码。

第一个障碍：区分信号与噪声

在我们考虑比较不同细胞之前，我们面临一个更基本的问题。在现代单细胞实验中，我们将细胞包裹在微小的液滴中。但这个过程并不完美。许多液滴最终是空的，只含有一些零散的分子碎片——科学家称之为来自破裂细胞的“环境”分子。我们如何区分一个含有活细胞的液滴和一个只装满“垃圾”的空液滴？

这有点像分拣邮件。一封朋友的来信充满了句子和段落，内容丰富。而垃圾邮件通常内容稀疏，只有零星几个词。我们可以应用同样的逻辑。一个含有真实细胞的液滴将充满数千种不同类型的RNA分子，反映了生命复杂的机器。我们可以计算分子的总数（使用我们稍后将讨论的技术）和它们来自的不同基因的数量。相比之下，一个空的液滴只会捡到几十个零散的分子。通过设定一个简单的阈值——例如，要求一个条形码至少与数百个基因和数千个RNA分子相关联——我们就可以在计算上过滤掉“空”液滴，只关注那些包含真实细胞的液滴。这个简单的质量控制步骤是所有后续分析的基础。

混合的力量：关于实验完整性的一课

一旦我们能够识别细胞，我们就可以开始提出有趣的问题。假设我们想知道一种新药如何影响免疫系统。我们可以取两组细胞——一组用药物处理，一组作为对照——然后分开分析它们。但这会引入一个微妙而危险的误差来源。每一个试管，每一支移液管，每一分钟的等待都略有不同。仅凭偶然，“对照组”细胞可能被染上与“处理组”细胞浓度略有不同的荧光染料。我们最终看到的任何差异都可能归因于我们的药物，也可能仅仅是这种不可避免的实验“波动”。

在这里，条形码技术提供了一个绝佳的解决方案。我们不是将样本分开处理，而是在做任何其他操作之前就标记它们。例如，一位免疫学家可能会取对照组细胞，用低浓度的“条形码”染料染色，使其发出微弱的荧光。而处理过的细胞则用高浓度的相同染料，使其发出明亮的荧光。现在，我们做一个看似亵渎神明的操作：我们将它们混合在同一个试管里！。

从这一刻起，每一个细胞，无论是处理过的还是对照的，都经历完全相同的条件。它们被相同的抗体混合物染色，用相同的溶液清洗，并通过同一台机器运行。我们消除了样本间的变异性。当收集数据时，分析计算机为每个细胞读取三样东西：它的“条形码”荧光（暗或亮，告诉我们是对照还是处理过的）和它的“数据”荧光（例如，不同类型T细胞的标志物）。通过首先根据条形码对数据进行排序，我们可以完美地重构两个原始群体，并进行公平、可靠的比较。这种多重分析（multiplexing）的原则——将多个样本合并为一个——是现代高通量生物学的基石，而这一切都因简单的标记行为而成为可能。

解析分子标签：细胞条形码与UMI

荧光染料法功能强大，但其扩展性不佳。你只能区分少数几个亮度级别。要分析数千个样本或数百万个单细胞，我们需要一个远为复杂的条形码。解决方案是使用生命本身的语言：DNA。

在现代的基于液滴的测序技术中，每个微小液滴不仅包含一个细胞，还包含一个微凝胶珠。这个凝胶珠是关键。它表面包覆着数百万个短DNA序列，这些序列就是我们的条形码。奇妙之处在于，单个凝胶珠上所有的DNA序列都是相同的，但它们与任何其他凝胶珠上的序列都不同。

当一个细胞与一个凝胶珠一起被捕获在液滴中时，细胞被裂解，其信使RNA (mRNA) 分子——蛋白质的工作蓝图——被释放出来。这些mRNA分子随后被转化为DNA拷贝 (cDNA)，在此过程中，凝胶珠上独特的DNA序列被附加到每一个拷贝上。这个序列就是细胞条形码 (CB)。它就像一个图书证号：由一个人（一个细胞）借出的每一本书（mRNA分子）都会盖上这个人的独特证号。此后，我们可以将所有液滴混合在一起，共同对DNA进行测序。之后，计算机只需按共享的细胞条形码对所有序列进行分组，这有点像按图书证号对一大堆书进行分类。

这立刻解决了一个免疫学上的巨大难题。一个用于识别入侵者的T细胞或B细胞受体是由两条不同的蛋白质链组成的。要了解这个受体，你需要知道哪条“α链”与哪条“β链”配对。但如果你只是将一百万个细胞碾碎并对所有链进行测序，你得到的是一锅混杂的α链和β链，无法知道谁与谁是搭档。有了单细胞条形码技术，问题就简单了。如果一条T细胞受体α链和一条T细胞受体β链都带有相同的细胞条形码，那么它们必定来自同一个细胞，因此，它们是一对！

但这里还有另一层巧思。凝胶珠上的条形码序列还有第二个组成部分：独特分子标识符 (UMI)。虽然细胞条形码对于来自单个细胞的每个分子都是相同的，但UMI是一个短的随机序列，对于被捕获的每一个mRNA分子来说都是不同的。

为什么需要这个呢？测序过程涉及大量的扩增（就像分子复印机），以获得足够多的材料来读取。如果我们只计算最终的DNA序列数量，我们就无法知道我们是始于10个原始mRNA分子，还是仅有1个分子被复制了10次。UMI解决了这个问题。单个原始分子的所有拷贝都将具有相同的细胞条形码和相同的UMI。因此，计算机可以“折叠”所有这些重复序列，每个UMI只计数一次。这给了我们一个细胞中原始分子数量的真实、无偏的计数。

回到我们的图书馆比喻：细胞条形码是图书证号。UMI是印在每本实体书上的唯一序列号。如果你借出两本《白鲸记》，它们都会与你的图书证相关联（相同的CB），但它们将有不同的序列号（不同的UMI）。UMI让图书管理员知道你有两本实体书，而不是一本你复印的书。

化学家的工具箱：条形码策略与权衡

单细胞条形码的世界并非一刀切。科学家们已经开发出了一套多样化的工具，每种方法都有其优缺点，需要根据实验目标进行仔细考量。条形码的选择是一门艺术，是在你想要测量的东西和化学允许的范围之间所做的妥协。

一个主要的区别在于活细胞条形码和固定细胞条形码。一个突出的例子来自质谱流式细胞技术 (CyTOF)，该技术使用重金属同位素作为标签，而不是荧光染料。

一种方法是使用附有金属同位素的抗体来为活细胞添加条形码。你可能会使用一种能粘附在所有细胞表面蛋白质上的抗体。通过使用少数几种此类抗体的不同组合，你可以创建许多独特的条形码签名。最大的优点是你处理的是活的、快乐的细胞。这意味着你可以，例如，使用像顺铂这样的染料来区分活细胞和死细胞——这是一个关键的质量控制步骤，只对膜完整的细胞有效。然而，这种方法有其缺点。非共价结合的抗体条形码，在用于观察细胞内部蛋白质所需的严苛化学处理过程中可能会被剥离。此外，条形码抗体本身占据了细胞表面的一个位置，这可能会物理性地阻碍你想要用于实际实验的其他抗体。

另一种选择是固定细胞化学条形码。在这里，你首先用甲醛等化学物质“固定”细胞，甲醛会交联所有蛋白质，基本上将细胞冻结在某个时刻。然后，你使用一种活性化学标签——例如，携带钯同位素的标签——它会与细胞内的蛋白质形成牢固的共价键。因为标签现在是永久附着的，所以这种条形码非常坚固，即使在用于胞内染色（如观察称为磷酸化蛋白的信号分子）所需的最严苛的通透处理中也能存活下来。钯同位素也使用了与数据采集中常用的镧系金属不同的质谱区域，因此它们不会“占用”宝贵的检测通道。但这种方法也有其妥协之处。你无法在条形码标记后进行活/死细胞染色，因为细胞已经被固定了。而且固定过程本身可能会微妙地改变某些蛋白质的形状，有可能破坏你数据采集抗体需要识别的表位。

没有哪种方法本质上“更好”。选择完全取决于生物学问题。如果保持表面表位的天然状态和评估细胞活力至关重要，则首选活细胞条形码。如果实验需要严苛的内部染色和最高的条形码稳定性，那么共价固定细胞条形码就是不二之选。

群体的规则：条形码碰撞

基于DNA的条形码技术的力量似乎近乎无限。一个仅有16个碱基的条形码序列，就有 $4^{16}$ （超过40亿）种可能的组合。但在实践中，可用的条形码数量要小得多，通常少于一百万。这引入了一个基本的统计学限制，一个分子版本的著名“生日问题”。

生日问题指出，在一个仅有23人的房间里，两个人同一天生日的概率大于50%。同样，如果你将太多的细胞加载到一个具有有限数量条形码的系统中，两个不同的细胞纯粹由于偶然被分配到完全相同的细胞条形码的可能性就越来越大。

这个事件，被称为条形码碰撞，对数据解释是灾难性的。如果一个T细胞和一个B细胞意外地获得了相同的条形码，分析软件将合并它们的数据，创造一个奇异的、嵌合的“细胞”，它既表达T细胞受体又表达B细胞受体。这在生物学上是不可能的，是技术产生的人为假象。为避免这种情况，研究人员必须仔细计算他们可以安全分析的最大细胞数量（考虑到他们的条形码库的大小），通常要确保碰撞概率保持在1%以下。这一点，连同其他设计约束，如确保条形码足够不同以便在存在测序错误时也能被区分，表明成功的单细胞科学是生物学、化学和严谨定量思维的结合。

活条形码：在基因组中记录历史

到目前为止，我们讨论的条形码都是静态标签，在某个特定时刻被印在细胞或其内容物上。它们提供了细胞状态的壮丽快照。但如果我们可以记录一部电影而不是拍一张照片呢？如果条形码本身可以随时间变化，从而记录下细胞的历史呢？

这就是使用基于CRISPR的记录器进行谱系追溯的惊人前沿。利用CRISPR基因编辑机制，科学家可以向细胞中引入一个特殊的DNA序列，作为“草稿纸”。然后，在生物体的整个发育过程中，这张草稿纸在每次细胞分裂时被渐进地、随机地“编辑”或“留下疤痕”。这些疤痕是可遗传的；它们从母细胞传递给子细胞。

子细胞继承其母亲的所有疤痕，然后获得一个新的自己的疤痕。它的姐妹细胞也将继承母亲的疤痕，但会获得一个不同的新疤痕。到实验结束时，每个细胞的基因组中都有一个独特的、累积的疤痕模式。通过读取这个“活条形码”，科学家可以重建整个发育家谱，追溯数千个细胞精确的亲子关系，穿越时间回到过去。

这使我们能够回答生物学中一些最深层的问题。一个受精卵是如何产生身体所有组织的？哪些干细胞负责再生受损的器官？通过谱系追溯，我们不再仅仅是绘制细胞的最终命运（它变成了什么）或测量其当前状态（它在做什么）。我们正在揭示它的谱系——它的历史。这是终极的条形码，一个不仅能告诉我们细胞是谁，还能讲述它如何形成的整个故事的条形码。

应用与跨学科联系

在上一章中，我们拆解了单细胞条形码技术这部精妙的机器。我们看到，当微小而独特的序列标签附着于单个细胞内的分子上时，它们就像一个可遗传的指纹，让我们能够以惊人的精度追踪该细胞的谱系并测量其特性。这有点像学习一种新型相机的工作原理——理解镜头、快门、传感器。现在，激动人心的部分来了：我们把这台相机带到现实世界中，看看它能让我们发现什么。它开启了哪些新视野？它解决了哪些旧悖论？

你看，一个科学工具的真正价值不在于其自身的巧妙，而在于它赋予我们提出新问题并（幸运的话）解答它们的能力。从批量分析——将数百万个细胞平均化成一锅平淡无奇的汤——到单细胞分析的飞跃，其意义之深远，不亚于从看到一群人到认识其中的每一个人：他们的名字、他们的家族史，以及他们在那一刻正在做什么。本章将带领我们穿越被这一新视野所改变的领域，从胚胎发育的复杂舞蹈，到癌症治疗的前线，再到科学探究的伦理本身。

重建发育的隐藏路径

生物学最深的谜团之一是，一个受精卵，一个拥有单一遗传蓝图的单细胞，如何产生一系列截然不同的细胞类型——神经元、皮肤、肌肉、骨骼——所有这些都完美地在空间和时间上排列。几十年来，生物学家试图通过观察不同阶段细胞的快照，并根据它们的相似程度来连接这些点，从而绘制这些发育路径。这有点像找到一个不同年龄的人的照片集，然后尝试猜测他的人生故事。你可以按从婴儿到成人的顺序排列它们——我们称之为“伪时间”——但你无法确定实际的关系。这个孩子是那个成年人的父母吗？他们是走了一条直线路径，还是有出人意料的弯路？

单细胞条形码技术提供了我们所缺失的“家庭相册”。它给了我们事实根据。

想象一下，观察一个脑类器官——在培养皿中生长的微型大脑——从一团干细胞发育而来。在这团细胞中，我们看到祖细胞分化出诸如兴奋性神经元和星形胶质细胞等特化细胞。根据它们的基因表达谱，我们可能会推断出从祖细胞样状态到成熟神经元状态的平滑路径。但这就是全部故事吗？条形码技术揭示了一个更深刻的真相。通过在每个早期祖细胞中引入一个独特、可遗传的DNA条形码，我们可以追踪其完整的家谱。我们可能会发现，一个标有条形码 $b_1$ 的单个祖细胞，产生了一个包含*神经元和星形胶质细胞*的细胞克隆。这是一个惊人的发现，任何基于相似性的猜测都无法证明：这两种看起来如此不同、遵循不同路径的细胞类型，实际上是“兄弟姐妹”，诞生于一个共同的多能祖先。谱系，记录在DNA中的祖先真相，与细胞当前的转录状态有着根本的不同，且常常出人意料。

我们甚至可以在我们的家谱上加上一个时钟。像scGESTALT这样的技术利用CRISPR基因编辑机制创造一个演进的条形码，在连续的细胞分裂中积累“疤痕”。一个亲代细胞可能会获得一个疤痕，它的子代会继承它，然后再获得自己独特的疤痕。通过读取这些嵌套的模式，我们不仅可以重建克隆关系，还可以重建谱系树本身的分支结构，揭示从单个祖细胞到多样化后代家族的精确分裂序列。

拥有了这种能力，我们就可以从绘制树状图发展到创建定量的发育“命运图谱”。考虑早期胚胎，前肠中的一层细胞必须决定是成为肝脏、胰腺还是胆囊的一部分。通过早期对这些祖细胞进行条形码标记，并在稍后分析它们的后代，我们可以建立一个概率模型。我们可以问，对于一个处于特定转录状态 $i$ 的祖细胞，其后代最终成为特定成熟细胞类型 $j$ 的精确概率 $T_{ij}$ 是多少？。这类似于从简单的路线图升级到全面的交通分析，预测细胞在分化的高速公路和小路上的流动。我们甚至可以使用其他单细胞测量数据，如RNA速率（暗示细胞短期内的走向）和空间转录组学（告诉我们细胞在组织中的位置），来约束和验证我们的模型，建立一个日益完整和具有预测性的器官形成图景。

也许最令人兴奋的是，我们可以用条形码技术找到细胞生命中的“不归点”——即命运决定做出的那一刻。细胞的命运最终由其DNA的哪些部分是可及的来控制。通过将谱系条形码与单细胞ATAC-seq（测量染色质可及性）等技术相结合，我们可以窥探细胞的调控景观。例如，我们可以标记尾芽中的早期祖细胞，这些祖细胞已知是双能的——能够发育成神经管或中胚层。通过追踪条形码，看每个祖细胞最终变成了什么，我们可以在数据中回溯时间，并识别出在注定成为神经元的细胞中，在它们表现出任何明显成为神经元迹象之前发生的染色质可及性的细微、预测性变化。这就像倒带一部电影，去寻找那个预示角色命运的、第一个几乎难以察觉的线索。

免疫系统：一个动态战场

如果说发育是建造一座宏伟的建筑，那么免疫系统就是它的常备军，一支动态且不断适应的力量。这支军队由数万亿个士兵——淋巴细胞——组成，组织成数百万个不同的克隆家族。每个克隆由其独特的T细胞受体 (TCR) 或B细胞受体 (BCR) 定义，这既是它的武器，也是它的“军服”。免疫学的核心挑战是理解在这数百万个克隆中，哪些正在响应特定的威胁，无论是病毒、癌细胞，还是自身免疫疾病中身体自身的组织。

在这里，单细胞条形码技术提供了一个革命性的解决方案。创造TCR或BCR序列的天然V(D)J重组过程本身就是一个完美的条形码。通过读取这个条形码，同时获取细胞的完整转录组和其表面蛋白信息，我们可以将克隆的身份直接与其功能联系起来。例如，在肿瘤中，我们终于可以回答一些曾经无法回答的问题：哪些T细胞克隆已经浸润到肿瘤中？它们是在积极对抗癌症，还是已经变得“耗竭”并放弃了？同一克隆的细胞行为是否都一样，还是它们扮演着不同的角色？这为我们提供了一个前所未有的清晰战场视图，使我们能够识别出最有效的抗癌克隆，从而可以针对性地进行治疗性扩增。

条形码的想法如此强大，以至于我们甚至可以添加我们自己的合成条形码来追踪治疗性细胞。在嵌合抗原受体T细胞 (CAR-T) 疗法中，患者自身的T细胞被改造以识别并杀死癌细胞。对医生来说，一个关键问题是：将这些细胞输回患者体内后，它们能存活吗？它们是否会形成一个提供持久保护的长期记忆群体？通过在CAR-T产品中构建一个高多样性的合成DNA条形码库，我们可以在输注前为数百万个治疗性细胞进行独特标记。然后，通过在数月甚至数年内采集微量血样，我们可以追踪每个被条形码标记的单个细胞的后代。这需要精心的设计；条形码的多样性必须足够大，以确保两个不同细胞偶然获得相同条形码——即“碰撞”——的概率极小。长度为 $L=20$ 个核苷酸的条形码提供了 $4^{20}$ （超过一万亿）种可能性，这使得以近乎完美的保真度追踪数万个克隆成为可能。这种强大的方法正在改变我们设计和评估下一代活体药物的方式。

磨砺我们的工具与思维

除了开辟新的探究领域，单细胞条形码技术也迫使我们更严谨地思考，并改进我们现有的工具。正如我们所见，分析单细胞数据最流行的工具之一是轨迹推断，它试图绘制发育路径。但有时，这些算法可能会被误导。

想象一下两个不同的祖细胞群体，比如来自第一和第二心动场的细胞，它们独立发育但汇合到同一种最终细胞类型：心肌细胞。一个轨迹推断算法，仅看到基因表达数据，可能会在汇合点附近连接这两条路径，并将整个过程误解为单个祖细胞群体分叉成两种不同命运。这是一个根本性的错误，相当于将两条流入湖中的河流误认为是一条分叉成两条的河流。我们如何区分这两种情况？谱系追溯是最终的仲裁者。通过用不同的条形码标记这两个祖细胞池，我们可以核对事实真相。如果流入最终状态的两股“溪流”由不同标记的克隆组成，那么这就是汇合。如果发现单个克隆分裂并贡献于两个最终群体，那么这就是真正的分叉。这表明，条形码技术提供了一个至关重要的、独立的物理现实检验，使我们的计算模型保持诚实，并将我们的理解从简单的相关性推向因果真理。

这种探究因果关系的能力也许是条形码技术最强大的方面。当与扰动实验相结合时，它表现得尤为出色。涡虫是再生大师，能够从一个小碎片中重新长出整个身体，这一壮举由一群称为新生细胞的干细胞驱动。一个关键问题是，是否存在一个能够重建一切的“全能”新生细胞，以及它的命运选择是内部编程的还是由外部信号（如定义涡虫头部和尾部的化学梯度）指导的。

为了检验这一点，我们可以设计一个完美的实验。我们用独特的条形码标记单个新生细胞，然后切开涡虫，并在一组碎片中，使用遗传技巧来破坏正常的头尾极性梯度。如果一个由单个条形码标记的克隆确实是全能的且受外部指导，那么它的后代不仅应该形成多种不同的组织（肌肉、皮肤、肠道），而且它们的空间排列也应该随着被扰动的梯度而改变。在一个正常碎片中本应形成头部的克隆，现在可能会形成尾部。条形码技术为我们提供了在单细胞水平上观察这种命运转换所需的克隆分辨率，从而为干细胞如何“倾听”其环境提供了明确的证据。

力量与责任

在整个旅程中，我们见证了单细胞条形码技术的惊人力量。它让我们能够观察生命的构建过程，绘制我们免疫系统的复杂策略，并加深我们对生物学因果关系的理解。它为我们打开了一扇窗，让我们得以窥见产生生物体独特性的机制。

然而，这也带来了一份深远的责任。当我们将这些技术应用于人体组织时，我们生成的数据——结合了个人的遗传变异、其独特的免疫库和细胞状态——形成了一个前所未有详细的指纹。这些信息如此丰富，以至于即使删除了姓名和地址等所有直接标识符，通过合理的努力，也可以用来重新识别其来源的个人。

这意味着我们不仅在科学上，而且在伦理上跨越了一个新的前沿。旧的“去身份化”数据模型已不再足够。作为科学家，我们的责任超越了发现。我们必须尊重那些捐献组织的个人，确保他们的知情同意真正了解这些新风险。我们必须践行行善原则，通过使用像受控访问的数据库这样的新模型，平衡共享这些数据所带来的巨大科学效用与伤害风险，在这些数据库中，数据仅在严格协议下为特定目的共享。这项揭示了我们之所以为我们的许多奥秘的技术，要求科学界展现出新的智慧和管理职责。

单细胞条形码技术的故事完美地诠释了科学的本质。这是一个关于一个巧妙想法的故事，这个想法一经释放，不仅解决了旧问题，还开创了新领域，建立了学科之间的新联系，并最终迫使我们面对关于我们自身以及我们在世界中所处位置的更深层次的问题。这是一段刚刚开始的发现之旅。