单细胞RNA测序（scRNA-seq）：原理与应用

玻尔百科

定义

单细胞RNA测序（scRNA-seq）：原理与应用是指通过测量单个细胞内的全套RNA分子以揭示细胞异质性的基因组学技术。该方法利用唯一分子标识符（UMIs）实现精确的数字基因计数，并依靠基于图形的算法对细胞进行聚类，从而识别不同的细胞类型与状态。在医学和生物学领域，该技术可用于通过“伪时间”分析重建发育过程，并深入剖析癌症及自身免疫等复杂疾病的细胞组成，为个性化治疗奠定基础。

核心要点

scRNA-seq通过测量单个细胞中完整的RNA分子集合（转录组），揭示了巨大的细胞异质性，从而克服了批量分析的局限性。
唯一分子标识符（UMIs）等技术创新提供了精确的数字化基因计数，而基于图的算法能有效聚类细胞，以识别不同的细胞类型和状态。
该方法通过将细胞按“拟时”排序并利用RNA速率推断未来状态，使得重建发育过程成为可能。
在医学领域，scRNA-seq剖析了癌症、遗传病和自身免疫性疾病等疾病的细胞复杂性，为个性化治疗铺平了道路。

引言

几十年来，我们对生物组织的看法就像从远处聆听管弦乐队，只能听到一个混合的声音。我们可以分析组织样本的平均分子特性，但每个细胞的独特贡献——小提琴的旋律、大提琴的和声——都淹没在噪音之中。生物学中这个长期存在的挑战在于，我们无法在其复杂的原生环境中描绘单个细胞的分子状态，这掩盖了生命真正的多样性与动态。本文旨在揭开单细胞RNA测序（scRNA-seq）的神秘面紗，这项革命性技术终于让我们能够听到细胞交响乐中的每一种乐器。首先，我们将深入探讨驱动scRNA-seq的原理与机制，探索它如何以驚人的精度捕捉细胞的遗传程序。随后，我们将穿越其变革性的应用与跨学科联系，发现这种新的观察方式如何重塑我们对发育、疾病以及细胞本身定义的理解。

原理与机制

液滴中的交响乐

几个世纪以来，生物学家一直通过显微镜观察活体组织。他们看到了一个令人叹为觀止的细胞城市，充滿了 bustling 的活动。然而，在很长一段时间里，我们的视野就像从远山上眺望这座城市。我们可以看到整体的轮廓——不同组织的区域——但单个的市民，即细胞本身，仍然模糊不清。当我们试图研究它们的分子构成时，我们被迫采取一种相当粗糙的方法：将一块组织研磨碎，然后测量其中所有细胞的平均属性。这就像听整个管弦乐队的演奏，却只听到一个混合的音符。你听不到小提琴的旋律，大提琴的和声，也听不到鼓的节奏。你失去了音乐。

自Santiago Ramón y Cajal等先驱时代以来，人们一直珍视这样一个梦想：分离出每一种乐器，聆听每一个细胞演奏的部分。我们能否为这座细胞城市进行一次“人口普查”？不仅仅是计数，还要询问每一个细胞它在做什么——它在积极使用哪些基因来执行其工作。这正是单细胞RNA测序（scRNA-seq）旨在回答的根本问题。它首次为我们提供了工具，可以基于细胞完整的基因表达交响乐，而非其形状或少数预选标记物，来进行大规模、无偏见的细胞类型分类，揭示了远比我们想象中更丰富的细胞多样性。让我们揭开帷幕，了解这项卓越技术是如何运作的。

从细胞到文库：解读细胞思想的秘诀

scRNA-seq的核心是从单个细胞中捕获其转录组——即信使RNA（mRNA）分子的完整集合。根据分子生物学的中心法则，DNA是主蓝图，而RNA分子是发送给细胞机器用于构建蛋白质的工作副本。在任何给定时刻，这些RNA信息的集合都是细胞身份和活动的一个快照。这里的挑战是双重的：首先，我们必须从组织中分离出单个细胞；其次，单个细胞中的RNA数量极其微小。为了读取它，我们必须进行大量复制。

这个被称为聚合酶链式反应（PCR）的复制过程引入了一个关键问题。它就像一台有点不可靠的复印机；它可能会将一页复制10次，而另一页复制1000次，完全是随机的。如果你只是简单地计算最终的副本数量，你根本不知道你最初有多少原始页面。这种扩增偏差是获得真正定量测量的一个主要障碍。

解决方案是一项惊人优雅的发明：唯一分子标识符（UMI）。在进行任何复制之前，一个短的、随机的DNA序列——一个独特的条形码或“姓名标签”——被附加到每个单独的RNA分子上。现在，当我们扩增所有分子时，所有源自同一个原始分子的副本都将携带相同的UMI。在对数百万个这些复制片段进行测序后，我们不再仅仅计算一个基因的总读取数。相反，我们按UMI对读取进行分组，然后简单地计算我们看到了多少唯一的UMI。这个计数是原始RNA分子存在数量的直接、数字化度量，有效地消除了PCR扩增带来的失真。它将一个嘈杂的模拟信号转换成一个干净的数字计数。

有了这个强大的工具，我们可以提出一个更细微的问题：我们到底在测量什么？当一个细胞被分离出来时，我们可以捕获它的全部内容物。这是传统的单细胞RNA测序（scRNA-seq）。我们得到的RNA主要是来自细胞质的成熟、已加工的mRNA，准备翻译成蛋白质。但是，对于像成人大脑中巨大而脆弱的神经元这样的细胞呢？轻柔地分离它们的过程本身就可能带来压力甚至致命，它们长而脆弱的臂状结构（轴突和树突）可能会被剪断。一种替代方案是单核RNA测序（snRNA-seq），我们使用冷冻组织，仅分离细胞核。

这个选择带来了深远的影响。通过只获取细胞核，我们得到了一个新合成转录本的快照，包括仍含有内含子（非编码区）的未剪接的前体mRNA。我们失去了成熟的细胞质RNA和任何定位于细胞周边的RNA，但我们获得了对所有细胞类型更无偏见的视图（因为细胞核比完整细胞更坚固），并避免了因分离压力而引发的人为基因表达[@problemid:2752215]。这就像是读取细胞核中正在起草的电子邮件与发送到细胞质的最终版本之间的区别。两者都不能说更“正确”，但它们是细胞生命的不同画面，选择哪一种取决于所要回答的问题。

从数据到发现：理解数字的意义

生物化学步骤完成后，我们得到一个巨大的数字表格或矩阵。行是细胞（成千上万到数百万个），列是基因（人类约有20,000个）。这个矩阵中的每个条目告訴我們在特定细胞中发现了多少个特定基因的分子。这个高维数据集是一个宝藏，但人类无法直接审视它。我们如何找到其中的模式呢？

关键的洞见在于，相同类型的细胞应该有相似的基因表达模式。我们的任务是在这个20,000维的基因空间中找到看起来相似的细胞群。像k-means这样的简单聚类方法在这里常常失效，因为它通过寻找空间中球形群组的中心来工作。生物学的现实要复杂得多。一些细胞类型可能很稀有，形成小而密集的簇，而另一些则很丰富且分布更广。此外，细胞并非总是处于固定的“类型”中，而是可以存在于一个连续的谱系上，就像一个T细胞慢慢被激活。像k-means这样的方法会试图将这个连续的路径切割成任意的片段。

现代方法采用了一种更优雅的途径，其灵感来自社交网络分析。首先，我们构建一个k-最近邻（kNN）图。想象每个细胞都是一个人。我们为每个细胞找到 $k$ 个最相似的细胞（它们在基因表达空间中的“最亲密的朋友”），并在它们之间画一条连线。结果是一个巨大的网络，其中相似的细胞紧密地相互连接。细胞类型现在表现为这个图谱中不同、密集的社群或“小圈子”。然后，使用像Leiden或Louvain这样的算法，通过优化一个叫做模块性的属性来分割这个图谱。实质上，它们试图在社群周围划定边界，以最大化社群内部的连接密度，使其高于在一个随机网络中偶然预期的连接密度。这种基于图的方法非常强大，因为它不对簇的形状或大小做任何假设，并且可以自然地处理像连续轨迹这样的复杂结构。

当我们想比较来自不同实验、不同临床队列或不同患者的细胞时，會出现一個更复杂的问题。每个实验都可能有其自身的技术特性或批次效应，就像一种系统性的失真。想象一下一个数据集是用英语写的，另一个是用法语写的；一个简单的比较会按语言而不是生物学类型来区分细胞。如果我们简单地合并数据，我们可能看到的最大的差异是批次，而不是生物学。为了解决这个问题，我们需要对齐算法。一个强大的想法是寻找相互最近邻（MNN）——即来自每个批次的一对细胞，它们在对方批次中互为最亲密的朋友。这些MNN对充当锚点或“罗塞塔石碑”，让我们能够学习将一个数据集映射到另一个数据集所需的转换，将它们融合成一个单一、连贯的生物学图景，同时保留定义细胞状态的精细局部邻域结构。

超越细胞：重建组织背景

尽管标准scRNA-seq功能强大，但它有一个关键的局限性：解离步骤，即我们将固体组织變成单细胞悬液的过程，破坏了所有的空间信息。我们有一份完美的细胞类型清单，但我们丢失了它们在组织中居住位置的地图。我们知道有免疫细胞和癌细胞，但我们不知道它们是在肿瘤边界激烈交战，还是相距甚远。

这时，一系列相关技术就发挥作用了。空间转录组学（ST）的工作原理是将组织切片放置在一个涂有空间条形码捕获点的特殊载玻片上。每个点捕获的不是单个细胞，而是其正上方所有细胞的RNA。由于每个点的条形码都有一个已知的 $(x,y)$ 坐标，我们可以创建组织的基因表达图，牺牲单细胞分辨率以换取空间背景。

在其他情况下，感兴趣的特征可能是一个微小而复杂的结构，甚至比一个空间点还小。考虑肿瘤的侵袭前沿，那里有几缕癌细胞浸润到周围组织中。在这里，无论是scRNA-seq（丢失位置信息）还是ST（可能将这几縷細胞與其所有邻居混合）都不是理想的选择。在这种情况下，一种更古老但极其精确的技术——激光捕获显微切割（LCM）——就显得弥足珍贵。病理学家在显微镜下观察组织，并使用激光物理切割出感兴趣的精确细胞，然后可以对这些细胞进行分析。这些技术不是竞争对手，而是互补品，每种技术都在细胞分辨率、转录组深度和空间信息之间提供了不同的权衡。

通过结合这些方法，我们可以开始回答生物学中一些最深层次的问题。例如，一旦我们确定了肿瘤中的细胞类型并知道它们的位置，我们就可以开始竊听它们的对话。我们可以寻找一个表达信号分子（配体）的“发送者”细胞类型和一个表达相应受体的“接收者”细胞类型。一种流行的评分这种潜在相互作用的方法是使用发送者中平均配体表达与接收者中平均受体表达的乘积，这一原理受到化学中质量作用定律的启发。当然，我们必须小心。为了确保观察到的相互作用具有统计学意义而非随机巧合，我们必须使用严格的置换检验，即多次打乱细胞类型标签以创建一个零分布，然后观察我们的得分偶然出现的频率。

最后，我们来到了任何优秀科学的基石：对测量的信任。我们如何知道我们的数字是准确的？这就是对照品的作用。在许多scRNA-seq实验中，已知数量的来自外部RNA控制联盟（ERCC）的合成RNA被添加到每个细胞的反应中。这些“spike-ins”就像一把分子尺。因为我们确切地知道我们放入了多少，所以我们得到的量告诉我们实验的整体技术效率。如果批次1回收的spike-in分子是批次2的两倍，我们可以推断其捕获效率是批次2的两倍，并使用这个因子来校准我们的数据。此外，由于spike-ins是外部添加的，它们的回收不受细胞总RNA含量的影响。这意味着通过对spike-in分数进行归一化可以揭示细胞大小和总转录水平的真实生物学差异，而这种信号在其他归一化方案中常常丢失。

从给每个分子一个姓名标签，到构建细胞的社交网络，从校正实验批次到重建组织的空间地图，单细胞基因组学是一段充满惊人创造力的旅程。它让我们能够将生命物质解构为其基本单位，然后从头开始，重新构建我们对这些单位如何协同工作以创造生命宏伟复杂性的理解。

应用与跨学科联系

在窥探了让我们能够解读单个细胞遗传程序的复杂机制之后，我们可能感觉自己像一位刚拿到一种新型光谱仪的物理学家。旧方法给了我们遥远星系的混合光；而这个新工具让我们能夠分辨每颗恆星的光芒。那么，我们能用这种新获得的力量做什么呢？这场测量革命将把我们引向何方？

这段旅程与生物学本身一样广阔。单细胞RNA测序（scRNA-seq）不仅仅是一项技术；它是一种新的观察方式。它已成为一种通用显微镜，不是用来观察细胞的形状，而是用来聆听它的交响乐——其所有活性基因的總和。通过聆听这些细胞之歌，我们正在重写对健康、疾病和生命本身的理解。让我们来探索这项技术开辟的一些前沿领域。

绘制细胞图谱

几个世纪以来，生物学一直是一门分类科学。我们命名事物，将它们分组，并绘制家族树。但我们对细胞类型的看法通常很粗糙，就像一张只显示各大洲的世界地图。scRNA-seq提供的则相当于一张高分辨率的卫星图像，揭示了社区、街道乃至个别房屋的惊人多样性。

以大脑为例。它充满了被称为星形胶质细胞的细胞，长期以来被认为是支持更耀眼的神经元的简单、均一的“胶水”细胞。但是，一个生活在突触枢纽的密集繁华都市中的星形胶质细胞，与一个居住在白质束安静郊区的星形胶质细胞是相同的吗？通过使用scRNA-seq监听来自不同大脑区域的星形胶质细胞，我们发现情况并非如此。一个紧贴血管的星形胶质细胞可能会调高如Aquaporin-4 (AQP4)等水通道基因的音量，专门负责液体平衡。另一个包裹在繁忙突觸周圍的细胞，则可能优先表达用于清理过量神经递质和钾离子的基因，例如SLC1A2和KCNJ10。曾经被认为是单一细胞类型的存在，现在被揭示为一張由 specialised 亚型组成的丰富织锦，每一种都精妙地适应其局部微环境的功能需求。细胞的身份不是一个固定的标签，而是一个根据其工作动态调整的状态。

这种解构复杂组织的能力是普适的。想象一下过敏反应期间皮肤中免疫反应的混乱景象。组织中充满了令人眼花缭乱的各种免疫细胞。通过捕获这些细胞并测序它们的RNA，我们可以通过计算将它们分成不同的簇。一个簇可能具有辅助T细胞的特征，另一个是常驻肥大細胞的特征，还有一个是巨噬细胞的特征。更重要的是，通过比较过敏挑战前后的细胞普查结果，我们可以看到哪些群体擴增了，以及它们激活了哪些新的遗传程序。我们可能会发现，在基线水平几乎不存在的某个特定炎性肥大细胞亚群，数量激增，并开始疯狂转录白细胞介素和趋化因子等炎症介质的基因。通过这种方式，scRNA-seq使我们能够超越简单地列出存在的细胞，从而精确定位驱动生物过程的主要參與者。

观察生命展开：发育与干细胞

如果说定义细胞类型就像拍照，那么理解发育就像导演一部电影。一个受精卵是如何产生体内数万亿个特化细胞的？scRNA-seq让我们能够重建这部史诗般的影片。

通过从胚胎或分化中的干细胞培养物中收集细胞，我们捕获了处于不同发育阶段的细胞混合物。尽管我们是一次性收集所有细胞，但它们的转录组包含了关于它们过去和未来的信息。一个仍是多能干细胞的细胞会演奏着OCT4和SOX2的音乐。一个正在成为心肌细胞的细胞则会减弱这些基因的声音，并开始表达像NKX2-5这样的祖细胞标记物。一个完全定向的心肌细胞则将被TNNT2等成熟标记物所主导。

通过基于转录相似性将这些单细胞快照按逻辑顺序排列，我们可以通过计算重建整个分化轨迹——这个概念被称为“拟时”（pseudotime）。这就像拿到一副被打乱的电影胶片，然后能够将它们按正确顺序重新排列以观看电影的展开。

但我们能做的不仅仅是观看。如果我们能知道电影的方向呢？通过不仅观察最终的、剪接过的信使RNA分子，还观察它们刚刚转录的、未剪接的前体，我们可以推断出每个细胞的“RNA速率”（RNA velocity）。这告诉我们哪些基因目前正在被上调或下调，从而让我们一窥细胞的未来状态，并为我们重建的电影提供了方向性。此外，我们可以将其与其他技术结合。通过用独特的遗传“条形码”标记创始干细胞，我们可以进行谱系追踪来构建一个明确的家族树，确认哪些细胞类型是真正的“表亲”。在一个终极的力量展示中，我们可以使用CRISPR基因编辑来系统地开启或关闭基因，然后使用scRNA-seq来观察电影如何变化。这将我们从被动的观察者转变为主动的导演，让我们能夠构建并实验性地测试发育的因果模型。

疾病生物学：当交响乐出错时

那些让我们观察生命如何构建的工具，同样可以用来理解它在疾病中如何崩溃。许多疾病并非由单一故障部件引起，而是由多种细胞类型的复杂失调所致。

癌症就是一个典型例子。我们早就知道肿瘤并非均一的恶性细胞团块。它是一个复杂、演变中的生态系统。scRNA-seq让我们能夠对这个生态系统进行详细的普查，不僅揭示了癌细胞，還揭示了它們所拉攏的免疫细胞、血管细胞和成纤维细胞等腐败景观。在癌细胞群体内部，我们发现了惊人的“肿瘤内异质性”。一些细胞可能在快速增殖，而另一些则采取缓慢循环、耐药的状态。利用RNA速率等工具，我们甚至可以观察细胞在这些状态之间的转变，或许能揭示导致治疗失败和转移的确切通路。

复杂遗传病在单细胞的镜头下也变得更加清晰。以Klinefelter综合征为例，这是一种男性多一条X染色体（47,XXY）的病症，常导致不育。睾丸中的潜在病理很复杂，伴有产生精子的生殖细胞丢失。但根本原因是什么？问题是生殖细胞本身固有的，还是由于支持性体细胞（如Sertoli细胞）的功能失常？对整个组织的批量分析无法解开这个谜团，因为变化的细胞组成混淆了结果。但有了scRNA-seq，我们可以用外科手术般的精度来提出这个问题。我们可以分别分析来自47,XXY和健康46,XY个体的生殖细胞和Sertoli细胞的转录组。这使我们能够测试额外的X染色体基因剂量是否在每种细胞类型内引起特定的干扰，并将这些分子变化直接与观察到的精子发育失败联系起来。

自身免疫提供了另一个 прекрасный 例证。当免疫系统错误地攻击身体自身组织时，是因为少数“叛徒”T细胞或B细胞克隆错误地识别了自身蛋白（分子模拟），还是广泛的“友军误伤”，即许多无辜细胞被炎症环境激活（旁观者激活）？通过将scRNA-seq与每个细胞独特抗原受体（TCR或BCR）的测序相结合，我们可以解开这个谜题。如果在组织中发现活化的细胞都共享相同的受体并经历了大規模的克隆擴張，这就指向一个特定的、抗原驱动的过程，如分子模拟。反之，如果活化的细胞拥有各种不同的受体且没有克隆关系，这表明是一個更 indiscriminate 的、旁观者驱动的过程。这种水平的洞察力對於设计能夠精確地重新教育免疫系统的疗法至关重要。

塑造未来：从理解到干预

也许最激动人心的前沿是scRNA-seq从基礎發現的工具轉變為治療創新的引擎。

个性化癌症疫苗领域就是一个令人惊叹的例子。其理念是识别患者肿瘤独有的突变蛋白（新抗原），并用它们来训练患者的免疫系统攻击癌症。第一步是对肿瘤的DNA进行测序以找到突变。批量RNA测序可以告诉我们突变的基因是否正在转录。但批量方法在这里就显得不足了。scRNA-seq提供了两个可能决定成败的关键信息。首先，新抗原是在所有癌细胞中均匀表达，还是只在一小部分中表达？针对仅存在于10%细胞中的抗原是一种失败的策略。其次，也是更关键的是，表达新抗原的癌细胞是否也拥有必要的机制（HLA分子）来真正地将其呈递在细胞表面供T细胞识别？肿瘤细胞可以通过关闭这种呈递机制来巧妙地逃避免疫系统。scRNA-seq可以逐个细胞地同时检查新抗原的表达和抗原呈递通路的完整性，让我们能够只选择那些代表真正、可靶向脆弱点的新抗原。

除了个性化医疗，scRNA-seq正在革新功能基因组学和药物发现。为了开发例如脊髓损伤的疗法，我们需要了解控制神经元分化和再生的基因调控网络。我们如何找到这个网络中的关键“杠杆”？答案在于将CRISPR基因编辑与单细胞读出相结合。在一个“Perturb-seq”或“CROP-seq”实验中，我们可以创建一个巨大的细胞库，其中每个细胞中都有一个不同的基因被系统地扰动（敲除、抑制或激活）。然后，我们将所有这些细胞通过一个分化方案，并使用scRNA-seq来读出被扰动基因的身份以及该扰动对细胞命运的全部转录后果。这使我们能够在一个大规模实验中测试数千个基因如何影响一个复杂的生物过程，为设计未来的再生疗法提供一张丰富的因果图谱。

宏大整合：生命的系统观

尽管scRNA-seq功能强大，但它只读取了细胞现实的一个维度：其转录组。最终的梦想是构建一个生物系统的完整、多层次的视图。今天，我们正开始通过将scRNA-seq与一系列其他单细胞和空间技术相结合来实现这个梦想。

想象一下，我们想了解压力期间神经系统与免疫系统之间复杂的对话。我们可以采用一种多管齐下的方法：

scRNA-seq 告诉我们每个免疫细胞中活跃的基因表达程序，例如，揭示了一部分巨噬细胞处于抗炎状态。
scATAC-seq 绘制相同细胞中“开放”或可及的染色质图谱，告诉我们哪些基因准备好被激活以及哪些转录因子是活跃的。这提供了细胞调控潜能的读出。
蛋白质组学，特别是磷酸化蛋白质组学，测量实际的蛋白质水平及其激活状态（例如磷酸化），确认一个信号通路不仅被转录，而且在生化上是活跃的。
空间转录组学 将我们带回组织本身。它允许我们将基因表达数据叠加到脾脏或脑膜的物理图上。我们现在可以看到我们的抗炎巨噬细胞位于何处。它们是聚集在交感神经末梢周围，表明它们正在响应局部释放的神经递质如去甲肾上腺素吗？还是它们弥漫性地散布，表明它们正在响应像应激激素皮质醇这样的系统性信号？

通过将这些线索编织在一起，我们从一个分子列表走向一个动态的、空间解析的、多层次的机制理解。我们可以将一个信号（神经递质）连接到一个受体，到一个信号级联，到一个染色质的变化，到一个新的转录程序，到一个功能性细胞状态，所有这些都在活体组织的解剖背景下。这是生物学的新综合，一种真正的系统级视图，揭示了生命过程从基因组到整个生物体的深刻统一性。这是一个几年前还无法想象的视图，而我们才刚刚开始探索它所开辟的广阔前景。