单细胞聚类

玻尔百科

核心要点

单细胞聚类通过对高维基因表达数据进行降维，然后应用社区发现算法，来识别不同的细胞类型和状态。
该过程需要分析人员进行审慎干预，以选择适当的分辨率，使用轮廓系数（Silhouette score）等指标验证聚类结果，并校正技术性和生物性混杂因素。
聚类是下游分析的基础步骤，包括利用标记基因注释细胞身份，以及使用伪时间重建细胞分化等动态过程。
先进的应用将聚类与多组学和空间数据相结合，以提供关于细胞身份、功能及其在组织内位置的整体视图。

引言

分析单个细胞的能力彻底改变了生物学，将过去对组织的模糊、平均化视图转变为一幅高分辨率的细胞多样性图景。然而，这种能力也带来了一个巨大的挑战：我们如何理解成千上万个单细胞的基因表达谱？这股高维数据的洪流需要一个强大的组织原则。单细胞聚类就是这一原则——一种计算方法，它充当细胞世界的制图师，根据细胞的分子特征将其分组成有意义的群体。本文旨在揭开这一过程的神秘面纱，为其核心逻辑和变革潜力提供一份指南。

本文的探索分为两个主要部分。首先，在“原理与机制”部分，我们将深入探讨从原始数据到确定细胞聚类的计算过程。我们将揭示降维等技术如何驯服“维度灾难”，以及基于图的社区发现算法如何找到具有凝聚力的细胞群落。我们还将探讨分析的艺术，从选择正确的分辨率到验证我们的结果。随后，“应用与跨学科联系”一章将展示聚类如何成为重大生物学发现的跳板。我们将看到它如何帮助我们绘制发育路径、解构复杂疾病、指导生物工程，并最终通过整合多层分子信息，建立起对细胞的统一认识。

原理与机制

想象一下，你得到一个装有数千本书的图书馆，但所有书的封面都是空白的，而且书籍随机散落在地板上。你的任务是整理它们。你会如何开始？你可能不会试图一次性阅读每本书的每一个字。相反，你可能会打开每本书，略读第一页或几个关键段落，从而“感受”其主题。你会开始把关于物理的书放在一堆，历史的放在另一堆，诗歌的放在第三堆。这在本质上就是单细胞聚类的挑战与策略。

我们数据集中的每个细胞就像那些书中的一本。它的“文本”是其独特的基因表达模式——哪些基因被开启，以及开启的强度。聚类的主要目标是读取这种表达特征，并将细胞分组成有意义的类别，我们假设这些类别对应于不同的细胞类型或状态。这里一堆“肝细胞”，那里一堆“免疫细胞”。但我们如何用计算的方式做到这一点呢？我们不能仅仅凭“感觉”。我们需要原则。

从繁杂到图谱

第一个障碍是巨大的。单个细胞的身份不是由一两个基因定义的，而是由超过20,000个基因的表达水平同时定义的。试图在20,000维的空间中寻找模式不仅困难，而且从根本上是反直觉的。我们的物理世界有三个维度，我们的几何直觉在高维空间中会完全失效。距离变得巨大而无意义，这一现象被恰如其分地命名为维度灾难。

秘密在于认识到生物学是高效的。在那个20,000维的“基因空间”中，绝大部分是空的、无趣的。有意义的生物学状态——所有不同的细胞类型以及它们之间的路径——位于一个嵌入在这片广阔空间中的更简单、更低维的结构上。想象一张巨大的、揉皱的纸漂浮在一个黑暗的大房间里。房间是20,000维空间，但细胞状态的实际地图画在纸的二维表面上。我们分析的第一项工作不是在整个房间中导航，而是找到这张纸并小心地把它展开，以便我们能阅读地图。

这种“展开”过程被称为降维。像主成分分析（PCA）或均匀流形近似与投影（UMAP）这样的技术就是为此设计的。它们将数千个基因令人困惑的复杂性提炼成几个“主要变异轴”——即区分不同细胞的最重要的基因组合——使我们能够在一个可管理的二维或三维地图上可视化和分析数据。在这张地图上，我们终于开始看到数据的形状：细胞形成了明显的大陆和岛屿，暗示了细胞类型的潜在结构。

在细胞社交网络中寻找社区

现在我们有了地图，细胞被绘制为点，我们如何正式地在这些岛屿周围画出边界呢？我们可以把它看作一个社交网络。假设每个细胞是一个人。地图上两个细胞之间的“距离”是衡量它们基因表达差异程度的指标。我们可以通过将每个细胞连接到其最亲密的朋友——即它的k-近邻（kNN）——来构建一个网络。

然而，简单的朋友关系可能具有误导性。想象一个人住在人口稀少的农村地区，另一个人住在人口稠密的城市。城市居民可能比农村居民的其他任何邻居都更“接近”这位农村人，但这位农村人在城市里有更多更亲密的朋友。这种友谊不是相互的。为了构建一个更稳健的网络，我们使用一个更聪明的想法：共享近邻（SNN）图。我们不仅关心两个细胞是否是邻居；我们更关心它们是否共享相同的朋友。在其各自邻居列表中有大量重叠的两个细胞，很可能属于同一个紧密的社区，即同一种细胞类型。这种方法加强了密集群体内部的连接，并剪除了不同群体之间的虚假联系。

一旦这个SNN网络建立起来，寻找细胞类型的任务就变成了社区发现。我们需要一种算法，能够审视这个复杂的连接网络并识别出“小团体”或社区。像Louvain和Leiden这样的算法在这方面表现出色。它们通过尝试最大化一个名为模块度的分数来工作。模块度是一个简单而优美的概念：它衡量一个网络被划分为社区的好坏程度。高模块度分数意味着所提出的社区内部有许多连接，而社区之间几乎没有连接——这正是我们对不同细胞类型的期望。该算法在聚类之间迭代地移动细胞，始终寻求使社区内部凝聚力最强、外部区隔最明显的排列方式。

分析师的艺术：分辨率与验证

这个过程不是一个自动的黑匣子。分析师必须选择的最关键参数之一是分辨率。把它想象成显微镜上的调焦旋钮。在非常低的分辨率下，你可能只看到一个模糊的物体，你称之为“B细胞”。但随着你提高分辨率，你可能会看到这个物体锐化为两个不同的群体：快速分裂的“暗区”B细胞和呈递抗原的“亮区”B细胞。这是一个巨大的成功！你发现了更深层次的生物学。

但如果你继续提高分辨率，你就有过度聚类的风险。你可能会开始根据无意义的技术噪音或基因表达中微小、随机的波动，将一个单一、同质的细胞类型分裂成多个小聚类。突然之间，你清晰的地图上布满了数十个微小、无法解释的岛屿。因此，分辨率的选择是在灵敏度和特异性之间进行权衡，需要审慎的生物学判断。

那么，我们如何知道一组聚类是“好”的，尤其是在我们没有标准答案的情况下？我们可以使用内部验证指标。一个常用的是轮廓系数（Silhouette score）。这个想法非常直观：对于任何给定的细胞，我们问两个问题。首先，它与自己聚类中所有其他细胞的平均距离是多少（内聚性）？其次，它与最近的邻近聚类中细胞的平均距离是多少（分离性）？一个好的聚类应该具有高内聚性（小的聚类内距离）和高分离性（大的聚类间距离）。轮廓系数将这两者结合成每个细胞的一个单一数值，告诉我们它在其被分配的聚类中“安居”得如何。一个大多数细胞都具有高轮廓系数的地图，很可能很好地代表了数据的结构。

为邻里命名

完成了所有这些工作后，我们剩下的是抽象的标签：聚类1、聚类2、聚类3等等。这在计算上是令人满意的，但在生物学上却毫无信息量。关键的下一步是给这些聚类赋予生物学名称。为此，我们玩一个计算版的“猜猜是谁？”游戏。

对于每个聚类，我们问：“是什么让你与众不同？”。我们进行差异基因表达分析，系统地将一个聚类中细胞的基因表达与数据集中所有其他细胞进行比较。这会产生一个标记基因列表——即在该特定聚类中独特或高度表达的基因。如果我们发现聚类1是由基因Insulin的高表达定义的，我们就可以自信地将其标记为“胰腺β细胞”。如果聚类2独特地表达CD79A和CD79B，我们可以将其标记为“B细胞”。通过将这些标记基因列表与数十年的生物学知识进行交叉引用，我们将抽象的计算地图转变为组织细胞组成的丰富、带注释的图谱。

穿透眩光：数据中的混杂因素

这段旅程并非没有风险。有时，数据中最明显的模式并非最有趣的模式。一个常见的陷阱是批次效应。想象一下分析两个样本，一个健康样本和一个肿瘤样本，但在周一处理健康样本，在周二处理肿瘤样本。试剂、温度或操作上的微小差异可能会在两个“批次”之间引入巨大的技术变异。当你可视化数据时，你会看到一个完美的分离，形成两个聚类。但当你按细胞来源给它们上色时，你会发现一个聚类是“周一”，另一个是“周二”。主导信号纯粹是技术性的，完全掩盖了健康细胞和肿瘤细胞之间真正的生物学差异。这就是为什么严谨的实验设计和计算上的批次校正方法绝对至关重要。

甚至生物学本身也可能成为一个混杂因素。最强大的生物过程之一是细胞周期。参与DNA复制和细胞分裂的基因表达水平非常高。这会产生如此多的变异，以至于完全淹没了与细胞身份相关的更微妙的信号。例如，发育中的肝细胞和胰腺细胞可能看起来比它们成熟的对应物更相似，仅仅因为它们都在活跃地分裂。一个经验丰富的分析师不能忽视这一点；他们必须使用统计技术，如回归，来计算上“减去”由细胞周期引起的变异，从而让潜在的分化轨迹从噪音中浮现出来。

超越简单的计数：身份的细微差别

随着我们的工具变得越来越强大，我们对细胞身份的定义也变得更加深入。我们正在超越简单地计算哪些基因开启或关闭的层面。同一个基因可以通过一种称为可变剪接的过程产生多种不同版本的蛋白质，称为异构体。这些异构体可以具有截然不同的功能。两个细胞可能表达相同数量的某个基因，但如果它们使用不同的剪接异构体，它们的生物学身份和功能可能天差地别。

为了捕捉这一点，我们需要全新的分析框架。我们不能再仅仅计算总的基因表达量。我们必须分析每个基因内不同异构体的比例。这种被称为成分数据的数据类型，需要其独特的数学分支（如对数比变换）才能正确分析。通过深入到这个细节层面，我们开始理解细胞身份不是一个离散的标签，而是一个丰富、多方面的状态。从原始的数字表格到深刻的生物学理解的旅程，证明了统计学、计算机科学和生物学之间美妙的相互作用，揭示了组织生命本身的复杂逻辑。

应用与跨学科联系

在我们完成了对单细胞聚类原理与机制的探索之后，你可能会有一种类似于学会了国际象棋规则的感觉。你理解了棋子的走法、逻辑和直接目标。但这个游戏的真正美妙之处——那些令人惊叹的策略、意想不到的组合、看似无关棋子之间的深刻联系——只有在观看大师对弈时才会显现。单细胞聚类也是如此。这项技术的真正力量不在于聚类行为本身，而在于它使我们之后能做什么。它不是终点，而是起点；它是一个强大的新镜头，改变了我们看待生物世界的视角。

利用这个镜头将组织中令人眼花缭乱的细胞混合物整理成一个连贯的“零件清单”后，我们就可以开始提出生物学中最深刻的问题。这些零件是如何制造的？它们如何沟通和协同工作？在生物体的宏伟建筑中，它们究竟位于何处？让我们来探索单细胞聚类如何成为回答这些问题的基石，并在发育生物学、免疫学、生物工程和计算机科学之间建立起联系。

细胞世界的制图师

想象一下，给你一张整个国家夜间的卫星图像，上面有数百万个光点，然后要求你绘制一张地图。这就是生物学家在观察复杂组织时面临的挑战。单细胞聚类是这种制图工作的第一步：它将光点分组成城市、城镇和村庄。但我们如何给它们贴上标签呢？

一个经典的方法是寻找一个地标。在发育生物学中，某些基因充当特定细胞谱系的明确路标。例如，如果我们有一张发育中的小鼠胚胎的UMAP图——我们的卫星图像——我们可能想找到未来的肌肉细胞。从数十年的研究中我们知道，MyoD基因是一个主控开关，它在这些细胞中特异性地开启。通过根据每个细胞的MyoD表达量为地图上的细胞着色，我们可以立即看到一个特定的、局部的聚类亮起鲜红色。就这样，我们在一个由其他细胞类型组成的大陆中找到了发育中的肌细胞“城市”。

这种“特征图”技术不仅用于寻找已知的细胞类型，它还是一个强大的发现工具。思考一下免疫反应中混乱的战场。一个流氓细菌入侵，身体通过释放一种称为细胞因子的信号分子混合物来发起防御。但在一个异质的免疫细胞群体中，是谁在拉响警报？通过对感染部位的所有细胞进行单细胞聚类，我们首先创建了存在的不同免疫细胞类型的地图——T细胞、B细胞、巨噬细胞等等。然后，我们可以问：这些聚类中哪个显示出我们关键细胞因子（比如“Immunomodulin-X”）基因的高表达？通过检查IM-X基因在我们已注释的聚类中的表达情况，我们可以以惊人的精确度确定其来源。这个简单而强大的想法——聚类、注释，然后查询——彻底改变了免疫学，使我们能够解构复杂的反应并识别关键参与者。

观察生命展开：从静态快照到动态电影

细胞不是静态的实体。它们出生、变化、成熟和死亡。单细胞聚最美妙的应用之一就是捕捉这些动态过程。通常，当我们观察来自发育中组织的细胞的UMAP图时，我们看到的不仅仅是孤立的岛屿。相反，我们看到细胞形成连续的路径，就像一条从源头流向大海的河流。这是分化轨迹的标志。

以髓鞘的形成为例——髓鞘是包裹我们神经纤维的绝缘鞘，由大脑中称为少突胶质细胞的细胞形成。这个过程涉及一个从增殖性的少突胶质细胞前体细胞（OPC），到新形成的少突胶质细胞，最后到成熟的、产生髓鞘的细胞的连续旅程。单细胞聚类使我们能够在一个快照中捕捉到这整个连续过程。我们看到一条路径，始于一个表达OPC标记（如基因PDGFRA）的聚类，流经一个中间聚类，其中前体标记消退，早期髓鞘形成基因（GPR17, MYRF）出现，并终于一个由髓鞘结构蛋白（如MBP和PLP1）大量表达定义的聚类。

这种发育路径的可视化表示激发了一个绝妙的概念飞跃。如果细胞是按其分化进程排序的，我们能否为这个进程赋予一个量化值？这就是伪时间背后的思想。通过在计算上沿推断的轨迹对细胞进行排序，我们可以为每个细胞分配一个“伪时间”值，代表它在其旅程中前进了多远。这不是真实的年代时间，而是“转录时间”。它使我们能够将成千上万个在生命中不同时间点被冻结的单个细胞的静态集合，在计算上重新组装成一部动态的发育电影。然后，我们可以绘制任何基因的表达量，不是相对于挂钟时间，而是相对于伪时间，以观察细胞成熟时事件的精确序列。

生物工程与再生医学：用细胞进行构建

绘制自然发育图谱的能力对医学具有深远的影响。再生医学的伟大目标之一是在实验室中培育特定的细胞类型，以替代因损伤或疾病而丧失的细胞。例如，我们能否将一个通用的多能干细胞转变为一个皮层神经元来治疗脑损伤？我们可以设计一个方案，一个由生长因子和信号分子组成的“配方”，试图引导细胞沿着这条路径前进。但我们如何知道它是否成功了呢？

这就是单细胞聚类提供一种优雅而严谨的质量控制形式的地方。我们可以取我们的实验室生长的细胞群体，并进行单细胞测序。然后，我们可以取一个已发表的“图谱”——一个真实发育中人脑的全面单细胞地图——并在计算上将我们的数据与这个参考进行整合。结果是一张包含我们体外细胞和体内参考细胞的单一地图。通过观察我们的实验室生长细胞落在参考地图上的位置，我们可以立即得到一份量化的成绩单。我们有多少细胞成功地变成了目标皮层神经元？有多少变成了其他“脱靶”细胞类型，如星形胶质细胞或抑制性神经元？又有多少完全没有分化，仍然是干细胞？通过简单地计算每个类别中的细胞数量，我们可以计算出如“分化效率”和“错误分化指数”等指标，为我们提供一种精确、数据驱动的方式来评估和改进我们的生物工程方案。

分子信息的统一：多组学与空间生物学

到目前为止，我们主要从RNA转录本的角度来谈论细胞的身份。但这只是一个深层且相互关联的分子现实中的一层。细胞的状态还由其DNA的哪些部分是可及的（其表观基因组）、其表面装饰着哪些蛋白质，以及对于免疫细胞来说，其抗原受体的独特遗传密码所定义。单细胞分析的最终力量在于其整合这些不同“组学”层次的能力，从而提供对细胞的真正整体视图。

现代单细胞技术使我们能够从同一个细胞中捕获多种类型的信息。一个共享的“条形码”充当唯一标识符，将细胞的转录组与其表观基因组等联系起来。这为提出更深层次的问题打开了大门。例如，在衰老过程中，造血干细胞倾向于产生更多的髓系细胞（如单核细胞）而减少淋巴系细胞（如T细胞），这种现象称为髓系偏向。通过整合单细胞RNA-seq（它告诉我们一个偏向髓系的前体细胞聚类随着年龄增长而扩大）和单细胞ATAC-seq（它在相同细胞中绘制开放、可及的染色质），我们可以解决一个经典的“鸡生蛋还是蛋生鸡”的问题。我们可以在偏向髓系的聚类的开放染色质区域中寻找特异性富集的转录因子DNA结合基序。如果某个转录因子的基因也在该聚类中高表达，并且其基序在该聚类中开启的基因附近被发现，我们就找到了我们的主调控因子——指挥整个程序的指挥家。

这种整合能力在免疫学中达到了顶峰。使用多模态方法，我们可以从单个T细胞中获得其完整的转录组（其功能状态，例如“耗竭”），其表面蛋白水平（其表型，例如表达PD-1），以及其T细胞受体（TCR）的精确序列，这定义了其“克隆型”或特定谱系。通过将这三个数据集与共享的细胞条形码联系起来，我们最终可以将一个免疫士兵的身份（其克隆型）与其在战场上的角色和状态（其表型和功能状态）联系起来。这对于理解哪些T细胞克隆正在有效对抗肿瘤，哪些已经变得功能失调至关重要。

而谜题的最后一块是什么？位置，位置，还是位置。了解一个组织的“零件清单”是一回事；了解这些零件是如何组装的则是另一回事。空间转录组学领域在原位测量基因表达，保留了细胞的物理坐标。通过开发计算方法，将来自解离的单细胞RNA-seq的丰富数据与来自这些其他技术的空间图谱对齐，我们可以为我们原始聚类中的每个细胞推断一个可能的位置。这使我们能够构建一个单一、统一的数据对象，它不仅告诉我们一个细胞是什么，还告诉我们它在哪里，从而弥合了分子身份与组织结构之间的鸿沟。

从细胞到细胞计数仪：思想的普适性

同样值得注意的是，我们讨论的计算原理并不仅限于RNA测序。核心工作流程——转换数据以稳定方差，计算高维空间中细胞间的距离，构建图来表示邻里关系，以及在该图中寻找社区——是一个通用的数据科学框架。它可以被完美地应用于其他单细胞技术。例如，质谱流式细胞术（CyTOF）测量每个细胞中40-50种特定蛋白质的水平。这些数据不稀疏，不是基于计数的，并且具有与scRNA-seq不同的噪声特性。然而，通过更换特定的步骤——使用arcsinh变换而不是对数变换，因为蛋白质组已经经过筛选而放弃激进的特征选择，以及在较低维空间中操作——基本的聚类哲学保持不变。这突显了生物学（提出问题）与统计学和计算机科学领域（提供通用的、抽象的工具来解决问题）之间美妙的跨学科联系。

总之，单细胞聚类远不止是一种细胞分类方法。它是生物学新时代的基石，在这个时代，我们可以观察发育的展开，以分子精度解剖疾病，以可预测的结果工程化组织，并将不同层次的生物学信息统一为一个连贯的整体。它已将生物学从一门研究平均值的科学转变为一门研究个体的科学，揭示了构成生命的细胞交响乐中惊人的复杂性和深刻的统一性。