细胞聚类

玻尔百科

核心要点

细胞聚类根据单细胞RNA测序（scRNA-seq）数据中相似的基因表达谱对细胞进行分组，以识别不同的细胞类型和功能状态。
主成分分析（PCA）和高变基因筛选等技术对于降低数据复杂性、将分析重点放在有意义的生物学变异上至关重要。
先进的聚类应用能够重建细胞发育等动态过程（轨迹推断），并发现基因调控网络（SCENIC）。
在医学领域，聚类为比较健康和患病组织、识别易感细胞群体以及从批量组织样本中计算估计细胞组成提供了有力的视角。

引言

组织并非均质的团块，而是由数百万个具有独特身份和功能的独立细胞组成的复杂生态系统。要理解健康与疾病，我们首先需要为这个细胞大都会创建一份“零件清单”，但仅凭外观来区分这些细胞往往是不可能的。单细胞RNA测序技术的出现，能够捕获每个细胞独特的基因表达谱，它提供了一种解决方案，但同时也带来了新的挑战：我们如何理解这海量的高维数据？本文为细胞聚类这一解锁此复杂性的计算关键提供了全面的指南。我们将首先深入探讨聚类的“原理与机制”，探索算法如何利用降维和统计验证在细胞的混沌中寻找秩序。随后，“应用与跨学科联系”一章将展示这些方法在实践中如何被用于创建细胞图谱、追踪发育路径和剖析疾病机制。

原理与机制

设想你是一位自然学家，面对着一个巨大而混乱的鸟群，其中包含来自几十个物种的数千个个体，全都混杂在一起。你会如何着手理解它？你无法追踪每一只鸟，但你可以开始将它们分组。你会寻找“物以类聚”的鸟群——那些在体型、颜色、喙形和鸣叫声上相似的个体。这种分组的直觉行为，即在混沌中寻找结构，正是聚类的本质。

在生物学中，当我们观察一块组织，比如一块大脑或一个肿瘤时，我们面临着类似的挑战。这些并非均质的物质团块；它们是繁华的都市，由数百万或数十亿个具有各自身份和工作的独立细胞组成。其中有神经元、免疫细胞、结构细胞、干细胞等等，所有这些细胞共同生活和工作。为了理解组织在健康时如何运作，或在疾病中如何失效，我们必须首先识别出它的“市民”。但我们如何区分它们呢？

在细胞的混沌中寻找秩序

与鸟类不同，我们不能仅仅通过观察大多数细胞就知道它们的类型。在培养皿中，一个神经元和一个胶质细胞在未经训练的眼睛看来可能很相似。但每个细胞内部都携带一份动态的身份蓝图：它的转录组。可以把细胞的DNA想象成一个巨大的图书馆，包含数万本书（基因）。转录组则是细胞当前借出并正在积极阅读的书籍清单（即表达的基因）。一个细胞的类型及其当前活动——无论是在抗击感染、分裂还是发送信号——都由它“开启”了哪些基因组合所决定。

单细胞RNA测序（scRNA-seq）是一项革命性技术，它让我们能够一次性获得成千上万个独立细胞的这份“阅读清单”。将聚类算法应用于这些数据的主要目标非常简单：根据细胞基因表达谱的相似性将它们分组。其基本假设是，阅读相似基因书籍的细胞属于同一个“物种”——即相同的细胞类型或功能状态。这就是我们在脊髓那看似混沌的细胞群中找到星形胶质细胞、小胶质细胞和各种神经元亚型的方式。

驾驭基因表达的多重宇宙

scRNA-seq实验的数据是一个巨大的表格，一个矩阵，其行为基因（通常约20,000个），列为细胞（从数千到数百万个）。因此，每个细胞由一个包含20,000个数字的列表定义——这是20,000维空间中的一个单点。我们习惯于三维世界的人类思维，完全无法想象这个“基因表达的多重宇宙”以寻找细胞群。在如此广阔得令人困惑的空间中，我们该如何定义“相似性”或“距离”呢？

这就需要借助一些数学上的精妙方法，即降维。其关键洞见在于，并非所有20,000个维度都同等重要。想象一下整理一个图书馆。你不会去读每本书的每个字。相反，你会找到最重要的变异轴：类型、作者、出版年份。一种名为主成分分析（PCA）的技术正是为我们的细胞数据做了这件事。

PCA是一种寻找数据中最大方差方向的方法。可以把它想象成旋转我们那20,000维的空间，以找到最佳的观察视角。第一个主成分（PC1）是细胞分布最分散的轴；它捕捉了整个数据集中最大的差异，或许能将免疫细胞与上皮细胞分开。PC2是次重要的轴，与第一个主成分正交，可能用于区分不同类型的免疫细胞。通过仅取前10、20或50个主成分，我们就能在一个更易于管理、维度更低的空间中捕捉到绝大多数有意义的变异。现在，每个细胞都有了一套新的、短得多的坐标——它在这些主成分上的“得分”。聚类就在这个被简化、清理过的空间中进行，这里的距离更有意义。

调谐信号：区分身份与状态

然而，PCA找到的“最大变异”并不总是生物学上最有趣的变异。任何细胞群体中的一个主要变异来源是细胞周期。一个细胞的基因表达谱会根据它是在静息期（ $G_1$ 期）还是在积极准备分裂（ $S/G_2/M$ 期）而发生巨大变化。如果我们不小心，PCA可能会将细胞周期作为其第一个主成分。我们的聚类算法随后就会根据细胞的增殖“状态”而不是其稳定、潜在的身份来进行分类。这就像一个自然学家根据鸟儿是在睡觉还是醒着来分类，把知更鸟和鹰归为一类，仅仅因为它们都在打盹。

为了避免这种情况，科学家们可以执行一个巧妙的预处理步骤：他们识别出与细胞周期相关的基因，并在计算上“回归去除”它们对表达数据的贡献。这种数学上的巧计消除了增殖的压倒性信号，使得与细胞身份相关的更微妙但更根本的差异得以浮现，并指导聚类过程。

同样，并非所有基因都是生而平等的。许多“看家”基因在所有细胞中都以相似的水平表达。为了集中分析，研究人员通常会选择一个高变基因（HVGs）的子集——那些在细胞群体中表达水平差异最大的基因。通过仅对这些基因执行PCA，我们实际上是在告诉算法忽略看家基因单调的嗡嗡声，而专注于定义不同细胞类型的可变旋律。这一选择至关重要，因为它从根本上塑造了PCA所探索的协方差结构，将主成分引向我们希望具有生物学意义的变异方向。然而，这种方法有其局限性。如果某种状况在大量基因中引起非常微小的变化——一种“弥散”表型——这种策略可能会因过滤掉携带微弱信号的基因而失败。这提醒我们，这些强大的方法是工具，而非神谕，需要谨慎、批判性地应用。

什么是细胞簇？从分组到生物学洞见

经过这一切，我们的算法为我们呈现了一组细胞簇。但它们是什么？它们是真实的生物学实体，还是仅仅是我们计算过程的产物？这是一个深刻的问题。事实上，统计学家会首先提出一个零假设：数据中没有真实结构，所有细胞都来自一个单一的、同质的群体。在此零假设下，观察到的聚类只是由随机噪声和算法划分数据的倾向所造成的幻觉。科学家必须使用统计检验来证明他们发现的聚类差异显著，不可能是偶然的结果。

为了建立进一步的信心，我们可以测试我们聚类的稳定性。一种巧妙的方法是使用交叉验证：我们可以将细胞随机分成两半，在每一半上独立运行整个聚类过程，然后检查结果是否一致。如果一个在第一半中属于聚类1的细胞，在第二半中也落入一个相应的聚类，这就让我们相信这个聚类是稳健的，而不仅仅是数据或算法的偶然产物。

一旦我们基本确定我们的聚类是真实的，最激动人心的部分就开始了：给它们命名并赋予意义。我们通过差异基因表达（DGE）分析来做到这一点。对于每个聚类，我们问：“与所有其他组相比，哪些基因在这个组中是独特或最高表达的？”答案是一份标记基因列表。然后我们可以将这份列表与浩瀚的生物学知识库进行比对。如果聚类3的标记基因都已知与产生抗体（如免疫球蛋白）有关，我们就可以自信地将该聚类标记为“B淋巴细胞”。这是将抽象的、数据驱动的分组转变为具体的生物学身份的神奇一步。

特征的艺术：提出更尖锐的问题

这个框架的力量在于其灵活性。到目前为止，我们将细胞的“特征”定义为其基因的表达水平。但如果我们的生物学问题不同呢？假设我们假设某些神经元的身份不是由某个基因表达多少决定的，而是由该基因的哪个版本——即哪个剪接异构体——被使用所决定的。

要回答这个问题，我们必须改变我们的特征。我们不再使用原始的基因计数，而是首先为每个基因计算其不同异构体的相对比例。这将创建一个总和为1的比例向量。这种类型的数据称为组成数据，它存在于一个不同的几何流形（一个单纯形）上，不能用像PCA这样假设欧几里得空间的方法正确分析。我们必须首先使用一种特殊的变换，如中心对数比变换，将数据从受限的单纯形转换到一个距离有意义的无约束空间中。只有这样我们才能进行聚类。通过定制我们的特征空间，我们可以提出更尖锐、更复杂的生物学问题，从“那里有什么？”转向“它们的内部线路有何不同？”。

从目录到食谱：揭示调控程序

科学的最终目标不仅仅是为世界编目，而是要理解支配世界的规则。我们不只想得到一份细胞类型列表；我们想知道创造和维持它们的“源代码”，即基因调控程序。

像SCENIC（单细胞调控网络推断与聚类）这样的先进技术正是为此而生。这种方法代表了思维上的一次巨大飞跃。它首先识别哪些基因与哪些转录因子（开启和关闭其他基因的主控蛋白）共表达。但共表达可能具有误导性。因此，SCENIC增加了第二个至关重要的证据层：它检查候选目标基因的调控区域是否具有该转录因子的正确DNA结合序列（一个基序）。这种共表达和基序证据的结合，让我们高度确信我们找到了一个真正的调控模块，或称调控子。

最后，我们可以不再基于基因表达来聚类细胞，而是为每个细胞中的每个调控子计算一个“活性得分”。这个得分被巧妙地设计为对技术噪声具有稳健性，它告诉我们某个特定调控程序的活跃程度。然后我们可以根据细胞活跃的调控程序对它们进行聚类。这不再仅仅是按羽毛对鸟类进行分类。这是根据它们潜在的发育蓝图进行分类。这就像拥有了一本野外指南和拥有生命本身食谱之间的区别。我们从一个静态的细胞目录，转向了对定义它们的规则的动态理解。

应用与跨学科联系

在我们之前的讨论中，我们打开了细胞聚类的黑箱，窥视了那部让我们能够在单细胞数据令人眼花缭乱的复杂性中寻找秩序的精密数学机器。我们现在对“如何做”有了概念。但真正的魔力，科学探索的真正核心，在于“为什么”。我们为什么要费尽周折？这把钥匙能解锁哪些新世界？

现在我们踏上征程，去看看这些方法的实际应用。我们将看到，细胞聚类不仅仅是一项数据排序工作；它简直是21世纪的显微镜。它是一个将庞大、抽象的数字表格转化为具体生物学洞见的工具，揭示了从免疫学、神经科学到发育生物学和精准医学等众多学科中细胞的秘密生活。我们将发现，通过对细胞进行分组，我们学会了用生命之书的母语来阅读它。

生命图谱：发现和定义细胞类型

想象一下，有人递给你一杯由一千种不同水果制成的冰沙，并要求你不仅要识别出其中包含的每一种水果，还要找出是哪一种水果带来了那独特的辛辣味。这就是免疫学家在研究像血液这样复杂组织时面临的挑战。血液是一个由不同细胞类型组成的繁华都市，每种细胞都有其专门的工作。当身体受到病原体攻击时，会释放出一系列分子信号的交响乐。但是，是谁在演奏哪种乐器呢？

这正是细胞聚类提供其最根本贡献的地方。通过分析每个独立细胞完整的基因表达谱，我们可以根据它们整体的转录特性将它们分组。这正是用于精确定位一种关键免疫信号分子来源的策略。我们不是只看一两个基因，而是让数据自己说话。算法将细胞“冰沙”根据它们整体的分子之歌重新分解为其组成的水果——T细胞、B细胞、巨噬细胞等等。一旦我们有了这些定义明确的组，要问哪一组正在产生我们的“辛辣味”（关键的细胞因子），就如同查看每个组中那一个基因的表达一样简单。我们构建了一幅细胞图谱，一份组织的“零件清单”，并借此将功能与结构对应起来。

然而，自然界充满了精妙之处，一个好的科学家知道他们工具的局限性。如果我们寻找的不是一种常见的水果，而是一种极其稀有的香料，比如一个巨大锅里的一根藏红花丝呢？考虑一下寻找潜伏病毒库的情况，病毒潜藏在极少数细胞中，可能不到千分之一。在这里，一个全局的聚类方法可能会失败。少数被感染的细胞可能看起来与它们未被感染的邻居非常相似，以至于它们被简单地吸收进一个更大的聚类中，变得无形。在这种情况下，需要一种更有针对性的方法。我们不再要求算法找到所有的组，而是可以提出一个更具体的查询：“向我展示所有属于T细胞类型A（表达GENE_T）并且正在活跃产生病毒转录本（GENE_V）的细胞。”这凸显了一个关键教训：聚类是发现的有力工具，但当我们有一个明确的假设时，直接搜索有时可能更强大。艺术在于知道使用哪种工具。

观察生命展开：从静态快照到动态过程

细胞不是静态的实体；它们在不断地变化、发育和响应。细胞聚类最美妙的应用之一就是捕捉这些动态过程。想象一下，试图通过观察一堆混杂在地上的叶子、细枝和树枝来理解一棵树是如何生长的。这似乎是不可能的。然而，这类似于从一团解离的细胞浆中研究器官发育。

细胞聚类让我们能够首先整理这堆东西。我们可以根据转录谱将所有的“小芽”、“嫩枝”、“成熟枝”等分组。这个分组是轨迹推断分析中关键的第一步。通过识别主要的细胞状态——从最早的干细胞到各种成熟的细胞类型——我们为算法提供了立足点，这些算法随后可以连接这些状态，揭示发育的分支路径。聚类解开了多条并行的分化故事，防止我们从一片叶子到一根根画出一条无意义的线。它一章一章地构建了故事板，使我们能够按照生命书写的顺序来阅读发育的叙事。

但并非所有的生物过程都是线性的、单向的。生命中许多最基本的节律是周期性的。想想支配我们睡眠-觉醒周期的生物钟，这个过程历时24小时，然后又重新开始。如果我们不记录采样时间，全天候地从一个生物体中收集细胞，我们得到的就是在周期各个阶段被冻结的细胞集合，全都混杂在一起。我们如何重建这个时钟？

这是一个深刻的挑战，需要一种更复杂的“聚类”观。在这里，我们寻找的不是离散的团块，而是一个连续的环。令人惊奇的是，通过专注于已知属于生物钟机制的基因，我们可以使用与聚类相关的高级方法来做到这一点。诸如在细胞相似性图上进行谱嵌入等技术，可以处理高维数据点云，并发现细胞所处的隐藏的一维圆形结构。该算法学习了过程的潜在拓扑结构——一个圆形，并将每个细胞映射到钟面上的正确位置。这是一个惊人的示范，展示了这些方法不仅可以恢复类别，还可以恢复生物过程的几何结构。

理解健康与疾病：一个比较的视角

也许细胞聚类最具影响力的应用是在医学领域，它为剖析疾病提供了极其锐利的视角。研究任何疾病的一个基本方法是将患病组织与其健康对应物进行比较。细胞聚类为我们提供了一种在前所未有的分辨率下进行定量比较的方法。

在一项研究中，一个发育中的胚胎暴露于一种有害化学物质——一种致畸剂，我们能问的最直接的问题是：这种化学物质做了什么？通过将来自健康胚胎和暴露胚胎的细胞一起进行聚类，我们创建了一个所有细胞类型的共同参考图。然后我们可以简单地计数。健康胚胎中“发育中的心肌细胞”的比例与暴露胚胎中的相比如何？一个“神经前体细胞”群体是否未能出现？。细胞簇丰度的这种变化为化学物质的作用机制提供了有力且往往是直接的线索。它直接指向了最脆弱的细胞群体。

然而，故事可能更为微妙。疾病并不总是简单地消除或扩增一种细胞类型。有时，它会破坏一个细胞的身份，将其推入一种新的、功能失调的状态。这在神经免疫学和肿瘤学等领域是一个持续的挑战。想象一下，试图识别大脑细胞（如星形胶质细胞）的新的、独特的亚型，同时又知道它们的基因表达受到附近神经元放电等瞬时事件的极大影响。一个幼稚的聚类可能会将所有“活跃的”星形胶质细胞归为一组，使我们误以为发现了一种新的细胞类型，而实际上我们只是发现了一种暂时的状态。

聚类的先进应用让我们能够剖析这一点。通过精心设计实验并使用能够解释这些混杂变量（如神经元活动水平）的统计模型，我们可以在计算上“减去”由瞬时状态驱动的信号。这使我们能够找到定义真正细胞亚型的真实、稳定的差异。这就好比是根据一个人的内在特质来识别他，而不是根据他今天碰巧穿的衣服。

桥接尺度与模态：从单细胞到完整组织

生物学的最终目标是理解分子和细胞如何构建功能性组织和生物体。细胞聚类正被证明是连接生命不同尺度的不可或缺的桥梁，使我们能够整合各种截然不同的数据类型。

一个非常实际的例子是它在解释传统“批量”测序数据中的应用。几十年来，科学家们一直通过捣碎的组织样本来测量基因表达，得到一个单一的、平均化的测量值。这就像在音乐厅外听交响乐——你听到的是整体的声音，但无法区分小提琴和喇叭。单细胞聚类为我们提供了诠释这些批量信号所需的“罗塞塔石碑”。通过首先对来自某个组织的单细胞数据集进行聚类，我们可以计算出每种细胞类型的平均、特征性基因表达谱——即“特征”。这个特征矩阵随后成为一个参考。我们可以从患者的肿瘤活检中获取一个廉价且简便的批量测量值，然后使用一种称为反卷积的计算方法来问：“我的参考特征的何种混合最能解释这个批量信号？”其结果是对该肿瘤细胞组成的估计——30%的癌细胞、50%的T细胞、20%的成纤维细胞——而无需再进行任何单细胞实验。这对精准医学来说是一个巨大的飞跃。

最令人兴奋的前沿可能是将聚类与物理空间重新整合。当我们为了进行单细胞分析而解离组织时，我们知道了存在哪些细胞，但我们失去了所有关于它们位于何处的信息。这就像有一份戏剧的完整演员名单，却没有舞台指示。空间转录组学的出现，它能在完整的组织切片中测量基因表达，提供了这个舞台。通过结合这两种技术，我们可以达到最终目标：我们首先在解离的细胞上使用聚类生成高分辨率的“演员名单”（细胞类型），然后用这些信息来标记空间图上的细胞。我们终于能看到谁在和谁对话。我们可以绘制出包围肿瘤的入侵免疫细胞图谱，或者看到不同类型的成纤维细胞在伤口愈合过程中如何组织成层。

我们还可以更进一步。一旦我们将一个特定的细胞群体——比如衰老细胞——映射回组织中，我们就可以分析它们自身的空间组织。它们是随机散布的，还是聚集在一起？在皮肤中发现衰老细胞并非随机分布，而是聚集在远离最近血管的区域，这是一个深刻的洞见。它为一个长期存在的理论提供了直接证据：局部微环境，特别是氧气和营养物质的缺乏，驱动了衰老过程。这种基因表达聚类和物理空间聚类的美妙结合使我们回到了起点，解释了“何处”背后的“为何”，以及“为何”背后的“何处”。

从绘制我们身体的图谱到观察生命发育，再到破解疾病复杂的编排，细胞聚类已成为现代生物学的基石。它远不止是一个计算工具；它是一种新的观察方式。通过发现数据中隐藏的模式，它使我们能够提出并回答我们曾经只能梦想的问题。