细胞类型聚类：揭示细胞身份指南

玻尔百科

核心要点

细胞类型聚类是一种计算方法，它根据单细胞分析中单个细胞的基因表达谱进行分组，以识别不同的细胞群体。
该过程需要严格的数据预处理，包括质量控制、批次效应校正和降维，以应对“维度灾难”。
不同的算法，如UMAP和Louvain，采用不同的方法，如流形学习或图论，每种方法都有其特定的优势和局限性，例如分辨率极限。
关键应用包括创建全面的细胞图谱，解析肿瘤的细胞组成，以及整合多模态数据以构建对细胞身份的整体视图。

引言

几十年来，生物学家通过测量数百万个细胞的平均活性来研究组织，得到的是一张模糊的、平均化的图像，好比一张城市的夜间航拍照片。单细胞分析的革命改变了这一切，它提供了成千上万个独立的分子画像，让我们能够“身临其境”。然而，这股高分辨率数据的洪流也带来了新的挑战：我们如何对这堆杂乱无章的画像进行分类，以找到潜在的细胞群落？这正是细胞类型聚类的根本目标，它是一个计算过程，根据细胞的共同特征将其分组为有意义的家族，从而揭示它们的身份和功能。本文为这一关键方法提供了全面的指南。在第一部分“原理与机制”中，我们深入探讨“如何做”——探索从杂乱的高维数据到关键步骤（如清洗、降维和应用聚类算法）的全过程。然后，我们将在“应用与跨学科联系”中探讨“为什么做”，展示聚类如何被用于构建基础细胞图谱，解析癌症等复杂疾病，并建立对细胞定义的多元理解。

原理与机制

想象你是一名侦探，试图了解一个复杂城市的运作方式。你可以拍一张夜间航拍照片，它会向你展示城市的整体光亮——一幅美丽但模糊的平均图像。你也许能看到市中心比郊区更亮，但你无法区分一个繁华的餐饮区和一个灯火通明的工厂。这就是批量分析（bulk analysis）的世界。几十年来，我们就是这样研究生物学的。我们会磨碎一块组织——比如说一块肝脏——然后测量其中所有基因的平均活性。我们得到的是一张模糊的、平均化的图像。

但是，如果一种新药旨在平息城市里过度活跃的警察部队（免疫细胞），同时不影响面包店和办公室（代谢细胞）呢？你的航拍照片将无济于事。你需要亲临现场，需要逐个调查每栋建筑、每个人。这就是单细胞分析（single-cell analysis）的革命。我们不再得到一个模糊的平均值，而是成千上万个独立的分子画像。但这又带来了一个新问题：我们现在有成千上万张杂乱无章的画像，我们需要对它们进行分类。谁是警察？谁是面包师？这种分类的行为，即在人群中寻找隐藏群落的过程，正是细胞类型聚类（cell type clustering）的根本目标。其科学目标不仅仅是整理数据，而是根据细胞共享的基因表达模式将其分组为有意义的家族，从而揭示潜在的细胞类型及其功能。

一场进入高维空间的旅程

你可能会认为对这些画像进行分类很容易。我们难道不能……看看它们，然后按相似性分组吗？问题在于，每个细胞的“画像”并非由两三个特征构成，而是由大约20000个基因的表达水平绘制而成。我们被要求在一个20000维的空间中寻找模式。我们的大脑为了适应三维世界而进化，对于在如此浩瀚的景观中，“距离”或“接近”究竟意味着什么，我们完全没有直觉。这就是著名的维度灾难（curse of dimensionality）。在高维度中，所有东西似乎都与其他所有东西相距甚远，“密集邻域”的概念也随之瓦解。

为了摆脱这个诅咒，我们需要一种方法将这个极其复杂的空间映射到我们能理解的东西上，比如一个二维图。这就是降维（dimensionality reduction）算法的工作，例如主成分分析（PCA）或均匀流形逼近与投影（UMAP）。其主要思想是找到数据中最重要的变异“方向”，并将细胞投影到一个保留其本质关系的低维地图上。可以把它想象成制作一张平面的世界地图。你无法在一张平纸上完美地呈现一个球体而不产生任何扭曲，但一张好的地图（如墨卡托投影或温克尔三重投影）会保留你关心的基本特征，比如大陆的相对位置和形状。同样，UMAP为我们的细胞创建了一个二维“地图”，其中具有相似基因表达谱的细胞会聚集在一起，形成独特的“岛屿”，而这些岛屿可能正是我们的细胞类型。

准备画布：数据清洗的艺术

然而，在我们能绘制这幅美丽的地图之前，必须进行一番严肃的整理工作。来自单细胞实验的原始数据是杂乱的，既充满了技术噪音，也包含我们可能不感兴趣的生物信号。一位伟大的艺术家不会随手将颜料泼在肮脏的画布上；他们会一丝不苟地准备画布。

首先，我们进行质量控制（quality control）。我们必须毫不留情地丢弃坏数据。例如，在一个典型的实验中，一些“细胞”检测到的基因数量会低得离谱。人们很容易认为这是一种特殊的、安静的细胞类型。但更可能也更平庸的现实是，它们根本不是细胞。它们是技术性假象：一个捕获了周围漂浮的零散RNA的空油滴，或是在样本制备过程中死亡并破裂的细胞，只留下了其破碎的残骸。在分析中保留这些垃圾，就好比试图建立一个包含鬼魂和影子的家谱；它会扭曲整个画面。

接下来，我们必须面对混杂变量。最常见的一个是批次效应（batch effect）。想象两位摄影师为同一群人拍照，但一位使用带深褐色调的古董相机，另一位使用现代智能手机。最终的照片会看起来非常不同，不是因为人变了，而是因为设备变了。同样，当我们在不同日期或使用不同批次的试剂进行实验时，我们会引入一种技术性标记，它可能强大到完全掩盖细胞间微妙的生物学差异。如果我们不小心，我们的聚类算法会兴高采烈地将细胞分为“批次1”和“批次2”，这是一个统计上合理但生物学上毫无用处的结果。因此，一个关键步骤是在聚类之前应用批次校正（batch correction）算法。这些智能的统计工具试图对齐数据集，就像照片编辑器调整两位摄影师作品的色彩平衡和对比度，以便我们最终能比较人本身。

但并非所有不想要的变异都是技术性的。有时，生物学本身也会造成干扰。考虑一个发育中的大脑样本，它充满了正在活跃分裂的干细胞。任何两个干细胞之间最显著的差异可能不是它们的最终命运，而是一个正处于静息状态（细胞周期的G1期），而另一个则在忙于复制其DNA（S期）或分裂成两个（M期）。如果我们不小心，我们的算法会根据这种短暂的增殖状态对细胞进行分组，创建一个“分裂细胞”簇和一个“静息细胞”簇，从而掩盖了我们寻求的更根本的身份。在这种情况下，我们可以通过计算“回归去除”（regress out）与细胞周期相关的基因，实质上是告诉算法忽略这个变异来源，专注于更稳定的身份标记。

最后，有了一个干净的数据集，我们必须选择要关注的特征。在20000个基因中，许多是“管家”基因，它们在每个细胞中都开启，对于区分不同细胞类型几乎不提供信息。标准方法是选择几千个高变基因（HVGs）——那些在整个数据集中表达水平变化最大的基因。其逻辑是，这些基因在定义细胞身份方面扮演着有趣的角色。这是一个强大且必要的步骤，但它也带有一个微妙的风险。通过只关注最易变的基因，我们可能会错过那些安静的基因。想象两种非常相似的神经元亚型，它们仅通过少数几个基因表达上微小但持续的差异来区分。这些基因在整个数据集中的方差可能不高，并可能被过滤掉，使得算法永远无法区分这两个关键的亚型。这提醒我们，流程中的每一步都是一个有后果的选择。

寻找群落：两种哲学的故事

准备好画布后，我们终于可以让聚类算法施展它们的魔力了。但事实证明，没有单一的魔杖。不同的算法体现了关于“簇”是什么的不同哲学。

一类算法，包括流行的t-SNE和UMAP，基于流形学习。它们假设数据位于高维空间中一个复杂、扭曲的表面（即流形）上。它们的目标是创建一个保留该表面局部邻域结构的低维地图。它们执着于将朋友们保持在一起。如果细胞A在原始的20000维空间中与细胞B接近，算法会尽最大努力将它们放在二维地图上的相邻位置。然而，为了实现这一点，它愿意在全局距离上“随心所欲”。在UMAP图上，两个相距遥远的簇之间的距离不一定有意义。

第二种哲学基于图论。像PhenoGraph和广泛使用的Louvain方法等算法，首先构建一个细胞的社交网络。每个细胞是一个节点，它与它最亲近的 $k$ 个朋友（其 $k$ 近邻）相连。然后，算法像社会学家一样，寻找社区：即那些内部连接远比与网络其余部分连接更紧密的细胞群。这些方法擅长寻找密集的、定义明确的社区。

然而，这种方法有其自身的阿喀琉斯之踵，即分辨率极限（resolution limit）。例如，Louvain方法通过尝试最大化一个称为模块度（modularity）的分数来工作。当图被划分为密集的社区且社区之间连接稀疏时，模块度就高。问题是，有时通过将一个非常小的、稀有的细胞类型合并到一个大的相邻簇中，可以获得更高的模块度分数。算法在盲目追求更高模块度分数时，会为了一个“更整洁”的整体解决方案而牺牲稀有群体的身份。这是一个典型的优化算法目标与科学家细致入微的目标不完全一致的案例。

终极挑战：什么是细胞类型？

这就引出了最深层的问题。我们将数据通过这个复杂的清洗、转换和聚类流程，最终得到一张带有彩色细胞岛屿的美丽地图。我们给它们贴上“神经元类型1”、“星形胶质细胞”、“小胶质细胞”的标签。但我们如何知道这些是真实的？我们如何知道我们没有仅仅发现我们所选算法的产物，或是我们未能校正的批次效应？

要从一个“假定簇”转变为一个稳健的、科学上确立的细胞类型，标准必须高得多。一个真正严格的细胞类型定义必须是可证伪和可重复的。这需要一种新的科学纪律水平。

首先，它要求跨实验室可重复性。如果一个细胞类型只能由一个实验室、使用一台特定机器发现，那它就不是真实的。一个合适的基准测试将涉及多个实验室分析随机化、盲法的样本，看他们是否能使用预先注册的分析计划和量化的性能阈值（例如，分类器必须以至少 $0.9$ 的曲线下面积，即AUC，来识别该类型）独立发现相同的细胞群体。

其次，它要求跨平台一致性。细胞的身份是一种基本的生物状态。因此，测量该状态的不同方式——通过其RNA（scRNA-seq）、通过其DNA的哪些部分是开放的（snATAC-seq），或通过其蛋白质含量——都应指向相同的结论。如果“RNA类型”与“染色质类型”不匹配，我们就没有一个可靠的定义。

这一终极挑战将细胞类型聚类从一种单纯的数据分析技术，提升为现代生物学家寻求创建真正的“细胞周期表”——一个全面、基于共识的生命构件目录，一张不仅美丽而且真实的地图——的基础工具。

应用与跨学科联系

几个世纪以来，生物学家们透过显微镜凝视着生命组织中令人困惑而又美丽的织锦。这就像从高空俯瞰一座庞大的城市——你可以看到错综复杂的街道和建筑格局，但你不知道谁住在里面，他们以何为生，或者他们如何互动。宏大的梦想一直是超越建筑本身，创建一个完整的普查，一本细胞世界的“名人录”。在单细胞基因组学革命的推动下，细胞类型聚类不仅使这一梦想成为现实，还为我们提供了一个全新的视角来审视发育、健康和疾病的基本过程。

基础性探索：创建生命图谱

想象一下，有人给你一杯冰沙，让你判断它的成分。通过品尝，你对味道有一个大致的感觉——一种甜美、果香的平均味。但你无法确定它是否含有三颗草莓和一根香蕉，还是两颗草莓和两根香蕉。这就是传统的“批量”生物学分析世界，组织被磨碎，我们测量的是数百万细胞的平均属性。

现在，想象一下你能奇迹般地将那杯冰沙“反混合”，把它分离回每一片独立的水果和蔬菜。这正是单细胞测序和聚类赋予我们的力量。我们不再只有一个像胰腺这样复杂器官的模糊、平均化的图谱，而是可以构建一个“细胞图谱”。我们终于可以计数并表征每一种独特的细胞类型：产生胰岛素的β细胞，制造消化酶的腺泡细胞，以及它们所有的邻居。更深刻的是，我们可以捕捉到细胞存在的短暂瞬间——那些以前看不见的、稀有且短暂的发育状态，它们独特的信号曾消失在平均值的噪音中。我们第一次能够阅读每个细胞的独立故事，而不仅仅是书的封底简介。

解析复杂性：从健康组织到疾病

这种新的高分辨率镜头在疾病研究中的变革性尤为突出。例如，像癌症这样的疾病，并非由完全相同的流氓细胞组成的单一军队。它是一个远为复杂和狡猾的实体。

把一个实体瘤想象成一个功能失调、混乱的生态系统。通过对黑色素瘤的活检样本应用细胞类型聚类，我们可以生成这个恶性世界的详细图谱。这不仅揭示了一种类型的癌细胞，而且常常是多个亚克隆，每个都有其独特的遗传怪癖和潜在的弱点。但故事并未就此结束。分析还揭示了肿瘤“邻里”中所有的共谋者和潜在的英雄，即“肿瘤微环境”。我们可以识别出那些试图对抗肿瘤的特定免疫细胞，那些无意中为肿瘤生长搭建脚手架的成纤维细胞，以及那些被拉拢来形成新血管为其供养的内皮细胞。理解这个复杂的细胞社会是设计更智能、更有效疗法的关键，而聚类则提供了必需的角色名单。

回答具体问题：谁做了什么？

一旦我们有了角色名单，就可以开始分配角色。在管弦乐队中，谁演奏短笛？在身体应对感染的反应中，是哪个细胞在拉响警报？聚类使我们能够从编目转向功能性研究。

假设免疫学家发现了一种关键的信号分子——一种我们不妨假设称为“Immunomodulin-X”的细胞因子——它对于协调抵御细菌入侵者的防御至关重要。迫切的问题是：哪种细胞类型是它的来源？是T细胞、B细胞还是巨噬细胞？其分析策略既优雅又强大。首先，我们对从感染部位分离出的数千个免疫细胞应用聚类算法。这将异质混合物根据其整体基因表达模式分到不同的桶里：这边是T细胞，那边是巨噬细胞。然后，我们只需查看每个桶内，并提问：在哪个细胞类型中，“Immunomodulin-X”的基因被高水平开启？这个谜题不是通过猜测解决的，而是通过一个系统的、数据驱动的普查，直接将功能与细胞身份联系起来。

新的维度：细胞在哪里？

标准的单细胞实验，尽管功能强大，却有一个主要的盲点。为了分析细胞，我们必须首先解离组织，将其美丽的结构变成一种细胞汤。我们得到了一个完美的零件清单，但丢失了蓝图。我们知道谁在楼里，但不知道他们在哪个楼层，也不知道他们的邻居是谁。

这一局限性催生了一项奇妙的新技术：空间转录组学，它能原位测量基因表达。这立刻引出了一个有趣且富有启发性的问题。如果一个对地理位置一无所知的聚类算法，将位于胚胎大脑两端的两组细胞归为一类，这意味着什么？这并不意味着实验失败或算法损坏。这是一个深刻的生物学洞见：细胞身份超越了位置。两个神经元可以属于同一“类型”——共享相同的分子机制和功能角色——即使它们居住在完全不同的社区。这就像发现两个从事完全相同、非常具体职业的人住在不同的城市；他们共同的身份是由他们做什么来定义的，而不是他们身在何处。

真正的魔力发生在我们把“谁”和“哪里”结合起来的时候。让我们回到肿瘤生态系统。用标准方法，我们可能能识别出“促肿瘤”和“抗肿瘤”的巨噬细胞。利用空间转录组学，我们可以创建一张战场的地图。我们可能会发现，奸诈的促肿瘤巨噬细胞主要位于垂死的坏死区域附近，而英勇的抗肿瘤巨噬细胞则聚集在肿瘤的侵袭前沿，进行着一场必败的战斗。这不再仅仅是一份细胞清单；它是一张揭示疾病前线和后勤枢纽的战略地图。

超越转录组：细胞身份的多模态视图

到目前为止，我们主要通过细胞活跃表达的基因——即其转录组——来定义一个细胞。但这就是全部故事吗？一个人的定义仅仅取决于他图书馆里的书吗？细胞的身份也是其表面蛋白、物理形状和动态行为的函数。

细胞生物学的前沿是捕捉和整合这种多方面的身份。像CITE-seq这样的技术可以同时测量一个细胞的RNA和关键表面蛋白的丰度。这至关重要，因为有时两个细胞可以有几乎相同的转录组，但由于其外部一个蛋白的存在与否而在功能上截然不同。为了揭示这些微妙的差异，我们需要复杂的计算框架，能够智能地权衡来自RNA和蛋白质两个世界的证据，以得出更全面的细胞类型定义。

这种整体性视野在神经科学领域达到了目前的顶峰。什么是神经元？它是其基因、其独特的电信号（电生理学）及其错综复杂的树枝状形态（形态学）的交响曲。使用一种名为Patch-seq的卓越技术，科学家现在可以从单个神经元中捕获所有这三种模态的信息。最终的分析挑战是构建一个统一的概率模型，能够解释这三种完全不同的语言——RNA的数字代码、电的模拟波形和细胞体的几何雕塑——并得出结论：“啊哈，这三个迥异的视图都指向了同一个潜在的细胞类型”。这是通过优雅的统计框架完成的，这些框架不仅尊重每种数据类型的独特性，还能优雅地处理其中一块拼图缺失的情况。这就是未来：不是通过单一属性，而是通过其存在的全部来定义细胞。

动态与挑战：过程与陷阱

生命不是静止的；它是一个动态的过程。细胞出生、分化、改变并死亡。虽然聚类为我们提供了清晰的快照，但下一步是将这些快照排列成一部电影。

这就是“轨迹推断”的目标，它旨在将细胞沿着一个连续的进程进行排序，例如从干细胞到成熟细胞类型。这种推断出的进程通常被称为“伪时间”。然而，在我们构建这个时间线之前，我们通常必须先进行聚类。考虑研究复杂的血液形成过程，其中单个干细胞可以产生许多不同的谱系。如果你简单地试图在所有细胞中画一条连续的线，你会创建一条在不相关家族之间跳跃的无意义路径。因此，聚类是解开主要谱系必不可少的第一步。它有助于识别发育的起点、分支点和终点，确保我们构建的是一个连贯的家族树，而不是一团乱麻。

最后，我们必须保持谦逊，认识到数据有时会试图欺骗我们。想象一下，研究来自一个病毒感染患者的细胞。病毒劫持了细胞的机器，迫使其产生大量的病毒RNA。这个信号可能如此响亮，以至于淹没了所有其他的生物学信息。一个天真的聚类算法只会根据细胞被感染的程度进行分组，完全忽略了病毒感染了不同类型的宿主细胞这一更微妙但至关重要的事实。为了看透这层迷雾，我们需要巧妙的计算策略。一种强大的方法是建立一个数学模型来描述感染对基因表达的影响，然后从我们的数据中计算上“减去”这个压倒性的信号。通过消除病毒震耳欲聋的咆哮，我们最终可以听到宿主细胞真实身份的微弱低语。这是一个美丽的提醒，聚类不仅仅是一个自动化工具，更是一门手艺，需要生物学和数据科学的深入、周密的结合，才能揭示自然界隐藏的真相。