单细胞数据处理：从计数到生物学洞见

玻尔百科

定义

单细胞数据处理：从计数到生物学洞见是生物信息学中的一个计算工作流，旨在将原始测序数据转化为具有意义的生物学解释。该过程首先通过严格的质量控制和归一化处理来消除技术差异，随后利用降维技术和基于图的聚类分析来识别不同的细胞类型。通过轨迹推断和 RNA 速率等先进方法，研究人员能够模拟细胞分化和疾病异质性，从而推动精准医学的发展。

核心要点

初始数据处理需要严格的质量控制（QC），使用UMI计数、检测到的基因数和线粒体DNA比例等指标来过滤掉受损或低质量的细胞。
标准化校正了细胞间的技术差异，而像PCA这样的降维技术则揭示了潜在的生物学流形并对数据进行去噪。
基于图的聚类识别离散的细胞类型或状态，而轨迹推断和RNA速率则描绘了细胞分化和命运动态等连续过程。
单细胞分析通过剖析癌症等疾病中的细胞异质性、模拟抗生素耐药性以及优化免疫疗法，正在给医学带来一场革命。

引言

正如高分辨率望远镜在我们曾经只能看到模糊星云的地方揭示了一个由无数恒星组成的宇宙，单细胞技术通过让我们能够在生命的基本单位——单个细胞——的层面上进行研究，从而彻底改变了生物学。这种从分析组织平均水平到分析成千上万个单细胞的飞跃，提供了前所未有的细节，但也带来了巨大的挑战。原始输出——一个巨大且充满噪音的分子计数矩阵——是来自生物系统的神秘信息。我们如何解读这一信息，以区分真实生物信号与技术假象，并将数字转化为发现？本文将作为单细胞数据分析计算之旅的综合指南。在第一章“原理与机制”中，我们将剖析核心工作流程，从最初的质量控制和标准化，到绘制细胞动态的轨迹推断和RNA速率等高级技术。随后，“应用与跨学科联系”一章将展示这些方法如何被用于揭示生物学奥秘和革新医学，从解码基因调控规则到设计下一代癌症疗法。我们的旅程始于首要且最关键的任务：学会如何读取数据。

原理与机制

想象一下，要了解一个复杂的社会，不是通过查看其总体GDP或国家统计数据，而是通过采访每一位公民，了解他们的生活、工作和当前活动。细节的丰富程度将是惊人的。你可以绘制出社区地图，观察人们如何转换职业，并从基层开始理解经济。这正是单细胞生物学赋予我们的力量——也是挑战。过去我们只能测量整个组织的平均活动，现在我们可以逐一分析成千上万个单个细胞。这类实验的结果就是我们的起点：一个被称为计数矩阵的巨大数字表格。

在这个我们称之为 $X$ 的矩阵中，每一行代表一个细胞，每一列代表一个基因。条目 $x_{cg}$ 中的数字告诉我们，在细胞 $c$ 内捕获并计数了多少来自基因 $g$ 的信使RNA（mRNA）分子。这得益于一种名为独特分子标识符（UMIs）的巧妙技术，它们就像在任何扩增步骤之前就附着在每个mRNA分子上的微小条形码，确保我们计数的是原始分子，而不仅仅是实验室制造的副本。这个计数矩阵是分子生物学中心法则在起作用的直接、定量的快照，是每个细胞在被捕获瞬间正在活跃使用的基因的读出。但这张快照常常是模糊、破损和污迹斑斑的。我们的首要且最重要的任务是学会如何读取它。

分诊的艺术：从垂死和已死的细胞中分离健康细胞

在我们的全市调查中，有些访谈回应会不完整、无意义，或者来自感觉不舒服的个人。我们需要一个质量控制（QC）流程来过滤掉这些回应。我们的细胞也是如此。为单细胞分析准备组织的过程具有机械应力。一些细胞会受损，其外膜破裂。一个受损的细胞就像一个漏水的袋子，将其内容物泄漏到周围的液体中。

这种细胞窘迫如何在我们的数据中体现出来？它留下了三个明显的特征。

首先，由于细胞的大部分mRNA已经泄漏，我们只能捕获并计数极少数的分子。这导致细胞的总UMI计数较低，我们通常称之为文库大小。“袋子”几乎是空的。

其次，因为我们从一个更小、多样性更低的分子池中取样，我们很可能会错过丰度较低的转录本。这导致检测到的基因数量较少。我们只捕捉到最常见的信息；更微妙的对话则丢失了。

第三，这是一项精彩的生物学侦探工作，我们关注线粒体分数。线粒体是细胞的“发电厂”，它们就像漂浮在主要细胞“袋子”内部的更小的密封容器。它们有自己的DNA和自己的转录本。当细胞外膜破裂时，这些线粒体通常会保持一段时间的完整，比细胞质更有效地保留其内容物。结果，尽管所有分子的总数急剧下降，但来自线粒体的分子比例却急剧增加。一个可疑的高线粒体分数通常是机器中的幽灵——一个受压、垂死或已死亡细胞的标志，其细胞质内容物已被冲走。

通过对这三个指标设置合理的阈值——过滤掉UMI太少、基因太少或线粒体分数太高的细胞——我们完成了第一个关键的清洗步骤。我们正在丢弃那些混乱的调查回应，以专注于来自健康细胞的清晰、信息丰富的回应。

寻找共同的标尺：标准化的挑战

让我们回到城市调查的例子。想象一位调查员异常认真，耐心地记录下长而详细的回答（一个“深度测序”的细胞）。另一位则行色匆匆，只草草记下简短的回复（一个“浅度测序”的细胞）。我们不能直接比较他们访谈的原始字数来判断市民的口才；差异源于调查员，而非受访者。这就是标准化（或称归一化）的挑战。

在单细胞实验中，诸如mRNA捕获效率和测序深度等技术因素在细胞之间各不相同。这意味着两个生物学上完全相同的细胞最终可能具有截然不同的总UMI计数。为了比较它们，我们必须校正这种技术变异。

一个简单但常常误导人的方法是将计数转换为每百万计数（CPM）。该方法重新调整每个细胞中的计数，使总数达到一百万。问题在于，它强制每个细胞具有相同的总输出。如果一个细胞出于真实的生物学原因，其整体代谢活动急剧增加，使其mRNA总量翻倍，CPM将无法察觉到这一点。相反，它会使情况看起来好像每个基因的相对表达量都减半了。这是成分数据的基本陷阱：当整体被限制为一个常数时，一部分的变化必然导致其他部分发生相反的变化，从而混淆了真实的生物学调控。

一个远为优雅的解决方案是大小因子标准化。这种方法不假设所有细胞都具有相同的总mRNA，而是提出了一个更合理的假设：大多数基因的表达在不同细胞间不会发生剧烈变化。基于此假设，我们可以为每个细胞计算一个特定的“大小因子”——一个能够最好地对齐所有细胞中这些相对稳定基因表达水平的缩放常数。该方法的现代形式可以从一个优美的统计学原理推导出来，即寻找一个能稳健地最小化计数与参考样本之间对数比率的缩放因子，从而提供了一个更可靠的比较基准。

现代方法更进一步。它们构建了数据的显式统计模型，通常使用负二项分布，该分布非常适合过度离散的计数数据。这些模型，例如sctransform中使用的模型，可以同时考虑测序深度并稳定数据方差，从而产生比简单的“标准化计数”更适合下游分析的残差。

当我们合并来自不同实验或批次的数据时，会遇到一个相关的挑战。一种巧妙的合并策略是寻找互近邻（Mutual Nearest Neighbors, MNNs）。这些是细胞对，每对中的两个细胞分别来自不同批次，并且在高维基因表达空间中是彼此最亲密的“朋友”。这些MNN对充当锚点，代表了尽管存在技术性批次效应但仍处于相同生物学状态的细胞。通过测量使这些细胞对对齐所需的平均向量，我们可以计算出一个局部的、非线性的校正，以扭曲数据集使其对齐，从而在不对批次效应的性质做简单化假设的情况下将其移除。

见树又见林：流形假设

经过质量控制和标准化后，我们得到了一个更干净的数据矩阵。但它仍然是巨大的，可能有20,000个代表基因的列。试图在一个20,000维的空间中辨别模式，不仅是计算上的噩梦，在统计上也是危险的，这个问题被称为“维度灾难”。在如此高的维度空间中，距离的性质变得很奇怪，找到有意义的邻域几乎是不可能的。

幸运的是，生物学给了我们一条生命线。像细胞分化这样复杂的生物过程，虽然是通过数千个基因来测量的，但它并非在这个巨大空间中的随机游走。它是一个协调的程序，由数量少得多的核心基因调控网络所编排。这意味着细胞状态并不会填满整个20,000维空间。相反，它们位于或接近一个嵌入其中的、维度低得多的表面或流形上。

打个比方，这就像一颗绕地球运行的卫星的轨道。它的位置可以在三维空间中描述，但其实际轨迹受万有引力定律约束，形成一个简单的一维椭圆——一个低维流形。要理解卫星的路径，你不需要追踪其内部的每一个原子；你只需要理解其轨道的几何形状。

因此，我们对数据应用降维技术，其中最著名的是主成分分析（PCA）。PCA寻找基因表达矩阵中变异最大的正交轴。对于单细胞数据，这些最初的几个主成分通常对应于潜在生物学流形的主要方向。这不仅仅是一种计算上的捷径，更是一种强大的去噪过程。变异的主要轴倾向于捕捉生物学程序的协调信号，而剩下的数千个低方差轴则往往被随机、不协调的噪音所主导。通过将我们的细胞投影到前50个左右的主成分上，我们获得了一个更清晰、更稳健且在数学上更易于处理的细胞状态表示，保留了森林（主要信号），同时清除了噪音的灌木丛。

绘制细胞状态图谱

现在我们的细胞被表示为低维、净化后空间中的点，我们终于可以开始绘制它们世界的地图了。这张地图可以呈现两种主要形式：离散城市的集合或连续高速公路的网络。

寻找城市：聚类

一个自然的目标是将相似的细胞分组，以定义细胞类型或状态。这就是聚类。在单细胞分析中，一种特别强大的方法是基于图的聚类。我们首先构建一个图，其中每个细胞是一个节点。然后，为每个细胞画出连接它与其k-近邻（kNN）的边。这个图构成了底层数据流形的骨架。为了使这个骨架更稳健，我们可以将其细化为一个共享近邻（SNN）图，其中两个细胞之间连接的强度与它们共同拥有的“朋友”数量成正比。这有助于移除虚假的连接，并巩固真实社群内部的关系。

一旦有了这个图，我们就可以应用社群检测算法，例如广泛使用的Leiden算法。该算法旨在将图划分为多个簇，使得簇内部的连接多于外部的连接，这一特性通过一个称为模块度的指标来量化。由此产生的社群代表了我们推定的细胞类型。然而，这个过程并非魔法。这些簇的数量和构成取决于我们选择的参数，如邻居数 $k$ 和分辨率参数 $\gamma$ 。因此，负责任的分析需要检查稳定性：我们必须确保我们识别的核心簇在一系列合理的参数选择下是稳健和可重复的，而不仅仅是某个特定设置下的人为产物。

绘制高速公路：轨迹推断

但是，如果我们研究的生物过程本身是连续的，比如干细胞平滑地发育成一个成熟的神经元，那该怎么办？在这种情况下，将细胞强行划分到离散的簇中，就像在连续的郊区扩张地带上画出任意的城市边界。这可能会产生误导，并掩盖潜在的动态过程。

另一种方法是绘制连接细胞的“高速公路”。这就是轨迹推断。我们可以将我们的簇不作为最终目的地，而是作为更大地图上的航点。像Slingshot这样的方法首先通过构建一个最小生成树（MST）以最简约的方式连接各个簇的中心。这棵树提供了发育路径的一个粗略的、分支状的骨架。然后，该方法通过拟合沿着这些路径蜿蜒穿过整个细胞云的平滑主曲线来细化这个骨架。

一个细胞在这些曲线上的投影点，从指定的起点（如一个祖细胞簇）开始测量的距离，赋予了它一个伪时间值。伪时间并非真实的、按年代顺序排列的时间。它是一个无单位的相对进展量度。它是一个细胞在生物过程中旅程的“完成百分比”条，是一个潜在的坐标，将细胞沿着分化的连续谱进行排序。

感知流动：RNA速率与动态前沿

令人惊讶的是，答案是肯定的，这要归功于一个名为RNA速率的概念。这个绝妙的想法源于对mRNA分子生命周期的观察。当一个基因首次被转录时，它会产生一个包含内含子的未剪接前体mRNA分子。这些内含子随后被剪接掉，形成成熟的、已剪接的mRNA，并最终被降解。通过在每个细胞中为每个基因分别计数未剪接和已剪接的分子，我们可以观察到这个过程的动态。

如果一个基因正在被积极开启，我们预计会看到相对于现有已剪接转录本池，新的未剪接转录本过量。如果一个基因最近被关闭，我们会看到一个亏损，因为未剪接的前体被耗尽，而成熟的mRNA仍在被处理和降解。通过将一个简单的动力学模型与这两个计数值进行拟合（ $\frac{ds}{dt} = \beta u - \gamma s$ ，其中 $u$ 是未剪接的丰度， $s$ 是已剪接的丰度），我们可以估计每个基因的瞬时“速率”——其变化的速度和方向。将所有基因的这些速率结合起来，我们为每个细胞得到一个高维速率向量，指向其未来的状态。

当我们将这些速率向量投影到我们的低维地图上时，它们显示为小箭头，指示了每个细胞的预测路径。这将我们的静态地图转变为动态地图，证实了沿轨迹的流动，并揭示了细胞在分叉点上正在做出的命运选择。

这种动态视角使我们能够探究细胞命运决定的物理学本质。当一条发育路径分裂——即分岔——时，这是一个真实的生物学选择，还是仅仅是一个测量假象？我们可以求助于谱图理论中深刻而优美的数学。一个真正的分岔会在分裂前的细胞状态流形中产生一个几何上的“瓶颈”。这个瓶颈会留下一个标志性的特征：在局部的细胞-细胞邻域图的谱隙（图拉普拉斯算子的第二小特征值）中出现一个短暂的、局部的下降。通过沿着伪时间追踪这个值并使用严格的统计检验，我们可以区分真实的、预定的命运决定与数据中的随机波动。

这整个分析旅程——从原始、嘈杂的分子计数矩阵到一个动态的细胞命运图谱——构成了一种新型的计算显微镜。它让我们能够以前所未有的分辨率剖析组织，区分真实的生物学变化与那些可能困扰传统批量测量（bulk measurement）的混淆性假象，例如细胞类型比例的变化。我们不仅能看到细胞是什么，还能看到它们正在成为什么。

应用与跨学科联系

走过了让我们能够处理单细胞数据的原理和机制之旅，我们现在到达一个激动人心的目的地：应用的世界。在这里，标准化、降维和聚类这些抽象概念绽放成强大的工具，重塑着我们对生命本身的理解。仅仅罗列这些应用，就像展示一位绘画大师的作品目录而不讨论其灵魂。相反，让我们本着Feynman的精神，开始一次探索之旅，去欣赏这种看待生物世界的新方式如何揭示其在不同科学前沿所固有的美丽、复杂性和统一性。我们将看到，单细胞分析不仅仅是一项新技术，更是一个用于发现的新透镜。

揭示细胞的隐藏规则

生物学的核心是一门关于规则的科学。几个世纪以来，我们一直试图揭示支配细胞行为的逻辑——它如何读取自身的遗传蓝图，如何做出决定，以及如何维持其身份。这些规则常常被数百万细胞的集体嗡鸣声所平均化而变得模糊不清。单细胞分析揭开了这层帷幕，让我们能够窃听单个行动者的声音，发现以前看不见的原理。

随机性的交响乐

想象一个管弦乐队。从观众席上，你听到的是一首宏伟、统一的交响乐。但如果你能单独聆听每一位音乐家，你会注意到微小的、随机的波动——小提琴手的手指轻微颤抖，圆号手的呼吸并非完全平稳。这些个体的变异是表演的一个基本组成部分。生命亦是如此。读取基因和产生蛋白质的过程并非确定性的、工厂式的生产；它们是极其随机的（stochastic）。

单细胞测量为我们提供了前所未有的能力来量化这种随机性。通过设计巧妙的实验，例如，在相同细胞内使用由相同遗传“开启”开关控制的两个不同荧光报告基因，我们可以剖析这种噪音的不同来源。我们发现，蛋白质水平的总变异可以分为两部分。首先是内在噪音，即单个基因转录和翻译化学反应的内在随机性——好比小提琴手自身的颤音。其次是外在噪音，它来自影响所有基因的细胞环境波动，例如可用核糖体或聚合酶数量的变化——好比指挥家为整个乐团巧妙地改变节拍。通过测量我们两个报告基因表达的相关性，我们可以区分这两种贡献。这不仅仅是一个学术练习；理解噪音的本质对于理解细胞如何在一个不可靠的世界中做出可靠的决定至关重要，这是发育生物学和疾病领域的一个核心问题。

解码基因组的操作系统

如果基因组是细胞的硬件，那么基因调控网络就是其操作系统。这个网络决定了哪些基因以何种顺序被开启或关闭，从而创造出特定的细胞类型。这个操作系统的一个关键部分是大量的cis-调控元件（顺式调控元件），例如增强子，它们是DNA的片段，作为开关来控制基因活性，通常是从很远的距离进行调控。找出哪个开关控制哪个基因一直是一项艰巨的挑战。

在这里，整合多种单细胞模态成为逆向工程这个遗传回路的强大工具。通过同时分析一个细胞的基因表达（使用scRNA-seq）及其DNA的可及性（使用scATAC-seq），我们可以开始在因果之间建立直接联系。我们可以追踪一个发育过程，比如中脑和后脑之间边界的形成，然后提问：当基因 Otx2 在前部细胞中开启时，哪些邻近的DNA区域在此之前变得可及？通过将特定增强子上染色质可及性的动态模式与邻近基因的表达相关联，并通过确认关键转录因子结合基序的存在，我们可以构建一张高置信度的调控图景。这类似于观察一位工程师探测一块复杂的电路板，看必须拨动哪个开关才能点亮特定的灯泡，并最终推断出生命最复杂机器的整个布线图。

细胞社群的逻辑

没有细胞是一座孤岛。组织和器官是熙熙攘攘的社群，细胞在其中不断交流、合作和竞争。单细胞分析为我们提供了社会科学家的视角来观察这个细胞社会，让我们能够绘制出邻里图，窃听对话，并理解产生功能和形态的集体行为。

细胞间的私语

辅助T细胞如何指示B细胞产生抗体？癌细胞如何腐化其邻居？这些相互作用是通过一套复杂的信号分子语言来介导的，其中一个“发送”细胞分泌的配体与一个“接收”细胞上的受体结合。多年来，我们识别这些对话的最佳猜测是查看一个细胞群体是否表达配体基因，而另一个细胞群体是否表达受体基因。

单细胞RNA测序使我们能够极大地优化这一搜寻过程。我们现在可以探究某个发送细胞类型是否共表达一个配体的信使RNA（ $mRNA$ ），而其邻近的接收细胞类型是否共表达其受体的 $mRNA$ 。但在这里，我们必须像Feynman一样——保持怀疑和严谨。 $mRNA$ 的存在只是对话的线索，而非对话本身。中心法则告诉我们， $mRNA$ 必须被翻译成蛋白质，配体蛋白质必须被分泌，它必须穿过组织，并且必须在另一个细胞表面找到一个受体蛋白质。单细胞方法迫使我们直面这种复杂性，并定义什么才构成信号传导因果关系的真实证据。一个强有力的推断需要的不仅仅是 $mRNA$ 的共表达；它需要正交证据，例如直接测量蛋白质、显示细胞足够近以便通信的空间数据，以及理想情况下，显示阻断配体能阻止接收细胞下游反应的扰动实验。这种严谨的思维对于在我们理解细胞对话时从相关性走向因果性至关重要。

从基因列表到生物学故事

在我们对单细胞数据进行聚类后，通常会得到十几个或更多的细胞群组，每个群组都由数百个在该群组中更活跃的基因列表来定义。这有点像情报机构截获了加密信息——我们有原始信息，但它意味着什么？我们如何将一个像 GZMB、PRF1 和 IFNG 这样的基因列表翻译成“细胞毒性T细胞”这个生物学概念？

这个翻译过程被称为功能富集分析，它是生物信息学的一块基石。该策略包括将我们某个簇的“标记基因”列表与庞大的、经过整理的、包含已知生物功能基因集（如Gene Ontology或KEGG通路）的数据库进行比较。使用严格的统计检验，如Fisher精确检验或基因集富集分析（GSEA），我们可以探究我们的基因列表是否在例如“T细胞活化”通路等基因集中“过度代表”。这使我们能够为我们的细胞簇赋予功能身份，将抽象的数据点转化为可识别的生物学角色，并从基因表达值的海洋中编织出一个连贯的叙事。

医学领域的一场革命

或许，单细胞分析最深远的影响是在医学领域。通过提供疾病的高分辨率视图，它正在改变我们诊断疾病、发现药物和设计疗法的方式。它是一个新时代精准医学的引擎，在这个时代，治疗不仅针对患者，还针对驱动其疾病的特定细胞群。

攻克堡垒：生物膜与抗生素

考虑一个由植入物上的生物膜引起的持续性手术感染。生物膜不仅仅是细菌的松散集合；它是一个结构化的、堡垒般的社群。一些细菌位于表面，暴露于血流中，而另一些则深埋其中，被一层黏液基质所保护。这些不同的微环境导致了不同的细胞状态。一些细菌可能在活跃生长，而另一些则进入休眠的“持留菌”状态，使它们对抗生素具有高度耐受性。

治疗此类感染是一项艰巨的挑战。像万古霉素（vancomycin）这样的抗生素如何穿透这个堡垒？它能否以足够高的浓度到达深层细菌并发挥作用？单细胞分析，结合经典物理学，提供了一条前进的道路。通过表征每个细菌亚群的特性——其位置、代谢状态、固有抗性（MIC）以及将药物泵出细胞的能力（外排）——我们可以建立一个定量模型。我们可以使用扩散方程来预测生物膜内任何深度的药物浓度。通过将这个局部浓度与该深度细胞的特性进行比较，我们可以预测哪些亚群将被杀死，以及至关重要的是，哪些将存活下来。这为设计能够攻破堡垒壁垒并根除感染的联合疗法提供了理性基础。

一场抗癌新战争

癌症是一种细胞异质性的疾病。肿瘤是一个复杂的生态系统，由具有不同突变的癌细胞、被裹挟的正常细胞以及试图反击的免疫细胞组成。单细胞分析已成为剖析这个生态系统不可或缺的工具。

我们现在可以追踪癌症最阴险的伎俩：转移（metastasis）。为了扩散，癌细胞通常会经历一个称为上皮-间充质转化（EMT）的过程，在此过程中它们脱去固定的身份，获得迁移的能力。我们可以使用单细胞数据为单个细胞创建“EMT分数”，这不仅让我们能看到起点和终点，还能看到被认为特别善于建立新肿瘤的危险的“混合”中间状态。这也迫使我们开发复杂的方法来区分这些真实的生物学状态与技术假象，这不断提醒我们科学严谨性的重要。

此外，我们可以将这种高分辨率的视图转化为药物发现平台。想象一下，你有一位白血病患者，体内混合了癌性血细胞和健康血细胞。理想的药物只会杀死癌细胞。通过将CRISPR基因编辑的威力与单细胞测序相结合，我们可以在巨大规模上实现这一点。我们可以创建一个细胞池，其中每个细胞都有一个不同的基因被敲除。然后，我们使用单细胞分析来观察哪些基因敲除会导致癌细胞克隆死亡，而健康克隆则安然无恙。这是一种直接的、功能性的筛选，用于寻找选择性治疗靶点，从而加速通往更智能、毒性更低的癌症治疗之路。

调控免疫系统

我们将要访问的最后一个前沿领域是免疫学，单细胞技术在这里引发了一场名副其实的复兴。我们的免疫系统是终极的适应性、去中心化的力量，理解它需要单细胞的视角。

这一点在癌症免疫疗法中表现得最为明显，这是一种革命性的治疗方法，它释放患者自身的免疫系统来对抗肿瘤。一种关键疗法，抗PD-1疗法，通过重新激活“耗竭”的T细胞来发挥作用。但为什么它对一些患者创造奇迹，而对另一些患者却失败了？通过逐个细胞地分析肿瘤，我们现在可以以惊人的清晰度回答这个问题。我们可以看到，T细胞的“耗竭”状态并非单一实体，而是一个谱系。拥有健康“祖耗竭”T细胞池——即那些疲惫但可以被唤醒的细胞——的患者对治疗反应良好。而那些肿瘤中充满“终末耗竭”T细胞的患者则不然。这一见解源自结合了RNA、蛋白质和T细胞受体序列的多模态数据，正在为能够指导治疗决策的预测性生物标志物铺平道路。

我们甚至可以更进一步，从观察免疫系统到工程改造它。在CAR-T细胞疗法中，患者的T细胞被改造以识别并杀死癌细胞。一个主要的局限性是这些工程细胞会随着时间的推移而变得耗竭。通过使用结合了谱系追踪的纵向单细胞分析，我们简直可以亲眼目睹这个耗竭过程在数天和数周内展开。我们可以建立复杂的数学模型来测量活性T细胞转变为耗竭状态的速率。这种定量的理解使我们能够测试新的工程策略——例如，将一个显性负性PD-1构建体直接整合到CAR-T细胞中——并精确测量它们在多大程度上减缓了耗竭过程。这是系统生物学的巅峰：一个测量、建模和工程的良性循环，旨在创造更有效的活体药物。

从单个细菌内分子的随机舞蹈到癌症疗法的战略设计，单细胞分析的应用与生物学本身一样广阔。通过拥抱个体的复杂性，我们找到了一种新的、更深刻的方式来理解整体，揭示了生命基本原理深邃而美丽的统一性。