try ai
科普
编辑
分享
反馈
  • 轨迹推断

轨迹推断

SciencePedia玻尔百科
核心要点
  • 轨迹推断通过识别称为流形的潜在数据结构,从静态的单细胞基因表达快照中重建连续的生物学过程,例如细胞发育。
  • 伪时间是推断出的细胞沿轨迹的生物学进展的度量,代表其成熟度或发育阶段,而非实际的时间。
  • RNA速率通过比较未剪接(新合成)与已剪接(成熟)RNA的比例来确定细胞变化的方向,为轨迹增添了关键的“时间之箭”。
  • 轨迹推断虽然是一个强大的假说生成工具,但它不能证明因果关系,并且对实验设计、数据质量和潜在的数学假设高度敏感。

引言

想象一下,试图通过观察数千张独立的照片来理解一支舞蹈的连续流动。这正是现代生物学面临的核心挑战:我们如何从静态的单细胞数据中重建细胞发育或疾病进展等动态过程?轨迹推断提供了一种强大的计算解决方案,它假设细胞遵循连续的分子变化路径,从而将这些快照制作成一部“电影”。本文将揭开这一革命性方法的神秘面纱。在第一章“原理与机制”中,我们将剖析轨迹推断背后的核心思想,探索算法如何构建细胞图谱,并利用伪时间和RNA速率等概念来绘制细胞的旅程。随后的“应用与跨学科联系”一章将展示这些方法如何改变发育生物学、癌症研究、免疫学等领域,揭示驱动生物世界的隐藏编排。

原理与机制

想象一下,你有一张拥挤舞厅的单幅照片。在照片中,你看到了各个年龄段的人:刚学走路的幼儿、在尴尬交谈的青少年、跳舞的年轻人以及在桌边休息的老年夫妇。你能从这单一、静态的快照中,重建出一个人从婴儿期到老年的完整生命故事吗?这似乎不可能。然而,这恰恰是轨迹推断所面临的挑战和其魅力所在。我们得到的是成千上万个单个细胞的快照,每个细胞都冻结在其生命中的特定时刻,我们的目标是从中重建其发育的连续影片。这怎么可能做到呢?答案在于几个优美且出人意料的直观原则。

绘制细胞图景

第一个伟大的想法是,细胞的行为不像会瞬移的魔术师,随意地从一个身份跳到另一个身份。相反,它们遵循着路径。一个干细胞变成神经元的过程是渐进、连续的转变,其内部机制——即基因表达——会随时间平滑地改变。

现在,让我们想象一个广阔、抽象的“空间”,其中每一种可能的基因表达模式都有其独特的坐标。一个表达基因 AAA 和 BBB 但不表达 CCC 的细胞在一个点;一个表达 BBB 和 CCC 但不表达 AAA 的细胞在另一个点。在这个巨大的空间(其维度与基因数量一样多)中,单个细胞的身份只是一个点。而一群正在经历分化等过程的细胞,将不会像尘埃一样随机散布,而是会形成一条连续的轨迹,一种嵌入在这个高维空间中的结构或​​流形​​。

轨迹推断算法的工作就是发现这个隐藏的结构。这就像一个侦探到达现场。你看到泥地里有成千上万个脚印。通过假设人们是沿着路径行走的,你将邻近的脚印连接起来,从而绘制出道路和交叉口。在计算上,算法测量所有细胞对之间的“转录相似性”。基因表达谱非常相似的细胞被认为是邻居。通过将每个细胞与其最近的邻居连接起来,算法构建了一个图——一个揭示了发育过程潜在形状的连接网络。

通常,这个重建的图谱看起来像一个带辐条的轮毂或一棵有分枝的树。例如,在一项关于免疫系统的研究中,我们可能会看到一个密集的、由共同祖细胞组成的中心集群,从中分出几条“臂”,每条臂都通向一个不同的、特化的细胞命运,如T细胞或B细胞。该算法将一堆杂乱的细胞整理成了一幅有意义的发育地理图。

伪时间:进展的度量,而非时钟

一旦我们有了图谱,就需要一种方法来描述细胞在图上的位置。这就是​​伪时间​​的作用所在。如果轨迹是一条蜿蜒的道路,伪时间则提供了里程碑。我们通常选择一个“起点”,通常是我们已知最为原始的祖细胞群体,然后算法根据每个细胞与该起点沿路径的距离来对所有其他细胞进行排序。如果一个细胞处于过程的早期,它会被赋予一个较低的伪时间值;如果它接近过程的末尾,则会被赋予一个较高的值。

但在这里我们必须格外清晰,因为这是一个常见且危险的混淆点。​​伪时间不是真实的、按年代顺序排列的时间​​。它是一个潜变量,一种对生物学进展的推断度量。在同一时刻从胚胎中收获的两个细胞,可能处于伪时间上截然不同的点;一个可能是早期的、未决定的祖细胞(低伪时间),而它的邻居可能已经是一个坚定的、发育中的神经元(高伪时间)。这是因为发育是异步的。伪时间衡量的是一个细胞在其旅程中的“成熟”程度,而不是它以分钟或小时计的年龄。这是一个强大的概念,它使我们能够研究定义一个过程的基因表达变化的序列。

RNA速率:寻找时间之箭

我们的图谱正在成形。我们有了道路(轨迹)和里程碑(伪时间)。但还有一个关键的部分缺失了:交通是朝哪个方向流动的?从纯粹的几何角度来看,从祖细胞到神经元的路径与从神经元回到祖细胞的路径是相同的。不知道方向,我们就无法区分分化与去分化。在一个分支点,我们无法知道是一种细胞类型分裂成两种,还是两种细胞类型合并成一种。我们缺少了时间之箭。

在很长一段时间里,研究人员不得不根据先前的生物学知识来猜测方向。但随后出现了一个真正卓越的洞见,一种被称为​​RNA速率​​的方法。RNA速率窥探每个细胞的内部,不仅看它在哪里,还看它将要去哪里。

这个想法植根于分子生物学的中心法则。当一个基因被开启时,它首先被转录成一个“信使RNA前体”,其中仍包含称为内含子的非编码区。这就是​​未剪接RNA​​。然后这个分子被加工——它的内含子被剪切掉——以产生可以被翻译成蛋白质的成熟的​​已剪接RNA​​。RNA速率的精妙之处在于意识到,对于一个给定的基因,未剪接和已剪接RNA的相对数量,讲述了它最近的历史和不久的将来的故事。

把它想象成一家面包店。如果你走进去,看到成堆的生面团(未剪接RNA),但货架上只有几个烤好的面包(已剪接RNA),你就知道面包师刚刚加大了生产。面包的数量即将增加。用细胞的术语来说,这个基因正在被活跃地转录。相反,如果你看到货架上摆满了面包,但看不到一点面团,你就知道生产已经停止,随着面包被卖掉,其数量很快就会下降。这个基因正在被抑制。

通过测量单个细胞中数千个基因的未剪接与已剪接RNA的比例,RNA速率为该细胞计算出一个“速度”向量——一个在高维基因表达空间中的方向和速度。这个向量指向细胞预测的未来状态。当我们将这些微小的箭头投射到我们的轨迹图上时,它们会形成一个流场,就像磁铁周围的铁屑一样,揭示了生物学交通的方向。它们为路径定向,解决了分支的方向问题,并最终为我们的电影加上了时间之箭。

给怀疑的探索者的指南

这整个从静态图像重建动态故事的事业,是科学推断的一大胜利。但就像任何强大的工具一样,我们必须诚实和怀疑地看待它的局限性。

首先,​​沿伪时间的相关性不能证明因果性​​。如果我们看到基因 AAA 在较低伪时间时变得活跃,而基因 BBB 在之后变得活跃,我们很容易得出结论,基因 AAA 开启了基因 BBB。虽然这是一个极好的、可检验的假说,但它并非证明。完全有可能是第三个未被观察到的主调控因子基因 CCC 先激活了基因 AAA,然后稍晚一些激活了基因 BBB。在这种情况下,AAA 和 BBB 在时间上是相关的,但它们之间没有直接的因果联系。轨迹推断是一个假说生成器,而不是一台真相机器。

其次,这些方法对实验如何进行极其敏感。想象一下,我们正在比较年轻细胞和年老细胞,但我们用一种粗暴的化学方法(方法P)来分离年轻细胞,而用一种温和的核分离方法(方法N)来处理年老细胞。这些细胞的基因表达谱不仅会因为它们的年龄而不同,还会因为我们方法引入的不同压力和偏差而不同。一个天真的算法将无法分辨差异,并可能推断出一个漂亮的“轨迹”,而这个轨迹只不过是我们草率实验设计的记录。这是一个深刻的教训:计算分析无法神奇地修复一个设计糟糕的实验。生物学和数据科学必须携手并进。

最后,我们必须记住,地图不是疆域。这些算法依赖于假设:细胞过程是连续的,我们采样了足够多的细胞来看清路径,以及我们的数学模型是对现实的良好近似。如果一个发育转变极其迅速和突然,或者我们恰好错过了连接两个细胞群体的罕见中间细胞,我们推断的图谱可能会有缺口,甚至会误导我们。如果我们图谱的某些区域细胞分布非常稀疏,我们对那里轨迹的信心就应该降低,这是一个更先进的方法试图通过局部调整其参数来解决的问题[@problem-id:3356233]。这些漂亮的图表和有序的轨迹是我们基于现有数据的最佳推断,但它们必须总是受到质疑、验证,并在生物学现实的光芒下接受检验。

应用与跨学科联系

想象一下,你试图通过观察数千张独立的照片来理解一场宏大而复杂的舞蹈,每张照片都只捕捉了一个舞者在某个随机时刻的姿态。你可以看到他们的服装、姿势,甚至可能根据相似的风格将他们分组。但你如何才能重建出整套舞蹈动作呢?你如何找出舞步的顺序、舞者选择不同动作的分支路径,或者将一切联系在一起的核心节奏?这正是生物学家在单细胞数据爆炸式增长时所面临的挑战。轨迹推断就是我们的计算编舞师,是一套原则和算法,让我们能够将这些脱节的快照拼接成生命流动的、连续的“舞蹈”。

理解了这门魔法背后的原理之后,现在让我们漫游于广阔的生物学领域,看看这个工具在哪些方面变得不可或缺,从单个再生细胞的尺度揭示秘密,直至宏大的进化织锦。

绘制生命蓝图:发育与再生生物学

从本质上讲,发育是一个“成为”的过程。一个受精卵变成一个复杂的有机体;一个干细胞变成一个神经元;一个伤口愈合。轨迹推断正是源于绘制这些转化过程的渴望。我们首次能够通过计算“观察”一个细胞沿着其发育路径行进。

思考一下墨西哥钝口螈再生断肢的非凡能力。科学家们可以从再生结构——再生芽——中分离出不同天数的细胞。通过应用轨迹推断,他们可以重建一个成纤维细胞样细胞所经历的精确分子旅程,看它如何去分化,然后重新特化成为软骨祖细胞,形成新的骨骼。这种计算显微镜揭示了先前看不见的中间状态,即连接这一再生奇迹起点和终点的关键过渡形式。同样,在更为常见的皮肤伤口愈合过程中,我们可以绘制出基底层干细胞在增殖和分化以重建表皮层时所遵循的确切路径。伪时间轴成为衡量进展的标尺,精确地显示了像Egfr这样的关键生长因子受体在何时何地表达,从而协调修复过程。

必须牢记,这部推断出的“电影”与真实的祖先关系并不相同。经典的谱系追踪实验,即用永久的遗传“标签”标记一个细胞及其所有后代,告诉我们确定的家族树——谁与谁有亲缘关系的基准真相。而轨迹推断则告诉我们分子的故事——一个细胞经历的基因表达状态序列。两者是美妙的互补:一个给我们家谱,另一个给我们传记。

疾病的逻辑:病理学、癌症与寄生虫学

如果说发育是一部精心编排的交响乐,那么疾病通常是其中一些乐器演奏错误的音符或遵循了错误的乐谱。许多疾病,尤其是癌症,可以被视为发育过程的失常。轨迹推断为理解这种细胞叛乱提供了一个非凡的视角。

例如,在肺癌研究中,研究人员使用基因工程小鼠模型来观察肿瘤的演变。当这些肿瘤用靶向药物治疗时,一些癌细胞死亡,但其他细胞通常通过巧妙地改变其身份而存活下来。利用一种称为RNA速率的轨迹推断强大扩展——它通过比较新合成(未剪接)和成熟(已剪接)信使RNA的水平来推断细胞变化的方向——科学家们可以亲眼目睹这种耐药机制的发生。他们可以看到癌细胞沿着其分化路径“向后”移动(去分化),并同时激活一个迁移程序(上皮-间质转化)。这种“谱系重塑”是一种生存策略,通过绘制出这条路线,我们可以开始设计能够预测并阻断这些逃生途径的疗法。

轨迹推断的范围甚至延伸到我们最古老的敌人:寄生虫。疟疾寄生虫Plasmodium falciparum在我们的血液中经历一个复杂的发育程序,从无性繁殖形式转变为可以传播回蚊子的有性形式(配子体)。通过对这些寄生虫的异步培养物进行取样,轨迹推断可以解开整个配子体生成的连续过程。这之所以可能,是基于一个基本假设——流形假说——它假定像发育这样的生物学过程是连续的。细胞分子状态的变化是渐进的,而非瞬时的,这意味着在发育旅程中相近的细胞将具有相似的基因表达谱。这种连续性允许算法连接各个点并重建路径,为寄生虫生物学提供新的见解,可能导致研发出阻断传播的药物。

防御的动态:免疫学

免疫系统是一个充满持续动态变化的舞台。细胞在一个复杂的监视和响应之舞中出生、受训、激活和退役。轨迹推断非常适合解开这些戏剧性的过程。

一个典型的例子是生发中心,即B细胞学习产生更好抗体的“新兵训练营”。在这个结构内部,B细胞在用于突变和增殖的“暗区”与用于测试和选择的“明区”之间循环。轨迹推断可以从单一快照中重建这个复杂、循环且分支的过程。我们可以识别出成功被选中的B细胞决定其命运的分支点:要么重新进入循环进行另一轮改进,要么作为长寿的记忆细胞或抗体工厂浆细胞退出。通过分析这些决策点的活跃基因,我们得以一窥适应性免疫的逻辑。

为了使这些推断更加有力,科学家们现在正超越转录组。通过使用同时测量细胞基因表达(scRNA-seq)和其染色质可及性(scATAC-seq)的“多组学”技术,我们可以增加另一层因果推理。中心法则规定,一个基因要被转录,其基因组区域必须首先对细胞的机制变得物理上可及。通过同时测量两者,我们可以直接在数据中观察到这个序列:关键调控元件处的染色质在相关基因表达增加之前开放。这提供了一个明确的时间之箭,有助于确定轨迹的方向,并揭示了预示细胞命运决定的表观遗传启动事件,例如发育中的T细胞对其最终谱系的承诺。

从“是什么”到“为什么”:功能基因组学与调控网络

也许轨迹推断最深刻的应用是它帮助我们从描述走向因果的能力。通过按时间顺序排列细胞,我们获得了推断驱动该过程的潜在基因调控网络(GRN)的能力。因果先于效应这一永恒的原则终于可以应用于基因组数据。如果我们观察到某个转录因子(我们称之为调控子 RRR)在伪时间轴上始终在靶基因 TTT 之前被激活,我们就有了支持 R→TR \to TR→T 这一有向调控联系的有力证据。这种直觉可以通过强大的数学模型形式化,使我们能够从头开始构建细胞的“接线图”。

我们可以更进一步,直接测试这些推断出的因果联系。像Perturb-seq这样的技术将CRISPR基因编辑的大规模可扩展性与单细胞读出相结合。在一次实验中,科学家可以创建一个细胞群体,其中数千个不同的基因被扰动——敲除、抑制或激活。通过对这个混合群体进行轨迹推断,他们可以精确地看到破坏特定基因(扰动)如何影响细胞的旅程。它是否停止了分化?是否加速了分化?是否将细胞推向了一条完全不同的路径?这种方法将轨迹推断从一个观察工具转变为一个强大的功能基因组学实验框架,使我们能够编写和改写细胞的发育脚本。

新维度:空间与进化前沿

直到最近,单细胞基因组学都伴随着一个重大妥协:为了测量细胞的内容,我们必须将其从其原生环境中剥离出来。所有的空间背景都丢失了。空间转录组学正在改变这一现状,它使我们能够在测量细胞基因表达的同时,保留它们在组织中的物理位置。这为空间轨迹分析打开了大门。现在,一个推断出的轨迹不仅必须在抽象的基因表达空间中是合理的,而且还必须在组织的物理空间中是合理的。一条路径不能神奇地跳过像基底膜这样的解剖屏障,也不能连接器官两端的两个细胞。通过用这些现实世界的规则来约束我们的模型,我们可以重建分化途径在空间中真实展开的方式,例如,追踪上皮细胞从组织的基底层到顶表面的成熟过程。

最后,通过观察发育轨迹,我们可以开始解决生物学中一些最深层的问题:进化是如何塑造发育过程的?科学家现在可以为不同物种——如小鼠和鱼,甚至是动物和植物——生成发育图谱,然后通过计算对齐它们的轨迹。利用最优传输和动态时间规整等先进数学概念,他们可以在两个生物体的发育程序之间建立映射。这使他们能够提出问题:即使时间不同(一种称为异时性的现象),基因激活的顺序是否保守?是否使用了相同的“工具箱”基因来构建类似的结构?这种比较方法,在整个生命之树上进行扩展,有望揭示产生我们在自然界中看到的惊人多样的形态的基本原则和进化创新。

从单个细胞愈合伤口到亿万年的进化,轨迹推断提供了一种统一的语言来描述生命的动态过程。它将静态的快照转变为生动活泼的动态画面,揭示了驱动生物世界的隐藏编排。