扩散伪时间 (DPT)

玻尔百科

核心要点

扩散伪时间 (DPT) 利用细胞-细胞相似性图上的扩散过程，沿着发育路径稳健地对细胞进行排序，从而创建“伪时间”轨迹。
该方法能够重建生物过程，识别关键的细胞命运决定点，并发现驱动这些转变的调控基因。
虽然 DPT 能推断细胞的相对顺序，但它无法确定实时发育速度。这一限制可以通过整合 RNA 速率或空间转录组学的数据来解决。
该方法的准确性取决于核带宽等关键参数，并且对细胞采样密度敏感，需要仔细调整和高级校正才能进行可靠的解释。

引言

理解单个细胞如何发育成复杂有机体是生物学的核心探索之一。然而，研究这些动态过程充满挑战，因为我们通常只能在某一瞬间捕捉到单个细胞的静态快照。这就提出了一个根本性问题：我们如何从一堆杂乱无章的照片中重建连续的发育影片？扩散伪时间 (DPT) 提供了一种优雅的数学解决方案，它基于细胞的基因表达谱，为沿着发育路径对细胞进行排序提供了一个强大的框架。

本文将深入探讨扩散伪时间的世界，探索其理论基础及其对生物学研究的实际影响。在第一部分 原理与机制 中，我们将解析该算法背后的核心概念。我们将探讨图论和物理学的思想如何被用来衡量在发育景观中的进展，并解决诸如维度灾难和稳健计算距离的重要性等挑战。随后，在 应用与跨学科联系 部分，我们将展示 DPT 如何作为一种新型显微镜被使用。我们将看到它如何帮助生物学家重建生命的蓝图，绘制细胞命运的十字路口，甚至将发育时间线校准到真实的物理时间，从而改变我们解读基因中所书写的动态故事的能力。

原理与机制

想象一下，你是一名直升机飞行员，飞越一片广阔、多雾的山脉。地面上，成千上万的徒步者散布在各处。你拍下了一张他们位置的瞬时照片。你的任务是重建徒步路径，并确定每条路径上从起点到山顶的徒步者顺序。你既不知道实际的路径，也没有秒表来为每位徒步者计时。这正是我们在发育生物学中面临的挑战。细胞就是我们的徒步者，它们的基因表达谱就是它们的位置，而未知的发育通路就是我们希望绘制的路径。沿着这些路径对细胞进行排序，就是我们所说的 伪时间 (pseudotime)。

穿越状态空间的旅程

我们最初的、天真的想法可能是选择一个起始细胞——一个我们已知的祖细胞，即我们的路径起点——然后简单地测量它到其他所有细胞的直线距离。在我们的比喻中，这就像测量从路径起点到每个徒步者的“直线”距离。但这种方法很快就会失败。一个在悬崖底部的徒步者，与悬崖顶部的另一个徒步者在直线距离上可能非常近，但他们之间实际的路径可能漫长而曲折。直线路径可能会穿过坚硬的岩石——这是一种生物学上不可能的状态。

细胞和徒步者一样，被限制在特定的路径上移动。这些路径存在于一个复杂的高维曲面上，这个曲面被称为流形 (manifold)，它嵌入在由所有可能基因表达值构成的更高维“状态空间”中。我们关心的距离是 测地距离 (geodesic distance)——即沿着流形表面的最短路径。我们的细胞数据快照为我们提供了这个隐藏曲面上的一组稀疏采样点。第一步就是要弄清楚它的形状。

细胞的社交网络

我们如何仅凭一堆散点来绘制一幅景观图呢？我们做一个简单而有力的假设：在发育路径上彼此接近的细胞，其基因表达谱将非常相似。这就好比假设在小径上彼此靠近的徒步者，嗯，就是彼此靠近的！

我们可以通过构建一个 k-近邻 (kNN) 图 来将此形式化。对于每个细胞，我们在基因表达空间中找到其 $k$ 个最相似的邻居（比如 $k=15$ ），并在它们之间画一条连接，即一条边 (edge)。结果就是一个庞大的细胞“社交网络”，其中的连接描绘出了可能的潜在发育路径。

但在这里，大自然给我们抛出了一个奇妙的变化球，一个被称为 维度灾难 (curse of dimensionality) 的微妙陷阱。即使我们将数据从 20,000 个基因降至（比如说）30 个主成分，这个 30 维空间仍然是出奇地反直觉。随着维度的增加，所有点对之间的距离都趋于变得惊人地一致。这会带来奇怪的后果。一些细胞可能成为“中心节点”(hub)，成为数量不成比例的其它细胞的邻居，从而在我们的图中产生错误的捷径，这些捷径可能被误认为是生物学上的分支。此外，在这个广阔的 30 维空间中，我们的 3,000 个细胞极其稀疏，就像整个国家里只有寥寥数人。这种稀疏性使得我们图中的连接对噪声很敏感，尤其是在细胞命运悬而未决的分支点附近。构建这幅地图并不像简单地连接点那么容易。

扩散原理

面对一个充满噪声的复杂图，仅仅寻找从起点到其他所有细胞的最短路径是脆弱的；一个错误的连接就可能让你严重偏离轨道。我们需要一种更稳健的方法来衡量“进展”。这就是优美而统一的扩散 (diffusion) 思想发挥作用的地方。

想象一下，在路径起点的“根”细胞上滴一滴蓝色墨水。然后我们观察这滴墨水如何在细胞网络中扩散。迅速变蓝的细胞在过程中处于“早期”，而需要很长时间才能被墨水到达的细胞则处于“晚期”。这个过程在数学上被建模为 kNN 图上的一个 随机游走 (random walk)。从任何一个给定的细胞出发，一个假想的行走者会随机迈出一步，走向其相连的一个邻居。移动到特定邻居的概率与它们的相似度成正比——连接越强，跳跃的可能性就越大。

一个细胞的 扩散伪时间 (DPT) 就是通过这种扩散过程测得的、它与根细胞之间的“距离”。形式上，这由 扩散距离 (diffusion distance) 捕捉，这是一个巧妙的度量，它比较了从两个不同细胞出发的随机游走者在 $t$ 步后可能位置的概率分布。与只考虑一条最优路径的最短路径距离不同，扩散距离优雅地对两个细胞之间的所有可能路径进行了平均。这使得它对困扰高维数据的噪声和虚假捷径具有极强的稳健性。这个概念与热流的物理过程密切相关；扩散算子的特征向量在数学上与图上的振动模式相关联，非常像鼓皮的谐波。虽然像 UMAP 这样的其他方法非常适合创建引人注目的二维可视化（一张“游客地图”），但它们可能会折叠或扭曲长轨迹。而扩散图，由于其本身的设计，就是为了保留扩散过程的几何形状，因此更适合用于恢复平滑的伪时间（一张“地质学家地图”）。

调优的艺术

构建这个扩散过程并非全自动；它需要一定的技巧。其中一个最关键的选择是 核带宽 (kernel bandwidth)，通常用 $\sigma$ 或 $\varepsilon$ 表示，它定义了我们在计算相似度时每个细胞周围的“影响范围”。可以把它想象成相机上的对焦旋钮。

如果我们将带宽 $\varepsilon$ 设置得非常小（ $\varepsilon \to 0$ ），我们的焦点就太锐利了。每个细胞只识别其绝对最近的邻居。图会碎裂成不相连的孤岛，墨水无法扩散。我们失去了全局图景。
如果我们将 $\varepsilon$ 设置得非常大（ $\varepsilon \to \infty$ ），我们的焦点就太模糊了。每个细胞看起来都与所有其他细胞相似。整个景观扁平成一团灰色的物质，所有有趣的轨迹信息都丢失了。

奇迹发生在一个中间尺度上，在那里我们平衡了局部细节与全局连通性。

另一个关键的微妙之处是 采样密度 (sampling density)。如果我们的实验意外地对处于特定状态的细胞进行了过采样会怎样？在该区域，kNN 图会非常密集。标准的随机游走会“卡”在这个密集区域，需要走很多小步才能穿过它。DPT 会将此解释为一段很长的发育时间，导致伪时间尺度的“压缩”。在较稀疏的区域，则会发生相反的情况，伪时间被“扩展”了。这既可能是一个特性，也可能是一个缺陷。如果高密度对应于一个生物学上重要的“停留状态”（如细胞周期停滞），那么这种行为正是我们想要的。但如果它只是一个实验假象，那么这就是我们必须纠正的偏差。这时，更先进的方法就派上用场了，它们使用基于 图拉普拉斯算子 (graph Laplacian) 而非简单邻接矩阵的算子，来创建一个对采样密度不那么敏感的扩散过程，从而有效地“去偏”随机游走。然而，即使是这些校正也有其局限性。如果最初的 kNN 图已经被密度偏差破坏（例如，在不应连接的分支之间创建了“短路”边），那么任何数量的重新加权都无法修复已损坏的拓扑结构。

推断的局限性及如何超越它们

即使进行了完美的 DPT 计算，我们也必须对自己所学到的东西保持谦逊。从单个时间快照中，我们面临两个根本性的模糊之处。

首先，我们必须 选择一个根细胞。没有先验的生物学知识，推断出的顺序没有内在的方向。路径可能是从山脚到山顶，也可能是从山顶到山脚。

其次，更深刻的是，我们只能确定细胞的顺序，而不能确定进展的速率。我们的伪时间就像一连串没有投影仪速度控制的电影帧。我们无法判断过程是以恒定速度进行，还是时快时慢。对伪时间轴的任何任意“拉伸”或“压缩”——形式上，任何严格的 单调变换 (monotonic transformation)——都会产生一个同样有效的伪时间。数据本身无法区分伪时间 $\tau$ 和另一个有效的伪时间 $\tau' = g(\tau)$ ，其中 $g$ 是任意增函数。

要更进一步，我们需要更多信息——我们需要将我们的相对排序锚定到真实时间。

RNA 速率 (RNA Velocity)，通过测量未剪接和已剪接转录本的平衡，可以像一个分子指南针一样工作。它为我们提供了每个细胞变化的方向和速度的估计，使我们能够校准伪时间，使其与真实时间成正比。
遗传条形码 (Genetic Barcoding)，一种巧妙的实验技术，对每个细胞来说就像一个同步秒表。通过在已知的开始时间引入一个“分子钟”，我们可以直接测量许多细胞经过的时间，并创建一个函数，将我们推断的伪时间直接映射到绝对的物理时间。

最后，我们必须认识到，并非所有的生物学路径都是连续的。一些过程，比如将皮肤细胞重编程回干细胞，涉及剧烈的、跳跃式的转变。跳跃前后的细胞状态可能差异巨大，以至于在我们的基因表达图上形成不相连的大陆。在这种情况下强行使用标准的 DPT 算法，就像试图建造一座通往月球的桥。在这些情况下，我们需要完全不同的概念工具。我们可以明确地将过程建模为状态之间的跳跃，或者转向更先进的框架，如 最优输运 (Optimal Transport)，它可以在不需要基因空间中存在连续路径的情况下，推断出细胞随时间最可能的流动。

总而言之，扩散伪时间不仅仅是一个算法，它是一个概念框架。它是一种思考变化的方式，是将物理学和数学思想——随机游走、图论和扩散——应用于解开用我们基因语言书写的动态故事的优美典范。

应用与跨学科联系

在前面的讨论中，我们了解了扩散伪时间背后的优雅原理。我们看到一个简单的想法，即图上的随机游走，如何为我们提供一个强大的镜头来观察细胞状态的隐藏景观。我们构建了一幅地图。现在，真正的冒险开始了。我们能用这幅地图做什么？这个抽象的数学构造如何与具体、复杂而又美丽的生物学世界联系起来？本章就是关于这种联系的。我们将看到扩散伪时间不仅是一个算法，更是一种新型的显微镜，让我们能够一次一个细胞地观察生命故事的展开。

重建生命的蓝图

我们这种新型显微镜最直接的用途就是观察一个过程的发生。想象一下，试图仅通过观察摩天大楼建造过程中的一系列随机照片来理解它是如何建成的。你可能会看到地基、钢结构和完工的建筑，但其顺序，即过程，将会丢失。这正是生物学家面临的挑战。扩散伪时间 (DPT) 让我们能够将这些杂乱的细胞快照整理成一部连贯的影片。

以我们血液的诞生为例。在我们身体深处，血管壁上的特化细胞，即生血内皮细胞，经历了一场非凡的转变，成为造血干细胞，后者在我们一生中生成所有的血液和免疫细胞。通过对数千个此类细胞进行分析并应用 DPT 算法，我们可以重建这整个过程。我们简直可以亲眼看着一个细胞“决定”成为一个造血干细胞。

但我们如何知道我们的影片是正向播放的呢？我们可以用已知的历史标志来检验它。生物学家知道，当一个内皮细胞决定走向血液命运时，它必须关闭某些“内皮”基因（如 $KDR$ ）并开启新的“造血”基因（如 $RUNX1$ ）。一个正确排序的伪时间轨迹必须精确地显示出这种模式： $KDR$ 的信号逐渐消失，而 $RUNX1$ 的信号则逐渐增强。当我们进行分析时，这正是我们所看到的，这让我们相信我们推断的时间线反映了生物学的现实。

这种“电影制作”并不仅限于自然发育。科学家现在可以进行一种生物炼金术，迫使一个特化细胞，如皮肤细胞，恢复到类似干细胞的状态。这个过程被称为诱导性多能干细胞 (iPSC) 重编程。利用 DPT，我们也可以绘制这个人工旅程。我们不仅可以识别那些开启并保持开启状态的基因，还可以找到那些充当临时“舞台工作人员”的基因——即在过渡期间短暂开启以帮助完成转变，然后再次关闭的基因。这为我们提供了细胞身份剧目中完整的角色阵容及其作用。

命运的十字路口

当然，生命很少是一条笔直的道路。它是一棵充满决策的树。一个祖细胞可以分化成骨骼、肌肉和软骨。一个免疫细胞在遇到威胁时，必须决定是成为一个长寿的“记忆”细胞还是一个短命的“效应”细胞。这些分岔点，即分化点，是命运被决定的时刻。DPT 及其所构建的图，为我们提供了这些十字路口的地图。

让我们回到我们自身存在中最深刻的时刻之一：我们的细胞做出的第一个决定。受精后仅几天，将要成为我们的那个小细胞团必须分裂成两组：形成胚胎本身的细胞（内细胞团）和形成胎盘的细胞（滋养外胚层）。利用伪时间，我们可以追溯导致这一决定的路径。不仅如此，我们还可以用它来检验关于驱动这一选择的具体假设。例如，一个名为 YAP 的调控网络是否真的在胎盘的主开关基因 $Cdx2$ 启动之前就被激活了？通过沿伪时间轴对基因活性进行建模并应用严格的统计检验，我们可以以惊人的精度确定事件的顺序，基本上是在问“哪个多米诺骨牌先倒下？”。

这种剖析命运决定的能力对医学具有深远的影响。在慢性感染期间或在与肿瘤的斗争中，我们的 T 细胞——我们免疫系统的士兵——可能会变得“耗竭”并失去战斗力。然而，其他 T 细胞可能会进入一种有弹性的、自我更新的记忆样状态。是什么决定了这种选择？通过收集来自急性（成功）和慢性（失败）反应的 T 细胞，我们可以使用 DPT 构建一个包含两种轨迹的组合地图。这张地图揭示了一个岔路口，细胞在此要么转向记忆状态，要么偏离轨道走向耗竭。通过“放大”观察正处于那个岔路口的细胞，我们可以识别出区分这两种结果的最早期的基因和调控因子。找到一种方法推动细胞走向记忆路径是现代癌症免疫疗法的一个核心目标。这种方法的妙处在于其统计上的严谨性；我们可以正式检验分支的存在以及定义它的基因的显著性，确保我们不只是在数据中追逐幻影。

揭示戏剧的导演

到目前为止，我们一直在观察演员——基因——扮演它们的角色。但谁是这场戏剧的导演呢？在细胞中，导演是转录因子，它们是与 DNA 结合并告诉基因何时开启或关闭的蛋白质。“舞台”本身是染色质，即 DNA 的紧密包装结构。为了让一个基因得以表达，其所在的 DNA 区域必须首先被“解包”或变得可及。

这导出了一个绝妙的、可检验的预测：基因控制开关（其增强子）处的染色质开放应该发生在基因本身被激活之前。这是一个我们现在可以观察到的因果关系！通过使用多模态技术，在单细胞中同时测量基因表达 (scRNA-seq) 和染色质可及性 (scATAC-seq)，我们可以创建两部平行的影片。DPT 提供了共享的时间线。然后我们可以对齐这两部影片并提问：在肌肉发育过程中，一个肌肉特异性基因的“开放”DNA 状态信号是否先于该基因的表达信号出现？

答案是响亮的“是”。我们可以在发育时间线上识别出“调控检查点”，在这些点上，我们首先看到转录因子结合位点的可及性增加，紧接着是其所有靶基因的一波表达浪潮。这就像看到指挥家在管弦乐队开始演奏前举起指挥棒。它将我们的分析从描述发生了什么转变为解释它是如何被精心策划的。这种由 DPT 指导的假设生成，随后可以通过确定性实验得到证实，例如使用 CRISPR 技术禁用一个预测的增强子，并观察靶基因是否未能开启，从而完成观察、假设和验证的科学循环。

从抽象空间到真实空间

我们一直在抽象的“基因表达空间”中讨论细胞，但当然，细胞有其物理家园。它们像建筑中的砖块一样组织在组织中。细胞的功能与其位置及其邻居密切相关。有没有办法将我们的抽象伪时间图与组织的具体三维现实联系起来？

答案是肯定的，而且非常奇妙。随着空间转录组学的出现，我们现在可以在组织切片的已知 $x, y, z$ 坐标处测量基因表达。我们可以从基因表达数据计算出初步的 DPT 排序，但这个排序可能充满噪声。然而，我们可以增加一个简单的、物理上直观的约束：我们期望一个细胞的生物学“年龄”与其直接物理邻居的年龄相似。发育通常是一个空间上协调的过程，而不是新老细胞的盐和胡椒式混合。

我们可以通过在计算中加入一个“空间平滑度惩罚”来将这个想法形式化。这是一个植根于贝叶斯框架的数学技巧，可以优化伪时间值。一个细胞最终的、平滑后的伪时间，成为其在抽象基因空间中的身份与在真实物理空间中身份之间的一种折衷。这就像轻轻熨平我们的伪时间地图，以确保它尊重组织的物理地理。这个强大的想法使我们能够将整个分化故事投射到组织本身上，揭示发育的波浪如何在一个生长的器官中扩散，例如淋巴结中的生发中心。

校准时钟

还有一个挥之不去的最后问题。伪时间给了我们事件的顺序。细胞 A 在 B 之前，B 在 C 之前。但它没有告诉我们持续时间。A 和 B 之间的时间是五分钟还是五小时？伪时间的单位是任意的。我们能否将这个奇怪的时钟校准到真实的物理时间？

要做到这一点，我们需要另一条信息：速度。另一项出色的技术，RNA 速率 (RNA velocity)，通过分析细胞中未剪接和已剪接信使 RNA 的平衡来估计其基因表达状态的变化率。它为我们提供了每个细胞的一个小速度计。现在我们拥有了所需的一切。

可以这样想：我们有一部汽车在路上行驶的电影，这条路就是基因空间中的发育轨迹。DPT 给了我们帧的序列，但没有时间戳。RNA 速率告诉我们汽车在每一帧的速度。利用微积分的基本关系——链式法则，我们知道真实时间的无穷小持续时间 $dt$ ，就是行进的距离 $|d\mathbf{x}|$ 除以速度 $|d\mathbf{x}/dt|$ 。通过沿轨迹对这些小的时间间隔进行积分，我们可以计算出到达任何一点所经过的总时间，以小时或天为单位！。

这种校准不仅仅是一项学术练习。它开启了研究异时性 (heterochrony)——即发育事件时间变化——的能力。我们现在可以提出这样的问题：“小鼠胚胎的肢体发育速度是否比人类胚胎快？”通过将它们各自的伪时间轨迹校准到真实时间，我们可以直接比较发育模块的持续时间，并精确指出进化是如何调整生命节奏的。

生命的统一性

我们以一个简单的随机游走开始了这次旅程，最终获得了一个范围惊人的工具包。我们可以重建单个细胞的故事，绘制其决策图，揭示指导它的调控逻辑，将这个故事置于物理空间中，并将其时钟校准到物理世界的节奏。

也许最深刻的应用在于看到生命的深层统一性。同样的原理和工具可以用来比较差异巨大的生物体的发育程序。通过关注进化反复使用的保守“工具箱”基因，我们可以将脊椎动物胚胎的发育轨迹与开花植物的发育轨迹对齐。我们可以使用像最优输运 (Optimal Transport) 或动态时间规整 (Dynamic Time Warping) 这样的高级数学概念来拉伸和压缩它们各自的时间线，揭示它们截然不同的身体构造背后所共有的保守调控事件序列。

这就是一个优美科学思想的终极力量。一个像图上扩散这样简单的概念，当以创造力和严谨性加以应用时，就成了一个通用翻译器。它让我们能够阅读和比较生命的多样故事，不仅揭示它们的差异，还揭示它们共享的、古老的、优雅的逻辑。