扩散图嵌入

玻尔百科

定义

扩散图嵌入是一种非线性降维技术，通过模拟随机游走过程来定义鲁棒的连通性，从而揭示数据的内在几何结构。该方法利用扩散转移矩阵的主特征向量构建新的坐标系，将高维数据映射到能够反映其流形结构的低维空间中。通过调节扩散时间参数，研究人员可以在不同尺度下分析数据，进而实现生物轨迹重建或复杂网络组织原理的识别。

核心要点

扩散图通过模拟随机游走来揭示数据潜在的几何结构，定义了一种“扩散距离”，该距离通过多条路径衡量稳健的连通性。
该嵌入是使用扩散转移矩阵的主要特征向量创建的，这些特征向量构成了一个新的坐标系，用以表示数据的内在结构。
扩散时间参数 t 充当一个分辨率尺度，使得分析的焦点可以从细粒度的局部细节转移到粗略的全局结构。
该方法可以校正非均匀的数据采样密度，从而实现对数据流形的纯几何分析。
主要应用包括重建生物轨迹（伪时间）、识别分子反应坐标以及揭示大脑网络的组织原则。

引言

在大数据时代，我们常常面临着极其复杂的数据集，其中成千上万的维度掩盖了隐藏在其中的简单模式。标准的距离测量方法可能会产生误导，就像通过在地图上画一条穿越山脉和海洋的直线来判断两个城市之间的联系一样。这提出了一个根本性问题：我们如何才能创建一幅尊重数据真实、内在几何结构和连通性的数据地图？

扩散图嵌入（Diffusion Map Embedding）提供了一个优雅而强大的答案。它是一种降维和流形学习技术，通过观察信息如何在数据中扩散或传播来理解数据的形状。本文旨在通过关注其核心直觉而非密集的数学来揭开这种方法的神秘面纱。我们将首先探讨其基础的原理和机制，了解模拟的随机游走如何定义一种更有意义的“扩散距离”，以及由特征向量捕获的数据图的“音乐”如何揭示其结构。随后，我们将踏上其变革性的应用和跨学科连接之旅，看这一思想如何在计算生物学中揭示生命的隐藏动态，揭示分子的秘密编排，甚至为大脑和下一代人工智能提供组织原则。

原理和机制

想象一下，你是一位来自过去时代的地图绘制师，面对着一幅广阔、未标记的大陆卫星图像。你的任务不仅仅是绘制边界，而是要理解这片土地的根本构造：山脉、河流系统、以及城市可能繁荣的肥沃平原。你看到了一簇簇灯光，但仅仅在它们周围画圈（就像简单的聚类算法）会忽略那些真正定义它们之间关系的高速公路、贸易路线和地理障碍。你将如何以一种尊重其内在几何结构的方式来绘制这个世界？

扩散图为这个问题提供了一个非常直观且强大的答案。其核心思想是通过观察信息如何在数据中“扩散”或传播来理解数据的形状。让我们踏上一段旅程，通过一系列物理直觉而非密集的方程来理解这一原理。

在数据中漫步

让我们把数据点——无论是图像、基因表达谱还是财务记录——想象成群岛中的岛屿。“乌鸦飞行距离”（标准的欧几里得距离）在两个岛屿之间可能具有误导性。一条狭窄的海峡可能分隔了两个同属一个文化和生态系统的岛屿，而一条广阔、深邃的海沟可能分隔了另外两个在平面地图上看起来很近的岛屿。

为了绘制这些隐藏的连接，我们可以模拟一个简单的过程：随机游走。想象一个旅行者从一个岛屿出发。在每一步，他们跳到邻近的一个岛屿。他们的选择是随机的，但有偏好：他们跳到非常近的岛屿的可能性远大于跳到远处的岛屿。我们可以使用一个核函数来定义从岛屿 $x_i$ 跳到岛屿 $x_j$ 的概率，这个函数量化了它们的相似性。一个常用的选择是高斯核：

k_{\epsilon}(x_i, x_j) = \exp\left(-\frac{\|x_i - x_j\|^2}{\epsilon}\right)

这个优雅的公式简单地说明了两点之间的“亲和力”或连接强度随着它们之间距离的平方呈指数级下降。参数 $\epsilon$ 就像我们旅行者望远镜上的雾气设置：它定义了什么被认为是“邻近”的尺度。

通过计算所有点对的这种亲和力，我们构建了一个亲和矩阵 $W$ 。为了将其转化为随机游走者的概率集合，我们只需对每个起始岛屿的亲和力进行归一化。对于任何岛屿 $x_i$ ，其与所有其他岛屿的总亲和力是它的度， $d_i = \sum_{j} W_{ij}$ 。那么从 $x_i$ 跳到 $x_j$ 的概率就是 $P_{ij} = W_{ij} / d_i$ 。这就创建了马尔可夫转移矩阵 $P$ ，这是我们随机游走者的完整说明手册。 $P$ 的每一行之和为 1，代表从给定岛屿出发进行下一步跳跃的完整概率集合。

扩散距离：一种更真实的邻近性度量

现在我们有了一个在数据中导航的过程，我们可以问一个关于距离的更深刻的问题。两点之间的最短路径通常是一个脆弱且充满噪声的度量。想象一下城市 A 和 B，由一座狭窄的单桥连接。现在想象另外两个城市 C 和 D，由两座独立的宽桥连接。两种情况下的最短路径长度相同，但 C 和 D 之间的连接显然更稳健、更重要。在生物网络中，这种冗余可能意味着更稳定的功能关系。

这就是扩散距离概念发挥作用的地方。我们不寻找单一的最佳路径，而是拥抱我们游走者的随机性。我们问：如果我们同时在城市 A 和城市 B 开始两次随机游走，在一定步数（比如时间 $t$ ）后，它们的旅程有多相似？如果在 $t$ 步之后，从 A 出发的游走者的概率分布与从 B 出发的游走者的分布非常相似，这意味着从扩散的角度来看，A 和 B 非常接近。它们深深地嵌入在网络的同一部分。

扩散距离 $D_t(A, B)$ 通过测量时间 $t$ 后两个概率分布之间的差异来形式化这一点。一个小的扩散距离意味着这两个点通过许多路径而非仅仅一条路径紧密相连。这个距离尊重数据的内在结构，有效地测量了沿流形“高速公路”的旅行时间，而不是穿越空旷空间。

图之乐章：用特征向量揭示结构

通过模拟无数次随机游走来计算这些距离，在计算上将是一场噩梦。幸运的是，线性代数的魔力提供了一个直接而优美的解决方案。转移矩阵 $P$ 是一个算子，和任何算子一样，我们可以通过找到它的特征向量和特征值来分析其基本作用模式。

把数据图想象成一个乐器。当你敲击它时，它会以一组固有频率振动。这些是它的共振模式。特征向量，记为 $\psi_k$ ，就是这些基本的振动模式。相应的特征值 $\lambda_k$ 告诉我们每种模式的强度或持久性。

矩阵 $P$ 总有一个最大的特征值 $\lambda_0 = 1$ 。其对应的特征向量 $\psi_0$ 在所有数据点上都是常数。这代表了系统的“稳态”——在游走者已经漫游了很长时间以至于完全忘记其起点后的最终、均匀的概率分布。它不包含结构信息，所以我们忽略它。

真正的魔力在于接下来的几个特征向量， $\psi_1, \psi_2, \ldots$ 。它们对应于略小于 1 的特征值（ $\lambda_1, \lambda_2, \ldots$ ）。它们是系统的“慢模”——需要最长时间衰减的大尺度模式。它们代表了我们数据中最突出的结构：发育过程的主轴、主要聚类之间的分离，或是周期系统中的主要循环。

这些特征向量为我们的数据构成了一个新的、内在的坐标系。使用 $\psi_1$ 和 $\psi_2$ 的值作为数据点新的 x 和 y 坐标来绘制它们，常常能以惊人的清晰度揭示隐藏的流形结构。这个新的表示就是扩散图嵌入。

在这个新空间中，扩散距离有一个非常简单的形式。两点 $i$ 和 $j$ 之间的平方距离就是特征向量坐标系中的加权欧几里得距离：

D_t^2(i, j) = \sum_{k=1}^{m} \lambda_k^{2t} \left( \psi_k(i) - \psi_k(j) \right)^2

在这里，坐标是特征向量的值 $\psi_k(i)$ ，权重是特征值提高到 $2t$ 次方。这个方程是该算法威力的核心：它将随机游走的直观概念与一个实际可计算的嵌入联系起来。

时间和密度的作用：调整我们的显微镜

扩散图不是一幅单一、静态的图画；它是一个我们可以调整的动态过程。有两个参数至关重要：扩散时间 $t$ 和我们处理数据密度的方式。

将扩散时间作为尺度参数

我们扩散距离公式中的时间参数 t 就像显微镜上的分辨率旋钮。

当 t 很小时，我们考虑的是非常短的随机游走。嵌入对数据的所有细粒度、局部细节都很敏感。这就像放大看一片叶子的纹理，但你可能会错过整棵树的形状。噪声和小的、可能无意义的聚类会主导整个画面。
当 t 很大时，我们让游走运行很长时间。“快模”（具有较小特征值 $\lambda_k$ 的特征向量）的贡献会迅速衰减，因为 $\lambda_k^t$ 变得非常小。嵌入变得由最慢的模式主导，揭示了数据的粗略、大尺度结构。这就像缩小看整个森林，但你会失去单个树木的细节。如果选择的 t 太大，所有游走者都会收敛到稳态，将整个图坍缩成一个点。

扩散图的艺术在于选择一个适中的 t，它能恰到好处地平滑局部噪声，让有意义的大尺度结构——比如细胞谱系的分支——清晰地显现出来。

密度困境及其优雅解决方案

我们简单的随机游走者存在一个微妙但深刻的问题。如果我们的数据采样不均匀——例如，我们从“城市”区域获得的数据点比从“乡村”区域多得多——我们的游走者自然会花更多时间在密集区域。由此产生的扩散过程不是对景观几何的纯粹、无偏的探索。相反，它有一个内置的漂移，趋向于高采样密度的区域。

这不仅仅是一个麻烦；这是一个基本的物理属性。在无限数据的极限下，生成我们随机游走的算子不会收敛到纯几何的拉普拉斯-贝尔特拉米算子（ $\Delta_{\mathcal{M}}$ ），后者描述了流形上的无偏热扩散。相反，它会收敛到一个包含漂移项的福克-普朗克算子： $\Delta_{\mathcal{M}} + 2(1-\alpha)q^{-1}\langle \nabla f, \nabla q \rangle$ ，其中 $q$ 是采样密度。

这个非凡的公式告诉了我们一切！对于标准的随机游走归一化（对应于参数 $\alpha=0$ ），存在一个与密度梯度 $\nabla q$ 成正比的漂移项。但这个公式也向我们展示了解决方案。通过为我们的核选择一个不同的归一化方法，对应于 $\alpha=1$ ，漂移项 $2(1-\alpha)$ 就消失了！由此产生的扩散过程纯粹由 $\Delta_{\mathcal{M}}$ 控制，并反映了流形的内在几何结构，而与采样方式无关。

这种归一化选择区分了不同的谱方法。标准谱聚类与使用对称矩阵如 $S = D^{-1/2}W D^{-1/2}$ 密切相关，而扩散图通常使用行随机矩阵 $P = D^{-1}W$ 。这两个矩阵有深刻的联系；它们的特征向量通过一个简单的与密度相关的缩放关系联系在一起， $\psi_k = D^{-1/2} u_k$ 。这揭示了扩散图的坐标可以被看作是归一化谱聚类坐标的一个经过密度校正的版本，为这些强大的思想提供了优美的统一。通过理解和控制这些归一化，数据地图绘制师可以选择是否在绘制景观时考虑人口密度的影响，从而根据手头的问题定制地图。

应用与跨学科联系

现在我们已经熟悉了扩散图的机制，我们可以提出最激动人心的问题：我们能用它来做什么？我们已经构建了一种新的数学透镜。当我们用它指向宇宙时会发生什么？我们发现，这个单一而优雅的思想——通过随机游走的视角来理解连通性——揭示了无处不在的隐藏结构。它在生物学、化学、神经科学乃至人工智能等截然不同的领域中揭示了数据的秘密几何结构。它向我们展示了深刻、统一的原则常常隐藏在复杂现象的表面之下。让我们踏上旅程，浏览其中一些应用，通过扩散的眼睛看世界。

生命之舞：解开生物过程之谜

生物学的世界是一个不断变化的世界。细胞诞生、分化、组织成组织，并对环境做出反应。这是一个充满动态、轨迹和随时间展开过程的世界。但是当生物学家进行测量时——比如用单细胞测序——他们通常得到的是一个静态的快照，就像一张熙熙攘攘人群的照片。所有个体都在那里，但关系和运动都丢失了。扩散图为我们提供了一种方法，将这些杂乱的快照变回一幅动态的画面。

绘制细胞命运图谱

想象一下研究干细胞如何决定其命运。它可能从一个单一的祖细胞开始，然后分化成血细胞或肌肉细胞。如果我们收集数千个处于不同发育阶段的这些细胞并测量它们的基因表达，我们会得到一个巨大的数据集。但顺序是混乱的。哪个细胞先出现？哪些细胞在同一条发育路径上？

扩散图通过将每个细胞视为高维基因表达空间中的一个点来回答这个问题，并假设具有相似表达模式的细胞在它们的发育旅程中是“相近”的。该算法构建一个连接这些细胞的图，然后在其上模拟一个扩散过程。关键的见解是，在同一发育分支上的细胞通过这种随机游走会紧密相连。在一个简单的分支场景中，从一个分支上的细胞开始的随机游走不太可能迅速跳到另一个分支上的细胞；它必须首先回到分支点。

因此，扩散距离成为“发育距离”的一种度量。通过计算每个细胞与一个已知起始细胞（“根”）的扩散距离，我们可以构建所谓的伪时间：一种数据驱动的细胞排序，反映了它们在生物过程中的进展。这已成为现代计算生物学的基石，使科学家能够从静态的单细胞数据中重建复杂的、分支的发育轨迹，并通过观察已知标记基因如何沿推断的时间线变化来验证它们。

命运的景观

我们可以通过一个来自物理学的美丽类比将这个想法更进一步。为什么有些细胞类型是稳定的，而另一些是短暂的？想象一个有山谷和山脉的景观。一个在这个景观上滚动的球自然会在最深的山谷中停下来。这些山谷是稳定状态。要从一个山谷到另一个山谷，球需要一次能量的“踢动”才能越过分隔它们的山口。

在系统免疫学和发育生物学中，我们可以将细胞命运——比如T细胞或神经元——看作是一个“准势能景观”中的稳定山谷。它们之间的过渡状态是高能量的山口。令人惊奇的是，我们可以使用扩散图来重建这个景观。扩散过程的稳态分布，它告诉我们找到一个随机游走者在任何给定细胞的长期概率，与这个准势能直接相关。概率高的区域对应于深谷（稳定的细胞命运），而概率低的区域是它们之间的屏障。这种关系在形式上与统计力学中的玻尔兹曼分布相同， $\rho(\psi) \propto \exp(-U(\psi)/D)$ ，其中 $\rho$ 是概率密度， $U$ 是势能， $D$ 是一个有效的“温度”或扩散尺度。这使我们能够量化细胞命运的稳定性以及在它们之间转换所需的“能量”，所有这些都来自数据的几何结构。

组织的架构

当然，在活的有机体中，细胞不仅仅是漂浮在一个抽象的空间里；它们有物理位置。肝细胞的功能取决于它在肝脏中的位置。空间分辨转录组学这一新前沿同时测量细胞的基因表达和它们在组织切片中的坐标。这提出了一个新的挑战和机遇：我们如何整合这两种信息？

扩散图可以优雅地扩展到这个问题。我们可以构建一个增强核，它不仅依赖于基因表达的相似性，还依赖于表达距离 $d_g$ 和空间距离 $d_s$ 。一个典型的形式可能是：

K_{ij} = \exp\left( - \frac{d_{g}(i,j)^{2}}{\varepsilon_{g}} - \lambda \frac{d_{s}(i,j)^{2}}{\varepsilon_{s}} \right)

在这里， $\varepsilon_{g}$ 和 $\varepsilon_{s}$ 是两种模态的带宽，而 $\lambda$ 是一个平衡它们相对重要性的关键参数。选择 $\lambda$ 的一个有原则的方法是要求，平均而言，基因表达和空间距离对核指数的贡献是相等的。这可以防止一种模态压倒另一种模态，并允许扩散过程探索细胞身份和组织位置的联合几何，揭示依赖于细胞“是什么”和“在哪里”的模式。

分子的秘密编排

让我们从细胞和组织的尺度放大到单个分子的世界。例如，一个蛋白质不是一个静态的物体。它是一长串氨基酸链，由于热能而不断地晃动和摆动。为了执行其功能，它必须折叠成一个精确的三维形状。这个折叠过程是一个涉及数千个原子的复杂舞蹈。我们如何找到构成折叠的本质、缓慢的运动，并将它们与快速、随机的晃动风暴分离开来？

这正是扩散图擅长的事情。通过运行分子动力学（MD）模拟，我们可以生成数百万个蛋白质构象的“快照”。每个快照都是一个高维点，代表其所有原子的位置。然后我们可以使用扩散图来分析这个轨迹。主要的扩散坐标——那些与扩散算子衰减最慢的模式相关联的坐标——对应于分子的缓慢、大尺度的运动，例如折叠和展开事件。这些坐标构成了一个数据驱动的反应坐标，一个捕捉化学反应本质的低维描述。

这种方法是现代动力学建模的核心。通过将扩散图（或相关技术如tICA）与马尔可夫状态模型（MSMs）等方法相结合，科学家可以从原始模拟数据中构建一个分子过程的完整动力学模型。这使他们能够识别亚稳态（如折叠态和未折叠态），找到它们之间的过渡路径，甚至计算反应速率——这在过去是计算上难以处理的壮举。关键在于扩散图嵌入提供了正确的坐标系，在其中可以看到缓慢而重要的动力学。

从大脑到机器：揭示组织原则

扩散图的力量超越了生物学和化学，延伸到神经科学甚至人工智能领域，这些领域的数据通常以复杂网络的形式构成。

寻找大脑的组织原则

人脑可以被看作是一个巨大而复杂的网络，其中大脑区域是节点，连接它们的白质束是边。这个网络是如何组织起来以支持复杂认知的？我们可以构建一个代表这种结构连通性的图，并在其上运行一个扩散过程。这模拟了一个信号或信息可能如何在大脑皮层上传播和整合。

这个大脑图的扩散图揭示了惊人的信息。第一个非平凡的扩散坐标，对应于最慢的扩散模式，通常描绘了皮层组织的一个主要梯度。这个梯度的一端是初级感觉和运动区域（单模态皮层），它们处理特定的输入和输出。另一端是跨模态联合区，如前额叶皮层，它们负责抽象思维和整合来自许多不同来源的信息。扩散图，仅仅通过分析连通性的几何结构，就揭示了大脑功能的一个基本轴心——从简单感知到抽象认知的层级结构。

教会机器创造……并保持稳定

最后，让我们看看人工智能的前沿。生成对抗网络（GANs）是一类可以学习生成新的、逼真数据的模型，例如从未存在过的人脸图像。它们通过让两个神经网络相互对抗来工作：一个生成器（像艺术伪造者）试图创造逼真的赝品，一个判别器（像艺术侦探）试图区分赝品和真品。

一个常见的问题是，生成器可能会发现很容易生成一种能骗过判别器的特定类型的图像，然后就卡住了，只产生那一种东西——这个问题叫做模式坍塌。另一个问题是不稳定性，即训练过程剧烈振荡。这些问题通常是因为判别器提供了糟糕的反馈，特别是对于那些与真实数据分布“相距甚远”的生成样本。

扩散图提供了一个绝妙的解决方案。真实数据（例如，所有真实人脸的图像）位于所有可能像素值的高维空间内的一个复杂的、低维的流形上。我们可以使用扩散图来学习这个“人脸流形”的几何结构。如果我们然后强制判别器在这个扩散空间中操作，它就变得具有流形感知能力。它给生成器的反馈变得有用得多。对于一个在流形上但不够多样的生成图像，判别器可以提供一个平滑的梯度，说：“这个很好，但沿着流形移动，尝试一些新的东西。”对于一个只是嘈杂的无意义图像（偏离流形），它提供了一个强烈的校正梯度，说：“回到看起来像人脸的东西的流形上来！”通过将对抗性游戏与数据的内在几何结构对齐，扩散图可以使生成模型更加稳定和富有创造力。

从蛋白质的折叠到我们大脑中的思想，再到我们机器的创造力，图上的扩散思想提供了一个统一的框架来发现隐藏的几何结构。它有力地提醒我们，有时，最深刻的见解来自于用一种新的眼光看待问题——在这种情况下，是扩散那温暖而缓慢消逝的光芒。