
在当今的大数据时代,我们被来自科学各个角落的复杂高维数据集所淹没——从成千上万个细胞的基因表达谱,到运动中蛋白质的原子坐标。尽管这些数据信息丰富,但它们常常掩盖了支配系统的简单底层过程。依赖于标准欧几里得距离的传统方法可能会产生误导,无法捕捉数据点之间真实的内在关系。我们如何才能在这些庞大的数据云中找到隐藏的路径和结构呢?
本文介绍扩散图,这是一种强大的降维技术,为理解复杂数据提供了一个几何框架。通过将距离重新定义为基于随机游走过程的连通性度量,扩散图揭示了数据所在的底层流形。接下来的章节将引导您了解这种优雅的方法。首先,在“原理与机制”一章中,我们将剖析该算法,从构建数据点图到利用其谱特性创建一个新的、有意义的坐标系。随后,“应用与跨学科联系”一章将展示扩散图非凡的多功能性,演示它们如何被用于绘制细胞发育图谱、揭示化学反应的编排,乃至描绘神经活动的景观。
想象一下,你是一位古代的地图绘制师,任务是绘制一个新发现的群岛。你没有卫星,没有飞机,甚至没有船只来直接测量距离。你唯一的信息来自于观察商人们在岛屿间跳跃穿梭的旅程。你注意到,在某些岛屿之间往来很容易,而另一些岛屿之间的通行则很罕见。你如何仅凭这些信息绘制出一幅地图?这正是扩散图旨在解决的挑战,只不过对象不是陆地岛屿,而是广阔高维空间中的数据“岛屿”。
大多数有趣的数据集,无论它们代表神经元的放电模式、细胞中基因的表达,还是蛋白质的构象形状,都不仅仅是随机的点云。它们拥有潜在的结构。流形假设认为,这些高维数据点实际上位于一个维度低得多、平滑的曲面或流形上或其附近。我们的首要任务是揭示这些点之间的连接。
我们从构建一个图开始,这是一个由节点和边组成的网络。每个数据点都成为一个节点。然后我们通过搭建“桥梁”来连接这些节点。规则很简单:我们只在彼此“接近”的点之间建立桥梁。我们使用核函数来量化这种接近程度,最常用的是高斯核,。这个函数就像一个总桥梁建造师:它为非常近的点分配一个大的权重(一座坚固的桥),而为相距较远的点分配一个迅速衰减、接近于零的权重。参数设定了我们的尺度;它定义了我们认为的“局部”范围。
但是我们应该使用什么“距离”呢?这不是一个简单的问题。度量的选择对整个事业的成功至关重要。想象一下,我们的数据点是分子模拟中蛋白质的快照。使用所有原子的原始笛卡尔坐标将是一个错误。整个蛋白质的简单旋转或平移——这种完全不改变其内部形状的运动——会导致一个很大的笛卡尔距离。我们的图所能发现的主要模式将是这些无关紧要的刚体运动,而不是我们关心的那些微妙、缓慢的构象变化。相反,我们必须使用更智能的距离,比如在最佳对齐结构后的均方根偏差 (RMSD),或者基于二面角等内部坐标的距离,这些坐标对全局运动是不变的。即便如此,我们仍需小心。二面角是周期性的,存在于一个圆上。将它们视为直线上的数字会在和处产生一个人为的“切口”。一个巧妙的技巧是将每个角度不表示为单个数字,而是表示为圆上的一对坐标,从而确保几何形状被正确捕捉。距离的初始选择定义了我们即将探索的整个景观。
在我们的桥梁网络就位后,我们现在可以定义一个扩散过程。想象一个随机游走者从一个数据点开始。在每一步,游走者决定跳到哪个相邻点。它更有可能穿过一座坚固的桥(高核权重)而不是一座脆弱的桥。我们通过创建一个马尔可夫转移矩阵来将其形式化,记为。每个条目是从点一步转移到点的概率。我们通过取从到的桥梁权重,然后除以离开点的所有桥梁的权重之和来计算它。这确保了从任何点出发,跳到所有可能邻居的概率之和为一。
矩阵包含了我们数据上运动的基本规则。应用一次它模拟了随机游走的一步。通过计算矩阵的次幂,应用它次,可以告诉我们从任意点在恰好步内到达任意其他点的概率。这个过程,即概率从一个起始点在图上“扩散”开来,正是扩散图的核心——扩散。
这里蕴含着该方法的核心、美妙的洞见。欧几里得距离可能会产生误导。考虑一个细胞分化的数据集,其中一个祖细胞类型分化为两个不同的谱系。两个细胞,每个分支上各一个,可能在基因空间中与祖细胞很近,因此在欧几里得距离上也彼此接近。然而,它们属于根本不同的命运。
扩散图提出了一种更深刻的测量距离的方式。我们不再问“两个点相距多远?”,而是问“从它们开始的随机旅程有多相似?”。如果两个点和位于我们数据流形的同一分支上,那么从任一点开始的随机游走在步后倾向于探索一组相似的邻近点。它们在可能目的地上的概率分布,由矩阵的行和给出,将会非常相似。相反,如果它们位于仅由一个遥远的瓶颈连接的独立分支上,它们的随机游走将探索图的非常不同的部分。它们的目的地分布将大相径庭。
这种相似性被形式化为扩散距离,。它本质上是这两个概率分布之间的距离:
其中是稳态分布,一个用于校正点密度的项。这个新的度量忽略了直接的欧几里得距离,而是通过图来衡量连通性。它“展开”了流形,使得在同一连续路径上的点彼此接近,而在不同分支上的点则相距遥远,从而揭示了数据真实的内在几何。
计算所有这些成对的扩散距离可能很麻烦。奇妙的是,有一种更直接的方法可以得到这个图,那就是利用线性代数的魔力。转移矩阵有一组特殊的向量,称为右特征向量 ,以及对应的数值,称为特征值 。当我们将应用于一个特征向量时,这等同于仅仅将该特征向量乘以其特征值:。这些特征向量代表了我们数据图的基本“模式”或“谐波”。
对于一个随机游走矩阵,特征值都在和之间。最大的特征值总是。其对应的特征向量是一个全为1的常数向量。这是“平凡”特征向量。它代表了系统的稳态:在无限长的时间之后,随机游走者在任何地方的概率都相等,所有关于起始点的信息都丢失了。这个向量不包含任何几何信息,必须从我们的图中排除。包含它然后执行标准的数据缩放(如z-scoring)可能会导致数值灾难,因为你将用其接近零的方差来做除法,从而将微小的数值误差放大成一个占主导地位的、无意义的坐标。
真正的魔力在于非平凡的特征向量,。它们的特征值小于1,因此它们代表了随时间衰减的模式。扩散图是一种嵌入,它使用这些特征向量作为我们数据的新坐标。点沿第轴的坐标就是第个特征向量在该点的值,再乘以其特征值对扩散时间的幂。
前几个特征向量,对应于最接近1的特征值,是“最慢”的模式。它们代表了数据中最持久、最大尺度的结构。在这个新的低维扩散图空间中,点之间的欧几里得距离出色地逼近了图上的真实扩散距离。我们找到了一个尊重数据内在连通性的坐标系。整个框架与图拉普拉斯算子紧密相连,后者是衡量图上“平滑度”的算子,其谱特性与的谱特性密切相关。
扩散时间不仅仅是一个参数;它是一个控制我们地图分辨率的旋钮,就像显微镜的焦距一样。
这种多尺度特性是一种深远的优势。我们如何选择合适的?一种方法是检查谱隙:排序后的特征值列表通常在最初几个之后会出现一个急剧的下降。这个间隙将“信号”(捕捉真实结构的慢速模式)与“噪声”(快速模式)分离开来。我们可以选择一个足够大的来放大这个间隙,从而有效地将精华与糟粕分开,而不会过度平滑掉有趣的特征。
最后还有一个微妙的问题。如果我们的数据点不是从底层流形上均匀采样的,会怎么样?想象一下绘制一个国家地图,我们有很多来自人口稠密城市的数据点,但很少有来自农村地区的。标准的随机游走会倾向于“困在”高密度的城市里。由此产生的扩散过程及其生成的图将是国家内在地理和其人口分布的混合体。
扩散图的标准构建方法(对应于参数选择)正是这样做的。扩散过程具有向高密度区域漂移的趋势。有时这正是我们想要的!我们可能对这个密度加权景观上的动力学感兴趣。
但通常,我们的目标是揭示流形的纯粹内在几何,而不受我们恰好如何采样它的影响。令人惊讶的是,我们可以实现这一点。通过轻微修改核的归一化——一个称为-重整化的过程——我们可以精确地控制这种密度偏差。通过将参数设置为1,我们可以构建一个完全抵消采样密度影响的扩散过程。在大量数据的极限下,该过程的生成元收敛于流形真实的、几何的Laplace-Beltrami算子。这使我们能够恢复一幅纯粹的地理图,不受人口分布的污染。的选择赋予了我们非凡的力量来调整我们想看到的东西:是采样数据上的原始动力学,还是数据来源的隐藏世界的原始几何。
在遍历了扩散图的原理之后,我们现在站在了一个制高点。我们已经看到如何从一团数据点中构建一种新的地图,一种距离不是以米或英里衡量,而是以从一个点“扩散”到另一个点的可能性来衡量的地图。这是一个深刻的视角转变。但是,一幅地图,无论其构造多么优雅,其用处仅在于它能让我们探索的新世界。我们能用这些地图做什么呢?
事实证明,这种几何学的思维方式是一种通用语言,能够描述各种各样复杂系统中隐藏的结构。从发育中胚胎的复杂芭蕾,到神经回路中编码的短暂思绪,从化学反应的微妙舞蹈,到人工智能的创造火花,扩散图提供了一个发现底层简单性的透镜。现在,让我们开始一次对这些应用的巡礼,看看这个美妙的想法如何统一科学世界中看似迥然不同的角落。
也许扩散图最直观、最强大的应用在于发育生物学。想象一下成千上万个单细胞的集合,每个细胞都是一个基因表达谱的快照。我们知道这些细胞是发育过程的一部分——例如,干细胞转变为肌肉细胞——但这些快照都是混杂在一起的。我们如何将它们按顺序排列?这就是推断“伪时间”的问题。
扩散图提供了一个惊人优雅的解决方案。通过将每个细胞视为一个点并构建扩散图,我们发现最主要的、“最慢”的扩散路径恰好遵循了发育轨迹本身。第一个非平凡扩散坐标,即与小于1的最大特征值相关联的特征向量,有效地为每个细胞赋予一个值,使其沿着这条路径排序。一个简单的思想实验可以清楚地说明这一点:如果我们的细胞排列成一个完美的环,第一个扩散坐标会像角度的余弦一样在环周围平滑变化,提供一个完美的圆形坐标。在真实的生物过程中,这更像是一个分叉的路径,这个坐标追踪了从一个状态到另一个状态的进展。这不仅仅是一个理论上的好奇心;它是一个实用的计算流程,用于研究干细胞重编程等过程,我们可以拿一个复杂的数据集,利用到指定“根”细胞的扩散距离,来绘制从一种细胞类型到另一种细胞类型的整个旅程,并通过观察已知的早期和晚期基因是否在正确的时间开启和关闭来验证结果。
同样的逻辑从单个细胞类型的发育延伸到整个患者的疾病进展。来自电子健康记录的临床数据极其复杂,是实验室测试、生命体征和诊断结果的高维混乱组合。“流形假设”提出,尽管存在这种复杂性,慢性病的进展遵循着一条简单得多的低维路径。扩散图允许我们通过将患者嵌入到一个低维空间中来检验这个假设,在这个空间里,距离反映了他们疾病状态的相似性。关键是,我们必须考虑数据中的偏差;一家医院可能在疾病早期阶段的患者比晚期阶段多得多。通过使用密度归一化方案(特别是将图与内在Laplace-Beltrami算子联系起来的设置),我们可以滤除这种采样偏差,并揭示疾病流形本身的真实几何形状。这使得患者表型分型更有意义,能够发现标准方法可能看不到的、处于相似轨迹上的患者集群。
这个框架的力量在于其灵活性。在新兴的空间分辨转录组学领域,我们不仅拥有细胞的基因表达谱,还拥有其在组织内的物理位置。我们如何创建一个既尊重基因表达又尊重物理位置的地图?扩散图基于核的特性提供了答案。我们可以设计一个新的“亲和”核,它结合了两个项:一项用于基因表达的相似性,另一项用于物理空间的邻近性。通过引入一个平衡这两种模态贡献的比例因子——这个因子可以通过要求典型的基因距离和空间距离贡献相等而从数据本身推导出来——我们可以构建一个统一的图,揭示由分子状态和空间组织共同定义的组织结构。
也许最深刻的联系来自于我们将这种绘图类比推向极致。一幅地图不仅有路径和距离,还有地形,有山有谷。令人惊讶的是,扩散图可以揭示一个类似的“准势能景观”。扩散过程的稳态概率——即长时间后在某个特定状态下发现一个细胞的可能性——通过与支配气体分子的相同玻尔兹曼关系 与有效势能相关联。例如,在免疫学中,这些谷代表稳定的细胞命运,而它们之间的小山代表细胞改变其身份必须克服的“能量壁垒”。通过从数据中估计稳态概率,我们可以直接计算这些壁垒的高度,从而得到一个完全从数据几何中推导出的、定量的、物理的细胞决策模型。
势能景观的语言自然而然地将我们带到了物理学和化学领域,这个概念在这些领域是土生土长的。考虑一个在计算机上模拟的化学反应。一个由许多原子组成的分子,在成千上万维的空间中扭动和旋转。反应本身——一个键的断裂,一个分子的折叠——是一个罕见事件,是从一个复杂的势能面上稳定的“反应物”盆地到稳定的“产物”盆地的短暂过渡。识别“反应坐标”,即最能描述此转变的一维路径,是一个核心挑战。
在这里,扩散图再次提供了一个有原则的答案。系统中最慢的过程是从反应物到产物的罕见跨越。第一个非平凡扩散坐标,通过捕捉数据流形上最慢的扩散模式,提供了该反应坐标的数据驱动近似。然而,要正确做到这一点,需要物理洞察力。模拟数据并非均匀采样;由于玻尔兹曼统计的结果,系统大部分时间都停留在低能量盆地中。一个朴素的扩散图会被这种采样所偏倚。解决方案是使用密度校正来剔除这种已知的偏差,从而让图揭示底层的动力学。然后,可以将得到的坐标与“committor”(一种物理上严谨的反应进程定义)进行验证,以确认其质量。
这个工具甚至可以成为更大诊断工作流的一部分。在诸如温度加速动力学等方法中,我们假设跃迁是简单的无记忆过程,这意味着等待一个事件发生的时间应该遵循指数分布。如果模拟显示情况并非如此,这就是一个警示信号:肯定有一个未被考虑的“隐藏”慢变量。这种统计观察随后可以触发对系统构象的扩散图分析,以找到那个缺失的坐标,从而揭示破坏简单模型的隐藏复杂性。
协同作用可以更进一步,形成一个分析主动引导模拟的闭环。在诸如元动力学等增强采样方法中,我们试图通过用排斥性偏置势“填充”已访问过的盆地来加速对能量景观的探索,从而推动系统越过壁垒。但我们应该如何塑造这个偏置呢?一个糟糕的选择可能效率低下,甚至会扭曲物理过程。扩散图提供了一个绝妙的解决方案。通过将系统嵌入到扩散坐标中,我们进入了一个欧几里得距离具有动力学意义的空间——它就是扩散距离。一个有原则的策略是沉积在此扩散空间中呈球形的高斯山。当转换回原始坐标时,这对应于一个各向异性的偏置,它根据慢流形的几何形状及其动力学的时间尺度被精心塑造。其结果是对分子世界进行更智能、更高效的探索,这种探索由系统自身揭示的几何所引导。
这些几何思想的影响力延伸到了最复杂和抽象的领域:大脑和人工智能。大脑是一个动力学系统。一群神经元的放电模式随时间演变,在一个高维状态空间中描绘出一条轨迹。据推测,思想、记忆和行动对应于该动力学系统中的吸引子——稳定的不动点或极限环。
如果一个神经回路的活动由一个极限环吸引子控制,其状态空间轨迹将描绘出一个具有圆拓扑()的流形。我们如何从神经活动记录中发现这一点?扩散图提供了一个直接而惊人的答案。圆上的Laplace-Beltrami算子的特征函数就是简单的正弦和余弦。通过从神经数据构建一个经过密度校正的扩散图,我们可以恢复这些特征函数的近似值。将前两个非平凡扩散坐标相互绘制,将真正地把圆形动力学“展开”成一个清晰的圆,揭示正在执行的计算的隐藏周期性结构。通过调整扩散时间参数,我们可以滤除快速、嘈杂的波动,并分离出代表神经计算核心的这个缓慢的、循环的流形。
最后,我们转向机器创造力的挑战。生成对抗网络(GANs)通过生成器和判别器之间的博弈来学习创建逼真的数据,如图像或文本。一个臭名昭著的问题是“模式崩溃”,即生成器只学会产生少数几个令人信服的样本,未能捕捉到真实数据的全部多样性。这通常是因为当其创作落入远离真实数据流形的广阔“空白”空间时,判别器会给生成器提供无意义的梯度。
解决方案是使判别器“流形感知”。我们不是在原始高维空间中评估生成的样本,而是首先使用基于真实数据构建的扩散图将其嵌入。然后,判别器在这个更简单、结构更清晰的空间中操作。它提供给生成器的梯度现在具有几何意义。对于一个远离真实数据流形的生成样本,梯度会提供一个强大的纠正性推动,使其回到流形上,从而稳定训练。对于一个位于流形上但处于生成器已经过度生成的区域的样本,判别器会提供一个平滑的梯度,鼓励它探索其他采样较少的区域。这种扩散几何的应用有助于解决生成模型中最深层的问题之一,通过教会机器它试图模仿的世界的内在形状,来指导机器的创造过程。
从生物学到物理学再到人工智能,一个统一的主题浮现出来。世界的令人困惑的复杂性背后往往隐藏着一个优雅的低维结构。扩散图为我们提供了一种强大的几何语言来发现和解释这种结构。它们所做的不仅仅是创造图像;它们揭示了支配我们周围系统的基本坐标、势能景观和运动规则。它们向我们展示,通过理解可能性的几何,我们可以更好地理解现实的动力学。