try ai
科普
编辑
分享
反馈
  • 流形假说

流形假说

SciencePedia玻尔百科
核心要点
  • 流形假说认为,来自基因组学或图像等领域的高维数据,实际上位于一个低维的曲面(流形)上。
  • 这种结构规避了“维度灾难”,使得从复杂数据集中学习有意义的模式成为可能。
  • 在生物学中,它利用伪时间等概念,能够从单细胞数据中重建细胞分化等连续过程。
  • 在人工智能领域,它构成了强大的生成模型的基础,并有助于为临床预测创建安全、合理的反事实解释。
  • 利用该假说的算法对其流形的几何形状有特定的假设,这些假设与实际情况的不匹配可能导致结果失真。

引言

在大数据时代,我们被海量复杂的信息所淹没。从单个细胞中数千个基因的表达,到数字图像中数百万个像素,数据往往存在于维度极高的空间中。这带来了一个巨大的挑战,即“维度灾难”:在这样的空间里,我们的直觉会失灵,距离变得毫无意义,学习模式似乎也遥不可及。那么,现代机器学习是如何从如此压倒性的复杂性中提取出有意义的见解的呢?答案在于一个强大而优雅的思想:流形假说。该原则表明,数据并非随机散布,而是被限制在一个更简单、维度更低的几何结构或“流形”中,这个流形隐藏在广阔的环境空间之内。

本文深入探讨了这一支撑现代数据分析和人工智能大部分领域的基础概念。在“原理与机制”部分,我们将剖析维度灾难,并了解流形假说如何提供一线生机。我们将探索这些流形的几何形状、沿其曲面测量距离的重要性,以及学习算法的假设如何影响其成功。随后,“应用与跨学科联系”部分将揭示该理论如何付诸实践,将生物学、医学影像与安全和伦理人工智能的开发等不同领域联系起来,证明理解数据的形状是解开其秘密的关键。

原理与机制

想象一下,你得到一个包含所有已写书籍的图书馆。这个想法令人望而生畏!其体量之庞大是压倒性的。现在,想象你被要求在这个图书馆里找到一个特定的句子。这任务不是大海捞针,而是在全世界所有海滩上找到一粒特定的沙子。这本质上就是现代数据科学所面临的挑战。我们的数据——从单个细胞中数万个基因的表达,到大脑中数千个神经元的放电模式,再到高分辨率图像中的数百万像素——都存在于维度极高的空间中。而这些空间是奇异的、反直觉的,并且大部分是空的。

高维诅咒:一个幽灵世界

在我们熟悉的三维世界里,事物之间的远近关系令人安心。但是,当维度数量(我们称之为 ddd)急剧增加时,我们的直觉便会崩塌。这种直觉的崩塌是如此深刻,以至于它有一个名字:​​维度灾难​​。

首先,距离的概念本身就变得毫无意义。想象一下,在一片广阔的高维空间中随机散布着一些点。随着 ddd 的增加,一个奇怪的现象发生了:任意两个随机选择的点之间的距离几乎与任何其他两点之间的距离相同。就好像你身处一个向四面八方延伸的毫无特征的沙漠中;所有东西都只是“遥远”。这使得像聚类这样将相似事物分组的任务几乎不可能完成。当所有东西与其他所有东西的相异程度都相同时,你如何进行分组呢?

其次,空间本身变得几乎完全空旷。随着维度的增长,球体的体积相对于包含它的立方体的体积会缩小到零。数据点变成了无尽虚空中的孤独岛屿。这使得估计数据的“密度”或其集中位置成为一项徒劳的任务。为了获得可靠的估计,你所需要的样本数量 nnn 会随着维度 ddd 的增加而呈天文数字般增长。事实上,对于许多标准方法,我们估计的误差仅以 O(n−4/(4+d))O(n^{-4/(4+d)})O(n−4/(4+d)) 的速率缩小,随着 ddd 的增加,这个速度变得极其缓慢。如果数据真的随机散布在这些高维空间中,学习任何有意义的模式都将是徒劳的。

流形假说:一种隐藏的秩序

这里就是我们的救星,一个让现代机器学习成为可能的美妙核心思想:​​真实世界的数据并非随机散布​​。相反,我们观察到的高维数据只是一个幻象。它假装生活在一个广阔、空旷的宇宙中,但实际上,它被限制在一个更简单、维度更低的现实中。这就是​​流形假说​​。

该假说认为,我们的数据点看似存在于高维空间 Rp\mathbb{R}^pRp 中,但实际上是由少数生活在低维空间 Rd\mathbb{R}^dRd 中的潜(隐藏)变量生成的,其中 ddd 远远小于 ppp(d≪pd \ll pd≪p)。存在一个光滑的函数,一个映射 fff,它将一个来自简单潜空间的点 zzz 变换为我们在高维世界中观察到的复杂数据点 xxx:x≈f(z)x \approx f(z)x≈f(z)。所有可能的点 f(z)f(z)f(z) 的集合构成了一个嵌入在高维环境空间中的光滑、低维的曲面。这个曲面被称为​​流形​​。

想象一根细长的线在我们的三维房间里蜿蜒曲折。这根线本身是一个一维物体(一个一维流形)。线上的任何一点都可以用一个数字来描述:你沿着线走了多远。然而,要描述它在房间中的位置,你需要三个数字(x,y,zx, y, zx,y,z 坐标)。流形假说指出,复杂数据就像是这根线上的珠子;它们表面的复杂性只是它们在高维观察空间中蜿蜒路径的假象。

这不仅仅是一个方便的数学技巧;它植根于世界运作的现实。

  • 在生物学中,一个细胞中 p=20,000p=20,000p=20,000 个基因的表达水平不是独立的旋钮。它们由数量少得多的 ddd 个关键转录因子和信号通路所协调。连续的生物过程,如细胞分化或细胞周期,是这个底层流形上的光滑轨迹。映射 fff 的光滑性反映了底层生物化学动力学的光滑、连续的性质。
  • 在神经科学中,p=10,000p=10,000p=10,000 个神经元的协同放电并不代表 10,000 个独立的思想。它可能在编码少数几个简单的潜变量 ddd,比如动物注视的方向或其手臂在空间中的位置。突触整合和膜动力学的生物物理学确保了神经元的放电率随着这些潜变量的变化而平滑变化,从而产生一个可微的神经流形。

航行于流形之上:走测地线,而非直线

如果数据存在于一个弯曲的曲面上,我们熟悉的直线欧几里得距离就是一个骗子。想象一下询问旧金山和东京之间的距离。最短的路径是穿过地核的一条直线——这是一条无人能走的路径。有意义的距离是沿着地球这个曲面行进的距离。这种沿着曲面的最短路径被称为​​测地线​​。

许多简单的算法都弄错了这一点。它们看待折叠流形上的两个点——想象一下一张卷起来的纸(一个“瑞士卷”)相对两侧的两个点。在环境的三维空间中,这些点可能非常接近。使用欧几里得距离的算法会看到一条跨越间隙的“短路”,并错误地认为这些点是邻居。这会误导算法,使其认为流形有洞,或者以一种不真实的方式连接。

流形学习的关键是发现并尊重其内在的测地距离。我们可以通过构建一个图来实现这一点,将每个数据点只与它的直接邻居连接起来。两点之间通过这个连接网络的最短路径为我们提供了真实测地距离的一个近似值。这就是为什么拥有大量未标记数据如此强大的原因:它帮助我们绘制出流形的蜿蜒道路,使我们能够正确地计算距离。通过惩罚在测地邻居之间变化剧烈的函数,我们可以学习到沿着流形光滑的模式,从而尊重其真实的几何结构。

地图与疆域:当假设出错时

流形假说是一个普遍的原则,但实现它的算法有其自身更具体的“归纳偏置”——即它们对世界的内置假设。当算法的地图与数据的疆域不匹配时,就会产生人为的假象。

以​​局部线性嵌入(LLE)​​为例。它假设流形的每个小块基本上是平的。它试图将每个点重构为其邻居的线性组合。但在一个非凸表面上,比如新月的内侧,会发生什么呢?一个点的最近邻居可能都位于一侧。这时算法被迫进行外插而非内插,使用大的正负权重,使得最终的嵌入不稳定,常常导致新月折叠自身或圆环坍塌。

再来看一个非常流行的算法​​UMAP​​。其核心假设是流形的几何结构是局部均匀的——也就是说,在任何一个小块中,空间在所有方向上的拉伸程度都相同(度量是局部各向同性的)。但如果流形本身具有内在的各向异性,就像一块在一个方向上比另一个方向拉伸得更多的材料呢?例如,考虑由映射 ϕ(u,v)=(u,e2uv,0)\phi(u,v) = (u, e^{2u} v, 0)ϕ(u,v)=(u,e2uv,0) 生成的数据。其诱导度量为 g=(1+4e4uv22e4uv2e4uve4u)g = \begin{pmatrix} 1 + 4 e^{4u} v^{2} 2 e^{4u} v \\ 2 e^{4u} v e^{4u} \end{pmatrix}g=(1+4e4uv22e4uv2e4uve4u​),这远非单位矩阵的简单标量倍数。它包含了拉伸和剪切。UMAP的局部邻域各向同性模型无法捕捉到这一点;它可能会在其最终的嵌入中产生虚假的连接并撕裂流形。天下没有免费的午餐;最好的算法是其假设与数据真实几何结构最匹配的算法。

将假说付诸实践:预测、生成与发现

当我们的假设与实际情况匹配良好时,流形假说为学习提供了一个强大的框架。

其最重要的应用之一是​​半监督学习​​,即我们拥有大量的未标记数据和极少数珍贵的已标记样本。未标记数据使我们能够绘制出流形的结构。然后,我们可以援引一个简单而有力的思想:标签应沿流形保持一致。

  • ​​聚类假设​​认为,流形上同一密集聚类中的点应共享相同的标签。
  • ​​流形假设​​认为,决策函数应沿流形光滑。
  • ​​低密度分离​​原则指出,分隔不同类别的边界应位于流形分支之间的空旷、低密度区域。 通过强制执行这些原则,我们可以将信息从少数已标记点传播到众多未标记点,从而显著提高预测准确性。

更深刻的是流形假说在现代​​生成模型​​中的应用。我们可以训练一个深度神经网络,即一个生成器 GGG,来学习流形映射 fff 本身。生成器学习将来自像 Rk\mathbb{R}^kRk 这样的空间中的简单潜码 zzz 变换为复杂、逼真的数据,如位于数据流形 S=range(G)S = \mathrm{range}(G)S=range(G) 上的图像或音频。这个学习到的流形成为了解决不适定逆问题的一个极其强大的​​先验​​。假设我们想从有噪声、不完整的测量值 y=Ax⋆+wy = Ax^{\star} + wy=Ax⋆+w 中重建高分辨率的MRI图像。没有先验知识,这是一个不可能解决的问题。但通过将我们的解约束在生成器的逼真MRI流形上,即求解 x^∈arg⁡min⁡x∈S∥Ax−y∥22\hat{x} \in \arg\min_{x \in S} \|A x - y\|_{2}^{2}x^∈argminx∈S​∥Ax−y∥22​,我们可以取得惊人的结果。

美妙的是,理论告诉我们,重建的总误差 ∥x^−x⋆∥2\|\hat{x} - x^{\star}\|_2∥x^−x⋆∥2​ 可以分解为两部分:一部分是由于测量噪声 www,另一部分是由于模型设定不当,即 dist(x⋆,S)\mathrm{dist}(x^{\star}, S)dist(x⋆,S)——真实信号与我们学习到的流形之间的距离。这个优雅的分解告诉我们,即使我们对现实的模型不完美,我们仍然可以获得稳定、高质量的结果,其误差下限由我们模型的保真度决定。一阶分析甚至揭示了误差是如何由“有效噪声”(测量噪声加上模型失配)在多大程度上可以被沿流形切空间的移动所解释的。

它是真实的吗?关于证伪假说

一个美丽的理论只有经得起推敲才算好。我们如何知道流形假说对于一个给定的数据集是否错误?一个好的科学假说必须是可证伪的。幸运的是,该假说做出了具体的、可检验的预测。

首先,该假说声称数据位于一个单一的、​​连通的​​流形上。如果这是真的,那么随着我们收集越来越多的数据点,我们在其上构建的图最终应该合并成一个大的连通分量。如果即使有海量数据,我们的图仍然顽固地分裂成多个不连通的岛屿,那么这个假说很可能是错误的。数据可能实际上是不同聚类的混合体。

其次,该假说声称流形具有一个​​固定的、低的内在维度​​ ddd。我们可以从数据中估计这个维度。如果随着我们添加更多数据,我们对 ddd 的估计值持续无界增长,那么数据根本没有被限制在一个流形上;它只是在填充越来越大的高维空间。这将是一个明确的反驳。

最后,我们可以通过研究流形的“声音”来检验这个假说——即通过数据图上的扩散过程或随机游走所揭示的几何结构。在一个真实的 ddd 维流形上,图的拉普拉斯算子的谱必须遵循一个特定的标度律(韦尔定律),其中特征值的数量随 μd/2\mu^{d/2}μd/2 增长。此外,随机游走在短时间内返回其起点的概率与 t−d/2t^{-d/2}t−d/2 成正比。如果我们在数据上进行这些“几何声学”分析,发现标度指数很大(接近环境维度 ppp)或者谱定律不成立,我们就有了反对低维流形假说的有力证据。

通过这种方式,流形假说从一个美丽的哲学思想转变为一个严谨、可检验的科学理论。它是一盏指路明灯,引导我们穿越高维空间的令人生畏的黑暗,揭示出一个隐藏的、简单而优雅的结构世界,这个世界不仅可以理解,而且极其有用。

应用与跨学科联系

现在我们已经探索了流形假说的原理,我们可以开始一段激动人心的旅程,去看看这个美妙的想法将我们带向何方。我们会发现,它远不止是一个数学上的奇趣;它是一条金线,将看似迥异的领域编织在一起,从单个细胞内生命错综复杂的舞蹈,到人工智能和医学伦理的前沿。流形假说提供了一个新的视角来看待世界,在浩如烟海的高维数据复杂性中揭示出隐藏的几何秩序。它告诉我们,要理解数据,必先理解其形状。

生物蓝图:揭示生命过程

也许没有任何领域能比现代生物学更能体现流形假说的影响力。思考一下理解单个干细胞如何发育成一个成熟、特化的细胞(如神经元或B细胞)的挑战。利用单细胞RNA测序(scRNA-seq)等技术,我们可以在数千个单个细胞中测量超过20,000个基因的活性。这给了我们一个20,000维空间中的点云。一种天真的方法可能会将每个基因同等重要地对待,但这就像试图通过分析构成雕塑的每一个原子来理解它一样——我们会在噪声中迷失方向。

流形假说告诉我们有更好的方法。细胞分化的过程并非在这个巨大的基因表达空间中的随机游走。相反,它受到数量相对较少的核心基因调控程序的约束。这意味着细胞状态被限制在一个嵌入于20,000维空间内的光滑、低维的“流形”上。真正的发育信号位于这个流形上,而流形之外的无数维度基本上都是噪声。因此,分析此类数据的第一步不仅仅是计算上的捷径;它是一种深刻的“去噪”行为,即找到并专注于这个底层的流形。我们不是在丢弃信息;我们是在丢弃噪声以揭示结构。

一旦我们对这个发育流形有了概念,我们就可以提出一个更深层次的问题。我们如何衡量一个细胞在分化过程中的“进度”?我们不能简单地使用时间,因为发育可能会加速或减速。相反,我们需要一个沿着发育路径的内在进度度量。这就是“伪时间”概念的用武之地。如果我们将细胞发育的连续过程建模为流形上的一个轨迹——一条一维曲线——那么伪时间就只是一个衡量沿此曲线行进距离的坐标,就像公路上的里程碑一样。这样一个连续轨迹的存在,正是流形假说与生物过程是渐进且连续这一物理现实相结合的直接结果,这些过程受到诸如光滑的微分方程组等底层动力学的支配。

但是,当我们只有分散的数据点时,如何找到这条路径呢?我们无法直接看到流形。解决方案很优雅:我们玩一个高维的连点成线游戏。我们通过将每个细胞与其在高维空间中的最近邻居连接起来,构建一个图。这个“k-近邻”(kNN)图作为连续流形的离散近似。图上两细胞之间的最短路径为我们提供了沿流形真实测地距离的绝佳估计。通过找到从一个“根”干细胞到所有其他细胞的最短路径,我们可以为整个过程计算一个伪时间,从而有效地从零散的快照中重建生命的旅程。这种基于图的方法非常强大,因为它甚至可以描绘出细胞命运分化为多个不同谱系的复杂旅程,这在发育中很常见。

协调数据交响曲

流形假说的威力超越了单个数据集。科学领域一个持续的挑战是整合来自不同来源的数据。想象两个交响乐团演奏同一首交响曲,但用不同的麦克风在不同的音乐厅录制。由于“批次效应”,录音听起来会有所不同,但底层的音乐——旋律、和声和节奏——是相同的。在生物学中,当我们分批进行实验或使用不同技术时,就会发生这种情况。

流形假说提供了一种看透这些技术差异的方法。“共享流形”假设认为,虽然来自两个批次的数据可能会有偏移或扭曲,但底层的细胞状态生物流形是相同的。互近邻(MNN)算法是这一思想的绝妙应用。它寻找成对的细胞,每对中一个来自一个批次,另一个来自另一个批次,它们“相互”是对方最近的邻居。这些MNN对作为稳健的锚点,代表了通过不同技术镜头看到的相同生物状态。通过测量这些锚点之间的差异,我们可以估计局部的批次效应并进行校正,从而有效地将两个数据集对齐到它们共享的流形上。这种局部的、自适应的方法可以校正更简单的全局方法会遗漏的复杂、非线性扭曲。

我们可以将这个想法更进一步。如果我们不是用一种,而是用两种完全不同的技术来测量一个细胞,比如scRNA-seq(测量基因活性)和scATAC-seq(测量基因组的哪些部分是可及的)呢?这就像是同一底层细胞状态的两种不同“视图”——一个描述正在说的“词语”,另一个描述正在用的“语法”。流形对齐技术试图通过假设两个高维数据集都是同一潜流形(即真实细胞状态)的不同、失真的投影,来寻找一个共同的、整合的表示。其目标是学习一个嵌入,该嵌入既能保留每个数据集内的局部邻域结构,又能将来自两个视图的已知对应细胞(锚点)拉到一起。这就像找到一块罗塞塔石碑,可以在两种数据模态之间进行翻译,使我们能够构建一幅更全面的细胞身份图景。

从像素到预后:医学影像的几何学

流形假说不仅限于基因组学。让我们进入医学影像和放射组学领域,该领域旨在从医学图像中提取定量特征以预测患者预后。想象一下分析肿瘤的CT扫描。我们可以将肿瘤图像分解为一系列微小的纹理“斑块”。每个斑块都可以用一个特征向量来描述——关于像素强度、模式等的统计数据。

这些特征向量是否形成一个随机、无结构的云?流形假说表明它们不是。肿瘤纹理的变化很可能由一组数量较少的底层生物过程(如细胞密度、血管分布或坏死)所支配,这意味着纹理斑块数据应该位于一个低维流形上。通过使用像拉普拉斯特征映射这样的流形学习技术,我们可以“展开”这个流形,以找到一个更有意义的低维表示。与像PCA这样的线性方法(可能会将弯曲的路径误认为一堆杂乱的点)不同,拉普拉斯特征映射尊重局部邻域结构,找到一个能更好地反映肿瘤纹理内在几何形状的嵌入。这使我们能够看到肿瘤内部异质性的基本模式,这对于诊断和预测治疗反应至关重要。

教会机器看与思

流形假说是现代人工智能的基石。它有助于解释为什么深度学习模型,特别是像自动编码器这样的生成模型,在学习像图像这样的复杂数据时如此有效。一个标准的自动编码器仅仅学习压缩然后重建一幅图像。但一个*去噪自动编码器*做的事情更有趣。它被训练来接收一幅被破坏的、有噪声的图像,并重建出原始的、干净的版本。

这为什么能行?在流形假说的光芒下,答案是美妙的。所有“自然”图像(例如,人脸照片)的集合在所有可能像素组合的广阔空间中形成了一个极其复杂但维度很低的流形。噪声将一个点推离这个流形。去噪自动编码器学习的是流形的形状。它的重建映射就像一个矢量场,从环境空间中的任何点指向流形上最近的高密度区域。在一个与物理学和统计学的深刻联系中,这个学习到的矢量场是对数据对数密度梯度的估计,这个量被称为得分函数。人工智能实际上是在学习一种将现实从噪声中拉回来的力量。

这个想法对构建安全和合乎伦理的人工智能具有惊人的意义。考虑一个预测患者心脏病发作风险的临床AI。如果风险很高,我们希望AI能提出可行的改变建议——“如果你将胆固醇降低10个点,血压降低5个点会怎样?”这是在寻找一个“反事实”状态。在高维输入空间中天真地搜索可能会建议一个生理上不可能的实验室值组合。一个更好的方法是使用一个生成模型,比如变分自动编码器(VAE),它已经学习了可信的人类生理学流形。通过在模型的紧凑潜空间中搜索反事实,我们被含蓄地限制在停留在或靠近这个流形上。因此,生成的反事实更有可能是生理上合理的,并对应于安全的、可行的干预措施,前提是模型在训练时尊重已知的生物约束和因果通路。流形假说成为AI安全的护栏。

疾病地理学:一个标签的流形

在我们旅程的结尾,我们来思考流形假说最抽象也最强大的应用之一。到目前为止,我们讨论的都是数据点位于流形上。但如果标签本身也具有几何结构呢?

思考一下人类疾病的世界。我们通常将它们视为离散的、独立的类别。但我们知道事实并非如此。例如,2型糖尿病和心血管疾病通过炎症和代谢综合征等共同的病理生理机制而深度关联。我们可以用一个疾病相关的生物通路或遗传标记的向量来表示每种疾病。流形假说表明,这些疾病描述符并非随机填充空间;它们形成一个“疾病流形”,其中邻近性反映了共同的生物学基础。

这种“疾病地理学”为一项革命性的能力打开了大门:针对罕见病的零样本学习。假设我们用常见病训练一个分类器。它如何能诊断出从未见过一个样本的罕见病呢?如果它知道罕见病在流形上的“地址”,它就能做到。通过学习一个尊重整个疾病流形几何结构的映射——通过一种称为图正则化的技术来强制执行——模型学习的不是患者数据与孤立标签的关系,而是与流形上位置的关系。当一个新患者到来时,模型可以将他们放置在地图上,即使他们落在一个对应于未见过的疾病的区域,他们相对于已知地标的位置也使得诊断成为可能。

从单个细胞的旅程到人类病理学的宏伟地图,流形假说揭示了一个隐藏的几何结构宇宙。它证明了一个思想:在科学中,如同在艺术中,形式不仅仅是装饰;它正是意义的本质。通过学习看清数据的形状,我们解锁了对周围世界更深刻、更统一的理解。