try ai
科普
编辑
分享
反馈
  • 降维

降维

SciencePedia玻尔百科
核心要点
  • 高维数据会遭受“维度灾难”的影响,即特征数量过多超过样本数量,导致伪相关和过拟合。
  • 主成分分析 (PCA) 是一种线性方法,通过寻找最大方差方向来简化数据,但它可能无法捕捉非线性结构。
  • 像 UMAP 这样的非线性方法保留了数据的局部邻域结构,使其能够揭示复杂的模式,如细胞分化轨迹。
  • 有效的数据分析通常涉及一个流程,例如先使用 PCA 进行初步去噪,然后使用 UMAP 进行精细的非线性映射。
  • 降维是一个具有广泛应用的基本概念,从绘制生物学中的细胞类型,到检验生态学中的假设,再到为人类专业知识建模。

引言

在我们测量世界的能力呈爆炸式增长的时代,从单个细胞中的 20,000 个基因到现代金融的庞大数据流,我们面临着一个矛盾的挑战:我们淹没在信息的海洋中,却渴求洞见。这种数据的洪流以其巨大的变量数量或“维度”为特征,常常掩盖了我们试图理解的模式。这种复杂性可能导致统计陷阱,如“维度灾难”,即模型学习到的是随机噪声而非真实信号,这种现象被称为过拟合。那么,我们如何从雪崩般的数字中找出隐藏在其中的简单而优雅的故事呢?

本文探讨了降维的艺术与科学,这是一个从极其详细的数据集中创建有意义摘要的过程。它为驾驭高维世界提供了指南,将令人不知所措的复杂性转化为清晰、可操作的知识。接下来的章节将引导您完成这个过程。首先,在“原理与机制”中,我们将探讨高维度的核心挑战,并介绍基础的线性技术——主成分分析 (PCA) 及其固有的局限性。然后,我们将揭示像 UMAP 这样的现代非线性方法的魔力,它们可以可视化复杂数据中错综复杂的编织结构。随后,在“应用与跨学科联系”中,我们将见证这些工具的实际应用,揭示它们如何彻底改变单细胞生物学、实现因果推断,甚至为理解生态学和人类专业知识等不同领域提供框架。

原理与机制

想象一下,你想描述一个人。你可以从他们的身高和体重开始。两个数字,足够简单。但如果你决定要做到真正全面呢?你可以测量他们头上每根头发的确切三维坐标。你将拥有数百万个数字。你拥有了惊人数量的数据,但你是否更接近于理解这个人是谁,他们是什么样的人,或者甚至以一种有意义的方式了解他们的长相?可能没有。你已经淹没在细节的海洋里了。

这是现代科学的核心挑战。从单个细胞内演奏的 20,000 个基因的交响乐,到一杯葡萄酒的 800 个波长的光谱特征,我们被数据淹没。我们测量事物的能力已经超过了我们直观理解它们的能力。降维就是驯服这种复杂性的艺术和科学——从雪崩般的数字中找到隐藏的优雅、简单的故事。它是从一部极其详尽的地图集中创建一份有意义的摘要,一张有用的地图。

千种测量的诅咒

让我们来看一个癌症研究人员面临的现实问题。他们有来自 100 名患者的组织样本,对于每个样本,他们测量了 20,000 个不同基因的活性。他们的目标是利用这些数据来预测新患者的癌症是否会对特定药物产生反应。你可能会认为数据总是越多越好——当然,有 20,000 个基因旋钮可供观察,我们一定能找到规律。

这里潜藏着一个危险的统计陷阱。当你的特征(20,000 个基因)远多于样本(100 名患者)时,你就处于一个通常被称为​​维度灾难​​的危险境地。在这个高维空间中,一切都开始显得很特殊。找到“愚人金”——纯粹由随机机会产生的相关性——变得异常容易。你可能会发现,50 个不起眼的基因的特定组合能够完美预测你这 100 名患者的药物反应。但是,当你将你的模型用于一个新的、第 101 名患者时,它完全失效了。你的模型并没有学到深刻的生物学真理;它只是记住了你初始数据集中的噪声和特质。这种现象被称为​​过拟合​​。要构建一个能够​​泛化​​——即在从未见过的数据上也能工作——的模型,我们必须首先将特征数量减少到一个更易于管理、更有意义的集合。我们必须摆脱这个诅咒。

有意义阴影的艺术:主成分分析

我们如何开始简化这个 20,000 维的基因空间呢?最古老也最基本的方法是​​主成分分析 (PCA)​​。

想象一个物体,比如一支又长又细的铅笔,在三维空间中翻滚。你的任务是拍一张最能捕捉其本质的二维照片。你会站在哪里?你自然会选择能看到它最长一侧的位置。它投射在你胶片上的“影子”会尽可能地长和伸展,立刻告诉你“这是一个又长又细的物体”。相反,如果你从它的末端看,影子只是一个小圆圈,这是一个糟糕的表示,丢失了最重要的信息。

PCA 的作用完全相同,只不过处理的是数据而不是铅笔。它观察高维空间中的数据点云,并提问:“这个云在哪个方向上分布最广?”那个最大​​方差​​的方向成为第一个​​主成分 (PC1) ​​。这是你能投射出的信息量最大的“影子”。然后,它寻找下一个方差最大的方向,但有一个数学约束,即这个新方向必须与第一个方向正交(成直角)。这就是 PC2。以此类推。每个主成分都是所有原始特征的一个特殊混合,一个线性组合。

以根据葡萄酒的光吸收光谱区分其产地为例。我们对每种葡萄酒有 800 个吸光度值。PCA 不仅仅是挑选一个“最佳”波长。相反,PC1 可能是一个这样的配方: (0.3×450nm处的吸光度)−(0.7×520nm处的吸光度)+…(0.3 \times \text{450nm处的吸光度}) - (0.7 \times \text{520nm处的吸光度}) + \dots(0.3×450nm处的吸光度)−(0.7×520nm处的吸光度)+… 这个新的“超级变量”可能完美地捕捉了区分法国梅洛和智利梅洛的色素组合。PCA 是一种​​无监督​​方法;我们不告诉它葡萄酒的产地。它只是找到数据中固有的变化轴,然后我们可以探索这些轴以寻找模式。这与创建比尔定律图这样的​​有监督​​任务有根本的不同,在后者中,我们使用已知浓度来构建一个从单一吸光度测量中预测浓度的模型。PCA 用于探索;比尔定律用于直接量化。

当然,当我们将数据投影到前几个主成分上时,我们正在丢弃其他分布较窄的维度中的信息。我们做出了一个经过计算的赌注,即那些维度代表的是噪声,而不是信号。PCA 的美妙之处在于这种损失是完全可以量化的。​​重构误差​​——衡量原始数据与其低维影子之间差异的指标——精确地等于我们丢弃的所有维度的方差之和。在我们追求简洁的过程中,我们确切地知道我们失去了什么。

当影子说谎:线性的局限

PCA 优雅、强大,是数据分析的基石。但它有一个深刻的局限性:它是​​线性​​的。它只能找到扁平的“影子”——直线、平面及其高维对应物。当数据的真实结构不是扁平的时,会发生什么?

让我们回到影子的比喻。如果物体不是一支直铅笔,而是一卷盘绕的花园软管,或一个螺旋楼梯呢?现在,无论你从哪里照射光线,二维的影子都会一团糟。如果你把软管展开,本来相距很远的部分,在影子中却会投影到一起。这个影子谎报了真实的距离和关系。

这正是 PCA 在处理形成螺旋形的数据集时失败的原因。从数学上讲,PCA 无法执行所需的非线性“展开”操作来看到真实、简单的一维结构。它投射出一个线性的影子,将螺旋压扁成一个扭曲的团块,无可救药地混淆了本应相距甚远的点。

在生物学中,这种局限性可能关系到生死。想象一个癌细胞群体,其中一个微小、罕见的亚群具有独特的基因特征,使它们对药物产生抗性。在 20,000 维的基因空间中,这些细胞形成一个微小、紧密但独特的簇。然而,它们对整个数据集总体方差的贡献可能微不足道,就像一根巨大的、纯色花园软管上的一颗亮色珠子。PCA 痴迷于捕捉最大的全局方差,会将其“光源”聚焦在庞大的药物敏感细胞群体的分布上。在由此产生的影子中,罕见的耐药细胞完全消失了,与大多数细胞混杂在一起。PCA 的影子说了谎,我们错过了最重要的细胞。

编织局部结构:流形学习的魔力

如果线性的影子具有欺骗性,我们需要一种新方法。这就是现代非线性方法,如​​均匀流形逼近与投影 (UMAP)​​ 发挥作用的地方。这些方法被称为​​流形学习​​算法。其核心思想简单而深刻:忘掉全局结构,专注于局部邻域。

想象你是一只生活在盘绕花园软管表面的小蚂蚁。你不知道也不关心它在三维空间中的整体形状。你的世界由你的直接周围环境定义:“谁是我最近的邻居?”UMAP 就是这样工作的。它遍历每一个数据点(例如,每个细胞),并在原始高维空间中确定其最近的邻居。它建立了一个局部连接网络,编织出一块代表数据局部结构的面料。然后,它的第二个技巧是找到一种方法将这块面料平铺在一个二维表面上,根据需要进行拉伸和挤压,其主要目标是:保持邻居仍然是邻居。在高维空间中相近的点在二维地图上也应该保持相近。

这种“局部优先”的理念使得 UMAP 能够在 PCA 失败的地方取得成功。它能看到罕见的耐药细胞,因为它们彼此都是近邻,并且远离主要群体。当 UMAP 铺开其二维地图时,它将这个小群体放置为一个独特、独立的岛屿,使其立即可见。正是这种找到生物学变异主轴——通常对应于细胞类型和状态——并在低维空间中表示它们的能力,使得这些工具对生物学家来说不可或缺。

当你看到一篇生物学论文中漂亮的 UMAP 图,上面有彩色的点云时,请记住每个点代表什么。它不是一个基因,也不是一个平均值。每一个单独的点都是一个完整的、单一的细胞,其复杂的、20,000 维的转录组已被提炼成一个位置,一个二维地图上的点。两个点之所以靠得很近,是因为它们的细胞在某种根本的生物学意义上是相似的。

方法的交响乐:流程的艺术

在现实世界中,数据分析很少是一个单步过程。它是一个流程,一首方法的交响乐,其中每种乐器都扮演着自己的角色。你不会用考古学家精巧的刷子来清理一吨重的岩石;你会从一把铲子开始。

在许多现代工作流程中,尤其是在单细胞生物学中,研究人员首先使用 PCA 作为“铲子”,然后使用 UMAP 作为“刷子”。为什么?在 20,000 个维度上运行 UMAP 计算速度慢,并且可能对噪声敏感。其假设是,最重要的生物学信号存在于前 30-50 个主成分中,而其余 19,950 多个维度主要由随机噪声主导。因此,第一步是使用 PCA 快速有效地将数据从 20,000 维降至(比如说)50 维。这是一个强大的去噪步骤。然后,在这个更小、更干净的 50 维空间上运行 UMAP,以仔细排列点并揭示精细的非线性结构。

流程的艺术也延伸到在进行任何降维之前准备数据。假设你正在研究干细胞如何决定成为神经元。这是一个关于稳定​​细胞身份​​的问题。但同时还有一个强大的生物学过程正在发生:​​细胞周期​​。细胞不断处于分裂的不同阶段(G1、S、G2、M),这涉及基因表达的巨大、协调的变化。这个细胞周期信号通常非常强大,以至于可以完全主导分析。如果你不小心,你的降维算法只会根据细胞是正在分裂还是处于静止状态来对它们进行排序,而不是根据它们是干细胞还是神经元。解决方案是首先在计算上“回归掉”细胞周期信号。这就像使用音响工程师的滤波器从音乐录音中去除响亮、恼人的嗡嗡声。一旦去除了这个混淆的嗡嗡声,你终于可以听到下面细胞分化的微妙旋律。

从投射线性阴影到编织局部结构,降维是观察我们世界隐藏结构的强大镜头。它不是一个可以一按了之的按钮,而是一个深思熟虑的过程,需要选择正确的工具,理解它们的假设,并仔细准备我们的数据以提出正确的问题。这就是我们如何将数字的洪流转化为洞见,将数据转化为发现。

应用与跨学科联系

在经历了降维的原理与机制之旅后,我们可能会倾向于将其视为一种巧妙的数学和计算机器。诚然,它是一个有用的工具,但或许仅此而已。事实远非如此。真正的魔力始于我们将这些思想应用于我们周围的世界。我们发现,降维不仅仅是一种分析数据的方法,更是一个我们可以借以洞察惊人复杂性中隐藏秩序的镜头,一个自然界本身也在运用的原则,甚至是对人类理解行为本身的一种隐喻。正是在数学与现实的交汇处,这个概念才真正焕发了生机。

绘制细胞图谱:生物学的一场革命

降维的影响在现代生物学中最为爆炸性,尤其是在单细胞技术出现之后。想象一下,通过分析一个由城市所有居民混合而成的“冰沙”来了解一个繁华的城市。这就是几十年来生物学的状态。单细胞 RNA 测序改变了这一切,让我们能够同时测量成千上万个单个细胞中数千个基因的活性。结果是什么?数据的洪流,一个具有数万维度的矩阵。在其原始形式下,这些信息是一团无法穿透的迷雾。

但是,当我们应用像 UMAP 或 t-SNE 这样的降维算法时,迷雾突然散去。原本毫无特征的点云凝聚成一个令人惊叹的细胞岛屿群。每个点是一个细胞,每个岛屿是一种独特的细胞类型。实际上,我们已经创建了一张地图。为了导航这张地图,我们可以问一些简单的问题。例如,在一项对胚胎组织的研究中,我们可以“高亮”显示所有正在活跃使用特定基因(比如 Fgf8)的细胞。如果我们看到我们新发现的岛屿中只有一个亮了起来,我们就做出了一个深刻的发现:我们识别出了一个独特的细胞群体,并找到了一个作为其独特旗帜的“标记基因”。这就是今天伟大的、逐个细胞绘制的人体图谱的绘制方式。

但这为什么会奏效呢?为什么细胞会形成如此整齐的簇?答案在于生命本身的基本逻辑。一个细胞的身份——无论是神经元还是皮肤细胞——不是由单个基因定义的,而是由一整套协同调控的基因程序定义的。例如,一个表达 Parvalbumin 的神经元不仅仅是打开 Pvalb 基因;它会激活一整套帮助其作为快速发放中间神经元发挥功能的基因。这些由共享的转录机制控制的基因模块,在高维数据中创造出强大、协调的信号。像 PCA 这样的降维方法正是为了找到这些主要的变异轴而设计的。它们检测基因表达交响乐中的主要“主题”,而这些主题对应着这些生物学程序。因此,从皮层分析中涌现出的 Parvalbumin、Somatostatin 和 Vasoactive Intestinal Peptide 神经元的稳定、分离的簇并非数学上的人为产物;它们是写在基因组语言中细胞身份的离散、模块化逻辑的直接反映。

然而,生命并非静止。细胞出生、分化、响应。我们的细胞类型图谱仅仅是一个快照。我们能否也捕捉连接它们的过程?值得注意的是,可以。在许多数据集中,尤其是在发育中的组织中,细胞不仅形成离散的岛屿,还沿着连续的路径排列。我们可能会看到一条从祖细胞源头流向成熟、分化的肌纤维“三角洲”的细胞“河流”。通过沿着这条计算机推断的路径对细胞进行排序,我们可以为每个细胞计算一个“伪时间”。这不是以分钟或小时为单位的真实时间的度量,而是发育进程的度量。它使我们能够从一个混合细胞群体的单一、静态快照中,重建出协调分化的整个基因表达变化序列。

故事并未就此结束。下一个前沿是将我们的细胞图谱放回其物理背景中。新的空间转录组学技术不是在分离的细胞中测量基因表达,而是在组织切片内的原始位置进行测量。挑战于是变成了寻找既尊重基因表达相似性又尊重空间邻近性的模式。具有空间意识的降维方法正是这样做的,它们将表达数据 (xix_ixi​) 与空间坐标 (sis_isi​) 相结合。它们学习一种能够揭示连贯组织域的表示——比如淋巴结的 B 细胞滤泡和 T 细胞区——使我们能够理解定义组织微环境的分子对话。

综合的艺术:看到全局

我们在细胞生物学中发现的原则远远超出了这个领域。现代科学通常是一种综合的实践,将各种不同的证据线索编织成一幅连贯的织锦。考虑一项复杂疾病的研究,研究人员收集了转录组学数据(哪些基因在表达)和蛋白质组学数据(哪些蛋白质丰富)。一个简单的方法是分别分析每个数据集。在基因数据上使用 PCA 可能会揭示主要模式与患者年龄有关。在蛋白质数据上单独进行 PCA 可能会发现最大的变异来源是样品制备过程中的技术性假象。两者都可能是真实的,但都未能指向疾病本身。

一种更强大的方法,使用像多组学因子分析 (MOFA) 这样的联合方法,寻找能够同时解释两个数据集中变异的共享潜因子。这种方法可能会发现一个因子,虽然在基因或蛋白质中单独看都只是一个中等程度的变异来源,但它代表了两者之间高度相关的失调。这个在单独分析中不可见的共享信号,可能就是所研究的代谢综合征的关键特征。通过以协调的方式降低两个数据集的维度,我们找到了它们之间微妙的和谐(或不和谐)。

这种简化的力量也是从相关性走向因果性的先决条件。想象一下,试图从一个时间序列实验中解开 8,000 个基因的调控网络。一个天真的尝试是,对所有可能的基因对,都去问“基因 jjj 过去的表达是否预测基因 iii 未来的表达?” 这会导致一场统计噩梦。需要测试的潜在关系数量是天文数字,模型变得如此复杂以至于过拟合数据,产生大量的假阳性结果。这个问题是棘手的。解决方案是首先降低维度。我们可以将基因分组成协同调控的模块,然后问模块 A 的活动如何影响模块 B 未来的活动。通过在更高的组织层次上提出一个更简单的问题,我们使得因果推断问题在统计上变得可行,并且结果在生物学上更易于解释。

一个普遍原则:从生态系统到心智宇宙

我们必须先找到数据的正确表示形式才能理解它,这一思想是一个真正普遍的原则,远远超越了分子生物学。让我们从细胞的微观尺度旅行到高山草甸的宏观尺度。一位研究植物群落的生态学家为每个物种测量了几个性状:比叶面积、氮含量、叶干物质含量等等。他们想知道共存的物种之间是否比随机预期的差异更大(这是竞争或“限制性相似”的标志)。一个简单的方法是定义一个多维“性状空间”并计算物种之间的欧氏距离。

但如果测量的两个性状,比如叶面积和氮含量,本身高度相关怎么办?它们在很大程度上反映了相同的潜在生态策略。使用简单的欧氏距离就像使用一张北美被画了两次的地图来测量两个城市之间的距离;你重复计算了一个主轴上的变异。这会夸大距离,并可能导致错误的结论,即竞争正在构建群落。正确的方法,就像在基因组学中一样,是首先对性状数据进行像 PCA 这样的降维。这将创建一组新的正交轴——生态策略的真正独立维度——在其中可以诚实地测量距离。只有这样,我们才能可靠地检验我们的生态学假设。

也许最富诗意的是,降维不仅仅是我们发明的工具;它是自然本身发现的一种策略。在减数分裂期间,当一个细胞准备形成精子或卵子时,它的染色体必须在细胞核拥挤、繁忙的空间中找到它们的同源伙伴。对特定 DNA 序列的随机三维搜索会非常缓慢。在许多物种中,自然界找到了一个惊人优雅的解决方案:“花束”构型。所有的染色体末端都聚集在核膜上的一个小区域。这一行为极大地限制了染色体的运动,有效地将不可能的广阔三维搜索问题简化为沿核膜表面进行的更易于管理的二维搜索。尽管被束缚在这个表面上时扩散速度较慢,但通过降低搜索空间的维度所获得的几何优势是如此巨大,以至于它显著加快了整个过程。自然界在面临“维度灾难”时,演化出了一种破解它的方法。

这给我们带来了最后一个深刻的思考。考虑一个看似棘手的问题:为一件独特的艺术品估价。这个物体可以用一个维度极高的特征向量来描述:其图像的每个像素、其出处的每个词、其化学成分的每个原子。人们如何可能从这样的输入中建立一个模型来预测其价格?然而,一位经验丰富的人类鉴定师看着这幅画,瞬间就能给出一个非常准确的估价。发生了什么?

可以说,专家的心智正在进行一次精湛的、非线性的降维。通过多年的经验,它已经学习到了一个映射 ggg,从艺术品特征的那个维度高得不可思议的空间,到一个维度非常低的潜在空间,也许只有几个维度:“风格的真实性”、“艺术时期”、“状况”、“艺术家重要性”。最终的估价 v(x)v(x)v(x),则是这些少数潜在变量的一个相对简单的函数 fff:v(x)=f(g(x))v(x) = f(g(x))v(x)=f(g(x))。当然,专家并非有意识地计算这个。他们的直觉就是这个函数。他们学会了看到重要的那几个维度,而忽略其余的。这使他们能够摆脱维度灾难,而这种灾难会使一个天真的非参数算法陷入瘫痪。

从绘制生命的蓝图到理解生态学的原则,乃至专业知识的本质,降维不仅仅是一种数据分析技术。它是在一个复杂世界中寻找意义的基本策略。它告诉我们,有时,最具洞察力的视角并非细节最多的那个,而是捕捉到本质、根本简洁性的那个。