try ai
科普
编辑
分享
反馈
  • 非负矩阵分解

非负矩阵分解

SciencePedia玻尔百科
核心要点
  • NMF 将复杂数据分解为有意义的非负部分之和,这反映了现实世界中的加性过程。
  • 其核心的非负性约束所产生的结果比 PCA 等方法更具可解释性,特别是对于数值不能为负的数据。
  • NMF 被广泛应用于信号解混、识别突变印记等生物程序,以及发现网络中的重叠社区。
  • 实际应用需要通过平衡重构误差和解的稳定性来谨慎选择部分(即秩)的数量。
  • 该框架可以扩展以整合多种数据类型,从而在空间转录组学和多组学等领域实现整体性分析。

引言

在数据丰富的时代,核心挑战往往不是数据采集,而是数据解读。我们如何才能在浩瀚复杂的数据集中发现简单而有意义的模式?一个强有力的答案源于一种技术,它将人类一种基本的直觉形式化:通过将整体分解为其组成部分来理解整体。这就是非负矩阵分解(NMF)的精髓,一种改变了众多科学领域数据分析方法的降维技术。与其他分解技术不同,NMF 施加了一个简单而深刻的约束——所有的部分及其贡献都必须是非负的。这一限制强制模型必须是纯加性的,从而产生的成分通常可以直接解释为真实世界的实体,从面部特征到遗传程序。

本文将对 NMF 进行全面探讨。在第一部分​​“原理与机制”​​中,我们将深入研究 NMF 的数学基础,探究为何非负性约束如此强大,如何通过优化实现分解,以及选择模型复杂度和确保解的唯一性等关键实践考量。随后,在​​“应用与跨学科联系”​​部分,我们将展示 NMF 惊人的通用性,遍览其在病理学信号解混、揭示癌症突变印记、解码大脑活动以及揭示复杂网络结构等方面的应用。

原理与机制

我们如何理解一个复杂的世界?通常,我们通过拆解事物来做到这一点。厨师通过食材来理解一道菜,指挥家通过各个乐器演奏的部分来理解一部交响乐。这种直观的分解过程——将整体理解为其各个部分的总和——不仅是人类的一种策略,更是一个可以用数学形式化的强大思想。这正是非负矩阵分解(NMF)的灵魂所在。

想象一下,我们有大量的数据集合——比如,许多不同患者的基因表达谱、一个人脸库的像素值,或者数百个癌症基因组的突变计数。我们可以将这些数据排列成一个大表格,也就是数学家所称的​​矩阵​​,我们称之为 XXX。每一列可能是一个患者或一张人脸,每一行则是一个基因或一个像素。我们的目标是找到一个更小、更基础的“部分”集合,通过组合这些部分来重构我们的原始数据。

在数学上,我们寻求两个新矩阵 WWW 和 HHH,使得它们的乘积近似于我们的原始矩阵:

X≈WHX \approx W HX≈WH

在这里,矩阵 WWW 可以被看作是我们的“部分”字典。WWW 的每一列都是一个单一、基本的分量:一个典型的基因活动模式,一个原型性的面部特征(如眼睛或鼻子),或一个反复出现的突变过程印记。而矩阵 HHH 则是“配方书”。HHH 的每一列对应于我们原始数据中的一个样本(例如某个特定患者的肿瘤),并告诉我们如何组合 WWW 中的各个部分来重构该样本。具体来说,我们数据矩阵的第 jjj 列 x⋅jx_{\cdot j}x⋅j​,是通过对 WWW 中的各个部分进行加权求和构建的,权重即为 HHH 矩阵第 jjj 列中的系数:

x⋅j≈∑k=1rhkjw⋅kx_{\cdot j} \approx \sum_{k=1}^{r} h_{kj} w_{\cdot k}x⋅j​≈k=1∑r​hkj​w⋅k​

其中,w⋅kw_{\cdot k}w⋅k​ 是来自 WWW 的第 kkk 个部分,hkjh_{kj}hkj​ 是告诉我们该部分使用量的权重。

非负性的力量:NMF 的与众不同之处

到目前为止,这听起来像一个标准的线性代数问题。像主成分分析(PCA)这样的方法也执行此类分解。那么,是什么让 NMF 如此特别?答案在于一个看似简单却蕴含深意的约束,正如其名所示:​​非负性​​。NMF 坚持要求“部分”矩阵 WWW 和“配方”矩阵 HHH 中的所有元素都必须是非负的。

W≥0,H≥0W \ge 0, \quad H \ge 0W≥0,H≥0

这一条规则改变了一切。它将一个通用的数学过程转变为一个具有物理意义和直观意义的发现引擎。为什么?因为它强制执行了​​严格的加性重构​​。你只能通过相加各个部分来构建整体,而禁止相减。

这与 PCA 等方法有根本性的不同,PCA 允许其因子中存在正值和负值。为了理解这种差异,考虑一个玩具数据集,其主要变异在于两个特征之间的权衡——例如,样本可能在特征1上具有高值而在特征2上具有低值,反之亦然。PCA 能非常有效地描述这种情况;它会找到一个单一分量,该分量在一个特征上为正值,在另一个特征上为负值,通过加减法来捕捉这种“交换”模式。虽然在数学上很优雅,但这个分量很难被解释为一个“部分”。拥有一个特征的“负值”意味着什么?

受非负性约束的 NMF 被迫以不同的方式看待世界。为了解释相同的数据,它必须发现两个基本部分——一个代表特征1,另一个代表特征2——然后将每个样本描述为这两个正值部分的加权和。这种基于部分的表示不仅更直观,而且常常与所研究系统的底层物理或生物学原理直接对应。

不妨思考一下分析钙成像数据的例子,这是一种用于观察神经元放电的技术。原始数据基于光子计数,其值永远不能为负。生物信号——来自钙指示剂的荧光——也是非负的。NMF 的约束完美地反映了这一物理现实,产生的因子可以解释为神经元的非负空间“足迹”及其随时间变化的非负活动。相比之下,像独立成分分析(ICA)等其他方法通常要求数据以零为中心,这会导致因子中出现负值,而这些负值在物理上难以解释为绝对荧光或浓度。这一原则在许多领域都适用:基因表达值是非负的,基因组中的突变计数是非负的,图像中的像素强度也是非负的。在所有这些情况下,NMF 的加性模型都为发现提供了一个自然且可解释的框架。

几何视角:锥内的数据

我们可以借助一点几何学来形象地理解这种非负性约束的力量。想象一下,你的“部分”矩阵 WWW 的各列是从原点出发指向空间中的向量。因为任何数据点都是仅使用 HHH 中的非负系数来重构的,所以所有重构点都被限制在这些基向量“之间”的区域内。这个区域被称为 WWW 各列的​​锥包​​(conical hull)。

这是一个强大的思想。NMF 假设你所有的数据都存在于一个锥体内部,这个锥体的边缘由基本部分定义。算法的任务就是找到最能包围这些数据的锥体。这自动地迫使基向量(即各个部分)代表数据中的“极值”或“原型”。PCA 寻找能够解释最大方差的正交方向,而 NMF 则在正空间中寻找数据云的边缘,提供一组可以构建其他所有数据的锚点。

寻找部分:优化的舞蹈

那么,我们如何找到最佳的 WWW 和 HHH 来近似我们的数据 XXX 呢?我们需要一种方法来衡量近似的“糟糕程度”,这个量被称为​​损失函数​​,然后我们需要一个策略来最小化它。

在 NMF 中使用的损失函数主要有两种,每一种都有其優美的概率解释:

  1. ​​弗罗贝尼乌斯范数(Frobenius Norm):​​ 该范数衡量的是原始矩阵 XXX 和重构矩阵 WHWHWH 中每个元素之间差的平方和。最小化这个损失函数 ∥X−WH∥F2\lVert X - W H \rVert_{F}^{2}∥X−WH∥F2​,在数学上等同于假设我们的观测数据是“真实”信号 WHWHWH 加上一些​​高斯噪声​​——即我们所熟悉的钟形误差曲线。这是一个很好的通用选择。

  2. ​​广义库尔贝克-莱布勒(KL)散度:​​ 这是一种源于信息论的度量,特别适用于非负数据,尤其是计数数据。最小化 KL 散度 DKL(X ∥ WH)D_{\mathrm{KL}}(X \,\|\, W H)DKL​(X∥WH) 等价于在数据服从​​泊松分布​​的假设下寻找最大似然解。如果你的数据是计数类型——例如某个特定突变出现的次数或检测到的光子数量——这通常是更具原则性且更有效的选择。

最小化这些损失函数是一个具有挑战性的优化问题。可能解的“地形”充满了丘陵和山谷,很难找到唯一的最佳解。标准方法是一种优雅的迭代策略,称为​​交替最小化​​。我们首先对 WWW 和 HHH 进行随机猜测。然后,我们固定 HHH,找到能够最小化损失的最佳 WWW。接下来,我们固定新的 WWW,找到最佳的 HHH。我们一遍又一遍地重复这个过程——在固定一个矩阵的同时更新另一个矩阵。

值得注意的是,人们为此过程推导出了简单而优雅的​​乘性更新法则​​。这些法则不仅保证了每一步的损失都不会增加,而且还能自然地保持 WWW 和 HHH 的非负性,从而引导解走向一个良好的局部最小值。

发现的艺术:选择部分数量与确保唯一性

对于任何有志于应用 NMF 的实践者来说,还有两个关键问题。首先,我们应该寻找多少个部分?这涉及到分解的秩 rrr 的选择。其次,我们如何确定找到的部分是“真实”的?

选择秩 rrr 是一个微妙的平衡。如果部分太少,我们的模型会过于简单,无法捕捉数据中丰富的结构(导致高重构误差)。如果部分太多,模型可能会开始拟合噪声,产生不稳定且无意义的成分——这种现象被称为过拟合。一种稳健的策略是在两个关键指标之间取得平衡:

  1. ​​重构误差:​​ 我们可以绘制误差随秩 rrr 变化的曲线。通常,这条曲线起初会急剧下降,然后趋于平缓。曲线的“肘部”通常是选择合适秩的一个良好指标。

  2. ​​解的稳定性:​​ 由于 NMF 算法从随机猜测开始,对同一个秩 rrr 多次运行可能会产生略微不同的因子。一个好的秩 rrr 选择应该对应一个稳定的解,即算法能够持续地发现同一组有意义的部分。我们可以通过衡量样本在多次运行中聚类的一致性来量化这种稳定性,例如使用​​余表型相关系数​​(cophenetic correlation coefficient)这样的指标。

最优的秩 rrr 通常表现出高稳定性,并且位于误差曲线的肘部或其附近,这表明模型既准确又稳健。

最后是唯一性问题。NMF 总能找到唯一真实的那组部分吗?总的来说,解并非完全唯一。存在一个不可避免的​​尺度模糊性​​:我们总可以将 WWW 中的一个部分扩大两倍,只要将它在 HHH 中的贡献减半,最终的乘积 WHWHWH 就会保持不变。这通常通过采用一种约定来处理,例如将 WWW 的列归一化使其总和为一。

除了这种微不足道的模糊性之外,解是唯一的吗?一般而言,不是。然而,在一个被称为​​可分性​​(separability)的优美条件下,NMF 的解确实是唯一的(在尺度和置换意义上) [@problemid:3979600]。可分性假设指出,对于 WWW 中的每一个基本部分,在 XXX 中都至少存在一个数据样本是该部分的“纯粹”实例。从几何上看,这意味着数据云中包含了恰好位于锥体边缘上的点。当此条件成立时,NMF 保证能将这些边缘识别为真实的基向量。这为 NMF 为何在许多真实世界数据集中成功找到有意义的成分提供了强有力的理论依据——它本质上是一种寻找数据原型“角落”的算法。

总而言之,非负矩阵分解不仅仅是线性代数的一部分。它是一个深刻原理的体现:复杂性通常可以通过简单、有意义的部分的加性组合来理解。它的约束远非限制,而是其解释力的源泉,让我们能够深入洞察数据,并提取出不仅在数学上合理,而且易于理解和优美的知识。

应用与跨学科联系

在理解了非负矩阵分解的数学核心之后,我们现在可以踏上一段旅程,看看这个卓越的思想将我们带向何方。一个基本概念的真正魅力不仅在于其内在的优雅,还在于它有能力连接世界上看似迥异的部分。NMF 在其寻找“整体之部分”的探索中,就像一个计算棱镜,揭示了从遥远星系的光芒到单个细胞内基因交响乐中隐藏的加性结构。让我们探索这一应用领域,并在此过程中领会 NMF 为我们理解世界带来的深刻统一性。

解构世界:信号与光谱

我们的感官不断受到混合物的冲击。管弦乐队的声音是各种乐器的混合;画布上的色彩是各种颜料的混合。我们的第一站是了解 NMF 如何在计算上“解混”这些信号,将它们分解为纯净的组分。

一个绝佳的例子来自医学界,特别是在病理学组织样本的分析中。当生物学家对组织薄片进行染色时,不同的染料会附着在不同的细胞结构上。例如,苏木精(Hematoxylin)将细胞核染成蓝色,而伊红(Eosin)将细胞质染成粉红色。当我们在显微镜下观察切片时,每个像素所看到的都是这些颜色的混合物。支配这一现象的物理原理是比尔-朗伯定律(Beer-Lambert law),它告诉我们染料吸收的光是线性相加的。由于每种染料的量及其特征颜色都是非负量,这为 NMF 提供了完美的舞台。通过将 NMF 应用于图像数据,我们可以将混合的颜色解卷积为一个“染料矩阵”(苏木精和伊红的纯色)和一个“浓度矩阵”(每个像素处每种染料的含量)。这使得计算机能够以惊人的清晰度“看清”底层的生物结构,这一过程对于自动化诊断至关重要。

同样的解混原理也适用于遥感中更宏大的尺度。一颗装有高光谱相机的卫星捕捉地球下方每一块土地反射的光谱。单个像素(可能覆盖一平方米的森林地面)的光是来自土壤、绿叶、干叶和水的光谱的混合物。我们如何绘制出地貌的组成成分?NMF 再次提供了答案。通过将观测到的光谱建模为纯“端元”光谱(纯土壤、纯叶片等的光信号)的加性混合,NMF 可以估计出端元信号及其在每个像素中的分数丰度。

探究 NMF 为何比独立成分分析(ICA)等其他方法更适合这项任务是很有启发性的。虽然 ICA 是另一种强大的源分离工具,但它的运作前提是源信号在统计上是独立的。在高光谱成像中,这个假设在物理上是违背的:各种物质的丰度之和必须为一,这造成了依赖性。因此,只依赖于物理上不可否认的非负性约束的 NMF,是解决这个问题更自然、更稳健的模型。

光谱解混的力量延伸至分子层面。在临床实验室中,一种称为质谱分析的技术被用于通过测量蛋白质的质量来识别微生物,从而产生独特的光谱指纹。如果一个样本含有两种不同细菌的混合物,所得到的光谱将是它们各自指纹的叠加。NMF 可以处理这种混合信号,并将其分解为组成光谱,从而能够在单一的多重微生物感染中识别出多个物种。这就提出了一个深刻而重要的问题:我们如何确定 NMF 找到的“部分”是真实的底层部分?答案在于一个被称为可分性的优美数学条件。如果对于每种细菌,都存在至少一个其他混合物种所没有的独特蛋白质质量——一个“指示峰”——那么 NMF 就能保证唯一地恢复出真实的指纹及其比例。

生命的交响乐:揭示生物程序

看过了 NMF 如何解构外部世界,我们现在将目光转向内部,剖析生命本身的复杂机制。一个活细胞或生物体内的过程可以被看作是一个演奏交响乐的管弦乐队。在任何时刻,不同的部分都在活跃,它们共同的演奏创造了生物体的状态。NMF 让我们能够分离出每个部分演奏的音乐——发现潜在的生物“程序”。

NMF 最著名的应用或许是在癌症基因组学领域,特别是在突变印记的分析中。癌症基因组是一个布满突变伤痕的战场。这些突变并非随机;它们形成了由不同突变过程留下的独特模式或“印记”。例如,过度暴露于紫外线会留下一种印记,而烟草烟雾会留下另一种,DNA 复制过程中的错误又会留下另一种。单个肿瘤的突变目录是这些印记在其生命周期中累积的复合物。通过将肿瘤的突变数据视为混合物,NMF 可以将其解卷积为基本的突变印记以及每种印记对该肿瘤的贡献程度。这彻底改变了癌症研究,使我们能够进行一种分子考古学,以了解肿瘤的成因并可能指导其治疗。当然,这门科学的一个关键方面是评估这些发现的印记的稳定性。研究人员使用自助法(bootstrap)等统计技术来了解如果研究不同的患者队列,这些印记可能会发生多大变化,从而增强对生物学发现的信心。

同样的“程序”比喻在单细胞生物学中也展现出惊人的优雅。得益于现代技术,我们可以在单个细胞中测量数千个基因的表达水平。细胞的状态——它在做什么——是由一组协调活跃的基因决定的。我们可以将这些基因集视为“基因程序”,例如“细胞分裂”程序或“应激反应”程序。一个细胞的整体表达谱是这些活跃程序的组合。NMF 再次成为完美的工具。它接收一个包含数千个细胞的大型基因表达数据矩阵,并将其分解为一个矩阵 WWW(其列代表基本基因程序)和一个矩阵 HHH(其列代表这些程序在每个细胞中的活动水平)。这里的一个关键洞见是稀疏性的价值。从生物学上讲,一个细胞在任何给定时间只执行少数几个程序是合理的。通过在 NMF 算法中添加稀疏性惩罚,我们可以鼓励活动矩阵 HHH 中每个细胞只有少量非零条目,从而得到更清晰、更易于解释的细胞状态图景。从原始数据到经过验证的生物学洞见的整个过程,构成了一条完整的分析流水线。

这种逻辑甚至可以延伸到整个生物体及其行为的层面。思考一下伸手取物这个看似简单的动作。这需要数十块肌肉的协调激活。大脑是为每块肌肉单独计算激活信号吗?运动协同假说提出了一个更简单的策略:大脑激活少数几个预定义的肌肉群组,或称“协同体”。通过在任务期间记录多块肌肉的电活动(EMG),我们获得了一个非负的数据矩阵。将 NMF 应用于该矩阵,可以揭示出一组基向量,每个向量代表一种固定的肌肉协同激活模式——即运动协同体本身。这样,大脑只需要决定如何随时间组合这几个协同体,就能产生丰富的动作库。NMF 为这种优美的简化策略提供了强有力的证据,为我们窥探中枢神经系统的逻辑打开了一扇窗。

超越信号:网络的社会结构

到目前为止,我们已经看到 NMF 应用于这样的矩阵:列是样本(像素、细胞、患者),行是特征(光谱带、基因)。但这个框架更为通用。它还可以用来理解网络的结构,其中矩阵本身代表了实体之间的关系。

考虑一个蛋白质-蛋白质相互作用网络,其中成千上万的蛋白质形成一个复杂的连接网络。在这个网络中存在着“社区”或“模块”——即协同工作以执行特定功能的蛋白质群组。我们如何找到这些社区?我们可以将网络表示为一个邻接矩阵 AAA,其中如果蛋白质 iii 和蛋白质 jjj 相互作用,则 Aij=1A_{ij}=1Aij​=1。通过使用 NMF 分解该矩阵,A≈WH⊤A \approx W H^{\top}A≈WH⊤,我们得到了一个成员关系矩阵 WWW。WWW 的第 iii 行告诉我们蛋白质 iii 属于每个已发现社区的强度。NMF 的一个优美特性是它自然地允许重叠社区。WWW 中的一行可以有多个非零条目,反映了一个蛋白质可以属于多个不同功能模块的生物学现实——这种现象被称为基因多效性(pleiotropy)。对于有向网络,如基因调控网络(其中一个基因开启或关闭另一个基因),非对称分解 A≈WH⊤A \approx W H^{\top}A≈WH⊤ 甚至可以区分一个节点作为社区“输出”成员和“输入”成员的角色。

统一的视角:宏大的综合

一个伟大思想的真正力量体现在其成长、适应和统一的能力上。NMF 不是一个僵化的工具,而是一个灵活的框架,可以通过增强来回答更复杂的问题,通常是通过整合多个信息源。

想象一下,我们不仅在分析基因表达,还借助一种名为空间转录组学的技术知道了细胞在组织中的位置。现在的数据更加丰富;我们拥有特定空间坐标处的基因表达谱。我们从生物学中得知,组织是有结构的——邻近的细胞很可能是相似的。我们可以通过在 NMF 模型中添加一个惩罚项来将这种空间信息编码进去,这个惩罚项鼓励相邻点的分解结果相似。这种具备空间意识的 NMF 产生的模式不仅在生物学上是连贯的,而且还尊重组织的解剖结构,从而使我们对细胞功能如何在空间中组织有更深刻的理解。

这种整合力量的终极体现来自多组学研究,这是现代转化医学的前沿领域。对于同一组患者,我们可能测量他们的基因(基因组学)、蛋白质(蛋白质组学)和代谢物(代谢组学)。这为我们提供了几个大型数据矩阵,每种“组学”类型一个。是否存在一个贯穿所有这些不同分子层面的共同线索,一个潜在的疾病过程?联合 NMF(Joint NMF)提供了一个优雅的解决方案。我们可以同时分解所有数据矩阵——X(genomics)≈W(genomics)HX^{(genomics)} \approx W^{(genomics)} HX(genomics)≈W(genomics)H,X(proteomics)≈W(proteomics)HX^{(proteomics)} \approx W^{(proteomics)} HX(proteomics)≈W(proteomics)H 等等——但带有一个关键约束:患者层面的激活矩阵 HHH 在所有分解中是共享的。特征载荷矩阵 W(m)W^{(m)}W(m) 对于每种数据类型是唯一的,捕捉了潜在过程在该特定模态中的表现方式,但底层的患者得分 HHH 是统一的。这种强大的方法使我们能够发现任何单一数据类型都无法揭示的整体生物学模式,从零散的分子线索中编织出一幅关于健康与疾病的统一图景。

从解混载玻片上的颜色到统一庞大的生物数据集,非负矩阵分解展示了一个简单、基于物理的数学思想的非凡力量。它提醒我们,通过寻找正确的结构——在这里是加性的、基于部分的组合——我们可以在最复杂的系统中发现简单与秩序。