非负矩阵分解 (NMF)

玻尔百科

定义

非负矩阵分解 (NMF) 是线性代数和数据科学领域中的一种计算方法，它将数据矩阵分解为两个具有非负约束的矩阵。该技术通过将数据表示为基础“部分”及其重构“配方”的组合，迫使模型学习具有物理意义的可解释组件。它常作为盲源分离工具应用于基因组学和神经科学等领域，并通常依赖稳定性分析来确定最佳的组件数量。

核心要点

NMF 将一个数据矩阵分解为两个非负矩阵，概念上代表了一组基本的“部分”和组合它们以重构整体的“配方”。
非负性约束是 NMF 强大功能的核心，它迫使算法学习具有可解释性的成分，而这些成分通常具有物理意义，这与允许负值的主成分分析（PCA）等方法不同。
NMF 是一种用于盲源分离的多功能工具，在基因组学（用于识别突变特征）和神经科学（用于发现神经元集合）等领域具有深远影响的应用。
在 NMF 中，选择正确的成分数量是一个关键步骤，通常通过稳定性分析来指导，以确保发现的部分是稳健且可复现的。

引言

在许多科学探索中，中心任务是将复杂的观测分解为其基本组成部分。无论是分析来自恒星的光，还是肿瘤的遗传密码，或是图书馆藏书中的主题，我们都试图理解各个部分及其组合的规则。非负矩阵分解（NMF）为这种“解混”过程提供了一个强大的数学框架。它解决了在大型数据集中寻找可解释、有意义的构建模块的挑战，而这正是其他降维技术留下的空白，因为那些技术的成分可能很抽象，难以与现实世界关联。本文将引导您进入NMF的优雅世界。首先，我们将探讨其核心的“原理与机制”，深入研究基于部分的观点、非负性的几何学以及优化和解释的实践挑战。随后，“应用与跨学科联系”一章将展示NMF如何在基因组学、神经科学和遥感等不同领域中用于解构信息和解混信号，揭示我们世界中一种普遍存在的加性结构。

原理与机制

从本质上讲，科学常常是一种“解混”的行为。我们观察一个复杂的现象——来自遥远恒星的光、大脑中神经元的放电、癌细胞的遗传密码——然后我们会问：“它的基本组成部分是什么？组合它们的规则又是什么？”非负矩阵分解（NMF）是一个优美的数学思想，为我们进行此类探究提供了强有力的视角。它是一种发现整体中各个部分的方法。

解混的艺术：一种基于部分的观点

想象一下，你面前有一百种不同的水果冰沙。你的数据是一个表格，其中每一列代表一种冰沙，每一行代表一种可能的水果（草莓、香蕉、芒果等）。我们称这个表格为 $X$ ，表中的一个条目告诉你某种水果风味特征在特定冰沙中的最终测量量。你手上有最终产品 $X$ ，但你丢失了原始配方，甚至不知道基础成分是什么。NMF是一种试图对这个过程进行逆向工程的计算方法。它试图同时弄清楚两件事：

基本成分 ( $W$ )：一组基本的、“纯粹”的成分特征。 $W$ 的一列可能是“草莓”的纯粹精华，另一列是“香蕉”的精华。这些是我们的基向量。
配方 ( $H$ )：对于每种冰沙，都有一份系数列表，告诉你其中加入了多少每种基本成分。一杯“草莓香蕉”冰沙的配方，在草莓和香蕉成分上会有很高的值，而在其他成分上的值则很低或为零。

这个分解写为 $X \approx W H$ 。矩阵 $X$ 约等于矩阵 $W$ （成分）和矩阵 $H$ （配方）的乘积。但赋予NMF强大功能的是一个关键的、近乎看似简单的约束： $W$ 和 $H$ 中的所有数值必须是非负的。

你不能通过加入负数量的香蕉来制作冰沙。这个非负性约束看似显而易见，但在数学世界里，这是一个深刻而强大的限制。许多现实世界的现象本质上是加性的。图像中的像素是通过光的叠加形成的，而不是相减。文档的主题特征是由词语的存在构成的，而不是它们的缺失。细胞中基因的表达是以非负计数来衡量的。NMF正是建立在这种“基于部分”的观点之上：复杂的对象是通过将更简单的部分相加而构建的。

这与主成分分析（PCA）或奇异值分解（SVD）等其他强大的分解方法截然不同。PCA在寻找数据中方差最大的方向方面表现出色，但其成分可以同时包含正值和负值。尝试解释人脸的“主成分”可能涉及加上一点“平均脸”，但随后又要减去一点带有幽灵般负像素的“特征脸”。虽然这在数学上对于重构是最优的，但却使得直接解释变得困难。NMF通过禁止相减，在某种意义上迫使其基成分是物理上可实现的。人脸的基成分本身必须看起来像人脸的一部分（眼睛、鼻子、嘴巴），因为你只能以加性的方式组合它们。其结果是，NMF发现的部分通常不仅仅是抽象的因子，而是原始数据中真正可解释的成分。

部分的几何学：可能性之锥

让我们将这个直观的想法转化为几何语言。想象一下，我们的每个数据点——每个冰沙配方、每个病人的肿瘤特征、或每个文档的词频向量——都是高维空间中的一个点。由于所有特征值都是非负的，我们所有的数据都位于这个空间的第一“象限”内。

NMF假定存在一组基本的基向量——即 $W$ 的列——它们是我们所有数据的构建模块。因为 $H$ 中的系数也必须是非负的，所以任何数据点 $x$ 都必须是这些基向量的非负线性组合。在几何上，这意味着所有数据点都被限制在这些基向量的锥包之内。

可以这样想：在地板上放一把手电筒，都从同一个点向外照射。每个手电筒的光束代表 $W$ 中的一个基向量。这些光束照亮的所有空间形成一个锥体。NMF的核心假设是，你所有的数据点 $X$ 都必须位于这个光锥之内。每个数据点的位置是通过沿着每束光行进一定距离来确定的——这些距离就是 $H$ 中的系数。你不能向后移动。这个优美的几何图像使得“基于部分”的模型严谨且直观。这是一个纯粹建立在加法上的宇宙。

寻找部分：游戏规则

那么，算法是如何找到最佳的基向量 $W$ 和配方 $H$ 的呢？它进行的是一场优化游戏。我们定义一个代价函数，用以衡量我们的近似有多差——即原始数据 $X$ 与我们的重构 $WH$ 之间的距离。目标是找到非负的 $W$ 和 $H$ ，使这个代价尽可能低。代价函数的选择并非随意的；它反映了我们对数据性质的潜在假设。

平方误差（弗罗贝尼乌斯范数）：最直接的代价函数是 $X$ 和 $WH$ 每个元素之间平方差的总和。这被称为平方弗罗贝尼乌斯范数，写作 $\|X - WH\|_F^2$ 。最小化这个范数就像试图在锥体中找到在直线欧几里得意义上离我们真实数据点最近的点。该目标在统计上等同于假设我们数据中的“噪声”或误差服从钟形曲线，即高斯分布。这是一个很好的通用选择，常用于放射组学等领域，以寻找医学图像中的纹理模式。
Kullback-Leibler (KL) 散度：当我们的数据是计数类型时——比如一个词在文档中出现的次数，或者一个癌症基因组中的体细胞突变数量——高斯噪声的假设通常不适用。对于计数数据，更自然的统计模型是泊松分布。在泊松模型下最大化数据的似然，结果证明等同于最小化一个不同的代价函数：广义Kullback-Leibler (KL) 散度， $D_{\mathrm{KL}}(X \,\|\, WH)$ 。这个源于信息论的代价函数与分析基于计数的数据完美匹配，使其成为计算基因组学等领域的标准。

找到这个代价景观的底部是棘手的。NMF的目标函数是非凸的——它是一个有许多不同山谷或局部最小值的丘陵地带。从山坡上的一个随机点开始的算法可能会滑入与从别处开始的算法不同的山谷。这意味着没有简单的一步到位的公式来找到最佳的 $W$ 和 $H$ 。相反，我们使用迭代算法，通过采取微小而巧妙的步骤来“下山”。其中最著名的是乘法更新规则，我们通过将当前对 $W$ 和 $H$ 的猜测乘以一个校正因子来反复更新它们。这个因子的设计非常巧妙：如果当前估计值太低，它就大于1；如果太高，就小于1，从而温和地将解推向更好的拟合，同时在每一步都自动满足非负性约束。

解释的艺术：稀疏性、稳定性与模型选择

NMF的非凸性质导致了一些最大的实践挑战——以及一些最有趣的理论问题。

首先，解通常是非唯一的。算法的两次不同运行可能会得到两组不同的基向量，而它们都是有效的“局部最小值”。还存在一个平凡的尺度模糊性：你可以将 $W$ 中一个基向量的幅度加倍，只要将其在 $H$ 中对应的系数减半，就能得到相同的重构 $WH$ 。这通常通过将 $W$ 的列归一化（例如，使其和为1）来处理，这样 $H$ 中的系数就可以表示该部分的总“活性”。令人惊讶的是，在称为可分性的特殊条件下，解可以在这些平凡的模糊性下是唯一的。当你的数据集中包含“锚点”——即仅由一个基成分构成的纯粹样本时，就会发生这种情况。在几何上，这些数据点正好位于数据锥的边缘，如果它们存在，它们就唯一地定义了锥体，从而也定义了基向量。

其次，虽然NMF自然会产生部分，但我们可以引导它产生更简单的部分。我们通常认为一个给定的数据点仅由少数几个基成分混合而成。一张病理图像可能由基质和细胞核组成，但不会包含所有其他组织类型。我们可以通过在目标函数中添加稀疏性惩罚来强制实现这一点。对系数矩阵 $H$ 施加 $\ell_1$ 惩罚会将许多配方系数推向零，确保每个数据样本仅由少数几个活动部分来解释。这极大地增强了可解释性。

最后，我们来到了最关键的问题：我们应该寻找多少个部分，即 $r$ ？这是任何NMF分析的基本参数。

如果 $r$ 太小，我们的模型过于简单，无法捕捉数据的真实复杂性。
如果 $r$ 太大，我们的模型自由度过高。它将开始拟合数据中的噪声，而不仅仅是信号。发现的“部分”将变得不稳定且无意义，每次算法运行都会发生巨大变化。

选择 $r$ 是模型保真度与复杂性之间科学权衡的典型例子。有两种主要策略可以找到“最佳点”：

信息准则：像贝叶斯信息准则（BIC）这样的形式化方法提供了一种数学方式来平衡这两种力量。BIC为每个 $r$ 的选择计算一个分数，该分数奖励良好的重构拟合度，但对模型拥有过多自由参数进行惩罚。最佳的 $r$ 是使该分数最小化的那个值。
稳定性分析：一种更具经验性且通常更稳健的方法是检查解的稳定性。如果一组 $r$ 个基向量是真实且有意义的，那么无论对数据进行微小扰动或选择随机起始点，我们的算法都应该能一致地找到它们。对于每个候选的 $r$ ，我们可以多次运行NMF（例如，在数据的不同子集上，或使用不同的随机初始化）。然后我们选择那个能使发现的基向量 $W$ 在多次运行中最稳定和一致的 $r$ 值。这种方法，结合确保在留出数据上的良好性能，是在临床应用中稳健选择特征数量的黄金标准，因为在这些应用中，可复现性至关重要。

归根结底，NMF不仅仅是一个矩阵运算。它是关于世界的一个生成模型，基于一个简单而深刻的思想：整体是由其非负部分之和构建而成的。通过理解其原理、几何结构以及实践中的细微之处，我们可以利用它来揭示我们这个复杂、加性世界中隐藏的组成部分。

应用与跨学科联系

在了解了非负矩阵分解（NMF）的原理和机制之后，我们对其数学上的优雅有了更深的体会。但一个科学工具的真正魅力不仅在于其内部工作原理，更在于它为我们打开的看待世界的新窗口。为什么这个特定的算法在如此多迥然不同的研究领域中被证明是如此深刻有用？答案在于一个简单而深刻的思想：我们宇宙中许多复杂的事物是通过将更简单的事物相加而构成的。NMF就是一种旨在寻找这些基本的、加性部分的计算透镜。在本章中，我们将探索其实际应用，从文本和金融世界到癌症基因组学、神经科学和行星科学的前沿领域。

解构信息：从文本到主题

NMF最直观的应用或许是在理解海量文本集合方面。想象一个装有数千篇财经新闻文章的图书馆。我们的目标是发现贯穿整个语料库的潜在主题或“话题”。我们可以将这个图书馆表示为一个大矩阵 $V$ ，其中每一行对应我们词汇表中的一个词（例如，“利率”、“股票”、“通货膨胀”），每一列代表一篇文档。每个单元格 $V_{ij}$ 中的值表示词语 $i$ 在文档 $j$ 中出现的次数。

乍一看，这个“词项-文档矩阵”只是一个巨大、难以理解的数字表格。但NMF所做的事情非同寻常。它将这个矩阵近似为两个更小的非负矩阵 $W$ 和 $H$ 的乘积。矩阵 $W$ 成为我们的主题词典；它的每一列都是一个“主题向量”，其中较大的值对应于该主题的特征词。例如，一列可能在“股票”、“交易”和“市场”上有较高的值，清楚地代表一个“股票市场”主题。另一列可能由“利率”、“汇率”和“债券”主导，代表一个“货币政策”主题。第二个矩阵 $H$ 告诉我们这些主题是如何混合以构成每篇文档的。 $H$ 的每一列对应一篇文档，其条目指定了该文档中每个主题的“含量”。某篇新闻文章可能被表示为0.7的“股票市场”主题和0.2的“货币政策”主题的组合。非负性至关重要：它确保我们只是在相加主题，这与我们直观理解文档构建的方式完全一致。

理解选择：推荐系统

这种基于部分的解释不仅仅是一个巧妙的技巧；它提供了一种在其他方法中常常缺失的清晰度。考虑那些推荐电影、书籍或产品的推荐系统。许多这样的系统也建立在矩阵分解之上，对一个庞大的用户评分矩阵进行近似。然而，如果分解是不受约束、允许负值的，解释可能会变得混乱。

想象一个系统，其中用户对某个主题的偏好和物品与该主题的关联都可以是负数。一个强烈的推荐可能会因为一个不喜欢（ $u_{i1} = -0.8$ ）某个类型的用户，与一个该类型的反例物品（ $v_{j1} = -1.0$ ）相匹配而产生。它们的乘积 $(-0.8) \times (-1.0) = 0.8$ 是对最终分数的一个大的正贡献，从而触发了推荐。这在数学上合理，但在解释上令人困惑。这就像在说：“你会喜欢这个，因为你讨厌‘爱情片’，而这部电影是‘爱情片’的反面。”

NMF解决了这种模糊性。通过强制用户对一个潜在主题的亲和度 ( $u_{ik} \ge 0$ ) 和物品在该主题上的载荷 ( $v_{jk} \ge 0$ ) 都为非负，预测分数就变成了正贡献的简单总和。高分只能意味着一件事：用户对物品中强烈存在的一个或多个主题有很高的亲和度。推荐是基于积极兴趣的真正契合。这种加性的、“基于部分”的逻辑不仅对于调试和改进系统更加透明，而且也更贴近我们对偏好的直观理解。

解混世界：盲源分离

NMF寻找加性部分的能力从文本和偏好的抽象世界延伸到我们周围的物理世界。我们观察到的许多信号实际上是几种“纯”源信号的混合物。NMF提供了一种强大的方法来执行“盲源分离”——在事先不知道纯净源信号是什么样子的情况下对信号进行解混。

一个优美的视觉例子来自数字病理学。当生物学家对组织样本进行染色时，例如用苏木精（将细胞核染成蓝色）和伊红（将细胞质染成粉红色），得到的图像是这些颜色的混合物。根据比尔-朗伯光吸收定律，如果我们将原始的红-绿-蓝（RGB）像素值转换为称为光密度（OD）的物理量，那么一个像素的OD值是存在的各种染料OD值的线性总和。这给了我们一个OD值矩阵，NMF可以对其进行分解。它会自动发现苏木精和伊红的纯色光谱（ $W$ 的列），并生成图像显示每个像素中每种染料的浓度（ $H$ 的行）。NMF之所以成功，是因为它受到一个强大的物理约束的指导：染料光谱及其浓度只能是非负的。

我们可以将这个想法从显微镜载玻片扩展到整个地球。在遥感领域，高光谱卫星以数百个不同的光谱波段捕捉地球图像，远远超出了我们肉眼所能看到的三种。每个像素的光谱是一个混合信号，是地面上不同物质（如水、土壤和各种植被）特征光谱“指纹”的线性组合。NMF可用于解混这些信号，识别纯物质（端元）的光谱，并绘制它们在每个像素中的丰度图。在这里，NMF通常优于独立成分分析（ICA）等其他方法。ICA假设源信号在统计上是独立的，而NMF依赖于更直接的非负性物理约束。在许多物理系统中，像丰度和光谱辐射度这样的量不可能是负数，NMF的假设更自然地契合了问题本身。

解码生命之书：基因组学与系统生物学

NMF的影响在生物学领域，尤其是在我们寻求理解疾病遗传基础的探索中，表现得最为深远。例如，癌细胞的基因组是一个在其生命周期中积累的突变的混乱景观。这些突变并非随机的；它们是特定突变过程的结果，如暴露于紫外线辐射、烟草烟雾或特定DNA修复机制的失效。这些过程中的每一个都会留下一个特征性的“突变特征”——一种独特的突变类型模式。

因此，一个肿瘤的突变目录是几种此类特征的混合物。NMF已成为扮演“计算考古学家”角色的主要工具，将观察到的突变混合物解构为其组成特征。给定一个矩阵，其中行是突变类型（例如，在特定序列上下文中C变为T），列是患者，NMF可以识别出基本的突变特征（ $W$ ），并量化它们在每个患者肿瘤中的活性（ $H$ ）。这彻底改变了癌症研究，使科学家能够推断肿瘤的成因，甚至确定新的治疗靶点。这不是一个简单的一次性分析；研究人员使用围绕NMF构建的复杂统计框架，采用自举法和稳定性分析等技术，以确保提取的特征是稳健且可复现的，而不仅仅是算法的产物。

同样的原则也适用于理解健康细胞的功能。通过单细胞RNA测序（scRNA-seq），我们可以测量数千个单细胞中数千个基因的活性水平，从而创建巨大的数据矩阵。通过逐一观察基因来理解这些数据是不可能的。NMF通过识别“基因程序”或“模块”——即那些共同调控并倾向于一起表达以执行特定功能的基因群组——来帮助我们驯服这种复杂性。NMF因子提供了细胞状态的低维总结，其中 $W$ 的列代表这些基因程序，而 $H$ 的行显示它们在每个细胞中的激活水平。当使用基于Kullback-Leibler散度的损失函数时，NMF特别适合这项任务，因为该目标函数在统计上等同于假设基因计数服从泊松分布，这是此类数据的自然模型。

该框架非常灵活，可以扩展到现代医学的一大挑战：整合不同类型的生物数据。在“多组学”研究中，我们可能测量患者的DNA突变、基因表达（RNA）和蛋白质水平。联合NMF提供了一种同时分析所有这些层面的方法。通过分解每个数据矩阵，同时迫使它们共享一个共同的患者层面活性矩阵 ( $H$ )，我们可以发现那些在特定患者的所有数据类型中持续活跃的潜在生物过程，从而提供对其疾病状态的真正整体视图。

解读心智与协调运动

对基于部分的表示的探索延伸到了我们所知的最复杂的系统：大脑。神经科学家使用钙成像等技术同时记录数千个神经元的活动。这产生了一个巨大的神经活动矩阵，非常适合进行NMF分析。在这里， $W$ 矩阵的列被解释为“神经元集合”——即倾向于作为一个功能单元一起放电的神经元群组。相应的 $H$ 矩阵的行揭示了这些集合的激活时间进程，显示了每个集合被招募的时间。非负性是完全自然的：神经元的放电率不可能是负数。NMF找到了大脑正在演奏的基本‘和弦’，并为其演奏提供了乐谱。

这种模块化控制的原理也体现在大脑如何控制我们的身体上。人体拥有的肌肉数量远超移动肢体所必需的数量，这是一个“运动冗余”问题。肌肉协同假说提出，中枢神经系统通过不单独激活每块肌肉，而是激活少数预定义的肌肉群组，或称“协同”，来简化控制。NMF是从肌电图（EMG）记录的肌肉活动中检验这一假说并发现这些协同的理想工具。就像在我们的其他例子中一样，NMF将复杂的高维肌肉激活模式分解为一小组协同向量 ( $W$ )及其时变招募系数 ( $H$ )，揭示了大脑协调运动的优雅低维策略。

统一视角

从财经新闻到癌细胞，从卫星图像到神经元放电，一条共同的线索贯穿了这些应用。它们都涉及这样一种系统：一个复杂的整体可以被理解为更简单的、有意义的部分的加性组合。非负矩阵分解的天才之处在于它体现了这一原则。非负性这一简单的约束，远非一个限制，而是一个强大的指引，它推动算法走向不仅在数学上最优，而且通常在物理上、生物学上和直观上可解释的解。NMF教会了我们一个宝贵的教训：有时，理解世界最有洞察力的方式是弄清楚这一切是如何相加而成的。