非负矩阵分解

玻尔百科

核心要点

NMF强制施加非负约束，从而得到一种可解释的、基于部分的分解，其中整体是其组成部分的加性总和。
与主成分分析（PCA）等方法不同，NMF的成分通常具有物理意义，因此非常适用于数据量本身就是正值的情况，例如光强度或基因表达。
NMF的几何解释是，数据点位于由原型向量张成的凸锥内，该凸锥的形状反映了底层的数据结构。
NMF在众多领域中得到广泛应用，从识别文本中的主题、癌症中的突变特征，到解码大脑中的肌肉协同和神经元集群。

引言

当今世界充斥着复杂数据，从神经活动的交响乐到浩如烟海的人类文献，一个根本性的挑战是通过将整体分解为其组成部分来提炼意义。这正是矩阵分解的核心承诺。虽然主成分分析（PCA）等经典技术功能强大，但它们产生的抽象成分往往带有负值，在现实世界中难以解释。我们如何理解“负人脸”或“负荧光”？本文旨在通过探索非负矩阵分解（NMF）来弥补这一可解释性上的鸿沟。NMF施加了一个简单而深刻的约束：所有部分及其贡献都必须是正的。首先，在“原理与机制”一节中，我们将探讨NMF的核心概念，从其几何解释到求解算法，揭示为何这种正性约束能带来直观的、基于部分的发现。随后，“应用与跨学科联系”一节将展示NMF非凡的通用性，说明它如何在从癌症基因组学到文本分析和神经科学等领域中揭示有意义的结构。

原理与机制

想象一下，你拿到了一组交响乐团的录音集。你的数据矩阵，我们称之为 $V$ ，其行代表不同的频率，列代表不同的时间点。矩阵中的每个条目是特定频率在特定时间的强度。你的任务是弄清楚哪些乐器在何时演奏。这正是矩阵分解的精髓：将一个复杂的整体 $V$ 分解为其组成部分及其活动。我们希望找到一个矩阵 $W$ 来表示每种乐器的独特声音（它们的“频率特征”），以及一个矩阵 $H$ 来表示乐谱，告诉我们每种乐器在每个时间点的演奏音量，使得它们的乘积 $WH$ 能够重建我们原始的录音 $V$ 。

正性的力量：一个更自然的世界

用于此类分解的最著名工具是奇异值分解（SVD），它是主成分分析（PCA）的核心。SVD在数学上是优美的，并在某种意义上是最优的：对于给定数量的“部分”（即秩），它能提供对原始矩阵 $V$ 的最佳重构。但它有一个奇特的特点。例如，当SVD分解一组人脸图像时，它找到的“部分”——即“特征脸”（eigenfaces）——通常是包含正值和负值的、幽灵般的非局部模式。你如何解释一个“负鼻子”或减去一个“幽灵眉毛”？虽然这在数学上很强大，但却可能与直觉相悖。

这就是非负矩阵分解（NMF）登场之处，它带有一个看似简单却具有变革性的约束： $W$ 中的所有部分和 $H$ 中的所有活动都必须是非负的。为什么这个约束如此强大？因为我们世界中的许多事物本质上是加性的和非负的。光的强度不能为负。探测器接收到的光子数不能为负。化学物质的浓度不能为负。

考虑一下分析钙成像脑活动影像的挑战。原始数据由数千个像素随时间变化的荧光测量值组成。其物理原理很清楚：神经元被激活，发出光子。这些光会扩散，并可能被背景辉光（神经毡）污染。这个过程中的每一步——光子发射、钙离子浓度、光溢出——都是一个正量被加到另一个正量上。如果一个模型试图用负值成分来解释这些数据，就像独立成分分析（ICA）等方法在数据中心化后通常做的那样，将会产生物理上不合理的“负荧光”或“负神经元形状”。NMF通过强制施加 $W \ge 0$ 和 $H \ge 0$ 的约束，构建了一个尊重其所描述世界的底层物理规律的模型。

这种非负性是NMF广受赞誉的可解释性的关键。NMF不是将一组人脸分解成幽灵般的特征脸，而是分解成直观的、基于“部分”的组件：眼睛、鼻子、嘴巴。它不是将我们的管弦乐录音分解成抽象的频率模式，而是分解成小提琴、小号和大提琴的声音。重构过程是纯粹加性的——你通过将各个部分相加来构建整体，而绝不是相减。这使得因子 $W$ （部分）和 $H$ （活动）直接易于理解且有意义。

几何视角：锥内乾坤

为了获得更深的直觉，让我们从代数转向几何。想象一下，我们数据矩阵 $V$ 的每一列——代表我们管弦乐队的一个瞬间，或我们图像集中的一张脸——都是高维空间中的一个点。空间的维度数就是矩阵的行数（频率或像素数）。

NMF指出，这些数据点中的每一个都可以近似地表示为“部分”矩阵 $W$ 的列的非负线性组合。 $W$ 的这些列是我们的原型——小提琴的纯粹声音，典型的眼睛。从几何上看，这些原型在我们高维空间中定义了一组方向。因为组合它们的 $H$ 中的系数必须是非负的，所以我们所有重构的数据点都必须位于由这些原型向量张成的凸锥之内。

把它想象成从一个原点照射几把手电筒（ $W$ 的列）。它们照亮的区域是一个锥体。NMF假设你所有的数据点都存在于这个光锥之内。这个锥体的几何形状深刻地揭示了我们数据的结构。

让我们回到大脑。如果我们的记录被一个同时影响所有神经元的全局信号所主导——比如一阵唤醒波——那么NMF找到的“部分”将都非常相似，大致指向同一方向。由此产生的锥体将非常窄。相反，如果大脑活动由为不同任务而放电的、不同的、不重叠的细胞集群组成，那么NMF找到的原型将彼此非常不同，指向不同方向。它们将张成一个宽锥，反映了神经编码丰富的组合性质。

寻找因子

那么，如何找到最佳的因子 $W$ 和 $H$ 呢？这是一个优化问题。我们定义一个目标函数，用于衡量原始数据 $V$ 和重构结果 $WH$ 之间的差异，然后我们尝试找到使这个误差尽可能小的非负 $W$ 和 $H$ 。

一个常见的选择是平方Frobenius范数，它就是 $V$ 和 $WH$ 之间每个条目差的平方和。然而，这并非易事。NMF的优化景观不是一个只有一个最低点的平滑简单碗状。它是一个崎岖多山的地形，有许多山谷，即局部最小值。一个从某个山谷开始的算法可能会被困在那里，永远找不到隔壁更深的山谷。

在 navigating this landscape 上，主要有两类算法：

乘性更新： 这是一套优雅且出奇简单的规则，用于迭代更新 $W$ 和 $H$ 。在每一步，当前因子都乘以一个从成本函数梯度推导出的校正项。一个关键特性是，这些更新能自然地保持因子的非负性——如果你从正的 $W$ 和 $H$ 开始，它们将保持正值。值得注意的是，当数据表示计数（如光子到达数或词频）时，可以选择一个不同的成本函数，即Kullback-Leibler（KL）散度。最小化该散度等价于在泊松统计模型下寻找最大似然解——这是信息论、统计学和优化的完美结合。
基于梯度的方法： 这些是更通用的优化工具。我们在崎岖的地形上计算最速下降方向（负梯度），并沿该方向迈出一小步。挑战在于如何在不踏入负数禁区的情况下做到这一点。一个巧妙的技巧是重新参数化问题：我们可以不搜索非负的 $W$ 和 $H$ ，而是搜索无约束的矩阵 $U$ 和 $Z$ ，并将我们的因子定义为 $W = \exp(U)$ 和 $H = \exp(Z)$ ，其中指数函数是逐元素应用的。由于任何实数的指数都是正的，我们的因子就保证了非负性，并且我们可以使用像最速下降法这样的标准无约束优化方法。

秩的谜题与唯一性的探求

搜索的非凸性带来一个重要后果：你找到的解可能取决于你的起始点。此外，NMF具有固有的尺度模糊性：对于任何正对角矩阵 $D$ ，分解 $(WD)(D^{-1}H)$ 与 $WH$ 完全等价。你可以将 $W$ 中的“小提琴”原型音量加倍，只要将它在乐谱 $H$ 中的贡献减半即可。这意味着，总的来说，NMF的解不是唯一的。

这是个问题吗？不总是。在某些特殊情况下，特别是当数据满足一个称为可分性的条件时，解可以保证是唯一的（在平凡的尺度和置换模糊性之外）。这种情况发生在每个部分的最“纯粹”实例——比如只有小提琴的录音，或只包含一只眼睛的图像——已经作为列存在于你的数据矩阵中时。

这就给我们留下了最关键的实践问题：我们应该寻找多少个部分？正确的秩 $k$ 是多少？如果我们选择的 $k$ 太小，就无法捕捉到我们数据的真实复杂性。如果我们选择的 $k$ 太大，则有“过拟合”的风险——找到的只是拟合数据中噪声的虚假部分，而不是底层信号。

选择秩是一门艺术，需要平衡两种相互竞争的压力：

重构误差： 衡量 $WH$ 对 $V$ 近似程度的指标。随着我们增加更多部分（增加 $k$ ），这个误差总是会减小，但改进的幅度会递减。我们通常在误差图中寻找一个“肘部”或“膝盖”，在那里增加更多部分带来的收益甚微。
解的稳定性： 一个“好”的秩 $k$ 应该对应一个稳定、可复现的解。如果我们用不同的随机起始点运行NMF算法100次，我们是否能一致地找到相同的底层结构？我们可以通过构建一个共识矩阵来量化这一点，该矩阵记录了在多次运行中每对样本被聚类在一起的频率。共表型相关系数（cophenetic correlation coefficient）是总结这种共识聚类稳定性的一个度量。该稳定性度量中的一个尖峰是秩有意义的强有力指标。

一个更严谨的方法是交叉验证。我们可以在数据矩阵 $V$ 中隐藏一部分条目，用我们能看到的条目训练NMF模型，然后测试它预测隐藏条目值的效果。我们对许多可能的秩重复这个过程，并选择对未见数据泛化能力最好的那个秩。

通过仔细考虑这些原则——正性的物理动机、锥的几何直觉、算法搜索的性质以及选择秩时的权衡——我们不仅能将NMF作为一种数学工具来使用，更能将其作为一个强大的透镜，用以发现我们周围世界中隐藏的、加性的结构。

应用与跨学科联系

在了解了非负矩阵分解（NMF）的原理之后，你可能会感受到其数学上的优雅，但同时也会产生一个问题：“这到底有何用处？”这是一个很合理的问题。一个精美的工具，只有当我们看到它能构建出什么时，才能真正领略其价值。事实证明，将整体分解为其非负部分之和这个简单而强大的思想，并不仅仅是数学上的奇思妙想；它是在各个科学领域中反复出现的主题，是一把名副其实的万能钥匙，用以解开文学、生物学和神经科学等截然不同领域中的秘密。

NMF的魔力在于其可解释性。当我们分解某物时，我们希望这些碎片本身就有意义。我们理解一杯冰沙是其成分——草莓、香蕉、酸奶——的总和，而不是草莓加香蕉减一种奇怪的反酸奶物质。非负性约束迫使我们的数学分解反映这种直观的、加性的现实。让我们来巡礼其中一些应用，你将看到这个单一思想如何以惊人的灵活性适应并解决各种奇妙的难题。

解构文本与品味

也许最直观的起点是我们人类每天创造的数据：文本和偏好表达。

想象你面对堆积如山的财经新闻文章。计算机如何开始理解它们的内容？我们可以将这个文集表示为一个大矩阵 $V$ ，其中每一行对应一个词（如“利率”、“股票”或“交易”），每一列代表一篇文章。矩阵中的条目就是每个词在每篇文章中的出现次数。NMF接收这个矩阵并对其进行分解， $V \approx W H$ 。 $W$ 矩阵的列成为我们潜在的“主题”——每个主题都是一个带不同权重的词列表。例如，一个主题可能在“利率”、“债券”和“通胀”等词上权重很高，而另一个主题可能以“股权”、“市场”和“增长”为特色。反过来， $H$ 矩阵告诉我们每篇文章的“配方”：文章1是 $0.7$ 的“利率”主题和 $0.2$ 的“股权市场”主题，依此类推。因为所有成分都是非负的，所以解释是直接且加性的：文章由主题构成，主题由词语构成。

同样的逻辑也完美地适用于推荐系统领域。当一项服务为你推荐电影时，它是如何决定的？一种方法是分解一个巨大的用户评分矩阵。但使用允许负数的标准分解方法，其原因可能变得不透明。一个用户-电影对的高预测分，可能是因为一个负的“用户偏好”成分乘以一个负的“电影属性”成分。这种“负负得正”得出了一个正向预测，但却无法提供合理的解释。

NMF解决了这个混乱。通过强制非负性，它将你的品味建模为对不同潜在类型的偏好的加性组合，并将一部电影建模为这些相同类型的加性组合。如果你被推荐了一部电影，NMF可以提供一个明确的理由：你对“古怪喜剧”有很高的偏好（ $u_{i,k}$ 很大），而这部电影有很强的“古怪喜剧”成分（ $v_{j,k}$ 很大）。这种透明度不仅令人满意，对于调试和建立系统信任也至关重要，因为一个错误的推荐可以很容易地追溯到其加性来源，而不会因符号抵消而产生混淆。

解读生命之书

从人类文化的建构，我们现在转向自然世界，NMF已成为“解读”复杂的生物学和医学数据不可或缺的工具。

考虑数字病理学领域。当组织样本用苏木精和伊红（H&E）等化学物质染色时，不同的细胞结构会以不同方式吸收光线。病理学家通过观察这些颜色来做出诊断。我们可以将这个过程数字化，但我们能否在计算上分离这些染料以进行量化？由Beer-Lambert定律描述的光吸收物理学告诉我们，在正确的数学空间（光密度）中，一个像素的总颜色是每种染料贡献的线性总和。这恰好是NMF的用武之地。一个图像矩阵可以分解为一个矩阵 $W$ （其列是单个染料的纯色光谱）和一个矩阵 $H$ （其列给出每个像素处每种染料的浓度）。值得注意的是，NMF通常可以在未被告知染料颜色的情况下完成这种“盲源分离”。它从“整体”（混合颜色的图像）中推断出“部分”（染料），这项壮举之所以成为可能，是因为图像中包含一些几乎完全是某种单一染色的像素，为算法提供了可以依附的“锚点”。

NMF在癌症基因组学中的应用更为深刻，类似于一种分子考古学。一个肿瘤的基因组上布满了其生命周期中积累的突变疤痕。这些突变并非随机；它们常常形成模式或“特征”，反映了潜在的突变过程——有些由紫外线辐射或烟草烟雾等外部因素引起，另一些则由内部DNA修复机制的失效引起。将一个患者肿瘤中的全部突变整理成一个矩阵 $V$ ，可以看作是整体。NMF可以将这个矩阵分解为 $V \approx W H$ ，其中 $W$ 的列是基本的突变特征（部分），而 $H$ 的列是“暴露量”，量化了每个突变过程在每个患者肿瘤中的活跃程度。这不是一次简单的一次性分析。为了从一组患者中可靠地从头发现这些特征，研究人员使用复杂的流程，在数据的自举（bootstrapped）版本上运行NMF数千次，根据结果的稳定性和可重复性来选择特征的数量。一旦这些基本特征被确定，问题就反过来了：对于一个新患者，我们可以取其突变向量 $v$ ，并在固定的 $W$ 下，使用NMF求解其个人暴露向量 $h$ ，从而为了解塑造其癌症的力量提供一个诊断窗口。

解码大脑与身体

NMF的组织原则与理解生物控制系统所面临的挑战产生了深刻的共鸣。大脑和身体是管理复杂性的大师，通常采用模块化的、基于部分的策略。

想一想伸手拿杯子这样一个简单的动作。你的手臂拥有的肌肉数量超过了控制其关节所必需的数量，这是一个经典的“冗余问题”。大脑是通过独立计算每块肌肉的精确激活来解决这个问题的吗？“肌肉协同”假说提出了一个更简单的策略：大脑不是激活单个肌肉，而是激活预定义的肌肉群，即“协同”。每个协同是跨多个肌肉的固定协同激活模式。一个复杂的运动就是通过将少数几个协同与时变激活信号相结合来构建的。这正是NMF的用武之地。通过将肌肉的电活动（EMG）记录到一个矩阵 $X$ （肌肉 $\times$ 时间）中，NMF可以将其分解为 $X \approx W H$ 。 $W$ 的列是空间协同模式，而 $H$ 的行是它们的时间激活曲线。在这里，非负性约束不仅仅是一种选择，它更是生理学的一种反映：肌肉只能收缩（ $f_i(t) \ge 0$ ），并且它们的激活信号（EMG）是非负的。

当我们直接观察大脑时，同样的原则也适用。现代神经科学技术可以同时记录数千个神经元的活动，产生海量数据。我们如何在这看似混乱的数据中找到秩序？一个主流假说是，神经元以“集群”或“集合”的形式协同工作——这些群体倾向于协同放电。通过将神经记录组织成一个矩阵 $X$ （神经元 $\times$ 时间），NMF再次提供了透镜。分解 $X \approx W H$ 揭示了其组成部分： $W$ 的列代表神经元集群，识别哪些神经元属于哪个群体，而 $H$ 的相应行则揭示了每个集群激活的精确时间进程。NMF让我们能够从音符中看到交响乐。

前沿：整合与预测

NMF的力量超越了寻找单一整体的部分。它为更复杂的科学问题提供了一个灵活的框架，推动了数据分析的前沿。

例如，在现代医学中，我们常常从同一组患者身上收集多种类型的数据——基因组学、转录组学、蛋白质组学。这就是“多组学”的世界。我们如何整合这些不同的数据模态以找到一个单一、连贯的生物学故事？联合NMF提供了一个解决方案。它同时分解多个数据矩阵， $X^{(m)} \approx W^{(m)} H$ ，通过强制它们共享一个共同的样本因子矩阵 $H$ 。这个共享矩阵代表了患者潜在的生物学状态（共同的“部分”），而每个特定模态的 $W^{(m)}$ 矩阵则学习这些状态在该特定数据类型中是如何表现的。这就像通过不仅阅读一个故事角色的对话，还阅读他们的私人想法和行动来理解他们，并找到连接所有这些的共同性格特征。

NMF框架还可以进行调整以整合其他形式的先验知识。在空间转录组学这一革命性领域，我们不仅测量基因表达总量，还测量其在组织中的特定位置。我们从生物学中得知，组织是空间连续的；邻近的细胞往往是相似的。我们可以将这种知识编码为一个“空间惩罚”，鼓励相邻位置的NMF因子相似。这种具有空间意识的NMF比PCA等方法强大得多，因为它将基因表达的物理上有意义的非负、加性模型与数据的已知空间结构相结合，从而对组织结构进行更清晰、更可解释的解构。

最后，NMF发现的“部分”不一定总是故事的结局。它们可以作为一个更大的预测流程中强大的中间步骤。来自神经分解的时变激活系数（ $H$ 矩阵）可以作为一组紧凑、有意义的特征，供后续模型（如广义线性模型GLM）用于预测动物的移动速度等行为变量。这种“先发现，后预测”的两步法是一个强大的范式。但它伴随着一个深刻的警告，这也是所有科学的核心。即使你的模型达到了惊人的预测准确性，相关性也不等于因果关系。一个NMF因子能够预测一种行为，这一事实本身并不能证明它导致了该行为。要做出这样的论断，必须从被动观察转向主动干预——例如，通过使用光遗传学等技术直接操纵神经元集群，并观察行为是否因此发生变化。

从文本到品味，从细胞到协同，NMF已被证明是一种功能非凡的通用工具。其简单的核心原则——复杂的整体可以被理解为其部分的加性总和——提供了一个透镜，为原本棘手的数据带来了结构，揭示了我们世界中许多事物背后隐藏的模块化特性。