基于部件的表示

玻尔百科

核心要点

基于部件的表示将复杂数据建模为其有意义的基本成分的纯粹可加性总和，类似于用其构成部件来构建一个物体。
非负矩阵分解 (NMF) 是一项核心技术，通过施加非负性约束，迫使模型学习可解释的、可加性的部件，这与可以使用减法的主成分分析 (PCA) 等方法不同。
这种方法特别适用于分析固有的非负数据（如光强度或神经元放电率）和组合数据（如细胞类型的比例）。
基于部件的方法具有广泛的跨学科应用，从在基因组学中发现基因程序、在神经科学中发现神经元集合，到分割医学图像。

引言

我们如何理解一个复杂的系统？是通过其整体形式来描述，还是通过其基本组成部分来描述？这个问题是科学发现的核心，尤其是当我们让计算机去解读来自神经科学、基因组学和人工智能的庞大数据集时。虽然许多方法提供了整体性描述，但它们往往缺乏真正理解所需的可解释性。本文旨在通过探索基于部件的表示这一强大的哲学思想来弥补这一差距——这是一个将数据解构为其有意义的、可加性成分的框架。本次探索将分两部分进行。首先，在“原理与机制”一节中，我们将深入探讨该方法的数学和概念基础，重点关注非负矩阵分解等技术，并将其与替代方法进行对比。随后，“应用与跨学科联系”一章将展示这一思想如何为横跨众多科学和工程学科的发现提供一个统一的视角。

原理与机制

部件与整体的哲学

我们如何理解一个复杂的物体？想象一个正在玩乐高积木的孩子。要搭建一辆汽车，她不会从一整块塑料开始，然后雕刻掉所有不像汽车的部分。相反，她从一系列简单而有意义的部件开始——轮子、车轴、底盘、方向盘——然后将它们组合起来。整体确实是其部件的总和。这就是基于部件的表示的精髓。

现在，思考另一种方法。一位艺术评论家在描述一座雕塑时，可能不会提及它由哪些大理石块构成，而是描述其整体形式——“优雅”、“雄伟”、“充满动感”。这是一种整体性描述。它抓住了本质特征，但没有告诉你这座雕塑是如何组装起来的。

在科学领域，当我们试图教计算机理解世界时，也面临着类似的选择。当一台机器分析一个复杂信号时——比如大脑的电信号、医学扫描中肿瘤的纹理、数千个基因的表达——它应该寻找整体属性，还是寻找基本的、可加性的构建模块？对这些数据“乐高积木”的探寻，催生了一系列优美直观且功能强大的思想。

矩阵之舞：数字绘画

世界上大部分数据都可以被组织成一个大的数字网格，一个我们称之为矩阵的数学对象。我们将数据矩阵称为 $X$ 。想象一下， $X$ 代表了一系列人脸，其中每一列是一张不同人的照片，每一行对应一个像素的亮度。

我们的目标是找到一种方法来分解这些复杂数据。一个强大的技术是矩阵分解。我们试图找到两个通常简单得多的矩阵——我们称之为 $W$ 和 $H$ ——使得它们的乘积近似于我们的原始数据：

X \approx W H

你可以把这看作一种数据的“数字绘画”。矩阵 $W$ 是我们的部件字典，一个基本模式的调色板。 $W$ 的每一列代表一个“部件”，比如一个通用的眼睛、鼻子或嘴巴的形状。矩阵 $H$ 则是配方书。 $H$ 的每一列提供了从我们的收集中构建一张特定人脸的指令，告诉计算机该使用字典 $W$ 中的每种部件多少。

正值的力量：非负矩阵分解

在这里，一个看似简单的约束导致了深刻的视角转变。如果我们测量的数据只能是正数，情况会怎样？光的强度、神经元在一秒内放电的次数，或者细胞中蛋白质的浓度——这些量本质上都是非负的。你不可能有负的光，也不可能有负数量的分子。

这一物理现实启发了一个数学约束：我们要求字典矩阵 $W$ 和配方矩阵 $H$ 中的所有数字也必须是非负的。这项技术被恰如其分地命名为非负矩阵分解 (NMF)。我们旨在找到最佳的 $W \ge 0$ 和 $H \ge 0$ 来重构我们的数据。

这种非负性的结果并非细微，而是变革性的。每个数据点——我们例子中的每张人脸——的重构现在是字典中部件的纯粹可加性组合。要重构一张特定的人脸，我们只能添加来自 $W$ 的基础模式（眼睛、鼻子等），每个模式都由来自 $H$ 的一个正系数加权。我们在数学上被禁止使用减法。

这个简单的规则迫使算法学习具有物理意义的部件。它不能通过创建一个整体模板然后减去特征来“作弊”。它必须学习实际的、构成性的部件。NMF 发现人脸是由眼睛、鼻子和嘴巴构成的。

这与主成分分析 (PCA) 等其他强大方法形成鲜明对比。PCA 非常擅长发现数据集中的最主要变异。然而，它的成分可以同时包含正值和负值，并且它生成的配方也使用正负权重。PCA 可能会将一张脸描述为“80% 的平均脸，加上 20% 的‘长脸’模式，再减去 10% 的‘宽鼻’模式”。这是一个有效的整体性描述，但不是基于部件的描述。减法或抵消的使用使得将这些成分解释为物理部件变得困难，特别是当数据本身（如神经元放电率）不能为负时。

锥体的几何学

我们可以将这种差异可视化。想象每个“部件”（字典 $W$ 的一列）是一个从共同原点出发的箭头，或称为向量。因为这些向量中的所有条目都是非负的，所以所有这些箭头都指向同一个大致的空间区域——在二维中是第一“象限”，或其更高维的等价物，即非负象限。

任何数据样本的 NMF 重构都是这些基向量带正权重的加权和。从几何上看，这意味着每个重构的数据点都必须位于由这些基向量形成的锥体内部。模型必须学习一组基向量，其锥体的宽度刚好足以包含所有数据，从而迫使这些向量与数据云的“边缘”对齐。这些边缘通常对应于数据集中存在的那些最纯粹、最基本的部件。这个优美的几何约束是 NMF 能够学习有意义部件的秘诀。

超越基础：稀疏性与独立性

基于部件的哲学甚至可以进一步延伸。在现实世界中，大多数复杂物体仅由所有可能部件中的一小部分构成。一个给定的图像块可能包含一些猫毛的纹理和桌子的边缘，但不会包含汽车轮胎或鸟翼的一部分。我们可以通过鼓励稀疏性来将这种直觉构建到我们的模型中——也就是说，要求模型使用尽可能少的部件来解释每个样本。

这就是稀疏编码和稀疏自编码器背后的原理。通过在模型的目标函数中增加一个惩罚项——通常基于所谓的 $\ell_1$ 范数或 Kullback-Leibler (KL) 散度——我们将 $H$ 中的配方条目推向零。结果是一个高度可解释的表示：一张肿瘤的医学图像可能被描述为“70%‘致密细胞核’纹理和30%‘基质组织’纹理”，而所有其他可能的纹理部件的贡献都为零。这种非负性和稀疏性的结合为发现局部的、有意义的特征提供了一个强大的框架。

这引出了一个至关重要的区别。“基于部件的”表示是否等同于寻找“独立的”成分？完全不是。考虑像独立成分分析 (ICA) 这样的技术，它因通过将混合的声音分离成独立的声源来解决“鸡尾酒会问题”而闻名。ICA 假设它所寻找的底层源在统计上是独立的。

但整体的各个部分通常并非独立的。想一想一个生物样本，其数据代表不同细胞类型的比例。如果“细胞类型 A”的比例上升，其他细胞类型的比例必须下降，因为总和必须为 100%。这些比例是内在相关的并且是负相关的。在一个模拟此确切场景的优美的理论案例中，发现任意两个组分之间的相关性恰好是 $-\frac{1}{2}$ 。这种组合数据从根本上违反了 ICA 的核心假设。另一方面，NMF 则非常适合这种情况，因为其可加性模型自然地描述了由分数部分构成的整体。这教会了我们一个重要的教训：没有单一的“最佳”模型。正确的选择取决于你试图解决的问题的深层结构。

发现现实的构建模块

基于部件的表示原理，植根于非负性和稀疏性的优雅数学，已成为跨科学领域发现的强大引擎。

在神经科学中，NMF 被用来倾听大脑的交响乐。它将数千个神经元复杂的放电模式分解为一小组“神经元集合”——这些神经元群组可靠地协同放电，以编码一个思想、感觉或动作。该模型揭示了哪些集合在不同时刻是活跃的。
在医学中，这种方法使病理学家能够自动化分析组织图像。NMF 可以学习肿瘤的基本纹理模式——如癌细胞核、细胞质和周围的支持组织——然后量化任何给定活检区域的精确成分。
在基因组学中，它帮助生物学家解开基因表达的巨大复杂性。通过分析来自多个样本的数千个基因的数据，NMF 可以发现“基因程序”——协同工作以执行特定生物学功能的基因集合。然后，它可以评分每个程序在不同患者中的活跃程度，从而可能揭示疾病的分子驱动因素。

通过施加一个简单的、有物理动机的约束——不能为负——我们为我们的算法提供了一种新的看待世界的方式。它们学会的不仅是描述世界，更是将其解构为基本的、可加性的部件。这是一个杰出的例子，说明了将我们的数学工具与现实的内在结构相结合，不仅能带来更好的答案，还能带来更深的理解。

应用与跨学科联系

在经历了基于部件的表示的原理与机制之旅后，人们可能会产生一种数学上的满足感。但科学不仅仅是优雅的方程，它关乎理解世界。一个概念的真正美妙之处，在于我们看到它如何照亮一片看似无关问题的广阔图景。将一个复杂的整体分解为更简单、更基本的部件之和，是科学探索中最强大的工具之一。它不仅仅是一种数据分析技术，更是一种哲学。

在合成生物学的早期，这个旨在工程化生命本身的新兴领域，曾发生过一场关键的辩论。一种观点是采用现有的、极其复杂的生物系统，并试图温和地“重新编程”它们。另一种最终胜出的观点是“部件工程”范式。这种方法受到电气工程的启发，旨在创造标准化的、模块化的生物组件——如基因开关和振荡器——这些组件可以被组装成新颖的电路。为什么这种基于部件的观点会获胜？因为它易于处理。它使科学家能够构建和理解简单的、可验证的系统，在细胞这个复杂而棘手的领域中找到了一个立足点。它建立了一个可以成长、可以传授、可以获得资助的研究纲领，为未来的进步铺平了道路。这个故事是一个宏大主题的缩影：用部件的思维方式帮助我们管理复杂性并取得进展。现在让我们看看这个主题在一系列令人瞩目的学科中如何展现。

解构生物学：基因的交响乐

现代生物学，伴随着其“组学”数据的洪流，已成为一门信息科学。例如，当我们对一个微生物群落进行宏基因组测序时，我们得到的不是一个简单的细菌列表，而是数百万个基因读段，这些读段经过计数和分类后，形成了一个*组合性*图谱。特定基因家族的数据不是一个绝对数量，而是整体的一个比例。微生物群落的全部功能潜力以一个数学单纯形上的数字向量存在——在这个空间里，所有部分的总和必须为一。这就是我们必须解读的数据的基本性质。我们拥有交响乐的总谱，但我们想要识别出单个的乐器和它们的旋律。

这正是基于部件的表示大显身手的地方。考虑一个单细胞 RNA 测序实验，它测量了数千个单个细胞中数千个基因的表达。由此产生的数据矩阵是一幅令人眼花缭乱的数字画卷。然而，生物学家怀疑这种复杂性源于一个更简单的潜在现实：每个细胞的身份是一些核心“转录程序”的可加性混合。一个程序可能掌管代谢功能，另一个掌管细胞分裂，等等。一个肝细胞不是一个单一的实体，而是由这些基本音符奏出的一个特定和弦。

我们如何找到这些程序？像主成分分析 (PCA) 这样的经典方法会寻找最大方差的方向。但 PCA 产生的成分有正有负，其正交性的数学约束没有生物学基础。它给了我们一个关于变异的整体性描述，但不是部件本身。然而，像非负矩阵分解 (NMF) 这样的基于部件的方法正是为此问题而生。通过强制要求部件（基因程序）及其对整体（细胞图谱）的贡献都是非负的，NMF 与系统的物理现实完美契合——你不可能有负数量的基因产物。结果是惊人的：NMF 揭示了与生物功能直接对应的稀疏、可解释的程序，在 PCA 产生模糊结果的地方生成了清晰、优美的模式。同样的原理在空间转录组学中更具说服力，我们试图理解细胞类型的混合物如何在组织中变化。一个具有空间意识的基于部件的模型可以通过一个相当合理的假设——组织中邻近位置具有相似的细胞“部件”组成——来揭示底层的组织结构。

这项探索延伸到了大脑。成百上千个神经元的协调放电产生了思想和行动。神经科学家将这场电风暴记录为一个巨大的、随时间变化的放电计数矩阵。挑战再次是从噪声中找到信号。假设是，单个神经元看似混乱的活动是由少数潜在信号协调的，这些信号代表了大脑的内部状态或计算。通过将群体活动建模为不同“细胞集合”——倾向于一起放电的神经元群组——的贡献总和，我们可以提取出这些隐藏的信号。一个基于部件的分解，特别是一个受非负性和稀疏性约束的分解，是识别这些集合的自然方式，它将共享信号与每个神经元的独立噪声分开，揭示了思想的低维轨迹。

洞见未见：基于部件的视觉

基于部件的思维方式的力量不仅限于解码生物序列；它也帮助我们“看见”。在病理学中，质谱成像 (MSI) 生成组织切片的详细化学快照，为每个像素提供一个完整的质谱。这个质谱代表了什么？它是该像素内不同组织学成分的化学特征的可加性混合——可能是一些癌细胞、一些健康的基质和一些免疫细胞。为了将图像分割成有意义的生物区域，我们需要一种能够解混这些信号的方法。NMF 及类似技术，因其本质，就是为解决这个问题而设计的，它们将每个像素的质谱分解为一组基础谱（“部件”）及其相对丰度。

这个想法在人工智能和计算机视觉领域得到了更为复杂的体现。想象一下，训练一个深度学习模型，一个稀疏自编码器，来理解组织病理学图像。我们可以设计模型来学习一个视觉原子的“字典”。通过强制要求任何图像块都必须使用这些原子的稀疏、可加性组合来重构，模型被迫学习一种基于部件的组织表示。它学到了什么？它发现了一个基本生物结构的词汇表：一些字典原子成为细胞核的模板，另一些成为管腔边界的模板，还有一些成为胶原蛋白束的模板。这台机器，在没有任何关于病理学的明确指令的情况下，学会了用其构成部件的术语来看待世界，这是一种不仅可解释而且对噪声具有鲁棒性的策略。

“部件”的概念甚至可以变得更加抽象。在正电子发射断层扫描 (PET) 中，图像是通过检测源自单个湮灭事件的光子对形成的。扫描仪的灵敏度并非均匀；探测器对之间数百万条可能的响应线 (LORs) 中的每一条都有不同的效率。测量每一条 LOR 的效率是一项艰巨的任务，尤其是在现代三维扫描仪中，LOR 的数量是天文数字。然而，当我们采用基于组件的模型时，问题变得可以处理了。我们假设单个 LOR 的效率仅仅是所涉及的两个独立探测器晶体效率的乘积，再加上一个几何因子。我们不再需要测量数百万条 LOR，而只需要估计几千个探测器“部件”的效率。这种将系统级属性分解为其组件级贡献的做法，是基于部件思维的一个优美范例，它使现代医学成像成为可能。

构建世界：从工程到知识

帮助我们理解一个细胞或一台 PET 扫描仪的逻辑，同样也帮助我们构建和操作我们自己的复杂技术。考虑一个现代联合循环燃气轮机发电厂，这是一个拥有多个涡轮机和热回收系统的工程奇迹。为了高效运行这个电厂，系统操作员需要一个用于其机组组合的数学模型——决定何时启动哪些组件。人们可以尝试枚举电厂所有可能的有效配置，并将每种配置视为一个单一状态。但对于一个复杂的电厂来说，这将导致组合爆炸。替代方案是基于组件的模型，一种真正的基于部件的表示。在这里，模型包含了每个独立组件的变量——每个燃气轮机、每个蒸汽发生器。模型的保真度大大提高，因为它可以捕捉每个部件的具体物理特性和约束。这种方法与我们的生物学例子如出一辙：为了实现对整体的高保真理解，我们对部件进行建模。

或许这个想法最深刻的应用不在物理世界，而是在人类知识的世界里。我们如何表示一个复杂的医学概念？像 SNOMED CT 这样的术语系统使用一种组合式的、基于部件的结构。一个高度具体的诊断不是一个任意的标签，而是由更简单的概念组合而成。例如，“左股骨干粉碎性骨折”不是一个单一的、原子的概念。它由一个基础概念（“骨折”）和多个属性修饰而成：形态学 = “粉碎性”，发现部位 = “股骨干”，方位 = “左”。这些部件中的每一个本身就是一个概念。像统一医学语言系统 (UMLS) 这样的大型知识库就是通过聚合这些基本部件来工作的。虽然 UMLS 可能不会为每一种可以想象的组合创建一个新的唯一标识符，但它提供了部件的字典和语法规则，使得意义可以被组合式地构建。我们通过将最关键的知识分解为一组有限的部件和一个用于组装它们的系统来组织这些知识。

从细胞的内部运作到知识本身的结构，基于部件的表示原理提供了一个统一而强大的视角。它证明了在惊人的复杂性之下，往往隐藏着一种优雅的、可加性的简单性。通过寻找部件，我们所做的不仅仅是简化；我们找到了构成我们世界的基本真理。