典范多元分解 (CP)：揭示多维数据的基本构成单元

玻尔百科

定义

典范多元分解 (CP)：揭示多维数据的基本构成单元是一种将复杂的多维张量建模为多个一秩分量之和的数学方法，属于多重线性代数领域。与许多其他分解方法不同，CP 分解对于高阶张量通常具有本质上的唯一性，从而允许对所发现的因子进行直接解释。该方法在识别神经回路、测量量子纠缠以及优化计算算法等多个领域有着广泛的应用。

核心要点

CP 分解是一种数学方法，它将一个复杂的多维数据集（张量）建模为简单的秩一分量之和。
与许多其他因式分解不同，CP 分解对于高阶张量通常是本质上唯一的，这使得人们可以直接解释其发现的因子。
该方法在不同领域都有强大的应用，从识别大脑数据中的神经回路，到测量量子纠缠和优化计算算法。

引言

在一个数据以前所未有的规模生成的时代，我们日益面对的信息不仅体量巨大，而且具有多方面和复杂结构的特点。从跨越时间和被试测量的大脑活动，到跨越多种条件记录的基因表达，现代数据集通常以多维数组（即张量）的形式出现。这种数据的纯粹复杂性提出了一个巨大的挑战：我们如何才能将这些庞大的数字景观提炼成可理解的模式和可行的见解？这一知识鸿沟呼唤一种能够将复杂性解构为基本、可解释部分的能力的工具。典范多元（CP）分解正是这样一种工具——一个强大的数学框架，用于发现多维数据中隐藏的基本构成单元。本文将引导您了解这一引人入胜的方法。首先，我们将探讨 CP 分解的“原理与机制”，揭示其核心概念、固有的数学性质以及其反直觉的唯一性魔力。随后，我们将穿越其“应用与跨学科联系”，见证这一单一方法如何提供一个统一的视角，来解决神经科学、遗传学乃至量子物理学等不同领域的问题。

原理与机制

想象一下，你是一位调香大师。你面前摆着一款全新的、复杂的香水。你的首要任务是辨别其基本香调。是有一丝玫瑰的芬芳？还是檀香的基调？亦或是柑橘的触感？你正在将一个复杂的整体解构为一组纯粹的、潜在的组分。这正是典范多元（CP）分解的精神所在。它是一种数学方法，用于获取一个复杂的多维数据集——张量——并将其分解为其最基本的组成部分。

基本成分：秩一张量

在我们理解完整的配方之前，我们必须首先理解最简单的成分。在张量的世界里，这就是秩一张量。它是什么？让我们想象一个简单的三维数据块，或许代表不同药物、蛋白质和细胞类型之间的相互作用得分。一个秩一张量是你所能构建的最具结构性、最“乏味”的数据块。

它由三个向量——每个维度（药物、蛋白质、细胞）各一个——通过所谓的外积组合而成。我们称这些向量为 $\mathbf{a}$ 、 $\mathbf{b}$ 和 $\mathbf{c}$ 。外积，记作 $\mathbf{a} \circ \mathbf{b} \circ \mathbf{c}$ ，会创建一个张量，其中每一个元素都只是从每个向量中取一个元素相乘的积。对于位置 $(i, j, k)$ 的元素，其值就是 $a_i \times b_j \times c_k$ 。

想一想这意味着什么。如果你在保持蛋白质和细胞固定的情况下，沿着“药物”维度移动，你看到的值只是向量 $\mathbf{a}$ 的缩放版本。沿着“蛋白质”维度移动，你看到的是向量 $\mathbf{b}$ 的缩放版本。这种极端的规律性是秩一张量的标志。一个简单但微不足道的例子是一个所有元素均为 1 的张量。这可以完美地描述为三个全为 1 的向量的外积（通过适当缩放使积等于 1）。它只包含一种模式，在整个结构中重复出现。

复杂性的配方：简单部分之和

当然，现实世界的数据很少如此简单。一款真正的香水不仅仅是玫瑰味；它是各种香味的交响乐。同样，一个真实的数据集包含多种重叠的模式。CP 分解的魔力在于它将一个复杂的张量 $\mathcal{X}$ 建模为这些简单的秩一成分之和：

\mathcal{X} \approx \sum_{r=1}^{R} \mathbf{a}_r \circ \mathbf{b}_r \circ \mathbf{c}_r

和中的每一项， $\mathbf{a}_r \circ \mathbf{b}_r \circ \mathbf{c}_r$ ，都是一个秩一张量，代表一个单一、纯粹的“模式”或“潜在因子”。和中的项数 $R$ 被称为 CP 秩，它告诉我们需要多少个基本模式才能重建原始数据。你可以将分解看作是提供了一组“因子矩阵” $A$ 、 $B$ 和 $C$ ，这些矩阵的列分别是每个分量 $r$ 的向量 $\mathbf{a}_r, \mathbf{b}_r, \mathbf{c}_r$ 。

让我们回到一个来自系统生物学的真实世界例子，我们可能有一个在多个患者中随时间收集的基因表达数据张量。我们的维度是（时间，基因，患者）。CP 分解会找到一组 $R$ 个分量。单个分量是什么？

向量 $\mathbf{a}_r$ 将代表一个特定的时间模式（例如，“活动在 24 小时达到峰值”）。
向量 $\mathbf{b}_r$ 将是一个共同遵循此模式的基因列表（例如，某个特定生物通路的“基因签名”）。
向量 $\mathbf{c}_r$ 将是一组分数，指示每个患者表达这整个时间依赖性基因签名的强度。

这种方法的美妙之处在于其三线性结构。分量 $r$ 对患者 $k$ 在时间点 $i$ 的基因 $j$ 的基因表达的贡献只是一个简单的乘法： $a_{ir} \times b_{jr} \times c_{kr}$ 。CP 模型找到的因子向量，当以这种方式相加时，能最好地重建原始数据张量。因子的结构与数据的结构直接相关；如果我们交换张量的前两个维度（从时间 x 基因 x 患者变为基因 x 时间 x 患者），相应的因子矩阵在分解中的位置也会简单地交换。

主厨的怪癖：配方中的不确定性

现在，当你尝试进行这种分解时，会发生一些奇怪的事情。事实证明，“配方”并非一成不变。模型本质上存在一些固有的模糊性，或称不确定性。

首先，存在置换不确定性。和式 $\mathbf{a}_1 \circ \mathbf{b}_1 \circ \mathbf{c}_1 + \mathbf{a}_2 \circ \mathbf{b}_2 \circ \mathbf{c}_2$ 与 $\mathbf{a}_2 \circ \mathbf{b}_2 \circ \mathbf{c}_2 + \mathbf{a}_1 \circ \mathbf{b}_1 \circ \mathbf{c}_1$ 完全相同。你列出分量的顺序无关紧要。你可以任意将“分量 1”重新标记为“分量 2”，只要你交换其所有相应的因子向量即可。

其次，更微妙的是，每个分量都存在尺度不确定性。想象在我们的生物学例子中，对于分量 $r$ ，我们决定将“基因签名”向量 $\mathbf{b}_r$ 中的所有值都加倍。这会改变最终的张量。但是，如果我们同时将“患者得分”向量 $\mathbf{c}_r$ 中的所有值减半，那么乘积 $(2\mathbf{b}_r) \circ (\frac{1}{2}\mathbf{c}_r)$ 的贡献将与原来完全相同。我们可以在单个分量的向量之间调整一个标量因子，只要这些标量的乘积为 1，得到的秩一张量就不会改变。这也意味着，如果我们将整个张量乘以一个常数，比如 5，我们可以通过简单地将其中一个因子矩阵乘以 5 来解释这一点。

这些不是需要“修复”的“问题”；它们是固有的属性。我们通常通过采用一些约定来处理它们，例如对向量进行归一化（例如，使它们都成为单位长度），并将缩放因子吸收到一个单独的权重向量中。

唯一性的魔力：来自第三维度的惊喜

此时，你可能会认为张量分解是一件混乱、模糊的事情。矩阵分解（如奇异值分解，SVD）通常是唯一的，但我们刚刚看到，即使对于一个简单的 $2 \times 2$ 矩阵，也可能存在多个不同的秩为 2 的 CP 分解。如果二维张量已经如此模糊，那么三维张量肯定会更糟吧？

这里出现了一个壮观的、反直觉的转折：对于 3 阶或更高阶的张量，CP 分解通常是本质上唯一的。

这是一个意义深远的结果。它意味着，尽管存在尺度和置换的模糊性，但通常只有唯一一组分量向量能够组合形成给定的张量。这一特性是 CP 分解成为科学发现如此强大工具的主要原因。如果因子是唯一的，我们就能更有信心地认为它们代表了我们数据中真实的、潜在的现象。

唯一性的保证来自于一个优美的数学成果，即 Kruskal 定理。简单来说，该定理指出，如果每个模态中的因子向量集足够“多样化”，则分解是唯一的。这种多样性由一个称为因子矩阵的 Kruskal 秩（或 k-秩）的属性来衡量。一个矩阵的 k-秩是最大数 $k$ ，使得该矩阵的任意 $k$ 列都是线性无关的——这是一个比标准矩阵秩严格得多的条件。Kruskal 的条件指出，如果三个因子矩阵的 k-秩之和相对于 CP 秩 $R$ 足够大（具体来说， $k_A + k_B + k_C \ge 2R + 2$ ），唯一性就得到保证。这仿佛是大自然在告诉我们，如果你的基本配料足够独特，那么只有一种方法可以将它们组合起来烘焙出一个特定的蛋糕。

张量秩的奇特几何学

惊喜并不止于唯一性。在张量的世界里，“秩”这个概念本身的行为也很奇特。对于一个大小为 $I \times J$ 的矩阵，最大可能秩就是两个维度中较小的一个，即 $\min(I, J)$ 。对于一个 $2 \times 2$ 的矩阵，最大秩是 2。对于一个 $100 \times 100$ 的矩阵，最大秩是 100。这很直观。

准备好让你的直觉失效吧。对于一个大小为 $2 \times 2 \times 2$ 的张量，最大可能秩是多少？遵循矩阵的逻辑，人们可能会猜是 2。答案是 3。

这不是笔误。存在需要至少三个秩一分量才能完美描述的 $2 \times 2 \times 2$ 张量。这一发现震惊了数学界，它揭示了这些高阶空间的几何结构远比矩阵的平面世界更丰富、更复杂。它告诉我们，从二维到三维不仅仅是又一步——它是进入一个具有不同规则的新宇宙的飞跃。

CP 的定位：刚性与灵活性之间的权衡

最后，理解 CP 模型所处的位置很重要。它是一个强大但刚性的模型。它坚持认为，所有模态的分量数 $R$ 都是相同的。这种刚性是其奇妙唯一性属性的来源。

然而，现实世界的数据可能没有那么受限。考虑一个具有不同复杂性模态的数据集，例如（250 个个体，12000 个基因，4 种检测类型）。有理由认为，在 12000 个基因中可能存在的变异模式要比在仅 4 种检测类型中多得多。然而，一个 CP 模型会强迫我们为两者找到相同数量的分量。如果我们选择一个高秩（比如 $R=60$ ）来捕捉遗传复杂性，我们就被迫在一个 4 维空间中寻找 60 个分量，这是一个不适定问题，并会导致过拟合。

这就是更灵活的模型——Tucker 分解——发挥作用的地方。Tucker 模型允许每个模态有不同的秩，并包含一个描述分量之间相互作用的“核心张量”。事实上，CP 模型是 Tucker 模型的一个特例，其核心张量是对角的（意味着没有相互作用），并且所有模态的秩都相等。对于上述数据集，一个秩如 (100, 30, 4) 的 Tucker 模型可能远比 CP 模型更自然，而且令人惊讶的是，甚至可能使用比 CP 模型更少的参数。

因此，选择是一个经典的工程权衡。CP 模型因其唯一性而提供了无与伦比的可解释性，但前提是其严格的假设与数据相符。Tucker 模型提供了灵活性以适应更复杂的结构，但代价是牺牲了这种直接的唯一性。理解 CP 分解的原理是选择正确工具以揭示我们多维世界中隐藏故事的第一步。

应用与跨学科联系

在熟悉了典范多元（CP）分解的原理之后，我们可能会倾向于将其视为一种精巧的数学奇珍，一种巧妙的多重线性代数技巧。但这样做，就好比研究了和声定律却从未听过一首交响乐。这个思想的真正美丽和力量不在于其公式，而在于其应用。它是一把钥匙，能在一个惊人多样的世界中解锁隐藏的结构，从我们大脑中神经元的复杂舞蹈到量子现实的根本性质。

现在，让我们踏上一次穿越科学与工程领域的旅程，亲眼见证 CP 分解的实际应用。我们将看到，这单一概念提供了一种统一的语言，来描述和发现复杂系统的基本构成单元。

解开生命的机器

自然是多维性的大师。一个生命有机体不是一个简单的部件列表；它是基因、蛋白质、细胞和环境因素之间相互作用的交响乐，所有这一切都在随时间演化。我们如何才能理解反映这种复杂性的数据呢？

考虑一下现代神经科学面临的挑战。研究人员使用功能性磁共振成像（fMRI）等技术来观察大脑的活动。他们可能会在一个人执行几种不同任务时，从大脑的数千个位置（体素）收集多个时间点的数据。如果我们将这些数据汇集到一组被试上，我们就会得到一个巨大的四维数据集：体素 $\times$ 时间 $\times$ 任务 $\times$ 被试。这是一个令人不知所措的数字“大海”。然而，我们真正寻找的是其中的“针”：大脑用作其构建模块的基本“神经回路”或共激活模式。

这是 CP 分解的完美舞台。通过将它应用于这个 4 阶张量，我们可以将复杂的、重叠的大脑活动分解为一组不同的分量。每个分量都是一个“签名”三元组：一个空间签名（涉及哪些大脑区域），一个时间签名（活动如何随时间演变），以及一个任务签名。例如，任务签名告诉我们每个原始任务在多大程度上依赖于那个特定的神经分量。如果一个分量在视觉任务上负载很重，而另一个在听觉任务上负载很重，我们就成功地使用 CP “分离”出了底层的神经过程。我们甚至可以通过观察一个新的复合任务如何组合简单、已知任务的签名，来预测它的神经签名，这展示了这些被发现模式的组合性质。

同样的逻辑从大脑延伸到整个分子生物学领域。在新兴的系统生物医学领域，科学家们整合“多组学”数据——同时测量患者的基因（基因组学）、RNA 转录本（转录组学）、蛋白质（蛋白质组学）和代谢物（代谢组学）。这会产生一个数据张量，其维度可能是患者 $\times$ 基因 $\times$ 数据类型。将 CP 分解应用于此张量可以揭示“多组学程序”：这些潜在签名将特定患者群体与跨越多个生物层次的特征性基因活动模式联系起来。

在许多这类生物应用中，我们可以给方法一个有用的提示。由于基因表达或 fMRI 信号强度等测量值本质上是非负量——它们代表了某物的数量——要求我们的构建模块也是非负的是合理的。通过对因子向量施加非负性约束，我们改变了游戏规则。分解不再是关于正负相关，而是关于纯粹的、基于“部分”的贡献。每个分量都为整体添加了某些东西，就像个别乐器为管弦乐队增添声音一样。这种非负性使得得到的因子更易于解释为可以被视为“开启”或“关闭”的独特生物通路或过程。

这个框架非常强大，以至于我们不局限于分解单个张量。想象一下，你从同一组患者那里获得了两个不同的数据集：一个静态的基因构成矩阵，和一个随时间测量的临床症状张量。使用一种称为耦合矩阵-张量分解（CMTF）的技术，我们可以同时分解两个数据集，同时强制它们共享相同的患者特定因子矩阵。这就像一块罗塞塔石碑，让我们能够发现同时体现在患者基因和临床轨迹中的潜在生物因子，揭示了单独分析所无法看到的联系。

驯服模型与机器中的复杂性

CP 分解的力量从发现自然数据中的模式延伸到驯服我们自己数学创造物的复杂性。在统计建模和机器学习中，一个永恒的挑战是建立足够复杂以捕捉现实，但又足够简单以能从有限数据中学习的模型。

考虑在一个回归模型中为交互作用建模的问题。我们可能想根据学生的学习时间、睡眠质量和营养水平来预测他们的考试分数。一个简单的模型假设每个因素独立贡献。一个更好的模型可能包括双向交互作用：也许学习的效果会因良好的睡眠而增强。但三向交互作用呢？学习的效果，在给定睡眠的情况下，可能本身又取决于营养。这些高阶交互作用系数 $\beta_{ijk}$ 的数量会组合爆炸，产生一个极其复杂的、不可能拟合的模型。

CP 分解提供了一个优雅的解决方案。我们不必去估计成千上万甚至数百万个 $\beta_{ijk}$ 系数，而是可以做一个简化的——并且通常非常合理的——假设：即巨大的系数张量 $\beta$ 具有低 CP 秩。我们假设复杂的交互作用网络是由少数几个潜在的“交互作用模式”所支配。通过用其低秩 CP 分解来表示 $\beta$ ，我们用一组小得多的因子向量取代了大量的自由参数。这是一种结构化正则化的形式，使我们能够构建强大的非线性模型，而不会被其复杂性所淹没。

这种分离核心分量的能力也使 CP 成为比较不同建模方法的利器。在心理计量学等领域，研究人员分析被试在多次场合对测试项目的反应数据，希望能揭示出“智力”或“责任心”等潜在特质。人们可以使用 CP 分解，其刚性结构假设每个潜在特质都对应于一个匹配的被试、项目和场合得分的三元组。或者，人们也可以使用更灵活的模型，如 Tucker 分解。比较两者揭示了 CP 的独特优势：其唯一性和结构简单性通常能产生更直接可解释为所寻找的特定潜在特质的因子，而其他模型的灵活性有时会使情况变得模糊不清。

现实与计算的深层结构

到目前为止，我们已经将 CP 分解看作是数据分析和模型构建的工具。但它的影响远不止于此，触及了物理定律的结构和计算的本质。故事在这里转向了深刻的层面。

在奇特的量子力学世界里，一个由多个量子比特（qubit）组成的系统可以表现出一种称为“纠缠”的特性——一种“鬼魅般的超距作用”，无论它们相距多远，都将其命运联系在一起。一个三量子比特系统可以用一个小的 $2 \times 2 \times 2$ 的复数张量来描述。这个状态张量的 CP 秩告诉我们什么呢？在一个抽象代数与物理现实之间惊人的对应关系中，CP 秩是纠缠的直接度量。CP 秩为 1 意味着三个量子比特是完全独立的——一个“可分离态”。如果 CP 秩大于 1，则该状态是纠缠的。像 GHZ 态（Greenberger–Horne–Zeilinger）和 W 态这样著名的纠缠态，代表了三体纠缠的不同基本类别，可以通过它们的张量秩和结构来区分。GHZ 态张量的 CP 秩是 2，而 W 态张量的 CP 秩是 3。一个张量的数学属性直接对应于我们宇宙的一个基本物理属性。

我们旅程的最后一站是纯计算领域。考虑一下所有科学计算中最基本的操作之一：矩阵乘法。我们在学校学到的方法，将两个 $2 \times 2$ 矩阵相乘，需要 8 次乘法和 4 次加法。我们能做得更好吗？这个问题可以转化为张量的语言。 $2 \times 2$ 矩阵乘法的运算本身可以由一个 $4 \times 4 \times 4$ 的张量表示。这个特定张量的 CP 秩等于执行该计算所需的标量乘法次数的绝对最小值。

几十年来，人们一直认为答案是 8。但在 1969 年，Volker Strassen 发现了一种巧妙的算法，只需要 7 次乘法。用我们的语言来说，他发现的是矩阵乘法张量的一个秩为 7 的 CP 分解。这是计算机科学领域一个里程碑式的成果，表明显而易见的方法并不总是最好的方法。寻找最快矩阵乘法算法的问题——一个具有巨大实践和理论意义的问题——等价于寻找一个张量的 CP 秩的几何问题。

从大脑到基因，从机器学习到量子世界和计算的基础，典范多元分解揭示的并非单一的工具，而是一种普适的语言。它是一面棱镜，通过它，我们可以观察一个多姿多彩的世界，并以惊人的清晰度看到其下隐藏的简单而美丽的构成单元。