张量分解

玻尔百科

核心要点

张量分解是一种数学方法，用于将复杂的多维数据分解为更简单、更易于解释的分量。
常见的分解方法如 CP (CANDECOMP/PARAFAC) 和 Tucker，将张量近似为秩一张量的和，或一个核心张量与多个因子矩阵的相互作用。
虽然矩阵的简单分解通常是唯一的，但像 CP 这样的高阶分解可能存在多个有效解，这给解释带来了挑战。
张量分解的应用范围涵盖连续介质力学、数据分析乃至量子化学，在这些领域它有助于克服维度灾难。

引言

在科学领域，对理解的追求往往是在复杂性中寻找简单性的过程。我们试图将错综复杂的现象分解为其基本组成部分，无论是将白光分解为彩虹，还是将和弦分解为其组成音符。许多复杂系统，从材料的内应力到现代生物学的庞大数据集，都最适合用张量——即数字的多维数组——这一数学语言来描述。然而，这些张量在原始形式下可能极其复杂且难以解释，就像一团混乱的数据。因此，核心挑战是如何从中提取有意义的模式和隐藏的结构。

本文探讨的张量分解，正是一套为此设计的强大数学技术。我们将看到这些方法如何像棱镜一样，揭示看似混乱的高维对象中潜在的秩序。本文分为两部分。在第一章“原理与机制”中，我们将探索其核心数学思想，从直观的矩阵分解开始，逐步构建到更复杂的用于高阶张量的 CP 和 Tucker 模型。第二章“应用与跨学科联系”将展示这些抽象原理如何应用于解决从连续介质力学到数据分析和量子化学等领域的具体问题。让我们首先探索使这种强大分析成为可能的核心原理和机制。

原理与机制

想象一下，你正将一块水晶举向光亮处。当光线穿过时，它会分裂成一道彩虹。那束看似简单的白光，原来是许多基本成分的复合体。张量分解的艺术与此非常相似。它是一套数学技术，用于将一个复杂的多维对象——张量——分解为其组成部分。这个过程不仅仅是为了整理数据，更是为了揭示其内在的隐藏结构，理解导致我们所观察到的复杂性的基本相互作用。在本章中，我们将踏上一段旅程，去理解这一强大思想背后的核心原理，从我们熟悉的概念开始，逐步迈向现代数据分析的前沿。

初次分割：将张量分解为熟悉的部分

让我们从熟悉的领域开始，即二阶张量，你可以简单地将其想象成一个矩阵——一个数字网格。即便是这样一个看似简单的对象，也可以通过极具洞察力的方式进行分解。在物理学和工程学中，最基本的分解之一便是将任意张量 $A$ 分解为一个对称部分和一个反对称部分。

对称张量是指交换其索引（或沿主对角线翻转）后保持不变的张量，即 $S_{ij} = S_{ji}$ 。它通常代表拉伸或应变等。反对称张量是指交换索引后符号变反的张量，即 $W_{ij} = -W_{ji}$ 。它通常代表纯旋转。神奇的是，任何张量 $A$ 都可以唯一地写成一个对称张量和一个反对称张量之和：

$A = \frac{1}{2}(A + A^{\mathsf{T}}) + \frac{1}{2}(A - A^{\mathsf{T}})$

第一项是对称部分 $A_s$ ，第二项是反对称部分 $A_w$ 。你可能会问：“这种分解是唯一的吗？会不会有其他人找到另一对对称/反对称张量，它们的和也等于我的张量 $A$ ？”答案是响亮的“不”。其唯一性由一个极其简单的论证保证。假设你有两种这样的分解， $A = S_1 + W_1$ 和 $A = S_2 + W_2$ 。将两者相减得到 $S_1 - S_2 = W_2 - W_1$ 。该等式的左边是对称张量之差，其本身也是对称的。右边是反对称张量之差，其本身必定是反对称的。我们不得不下结论：我们得到了一个既对称又反对称的张量。唯一具有这种奇特性质的张量是零张量——一个所有元素都为零的矩阵！因此， $S_1$ 必须等于 $S_2$ ，而 $W_1$ 必须等于 $W_2$ 。该分解是唯一的。

这种分解之所以如此强大，是因为这两个部分是正交的。在向量的语言中，正交意味着它们成直角，是独立的。对于张量，其含义类似：对称张量的世界和反对称张量的世界是完全分离的。它们互不混合。你已经干净地将张量的“拉伸”性质与其“旋转”性质分离开来。

但这并不是分解张量的唯一方法！在连续介质力学中，当我们研究材料如何变形时，另一种分解是不可或缺的。对于一个对称张量 $S$ （如应力或应变张量），我们可以将其分解为一个改变物体大小的部分和一个改变其形状的部分。

球形（或各向同性）部分描述了体积的均匀变化，就像气球充气或放气一样。它与单位张量 $I$ 成正比。
偏量部分描述了在体积不变的情况下形状的变化，就像拉伸一根橡皮筋（它变长了但同时也变细了）或剪切一副扑克牌。这部分的定义是其迹（对角线元素之和）为零。

和之前一样，将对称张量分解为其球形部分和偏量部分也是唯一的，并且这两个分量是正交的。这意味着体积变化和形状变化的物理过程可以独立研究。这证明了数学的力量，我们可以将一个复杂的物理过程清晰地切割成其最本质、最独立的概念。

高阶张量的交响乐

然而，世界并非总是能用简单的矩阵来描述。数据常常以更高阶张量的形式出现。想象一个视频片段：你有图像的高度（维度1）、图像的宽度（维度2）和时间的流逝（维度3）。或者考虑一个用户评分数据集：你可能有（用户ID，电影ID，一天中的时间），其值是评分。这是一个三阶张量。我们如何找到这样一个复杂多维对象的基本“构建模块”呢？矩阵的简单分解已不足以应对。我们需要更通用、更强大的工具。这正是现代张量分解艺术的真正开端。

CP 分解：简单音符之和

推广分解思想最直观的方式是 CANDECOMP/PARAFAC (CP) 分解。它提出任何张量都可以近似为有限数量的秩一张量之和。

什么是秩一张量？它是你能构建的最简单的张量。它由一组向量的外积形成，每个维度一个向量。对于一个三阶张量，一个秩一分量将是 $\mathbf{a} \circ \mathbf{b} \circ \mathbf{c}$ 。可以把它看作是数据中的一个单一、纯粹的“概念”。例如，在我们的用户-电影-时间数据中，一个秩一分量可能代表“科幻迷（ $\mathbf{a}$ ）在晚上（ $\mathbf{c}$ ）给动作片（ $\mathbf{b}$ ）打高分”这一模式。

CP 分解随后将整个数据张量 $\mathcal{X}$ 表示为由这些简单的“音符”组成的“和弦”或“交响乐”： $\mathcal{X} \approx \sum_{r=1}^{R} \mathbf{a}_r \circ \mathbf{b}_r \circ \mathbf{c}_r$ 在这里， $R$ 是分解的秩，代表我们使用的基本分量的数量。这是一种强大的数据压缩形式。我们不需要存储整个庞大的张量 $\mathcal{X}$ ，只需存储构成其分量的因子向量。CP 模型的美妙之处在于其简单性：它假设我们数据中的复杂相互作用可以由一系列独立的、基本的模式直接相加来解释。

Tucker 分解：由核心指挥家引导的更丰富和谐

当然，世界往往更为复杂。我们数据中的基本模式可能并非完全独立；它们可能以微妙的方式相互作用。CP 模型的结构本身无法捕捉这些更丰富的相互作用。为此，我们转向一个更通用、更强大的模型：Tucker 分解。

如果说 CP 模型就像一个只说“加一份面粉，一份糖，一份鸡蛋”的食谱，那么 Tucker 模型则要复杂得多。它将张量 $\mathcal{X}$ 分解为一组因子矩阵（ $A, B, C, \dots$ ）和一个小的核心张量 $\mathcal{G}$ 。 $\mathcal{X} \approx \mathcal{G} \times_1 A \times_2 B \times_3 C$ 你可以将因子矩阵看作是定义了每个维度上的主要“成分”或“概念”，就像在 CP 分解中一样。关键的区别在于核心张量 $\mathcal{G}$ 。它像一个“指挥家”或“食谱书”，规定了这些成分如何混合。其元素 $g_{pqs}$ 指定了第一模式的第 $p$ 个分量、第二模式的第 $q$ 个分量和第三模式的第 $s$ 个分量之间的相互作用水平。

这给我们带来了一个深刻的洞见：简单的 CP 模型只是更通用的 Tucker 模型的一个特例！。一个 CP 分解等同于一个 Tucker 分解，其中核心张量 $\mathcal{G}$ 是一个单位张量——一个在其主对角线上为一、其他地方为零的超立方体。这意味着“指挥家”给出的指令非常简单：只允许每个因子矩阵的第一个分量相互作用，第二个与第二个相互作用，依此类推，没有交叉对话。而 Tucker 模型通过允许核心张量是稠密的，从而实现了所有分量之间丰富、全面的相互作用。

然而，这种额外的表达能力是有代价的。一个稠密的核心张量比 CP 模型的简单向量“骨架”包含更多的参数，因此 Tucker 模型的存储和计算成本可能更高。

那么我们如何找到这种优雅的分解呢？一个标准的算法是高阶奇异值分解 (HOSVD)。就像矩阵的 SVD 能在一个二维数据集中找到最重要的正交“方向”一样，HOSVD 为张量的每个模式找到一组正交的因子矩阵。这提供了一种特别“干净”的分解。由此产生的核心张量具有一种称为全正交性的特殊性质，这意味着其自身的矩阵化“展开”具有正交的列。直观地说，HOSVD 为你提供了一个在其最“无纠缠”或最自然的基中观察核心相互作用的视角。

警示之言：唯一性的陷阱

我们开始时称赞了对称/反对称分解的美妙、明确的唯一性。我们可能不禁认为所有这些优雅的数学构造都共享这一特性。然而，自然在这里给我们设置了一个障碍。

考虑 CP 分解。如果我们找到了构成我们张量的 $R$ 个分量，我们能确定这是完成这项任务的唯一一组 $R$ 个分量吗？令人惊讶的答案是……并非总是如此。

构造一个秩为 2 的张量，但它却有无限多种不同的秩-2 CP 分解是可能的。当因子向量不够“充分独立”时，就会发生这种情况。例如，如果一个秩-2 张量是由两个在其某个模式中共享完全相同向量的分量构建的，就会出现一种简并。这使得其他因子向量可以以无数种方式“混合搭配”，所有这些方式都会产生完全相同的张量。问题不在于我们的数学，而是张量结构本身固有的；数学家会说这个问题是不适定的。

这不仅仅是一个理论上的好奇。它具有深远的实际后果。当我们分解真实世界的数据时，我们找到的分量可能不是唯一的、“真实”的潜在因子，而仅仅是一系列可能解中的一个。研究人员已经发展出一些条件，比如著名的 Kruskal 条件，如果因子矩阵足够复杂和多样，就可以保证唯一性。

这最后的转折提醒我们，科学是一段旅程，而非终点。张量为描述我们的世界提供了一种强大的语言，而它们的分解则为我们提供了一面棱镜来揭示其内部运作。然而，它们揭示的图景有时可能是模糊的，一个微妙的谜题，挑战我们去更深入地观察。正是在应对这些挑战，在理解我们工具的局限性以及其力量的过程中，才蕴含着发现的真正冒险。

应用与跨学科联系

世界是一个复杂的地方。但物理学家或任何科学家的工作，就是试图找到其潜在的简单性。我们观察一个复杂的现象，然后问：我们能把它分解吗？我们能找到构成整体的基本片段、基础构建模块吗？正是这种分解过程，构成了理解的核心。我们将光分解成光谱，将和弦分解成其组成音符，将物质分解成其基本粒子。

正如我们所见，张量是描述复杂、多向关系的数学语言。一个张量可能包含了关于旋转的喷气发动机涡轮内部应力的所有信息，来自基因组研究的海量数据，或一个分子的量子态。在它们的原始形式中，这些张量往往只是庞大的数字数组。它们在数学上等同于一滩浑浊的棕色油漆——所有的颜色都在里面，但我们看不见它们。张量分解的艺术就是分离这些油漆的艺术，是找到隐藏在其中的纯净原色的艺术。

应力与结构的有形世界

让我们从一些你能亲手接触，或者至少能想象到的东西开始：一块固体材料。当你推它、扭它或加热它时，它会产生内力。在这块材料内部的任何一点，这些力都由柯西应力张量来描述——一个由九个数字组成的集合，精确地告诉你材料在每个方向上是如何被拉伸和剪切的。九个数字虽然比没有好，但它们并不能让你对正在发生的事情有一个直观的感受。

这时，第一个美妙的分解就登场了。我们可以将应力张量分为两部分。一部分很简单：它代表均匀的压力，就像你潜入游泳池深处感受到的压力一样。它在所有方向上均匀地推或拉，试图改变材料的体积而不是形状。这被称为“球形”部分。剩下的，即“偏量”部分，是其他的一切。它是纯粹的剪切，是试图改变材料形状的扭曲和变形力。这不仅仅是数学上的便利。材料对这两种应力有不同的反应。体积的变化和形状的变化是根本不同的过程。例如，屈服和失效通常是由偏量部分——即剪切——驱动的。通过分解张量，我们已经将物理过程分成了更易于理解的部分。

但我们还可以做得更好。对于像应力这样的对称张量，还有另一个更深刻的分解。想象你可以旋转你的视角，你的坐标系，直到应力的描述变得尽可能简单。事实证明，对于任何应力状态，总存在三个特殊的、相互垂直的方向——“主轴”。如果你将坐标轴与这些方向对齐，应力张量的剪切分量就会消失！剩下的只是三个数字，代表沿这些轴的纯拉伸或压缩。这就是“谱分解”。它告诉你材料中应力的自然方向。这种分解是如此基础，以至于它使我们能够智能地定义其他复杂的操作。例如，在材料变形理论中，我们可能需要计算一个测量变形的张量的“对数”。这听起来很奇怪，但通过谱分解，它仅仅意味着取三个主拉伸值的对数——一个突然变得微不足道的任务。

在噪声中寻找信号：数据洪流

让我们把目光从物质的物理世界转向数据的抽象世界。现代科学正被数据淹没。想象你是一位研究新药效果的系统生物学家。你测量了数千个基因的表达水平，涉及数百名患者，在十几个不同的时间点。你的数据不是一个列表或一个表格；它是一个巨大的数字立方体——一个三阶张量。你究竟如何在这个天文数字般的混乱中找到有意义的模式？

这时，规范多项 (CP) 分解登场了，它在数据分析领域也被称为 PARAFAC。这个想法非常直观。我们做一个大胆的假设：如果这个极其复杂的数据立方体实际上只是一些非常简单的构建模块的总和呢？每个构建模块都是一个“秩一”张量，它本身由三个简单的向量构成：一个描述患者，一个描述基因，一个描述时间点。

当我们进行分解时，奇迹发生了。算法——在没有任何生物学先验知识的情况下——找到了这些组成向量。一个分量可能有一个患者向量，对于对药物反应良好的患者其值较大，而对于那些没有反应的患者其值较小。其对应的基因向量可能突显了参与某个代谢途径的特定基因群。其时间向量可能在药物施用后几小时达到峰值。瞧！分解自动揭示了一个生物学故事：“这组特定的基因在对药物有反应的患者中，在施药几小时后被激活。” 它将浑浊的数据分离成了纯净、可解释的组分。这个想法在各处都适用。例如，在统计学中，我们使用协方差矩阵——一个二阶张量——来理解数据云的形状。但要理解它们的不对称性或“偏斜性”，我们需要三阶偏度张量。分解这个张量可以揭示数据分布中不对称性的基本方向。

节俭预算下的量子宇宙

现在面临最大的挑战：多粒子量子世界。这是“维度灾难”肆虐的地方。仅仅为了描述一个分子中几十个相互作用的电子的量子态，你需要存储的系数数量——波函数张量的大小——就超过了整个宇宙中的原子数量。这在计算上是不可能的。那么，量子化学是无望的吗？

如果不是因为自然界一个神奇的事实，那它确实是无望的：物理上相关的态——比如一个分子的基态——并非这个大得离谱的希尔伯特空间中的任意随机向量。它们是特殊的。它们具有隐藏的结构，物理学家称之为“低纠缠”。而这正是张量分解可以利用的结构。

张量链 (TT) 分解，在物理学中被称为矩阵乘积态 (MPS)，是解决这个问题的英雄工具。它将巨大、无法处理的波函数张量重写为一串更小的、相互连接的张量链。分解的“秩”控制着这些小张量的大小，它实质上量化了该态在链中相邻粒子间可以携带的纠缠量。因为物理基态的纠缠通常是局域的，这个秩可以保持得非常小。存储需求从指数级的灾难 $\mathcal{O}(n^{d})$ 骤降到与粒子数量成线性关系的可控水平 $\mathcal{O}(d n r^{2})$ 。我们通过发现和利用物理态的隐藏结构，驯服了维度灾难。

当然，仅仅写下状态是不够的。我们必须模拟它的演化，这意味着我们必须能够用哈密顿算符——系统的总能量算符——作用于它。哈密顿算符，特别是其描述电子间排斥的项，本身就是一个庞大无比的张量。在这里，我们再次使用了同样的技巧！我们使用诸如密度拟合或势拟合 (POTFIT) 等技术，将哈密顿量分解成简单的“乘积之和”形式。我们不再处理一个极其复杂的算符，而是许多简单算符的和。这使我们能够高效地计算它对我们压缩后的波函数的影响。

也许最美妙的是，这种新的张量网络语言是如此强大，以至于它可以为几十年前从纯物理直觉发展出来的方法提供一个全新的、统一的视角。例如，可以证明，量子化学中用于使计算可行的 RASSCF 方法中使用的某些约束，完全等同于沿着某个物理上有意义的模式对波函数张量的“秩”设置一个硬性限制。这是一个深刻思想的标志：它不仅解决了新问题，还阐明了旧问题。

共同的线索

分解事物以理解它们的想法，实际上是物理学中最古老的线索之一。早在我们拥有计算机来分解数据立方体之前，物理学家就已经根据空间和时间的对称性来分解物理量了。量子力学中的一个算符可以分解为“不可约张量分量”——标量、矢量、二阶张量等。这告诉我们该算符在旋转下的行为，并提供了强大的选择定则，决定了哪些物理过程是允许的，哪些是被禁止的。在强核力理论中，寻找夸克的允许组合以形成如质子或奇异的五夸克等粒子，是一个分解其基本[表示的张量积](@article_id:301137)以找到“色单态”分量的问题。

从钢梁中的应力到基本粒子的对称性，从基因组数据的洪流到量子希尔伯特空间的浩瀚无垠，张量分解作为一个统一的概念浮现出来。它是一套强大的工具，但更重要的是，它是一种哲学。它相信在复杂性中，可以找到简单性。而找到它，将整体分解为其基本部分的行为，正是理解的本质。