张量列分解

玻尔百科

定义

张量列分解是一种通过将高维张量表示为一系列相互连接的低维核心矩阵来克服维度灾难的数学方法。该分解利用张量展开矩阵的秩（即TT-秩）来量化连续维度组之间的信息瓶颈，并可通过数值稳定的TT-SVD算法实现。张量列分解在物理学、量子力学（如矩阵乘积态）以及偏微分方程求解等领域具有重要的应用价值。

核心要点

张量列（TT）分解通过将一个巨大的高维张量表示为由小的、相互连接的核心组成的线性序列，来应对“维度灾难”。
连接核心的TT秩具有精确的数学意义：它们是张量展开矩阵的秩，量化了连续维度组之间的“信息瓶颈”。
TT-SVD算法提供了一种鲁棒且数值稳定的方法，可将一个完整张量压缩成TT格式，并允许对近似误差进行显式控制。
TT格式对于由局域相互作用支配的系统特别有效，在物理学（求解偏微分方程）、量子力学（作为矩阵乘积态）和数据同化等领域有其天然的应用。

引言

在从物理学到数据科学的许多领域中，我们都会遇到涉及被称为张量的庞大多维数据数组的问题。随着维度数量的增加，这些张量的大小会爆炸式增长，这个问题就是著名的“维度灾难”，使得它们无法被存储或处理。本文介绍一种强大的解决方案：张量列（TT）分解。它通过利用大多数现实世界数据中固有的隐藏低秩结构，解决了驯服这些高维对象的根本挑战。我们将探讨这种优雅的方法如何将一个难以处理的张量重塑为一系列易于管理的较小“核心”，类似于一列火车的车厢。本指南将引导您了解TT格式的核心概念、驱动其计算的算法，及其在一系列学科中的变革性影响。我们首先深入探讨使张量列成为现代计算科学革命性工具的基本原理和机制。

原理与机制

想象一下描述天气。你可以记录你家的温度，这是一个数字。你可以一天中每小时记录一次；这是一列24个数字，即一个向量。现在，想象你在整个州覆盖了一个传感器网格，并记录了网格上每个点的温度。那是一张数字表，也就是我们所说的矩阵。但如果你想捕捉完整的画面：在那个网格的每个点、一天中的每个小时、持续一整年，记录温度、压力、湿度和风速呢？

你不再处理简单的列表或表格了。你拥有一个巨大的、多维的数据数组——一个张量。这个张量中的条目数量可能是天文数字。例如，考虑一个物理学或数据科学中相对温和的问题，涉及12个不同的变量（或维度），每个变量可以取40个不同的值。你需要存储的数据点总数是 $40^{12}$ ，这个数字比我们银河系中估计的恒星数量还要多数万亿倍。这种爆炸性增长就是臭名昭著的维度灾难。存储这样一个张量是不可能的，更不用说对其进行任何有意义的计算了。

我们如何希望能驯服这样一个怪物？秘密在于找到一个隐藏的结构。来自现实世界的大多数高维数据不仅仅是数字的随机集合，而是存在模式、相关性和冗余。张量列（TT）分解是一种非常直观且强大的方法，可以利用这种结构。

张量列的剖析

“张量列”这个名字不仅仅是一个吸引人的短语；它是一个非常形象的比喻。把整个庞大无比的张量想象成一个长得不可思议且复杂的句子。你不会通过同时记住每个字母来阅读一个句子，而是逐词阅读，并从一个词到下一个词携带少量上下文——一种“心智状态”。

张量列分解正是这样做的。它将一个 $d$ 阶张量 $\mathcal{T}$ 分解成一个由 $d$ 个更小、更易于管理的片段组成的序列，这些片段被称为TT核心。这些是我们“列车”的“车厢”。要重构原始张量的任何一个元素 $\mathcal{T}(i_1, i_2, \dots, i_d)$ ，你只需从每个核心中选择一个特定的切片（基于索引 $i_1, i_2, \dots$ ），然后将它们连乘起来。

让我们更精确地说明这一点。每个核心，我们称之为 $\mathcal{G}_k$ ，是一个小的三维数字块。对于每个物理索引 $i_k$ （从1到 $n_k$ ，第 $k$ 个维度的大小），核心提供一个小的矩阵 $\mathbf{G}_k(i_k)$ 。在车厢之间传递的“上下文”被编码在这些矩阵的维度中。矩阵 $\mathbf{G}_k(i_k)$ 的大小为 $r_{k-1} \times r_k$ 。这些数字 $r_0, r_1, \dots, r_d$ 被称为TT秩。它们是衡量需要从一节车厢传递到下一节车厢的“信息”或“上下文”多少的度量。

为了从整个构造中得到一个单一的数字，我们将“边界秩”设为1： $r_0 = 1$ 和 $r_d = 1$ 。这意味着第一节车厢 $\mathcal{G}_1$ 提供 $1 \times r_1$ 的矩阵（行向量），最后一节车厢 $\mathcal{G}_d$ 提供 $r_{d-1} \times 1$ 的矩阵（列向量）。原始张量的元素就只是一个简单的矩阵乘积：

\mathcal{T}(i_1, i_2, \dots, i_d) = \mathbf{G}_1(i_1) \mathbf{G}_2(i_2) \cdots \mathbf{G}_d(i_d)

维度完美地对齐：一个 $(1 \times r_1)$ 矩阵乘以一个 $(r_1 \times r_2)$ 矩阵，后者再乘以一个 $(r_2 \times r_3)$ 矩阵，依此类推，直到最后的 $(r_{d-1} \times 1)$ 矩阵乘积产生一个简单的 $1 \times 1$ 标量——我们正在寻找的值！

让我们看看实际操作。假设我们有一个小的 $2 \times 3 \times 2$ 张量，其TT秩为 $(r_1, r_2) = (2, 2)$ ，我们想找到元素 $\mathcal{T}(2,3,1)$ 。我们已经有了核心，所以我们只需要选择正确的“切片”并相乘：

从第一个核心中，我们选择第2个切片，一个行向量： $\mathbf{G}_1(2) = \begin{pmatrix} 3 & 1 \end{pmatrix}$ 。
从第二个核心中，我们选择第3个切片，一个矩阵： $\mathbf{G}_2(3) = \begin{pmatrix} 0 & 2 \\ 1 & -1 \end{pmatrix}$ 。
从第三个核心中，我们选择第1个切片，一个列向量： $\mathbf{G}_3(1) = \begin{pmatrix} 1 \\ 2 \end{pmatrix}$ 。

现在，我们只需按顺序将它们相乘：

\mathcal{T}(2,3,1) = \begin{pmatrix} 3 & 1 \end{pmatrix} \begin{pmatrix} 0 & 2 \\ 1 & -1 \end{pmatrix} \begin{pmatrix} 1 \\ 2 \end{pmatrix} = \begin{pmatrix} 1 & 5 \end{pmatrix} \begin{pmatrix} 1 \\ 2 \end{pmatrix} = 11

我们无需存储完整张量的全部 $2 \times 3 \times 2 = 12$ 个数字，而是存储核心。在这个小例子中，节省的存储空间可能不明显，但当维度 $n_k$ 和阶数 $d$ 很大时，TT核心的存储量（大约与 $d \cdot n \cdot r^2$ 成比例）远小于完整张量的 $n^d$ 成本。这就是我们驯服维度灾难的方式。

我们真正在测量什么？展开与秩的意义

这个列车结构很优雅，但它引出了一个更深层的问题。它为什么会起作用？它捕捉了张量的什么属性？这只是一个聪明的技巧，还是对应着某种根本性的东西？

答案是深刻的，并揭示了该方法的真正美妙之处。想象一下我们那个巨大的、 $d$ 维的数据块。让我们玩一个切片游戏。我们可以在维度链的任何位置进行概念性切割。例如，我们可以将前 $k$ 个维度分组在一起，将其余的 $d-k$ 个维度分组在一起。现在，我们“展开”这个结构，将张量重塑成一个巨大的、扁平的矩阵。这个矩阵的行由前 $k$ 个索引 $(i_1, \dots, i_k)$ 的所有可能组合来索引，列由其余索引 $(i_{k+1}, \dots, i_d)$ 的所有组合来索引。这被称为张量的展开或矩阵化。

矩阵的秩衡量其“复杂性”——它有多少线性独立的行或列。一个低秩矩阵是高度结构化和可压缩的。令人惊讶的事实是：在核心 $k$ 和核心 $k+1$ 之间的连接点上，可能的最小TT秩 $r_k$ 恰好是张量第 $k$ 个展开矩阵的数学秩。

这就是秘密！张量列不是一种任意的格式。它是张量在将其维度分割成两个连续组的所有可能方式中，固有的低秩结构的直接体现。TT秩不仅仅是参数；它们是衡量张量不同部分之间“信息瓶颈”或“纠缠”的度量。如果一个张量具有小的TT秩，这意味着在其维度链的任何一点上，“左”部分与“右”部分的耦合都很弱。大多数现实世界系统，特别是那些由局域相互作用支配的系统（如量子自旋链或离散化的物理场），都精确地表现出这种特性。

轨道上的生活：张量列世界中的算法

一旦我们将一个张量表示为列车，一个全新的高效计算世界就开启了。目标是直接在压缩的TT格式中执行我们所有的计算——加法、乘法、计算范数——而无需重构那个庞大的完整张量。

构建列车：通过TT-SVD进行压缩

我们首先如何将一个张量转换成TT格式？最常用的方法是一个优雅的、逐步进行的过程，称为张量列-奇异值分解（TT-SVD）算法。它的工作方式很像我们的展开思想：

取完整张量并将其展开成一个矩阵，将第一个维度与所有其他维度分开。
使用奇异值分解（SVD）——线性代数中寻找低秩近似的主要工具——来分割这个矩阵。SVD给了我们一个正交部分和一个余项。
正交部分被重塑成第一个核心 $\mathcal{G}_1$ 。我们可以通过截断SVD，只保留最重要的奇异值，来选择压缩的程度。
余项包含了张量其余部分的所有信息。我们将其重塑并传递给下一步。
我们重复这个过程：展开余项，使用SVD分离出下一个核心 $\mathcal{G}_2$ ，然后将新的、更小的余项传递下去，直到我们构建了整个列车。

这个过程让我们能够找到一个张量的高度精确的TT近似，并且可以精确地控制误差。近似的总误差与我们在每个截断步骤中引入的误差的平方和有着美妙的关系。

轨道上的算术

生活在TT世界意味着我们可以高效地进行数学运算。

加法：假设我们想将两个张量 $\mathcal{T}_X$ 和 $\mathcal{T}_Y$ 相加，它们都表示为列车。我们可以通过巧妙地组合它们的核心，为它们的和 $\mathcal{T}_Z = \mathcal{T}_X+\mathcal{T}_Y$ 构建一个新的列车。对于每个车厢，我们基本上将 $X$ 和 $Y$ 的核心放置在一个块对角结构中。这会使它们的秩相加： $r_k^{(Z)} \le r_k^{(X)} + r_k^{(Y)}$ 。新的列车“更胖”，但它是精确的。然后我们可以使用一个“舍入”过程（其实就是再次使用TT-SVD）来将其压缩回可管理的大小，同时控制近似误差。
计算范数：需要找到你的张量的大小（弗罗贝尼乌斯范数）？重构完整张量并对其所有元素的平方求和将是一场计算灾难。在TT格式中，这非常高效。我们可以从右到左进行一次“扫描”，将每个核心与一个累积矩阵进行收缩。这次扫描的最终结果（其成本仅为完整计算的一小部分）是张量的精确平方范数。

这些只是直接在TT格式上操作的丰富算法库中的两个例子，使其成为高维计算的完整和自洽的生态系统。

列车长的视角：何时及为何使用这趟列车

张量列并非唯一的低秩张量格式，但在许多情况下，尤其是在维度数量 $d$ 非常大时，它具有关键优势。

与Tucker分解的比较：著名的Tucker分解使用一个中心的“核心张量”和一组每个维度的因子矩阵来表示一个张量。虽然功能强大，但其核心张量的大小随其秩的乘积 $r_1 \times \dots \times r_d$ 而扩展。这随维度数 $d$ 呈指数级增长。因此，Tucker格式在其核心中隐藏着自己的维度灾难。TT格式巧妙地回避了这个问题。它的存储成本仅与 $d$ 呈线性关系，这使得它对于具有许多维度的问题（例如离散化的偏微分方程或量子多体系统）要优越得多。
与CP分解的比较：典范多项式（CP）分解将一个张量表示为秩一张量的和。它是最紧凑的表示形式，但找到它是一个困难的优化问题，并且所需的秩有时可能非常大。对于具有自然一维结构的系统，比如相互作用的量子粒子链，TT格式（在这种情况下称为矩阵乘积态）通常是一种更自然、更有效的表示方法。

最后，一个明智的列车长知道列车中车厢的顺序至关重要。如果你以一个糟糕的顺序排列张量的维度（模态），你可能会在两个非常强相关的变量之间强行进行切割。这将使得相应展开的秩变得巨大，从而违背了分解的目的。最优策略是按一定顺序排列模态，使得强相互作用的变量在列车中是相邻的。这最小化了需要在每个连接点传递的“信息”，保持了TT秩的低水平和表示的高效性。这个过程将重新排序数学索引的抽象任务转变为理解数据物理或统计结构的具体问题。

张量列分解不仅仅是一种压缩技术。它是一种思考高维数据的新方式，用一个灵活、结构化的序列取代了一个难以处理的、单一的对象。它揭示了复杂系统中隐藏的、类似一维的相关性，提供了一种强大的语言和一个高效的计算工具包，来探索以前我们无法触及的世界。

应用与跨学科联系

在窥探了张量列（TT）分解的优雅机制之后，我们现在踏上旅程，去看看它的实际应用。如果说前一章是关于这种数学生物的解剖学，那么这一章就是一次穿越其繁衍生息的各种生态系统的巡游。我们将发现，TT格式不仅仅是一种巧妙的数据压缩技巧；它是一种似乎自然界本身就在使用的语言。从物理学的基本定律到量子世界的复杂性，从驯服我们气候的不确定性到管理全球商业的流动，低秩序列相互作用的原理作为一个深刻而统一的主题浮现出来。准备好看看这一个思想如何为众多挑战性问题带来惊人的清晰度。

自然的语言：求解物理学方程

许多支配我们宇宙的基本定律都以偏微分方程（PDEs）的形式表达。想想描述你咖啡如何冷却的热方程，或支配吉他弦振动的波动方程。当我们要用计算机求解这些方程时，尤其是在三维或更多维度的情况下，我们面临着令人生畏的维度灾难。我们需要的网格点数量呈指数级增长，而代表物理算子的矩阵变得庞大无比。

但在这里，张量列提供了一个非凡的见解。考虑一下物理学中最重要的算子之一：拉普拉斯算子 $\Delta$ ，它出现在电磁学、引力、流体动力学和量子力学的方程中。当我们在高维网格上离散化这个算子时，得到的巨大矩阵可以写成一系列简单的、局域算子的和。令人惊讶的是，这种结构意味着离散的拉普拉斯算子不仅仅可以被张量列近似；它可以被精确地表示为一个矩阵乘积算子（TT的算子版本），其最大秩仅为2。

想想这意味着什么。一个作用于拥有（比如说） $100^{100}$ 个点的空间上的算子——这个数字远大于宇宙中的原子数量——其隐藏结构却如此简单，以至于可以用一个由秩为2的运算组成的微小序列来完美描述。其直觉是美妙的：秩为2的结构就像一个简单的状态机。在每个维度上，它会问：“我已经应用了导数，还是只是让信号通过？”这种局域作用串联起来，构建了全局算子。问题的边界条件，无论是固定的（狄利克雷）还是循环的（周期性），只改变了算子核心的局部细节，但保留了这种基本的秩为2的结构。

算子的这种低秩结构只是故事的一半。那么解本身呢？让我们想象求解泊松方程 $-\Delta u = f$ ，这个方程描述了从电势到引力场的各种现象。假设源项 $f$ （电荷或质量的分布）本身是由一些简单的、可分的模式构成的。例如，如果 $f$ 是 $r$ 个函数的和，每个函数都是一维剖面的乘积，那么解 $u$ 也将是 $r$ 个此类乘积形式函数的和。这意味着解张量继承了输入数据的低秩结构，其TT秩与源的复杂度直接相关，在本例中为 $r$ 。结构输入，结构输出。

低秩算子和低秩解之间的这种协同作用是解锁高维模拟的关键。像交替方向隐式（ADI）算法这样的迭代方法非常适合这个世界。这些求解器通过将庞大的高维问题分解为一系列简单的一维更新来工作。当解处于TT格式时，这对应于一次更新一个TT核心。ADI方法“说”的是张量列的语言，在整个计算过程中保持低秩结构，避免了否则会让我们最大的计算机也无能为力的指数级成本 ([@problem-id:3453159])。

解码量子世界

从经典世界到量子世界的飞跃是进入一个维度高得惊人的领域的飞跃。仅仅几十个相互作用的粒子（如分子中的电子）的系统状态，是由一个波函数描述的——一个其大小让任何经典问题都相形见绌的张量。这种复杂性的核心原因是一种独特的量子现象：纠缠。纠缠是粒子间那种微妙、诡异的相关性，Einstein曾著名地称之为“鬼魅般的超距作用”。

一个没有纠缠的状态是简单的；它是一个“乘积态”，这恰好对应于一个秩为1的张量。但一个纠缠态不是简单的乘积。它是一个复杂的叠加态，描述它似乎需要指数级数量的参数。这就是张量列（在物理学中称为矩阵乘积态，MPS）大显身手的地方。事实证明，TT格式是描述许多物理系统中纠缠结构的自然数学语言。连接核心的那些小数字——TT秩，是系统一部分与其余部分之间纠缠的直接度量。秩为1意味着没有纠缠；大于1的秩意味着系统是纠缠的。

这种联系不仅是哲学上的，也是非常实用的。将波函数表示为TT/MPS极大地减少了我们需要存储的信息量。我们不再需要 $n^d$ 个数字，而只需要数量与粒子数成线性关系的参数，大约为 $\mathcal{O}(d n r^2)$ ，其中 $r$ 是最大秩。此外，支配系统能量和演化的哈密顿算子，也常常具有低秩的MPO结构。将这个算子应用于我们的波函数来模拟其动力学，仅仅涉及到TT核心的明确定义的算术运算。结果态的秩可预测地受算子秩和状态秩的乘积所限制，从而实现了可控和高效的计算。这个由Dirac-Frenkel变分原理驱动的框架，允许我们通过将薛定谔方程投影到低秩TT流形上，在时间的每一瞬间找到最佳的低秩近似，从而模拟量子动力学。

驯服不确定性：从天气预报到工程设计

我们的世界并非完全确定性的。从材料属性的随机波动到天气的混沌演变，我们必须不断地与不确定性作斗争。在这里，张量列再次提供了一个强大的概念和计算工具。

考虑数据同化的挑战，这是现代天气预报核心的过程。我们有一个大气的计算模型，但其初始状态是不确定的。我们使用一个可能状态的“集合”——比如50种不同的天气情景——来表示这种不确定性。从这个小集合中，我们必须估算一个拥有数十亿变量的系统中的统计相关性。问题在于，样本太少，我们不可避免地会得到“伪相关”——看起来像真实物理联系的随机噪声。例如，数据可能表明巴黎的压力与东京的温度之间存在联系，但这纯属巧合。

张量列通过一种结构化正则化的过程提供了一个绝妙的解决方案。通过将状态集合强制转换为低秩TT格式，我们实际上做出了一个有物理动机的假设：系统中真实的、大规模的相关性具有简单的链式结构。我们将我们的噪声数据投影到这个低秩流形上，有效地滤除了复杂的随机噪声，同时保留了主要的、具有物理意义的结构。这种方法显著提高了协方差估计的质量，从而带来更好的预报。TT秩控制了我们允许相关性存在的子空间的维度，就像一个调节旋钮，可以调掉噪声。

这个思想延伸到更广泛的不确定性量化（UQ）领域。想象一下设计一座桥梁或大坝。土壤和岩石的性质不是完全已知的；它们是随机场。为了评估结构的安全性，我们需要了解地基的不确定性如何传播到地基的沉降。我们可以使用一组独立的随机变量来表示随机场，但这通常需要一个高维参数空间。将沉降近似为这些众多变量的函数是一个重大挑战。

在这里，TT与多项式混沌展开（PCE）等其他先进技术竞争并互补。虽然当响应由少数关键变量及其简单相互作用主导时，PCE是有效的，但TT在另一种情况下表现出色：当函数在变量组之间表现出一种乘性可分性时。方法的选择取决于物理问题的底层结构。TT作为一个可行的替代方案的存在本身，就凸显了它作为探索和压缩高维函数的基本工具的作用，这是现代UQ的基石。

惊人的转折：为复杂系统建模

也许关于张量列概念普适性的最有力证据，来自于它在远离物理科学的领域的应用。让我们考虑一个多阶段的全球供应链，一个由工厂、仓库和运输路线组成的网络，将产品从原材料带到消费者手中。我们可以收集链条每个阶段在不同时间点的各种产品属性数据，形成一个巨大的高维张量，其中每个维度代表一个阶段。

这个数据张量的TT秩意味着什么？它们成为阶段间相关性的直接、量化度量。“供应商”阶段和“制造”阶段之间的高秩意味着它们的操作复杂地交织在一起。供应商处的中断将对制造商产生错综复杂且深远的影响。相反，低秩则意味着一个简单的、有缓冲的关系。

这将抽象的数学秩概念转变为一种强大的系统性风险诊断工具。我们可以分析历史数据张量，并精确定位供应链中的高秩“瓶颈”——即最脆弱的点。更重要的是，我们可以模拟干预措施。在链条的某个点引入大量库存缓冲或解耦控制策略，旨在吸收冲击并减少长程相关性。用张量列的语言来说，这种干预应表现为系统数据TT秩的可测量的降低。这使我们能够使用纯粹的数学构造来设计和测试策略，以使我们这个复杂的、相互连接的世界更具韧性。

从物理定律的基本对称性到我们全球经济的涌现行为，张量列分解揭示了一个反复出现的主题：复杂系统通常由一系列更简单的相互作用链构建而成。通过提供一种描述这种结构的语言，TT不仅为我们提供了一种计算方法，更提供了一个理解世界的透镜。