张量核范数：理论与应用综合指南

玻尔百科

定义

张量核范数：理论与应用综合指南是指一系列用于张量秩最小化的凸代用指标，旨在发现高维数据中的简单结构。该领域根据不同的结构假设定义了多种范数，例如适用于具有线性时不变动力学特征（如视频）的张量管核范数。这些范数在计算可行性上存在差异，其中基于 Tucker 分解的重叠核范数易于计算，而阶数不低于三阶的 CP 原子范数则是 NP 难问题。

核心要点

张量核范数是张量秩最小化这一计算困难问题的凸代理，它使得在高维数据中寻找简单结构成为可能。
与矩阵不同，张量有多种秩的定义（例如CP秩和Tucker秩），这导致了具有不同结构假设和性质的多种核范数。
一个关键的实践区别是，基于Tucker秩的重叠核范数在计算上是可行的，而对于三阶或更高阶的张量，CP原子范数的计算是NP难问题。
不同的范数适用于不同的数据类型；例如，管状核范数（TNN）非常适用于具有线性时不变动力学特性的数据，如视频。
这些范数是多种应用的基础，范围从视频背景减除和MRI恢复，到压缩深度神经网络和表示复杂的量子系统。

引言

在我们这个日益由数据驱动的世界里，我们不断面对海量且多维度的信息。从视频、医学扫描到神经网络的参数，数据通常以张量——一种多维数组——的形式存在。然而，在这压倒性的复杂性背后，往往隐藏着一个简单的底层结构。解锁洞见、清理噪声、填补缺失部分的关键，就在于找到这种低秩结构。但是，直接寻找“最简单”或最低秩的张量是一个出了名的困难、计算上难以解决的问题。

本文通过探索张量核范数这一强大而优雅的概念来应对这一根本性挑战。张量核范数是难以捉摸的张量秩概念的一个实用、可计算的替代品。通过探索这些凸代理的领域，我们可以将棘手的问题转化为能够有效解决的问题。

本指南将首先在“原理与机制”一章中带您了解核心思想，从我们熟悉的矩阵核范数领域出发，将概念扩展到更丰富、更复杂的张量世界。我们将揭示为何存在不同类型的张量秩，以及它们相应的核范数有何不同，最终对它们的计算权衡有一个至关重要的理解。随后，“应用与跨学科联系”一章将展示这些理论工具如何应用于解决现实世界的问题，揭示它们在从信号处理和深度学习到量子力学前沿等各个领域的影响。

原理与机制

要真正领会张量核范数的全貌，我们的旅程必须从熟悉的领域开始：二维矩阵的世界。正是在这里，核心思想首次成形，这些思想如此强大而优雅，以至于它们的回响将引导我们对更高维度的探索。

来自二维的指路明灯：矩阵核范数

想象一个矩阵，一个简单的数字网格。我们可以将其秩视为其“真实”复杂性的度量。一个秩为1的矩阵很简单；它的所有行都是彼此的倍数，包含冗余信息。一个高秩矩阵则很复杂，其行在空间中指向许多独立的方向。在许多科学问题中，从图像压缩到推荐系统，我们都基于一个强有力的假设：我们关心的数据，尽管存在于高维空间中，但其内里是简单的。它可以由一个低秩矩阵表示。

这引出了一项艰巨的任务：找到与我们的观测数据一致的最低秩矩阵。然而，这个秩最小化问题是出了名的困难。秩函数是离散且非凸的；最小化它是一场计算噩梦，在形式上被归类为 $\mathsf{NP}$ -难问题。这就像试图在一个布满不连通山谷的崎岖山地中找到最低点。

突破来自于凸优化的世界。我们不必直接处理秩这个险恶的地形，而是可以使用一个平滑的、碗状的近似——一个凸代理。为了找到这个代理，我们必须首先深入观察矩阵的灵魂，即它的奇异值。奇异值分解（SVD）告诉我们，任何矩阵都可以被分解为一组基本模式，每个模式都有一个对应的奇异值，衡量其强度或重要性。秩就是这些非零奇异值的数量。

如果计算非零值的数量很困难，那么有什么更简单的方法呢？对它们求和。这就得到了核范数，记作 $\|\cdot\|_*$ 。对于一个具有奇异值 $\sigma_i$ 的矩阵 $M$ ，其核范数为 $\|M\|_* = \sum_i \sigma_i$ 。这看似一个粗略的近似，但在数学上，它是秩函数最佳的凸替代品。最小化奇异值之和是一个绝妙的技巧：它倾向于将许多较小的奇异值推向零，从而有效地降低秩。这与使用 $\ell_1$ 范数（绝对值之和）来寻找稀疏向量的原理完全相同。核范数本质上是矩阵谱的 $\ell_1$ 范数。

这个强大的思想——用一个可解的凸求和问题（核范数）替代一个困难的非凸计数问题（秩）——是我们进入张量世界时将要遵循的指导原则。

张量的困境：并非一种秩，而是多种

当我们从二维网格升级到三维（或N维）的数字立方体——张量时，一件奇妙的事情发生了。简单、唯一的秩概念分裂成了多个不同的概念。这不是混乱的标志，而是高维度所固有的更丰富、更复杂结构的反映。让我们来认识这个故事中的两个主要角色。

首先是CP秩（Canonical Polyadic），我们可以将其视为“纯粹主义者的秩”。它提出了一个非常根本的问题：你需要将多少个“原子”般的秩为1的张量（由三个向量的外积 $\mathbf{u} \otimes \mathbf{v} \otimes \mathbf{w}$ 形成）相加才能构建出你的张量？例如，看似简单的 $2 \times 2 \times 2$ 张量 $\mathbf{X} = \mathbf{e}_1 \otimes \mathbf{e}_1 \otimes \mathbf{e}_1 + \mathbf{e}_2 \otimes \mathbf{e}_2 \otimes \mathbf{e}_2$ （其中 $\mathbf{e}_i$ 是标准基向量）是由两个秩为1的部分构建的，所以它的CP秩是2。这个定义非常基本，是矩阵世界概念的直接推广。

其次是Tucker秩（或多线性秩），即“实用主义者的秩”。它采取了不同的哲学方法。它不是从原子部分构建张量，而是通过从各个可能的角度审视张量来分析它。想象一下将一个三维的数字立方体“展开”或“压扁”成一个二维矩阵。你可以通过三种方式做到这一点：将第一维作为行，将其他两维压平成列；或使用第二维作为行；或使用第三维。这个过程称为矩阵化（matricization）。Tucker秩不是一个单一的数字，而是一个元组，包含了这三种展开方式下矩阵的秩。对于我们的示例张量 $\mathbf{X}$ ，事实证明它的所有三种展开都是秩为2的矩阵。所以，它的Tucker秩是元组 $(2, 2, 2)$ 。

这立刻揭示了一个深刻的差异。一个张量从CP的角度看可能很简单（秩为2），但从Tucker的角度看却可能很复杂（秩为(2, 2, 2)），这对于一个 $2 \times 2 \times 2$ 的张量来说是可能的最大秩！秩的选择不仅仅是一个定义；它也是我们对于何为“简单”的选择。

打造工具：张量的核范数

伴随着不同类型的秩，出现了不同类型的核范数，每一种都被设计为其相应秩函数的凸代理。

对于CP秩，自然的代理是CP原子范数，有时也称为张量核范数。它被定义为将张量分解为秩为1的原子加权和 $\mathbf{X} = \sum_r c_r (\mathbf{u}_r \otimes \mathbf{v}_r \otimes \mathbf{w}_r)$ 时，所有可能分解中权重之和（ $|c_r|$ ）的最小值。对于我们的例子 $\mathbf{X} = 1 \cdot (\mathbf{e}_1 \otimes \mathbf{e}_1 \otimes \mathbf{e}_1) + 1 \cdot (\mathbf{e}_2 \otimes \mathbf{e}_2 \otimes \mathbf{e}_2)$ ，原子范数就是 $\|\mathbf{X}\|_{\mathcal{A}} = 1+1=2$ 。

对于Tucker秩，其代理的构造非常直接。它被称为重叠核范数或核范数之和（SNN）。方法很简单：将张量沿每个模态展开成一个矩阵，计算每个展开矩阵的标准矩阵核范数，然后将它们全部相加。 $\text{重叠核范数}(\mathbf{X}) = \sum_{n=1}^{N} \|\mathbf{X}_{(n)}\|_*$ 让我们回到那个富有启发性的例子，即“对角”的 $2 \times 2 \times 2$ 张量 $\mathbf{X}$ 。我们发现它的CP原子范数是2。那么它的重叠核范数是多少呢？我们看到它的三个展开 $\mathbf{X}_{(1)}, \mathbf{X}_{(2)}, \mathbf{X}_{(3)}$ 都是秩为2的矩阵。快速计算表明，每个展开的核范数都是2。因此，重叠核范数是 $2+2+2 = 6$ 。

让我们停下来体会一下。对于同一个张量，我们有：

CP原子范数： $2$
重叠核范数： $6$

这两个范数的比值高达 $\rho = 6/2 = 3$ 。这不仅仅是一个数字上的巧合；它定量地衡量了两种模型看待结构的方式有多么不同。CP范数看到的是一个由两部分构成的简单对象。而Tucker范数看到的则是一个其所有展开都是满秩的最大复杂度的对象。

惊人的真相：为什么实用主义常常获胜

鉴于CP秩似乎更基础，人们可能期望其凸代理，即CP原子范数，会成为主角。然而，这里出现了一个实践上的转折，一个在张量方法领域引起涟漪的结果。

正如我们所讨论的，最小化秩是 $\mathsf{NP}$ -难的。使用凸代理的主要动机之一就是将一个棘手的问题转化为一个可解的问题——一个我们可以在计算机上高效解决的问题。

用于Tucker秩的重叠核范数在这方面取得了漂亮的成功。和式 $\sum \|\mathbf{X}_{(n)}\|_*$ 中的每一项都涉及一个矩阵核范数，可以通过SVD在多项式时间内计算。整个和是一个凸函数，我们可以有效地对其进行优化。

现在是令人震惊的部分：虽然CP秩的计算是 $\mathsf{NP}$ -难的，但其“最佳”凸代理，即CP原子范数，对于3阶或更高阶的张量来说，其计算也是 $\mathsf{NP}$ -难的。在这种情况下，凸松弛并没有导向一个计算上可解的问题。这就像给了你一把打开宝箱的钥匙，结果发现钥匙本身被锁在一个打不破的盒子里。

这一个戏剧性的事实解释了为什么你在实践中经常看到基于Tucker秩的重叠范数被使用。它代表了一种折中：它可能无法捕捉到最“纯粹”的秩的意义，但它为促进低秩张量结构提供了一条计算上可行的路径。

别有风味：透过傅里叶透镜看世界

CP和Tucker模型主要将所有张量维度都视为空域维度。但如果其中一个维度与众不同呢？考虑一个视频，它是一个（高 $\times$ 宽 $\times$ 时间）的三维张量。时间维度与空间维度具有非常不同的特性。这启发了一种完全不同且异常优雅的方法来定义张量秩和范数，该方法基于t-积的代数。

核心思想是将问题转移到傅里叶域。这个机制是管状核范数（TNN）的基础，其过程如下：

取你的张量，并沿第三维度（即“管”的方向）应用离散傅里叶变换（DFT）。
这会得到一个在频域中的新张量。这种变换的美妙之处在于，原始的张量运算现在“解耦”了。新张量的每个正面切片都对应一个特定的频率，并且可以被视为一个独立的复值矩阵。
对于这些频域中的每一个矩阵切片，我们计算标准的矩阵核范数。
然后，TNN被定义为所有这些正面切片的核范数之和（或平均值）。

这种“变换、求解、再反变换”的策略非常强大。它将一个单一、耦合的张量问题转化为一组独立且可并行的矩阵问题，而对于这些矩阵问题，我们拥有大量高效的工具。此外，所涉及的数学运算，例如优化算法中使用的相关近端算子，被证明是稳定且非扩张的，这意味着它们不会放大误差——这是迭代方法能够可靠收敛的关键性质。这种方法展示了思想的美妙统一，将多线性代数与信号处理的基本原理融为一体。

一点忠告：没有免费的午餐

虽然这些核范数代理是强大的工具，但它们并非万能灵药。它们是模型，和所有模型一样，它们有其固有的假设和偏见。我们在构造的例子中看到了这一点，其中“真实”的张量具有平衡的结构，但一个具有稀疏结构的不同张量可能因为其范数值更小而被凸松弛方法所偏好。范数的选择隐含地编码了你对数据中何为“简单”的信念。

这些方法能否保证成功，关键取决于测量过程本身的性质。压缩感知的理论提供了一个条件，即张量有限等距性质（TRIP），它要求测量算子能近似保持所有低秩张量的长度（弗罗贝尼乌斯范数）。如果一个算子满足TRIP，我们就有信心，最小化凸代理确实能够恢复我们正在寻找的那个真实的、简单的张量。

归根结底，张量核范数的研究是一个丰富而活跃的领域，完美地展示了理论的优雅、计算的实用主义以及我们周围数据深层、底层结构之间的相互作用。它提醒我们，在探索理解世界的过程中，有时最重要的一步是选择正确的观察视角。

应用与跨学科联系

在上一章中，我们深入探讨了张量核范数的优雅数学，探索了它们的定义和基本性质。但数学不是一项观赏性运动。一个物理或数学思想的真正美妙之处，不仅在于其内在的一致性，还在于它让我们能够做什么——它为我们提供了看待、理解和操纵我们周围世界的新方式。张量核范数不仅仅是供抽象思考者好奇的对象；它是一个强大的透镜，一个实用的工具，让我们能够在高维数据的压倒性复杂性中找到简单的、隐藏的结构。这才是故事真正变得生动的地方。

观察的艺术：清理一个混乱的世界

我们在科学和工程中遇到的大部分数据都是杂乱、不完整或损坏的。想象一下一段有噪点的视频、一张模糊的照片，或者一次缺少测量值的医学扫描。我们的任务通常是将“信号”——有意义的底层结构——与“噪声”——随机或破坏性元素——分离开来。张量，以及低秩结构的概念，为这项任务提供了一个非常有效的框架。

剥离背景

想象你正在观看一个安静小镇广场的监控录像。在大多数情况下，场景是静止的：建筑物、树木、人行道。这是背景。偶尔，会有人走过或有车驶过。这些是前景物体。我们的大脑能毫不费力地完成这种分离。但我们如何教机器做同样的事情呢？

关键是将我们的直觉转化为数学语言。如果我们将这个视频表示为一个张量，其中两个维度是空间维度（ $x$ 和 $y$ 像素），第三个维度是时间，那么静态背景具有一个非常特殊的属性：它是高度冗余的。相同的像素信息在一帧又一帧中重复出现。用线性代数的语言来说，这种结构就是我们所说的低秩。相比之下，移动的物体是短暂的，只占视频总像素-时间体量的一小部分。它们，一言以蔽之，是稀疏的。

这一洞见引出了一个强大的模型，称为鲁棒主成分分析（RPCA），该模型假设我们观测到的数据张量 $\mathcal{D}$ 可以分解为一个低秩分量 $\mathcal{L}$ （背景）和一个稀疏分量 $\mathcal{S}$ （前景）之和： $\mathcal{D} = \mathcal{L} + \mathcal{S}$ 。我们可以通过解决一个平衡这两种竞争需求的优化问题来找到“最佳”的这种分解：

\min_{\mathcal{L}, \mathcal{S}} \|\mathcal{L}\|_* + \lambda \|\mathcal{S}\|_1

在这里， $\|\mathcal{L}\|_*$ 是张量核范数，我们用来鼓励 $\mathcal{L}$ 保持简单的秩的凸代理；而 $\|\mathcal{S}\|_1$ 是 $\mathcal{S}$ 中所有元素绝对值之和，用来鼓励其稀疏。参数 $\lambda$ 是一个我们可以调节的旋钮，用以决定我们更优先考虑哪一个属性。

找到这种分解并非魔术；它是诸如交替方向乘子法（ADMM）等巧妙算法的结果。这些方法通过迭代工作，几乎像一场谈判。在一个步骤中，它们固定稀疏部分，找到最佳的低秩背景。在下一步中，它们固定背景，找到最佳的稀疏前景。每一步通常都涉及一个被称为张量奇异值阈值化的优美且计算高效的操作，该操作有效地“收缩”张量的奇异值以强制实现低秩结构。

为工作选择合适的工具

但是等等，我们对这个“张量核范数”的说法一直有点模糊。它只有一种吗？自然界很少如此简单，而张量分析的美妙之处就在于其丰富性。不同类型的数据有不同类型的结构，我们应该相应地选择我们的工具。

再来考虑我们的视频张量。我们上面讨论的“秩”通常是基于张量的矩阵化（matricizations）或“展开”的秩。这与Tucker分解有关。但如果数据具有很强的时间结构呢？想象一段旋转摩天轮的视频。一个物体不是随机出现的；它以一种可预测的、周期性的方式移动。一个简单的基于展开的秩可能不是描述这个过程最自然的方式。

如果我们不逐帧地看视频，而是透过频率的镜头来看它，会怎么样呢？傅里叶变换的一个基本性质是，时域中的循环位移对应于频域中乘以一个复相位。关键是，这种乘法不会改变每个频率切片中空间模式的秩。一个在时域中具有复杂、变化结构的张量，在频域中可能具有优美简洁的低秩结构。

这正是管状核范数背后的天才之处，它正是在这个傅里叶域中定义的。它计算了张量沿时间轴应用快速傅里叶变换（FFT）后，其正面切片的矩阵核范数的平均值。对于具有这种线性时不变动力学特性的数据来说，它是完美的工具，毫不奇怪，使用这种范数的最有效算法严重依赖于FFT。这是一个将数学模型与为解决它而设计的算法完美统一的华丽范例。

在黑暗中观察

从破坏性影响中提取低秩信号的原理远不止于监控视频。考虑光子受限成像的挑战，例如在近乎完全黑暗的环境中拍照，或进行像正电子发射断层扫描（PET）这样的医学扫描，其中图像是通过探测单个光子形成的。

在这里，“噪声”不是围绕真实值的小的、对称的抖动；而是由泊松分布描述的基本的、颗粒状的随机性。数据由计数组成，永远不能为负。我们美丽的低秩原理会放弃吗？完全不会。我们可以调整我们的优化框架，只需将衡量数据保真度的项替换为适合泊松统计的项（例如库尔贝克-莱布勒散度），同时保持张量核范数作为我们的正则化项，以强制施加底层的结构简单性。核心思想得以延续，展示了其在不同物理环境中运作的深刻力量和灵活性。

数据的隐藏几何学

你可能在想，这一切似乎非常复杂。张量不过是一个多维数字数组。为什么不直接把它“展开”成一个巨大的矩阵，然后使用那些已经很成熟的矩阵分析工具呢？这是一个公平且重要的问题，答案揭示了关于维度本质的一个深刻真理。

压平的愚蠢

将张量压平成矩阵是一种粗暴的方法，它丢弃了数据丰富的多模态结构。这就像拿一本结构精美的书，却把它当作一长串杂乱无章的字母来分析，忽略了词、句和章节的存在。虽然简单，但这种方法付出的代价是惊人的。

高维统计理论告诉我们，恢复一个低秩对象所需的测量次数取决于其内在复杂性。对于具有原生低秩结构（如低CP或Tucker秩）的张量，一个尊重其几何结构的恢复方法所需的样本数量 $m$ 与维度增长关系温和，大约为 $m \asymp rdn$ ，其中 $r$ 是秩， $d$ 是模态数， $n$ 是每个模态的大小。然而，如果我们首先将张量压平成一个 $n \times n^{d-1}$ 的矩阵，相应矩阵恢复问题的样本复杂度会爆炸式增长，尺度变为 $m \asymp r n^{d-1}$ 。对于任何超过二维（ $d \ge 3$ ）的张量，“压平”方法效率都急剧下降，需要多得多的数据才能成功。它受到了维度的诅咒。

这不仅仅是一个理论上的奇观。考虑从MRI扫描中恢复图像，数据通常是在频域中以“切片”或“线”的形式采集的。如果我们将数据张量展开成一个矩阵，这种结构化的采样可能看起来像是我们丢失了整块的行。一个对张量结构一无所知的矩阵补全算法会看到这些巨大的缺口并很可能失败。然而，一个具备张量意识的方法会认识到，在一个模态中看起来是巨大空洞的地方，在另一个模态中实际上是完全覆盖的。它可以利用所有模态的信息来成功填补缺失的数据。张量方法不仅仅是一个优雅的替代方案；在许多现实世界场景中，它们是唯一可行的途径。

通往其他世界的桥梁

我们讨论的原则是如此基础，以至于它们的回响可以在现代科学技术最意想不到的角落里找到，从我们智能手机中的人造大脑到支配现实的量子力学。

构建更快的“大脑”：高效深度学习

让我们转向我们这个时代决定性的技术之一：人工智能。从图像识别到自然语言翻译，现代AI背后的力量在于深度神经网络。这些网络中许多的核心组成部分是卷积运算，这是一个计算密集型的过程。为了让这些网络在功耗有限的设备（如手机）上运行，需要一种更高效的替代方案。

解决方案以深度可分离卷积的形式出现。这个巧妙的架构技巧，究竟是什么呢？事实证明，它不过是低秩张量近似的伪装！一个标准的卷积核，将一组输入通道映射到一组输出通道，可以表示为一个4阶张量。深度可分离版本强制该张量采用一种特定的分解形式，这在数学上等同于约束其某个矩阵展开为低秩。张量核范数为量化这种近似提供了精确的语言，使我们能够衡量为了换取计算速度的大幅提升而牺牲了多少表达能力。这是抽象张量理论与现代AI核心的实际工程之间一个美丽的联系[@problem-id:3139380]。

驯服野兽：量子力学

我们已经看到张量描述视频、图像和神经网络。现在让我们将边界推向真正令人难以置信的领域：量子世界。一个由许多相互作用的量子粒子（例如分子中的电子）组成的系统的状态，由一个称为波函数的数学对象描述。如果我们有 $N$ 个粒子，每个粒子可以处于，比如说，两种状态（“上”或“下”），那么波函数就是一个 $N$ 阶张量，每个模态有两个条目。总条目数为 $2^N$ 。即使对于一个中等规模的 $N=100$ 个粒子的系统，这个张量中的条目数（ $2^{100}$ ）也比可见宇宙中估计的原子数量还要多。直接计算是完全不可能的。

那么，物理学家是如何处理这样一个庞然大物的呢？他们依赖一个至关重要的物理洞见：真实世界系统的状态并非这个不可思议的巨大空间中的任意随机点。它们占据了其中一个微小的、高度结构化的角落，一个“低复杂度”流形。这种结构可以用低秩张量格式来捕捉，其中最强大的之一是张量列（TT）分解，它将巨大的张量表示为一条由许多小得多的张量链接而成的链。再一次，从有限的实验测量中重建量子态的问题可以被构建为一个张量补全问题。我们已经探讨的核心原则——通过特征展开的核范数来促进低秩结构——在这里仍然适用，展示了这些思想在截然不同的尺度和学科间的深刻普适性。

从一个简单的愿望——将“秩”的概念从扁平的矩阵扩展到多维张量——我们解锁了一个统一的原则。张量核范数不仅仅是一个公式；它是一种视角。它是一种洞见，即在复杂、高维数据的表面之下，通常隐藏着一个简单、优雅且最终可解的结构。而拥有合适的工具来找到那种结构，使我们能够以全新的清晰度看待世界，从我们屏幕上的像素到量子现实的根本结构。