稀疏近似

玻尔百科

定义

稀疏近似是信号处理和数学领域的一个基本原理，旨在寻找欠定线性方程组中最简单或最稀疏的解。该过程通常利用凸松弛技术，将计算上属于NP难问题的l0范数替换为可行的l1范数，从而通过计算手段获得稀疏解。稀疏近似在医学成像、地球物理学和自动化科学发现等领域具有重要应用，其成功实施依赖于测量矩阵满足受限等距性质等数学条件。

核心要点

寻找欠定方程组的最简单（最稀疏）解是一个基础但计算上属于 NP 难的问题。
凸松弛通过用计算上可行的 $\ell_1$ 范数替代难以处理的 $\ell_0$ “范数”，为寻找稀疏解提供了一种有效方法。
$\ell_1$ 最小化的成功取决于测量矩阵的数学性质，例如低互相关性或受限等距性质 (RIP)。
稀疏近似是一项统一性原理，在医学成像（快速 MRI）、地球物理学和自动化科学发现（SINDy）等领域具有变革性应用。

引言

在一个从医学图像到天文信号等数据饱和的世界里，一条强大的原则帮助我们在复杂性中找到清晰：简约原则，即稀疏性。自然界通常偏爱简单的解释，在数据的语言中，简单性意味着一个由最少可能组件构成的解。稀疏近似理论正是对这一探索的数学形式化，旨在为观测到的现象寻找最简单的解释。然而，直接寻找这个“最稀疏”解是一项计算上不可能完成的任务，是一个即使最强大的计算机也束手无策的 NP 难问题。这就产生了一个巨大的知识鸿沟：如果寻找稀疏解是难以处理的，我们如何在实践中利用稀疏性的力量？

本文将阐明解决这一悖论的优雅数学“技巧”。第一章 原理与机制 深入探讨了问题的核心，解释了为什么寻找最稀疏解如此困难，以及一个涉及 $\ell_1$ 范数的巧妙几何洞见如何提供了一条可行的前进道路。我们将探讨保证该方法成功的关键“游戏规则”——如相关性和受限等距性质等条件。在这一理论基础之后，第二章 应用与跨学科联系 展示了这一思想的革命性影响。我们将看到稀疏近似如何重新定义了从信号处理和快速 MRI 医学成像到地球物理学，乃至自然基本定律的自动化发现等领域，展示了寻求简单性的深刻而统一的力量。

原理与机制

稀疏性挑战：大海捞针

想象一下你是一名面对复杂现场的侦探。你有一组观测数据（我们称之为 $y$ ），并且你知道它们是一组潜在原因 $x$ 的结果。它们之间的关系是简单的线性关系：一个矩阵 $A$ 将原因 $x$ 转换为观测数据 $y$ ，记为 $y = Ax$ 。棘手之处在于，你拥有的潜在原因远多于观测数据 ( $n \gg m$ )。这意味着你的方程组是“欠定的”，对于 $x$ 不仅存在一个可能的解，而是有无穷多个解。你如何找到那个真实的解呢？

自然，像一个优秀的讲故事者，常常偏爱优雅而简单的解释。这就是简约原则，或称奥卡姆剃刀。在信号和数据的世界里，简单性通常意味着稀疏性。一个稀疏解是用最少可能的原因来解释观测数据的解。它是一个含有最多零元素的向量 $x$ 。因此，我们的目标是在所有可能性中找到“最稀疏”的解。

衡量稀疏性最直接的方法就是简单地计算向量 $x$ 中非零元素的数量。这个数量被称为 $\ell_0$ “范数”，记作 $\|x\|_0$ 。于是，侦探的问题就变成了一个形式化的优化问题：

$\min_{x} \|x\|_{0} \quad \text{subject to} \quad y = Ax$

这看起来足够直接。但这种简单性具有欺骗性。直接解决这个问题是一项艰巨的任务。它需要暴力检查矩阵 $A$ 的所有可能的列组合，看哪一个小集合能够重构出观测数据 $y$ 。随着潜在原因数量 $n$ 和稀疏度 $k$ 的增长，组合数 $\binom{n}{k}$ 会爆炸性地增长到天文数字。这种“组合爆炸”使得该问题成为 NP 难 问题，意味着除了极少数最小规模的情况外，它在计算上是难以处理的。我们是在无穷可能性的草堆中寻找一根真理之针，而一根一根地检查稻草是行不通的。

此外，现实世界中的许多信号并非完全稀疏。它们是可压缩的：它们的大部分系数非常小，但并非恰好为零。它们排序后的系数衰减迅速，这一性质可以通过 $p < 1$ 时的 $\ell_p$ 拟范数来刻画。对于这些信号，目标不仅仅是找到少数几个非零的尖峰，而是要捕捉到关键的“大”分量，同时舍弃“小”分量。这使得我们对简约性的追求更具现实意义，也更具挑战性。

几何技巧：驯服组合猛兽

如果暴力破解是死胡同，我们就需要一种更聪明的方法。我们需要一个捷径，一个能在没有组合噩梦的情况下引导我们走向稀疏解的原则。突破口并非来自代数，而是来自几何。

让我们考虑另外两种衡量向量“大小”的方法：熟悉的 $\ell_2$ 范数（欧几里得距离）和不太熟悉的 $\ell_1$ 范数（“曼哈顿”或城市街区距离）。

$\ell_2$ 范数 $\|x\|_2 = \sqrt{\sum_i x_i^2}$ ，衡量向量的长度，这通常对应于物理能量。如果我们试图寻找具有最小能量的 $y=Ax$ 的解，我们就是在求解：

$\min_{x} \|x\|_{2} \quad \text{subject to} \quad y = Ax$

这个问题很容易求解，并且有唯一的解析解。从几何上看，所有 $y=Ax$ 的解构成一个平坦的子空间（一条线、一个平面或一个超平面）。寻找最小 $\ell_2$ 范数解就像给一个以原点为中心的完美圆形气球（一个超球面，即 $\ell_2$ 范数的“单位球”）充气，直到它刚好接触到这个解子空间。接触点就是我们的答案。因为球体是完美光滑且旋转对称的，它对任何特定的方向或轴线都没有偏好。它找到的解几乎总是“稠密的”，能量分散在所有分量上。这正是稀疏的对立面。

现在，让我们转向我们故事的主角： $\ell_1$ 范数， $\|x\|_1 = \sum_i |x_i|$ 。我们不再对分量求平方，而是直接将它们的绝对值相加。优化问题变为：

$\min_{x} \|x\|_{1} \quad \text{subject to} \quad y = Ax$

这个小小的改变带来了深远的影响。 $\ell_1$ 范数的“单位球”不是一个光滑的球体，而是一个有棱角的多面体（一个正交多胞体）。在二维空间中，它是一个旋转了 45 度的正方形；在三维空间中，它是一个八面体。其决定性特征是它尖锐的角点，即顶点，这些顶点完美地与坐标轴对齐。

让我们重玩一次几何充气游戏。我们扩张这个 $\ell_1$ “钻石”，直到它首次接触到解子空间。它最可能在哪里接触？在其一个尖锐的角点上！角点上的点有什么特别之处？它有很多坐标恰好为零。例如，三维八面体的角点位于像 $(1,0,0)$ 、 $(0,-1,0)$ 等位置——所有这些点都是完全稀疏的。通过用凸的、计算上可行的 $\ell_1$ 范数替代非凸的、计算上不可能的 $\ell_0$ “范数”，我们找到了一个因其几何特性而天然偏好稀疏解的代理。这个问题可以被高效地重构为线性规划问题，并在多项式时间内求解。这就是精妙的“凸松弛”技巧，它使得整个稀疏近似领域变得实用。它通过改变我们测量标尺的形状，驯服了这只组合猛兽。

这个技巧何时有效？游戏规则

这个几何技巧感觉近乎魔术。但这是数学，不是魔术，它有其规则。通过最小化 $\ell_1$ 范数来恢复最稀疏解的成功与否，关键取决于测量矩阵 $A$ 的性质。该矩阵的结构必须能够防止它“欺骗” $\ell_1$ 最小化过程。这些“游戏规则”是什么？它们有几种不同类型，从组合的到几何的。

唯一性与 Spark

最基本的要求是稀疏信号应具有唯一的签名。如果两个不同的 $k$ -稀疏信号能够产生完全相同的测量值 $y$ ，我们就无法区分它们。这引出了矩阵 spark 的概念。矩阵 $A$ 的 spark，记作 $\operatorname{spark}(A)$ ，是指 $A$ 的列中线性相关的最小数量。

其逻辑如下：如果两个不同的 $k$ -稀疏向量 $x_1$ 和 $x_2$ 得到相同的测量值，则 $A x_1 = A x_2$ ，这意味着 $A(x_1 - x_2) = 0$ 。差向量 $x_1 - x_2$ 是非零的，并且位于 $A$ 的零空间中。由于 $x_1$ 和 $x_2$ 每个最多是 $k$ -稀疏的，它们的差最多有 $2k$ 个非零项。因此，如果我们能保证 $A$ 的零空间中不存在任何具有 $2k$ 或更少非零项的向量，我们就能保证我们的 $k$ -稀疏解是唯一的。这导出了一个强有力的条件：

$\text{若 } \operatorname{spark}(A) > 2k, \text{ 则每个 } k\text{-稀疏解都是唯一的。}$

一个常见的测量矩阵——部分离散傅里叶变换 (DFT) 矩阵——完美地说明了这一条件。对于一个由 DFT 矩阵的前 $m$ 行构成的 $m \times N$ 大小的矩阵 $A$ ，利用范德蒙矩阵的性质可以证明，任意 $m+1$ 列都是线性相关的。这意味着 $\operatorname{spark}(A) = m+1$ 。因此，对于这个矩阵，我们有一个明确的保证：只要 $k < (m+1)/2$ ，唯一恢复就是可能的。

不相关性：区分事物

Spark 提供了一个清晰的组合条件。一个更“模拟”和直观的条件是互相关性。对于一个列归一化的矩阵，其互相关性 $\mu(A)$ 是任意两个不同列之间内积的绝对值的最大值。简单来说，它是我们测量系统中任意两个基函数之间最大的“相似度”或相关性。

如果 $A$ 的两列高度相关（看起来非常相似），我们的测量就很难区分它们。 $\ell_1$ 最小化可能会混淆并选择错误的一个，或者两者的稠密组合。另一方面，低相关性意味着我们所有的基函数都近似正交，使它们易于区分。

这种直觉得出了另一个著名的恢复保证：如果真实信号是 $k$ -稀疏的，基追踪（即 $\ell_1$ 最小化问题）保证能找到它，条件是：

$k < \frac{1}{2} \left(1 + \frac{1}{\mu(A)}\right)$

较低的互相关性 $\mu(A)$ 允许恢复更稀疏的信号。一个绝佳的例子是标准基（时间上的尖峰）和傅里叶基（纯频率）之间的不相关性。它们的互相关性恰好是 $1/\sqrt{n}$ 。对于一个大维度 $n$ 的信号，这个值非常小，意味着这两个基是高度不相关的。这就是压缩感知的数学核心：一个在时域稀疏的信号在频域是展开的（反之亦然），这一事实正是使我们能从另一个域中的少量测量中恢复它的原因。

受限等距性质：理论家的梦想

相关性是成对地考察列。一个更强大、更整体的性质是受限等距性质 (RIP)。如果一个矩阵 $A$ 近似地保持了所有稀疏向量的长度，那么它就满足 RIP。也就是说，对于任何 $k$ -稀疏向量 $x$ ，都有 $\|Ax\|_2 \approx \|x\|_2$ 。

这个性质确保了稀疏世界的几何结构不被测量过程所扭曲。两个不同的稀疏向量被映射到两个不同的测量向量，从而使它们可以被区分。RIP 为稀疏恢复提供了已知的最强保证，不仅确保了精确性，还确保了在有噪声存在时的稳定性。

然而，RIP 有一个重要的弊端。虽然我们可以证明某些类型的随机矩阵以高概率满足 RIP，但为一个给定的、确定性的矩阵（比如你可能从生物学实验中生成的矩阵）验证它本身就是一个 NP 难问题。它涉及对数量巨大的子矩阵进行组合检查。这就产生了一个有趣的权衡：相关性条件较弱但易于计算，使其成为一种实用的诊断工具。RIP 条件要强得多，但在计算上难以验证，使其更多地成为设计系统的强大理论工具，而非分析现有系统的工具。

摆脱困境：并非毫无希望

我们已经确定稀疏近似通常是 NP 难的。然而，我们发现了一个在特定条件下有效的巧妙技巧。但如果这些条件不成立呢？是否存在一些问题的特例，它们就是……简单的？

答案是肯定的，而且它揭示了与数学另一个角落的深刻联系。有些问题具有如此特殊的结构，以至于组合难度随之消失。一个典型的例子出现在全幺模 (TU) 矩阵中。如果一个矩阵的所有方子行列式的值都是 -1、0 或 1，那么该矩阵就是 TU 矩阵。

TU 矩阵的魔力在于，当用于带整数约束的线性规划时，其解空间的所有顶点都保证是整数。考虑在二分图上寻找最小边覆盖的问题。这是一个稀疏近似问题，其中矩阵 $A$ 是图的节点-边关联矩阵。对于二分图，这个矩阵总是全幺模的。因此，当我们将问题松弛为线性规划时，它找到的解自动就是我们所寻找的精确的、整数的、稀疏的解——而且它在多项式时间内就能做到！。

这与一般的集合覆盖问题（或非二分图上的边覆盖问题）形成了鲜明对比，后者仍然是顽固的 NP 难问题。这表明，尽管最坏情况在计算上是黯淡的，但稀疏近似的世界充满了美丽的结构“口袋”，在这些“口袋”中问题变得异常简单。它提醒我们，在追求简约的过程中，理解底层结构就是一切。

应用与跨学科联系

在了解了稀疏性的原理之后，我们可能会感到某种满足感。我们已经构建了一台优美的数学机器。但是一台机器的好坏取决于它能做什么。它能解决什么问题？这种在复杂草堆中寻找简单的想法在现实世界中究竟出现在哪里？答案是，几乎无处不在。稀疏近似原则不仅仅是一个巧妙的技巧；它是一个镜头，通过它我们可以重新审视测量、成像、科学发现乃至我们如何对不确定性进行推理的根本基础。现在，让我们开始一次应用之旅，看看这个单一、优雅的思想如何在科学和技术的殿堂中回响。

反思信号处理的基础

我们的旅程始于稀疏性的天然家园：信号世界。想象一下你听到一段短暂的音乐和弦片段。声波本身是一条弯曲复杂的线。然而，你的耳朵和大脑瞬间就识别出它，也许是一个 C 大调和弦。你已经不自觉地进行了一次稀疏近似。你意识到复杂的声波只是三个音符的简单组合——在音阶“基”中的一个稀疏表示。

这正是信号处理领域大量应用背后的精确原理。考虑一个周期性信号，比如我们的音乐和弦。我们从 Joseph Fourier 那里知道，任何这样的信号都可以表示为简单正弦和余弦函数的和。如果信号在根本上是简单的——仅由少数几个主导频率组成——那么它的大部分傅里叶级数系数将为零或可以忽略不计。它在傅里叶域中是稀疏的。压缩感知的挑战就在于：我们能否通过比我们想象中少得多的测量来识别出这少数几个关键系数？

确实可以。通过在少数几个巧妙选择的点上测量信号，我们可以建立一个方程组 $y = A c$ 。这个系统是“欠定的”，意味着有无穷多个可能的系数向量 $c$ 可以解释我们的测量值 $y$ 。但是通过增加一个约束，即我们寻找“最简单”的解——那个具有最小 $\ell_1$ 范数的解——我们就能像施了魔法一样，以惊人的准确度恢复出真实的稀疏系数集。这种恢复的成功取决于我们的测量矩阵 $A$ 的一个称为互相关性的性质，它本质上衡量了 $A$ 的列是多么不相似。如果相关性足够低，恢复就得到保证，这是我们测量的几何性质与我们推断成功之间的一个美妙联系。

当然，世界并非总是在傅里叶基中稀疏。例如，一个带有急剧跳变的信号需要一大堆傅里叶模式才能描述。这把我们带到稀疏近似的一个更深层次、更具艺术性的方面：语言的选择。要称一个信号是稀疏的，我们必须首先找到合适的“原子”字典，使其在该字典中变得简单。对于有跳变的信号，一个好得多的字典是小波基，比如 Haar 基，其原子本身就是局部的小跳变。

但是，如果我们信号中的跳变与我们标准基中的原子不能完美对齐怎么办？表示突然就变得不那么稀疏了。解决方案非常务实：如果一个字典不够好，为什么不用多个呢？我们可以通过将标准的 Haar 小波基与它自身的一个微小移位版本相结合，来构建一个过完备字典。现在，任何位置的跳变都更有可能找到一个对齐良好的原子。这个冗余字典允许更稀疏的表示，尽管它会略微增加相关性，但这种权衡通常是值得的。设计正确字典的行为本身就是该理论的一个关键应用，是一种根据手头问题的具体结构量身定制我们的数学镜头的方法。

视觉革命：医学与计算成像

在成像领域，稀疏近似的影响没有比这更具体的了。最著名的例子是磁共振成像 (MRI)。任何做过 MRI 扫描的人都知道那种体验：在一个嘈杂、狭窄的管道内一动不动地躺着，感觉像过了一个世纪。扫描时间之所以长，是因为机器必须费力地测量图像的傅里叶系数，这个过程在“k空间”中逐层进行。

但是，如果我们不必测量所有系数呢？医学图像和照片一样，是高度可压缩的。它们不是像素的随机集合；它们包含平滑区域和清晰边缘。这种结构意味着它们在合适的基（如小波基）中具有非常稀疏的表示。通过重新设计 MRI 的测量序列，以一种“压缩”的方式对 k 空间进行采样——采样更少的点，采用看似随机的模式——我们就能获取足够的信息来求解稀疏的小波系数。

结果是革命性的。我们可以实现 5 倍、10 倍甚至更高的加速因子，这意味着 30 分钟的扫描可以缩短到仅几分钟，而图像质量几乎没有损失。这不仅仅是方便；这是对病人护理的变革，特别是对于无法忍受长时间扫描的儿童、老人或危重病人。

这一原理可以推向更激进的结论。想象一下建造一个只有一个单像素的相机。这似乎是不可能的。根据定义，相机拥有数百万像素的阵列来捕捉空间信息。然而，单像素相机确实存在，而且它是稀疏近似的直接体现。这个“相机”使用一种称为数字微镜器件 (DMD) 的设备，将一系列看似随机的黑白图案投射到场景上。对于每个图案，一个光电二极管——即“像素”——测量通过的总光亮度。每次测量都给我们一个方程。在闪烁了数千个这样的图案后，我们得到了一个欠定方程组。但由于自然图像在小波基中是稀疏的，我们可以再次使用 $\ell_1$ 最小化从这些看似整体性的测量中重建出高分辨率图像。这种“魔术”的成功背后，是一个深刻的数学性质——受限等距性质 (RIP)——它保证了我们的随机图案能保持稀疏信号的几何结构。

窥探地球与模型的谦卑

从人体，我们将目光转向下方，深入地球。在地球物理学中，稀疏近似帮助我们创建地下图像，以寻找石油和天然气储量或了解地震断层。这个过程是一种回声定位：我们在地表产生声波，并监听从不同岩层返回的反射。地球的反射率可以被建模为稀疏的；它由少数几个散射声波的独特层或物体组成。

由此产生的数据可以被纳入我们熟悉的线性模型 $y = Ax$ 。然而，现实世界带来了我们干净的理论模型所没有的挑战。其一，我们对地下的“视野”总是有限的；我们只能在地表放置传感器，这给了我们一个有限的孔径。这个限制就像试图通过钥匙孔读书。它扩展了我们成像系统的“点扩散函数”，使得区分两个邻近的散射体更加困难。用我们理论的语言来说，它增加了我们传感矩阵 $A$ 的互相关性，使稀疏恢复更加困难，有时还会在图像中引入“鬼影”伪影。

此外，我们的模型本身就是近似。用于地震成像的线性模型，即所谓的 Born 近似，假设声波在下行和上行途中只散射一次。实际上，声波可以在层间多次反弹。这些“多次波”是一种模型误差。如果我们忽略它们，我们的重建算法将尽力通过捏造实际上不存在的虚假散射体来解释这些额外的回波。这是一个深刻的教训：稀疏近似的成功不仅取决于信号是否真正稀疏，还取决于我们物理模型的准确性。一个优美的理论应用于一个有缺陷的模型，仍然可能将我们引入歧途。科学的艺术在于了解我们工具的局限，并以智慧和谦卑来解释其结果。

揭示自然的机制

也许稀疏近似最令人兴奋的前沿不仅仅在于看见隐藏的事物，而在于发现支配它们的定律。从某种意义上说，所有科学都是对复杂现象的稀疏解释的探索。Newton 的万有引力定律 $F = G m_1 m_2 / r^2$ ，是描述行星复杂舞蹈的一个极其稀疏的模型。

稀疏回归技术使我们能够将这一发现过程的一部分自动化。考虑一个非线性系统，比如一个化学反应器或一个生物细胞。我们可以测量其输入和输出，但我们不知道支配其行为的方程。然而，我们可以构建一个包含可能涉及的候选函数的大字典——多项式、正弦函数和其他非线性项。然后，我们将系统的输出表示为这些字典函数的线性组合。由于我们期望真实的支配定律是简单的（只涉及少数几项），我们可以使用 $\ell_1$ -正则化回归 (LASSO) 来找到拟合数据的最稀疏的字典项集合。这使我们能够执行“非线性系统辨识”，从众多可能性中挑选出少数几个关键项。

这一思想在一种名为“非线性动力学的稀疏辨识”(SINDy) 的方法中达到了顶峰。在这种方法中，我们测量一个系统的状态（例如，细胞中蛋白质的浓度）及其随时间的变化率。然后，我们建立一个包含该状态的各种可能函数的巨大库。通过应用稀疏回归，我们可以找到解释该变化率的这些函数的最简单组合。实际上，我们正在直接从数据中发现支配该系统的微分方程！这项强大的技术已被用于重新发现物理定律、模拟流体动力学以及揭示基因调控网络的结构。它是奥卡姆剃刀的数学形式化，一个用于在宇宙精密机械中发现隐藏简单性的工具。

一个思想的统一力量

稀疏性的主题甚至延伸得更远，为那些表面上看起来非常不同的问题提供了一个统一的框架。

考虑不确定性量化的问题。我们有一个复杂的计算机模型，比如一个飞机机翼。该模型有许多不确定的输入参数（材料属性、气温等）。我们想知道输入中的不确定性如何传播到输出（比如机翼上的应力）。我们可以使用多项式混沌展开 (PCE) 将输出建模为随机输入的函数。如果模型的输出“简单”地依赖于输入，那么这个展开将是稀疏的。然后，我们只需运行几次昂贵的计算机模拟，就可以使用稀疏回归找到重要的 PCE 系数，从而高效地刻画系统的不确定性。

最后，让我们考虑一个看似无关的难题：Netflix 问题。你有一个巨大的用户和电影网格，每个条目是用户给电影的评分。这个网格大部分是空的，因为没有人看过所有的电影。推荐系统的目标是预测缺失的条目。关键的假设是人们的品味不是随机的。只有少数几个潜在因素——类型、演员、导演——决定了品味。这意味着评分矩阵虽然巨大，但应该是“简单的”或低秩的。

低秩矩阵是指其信息仅包含在少数几个奇异向量中的矩阵。你可以把秩看作一种稀疏性——在奇异值“基”中的稀疏性。值得注意的是，找到最适合观测评分的低秩矩阵的问题，可以使用与稀疏向量恢复相同的哲学来解决。矩阵的核范数——其奇异值之和——扮演着与向量的 $\ell_1$ 范数相同的角色。通过最小化核范数，我们找到了与数据一致的最简单（最低秩）的矩阵。数学保证、对偶证书和几何直觉都以一种优美的类比方式得以延续。一个最初作为信号处理工具的东西，最终成为理解人类偏好的工具，揭示了寻求简单性的深刻统一性。

从音符到医学扫描，从地核到生物学定律，稀疏近似原则为我们在复杂世界中寻找结构和意义提供了一种强大而统一的方式。它告诉我们，如果我们以正确的方式、用正确的“语言”看待事物，宇宙往往比它看起来的更简单。