首页压缩感知：原理、机制与应用

压缩感知：原理、机制与应用

玻尔百科

定义

压缩感知：原理、机制与应用指一种能够从极少数测量值中精确重建稀疏信号的信号处理框架。该技术的核心机制是将难以处理的稀疏性搜索转化为可求解的凸优化问题，即通过l1范数最小化来实现信号恢复。当测量方式与信号结构满足非相干性条件时（通常由随机采样实现），该原理可广泛应用于加速医学扫描、量子层析成像以及与人工智能生成模型的融合。

核心要点

压缩感知能够从数量惊人的少量测量中精确重建稀疏信号。
该技术的力量源于将一个难以处理的稀疏性搜索问题（ $\ell_0$ -范数）替换为一个可解的凸问题（ $\ell_1$ -范数最小化）。
当测量与信号结构非相干时，重建就能得到保证，这一条件可通过随机化传感设计有效实现。
其原理被应用于各个学科，加速了医学扫描，实现了量子层析成像，并通过生成模型与人工智能相结合。

引言

在一个数据丰富的世界里，高效获取和处理信息的能力至关重要。压缩感知作为一个革命性的范式应运而生，它挑战了长期以来数据采集的原则，证明了从远少于以往认为必需的样本中重建信号是可能的。这个看似神奇的壮举并非戏法，而是植根于一个深刻的洞见：我们世界中的大多数信号都具有潜在的结构，通常表现为稀疏性。通过利用这种固有的简单性，我们可以解决一个看似不可能的问题——从不完整的信息中恢复完整的图像。本文旨在为这项强大的技术提供一份指南。首先，在“原理与机制”部分，我们将揭示稀疏性的基本思想、 $\ell_1$ -最小化背后的几何直觉，以及随机、非相干测量的关键作用。随后，在“应用与跨学科联系”部分，我们将遍览其在现实世界中的影响，从加速磁共振成像扫描、表征量子态，到与现代人工智能的融合，展示压缩感知作为科学与工程领域一个统一性的概念。

原理与机制

想象一下，你置身于一个巨大的音乐厅，正在聆听一场管弦乐演出。你接到一个奇怪的任务：仅通过在随机时刻进行几次瞬间的声音录制，来重建整个交响乐——每个乐器的每个音符。常识告诉你这是不可能的。你拥有的数据远少于你试图恢复的信息。用数学术语来说，你面对的是一个欠定线性方程组， $Ax=y$ ，其中 $x$ 是你想要知道的完整交响乐， $y$ 是你的少量测量数据，而 $A$ 则是告诉你这些记录是如何产生的“测量过程”。对于任意给定的 $y$ ，有无限多个信号 $x$ 可能产生它。我们如何希望能找到那唯一真实的交响乐呢？

压缩感知的惊人答案是，如果你正在寻找的信号在某种程度上是特殊的——即如果它是稀疏的——那么不可能的事情就变得可能了。这个原理不仅仅是一个数学上的奇趣，它是医学成像（更快的磁共振成像）、射电天文学、数字摄影等领域取得突破的引擎。但它是如何工作的呢？是什么物理和数学机制让我们能够以更少的数据看得更多？

空的威力：稀疏性假设

第一个关键洞见是，现实世界中的大多数信号，当以正确的“语言”看待时，都惊人地空洞。如果一个信号的大部分分量为零，它就被称为稀疏信号。想一想一条短信：所有可能词汇的词库是巨大的，但任何单条信息只使用了其中的一小部分。在“所有词语的字典”中代表该信息的向量是稀疏的。

通常，一个信号在其自然表示中并非稀疏，但在经过数学变换后会变得稀疏。一个纯粹的音乐音调是一个连续的正弦波，在时间上是一个密集信号。但在频率的语言中——即其 Fourier 变换——它只是其特定音高上的一个尖峰。它在频域中是稀疏的。这是一个更强大的稀疏性概念。一张照片可能处处都有细节，但其小波变换（描述不同尺度上的变化）通常非常稀疏。

考虑一个简单但富有说明性的信号族：分段常数信号。这些信号在一段时间内保持一个恒定值，然后突然跳到一个新值，就像数字波形或卡通图像的强度剖面。信号本身并不稀疏；它的大多数值都是非零的。然而，如果我们应用有限差分算子（计算相邻点之间的差异），结果几乎完全为零，仅在跳变位置出现非零尖峰。这个变换后的信号是高度稀疏的。这就是稀疏性的分析模型：如果对于某个分析算子 $D$ ， $Dx$ 是稀疏的，那么信号 $x$ 就被认为是稀疏的。秘密不在于信号简单，而在于其创新或变化是罕见的。压缩感知建立在这样一个前提之上：我们可以找到一个域或一种表示，在其中感兴趣的信号会揭示其隐藏的稀疏本性。

美妙的捷径：为什么 $\ell_1$ 范数能大海捞针

所以，我们有一个强大的假设：在所有与我们的测量相匹配的无限可能信号中，我们想要那个最稀疏的。在数学上，这意味着我们想要 $Ax=y$ 的解中非零元素最少的那个。这被称为最小化 $\ell_0$ “范数”， $\|x\|_0$ 。不幸的是，这在计算上是一场噩梦。它是一个非凸的组合问题，需要检查非零值所有可能的位置——这项任务比在整个宇宙中找到一个原子还要艰巨。几十年来，这似乎是一条死胡同。

压缩感知的核心奇迹就在于此。我们可以用一个几乎神奇有效的代理来替换不可能的 $\ell_0$ 问题：最小化 $\ell_1$ 范数， $\|x\|_1 = \sum_i |x_i|$ 。这个问题，被称为基追踪（Basis Pursuit），是一个凸优化问题，这意味着它在计算上是可行的——事实上，它可以被高效求解。但究竟为什么最小化绝对值之和能找到零元素最多的解呢？

原因在于一个优美的几何解释。想象一个二维空间。所有 $\ell_1$ 范数小于或等于某个半径 $r$ 的向量 $x$ 的集合，即 $|x_1| + |x_2| \leq r$ ，形成一个角朝上的菱形。我们测量方程 $Ax=y$ 的所有解的集合构成一条线（或一个平面，或高维空间中的超平面）。寻找 $\ell_1$ -最小解就像从原点开始膨胀 $\ell_1$ -菱形，直到它刚好接触到解线。因为菱形有“尖锐”的角，这些角正好位于坐标轴上，其中一个坐标为零，所以第一个接触点极有可能在这些角中的一个。角上的解就是一个稀疏解！

现在，将其与更熟悉的 $\ell_2$ 范数（标准欧几里得距离） $\|x\|_2 = \sqrt{\sum_i x_i^2}$ 进行对比。 $\ell_2$ “球”是一个完美的圆形（或球体）。它是光滑的，没有角。如果我们膨胀一个圆形直到它接触到解线，接触点将是一个通用的点，没有特别的理由使其坐标为零。 $\ell_2$ -最小解是出了名的非稀疏。 $\ell_1$ 球的“尖锐性”正是其寻求稀疏性能力的来源。

这个几何直觉得到了严谨数学的支持。从代数角度看， $\ell_1$ -最小化问题可以被重构为一个线性规划问题，这是一类被深入理解的问题，可被那些在多维多面体的顶点处“搜索”解的算法高效求解——这些顶点是我们几何角点的代数等价物。从分析角度看，该问题的最优性条件（称为 KKT 条件）要求解 $x^\star$ 与一个所谓的对偶凭证（dual certificate）之间存在特殊关系。这种关系实质上规定，对于真实稀疏支撑集之外的每个坐标，对偶凭证必须很小（幅度小于1），而对于支撑集之上的每个坐标，它必须完全“饱和”（等于+1或-1）。对于一个由测量矩阵 $A$ 构造的向量来说，很难同时在多个位置满足这种饱和条件，这从分析上迫使解 $x^\star$ 变得稀疏。

游戏规则：非相干测量与随机性的作用

$\ell_1$ 最小化的魔力并非对任何测量矩阵 $A$ 都有效。代表我们测量策略的矩阵必须遵守某些规则。直观地说，我们的测量必须与信号稀疏所在的“语言”非相干。如果信号在 Fourier 域（少数频率）中是稀疏的，我们的测量就不应该是简单的正弦波；它们应该看起来完全不像单一频率，例如时间上的一个尖锐脉冲，或者更好的是，一个随机的、看起来像噪声的波形。

量化这一点的一个简单方法是传感矩阵 $A$ 的互相关性（mutual coherence）。它被定义为矩阵中任意两个不同列之间内积（相关性）的最大绝对值。低相干性意味着列近似正交，这是好的。一个更强大但更复杂的条件是有限等距性质（Restricted Isometry Property, RIP）。如果一个矩阵能近似保持所有稀疏向量的欧几里得长度，那么它就满足 RIP。换句话说， $A$ 在我们关心的稀疏信号的小子空间上几乎像一个正交旋转，尽管它是一个行数少于列数的“扁”矩阵。

我们如何构造具有这些奇妙性质的矩阵呢？令人惊讶的答案是：利用随机性。例如，如果我们通过从 Gaussian 分布中抽取其元素来构造矩阵 $A$ ，或者通过从离散傅里叶变换（DFT）矩阵中随机选择行子集来构造，那么该矩阵将以极高的概率具有低相干性并满足 RIP。这是高维空间中一个称为测度集中现象的深刻结果。随机性不是一个缺陷，而是一个特性。它是我们设计通用传感矩阵的最有效工具，这些矩阵与你几乎能想象到的任何稀疏基都是非相干的。

算法：发现的引擎

拥有正确的原则是一回事；将其付诸实践需要高效的算法。我们实际上如何解决 $\ell_1$ -最小化问题或找到稀疏解？

主要有两类算法主导着这一领域。第一类是贪婪算法，如正交匹配追踪（Orthogonal Matching Pursuit, OMP）。其思想简单直观：在每一步，找到与信号剩余部分最相关的 $A$ 的列，将其加入到你的活动分量集中，并更新残差。虽然在许多情况下快速有效，但贪婪方法有一个致命弱点。可以构造对抗性场景，其中来自不同真实信号分量的贡献巧妙地串通抵消，使得一个不正确的原子看起来比任何正确的原子都重要。即使矩阵 $A$ 具有良好的 RIP 性质，能够保证 $\ell_1$ -最小化的成功，OMP 也可能被欺骗。

第二类算法直接处理凸的 $\ell_1$ 问题。其中许多算法，如迭代软阈值算法（Iterative Soft-Thresholding Algorithm, ISTA），都基于一个称为近端算子（proximal operator）的优美而简单的构建块。 $\ell_1$ 范数的近端算子是一种称为软阈值的操作。它所做的正是一个促进稀疏性的操作应该做的事：它接受一个向量，将其所有值向零收缩一个固定的量 $\lambda$ ，并将任何小于 $\lambda$ 的值精确地设置为零。这是一个“收缩或置零”的算子。迭代算法重复使用此算子，在对数据拟合项执行标准梯度下降步骤和应用软阈值“清理”步骤以强制稀疏性之间交替进行。

这种收缩的一个有趣的副作用是，它在最终估计中引入了一个微小但系统性的偏差；非零系数总是比它们应有的值要小。幸运的是，有一个简单的修正方法。一旦算法确定了支撑集（非零系数的集合），就可以执行最后一步去偏操作：仅限于已识别的那些系数，求解一个经典的、无惩罚的最小二乘问题。这可以在没有 $\ell_1$ 惩罚项偏差的情况下精炼振幅。

最后，在实际应用中，我们很少知道信号的真实稀疏度 $k^\star$ 。我们应该告诉算法寻找哪个 $k$ 值呢？这是一个模型选择问题，可以使用像交叉验证这样的标准统计工具来解决。我们将可用的测量数据分成训练集和验证集。我们在训练集上对一系列候选稀疏度 $k$ 运行我们的算法，然后选择在未见过的验证集上给出最佳预测性能的 $k$ 。这确保了我们的最终模型不仅仅是在拟合测量中的噪声，而是捕捉到了真实的潜在结构，从而使整个压缩感知流程成为一种稳健的、数据驱动的方法论。

从一个简单的几何洞见到高维随机性的深邃力量，再到迭代算法的优雅，压缩感知的原理揭示了几何、优化和概率之间美妙的统一，将一个不可能的问题变成了一项实用而强大的技术。

应用与跨学科联系

我们已经了解了压缩感知的基础原理，探索了稀疏性、非相干性和计算恢复之间优美的相互作用。你现在可能想知道，“这数学很优雅，但它在哪些方面改变了世界？”答案是：几乎无处不在。我们讨论的原理并非信号处理领域的小众技巧；它们代表了我们对数据、测量和发现的思考方式的根本性转变。这种新视角使我们能够在看似无关的领域之间建立桥梁，从量子物理到人工智能，所有这些都基于一个强大而单一的思想：结构是可压缩的。

让我们开始一场应用之旅，它不是一份枯燥的清单，而是一系列故事，展示了这一个思想如何绽放出众多革命性的工具。

科学测量的新视角

几个世纪以来，实验科学家的信条是尽可能准确地测量一切。压缩感知挑战了这一点，提出了一个更精炼的方法：智能地测量，而不仅仅是详尽地测量。

想象一位生物化学家试图理解蛋白质复杂的三维形状。二维核磁共振（2D NMR）波谱学是这项工作的核心技术之一。在传统方法中，实验需要在时域空间的一个精细、均匀的网格上费力地采集数据点，对于复杂分子，这个过程可能需要数天甚至数周。为什么？为了满足古老的 Nyquist-Shannon 采样定理并避免信息丢失。但如果最终得到的光谱——也就是科学家所追求的蛋白质结构图谱——大部分是空白，只有少数对应于原子相互作用的尖锐峰值呢？这正是我们一直在研究的那种稀疏信号。

压缩感知为漫长的等待提供了一个绝妙的出路。实验不再对网格上的每个点进行采样，而是被编程为只采集一小部分随机选择的数据点。这种“非均匀采样”（NUS）极大地缩短了实验时间。对这些不完整数据直接进行 Fourier 变换会得到一团糟，充满了类似噪声的伪影。但我们知道更好的方法。我们知道真实的光谱是稀疏的。通过求解一个 $\ell_1$ -最小化问题，重建算法能找到与我们采集的少量测量数据一致的最稀疏的光谱。它有效地“去噪”伪影并揭示真实的峰值，用一小部分时间就达到了长达数天的实验所能达到的相同高分辨率。这不仅节省了时间；它还催生了全新类型的实验，可以研究以前根本无法研究的不稳定分子或复杂的生物系统。

这种范式转变延伸到了物理世界的最基本层面。想象一下试图表征一个未知的量子态，即量子力学中对一个粒子或系统的基本描述。一个量子态由一个称为密度矩阵的数学对象表示。要完全表征它，需要一个称为量子态层析成像的程序，这涉及到对相同制备的系统进行许多不同的测量。对于一个存在于 $d$ 维空间中的系统，这可能需要数量级为 $d^2$ 的测量次数。但如果这个态是“简单的”呢？一个简单的态，在量子术语中，是一个纯态或近纯态，它对应于一个低秩的密度矩阵。

在这里，压缩感知再次提供了关键。通过利用低秩结构，我们可以用比以前认为可能的小得多的测量次数来重建密度矩阵。所需的测量次数不与系统巨大的环境维度成比例，而是与其微小的内在维度——即其秩——成比例。有趣的是，数学揭示了对于必须是半正定的量子态，我们原则上看到的核范数最小化问题等价于求解一个可行性问题。可识别性取决于我们选择的测量是否足以区分一个低秩态与另一个低秩态。这需要的测量次数与该态的真实自由度成比例，对于一个 $d$ 维空间中的秩为 $r$ 的态，大约是 $2dr - r^2$ 。本质上，我们是通过提出恰好足够的问题来确定量子态，从而锁定其简单的潜在结构。

解码我们的数字与社交世界

揭示隐藏结构的力量在数据和信息世界中的变革性，不亚于其在自然科学中的作用。

想想一个静态场景的监控视频。一帧又一帧，背景几乎保持不变。这种时间上的冗余意味着，如果我们将视频帧堆叠成一个巨大的矩阵，背景部分高度相关，可以用一个低秩矩阵表示。现在，想象一个人走过场景。他的出现破坏了这种低秩结构，但在任何给定时间只在少数位置造成影响。移动的人代表一个叠加在静态背景之上的稀疏“误差”矩阵。整个视频是一个和： $M = L_0 + S_0$ ，一个低秩矩阵加一个稀疏矩阵。

我们如何将它们分开？压缩感知一个优美的扩展，称为稳健主成分分析（RPCA），通过寻找能叠加成观测视频的最佳低秩和稀疏分量来解决这个问题。它求解一个凸规划问题，同时最小化背景部分的核范数（促进低秩）和前景部分的 $\ell_1$ 范数（促进稀疏）。在非相干条件下——意味着背景本身不是尖峰状或类稀疏的——这种方法可以完美地将静态世界与其中的动态角色分离开来，即使在事先不知道哪个是哪个的情况下也是如此。

这种将信号分解为其简单组成部分的想法在许多其他领域也得到了呼应。在推荐系统中，你对电影或音乐的品味可以被建模为少数核心偏好的组合。你的“用户因子”向量在所有可能的类型和属性的广阔空间中很可能是稀疏的。这种潜在的稀疏性使得公司仅凭你以往少数的评分就能预测你可能喜欢什么，通过为每个用户恢复稀疏因子来有效地“补全”所有用户评分的矩阵。

这些原理甚至触及了因果关系的复杂网络。在从经济学到神经科学的领域中，我们试图理解一个系统中的不同变量如何随时间相互影响。向量自回归（VAR）模型捕捉了这一点，其中系统在一个时刻的状态是其前一时刻状态的线性函数。如果我们假设每个变量只受少数其他变量的直接影响——一个稀疏的因果结构——我们能否从有限的观测中发现这个结构？这是一个压缩感知与因果发现相交叉的前沿领域。如果我们足够幸运，处于系统状态本身是稀疏的情况下，并且我们可以在每一步恢复它，那么我们就可以使用稀疏回归来找出系统的“规则”。然而，这是一个具有挑战性的领域，因为系统的动力学很容易破坏我们所依赖的简单稀疏性，这需要超越基本原理的更先进的技术。

拓展感知的边界

压缩感知的理念也激励我们设计新型传感器，并重新思考什么是信息。

最极端的测量形式是什么？也许是一个只能说“是”或“否”的传感器。这就是一位压缩感知的世界。想象一下，你通过将信号 $x$ 投影到一个随机向量 $a_i$ 上来测量它，并且只记录符号： $y_i = \mathrm{sign}(\langle a_i, x \rangle)$ 。你已经丢弃了所有的幅度信息。这似乎毫无希望。然而，令人惊讶的是，如果原始信号是稀疏的，并且你收集了足够多的一位测量值，你仍然可以以惊人的准确度恢复信号的方向。恢复过程涉及求解一个凸规划问题，该问题找到与你收集的二进制响应最一致的稀疏向量。这对设计在信息获取物理极限下运行的廉价、低功耗传感器具有深远的影响。

此外，信号并非总是存在于简单的一维时间线或二维网格上。想一想大脑皮层复杂网络上的脑活动模式，或社交网络上信息的传播。压缩感知的原理可以推广到定义在图上的信号。在这里，“相干性”的概念与图本身的结构相关联，由其 Laplacian 矩阵的特征向量捕获。为了在图上重建一个稀疏的活动模式，你需要采样的节点数量取决于这个图的相干性。这个优美的理论统一了信号处理、图论和稀疏恢复，使我们能够探究复杂的网络系统。

超越稀疏性：与人工智能的新融合

也许最深刻的跨学科联系是最近的一个：压缩感知与现代深度学习的融合。“稀疏性”假设一直是我们的指路明灯。它是一个简单而强大的结构模型。但如果信号的结构更复杂怎么办？人脸图像在像素基中不稀疏，在 Fourier 或小波基中也不稀疏。但它是高度结构化的。我们对于什么“看起来像人脸”有着强大的直觉。

现代人工智能通过深度生成模型为我们提供了一种形式化这种直觉的方法。这些是在海量数据集（例如，人脸）上训练的神经网络，它们学会成为一个“人脸制造机”。给定一个随机的低维种子向量 $z$ ，生成器 $G$ 会产生一个高维、逼真的人脸 $x = G(z)$ 。生成器所有可能输出的集合在所有图像的高维空间中形成一个低维流形。

这为压缩感知范式提供了一个里程碑式的演进。我们不再通过寻找与测量一致的最稀疏信号来解决逆问题，而是可以寻找可由我们的生成模型产生且与测量一致的信号。从几何上看，我们不再是在稀疏子空间的并集上寻找解，而是在深度网络学到的丰富、弯曲的流形上寻找解。现在，恢复所需的测量次数不再与环境维度 $n$ 成比例，而是与生成模型潜空间的内在维度 $k$ 成比例，进一步打破了维度诅咒。

这让我们回到了原点。压缩感知的惊人力量源于其利用结构的能力。一项理论计算表明，对于一个在 $30,000,000$ 维空间中的信号，如果我们知道它只有 $300$ 个非零项是稀疏的，我们可能只需要大约 $20,000$ 次随机测量就能完美重建它——这是一个惊人的缩减。这不是魔术。这是拥有一个好的信号模型的回报。无论这个模型是简单的稀疏性，还是一个复杂的、深度学习得到的先验，教训是相同的：在一个充满结构的世界里，少量数据，在良好假设的指导下，可以发挥巨大的作用。

压缩感知：原理、机制与应用

引言

原理与机制

空的威力：稀疏性假设

美妙的捷径：为什么 ℓ1\ell_1ℓ1​ 范数能大海捞针

游戏规则：非相干测量与随机性的作用

算法：发现的引擎

应用与跨学科联系

科学测量的新视角

解码我们的数字与社交世界

拓展感知的边界

超越稀疏性：与人工智能的新融合

压缩感知：原理、机制与应用

引言

原理与机制

空的威力：稀疏性假设

美妙的捷径：为什么 ℓ1\ell_1ℓ1​ 范数能大海捞针

游戏规则：非相干测量与随机性的作用

算法：发现的引擎

应用与跨学科联系

科学测量的新视角

解码我们的数字与社交世界

拓展感知的边界

超越稀疏性：与人工智能的新融合

美妙的捷径：为什么 $\ell_1$ 范数能大海捞针

美妙的捷径：为什么 $\ell_1$ 范数能大海捞针