try ai
科普
编辑
分享
反馈
  • 压缩感知

压缩感知

SciencePedia玻尔百科
核心要点
  • 压缩感知通过利用信号在特定域中的内在稀疏性,能够以远低于奈奎斯特速率的采样率重建信号。
  • 该理论依赖于随机测量,这些测量在限制等距性质(RIP)的制约下,在欠采样过程中保留了稀疏信号的信息。
  • 重建算法,如基追踪(ℓ1\ell_1ℓ1​-最小化)和OMP等贪婪方法,能有效地从压缩数据中找到稀疏信号。
  • 这一范式具有变革性的应用,能够实现更快的MRI扫描、改进的NMR波谱分析,以及在复杂模型中进行高效的不确定性量化。

引言

几十年来,信号处理领域一直被一条神圣的法则所支配:奈奎斯特-香农采样定理。该定理规定,为了无损地捕获信号,必须以至少是其最高频率两倍的速率进行采样。这一原则虽然是基础,但常常导致采集大量数据,而其中大部分是冗余的。压缩感知彻底颠覆了这一范式,提出了一个革命性的问题:我们是否能够通过远低于奈奎斯特速率的采样来捕获信号中的所有关键信息?本文通过揭示其关键不在于信号的带宽,而在于其固有的简单性或“稀疏性”,来解答这个看似矛盾的问题。

本次压缩感知之旅旨在从第一性原理到开创性应用,构建一幅完整的图景。在“原理与机制”一章中,我们将揭示该理论的数学基石,探索稀疏性的关键概念、随机测量的惊人有效性,以及限制等距性质提供的稳健保证。我们还将剖析那些执行重建“魔法”的算法,找到隐藏在压缩数据中的稀疏信号。随后,“应用与跨学科联系”一章将展示这些思想的变革性影响,说明压缩感知如何实现更快的MRI扫描、革新生物学中的分子分析、驯服计算科学中的“维度灾难”,甚至揭示了其与统计物理学基本定律的深刻联系。

原理与机制

要真正领会压缩感知的革命性,我们必须超越“更少采样”这一简单概念,深入其背后美丽的数学景观。这是一个关于结构、随机性和几何学的故事,我们将从中发现,重要的不是数据的绝对数量,而是其隐藏的信息内容。

稀疏性的秘密:“简单”意味着什么?

压缩感知的整个大厦建立在一个单一而强大的基础之上:​​稀疏性​​原理。这个想法是,我们关心的大多数信号——图像、声音、医学扫描——本质上都是简单的。它们可能看起来复杂,但可以用极少数基本分量来描述。秘诀在于选择正确的“语言”或“字典”来描述它们。

想象两种图片。一种是彩虹的照片,充满了平滑、缓慢变化的颜色。另一种是卡通画,由平坦的色块和锐利、清晰的轮廓构成。哪一个更“简单”?

答案取决于你如何看待。如果你的语言由平滑的波组成,比如傅里叶变换的正弦和余弦波,那么彩虹就是简单的。你只需将少数几个这样的波相加,就可以构建出那种柔和的色彩梯度。在这种情况下,信号是​​合成稀疏​​的:它可以被合成为来自某个字典的原子(基)的稀疏组合,x=Dsx = Dsx=Ds,其中系数向量sss只有很少的非零项。

然而,用平滑的波来描述卡通画则是一场噩梦。要捕捉那些锐利的边缘,你需要无数个波的嘈杂混合!但如果你把语言换成一种描述变化的语言,卡通画就变得异常简单。如果你在图像上移动,几乎所有地方的颜色值都是恒定的,只在轮廓处发生变化。一个表示梯度(即从一个像素到下一个像素的变化)的信号将几乎完全为零,只在边缘处出现非零的尖峰。这就是​​分析稀疏​​:信号xxx在被某个算子Ω\OmegaΩ分析后变得稀疏,即∥Ωx∥0\|\Omega x\|_0∥Ωx∥0​很小。

这种区别是深刻的。稀疏性不是信号本身的内在属性,而是其表示形式的属性。压缩感知的艺术始于找到一个能揭示信号隐藏的简单性的正确域。

随机测量的魔力

一旦我们知道一个信号是稀疏的,我们该如何测量它?天真的方法——比如,测量图像的头几个像素——是灾难性的。如果所有重要信息都在我们没有看到的那部分图像中怎么办?关键在于设计能够从信号的所有部分捕获一点点信息的测量方式。

令人惊讶的答案是使用​​随机性​​。我们不是测量单个像素,而是测量所有像素的随机加权平均值。如果我们的信号是Rn\mathbb{R}^nRn中的一个向量xxx(可以看作一个包含nnn个像素值的长列表),我们创建一个大小为m×nm \times nm×n的测量矩阵AAA,其中m≪nm \ll nm≪n。这个矩阵的元素是从一个随机分布(如高斯分布或钟形曲线分布)中抽取的。每一次测量yiy_iyi​都是一个随机向量aia_iai​与信号xxx的点积:yi=ai⊤xy_i = a_i^\top xyi​=ai⊤​x。

这究竟为什么会奏效?这似乎只是在搅乱信息。但在这里,一个深刻而美妙的数学现象向我们伸出了援手:​​测度集中​​。在高维空间中,随机性的行为方式非常可预测。如果你对一个向量进行随机投影,投影后向量的长度几乎肯定会非常接近原始向量的长度,只是按一个常数进行了缩放。

我们可以通过一个简单的计算看到这一点。如果我们选择矩阵AAA的元素为来自高斯分布N(0,1/m)\mathcal{N}(0, 1/m)N(0,1/m)的随机变量,我们可以问:我们的测量向量y=Axy=Axy=Ax的期望能量是多少?答案是惊人的:

E[∥Ax∥22]=∥x∥22\mathbb{E}\big[\|Ax\|_2^2\big] = \|x\|_2^2E[∥Ax∥22​]=∥x∥22​

平均而言,测量过程完美地保留了原始信号的能量,或长度的平方!更进一步,方差(它告诉我们这个值围绕其平均值的波动程度)非常小,并且随着我们进行更多测量而缩小:

Var( ⁣∥Ax∥22)=2m∥x∥24\mathrm{Var}\big(\!\|Ax\|_2^2\big) = \frac{2}{m}\|x\|_2^4Var(∥Ax∥22​)=m2​∥x∥24​

随着测量次数mmm的增加,测得的能量∥Ax∥22\|Ax\|_2^2∥Ax∥22​会急剧地集中在真实能量∥x∥22\|x\|_2^2∥x∥22​附近。这意味着我们的随机测量机器远非破坏信息,而是在像一把近乎完美的尺子一样工作:它保留了信号的长度。

牢不可破的保证:限制等距性质

这种测度集中是一个概率性陈述。为了建立一个稳健的理论,我们需要一个确定性的保证。这个保证被称为​​限制等距性质(RIP)​​。

如果一个测量矩阵AAA对于所有稀疏向量都近似于一个等距变换,那么就说它满足RIP。等距变换是一种完全保留距离的变换。RIP表明,对于任何kkk-稀疏向量xxx,其测量长度∥Ax∥2\|Ax\|_2∥Ax∥2​几乎等于其真实长度∥x∥2\|x\|_2∥x∥2​。更正式地说,存在一个小数δk<1\delta_k < 1δk​<1,使得:

(1−δk)∥x∥22≤∥Ax∥22≤(1+δk)∥x∥22(1 - \delta_k)\|x\|_2^2 \le \|Ax\|_2^2 \le (1 + \delta_k)\|x\|_2^2(1−δk​)∥x∥22​≤∥Ax∥22​≤(1+δk​)∥x∥22​

这是来自测量矩阵的承诺:“我不会过多地扭曲任何kkk-稀疏信号。”它确保了两个不同的稀疏信号x1x_1x1​和x2x_2x2​不会被映射到同一次测量结果上,因为∥A(x1−x2)∥22≈∥x1−x2∥22>0\|A(x_1 - x_2)\|_2^2 \approx \|x_1 - x_2\|_2^2 > 0∥A(x1​−x2​)∥22​≈∥x1​−x2​∥22​>0。这个性质是保证我们能够唯一恢复原始信号的理论基石。

美妙之处在于,只要我们进行足够多的测量,简单的随机矩阵(如高斯矩阵或伯努利矩阵)被证明能以极高的概率满足RIP。稀疏向量的集合是整个空间Rn\mathbb{R}^nRn的一个“小”子集,我们的随机矩阵极不可能在这个特定的子集上表现不佳。

价值连城的问题:需要多少次测量?

RIP给了我们以低于奈奎斯特速率进行采样的信心。但可以低到什么程度?我们到底需要多少次测量mmm?这就是压缩感知最引人注目的成果之一出现的地方。对于一个维度为nnn且kkk-稀疏的信号,稳定恢复所需的测量次数mmm的尺度为:

m≳C⋅klog⁡(n/k)m \gtrsim C \cdot k \log(n/k)m≳C⋅klog(n/k)

其中CCC是一个小常数。让我们来剖析这个优雅的公式。

  • kkk这一项完全合乎情理。一个kkk-稀疏信号有kkk个非零值需要我们确定。它拥有kkk个“自由度”。我们必须至少进行kkk次测量才能解出kkk个未知数。这是信息论的下限。
  • log⁡(n/k)\log(n/k)log(n/k)这一项是神奇的成分。这是我们为不知道这kkk个非零值位于何处而付出的代价。在nnn个可能的位置中,我们必须找到正确的kkk个。对数因子告诉我们,这种搜索在高维空间中异常高效。

这个结果代表了一次真正的范式转变。由Nyquist和Shannon建立的经典采样理论告诉我们,采样率必须与信号的​​带宽​​成正比。压缩感知告诉我们,采样率只需与信号的​​信息率​​或其稀疏性成正比。对于一个占据巨大频谱范围但本质上简单的信号(比如宽频率范围内的几个广播电台),这种差异是革命性的。我们可以以与电台数量成正比的速率进行采样,而不是与整个广播频段的总宽度成正比。

大海捞针:重建算法

我们已经设计了测量方式并采集了样本。现在我们有了压缩的测量向量y∈Rmy \in \mathbb{R}^my∈Rm,需要解出未知的稀疏信号x∈Rnx \in \mathbb{R}^nx∈Rn。这是一个求解欠定线性方程组y=Axy = Axy=Ax的问题,其中未知数的数量远多于方程的数量(n>mn > mn>m)。如果没有稀疏性假设,将会有无穷多个解。有了这个假设,我们的任务就是找到那个同时也是稀疏的解。

阻力最小的路径:凸松弛

最直接的方法是寻找与我们的测量结果一致的最稀疏的向量xxx。这意味着最小化非零项的数量,即∥x∥0\|x\|_0∥x∥0​。不幸的是,这是一个NP难问题;需要检查的可能性数量呈组合爆炸式增长,使得它对于任何实际规模的问题都计算上不可行。

突破来自于一个优美的几何洞察。我们可以用难以处理的ℓ0\ell_0ℓ0​-“范数”的最近似的凸亲戚:​​ℓ1\ell_1ℓ1​-范数​​,∥x∥1=∑i∣xi∣\|x\|_1 = \sum_i |x_i|∥x∥1​=∑i​∣xi​∣。优化问题于是变为:

minimize ∥x∥1subject toAx=y\text{minimize} \ \|x\|_1 \quad \text{subject to} \quad Ax = yminimize ∥x∥1​subject toAx=y

这被称为​​基追踪(BP)​​。由于ℓ1\ell_1ℓ1​-范数和线性约束都是凸的,这个问题可以被高效地解决。从几何上看,最小化ℓ1\ell_1ℓ1​-范数就像把一个菱形的“球”扩大,直到它刚好接触到由Ax=yAx=yAx=y定义的解空间。菱形的角点位于坐标轴上,因此解很可能在一个许多坐标为零的点上找到——一个稀疏解!

在现实世界中,我们总会遇到噪声。我们的测量更好地建模为y=Ax+wy = Ax + wy=Ax+w,其中www是某个小的噪声向量。坚持Ax=yAx=yAx=y的精确相等是愚蠢的;它会迫使我们的模型去拟合噪声。相反,我们放宽约束,允许一个小的偏差。我们假设噪声能量是有界的,∥w∥2≤ϵ\|w\|_2 \le \epsilon∥w∥2​≤ϵ,这意味着我们的真实信号x⋆x^\starx⋆必须满足∥Ax⋆−y∥2≤ϵ\|Ax^\star - y\|_2 \le \epsilon∥Ax⋆−y∥2​≤ϵ。我们的恢复问题就变成了​​基追踪去噪(BPDN)​​:

minimize ∥x∥1subject to∥Ax−y∥2≤ϵ\text{minimize} \ \|x\|_1 \quad \text{subject to} \quad \|Ax - y\|_2 \le \epsilonminimize ∥x∥1​subject to∥Ax−y∥2​≤ϵ

这会找到最稀疏的信号,其预测测量值位于我们实际测量值周围半径为ϵ\epsilonϵ的小“球”内,从而优雅地防止了对噪声的过拟合。

侦探的方法:贪婪算法

虽然凸优化很强大,但它可能计算量很大。另一种方法是像侦探一样思考,一次构建一部分解。这就是​​贪婪算法​​家族。

像​​正交匹配追踪(OMP)​​和​​压缩采样匹配追踪(CoSaMP)​​这样的算法遵循一个直观的迭代过程:

  1. ​​识别:​​ 找到与当前残差(即我们尚未解释的测量值 yyy 的部分)最相关的AAA的列(即“原子”)。这个原子是我们最可能的新嫌疑对象。
  2. ​​更新:​​ 将这个新的嫌疑对象加入我们的活动原子集合中。
  3. ​​估计:​​ 仅使用我们目前已识别的原子,解决一个小的最小二乘问题。这一关键步骤赋予了OMP“正交”之名,确保我们利用当前的嫌疑对象集合找到最佳拟合。
  4. ​​重复:​​ 更新残差并返回步骤1,直到我们找到kkk个原子或者残差小到与预期噪声水平相当。

这些贪婪方法通常比基追踪快得多。虽然在存在高测量噪声或高度相干的字典(其中原子看起来非常相似)时,它们可能不够稳健,但在许多实际场景中它们非常有效,展示了解决同一基本问题的不同哲学方法。

挑战极限:1比特压缩感知

这些核心原理到底有多强大?让我们考虑一个极端情况。如果我们的测量设备极其简陋,每次测量只能记录一个比特——一个简单的“是”或“否”?例如,我们测量yi=sign⁡(ai⊤x)y_i = \operatorname{sign}(a_i^\top x)yi​=sign(ai⊤​x),这只告诉我们随机投影是正还是负。

看起来我们几乎丢掉了所有信息。我们完全不知道投影的幅度!然而,恢复仍然是可能的。每一次1比特测量都提供了一个简单的几何约束:它告诉我们未知的信号向量xxx必须位于一个特定超平面(由ai⊤z=0a_i^\top z = 0ai⊤​z=0定义)的哪一侧。

随着每次新的测量,我们用另一个随机超平面切割这个巨大的nnn维空间,将我们信号的位置限制在一个不断缩小的区域内。只要有足够多的这些1比特约束,可行区域就会变得足够小,以至于我们可以精确定位隐藏在其中的稀疏信号。我们能从如此极端量化的数据中恢复信号这一事实,或许是压缩感知几何基础的力量和优雅最引人注目的证明。它证实了真正重要的不是原始数据,而是隐藏在其中的结构信息。

应用与跨学科联系

既然我们已经掌握了压缩感知的原理——稀疏性、非相干性和凸优化的美妙结合——你可能会问一个最重要的问题:“它有什么用?”事实证明,答案惊人地广泛。从看似不足的信息中恢复丰富信号的魔力,不仅仅是一个数学上的派对戏法。它是一个基本原理,已经在医学、生物学、工程学,甚至理论物理学的抽象世界等迥然不同的领域开辟了新的前沿。

在本章中,我们将踏上穿越这些不同领域的旅程。我们将看到这一个优雅的思想如何让我们制造出更好的医疗设备,更深入地窥探生命的机制,设计更安全、更坚固的结构,并最终,甚至一瞥信息本质与支配物质的物理定律之间深刻的统一性。贯穿始终的主题简单而强大:用更少的资源,做更多的事情。

重绘我们的世界:从心跳到材料

或许压缩感知最直观的应用在于信号和图像领域,这是我们感知和测量世界的基本构造。

想象一下设计一款低功耗的可穿戴设备来监测患者的心脏健康。传输或处理的每一比特数据都会消耗宝贵的电池寿命。由奈奎斯特-香农定理决定的传统智慧会要求以非常高的速率对心电图(ECG)信号进行采样,以捕捉其所有细节。但压缩感知提供了一个巧妙的替代方案。一个ECG信号,虽然看起来复杂,但在正确的数学语言(如小波基)中表示时,通常是“稀疏的”。设备不必每秒采集数千个样本,而是可以只进行几百次精心选择的、看似随机的测量。从这些“压缩”的数据中,完整的高分辨率心跳可以在基站完美地重建出来。这不仅仅是一个理论上的好奇心;它催生了新一代更小、续航更长、侵入性更小的医疗设备。

同样的原理也彻底改变了医学成像,尤其是在磁共振成像(MRI)中。对于患者来说,MRI扫描可能是一个漫长而幽闭的过程,因为机器必须在频域中费力地“逐片”采集数据来构建图像。压缩感知打破了这一范式。通过认识到医学图像也具有高度稀疏性(在小波或其他变换域中),MRI扫描仪现在可以在一小部分时间内采集一小部分数据点。结果呢?更快的扫描,这意味着患者的不适感减少,为儿童或危重病人减少了运动伪影,并且能够实时捕捉体内的动态过程,比如心脏的跳动。

“感知”的概念超越了生物学范畴。考虑一下在材料科学中表征一种新聚合物的挑战。通过用不同频率的振动探测材料并测量其响应,科学家可以推断其内部属性,如粘弹性。这种响应通常由少数内部松弛“模式”决定。完整的频谱可以仅从少数几个精心选择的频率点的测量中重建出来。在这里,“信号”是材料的复模量,“稀疏分量”是其少数主导的麦克斯韦松弛模式的强度。压缩感知提供了一条从稀疏频率测量到完整表征材料内部运作的直接路径。

窥探分子宇宙

如果说压缩感知可以重绘宏观世界,那么它对无形的分子世界的影响则更为深远。在这里,实验往往极其缓慢且数据密集,挑战着物理测量的极限。

最引人注目的成功之一是在核磁共振(NMR)波谱学中,这是确定蛋白质和其他生物分子三维结构的一项基石技术。为了解析一个大蛋白质的结构,科学家必须进行多维NMR实验,这可能需要数天甚至数周的连续测量时间。原因在于他们必须采样一个巨大的多维时间点网格来生成最终的谱图。然而,最终的谱图大部分是空白空间,点缀着编码蛋白质结构的稀疏峰集。

通过用“非均匀采样”(NUS)方案——在更少数量的随机选择的时间点进行测量——取代传统的、缓慢的、均匀的网格采样,实验时间可以被大幅削减。一个基于ℓ1\ell_1ℓ1​-最小化的重建算法随后会利用这些稀疏的、非均匀的样本来填补空白,恢复出高分辨率的谱图,而直接获取这样的谱图需要长一个数量级的时间。对于一个网格点超过30,000个、预期峰约300个的实验,压缩感知仅用数千个样本就能实现忠实的重建。这使得研究比以往更大、更复杂的生物系统成为可能。

压缩感知的精神也以不同的形式出现在生物信息学领域。想象一下比较两个人的基因组以寻找少数遗传差异,或“错配”。这就像在两本百科全书的副本中寻找散落的几个错别字。暴力方法是把两本书从头到尾读一遍。一种更聪明的方法,被称为组合分组测试,与压缩感知类似。不是一次检查一个位置,而是可以设计“分组测试”,比如使用“间隔种子”来一次检查多个位置。问题不再是线性的(“这个位置的值是多少?”)而是逻辑性的(“这组位置中至少有一个错配吗?”)。如果错配集合是稀疏的,人们可以设计出少数这样的分组测试来唯一地精确定位所有差异。保证成功的数学条件,即“ttt-不交性质”,是线性压缩感知中限制等距性质的组合学表亲,展示了其背后思想的深刻和统一性。

驯服维度灾难

在计算科学和工程学中,研究人员构建复杂的计算机模型来模拟从飞机机翼上的气流到金融市场的行为等一切事物。一个主要挑战是“不确定性量化”(UQ):你如何解释你的模型输入——材料属性、环境条件、经济指标——永远无法以完美的确定性得知这一事实?。

如果一个模型有,比如说,25个不确定的输入参数,探索所有可能性的范围将需要天文数字般的模拟次数,这个问题就是著名的“维度灾难”。但在这里,稀疏性再次伸出援手。对于许多物理和经济系统,我们关心的输出(如机翼上的升力或投资组合崩溃的风险)只对少数输入参数或它们的相互作用敏感。在多项式混沌展开的数学语言中,描述输出的函数是稀疏的。

压缩感知提供了利用这一点的工具。通过为一个精心选择的小量输入参数组合运行昂贵的模拟,我们可以使用像LASSO或基追踪去噪这样的重建算法来找到多项式展开的少数重要系数。这给了我们一个廉价、准确的代理模型,它捕捉了系统对不确定性的响应,这是传统方法在计算上不可能完成的壮举。这使得工程师能够设计出更稳健、更可靠的系统,经济学家能够更好地理解复杂系统中风险的关键驱动因素。

最深刻的联系:统计物理学的视角

到目前为止,我们的旅程一直是穿越应用的世界。但压缩感知的故事最终以一个深刻而美丽的启示达到高潮,将其与物质的基本物理学联系起来。

想一想像水结成冰这样的相变。当你降低温度时,水分子随机运动。然后,在恰好0∘0^{\circ}0∘ C时,发生了一个突然、剧烈、集体的变化:它们锁定成有序的晶格。系统的属性突然改变了。

压缩感知也有自己的相变。对于给定大小和稀疏度的信号,存在一个临界的测量次数。如果你的测量次数超过这个阈值,你就可以完美地重建信号。如果你哪怕少一次测量,恢复就突然变得不可能。系统从一个完美信息恢复的相过渡到一个完全失败的相。

现在,考虑一个被称为“自旋玻璃”的奇异物理系统。它是一组微小的磁自旋的集合,其相互作用是随机且相互冲突的——一些邻居想要指向同一方向,另一些则指向相反方向。在高温下,自旋是无序的。随着温度降低,系统试图找到一个低能量状态,但相互冲突的相互作用创造了一个具有许多局部最小值的“受挫”景观。在临界温度以下,系统冻结成一个复杂的玻璃态。

这就是惊人的联系:寻找自旋玻璃基态的数学问题与在压缩感知中寻找最稀疏解的问题在深层次上是类似的。压缩感知中的测量次数扮演了自旋玻璃中温度的角色。压缩感知中信号恢复的急剧阈值精确对应于自旋玻璃中相变的临界温度。物理学家们发展了一套强大而奇异的工具,如“复本方法”,来分析这些复杂、受挫的系统。值得注意的是,这些相同的工具可以用来以惊人的准确性预测压缩感知中相变的确切位置。

这告诉我们一些深刻的事情。我们从少数测量中提取稀疏信息的能力的突然极限,并不仅仅是某个算法的怪癖。它是一种集体现象,受控于支配物理物质如何自我组织的同样深刻的统计定律。在探索信息的过程中,我们发现自己正凝视着物理学的倒影。这是对科学世界固有之美和统一性的有力证明。