
在一个数据泛滥的世界里,仅凭少数几次测量就捕捉到一个丰富、复杂的信号,这种想法似乎有悖常理。几十年来,信号采集一直遵循奈奎斯特-香农定理,该定理规定了严格的采样率,但在高维场景下,这变得难以维持——这个问题被称为“维度灾难”。本文介绍的压缩感知是一种革命性的范式,它通过利用信号一个基本但常被忽视的特性——稀疏性,来规避这些经典限制。它假定大多数信号的核心是简单的,而这种简单性可以被用来通过更少的测量看到更多的东西。首先,在“原理与机制”部分,我们将揭示这一“魔法”背后的理论,探索随机性和凸优化如何结合起来找到隐藏的稀疏信号。随后,在“应用与跨学科联系”部分,我们将见证这一强大思想如何改变医学成像、化学乃至我们对大脑的理解等多种领域。
如何能从看似数量少得可笑的测量中,重构出一个丰富、详细的信号?要颠覆像奈奎斯特-香农采样定理这样的信号处理基石,我们不能仅仅依靠聪明才智;我们必须偶然发现了一个关于信号本质的更深层次的真理。压缩感知背后的原理是一个美妙的故事,它关乎转变视角、拥抱随机性,以及发现简单几何形状在高维空间中令人惊讶的力量。让我们来层层揭开它的面纱。
几十年来,我们在信号采集中一直遵循着著名的奈奎斯特-香农采样定理。其原理极其优雅:如果你知道信号中存在的最高频率——即其带宽——你就可以通过以至少两倍于该频率的速率进行采样来完美地捕捉它。可以把它想象成录制一个交响乐团。如果你知道短笛能吹奏的最高音符,该定理会告诉你每秒需要捕捉多少个声压快照才能完美无瑕地记录下整场演出。对于这类带限信号,该理论是无懈可击的,重构也很简单:一个完美的“低通滤波器”就足够了。
但如果信号不是一个行为规矩的交响乐团呢?如果它是一张由锐利边缘和纹理定义的图像呢?边缘包含非常高的频率,因此奈奎斯特率会非常巨大。然而,直觉上我们知道,一张图像不仅仅是随机噪声;它具有结构。或者考虑一个能量集中在少数几个稀疏分布的高频段的信号。奈奎斯特-香农定理只关心那个最高的频率,会要求一个巨大的采样率,完全忽略了大部分频谱是空的事实。
这种刻板性在高维情况下会变成灾难性的失败,这个问题被称为维度灾难。想象一下,要对一个六维场进行采样,比如聚变反应堆中等离子体动力学的模拟。如果根据奈奎斯特法则,你需要大约10个样本来表征每个维度,一个简单的张量网格将需要 个采样点!。成本随维度呈指数增长,很快在计算上和物理上都变得不可能。如果信号的重要信息恰好落在你无法负担得起的采样频率范围之外,你的重构将不仅仅是稍有偏差,而是完全错误。它会自信地向你展示一个完全没有你所寻找特征的世界,无论你在那个有限频带内采集多少样本,这种误差都不会减小。
压缩感知始于对带限性这一前提的挑战。它提出了一种不同且通常更现实的结构:稀疏性。其核心思想是,大多数我们感兴趣的信号,虽然看起来复杂且高维,但其核心是简单的。一张图像主要由平滑的区域和边缘组成,这意味着它可以在小波基中用少量的重要系数来表示。一段钢琴和弦的音频是少数几个不同频率的总和,使其在傅里叶基中是稀疏的。一个来自结构监测系统的信号可能是稀疏的,因为损坏通常只发生在少数几个位置。这种能够被少数几个基本元素很好地近似的性质被称为可压缩性。压缩感知不问信号的带宽,而是问它的稀疏度 :即真正重要分量的数量。事实证明,这是一个更有力、更灵活的问题。
如果一个信号从根本上是简单的——仅由 个可能分量中的 个活动分量定义——我们如何设计一个测量系统来找到它们?
一个幼稚的方法是逐一测量每个潜在的分量。对于在傅里叶基中稀疏的信号,这就像在问:“频率1的能量是多少?频率2的呢?……”以此类推,对所有 个频率都问一遍。这是穷举式的,并不比经典采样好。如果你的测量设备有固有偏差,情况可能更糟。想象一下,你的设备只对低频敏感。如果信号的少数活动分量都在高频,你的设备将什么也看不到。这就是相干性问题:当你提出的“问题”(你的传感向量)与你试图得到的“答案”(信号的基元素)过于相似时。一个相干的系统对任何与它被设计用来看到的东西不相似的事物都是盲目的。
压缩感知的绝妙之处在于提出“聪明”的问题。一个聪明的问题是与信号的潜在结构非相干的问题。这是一个能同时从所有分量中获取一点点信息的问题,以一种复杂、混乱的方式。创建普适非相干性的终极工具是什么?随机性。
想象一下,我们将高维信号向量投影到几个随机选择的向量上。每个随机测量 都会产生一个单一的数值,它是 所有元素的随机组合。这个过程从根本上改变了混叠的性质。在经典欠采样中,混叠是结构化的、破坏性的;高频会以确定性的方式折叠并冒充低频。在压缩感知中,随机投影将混叠转化为一种弥散的、类似噪声的干扰,而这种干扰竟然可以被解开。通过使我们的测量过程与任何固定的基都最大限度地“不相似”,我们确保在每一次测量中都能捕捉到信号真实稀疏结构的痕迹。随机性,这个常被视为秩序和信号之敌的东西,成为了我们最强大的盟友。
现在,我们有了信号 的 次随机测量 ,由线性系统 描述。我们知道 是稀疏的,而且至关重要的是,我们的测量次数远少于信号的环境维度()。这意味着我们的方程组是严重欠定的,有无限多个解。我们如何找到我们正在寻找的那个唯一的、稀疏的信号 ?
最直接可以应用的物理原理是奥卡姆剃刀的一种形式:在所有可能产生我们测量的信号中,最简单的那个最可能是真实的。在这种情况下,“最简单”的信号是具有最少非零元素的信号。这引出了一个优化问题:找到满足 且具有最小“范数”(非零项的计数)的向量 。
不幸的是,这个问题是一个计算上的噩梦。寻找最稀疏解是NP难的,这意味着它属于一类目前尚无有效求解算法的问题。对于任何合理大小的信号,检查所有可能性所需的时间可能比宇宙的年龄还要长。
这里,现代科学中最美妙的数学“技巧”之一登场了。我们用难以处理的 “范数”替换为其最接近的凸近似:范数,它就是向量各分量绝对值之和,。问题转化为:找到满足 且具有最小 范数的向量 。这个新问题是凸的。事实上,它可以被重构为一个线性规划问题,即使对于数百万个变量,也能以惊人的效率求解。
为什么这个替换会奏效呢?一些几何直觉会有所帮助。在高维空间中,范数的单位“球”不是一个光滑的球体,而是一个在坐标轴上有尖角的多面体。 的所有解构成的集合形成一个平面(一个仿射子空间)。当这个解平面与不断膨胀的 球相交时,它极有可能首先在其中一个尖角处接触。而这些尖角对应的正是稀疏向量!通过最小化 范数,我们实际上是在以一种计算上可行的方式寻找最简单的解。
最小化的成功并不仅仅是几何上的巧合。它依赖于测量矩阵 的一个由随机性带来的深层属性。为了保证恢复的成功,我们的测量过程不能不可挽回地丢失关于稀疏信号的信息。具体来说,矩阵 不能将两个不同的稀疏向量映射得如此之近,以至于它们变得无法区分。
这个概念被优雅的限制等距性(Restricted Isometry Property, RIP)所形式化。如果一个矩阵 在被限制为仅作用于稀疏向量子集时,其行为像一个近等距变换——即近似保持长度的变换,那么就说它满足RIP。对于任何 -稀疏向量 ,RIP要求测量向量的长度 近似等于原始向量的长度 。数学上,对于某个小的常数 ,有 。
这个属性确保了测量矩阵 不会“压扁”任何稀疏向量,从而保留了它们的独特性。这是欠定系统 拥有足够信息进行稳定恢复的数学保证。最后,这个谜题的神奇之处在于,可以证明随机矩阵——那些由随机条目构成或通过从像傅里叶矩阵这样的基中随机抽样行而构成的矩阵——只要测量次数 略大于稀疏度 (大致按 的比例),就能以极高的概率满足RIP。随机性提供了使整个事业成功的几何保证。
压缩感知的理论并非一个脆弱的构造,仅适用于无噪声世界中的理想信号。其真正的力量在于其鲁棒性和多功能性。
真实世界的信号很少是完全稀疏的;它们是可压缩的,意味着其排序后的系数会迅速衰减。压缩感知能够优雅地处理这种情况。重构误差可以被证明受限于测量噪声和信号“尾部能量”(即被忽略的小系数中的能量)的组合。这里没有灾难性的失败,只有优雅的性能下降。
此外,其核心原理可以扩展到解决引人入胜的非线性问题,在这些问题中信息以更戏剧性的方式丢失。在1比特压缩感知中,我们只记录每次测量的符号( 或 ),丢弃所有幅度信息。在相位恢复中,这是X射线晶体学和天文学等领域的一个关键问题,我们只测量复值测量的平方幅度,丢失了所有相位信息。即使在这些看似无望的情况下,通过将测量物理知识与稀疏性假设相结合,也有可能构建出能够找到隐藏信号的恢复算法。
这并不是说压缩感知是魔法。它在物理和统计定律下运作,并有其自身的基本限制。例如,如果一个信号的分量非常弱,以至于它对测量的贡献完全被噪声淹没,那么任何算法都无法可靠地检测到它的存在。确定确切的稀疏度 本身就是一个深刻的统计挑战,当某些分量很微弱时,这在信息论上是困难的。
因此,深入压缩感知的旅程揭示了各种思想的美妙交织:信号模型从带宽到稀疏性的转变,为创造非相干性而刻意使用随机性,以及凸优化的惊人力量。它证明了对数据中隐藏结构的深刻理解如何能够引导出观察世界的全新方式。
现在我们已经探索了压缩感知美妙的理论机制,我们可能会问自己:“它有什么用?”这是一个合理的问题。这仅仅是数学家优雅的玩物,还是与我们生活的世界有所联系?答案既令人惊讶又深刻。这一个思想——即简单性可以被随机性利用来克服数据采集的传统限制——不仅仅是有用的;它是一个统一的原则,在众多学科中引起共鸣。
在本章中,我们将踏上一段旅程,去发现压缩感知的实际应用。我们将看到它如何缩短令人难以忍受的医学扫描等待时间,如何帮助化学家破译分子结构、物理学家窥探恒星之心,甚至可能解释我们大脑非凡的效率。在每一个新领域,我们都会发现我们学过的相同的核心原则,它们只是换了一身装束,但扮演着同样英雄的角色。这是科学思想统一性的绝佳展示,表明一个单一、强大的概念如何能提供一个新的视角来观察和解决那些曾经看似毫无关联的问题。
压缩感知最著名、也最能改变生活的应用或许是在磁共振成像(MRI)中。任何做过MRI扫描的人都了解那种体验:你被放置在一个狭窄、嘈杂的管子里,必须在感觉像永恒的时间里——通常是30到60分钟——保持完全静止。这种长时间扫描的原因很简单:为了创建清晰的图像,扫描仪必须费力地收集大量数据。它在“频率域”(称为k空间)中测量信号,根据信号处理的经典规则——奈奎斯特-香农定理——要获得一个有 个像素的图像,你需要收集至少 次测量。
但诀窍就在这里。虽然一张繁忙街道的照片可能纯粹是混乱的,但一张人体器官的医学图像却绝非如此。它充满了平滑的区域、清晰的边缘和重复的纹理。在像素域中,它可能看起来不“稀疏”,但如果我们将其翻译成另一种语言——比如小波或傅里叶变换的语言——事实证明,图像的本质可以用相对较少的重要系数来描述。其余的系数几乎为零,可以忽略。图像是可压缩的,或者说在某个变换域中是稀疏的。
这就是压缩感知登场的时刻。它告诉我们,如果底层对象是稀疏的,我们就不需要收集全部 个数据点。我们可以用少得多的测量,比如 次,只要我们巧妙地选择它们。MRI机器可以执行快速、随机化的采集,在k空间中跳跃,在看似随机的位置进行测量,而不是缓慢、有条不紊的扫描。这个过程会产生一个欠采样、有混叠且看似无用的数据集。
然而,它并非无用。通过结合该理论的三大支柱——稀疏性的假设、非相干采样策略(如随机化的k空间轨迹)和非线性重构算法(通常基于范数最小化)——我们可以解开这个谜题。该算法实际上是在说:“为我找到与我拥有的少量测量数据相符的最稀疏的图像。”奇迹般地,这个过程可以恢复出一张高保真度的图像,没有传统方法从同样欠采样的数据中重构时会出现的伪影。这在数学上的可能性保证是一个深刻而优美的结果,即限制等距性(RIP),它确保了随机化测量过程保留了稀疏信号的几何结构。结果如何?扫描时间可以缩短两倍、四倍甚至更多,减少了患者的焦虑,最小化了运动伪影,并显著提高了医院的吞吐量。
故事并未就此结束。这个框架足够灵活,可以融入其他知识来源。想象一下,一个病人既需要快速的MRI来观察软组织,又需要高分辨率的CT扫描来观察骨骼结构。CT扫描是完全采样的,但我们想加快MRI的速度。我们可以告诉压缩感知重构算法关于CT扫描的信息。算法可以被修改为不仅找到一个稀疏解,而且其边缘和结构与已配准的CT图像中的已知边缘相一致。这种利用来自另一种模态的“先验信息”使得重构更加鲁棒和准确,展示了压缩感知如何成为现代计算多模态成像的基石。
压缩感知的力量远远超出了视觉图像,延伸到光谱分析。在化学中,一种称为核磁共振(NMR)波谱学的技术是确定复杂分子三维结构的金标准,这对于药物发现和材料科学至关重要。与MRI非常相似,多维NMR实验功能强大,但速度也慢得令人痛苦,有时需要数天才能完成。原因相同:为了在谱维度上实现高分辨率,必须对一个巨大的数据点网格进行采样。
然而,我们再次发现最终产物是稀疏的。一个二维NMR谱图不是一团随机的颜色模糊;它由背景平坦的少数几个尖锐峰组成。每个峰对应于分子内的特定相互作用。通过采用一种称为非均匀采样(NUS)的策略,波谱学家可以从间接时间维度中一个稀疏、随机选择的点子集中获取数据。对这个不完整数据进行标准的傅里叶变换会产生一堆伪影,但压缩感知重构算法利用谱图的已知稀疏性来完美地消除数据混叠,并恢复出干净、高分辨率的谱图。这彻底改变了该领域,使得以前不切实际的实验成为可能。
同样的原理也让我们能够探测一些可以想象的最极端的环境。在托卡马克(一种旨在实现核聚变的装置)内部,超热的等离子体中翻滚着复杂的磁流体动力学(MHD)波。理解这些波对于控制等离子体至关重要。诊断这些波动需要在非常高的频率下测量信号,但数据系统常常跟不上。解决方案是什么?如果这些波动的频谱是稀疏的——即由少数几个特征模式主导——我们就可以使用压缩感知。一种称为“随机解调”的巧妙硬件技术使用高率随机序列将高频信号“混频”到较低的带宽,然后进行采样。这个混频过程是随机测量矩阵的物理实现。从这些压缩的测量中,最小化可以重构出等离子体湍流的完整、稀疏频谱,从而从看似不完整的数据中揭示聚变反应的物理学。
到目前为止,我们对“简单性”的概念是稀疏性——黑暗背景上的几个亮点。但这个想法更具普适性。它关乎识别和利用任何一种简单的、低维的结构。
想象一下观看一个繁忙城市广场的视频。它看起来极其复杂。然而,它可以被分解为两个简单得多的部分:一个在每一帧中几乎都相同的静态背景,以及一组在每帧中都稀疏的移动物体(人、车)。背景的简单性可以通过说视频矩阵(其中每一列是一帧)是低秩的来捕捉。前景的简单性是稀疏性。压缩感知的一个强大扩展,称为鲁棒主成分分析(RPCA),提供了一种分离这两个分量的方法。更值得注意的是,这种分离可以从视频的压缩测量中完成。通过求解一个同时最小化核范数(秩的代理)和范数(稀疏性的代理)的凸优化问题,我们可以从一小部分完整的视频数据中恢复出背景和前景。
这种在正确的“语言”中寻找结构的想法适用于许多工程学科。在设计天线时,工程师需要知道其远场辐射图。从近场测量中计算这个可能是一个困难的逆问题。然而,如果我们能假设复杂的场图在合适的数学基(如矢量球谐函数)中具有简单、稀疏的表示,那么我们就可以使用压缩感知。这使得工程师可以用少得多的物理测量来表征天线的性能,极大地加快了计算电磁学中设计和验证的周期。
也许最激动人心的联系是向内看,探究我们自己心智的运作方式。大脑无疑是信息处理的大师,以惊人的效率处理着大量的感官数据。它是如何做到的?虽然完整的答案是一个深邃的谜团,但压缩感知为此提供了诱人的一角。
神经科学中一个流行的理论是稀疏编码。其思想是,当大脑表征一个概念时——比如你祖母的脸——它不是通过让每个神经元都放电一点点来实现的。相反,一个非常小的、专门的神经元子集会强烈放电。这是一种稀疏表示。现在,假设你大脑的另一个部分需要“读取”这个神经编码。一个由一百万个编码神经元()组成的群体持有这个稀疏编码,但下游区域只有一万个读出神经元()。这么少的神经元如何能解码如此多神经元的活动?
答案可能就是压缩感知。如果从大的编码群体到小的读出群体的突触连接足够随机,那么这些连接就充当了一个测量矩阵。下游神经元接收到的是完整神经活动的压缩版本。而且因为原始编码是稀疏的,一个类似的解码算法(这在神经回路中似乎是可实现的)可以高保真地恢复原始刺激。这个框架甚至对生物学的混乱性也具有鲁棒性;它对于只是近似稀疏的编码和存在神经噪声的情况下也能很好地工作。大脑可能不仅仅是一台计算机;它可能是一个压缩传感器,其中看似随机的连接是一种设计特性,而不是缺陷,从而实现了令人难以置信的效率。这种学习世界稀疏字典并使用压缩感知来读取它的协同作用,是神经形态工程的一个强大模型。
当我们看到压缩感知不仅适用于物理信号,也适用于抽象数据和计算时,其真正的普适性就显而易见了。在计算经济学和金融学等领域,研究人员经常与“维度灾难”作斗争。当试图解决一个有许多变量的问题时(例如,为一个依赖于数十个市场因素的复杂金融衍生品定价),需要检查的可能性数量呈指数级增长,很快在计算上变得难以处理。
在这里,压缩感知也提供了一条生命线。通常,我们试图计算的高维函数(如动态规划问题中的价值函数)实际上是相当平滑和简单的。当在适当的多项式基中表示时,其系数向量可能是稀疏或可压缩的。传统方法,如构建一个完整的Smolyak网格,将需要在大量确定性选择的点集上评估该函数。但压缩感知的逻辑提出了一条不同的路径。通过在更小数量的随机选择的点上评估该函数,并求解一个正则化问题,我们可以重构稀疏系数向量,从而重构整个函数。这使我们能够为以前远不可及的维度中的问题找到精确的解,打破了维度灾难的束缚。
从病床到聚变反应堆的核心,从摄像机到我们头脑中的神经元,故事都是一样的。宇宙及其中的复杂系统,常常拥有一种隐藏的简单性。压缩感知给了我们一把钥匙——随机化测量与寻求稀疏性的优化相结合——来解锁这种简单性。它是一个美丽的证明,证明有时,看得更多的最佳方式是看得更少。