首页求解欠定线性系统：L1 与 L2 范数的...

求解欠定线性系统：L1 与 L2 范数的力量

玻尔百科

定义

求解欠定线性系统：L1 与 L2 范数的力量是一个数学框架，用于从欠定系统固有的无限个可能解中筛选出唯一的、具有实际意义的答案。该领域的核心机制在于正则化技术，其中最小化 L2 范数可产生密集的最小能量解，而最小化 L1 范数则能促进稀疏性，成为压缩感知的理论基础。这些原则在医学成像、信号处理和生物网络重建等多个学科领域得到了广泛应用。

核心要点

欠定线性系统拥有无穷多个解，需要一个额外的原则来选择唯一的、有意义的答案。
最小化 L2 范数产生唯一的“最小能量”解，该解在几何上是离原点最近的点，并且往往是稠密的。
最小化 L1 范数促进稀疏性，有效地找到非零元素最少的解，这是压缩感知的基石。
L1 和 L2 正则化之间的选择取决于对信号的基本假设：L2 适用于分布式的现象，而 L1 对稀疏信号功能强大。
这些原则催生了变革性的应用，包括快速 MRI 扫描、分离混合音频信号以及从有限数据中重建复杂的生物网络。

引言

在数学、科学和工程领域，我们经常遇到方程组中未知数多于约束条件的情况。这些被称为欠定线性系统，它们带来了一个有趣的挑战：它们没有单一、唯一的解，而是存在一个充满无限可能性的景象。然而，这种模糊性并非死胡同，而是一个提出更深层次问题的机会：在所有有效的解中，哪一个对我们的特定问题最“有意义”或“最好”？答案在于选择一个指导原则，这个原则编码了我们对世界的假设，从而将一个抽象的数学问题轉化為一個強大的發現工具。

本文将探讨我们如何在这个无限解的宇宙中导航。其结构旨在引导您从基本概念走向其革命性的应用。

原理与机制 将介绍选择解的两个主要原则：以 L2 范数体现的最小能量原则，它寻求最“紧凑”的答案；以及由 L1 范数倡导的稀疏性原则，它寻求具有最少活动分量的最简单答案。我们将揭示每个原则之所以有效的优美几何直觉。
应用与跨学科联系 将展示这些抽象思想如何改变了现实世界的技术。我们将看到 L2 和 L1 最小化如何成为从高效机器人学和抗噪声图像重建到现代奇迹——压缩感知的引擎，后者使我们能够在医学成像和化学等领域通过更少的测量看到更多。

通过探索这些概念，您将深刻理解如何将模糊性转化为一种选择，从而解锁深刻的见解并推动整个科学领域的创新。

原理与机制

想象一下，有人让你用两种分量 $x_1$ 和 $x_2$ 的组合来表示一个数量，比如说数字 4。规则可能是 $x_1 + x_2 = 4$ 。你该怎么做？你可以选择 $x_1=2$ 和 $x_2=2$ 。或者 $x_1=1$ 和 $x_2=3$ 。或者 $x_1=8$ 和 $x_2=-4$ 。事实上，存在一整条线的可能性，一个由有效解组成的连续统。这就是欠定系统的核心：你拥有的自由度、变量比你拥有的约束或方程要多。

在科学和工程领域，这种情况不是一个需要修复的问题，而是一个可以利用的机会。从将多项式模型拟合到少量数据点到从传感器读数重建医学图像，我们常常面临一个广阔、无限的可能解空间。于是，根本问题从“那个解是什么？”转变为一个更深刻的问题：“在所有无限的可能性中，哪一个是最好的？”

要回答这个问题，我们需要一个原则，一个选择的标准。这个标准的选择不是任意的；它定义了我们找到的解的本质特征，并开启了非凡的应用。让我们来探讨导航这个解宇宙的两个最强大、最美丽的原则。

最小能量原理：L2 范数

物理学和工程学中最优雅、最古老的原则之一是最小作用量或最小能量原理。在很多方面，自然界似乎是高效的。对于一个解向量 $\mathbf{x} = (x_1, x_2, \dots, x_n)$ ，其“能量”通常与其分量的平方和 $x_1^2 + x_2^2 + \dots + x_n^2$ 相关联。这个量是欧几里得范数的平方，或称L2-范数，记作 $\|\mathbf{x}\|_2^2$ 。选择具有最小 L2-范数的解意味着我们正在寻找日常长度意义上“最小”或最“紧凑”的解。

这在几何上意味着什么？线性系统（如 $A\mathbf{x}=\mathbf{b}$ ）的所有解的集合构成一个“扁平”的对象——一条线、一个平面或一个称为仿射子空间的高维等价物。我们正在这个整个子空间中寻找距离原点（零向量）最近的那个点。想象解集是一个向所有方向无限延伸的平坦桌面。如果你悬停在原点，最小范数解就是桌面上你正下方的那个点。它是从原点垂直到桌面的垂线与桌面的交点。

这种几何直觉揭示了一个深刻的真理。任何向量 $\mathbf{x}$ 都可以唯一地分解为相互垂直的两个部分：一部分位于矩阵 $A$ 的行空间中（由其行向量张成的空间），另一部分位于 $A$ 的零空间中（满足 $A\mathbf{z}=\mathbf{0}$ 的向量 $\mathbf{z}$ 的集合）。我们可以将任何解写成 $\mathbf{x} = \mathbf{x}_R + \mathbf{x}_N$ 。当我们应用矩阵 $A$ 时，得到 $A\mathbf{x} = A(\mathbf{x}_R + \mathbf{x}_N) = A\mathbf{x}_R + A\mathbf{x}_N = A\mathbf{x}_R + \mathbf{0} = \mathbf{b}$ 。这意味着行空间分量 $\mathbf{x}_R$ 本身就是一个完全有效的解！

根据勾股定理，完整解的长度为 $\|\mathbf{x}\|^2 = \|\mathbf{x}_R\|^2 + \|\mathbf{x}_N\|^2$ 。为了使 $\|\mathbf{x}\|$ 尽可能小，我们必须选择零空间分量为零！。最短的解是那个完全位于 $A$ 的行空间中的解。它没有任何被 $A$ 湮灭的“浪费”分量。

这个优美的几何见解为我们提供了一个找到这个特殊解的具体方法。它可以使用著名的Moore-Penrose 伪逆直接计算，对于一个满秩的欠定系统，其公式为： $\mathbf{x}_{\text{min}} = A^T(AA^T)^{-1}\mathbf{b}$ 这个公式可能看起来令人生畏，但它正是我们几何投影的代数体现。它是用来从传感器读数中找到最 plausible 的源强度或为简单线性模型找到最小范数系数的工具。

这个思想的力量远远超出了具有有限数量分量的向量。我们可以将同样的逻辑应用于涉及函数的问题，这些函数可以被看作是无限维空间中的向量。例如，我们可能想找到一个函数 $x(t)$ ，它具有某些平均性质（比如它对 $t$ 和 $t^2$ 的积分），同时具有最小可能的“能量”，定义为 $\int x(t)^2 dt$ 。在这里，解也是通过投影到由约束函数定义的子空间上来找到的，从而得到满足我们需求的最优雅、最高效的函数。这种统一性，即相同的正交投影核心原理既适用于简单的 3D 空间，也适用于抽象的函数空间，是数学之美的一个标志。

通过优化理论的视角，甚至还有另一条通向相同解的路径。通过将寻找最小范数解的问题表述为一个约束优化问题，可以构造一个相关的“对偶”问题。通常，这个对偶问题更容易解决，但通过强对偶性的魔力，它的解能为我们提供原始（ primal）问题的精确答案。这就像通过观察一个复杂物体更简单的影子来理解它一样。

稀疏性原理：L1 范数

几个世纪以来，最小能量的 L2-范数解一直占据主导地位。但是，如果我们想要的不是“最小”呢？在当今的数据科学、信号处理和机器学习世界中，一种不同的“简单”概念变得至关重要：稀疏性。一个稀疏解是具有最少可能非零项的解。想象一个大部分是静音的信号，或者一张大部分是单一颜色的图像。最自然的表示是只列出不是零的部分。

我们如何衡量稀疏性？最直接的方法是L0-“范数”， $\|\mathbf{x}\|_0$ ，它只是计算一个向量中非零元素的数量。找到最小化 $\|\mathbf{x}\|_0$ 的 $A\mathbf{x}=\mathbf{b}$ 的解，将给我们提供最稀疏的可能解。不幸的是，这是一个组合 nightmare。需要检查的可能性数量呈指数级增长，使其对于除了极小的问题之外的所有问题都计算上不可行。

这时，另一位英雄登场了：L1-范数， $\|\mathbf{x}\|_1 = |x_1| + |x_2| + \dots + |x_n|$ 。L1-范数就是各分量绝对值之和。为什么它如此特别？事实证明，最小化 L1-范数是最小化 L0-范数的最佳凸近似。凸性是优化中的一个神奇属性，因为它将一个不可能的搜索变成了一个可以有效解决的可行问题。这种方法，即在 $A\mathbf{x}=\mathbf{b}$ 的约束下最小化 L1-范数，就是著名的基追踪（Basis Pursuit）。

L1-范数促进稀疏性的原因，再次，在几何上是优美的。考虑这些范数的“单位球”——所有范数为 1 的向量的集合。

对于 L2-范数，单位球是一个球面（在 2D 中是一个圆；在 3D 中是一个球体）。它完美地圆润光滑。
对于 L1-范数，单位球是一个菱形（在 2D 中是一个旋转了 45 度的正方形；在 3D 中是一个八面体）。它有尖锐的角，而这些角恰好位于坐标轴上。

现在，让我们回到我们的问题：找到一个位于解平面 $A\mathbf{x}=\mathbf{b}$ 上且范数尽可能小的点。我们可以通过从原点开始，将一个微小的范数球扩大直到它刚好接触到解平面来形象化这个过程。

如果我们扩大一个球形的 L2-球，它通常会接触到平面上的一个通用点，对坐标轴没有特殊偏好。解向量的所有分量很可能都是非零的。
如果我们扩大一个菱形的 L1-球，它最先会在哪里接触到平面？以压倒性的高概率，它会在它的一个尖角处接触！一个角上的点是位于坐标轴上的点，这意味着它的大多数其他坐标都是零。这就是 L1 最小化的奇迹：它的几何结构本身就偏爱稀疏的解。

这个单一的想法是压缩感知革命背后的引擎。它使我们能够从曾经被认为数量小得不可能的测量中重建高分辨率的 MRI 扫描、详细的天文图像或清晰的音频信号。它之所以有效，是因为我们假设真实信号在某个域（如小波基）中是稀疏的，通过寻求最小 L1-范数解，我们能够以惊人的保真度恢复它。强大的数学定理提供了精确的条件，在这些条件下，稀疏信号可以使用该原理被完美且唯一地恢复，让我们对这个魔术充满信心。

一点警示：稳定性

无论我们选择最小能量的 L2 解还是稀疏的 L1 解，一个最后的实际问题仍然存在：我们的答案有多可靠？现实世界的测量从来都不是完美的；我们方程 $A\mathbfx=\mathbf{b}$ 中的向量 $\mathbf{b}$ 总是会包含一些噪声。我们测量中的一点点噪声会导致我们解中的微小变化，还是灾难性的变化？

答案编码在问题的条件数中。对于最小 L2-范数问题，这可以量化为矩阵 $A$ 的最大奇异值与最小奇异值之比。一个小的条件数意味着问题是良态的；解是稳定的，对噪声具有鲁棒性。然而，一个大的条件数是一个警告信号。它告诉我们我们的系统是“病态的”——就像一张摇晃的桌子，轻轻一推就可能导致输出的剧烈晃动。理解条件数对于知道我们何时可以信任我们原则提供的美丽解至关重要。

最终，欠定系统的挑战是一份礼物。它迫使我们深入思考“最好”到底意味着什么。通过选择一个范数——L2 代表能量效率，L1 代表稀疏性——我们为我们的解赋予了一种特性，一种灵魂，将无限可能的大海转变为一个单一、有意义的答案。

应用与跨学科联系

在穿越了欠定线性系统的抽象世界后，我们现在抵达一个激动人心的目的地：现实世界。我们已经看到，像 $A\mathbf{x} = \mathbf{b}$ 这样一个未知数多于方程的系统，并不会产生单一、唯一的答案。相反，它为我们提供了一个完整的、通常是无限的可能解空间。乍一看，这似乎是一种令人沮丧的模糊性。如果有无限多个答案，我们该如何找到那个答案呢？

但这正是科学与工程成为一门艺术的地方。解的无限性不是诅咒，而是一个深刻的机会。它邀请我们提出一个更深层次的问题：在所有数学上有效的解中，哪一个是最好的？哪一个最有意义？答案完全取决于上下文——取决于我们试图建模的物理现实、生物过程或信息。我们为 navigating 这片充满可能性的海洋所做的选择，使我们能够将我们对世界的直觉编码进去，从而催生了从医学成像到发现复杂系统中隐藏的因果联系等惊人应用。我们将探讨做出这种选择的两种伟大哲学：最小努力原则和简约的力量。

最小努力原则： $L_2$ 范数

也许最自然的起点是寻找“最简单”的解。但什么是简单？一个优美且通常有用的定义是“做得最少”的解。用向量的语言来说，这转化为具有最小可能长度或大小的解 $\mathbf{x}$ 。这个长度由欧几里得范数，或 $L_2$ 范数 $\|\mathbf{x}\|_2 = \sqrt{x_1^2 + x_2^2 + \dots + x_n^2}$ 来衡量。最小化这个值的解被称为最小范数解。

想象一个机器人手臂，它的关节数量远多于将其夹持器放置在空间中特定点所必需的数量。手臂可以通过无数种方式扭曲自己以达到目标。最小范数解对应于使用最少总能量的配置——即关节移动最少的配置。这个解是唯一的，并且可以使用一种称为 Moore-Penrose 伪逆的工具优雅地找到，这是矩阵逆对非方阵的推广。计算过程虽然复杂，但遵循一个直接的配方，从无限多的选择中精确定位这一个特殊的解。

最小 $L_2$ -范数解的一个有趣特征是它往往是“稠密的”。它将努力分散到所有可用的分量上。没有哪个单一分量 $x_i$ 可能会非常大；解偏爱由许多小贡献构成的民主。在能量或功率是分布式的系统中，比如电路或结构力学中，这通常是物理上正确的答案。

值得注意的是，我们并不总是需要直接计算伪逆。许多求解线性系统的计算方法是迭代的，通过多步 refining 一个初始猜测。如果我们从零猜测开始，即 $\mathbf{x}_0 = \mathbf{0}$ ，像梯度下降这样的简单迭代算法会自然地引导我们走向最小范数解。算法的每一步都将解推向一个位于矩阵 $A$ 的“行空间”内的方向，而线性代数的一个深刻结果是，最小范数解是唯一完全存在于此空间中的解。因此，算法在其谦逊的、循序渐进的过程中，含蓄地找到了这条最“节能”的路径。

在现实世界中，我们的测量几乎总是被噪声污染。这增加了另一层复杂性。如果我们盲目地计算一个解，我们数据 $\mathbf{b}$ 中的小错误可能会被极大地放大，导致一个毫无意义的结果。这就是像截断奇异值分解 (TSVD) 这样的正则化技术发挥作用的地方。TSVD 提供了一种有原则的方法来稳定解，方法是仅从系统矩阵 $A$ 中最“可靠”和“高能”的部分来构建它，有效地滤除最容易受到噪声放大影响的方向。这是选择一个良态解的另一种方式，这个解不仅在 $L_2$ 意义上是简单的，而且对现实世界数据的不完美性也是鲁棒的。

简约的力量： $L_1$ 范数与稀疏性

最小努力原则功能强大，但它建立在 underlying truth 是平滑和分布式的假设之上。如果不是呢？如果我们正在寻找的真实信号的特点是大部分为空，信息集中在少数几个关键位置呢？这样的信号被称为稀疏信号。

想想夜空——几颗明亮的星星映衬着广阔的黑色背景。或是一段在安静房间里钟声响起的录音——长时间的静默被复杂的音调打断。或是一个基因调控网络，其中任何给定的基因仅由少数其他基因控制。在这些情况下，最有意义的解 $\mathbf{x}$ 不是总能量最小的那个，而是非零元素最少的那个。

这激发了一个新目标：找到最稀疏的解。我们可以尝试最小化 $L_0$ “范数”， $\|\mathbf{x}\|_0$ ，它只是计算非零项的数量。不幸的是，找到这个解是一个出了名的困难计算问题（NP-hard），类似于检查非零元素的所有可能组合。几十年来，这似乎是一条死胡同。

突破来自于一个令人惊讶的数学发现。如果我们转而最小化一个不同的量，即 $L_1$ 范数，定义为 $\|\mathbf{x}\|_1 = |x_1| + |x_2| + \dots + |x_n|$ ，我们找到的解通常正是我们寻找的那个最稀疏的解！这个问题，被称为基追踪，是一个凸优化问题，这意味着它可以被高效地解决。

为什么这会奏效？一幅优美的几何图景解释了这一切。 $A\mathbf{x} = \mathbf{b}$ 的所有解的集合在 $n$ 维空间中形成一条线或一个平面（或一个更高维的平坦表面）。寻找最小 $L_2$ -范数解就像将一个以原点为中心的球体充气，直到它刚好接触到这个解平面——接触点就是我们的解。因为球体是完美圆的，这个点不太可能落在任何坐标轴上。相比之下，寻找最小 $L_1$ -范数解就像充气一个菱形形状（一个交叉多胞体）。当这个“菱形”膨胀时，它更有可能首先在其尖角或边缘处接触解平面，这些角或边对应于一个或多个分量恰好为零的解。

这种差异不仅仅是学术上的；它是戏剧性的。想象一个简单的断层扫描，我们的目标是从少数投影测量中重建图像。如果真实图像是一个单一的亮像素，最小 $L_2$ -范数解将重建一个模糊、分散的斑点——一个物理上不正确的答案。然而，最小 $L_1$ -范数解可以完美地锁定单个像素，正确地识别出“真相”是稀疏的。这种在“最少部分”意义上偏爱简单性而非“最低能量”的能力，是一次彻底的范式转变。

压缩感知：以少见多

$L_1$ 最小化的力量在压缩感知（或压缩采样）这一革命性领域达到顶峰。一个多世纪以来，Nyquist-Shannon 采样定理一直是数字信号处理的基石，它告诉我们完美捕获信号所需的最低采样率。压缩感知颠覆了这一教条。

其核心思想令人震惊：如果你希望测量的信号已知是稀疏的，你可以用远少于经典理论要求的测量次数来完成任务。你可以有意地创建一个欠定方程组，并通过 $L_1$ 最小化来求解它，从而完美地重建原始信号。这使我们能够设计出以比以往任何时候都认为可能的速度更快、成本更低、分辨率更高的方式获取数据的传感器和实验。

当然，这种“魔术”并非没有代价。它依赖于两个基本条件：

稀疏性： 信号本身必须是稀疏的，或者在某个已知基（如傅里叶或小波变换）中具有稀疏表示。
非相干性： 测量过程，由矩阵 $A$ 表示，必须与稀疏性基“非相干”。这直观地意味着我们的测量不应该与我们信号的稀疏元素对齐；它们应该是分散的，并且看起来有点随机。这确保了每次测量都包含关于所有信号分量的一小部分信息，就像一个设计良好的数独谜题。

当这些条件满足时，我们就可以解决这个欠定谜题。其应用正在改变科学和技术。

一个典型的例子是核磁共振 (NMR) 波谱学，这是化学和医学中确定分子结构的一项基石技术。多维 NMR 实验可以揭示复杂的分子细节，但它们可能非常缓慢，有时需要数天才能获取完整的数据集。通过使用非均匀采样 (NUS)，光谱学家有意地跳过较慢维度中的大量测量，从而创建一个严重欠定的系统。由于 NMR 谱通常非常稀疏（少数尖锐的峰值），他们可以使用压缩感知算法从这些不完整的数据中重建一个完美的高分辨率谱图，从而大大缩短实验时间。

另一个引人入胜的应用是盲源分离。想象一下，你在一个有 $n=3$ 个人说话的房间里，但你只有 $m=2$ 个麦克风。传统上，要分离这三个声音是不可能的。然而，语音信号在频域中是稀疏的。利用这一先验知识，稀疏成分分析 (SCA) 可以解决这个欠定问题。它不仅可以分离出三个声音，甚至可以计算出混合矩阵 $A$ ——即说话者相对于麦克风的位置——而你事先根本不知道！

这些强大的重建技术依赖于复杂的计算工具。作为压缩感知核心的 $L_1$ -最小化问题通常规模庞大，需要像交替方向乘子法 (ADMM) 这样的先进算法才能在现代计算机上高效求解。

前沿：从信号到系统

这些思想的影响力持续增长，并推动着新的科学前沿。最激动人心的领域之一是复杂系统的因果发现。考虑一个生物细胞，其中成千上万的基因在一个巨大而复杂的网络中相互调节彼此的活动。我们希望绘制这个网络图，以了解细胞的功能和疾病。我们可以将其建模为一个动态系统，其中基因在一个时间点的状态取决于它们在前一个时间点的状态，由一个稀疏的系数矩阵控制（因为每个基因只受少数其他基因的影响）。挑战在于我们一次只能测量少数基因的活动，这给了我们系统状态的压缩测量值。通过将压缩感知的原理与统计时间序列分析相结合，研究人员正在开发方法，从有限的、间接的观察中重建这些系统的隐藏因果线路。

从寻找最节能的机器人运动到更快地重建 MRI 图像，从在嘈杂的房间中分离声音到绘制我们宇宙的因果结构，深入研究欠定系统的旅程揭示了一个深刻的真理。单一答案的缺失不是一种限制，而是一种邀请，邀请我们将关于世界的知识和直觉注入到我们的数学模型中。通过选择我们的原则——无论是最小能量还是最大稀疏性——我们将模糊性转化为洞察力，展示了数学、计算和自然科学之间深刻而美丽的统一。

求解欠定线性系统：L1 与 L2 范数的力量

引言

原理与机制

最小能量原理：L2 范数

稀疏性原理：L1 范数

一点警示：稳定性

应用与跨学科联系

最小努力原则：L2L_2L2​ 范数

简约的力量：L1L_1L1​ 范数与稀疏性

压缩感知：以少见多

前沿：从信号到系统

求解欠定线性系统：L1 与 L2 范数的力量

引言

原理与机制

最小能量原理：L2 范数

稀疏性原理：L1 范数

一点警示：稳定性

应用与跨学科联系

最小努力原则：L2L_2L2​ 范数

简约的力量：L1L_1L1​ 范数与稀疏性

压缩感知：以少见多

前沿：从信号到系统

最小努力原则： $L_2$ 范数

简约的力量： $L_1$ 范数与稀疏性

最小努力原则： $L_2$ 范数

简约的力量： $L_1$ 范数与稀疏性