投影至凸集

玻尔百科

核心要点

将一个点投影到凸集上，可以找到该集合中唯一的最近点，这是优化中的一个基本概念。
投影梯度法通过交替进行梯度下降步和投影步，为求解约束优化问题提供了一种简单而强大的算法。
投影是一种用途广泛的工具，应用领域宽泛，从在工程中强制施加物理限制，到通过投影至 $\ell_1$ 范数球在机器学习中实现稀疏解。
作为更普适的近端算子的一个特例，投影是能够处理不可微问题的现代优化算法统一框架的一部分。

引言

寻找“最近点”这个简单的行为是数学中最直观的概念之一，但它却构成了现代科学与工程中一些最强大算法的基础。这个概念，其正式名称为“投影至凸集”，为一个普遍存在的挑战提供了一个优雅而稳健的解决方案：我们如何在严格遵守一系列规则或物理限制的同时，找到问题的最优解？许多现实世界的优化问题，从设计金融投资组合到控制机械臂，不仅由一个需要最小化的目标函数定义，还受到一系列不可违反的硬性约束。本文旨在搭建从投影的简单几何学到其复杂应用之间的桥梁。第一章“原理与机制”将揭示投影的数学基础，探讨其几何性质及其在经典投影梯度法中的作用。随后的“应用与跨学科联系”一章将展示这个单一概念如何在机器学习、信号处理和计算力学等不同领域中成为一个多功能的强大工具。

原理与机制

投影概念的核心是整个数学中最直观的思想之一。简而言之，它就是关于寻找最近点。想象一下，你站在一片广阔的田野中的点 $y$ 处。田野的某处有一个用栅栏围起来的区域，我们称之为集合 $C$ 。如果你想尽可能地靠近区域 $C$ ，你会去哪里？你会找到 $C$ 边界上离你最近的那个点。那个点就是你到集合 $C$ 上的投影。这个简单的物理直觉是一套非凡、强大而优美的理论的种子，这套理论构成了现代优化的基石。

最简单的思想：寻找最近点

让我们将直觉变得更精确一些。我们类比中的“栅栏区域”对应于一个凸集。如果一个集合内的任意两点，连接它们的直线段也完全包含在该集合内，那么这个集合就是凸的。想象一个实心圆、一个正方形或整个无限平面——这些都是凸的。而一个甜甜圈的形状则不是。这个性质虽然简单，却异常强大。

点 $y$ 到一个闭非空凸集 $C$ 上的欧几里得投影，是 $C$ 中使得到 $y$ 的距离最小化的点，我们称之为 $P_C(y)$ 。由于最小化距离等同于最小化距离的平方（且数学上更简洁！），我们正式将其定义为一个优化问题：

P_C(y) = \underset{x \in C}{\operatorname{argmin}} \|x - y\|_2^2

这有什么特别之处呢？首先，因为集合 $C$ 是凸的，且平方距离是一个“良好”的函数（我们称之为严格凸函数），所以这个问题不会有多个解。对于任何点 $y$ ，在 $C$ 中有且仅有一个最近点。这种唯一性不仅是数学上的便利，它保证了我们的“最近点”是良定义的。如果存在两个同样近的点，集合的凸性意味着它们的中点也在集合中。但稍加几何（或代数）推导就会发现，这个中点必然会更近，这与我们最初假设的两个点是最近点的假设相矛盾！这正是为什么像在凸集中寻找最小范数点（离原点最近的点）这样的问题有唯一解的原因。

“最近”的几何学：垂直与平面的故事

这个“最近点”的几何特征是什么？想象一下你站在一堵长长的直墙（一条线，也是一个凸集）附近。从你到墙的最短路径是与墙成直角的那条。这种垂直性的概念是关键。

设 $x^\star = P_C(y)$ 为投影点。从投影点指回原始点 $y$ 的向量 $y - x^\star$ 与集合 $C$ 有着特殊的几何关系。在某种意义上，这个向量在点 $x^\star$ 处与集合“正交”。要满足这个条件，你必须能够在点 $x^\star$ 处画出集合 $C$ 的一个支撑超平面，该超平面垂直于向量 $y - x^\star$ 。超平面只是一个平面（如二维中的线或三维中的面），“支撑”意味着它在 $x^\star$ 处接触集合，但整个集合都位于它的一侧。

这个洞见为寻找投影提供了一种强大的方法。例如，如果你需要在一个由平面边界（如半空间或带状区域）定义的凸集上找到最近点 $x^\star$ ，你就知道连接你的点 $y$ 和 $x^\star$ 的向量必须垂直于该边界。

当凸集是一个仿射集时，例如由线性方程组 $Ax=b$ 定义的平面，这种几何直觉得到了一个具体的公式。该平面的“法线”或垂直方向由矩阵 $A$ 的行定义。正交性条件告诉我们，残差向量 $y - x^\star$ 必须是这些行的线性组合。利用这一洞见，可以使用拉格朗日乘子（约束优化的标准工具）推导出一个优美而明确的投影公式。

P_S(y) = y - A^\top (AA^\top)^{-1}(Ay-b)

这个公式不仅仅是计算出那个点，它还讲述了一个故事。它表明，投影 $P_S(y)$ 是通过从 $y$ 点出发，沿着一个垂直于集合 $S$ 的方向 $-A^\top(\dots)$ 移动恰当的距离，从而完美地落在集合内部得到的。

投影机及其非凡性质

现在让我们把投影不仅仅看作一次性的计算，而是一台机器，一个算子 $P_C(\cdot)$ ，它接收空间中的任意点，并忠实地返回其在集合 $C$ 中的最近邻。这台机器具有一些真正非凡的性质，使其成为更大型算法中可靠的组成部分。

其中最重要的性质是投影算子是非扩张的。这意味着它从不增加距离。如果你取任意两点 $x$ 和 $y$ ，它们的投影 $P_C(x)$ 和 $P_C(y)$ 之间的距离不会比 $x$ 和 $y$ 原来的距离更远。

\|P_C(x) - P_C(y)\| \le \|x - y\|

这个性质是一种稳定性。它确保了如果你的输入有微小的不确定性，投影操作不会将其放大为输出的巨大不确定性。这种“镇定”作用对于证明使用投影的算法最终会稳定下来并收敛到解是绝对必要的。

此外，投影算子在几何变换方面表现得非常优雅。例如，如果你使用一个正交矩阵 $R$ 旋转或反射一个集合 $C$ 得到一个新的集合 $\tilde{C}$ ，你如何投影到 $\tilde{C}$ 上呢？解决方案是优美对称的：首先，你通过应用 $R^\top$ 来“反旋转”点 $y$ 。然后，你将这个反旋转后的点投影到原始的、更简单的集合 $C$ 上。最后，你用 $R$ 将结果旋转回去。

P_{\tilde{C}}(y) = R P_C(R^\top y)

这个规则显示了其几何学上深度的自洽性，使我们能够通过将复杂的投影问题转化回我们已经知道如何处理的更简单问题来解决它们。

从几何到算法：投影梯度法

现在是收获的时刻。我们为什么如此关心这台投影机？因为它为我们解决现实世界的问题提供了一种极其简单而强大的方法。

科学、工程和机器学习中的许多问题都可以被框定为最小化某个成本或能量函数 $f(x)$ ，但有一个附加条件：解向量 $x$ 必须满足某些物理或逻辑约束。我们可以通过规定 $x$ 必须位于一个可行的凸集 $C$ 中来表示这些约束。

我们如何在待在一个有栅栏的区域内的同时，找到函数的最低点呢？投影梯度法提供了一个绝妙简单的策略。在任意点 $x_k$ ，你首先忽略栅栏，沿着最陡的下坡方向 $-\nabla f(x_k)$ 迈出一步。这会带你到一个中间点 $z_k = x_k - \alpha \nabla f(x_k)$ ，其中 $\alpha$ 是步长。当然，这个点 $z_k$ 可能在可行集 $C$ 之外。你该怎么办？你只需用你的投影机将它“拉回”到可行集中的最近点！

x_{k+1} = P_C(z_k) = P_C(x_k - \alpha \nabla f(x_k))

这个两步过程——一个标准的梯度下降步，后跟一个欧几里得投影——就是整个算法的全部。这是微积分（梯度）和几何学（投影）的完美结合。神奇之处在于，这个简单的迭代确实有效。对于足够小的步长 $\alpha$ ，每一步都保证能降低你的目标函数值，使你更接近真正的约束最小值。

那么算法何时停止呢？它会在找到一个点 $x^\star$ 时停止，在该点，执行一次梯度步并投影回来后，你仍然停留在原处。这个不动点条件， $x^\star = P_C(x^\star - \alpha \nabla f(x^\star))$ ，不仅仅是“卡住”的标志。它在数学上等价于著名的 Karush-Kuhn-Tucker (KKT) 条件，这是约束问题最优性的基本必要条件。该算法通过其简单的几何逻辑，自然地发现了这个具有深刻数学意义的解。

宏大统一：投影作为通用构建块

故事还有更深层次的内容。投影到凸集上并不是一个孤立的技巧；它是优化中一个更通用、更强大的概念——近端算子的一个特例。对于任何凸函数 $g(x)$ ，其近端算子会找到一个点，这个点在最小化 $g(x)$ 和保持靠近某个初始点 $v$ 之间取得平衡。

事实证明，投影算子 $P_C(v)$ 正是针对一个非常特殊的函数——集合 $C$ 的示性函数（表示为 $I_C(x)$ ）的近端算子。这个函数定义为：对于 $C$ 内的任何点 $x$ ，函数值为 $0$ ；对于 $C$ 外的任何点，函数值为 $+\infty$ 。最小化 $I_C(x)$ 加上平方距离项，等同于强制解在 $C$ 内部（以避免无穷大的惩罚），同时最小化距离。

这个联系意义深远。它将投影置于一个广阔而统一的“近端算法”框架内，这个框架正在给信号处理、机器学习和统计学带来革命性的变化。例如，Moreau 包络是原始优化问题的一个经过优美平滑的版本，其梯度由一个涉及投影算子的简单公式给出。这使我们能够在最初不可微且难以处理的问题上使用快速而稳健的基于梯度的方法。

这个视角也阐明了投影巨大的实用价值。对于许多常见约束，比如对变量的简单界限（ $l_i \le x_i \le u_i$ ），投影算子的计算是微不足道的——它只是一个可以逐坐标执行的“裁剪”操作。将其与其他经典技术（如惩罚方法）相比，便能揭示投影的优越性。例如，二次惩罚法只能近似求解，并且在你试图更严格地执行约束时会引入严重的数值病态问题。相比之下，投影是精确的、计算成本低廉且数值稳定的。这就是为什么混合策略——对简单约束使用投影，而将类似惩罚的思想保留给更复杂的约束——是现代实用优化软件的基石。

从寻找“最近点”这个简单的想法出发，我们历经了正交性的深刻几何原理，构建了一台具有优美性质的稳健“投影机”，并将其部署在一个统一了微积分和几何学的优雅算法中。最后，我们看到这一个想法如何成为通往更宏大、统一的优化理论的一扇窗。这就是用投影思想思考的力量与美妙之处。

应用与跨学科联系

我们已经花了一些时间来欣赏将点投影到凸集上的那种简洁的几何之美。这是一个具有纯粹数学优雅的概念。但它仅仅是几何学家的好奇心所在吗？仅仅是抽象思维的玩物吗？你可能会很高兴地发现，答案是响亮的“不”。这种在约束空间中寻找“最近”点的简单行为，是现代科学武库中最强大、最多功能的工具之一。它是金融模型背后的无声功臣，是机器学习中安全性的保障者，是高效算法的构建师，甚至是对构成我们世界的材料的物理定律的描述者。让我们踏上旅程，看看这个基本思想在哪些地方留下了不可磨灭的印记。

优化与机器学习中的指导之手

也许投影法最肥沃的土壤是广阔的优化领域。科学、工程和经济学中的许多问题都可以归结为一个简单的目标：找到最佳的解决方案，但要遵守一系列规则。我们想要最快的路线，但必须在道路上行驶。我们想要最赚钱的投资，但不能把所有鸡蛋放在一个篮子里。

投影梯度法是这一原则最简单、最优雅的体现。想象一下，你正试图在一个山谷中找到最低点，但山谷的一部分是禁区，一个受保护的自然保护区。策略很简单：向下走一步，朝着最陡峭的下降方向。走完一步后，检查你的位置。如果你仍在允许的区域内，很好！再走一步。但如果你误入了保护区，你该怎么办？你找到保护区边界上最近的点，然后移动到那里。你把自己“投影”回可行区域。然后你重复这个过程：向下走一步，必要时进行投影。通过重复这种简单的两步舞——下降，然后投影——你保证能够导航到可能的最低点，而不会违反任何规则。

这种“先下降，后投影”的范式是无数现代算法的核心。然而，真正的魔力在于我们必须遵守的规则的各种“形状”——即我们可以投影到的不同凸集。

盒子中的生活：执行器、信号与资源

最简单的规则是“盒子约束”：每个变量必须保持在各自的下限和上限之内。想想音响上的旋钮；每个旋钮只能转动那么多。投影到盒子上非常简单——就是“裁剪”。如果一个值太高，就把它裁剪到最大值；如果太低，就把它裁剪到最小值。

这个简单的想法模拟了工程和控制理论中一个深刻的物理现实：执行器饱和。当无人机的精密飞行控制器为每个电机计算出完美的推力时，它可能会命令一个电机转得比物理上可能的速度更快。电机不会损坏；它只是尽力而为，以其最大速度旋转。物理系统实际上已将控制器的“期望”投影到了“可能性”的盒子上。通过理解这种投影，工程师可以分析物理限制如何影响系统性能，量化当期望指令被现实裁剪时可实现输出的损失。

同样的原则也出现在信号处理中。想象你正在尝试为一段优美的音乐录音降噪。你知道原始信号从未超过某个振幅。你的降噪算法可能会意外地创造出人为过响的净化声波。解决方案？通过裁剪，将信号投影回有效的振幅范围内。这是一种“硬”约束的实施。它经常与“软”惩罚方法相比较，后者只是为违反约束增加一个成本。投影方法在一个关键方面更优越：它保证最终信号在物理上是合理的，而惩罚方法只鼓励不合理的结果，并且可能仍然产生违反界限的信号。投影提供了确定性。

盒子约束也出现在资源分配中。想象一下，你在制定大学课程表时，试图平衡教学负荷。你希望分配结果接近某个理想偏好，但对任何一个系可分配的总小时数有硬性限制。这个问题等同于在一个多维盒子内找到离你的理想点最近的点——这是投影的直接应用。

单纯形：比例的几何学

并非所有约束都是独立的。通常，我们的变量是整体的比例。考虑金融学中的经典问题：建立一个投资组合。你将资本分配到一组股票中。每只股票在你的投资组合中的权重必须是非负的（你不能拥有负数量的股票），并且所有权重之和必须为100%。所有可能的有效投资组合构成的集合形成了一个优美的几何对象，称为概率单纯形。

当使用像强大的交替方向乘子法（ADMM）这样的优化算法来寻找平衡风险和回报的最优投资组合时，它通常会将复杂问题分解为更简单的步骤。其中一个关键步骤是，取一个中间的、无约束的权重向量，并将其投影到概率单纯形上，以确保结果是一个有效的投资组合。执行此投影的算法本身就是一件美事，它涉及一个巧妙的阈值操作，确保所有权重都为正且总和为一。这使得经济学家和金融家能够通过反复解决一个简单、优雅的几何投影问题来解决庞大而复杂的投资组合优化问题。

$\ell_1$ 范数球：稀疏性的惊人魔力

现在来点现代魔法。当我们投影到一个不同类型的形状—— $\ell_1$ 范数球上时会发生什么？这个球由各分量的*绝对值*之和小于某个数 $\tau$ 的条件定义。投影到这个在二维中看起来像菱形、在三维中像八面体的形状上，会产生一个惊人而美妙的后果：投影得到的点往往有许多分量恰好为零。它偏爱“稀疏”解。

这一原理是机器学习和信号处理领域一场革命的引擎。在所谓的稀疏回归或 LASSO 中，我们寻求能够解释数据的最简单模型。“最简单”在这里通常意味着使用最少输入特征的模型。这可以通过将模型的系数约束在 $\ell_1$ 范数球内，并使用投影梯度法来解决问题来实现。投影到 $\ell_1$ 范数球的步骤会自动将不重要的系数驱动为零，从而实现特征选择。这不仅仅是一种算法技巧；它是一种深刻的哲学原理——奥卡姆剃刀定律的一种形式——被编码在几何学中。正是这种数学原理使得医学扫描仪能够从更少的测量数据中重建清晰的图像（压缩感知），从而节省您的时间并减少辐射暴露。

现实世界约束的守护者

机器学习模型功能强大，但它们往往对现实世界的规则一无所知。一个模型可能会预测产品的负价格，推荐物理上不稳定的化学混合物，或建议违反商业法规的行动方案。在这里，投影再次充当了模型抽象世界与其应用所受约束的现实之间的关键桥梁。

一种常见而有效的策略是，获取模型的原始、无约束输出，并将其投影到可行结果集上。但这真的能提高模型的准确性吗？投影的几何学给了我们一个非常精妙的答案。如果我们试图预测的真实数据总是无一例外地遵守这些约束，那么投影模型的输出永远不会使预测变得更糟，而且几乎总是会使其变得更好。投影就像一个明智的编辑，纠正愚蠢的预测。然而，如果真实世界的状态有时可能位于“可行”集之外（也许我们对约束的模型不完整），那么盲目地投影实际上可能会通过将一个好的预测拉离一个出人意料但真实的现实而增加误差。这个洞见教给我们一个深刻的教训：为了有效地应用约束，我们必须确信它们真正支配着我们旨在预测的现象。

物理模拟的基础

投影的影响甚至延伸到我们物理世界最基础的模拟中。在计算固体力学中，工程师模拟钢、混凝土或土壤等材料在应力下的行为。材料有一个“弹性域”——它们可以承受而不会发生永久变形的一组应力状态。这个域由一个“屈服面”定义，它在应力空间中是一个凸集。

当模拟进行一个时间步时，它会计算一个假设材料呈弹性行为的“试应力”。如果这个试应力落在了屈服面之外，就意味着材料已经屈服（例如，一根金属梁发生了永久弯曲）。算法必须接着找到真实的应力状态，该状态必须位于屈服面上。这个修正过程，称为返回映射算法，在数学上等同于将试应力投影到凸屈服面上。

这个联系揭示了为什么某些材料模型比其他模型更难模拟。像土壤或混凝土这样的材料（例如 Mohr–Coulomb 模型）的屈服面是多面体的，带有尖锐的边和角。正如我们所见，投影算子在这些非光滑点处是不可微的。这种缺乏光滑性的特性阻碍了这些模拟中使用的复杂求解器的运行，导致收敛缓慢或完全失败。解决方案是什么？工程师们用一个稍微圆滑、光滑的替代面来替换尖锐、非光滑的屈服面。这个看似微小的调整使得底层的投影算子变得可微，从而恢复了模拟软件的快速、稳健的收敛性。因此，凸几何的一个深刻性质直接指导了用于设计桥梁、隧道和地基的工具的实际工程。

从算法的抽象舞蹈到钢梁的实体弯曲，投影至凸集的概念展示出它并非一个冷僻的数学技巧，而是一个统一的原则。它是一种施加规则、确保安全、发现简洁以及模拟物理定律本身结构的语言。它证明了简单几何直觉所具有的深刻且往往令人惊讶的力量。

投影至凸集

引言

原理与机制

最简单的思想：寻找最近点

“最近”的几何学：垂直与平面的故事

投影机及其非凡性质

从几何到算法：投影梯度法

宏大统一：投影作为通用构建块

应用与跨学科联系

优化与机器学习中的指导之手

盒子中的生活：执行器、信号与资源

单纯形：比例的几何学

ℓ1\ell_1ℓ1​范数球：稀疏性的惊人魔力

现实世界约束的守护者

物理模拟的基础

投影至凸集

引言

原理与机制

最简单的思想：寻找最近点

“最近”的几何学：垂直与平面的故事

投影机及其非凡性质

从几何到算法：投影梯度法

宏大统一：投影作为通用构建块

应用与跨学科联系

优化与机器学习中的指导之手

盒子中的生活：执行器、信号与资源

单纯形：比例的几何学

ℓ1\ell_1ℓ1​范数球：稀疏性的惊人魔力

现实世界约束的守护者

物理模拟的基础

$\ell_1$ 范数球：稀疏性的惊人魔力

$\ell_1$ 范数球：稀疏性的惊人魔力