首页非光滑优化

非光滑优化

玻尔百科

定义

非光滑优化是数学优化中的一个分支，主要研究不可处处求导的函数（如 L1 范数）的极小化问题。该领域通过引入子梯度概念扩展了传统的梯度下降法，利用支撑超平面的斜率来处理非光滑凸函数。非光滑优化在机器学习和信号处理中具有重要应用，常用于构建稳健模型及寻找稀疏解。

核心要点

次梯度是导数在非光滑凸函数上的推广，表示某点任意一个支撑超平面的斜率。
一个点是凸函数的全局最小值，当且仅当零向量包含在该点的次微分中（ $0 \in \partial f(x^*)$ ）。
次梯度法是梯度下降法的扩展，但与光滑优化中的情况不同，次梯度法中的一步不保证会降低函数值。
其关键应用包括通过最小化绝对误差（ $L_1$ 范数）来创建鲁棒模型，以及在机器学习和信号处理中寻找稀疏解。

引言

在经典优化的理想世界中，函数是光滑的，梯度为我们清晰地指明了通往最小值的路径。然而，从金融建模到图像处理，许多现实世界的问题都由带有尖点和扭结的函数描述，在这些点上梯度没有定义。这就产生了一个根本性的鸿沟：当我们最需要梯度这个主要工具时，它却在关键点上消失了，我们该如何优化这些函数呢？本文通过引入强大的非光滑优化框架来弥合这一鸿沟。

第一章“原理与机制”将揭开这片“粗糙”领域的神秘面纱。我们将介绍次梯度——一种对梯度的优雅推广——以及其对应的集合，即次微分。您将学习计算次梯度的法则，并理解它们所带来的全新最优性条件。我们还将探讨基本的次梯度法，揭示其独特的行为和局限性。随后的第二章“应用与跨学科联系”将揭示为何掌握非光滑性如此关键。我们将看到这些概念如何成为鲁棒统计方法背后的引擎，如何实现机器学习中稀疏解的魔力，以及如何助力于稳定工程系统的设计，从而证明拥抱世界上的“尖角”能带来更强大、更切合实际的解决方案。

原理与机制

在初等微积分的纯净世界里，我们遇到的函数通常是“彬彬有礼”且表现良好的。它们光滑、连续，并且在每一点上都有明确定义的导数。这个导数，或其多维度的近亲——梯度，是我们寻求优化时值得信赖的向导。它指向最速上升的方向，因此要找到最小值，我们只需朝相反方向前进。这个优雅的思想，即梯度下降法，是塑造我们世界的无数算法的基石。

但现实，一如既往，为我们呈现了一幅更粗糙的图景。许多描述现实世界问题的函数并非如此“循规蹈矩”。它们有尖点、扭结和斜率的突变。想想绝对值函数 $f(x) = |x|$ 。它在 $x=0$ 处有一个尖点。那里的“最速下降方向”是什么？在右边，斜率是 $+1$ ；在左边，它是 $-1$ 。在最低点，单一斜率的概念瓦解了。再或者，考虑一下物流和金融领域中出现的函数，它们通常由不同的线性片段拼接而成。这些就是“非光滑”函数，它们并非边缘案例，而是无处不在。如果我们的主要工具——梯度——在我们最感兴趣的点上消失了，我们该如何找到函数的最小值呢？我们需要一个新的向导。

支撑之手：次梯度的定义

让我们暂时回到光滑函数。在任意点 $x_0$ ，我们可以画一条切线（或高维空间中的超平面）。对于一个凸函数（形状像碗的函数）来说，一个关键性质是这条切线总是完全位于函数图像的下方。梯度定义了这条唯一的支撑线的斜率。

那么在扭结处会发生什么呢？在 $f(x)=|x|$ 的底部，我们无法画出唯一的切线。但是我们可以画出许多穿过点 $(0,0)$ 并完全保持在 $|x|$ 图像下方的线。斜率为 $0.5$ 的线可以，斜率为 $-0.5$ 的线也可以。事实上，任何斜率 $g$ 介于 $-1$ 和 $1$ 之间的直线 $z = gx$ 都可以。

这正是推广梯度的绝妙洞见。次梯度是任何这样一条支撑线的斜率。更正式地说，对于凸函数 $f$ ，如果一个向量 $g$ 所定义的超平面在所有点 $x$ 处都位于函数图像下方，那么它就是点 $x_0$ 处的一个次梯度：

$f(x) \ge f(x_0) + g^T (x - x_0)$

这是次梯度不等式。它不仅仅是一个定义，更是一幅几何图像。想象一下函数的图像是一个物理表面。不等式的右侧， $z = f(x_0) + g^T (x - x_0)$ ，描述了一个在点 $(x_0, f(x_0))$ 处接触该表面，并作为支撑、绝不穿透它的平面。对于二维 $L_1$ 范数 $f(x_1, x_2) = |x_1| + |x_2|$ ，其图像是一个指向原点的金字塔。在其光滑表面上的一个点，比如 $x_0 = (0, 1)$ ，有许多可能的支撑平面。其中一个平面对应于次梯度 $g = (1/2, 1)^T$ ，由方程 $z = \frac{1}{2}x_1 + x_2$ 给出，它在 $(0,1,1)$ 处接触金字塔并在其他所有地方支撑它。

在光滑点，只存在一个这样的支撑平面——即切平面——因此只有一个次梯度，也就是梯度。但在扭结处，可能存在一整套次梯度。在点 $x_0$ 处所有可能的次梯度的集合被称为次微分，记作 $\partial f(x_0)$ 。对于在 $x=0$ 处的 $f(x)=|x|$ ，其次微分是整个区间 $[-1, 1]$ 。

寻找次梯度的工具箱

对每个可能的 $x$ 检查次梯度不等式并非寻找次梯度的实用方法。幸运的是，我们有一套强大的法则，它们如同一套工具箱，可以用来剖析非光滑函数并找到它们的次微分。

最大值法则：许多重要的非光滑函数是通过取多个更简单、更光滑的函数的最大值来构建的。考虑一个函数 $f(x) = \max(2x, -x+3)$ 。这个函数由两条直线构成。对于大多数 $x$ 值，只有一条直线决定函数的值。但在 $x=1$ 时，它们相遇了： $\max(2(1), -1+3) = 2$ 。这是一个扭结。这里的法则是惊人地直观：一个点的次微分是在该点激活（即其值等于最大值）的那些函数的梯度的凸包（所有加权平均的集合）。在 $x=1$ 处，两条直线都被激活。它们的斜率是 $2$ 和 $-1$ 。因此，次微分 $\partial f(1)$ 是整个区间 $[-1, 2]$ 。介于两者之间的任何值，比如 $1.5$ ，都是一个有效的次梯度。这个原理可以优美地扩展到更高维度。对于像 $f(x_1, x_2) = \max(x_1, x_2, x_1+x_2-2)$ 这样的函数，如果我们找到一个像 $(2,2)$ 这样的点，所有三个线性部分都被激活，那么次微分就是由它们的三个梯度向量 $(1,0)$ 、 $(0,1)$ 和 $(1,1)$ 构成的三角形。

求和法则：如果我们的函数是几个简单凸函数的和，比如 $f(x) = h_1(x) + h_2(x)$ ，它的次微分就是各个次微分的（闵可夫斯基）和： $\partial f(x) = \partial h_1(x) + \partial h_2(x)$ 。这意味着我们可以从 $\partial h_1(x)$ 中任取一个次梯度，加到 $\partial h_2(x)$ 中的任意一个次梯度上，从而得到 $f(x)$ 的一个有效次梯度。这使我们能够通过将复杂函数分解为可管理的部分来处理它们，例如 $f(x) = \max(0, 1 - 3x) + |2x - 4|$ 。我们甚至可以混合搭配：在一个点上，和的一部分是光滑的，而另一部分有扭结，我们只需将第一部分的唯一梯度与第二部分的次梯度集合相加即可。

光滑之处，了然简单：至关重要的是要记住，我们是在扩展微积分，而不是取代它。在函数可微的任何一点，次微分都不是一个大集合。它只包含一个元素：梯度。对于函数 $f(x) = \max\{x_1, -x_1, x_2, -x_2\}$ （即无穷范数 $\|x\|_\infty$ ），在点 $x_0 = (1, -3)$ 处，最大值是 $3$ ，这仅来自 $-x_2$ 这一项。因为只有一个部分被激活，所以函数是局部光滑的，次微分只是包含该部分梯度的单元素集合，即 $(0, -1)$ 。

对偶性一瞥：这些法则的力量可以带来一些出人意料的优美结果。让我们再次审视无穷范数 $f(x) = \|x\|_\infty$ ，但这次是在原点 $x_0 = (0,0)$ 。在这里，所有定义函数 $|x_i|$ 都处于最小值，所以事情变得有趣起来。应用定义可以揭示，次微分 $\partial f(0,0)$ 是所有满足 $|g_1| + |g_2| \le 1$ 的向量 $g = (g_1, g_2)$ 的集合。这个形状是 $L_1$ 范数的单位球， $\|g\|_1 \le 1$ 。这并非巧合，而是一种被称为对偶性的深刻数学原理的体现。一个范数在原点的次微分是其对偶范数的单位球。这暗示着这些概念被编织在一个更大、更优雅的数学织物中。

关键所在：最小值的条件

所以，我们有了这个奇妙的新工具。它如何帮助我们找到碗状函数的底部呢？对于光滑函数，最小值 $x^*$ 出现在梯度为零的地方： $\nabla f(x^*) = 0$ 。非光滑情况下的等价条件同样简洁而深刻：

一个点 $x^*$ 是凸函数 $f$ 的全局最小值，当且仅当零向量是该点次微分的一个元素： $0 \in \partial f(x^*)$ 。

其直觉很清晰：如果 $0$ 是一个有效的次梯度，这意味着我们可以在 $x^*$ 处画一个水平的支撑超平面。因为整个函数必须位于这个平面之上，所以 $x^*$ 必然是最小值。这就是次梯度最优性条件，它是非光滑凸优化的中心原理。它为我们提供了一个明确的测试，用以判断是否找到了解。此外，它也可以反向使用。假设我们有一个带参数的函数，如 $f(x) = 5|x - 5| + 2|x + 1| + \beta|x - 2|$ ，我们想知道 $\beta$ 取何值时能使 $x^*=2$ 成为最小值。我们可以用 $\beta$ 表示次微分 $\partial f(2)$ ，然后找到能使所得集合包含零的最小 $\beta$ 值。

次梯度的舞步：通往最小值的不完美路径

拥有一个最小值的条件是一回事，拥有到达那里的方法是另一回事。最直接的算法是次梯度法。它看起来几乎与梯度下降法完全相同： $x_{k+1} = x_k - \alpha_k g_k$ 其中 $g_k$ 是从 $\partial f(x_k)$ 中选取的任意一个次梯度，而 $\alpha_k$ 是一个步长。

但这种表面的相似性掩盖了一个关键区别。次梯度，与梯度不同，不一定是最速下降方向。事实上，沿着负次梯度的方向迈出一步有时甚至会增加函数值！该方法仅保证这一步会让我们更接近最小点 $x^*$ ，而不一定能在该特定步骤上获得更低的函数值。

这导致了一些奇特的行为。使用次梯度法的优化器可能会观察到函数值上下波动，迭代点似乎在最小值附近“之”字形移动。此外，与梯度下降法不同，随着我们越来越接近解，次梯度的范数 $\|g_k\|$ 不一定会趋于零。算法可能在最小点两侧愉快地来回跳跃，而每一步的次梯度都很大。这就是为什么一个常见的停止准则不是检查次梯度是否很小，而是跟踪迄今为止观察到的最佳函数值，并在其不再显著改善时停止。

函数“山谷”的几何形状也极大地影响算法的路径。对于像 $f(x)=|x|$ 这样具有尖锐 V 形的函数，恒定的步长可能导致迭代点越过最小值并永远在其周围振荡。对于像 $g(x)=\max(0, |x|-\epsilon)$ 这样底部平坦的函数，行为则有所不同。一旦迭代点进入 $|x| \lt \epsilon$ 的平坦区域，次梯度就变为零，算法会戛然而止。在这种情况下，它会找到最优集中的一个点，但不一定是中心点。

超越第一步：迈向更好的算法

次梯度法简单而鲁棒，但其“之”字形移动的特性可能使其速度缓慢。对于光滑优化，一些最强大的方法是拟牛顿法（如著名的 BFGS 算法），它们通过构建函数曲率的近似来采取更智能的步骤。我们能为非光滑函数做类似的事情吗？

当我们试图推广这些方法的核心部分——割线方程时，我们遇到了一个障碍。割线方程依赖于两点之间梯度的变化， $y_k = \nabla f(x_{k+1}) - \nabla f(x_k)$ 。如果我们只是用次梯度替换梯度， $y_k = g_{k+1} - g_k$ ，我们面临一个新问题：我们该选择哪个次梯度？由于次微分 $\partial f(x_k)$ 和 $\partial f(x_{k+1})$ 可能是集合，向量 $y_k$ 并非唯一确定。这是光滑世界中不存在的根本性模糊。

但这种模糊性也是一个机会。它代表了一种选择的自由。被称为丛方法的先进技术通过收集过去迭代中的一“丛”次梯度来工作。更复杂的针对非光滑函数的拟牛顿法改进涉及在每一步有目的地从次微分集合中选择次梯度。例如，通过精心选择 $g_k$ 和 $g_{k+1}$ 以最大化“曲率”项 $s_k^T y_k = s_k^T(g_{k+1}-g_k)$ ，我们可以恢复一些实现更快收敛所需的理想属性。

这就是这段旅程的走向：从支撑超平面这个简单而优美的思想出发，我们发展出一套丰富的工具和算法。我们了解了它们的力量、局限，并最终明白，正是它们独特的怪癖为构建更聪明、更强大的方法开辟了新途径，以驾驭现实世界优化问题中那些复杂、扭结的图景。

应用与跨学科联系

我们已经穿越了带有“尖角”的函数的抽象世界，发展了像次梯度这样的工具来驾驭它们尖锐的图景。人们可能会想，这是否仅仅是一种数学上的好奇心，是偏离了微积分铺设好的康庄大道的一次绕行。但事实恰恰相反。通过学习拥抱不可微性，我们解锁了一种惊人强大且统一的世界观。非光滑优化的原理不仅限于黑板；它们是解决信号处理、机器学习、工程、金融乃至生物学等领域关键问题的核心。现在，让我们来探索这片广阔、相互关联的应用领域。

鲁棒的艺术：驯服尖峰和离群值

想象一下，你是一位地球物理学家，正在监听来自地球深处的微弱回声以绘制其结构。你的地震记录大部分是干净的，但偶尔，一辆路过的卡车或一次雷击会在你的数据中产生一个巨大的、尖峰状的噪声脉冲。如果你试图使用经典的最小二乘法——最小化平方误差和 $\sum r_i^2$ ——来拟合你的模型，你会遇到一个严重的问题。平方操作将那一个巨大的尖峰变成了一个灾难性的惩罚。你的算法，为了拼命减少这个庞大的平方误差，会扭曲整个模型，牺牲对百分之九十九数据的良好拟合，只为安抚那百分之一的离群值。这正是所谓的“尾巴摇狗”。

这时，一个非光滑函数——绝对值——的简单之美便来救场。如果我们不最小化平方误差（ $L_2$ 范数），而是最小化绝对误差（ $L_1$ 范数） $\sum |r_i|$ ，会怎么样？现在，一个离群值的惩罚与其大小成正比，而不是其大小的平方。一个比典型噪声大一百倍的尖峰现在贡献的惩罚是一百倍，而不是一万倍。它仍然是一个显著的误差，但它不再有那种支配整个拟合过程的杠杆作用。

这个选择不仅仅是一个聪明的技巧；它从多个角度看都具有深刻的合理性。首先，从微积分的角度看：一个数据点的影响力，用目标函数对其残差的梯度来衡量，对于 $L_1$ 范数是有界的。对于任何非零残差，其影响力要么是 $+1$ ，要么是 $-1$ ，无论它有多大。而对于 $L_2$ 范数，影响力随残差线性增长，这给了大离群值在最终结果中无限的“发言权”。其次，从统计学的角度看：最小化平方误差等价于假设噪声服从高斯（钟形曲线）分布。而最小化绝对误差，则等价于假设噪声服从拉普拉斯分布——一种具有“重尾”的分布，它更能容纳尖峰噪声或图像中“椒盐”噪声所特有的罕见、大幅度的偏差。因此，通过从光滑目标函数切换到非光滑目标函数，我们创建了一个更鲁棒、更宽容、更贴近现实世界的模型。

稀疏性的魔力：大海捞针

非光滑优化最著名的应用，或许是它那发现“稀疏”解——即大部分分量都恰好为零的解——的神奇能力。想象一位对冲基金经理，可以投资一千种不同的资产。目标是最大化预期回报，但有一个监管限制，即“总风险暴露”（所有多头和空头投资绝对值之和）不得超过某个值 $G$ ： $\sum |w_i| \le G$ 。这是一个 $L_1$ 约束。最优策略是什么？非光滑优化的数学给出了一个惊人的答案：找到绝对预期回报最高的单一资产，然后把所有资金都投在它上面。最优的投资组合是最大程度稀疏的；所有其他头寸都恰好为零。如果约束是基于光滑的 $L_2$ 范数，投资将会被稀疏地分散到许多资产中。 $L_1$ 球的“尖角”倾向于产生位于坐标轴上的解。

这一原理是压缩感知和机器学习领域革命背后的引擎。许多高维问题，从用更少的测量数据重建 MRI 扫描，到找出与某种疾病相关的最重要基因，都依赖于一个假设：底层信号是稀疏的。虽然找到绝对最稀疏的解是一个计算上不可行（NP-难）的问题，但一个非凡的发现是：转而最小化 $L_1$ 范数——一个凸（尽管非光滑）问题——通常能找到完全相同的稀疏解！这就是基追踪（Basis Pursuit）和 LASSO 等方法的精髓。

当然，这也带来了一个计算上的挑战。你究竟如何最小化一个带有 $L_1$ 项的函数？像增广拉格朗日方法（ALM）这样的强大算法可以处理约束，但它们并不能消除核心的非光滑性；它们只是将其转移到每次迭代中必须解决的子问题里。关键是一个名为近端算子的优雅工具。对于 $L_1$ 范数，这个算子有一个简单的闭式解，称为“软阈值”：它将值向零收缩，并将任何足够小的值精确地设置为零。这个简单的“收缩或置零”步骤，通过迭代重复，是许多最先进算法背后的主力，它们能在巨大的数据干草堆中找到稀疏的绣花针。

塑造结构：超越简单稀疏性

非光滑正则化的力量远不止于将单个数值设为零。它可以用来在我们的解上施加更复杂、更有趣的结构。考虑分析淋巴结显微图像的任务，淋巴结是免疫系统的关键战场。我们可能观察到不同位置数千个基因的表达水平，并且我们希望识别出不同免疫微环境（如 B 细胞滤泡和 T 细胞区）之间的边界。在一个微环境内部，基因表达应该相对均匀，而在边界处，它应该发生突变。

我们如何强制实现这一点？我们不再用 $L_1$ 范数惩罚信号本身，而是惩罚它的梯度。这种惩罚，被称为全变分（TV），是相邻点之间绝对差值的总和， $\sum |u_{i+1} - u_i|$ 。通过迫使梯度变得稀疏，我们鼓励信号 $u$ 成为分段常数。最终的解将被完美地去噪，在微环境内部呈现平坦的高原，而在它们的边界处则保留了清晰的悬崖——这与潜在的生物学结构完美匹配。相比之下，一个光滑的、基于 $L_2$ 的正则化器会把这些关键的边界模糊掉。

我们甚至可以为更奇特的结构设计惩罚。在材料科学中，研究人员使用 X 射线光谱学等技术来研究正在进行的化学反应。得到的数据通常是几个基本底层过程信号的混合物。为了将它们分离开，他们使用字典学习，其目标是找到一组基谱（“字典原子”）以及它们的稀疏组合。在这里，我们可能希望鼓励算法使用尽可能少的基谱。这可以通过“组稀疏”正则化器来实现，它使用非光滑惩罚（如字典原子欧几里得范数的总和）来强制字典矩阵的整个列变为零，从而有效地剪除不相关的光谱模式。原理保持不变：一个精心选择的非光滑函数促进了解中期望的结构。

自然法则并非总是光滑的

物理学和工程学的世界也充满了固有的非光滑性。想一想推一个沉重的箱子在地板上滑动的简单动作。当你施加一个小的力时，静摩擦力使箱子保持不动。阻力完美地匹配你的推力。但是一旦你的力超过某个阈值，箱子会突然猛地开始运动，摩擦力变成了动摩擦力。这种“粘滑”转变不是平滑的；它是物理定律的突变。事实上，库仑摩擦的数学描述本质上是一个非光滑的、集值的关系。当工程师使用有限元法模拟这类系统时，他们必须面对这种不可微性。有时他们用先进的“半光滑牛顿法”来直接处理它。其他时候，他们可能会选择“正则化”这个定律，用一条微小的光滑曲线替换那个尖角。这使得问题对于标准求解器来说更容易处理，但也引入了其自身的权衡，比如潜在的数值病态——这是在物理现实和计算便利之间的一场精妙舞蹈。

这种光滑与非光滑方法之间的张力在工程设计中以一种更深刻的方式出现。假设你想在某个硬约束下，比如 $h(x)=0$ ，最小化一个函数 $f(x)$ 。一个经典的方法是使用光滑的二次惩罚，即最小化 $f(x) + \rho h(x)^2$ 。为了精确地执行约束，你必须将惩罚参数 $\rho$ 推向无穷大，这不可避免地会导致数值上病态的噩梦。在这里，非光滑性提供了一个惊人优雅的解决方案。如果你转而使用非光滑的 $L_1$ 惩罚，最小化 $f(x) + \rho |h(x)|$ ，神奇的事情发生了。可以证明，存在一个有限的 $\rho$ 值，使得这个无约束非光滑问题的解正是原始约束问题的解。这被称为“精确罚函数”。绝对值函数的尖角远非麻烦，它提供了一种完美执行约束的方法，而没有其光滑对应物所带来的数值不稳定性。

确保稳定性：控制的锋刃

最后，让我们看一个现代工程的巅峰之作：为飞机或电网设计一个鲁棒的控制系统。控制器不仅要对一个完美的、理想化的系统数学模型有效，而且在面对现实世界的不完美——制造公差、变化的有效载荷和部件磨损——时也必须保持稳定。

该领域的一个关键工具是“结构奇异值”，或 $\mu$ ，它衡量系统对此类不确定性的鲁棒性。直接计算 $\mu$ 极其困难。取而代之的是，工程师们解决一个相关的、更易于处理的问题：他们找到一组缩放因子，组织在一个对角矩阵 $D$ 中，以最小化一个缩放后系统矩阵的最大奇异值 $\bar{\sigma}(DMD^{-1})$ 。最大奇异值函数 $\bar{\sigma}(\cdot)$ 是线性代数中的一个基本对象，它恰好是凸的但非光滑的。它的“角”出现在两个或多个奇异值变得相等的时候。因此，最佳缩放因子 $D$ 的设计是一个非光滑凸优化问题，在每个频率点上使用基于次梯度的方法来解决。正是这种驾驭奇异值函数尖锐图景的能力，使得工程师能够认证一架 400 吨重的飞机在穿越湍流天空时将保持稳定。

从数据分析的统计基础到摩擦的物理定律，再到控制理论的前沿，非光滑优化的语言提供了一个深刻而统一的框架。它告诉我们，世界上的“尖角”——离群值、突变、硬约束、稀疏结构——并非需要被平滑掉的缺陷，而是本质的特征。当我们理解并拥抱它们时，就可以利用它们来构建更鲁棒、更高效、更具洞察力的模型来描述我们这个复杂的世界。