交替方向乘子法 (ADMM)

玻尔百科

定义

交替方向乘子法 (ADMM) 是一种采用分而治之策略的优化算法，通过将复杂的优化问题分解为较小的子问题并进行交替求解。该算法的核心机制包括变量拆分和增广拉格朗日函数，利用对偶变量更新作为积分控制器来驱动变量达成一致。这一统一框架被广泛应用于大规模机器学习、稀疏回归中的 LASSO 以及矩阵补全等领域。

核心要点

ADMM 是一种“分而治之”的算法，它通过将复杂的优化问题拆分成更小、更易于管理的子问题并交替求解来解决它们。
该算法的核心涉及变量分裂，利用增广拉格朗日量强制实现一致性，并将最小化过程分解为针对每个函数的独立步骤。
ADMM 中的对偶变量更新起着积分控制器的作用，在迭代过程中累积原始残差（误差），从而持续地驱动变量趋于一致。
ADMM 为广泛的应用提供了一个统一的框架，包括用于稀疏回归的 LASSO、用于矩阵补全的核范数最小化，以及用于大规模机器学习的分布式共识。

引言

在现代科学和工程领域，许多最重要的挑战，从训练机器学习模型到重建 MRI 扫描，都可以被构建为优化问题。通常，这些问题涉及平衡两个相互竞争的目标——例如，在拟合观测数据的同时，也要保持解的简洁性或稀疏性。这带来了巨大的挑战，因为当这些目标的数学性质根本不同时，标准的优化技术可能会举步维艰。核心问题变成了：我们如何才能高效地解决那些要求我们同时服务于两个不同目标的问题？

交替方向乘子法 (ADMM) 提供了一个优雅而强大的答案。它是一种“分而治之”的算法，将一个单一、庞大的问题转化为一系列可以交替求解的更简单的子问题。通过巧妙地分裂问题并协调各个解，ADMM 能够处理那些在其他情况下难以解决的复杂结构。本文将揭开 ADMM 算法的神秘面纱，为其内部工作原理及其广泛影响提供一个直观而严谨的指南。

在接下来的章节中，我们将首先在“原理与机制”中剖析该算法的基础思想，探索变量分裂、增广拉格朗日量和交替更新是如何协同工作的。然后，我们将在“应用与跨学科联系”中探讨其多样化的用途，揭示这单一的算法思想如何为解决机器学习、统计学、图像处理、控制理论等领域的问题提供了一个统一的框架。

原理与机制

想象一下，你有一个复杂的任务，需要平衡两个本质上不同且常常相互竞争的目标。想想建筑师设计一栋建筑：他们必须满足物理定律以确保结构稳固（一个硬性、不容妥协的约束），同时还要创造一个美观且功能齐全的空间（一个更主观、更灵活的目标）。同时做到这两点是极其困难的。科学和工程领域许多伟大算法的巧妙之处，就在于它们找到了将这类棘手问题拆解开来、解决更简单的部分，然后再智能地将解决方案粘合在一起的聪明方法。交替方向乘子法，即 ADMM，正是这种“分而治之”哲学最优雅和最强大的范例之一。

一个棘手的任务：如何同时服务于两个目标

科学领域的许多问题，从清理噪声图像到训练机器学习模型，都可以归结为以下形式的优化问题：

\text{minimize} \quad f(x) + g(x)

在这里， $x$ 代表我们试图寻找的东西（比如一张清晰图像的像素），而 $f(x)$ 和 $g(x)$ 代表我们两个相互竞争的目标。例如， $f(x)$ 可能是一个数据保真项，表示“最终图像 $x$ 应该看起来像我带噪声的测量值”，这通常是一个光滑的二次函数（如最小二乘误差）。第二项 $g(x)$ 通常是一个正则化项，它施加了某种期望的结构，比如“最终图像应该是稀疏的或具有锐利的边缘”。这类项通常是非光滑的，涉及绝对值或 $\ell_1$ 范数等，这使得像梯度下降这样基于标准微积分的方法难以处理。

困难在于 $f(x)$ 和 $g(x)$ 通过共同的变量 $x$ 纠缠在一起。ADMM 的第一步是一个简单但绝妙的技巧，称为变量分裂。我们不再试图找到一个能同时满足 $f$ 和 $g$ 的 $x$ ，而是引入一个克隆体。我们创建一个新变量 $z$ ，并要求它等于 $x$ 。现在问题看起来是这样的：

\begin{aligned} \underset{x, z}{\text{minimize}} f(x) + g(z) \\\\ \text{subject to} x - z = 0 \end{aligned}

这似乎只是让问题变得更复杂了，但实际上我们取得了深刻的成就：我们解耦了困难的部分。现在，函数 $f$ 只与 $x$ 相关，函数 $g$ 只与 $z$ 相关。它们唯一的联系是简单的一致性约束 $x = z$ 。现在，巨大的挑战转变为一场谈判：我们如何找到一个 $x$ 和一个 $z$ ，它们不仅各自对其函数 $f$ 和 $g$ 有利，而且彼此之间也达成一致？

初次尝试：增广拉格朗日量及其局限

为了强制执行约束 $x=z$ ，我们可以使用一个源于经济学和物理学的古老而优美的思想：拉格朗日乘子。我们为违反约束引入一个“价格”。这个价格就是对偶变量，我们称之为 $y$ 。我们问题的标准拉格朗日函数将是 $f(x) + g(z) + y^T(x-z)$ 。

一种更稳健的方法，也是构成 ADMM 基石的方法，是使用增广拉格朗日量。这为违反约束增加了一个额外的二次惩罚项，就像一个连接 $x$ 和 $z$ 的弹簧。这个弹簧的强度由参数 $\rho > 0$ 控制。增广拉格朗日量为：

L_{\rho}(x, z, y) = f(x) + g(z) + y^T(x - z) + \frac{\rho}{2} \|x - z\|_2^2

增广拉格朗日方法，也称为乘子法，通过重复执行两个步骤来工作：首先，对于一个固定的价格 $y$ ，找到联合最小化 $L_{\rho}$ 的 $x$ 和 $z$ ；其次，根据 $x$ 和 $z$ 之间剩余的差异来更新价格 $y$ 。

然而，我们很快又遇到了最初的问题。联合最小化 $L_{\rho}$ 关于 $x$ 和 $z$ 的过程通常会将它们重新耦合在一起，使我们面临一个与开始时一样困难的问题。正如一个基础性的思想实验中所强调的，如果我们执行这种联合最小化，我们只是在使用乘子法，而不是 ADMM。我们需要一种方法来分解这个联合最小化步骤。

分而治之策略：交替方向

这就引出了 ADMM 的核心思想。与其进行联合最小化，为什么不轮流进行呢？我们将困难的原始最小化步骤分解为两个更简单的步骤：

x-最小化： 将 $z$ 和 $y$ 固定在当前值（ $z^k, y^k$ ），并找到最优的 $x$ 。我们求解： $x^{k+1} := \arg\min_x L_{\rho}(x, z^k, y^k)$
z-最小化： 将 $y$ 固定在旧值（ $y^k$ ），但使用我们刚刚找到的全新的 $x$ （ $x^{k+1}$ ）。现在，找到最优的 $z$ ： $z^{k+1} := \arg\min_z L_{\rho}(x^{k+1}, z, y^k)$
对偶更新： 基于 $x^{k+1}$ 和 $z^{k+1}$ 之间新的差异来更新价格 $y$ ： $y^{k+1} := y^k + \rho(x^{k+1} - z^{k+1})$

这就是“交替方向”法。它将一个庞大而困难的任务变成了一系列更易于管理的子问题。在许多实际应用中，比如信号去噪问题， $x$ -最小化步骤可能是一个简单的最小二乘问题，而 $z$ -最小化步骤则变成一个标准的近端算子，对于许多常见的正则化项如 $\ell_1$ 范数，这只是一个简单的“软阈值”操作。正是这种分解使得 ADMM 如此通用和强大，适用于 $\text{minimize } f(x) + g(z) \text{ subject to } Ax + Bz = c$ 这样的一般结构。

算法的内部对话：解读更新步骤

让我们更仔细地看看这些步骤实际上在做什么。原始变量更新（ $x$ 和 $z$ ）很容易理解：它们各自试图从自己的角度最小化增广拉格朗日量，同时考虑到对方最近的行动。但对偶更新呢？它隐藏着一个美妙的秘密。

标准的对偶更新 $y^{k+1} = y^k + \rho(r^{k+1})$ ，其中 $r^{k+1}$ 是原始残差（约束违反量），这仅仅是梯度上升的一步。就好像对偶变量 $y$ 试图爬上一座山，以找到一个完美的“价格”，最终迫使 $x$ 和 $z$ 达成一致。这次攀爬的步长就是我们的惩罚参数 $\rho$ 。

有一种更直观的方式来看待这个问题，特别是如果我们使用一种“缩放形式”，其中我们定义一个缩放对偶变量 $u = (1/\rho)y$ 。在这种形式下，对于简单的 $x=z$ 约束，对偶更新变为：

u^{k+1} = u^k + x^{k+1} - z^{k+1}

如果我们展开这个递归式，我们会发现 $u^k = u^0 + \sum_{t=1}^k (x^t - z^t)$ 。这揭示了一个非凡的事实：缩放对偶变量 $u^k$ 不过是误差的累加和，即累积的原始残差。它充当了算法的记忆。每当 $x$ 和 $z$ 未能达成一致时，这种不一致性就会被加到累加器 $u$ 中。这个累积的误差随后直接影响下一次的原始变量更新，提供一个纠正反馈信号，不断地推动它们走向一致。这是一个嵌入在算法核心的美妙、简单而强大的积分控制机制。这也是相关的 Bregman 迭代方法背后的一个关键思想，ADMM 与之有着深刻的联系。

权衡的艺术：实际收敛与参数调整

一个算法只有在我们知道它有效并且知道何时停止时才有用。对于 ADMM，我们监控两个关键量：

原始残差 ( $r^k$ )：这衡量了约束被违反的程度（例如， $\|Ax^k + Bz^k - c\|$ ）。我们希望这个值很小。
对偶残差 ( $s^k$ )：这是一个更微妙的量（例如， $\|\rho A^T B (z^k - z^{k-1})\|$ ），它衡量我们距离满足最优性条件的接近程度。本质上，它告诉我们“价格”是否已经稳定。我们也希望这个值很小。

一个稳健的 ADMM 实现会在两个残差的范数都低于某个容忍度时停止。这些容忍度本身也被巧妙地设计为能够适应问题的规模，结合了绝对和相对误差度量，以确保该标准是有意义的。

ADMM 的性能对惩罚参数 $\rho$ 的选择极为敏感。可以把 $\rho$ 想象成连接我们变量的弹簧的刚度。如果 $\rho$ 太小，连接就松散，原始残差可能会缓慢减小，变量在最终收敛前可能会相距很远。如果 $\rho$ 太大，弹簧就太硬，这可能使单个子问题难以求解，并可能导致对偶残差缓慢减小。

调整 ADMM 的艺术通常涉及选择 $\rho$ 以使原始残差和对偶残差的量级大致保持平衡。事实上，先进的启发式方法表明， $\rho$ 的最优选择可能取决于问题中的其他参数。例如，在 LASSO 问题中，随着正则化参数 $\lambda$ 变小，通常明智的做法是按比例减小 $\rho$ 以维持这种平衡并确保良好的性能。

思想之网：ADMM 在优化领域中的位置

ADMM 不是一个孤岛；它是在一个由相互关联的优化概念组成的庞大网络中的一个中心节点。对于简单的问题，它与像近端梯度法（也称为前向-后向分裂）这样的其他“算子分裂”方法密切相关。事实上，在某些假设下，通过特定参数的选择，可以使两种算法的收敛行为完全相同，这揭示了一种深刻的内在统一性。

此外，ADMM 的收敛性不仅仅是经验观察的结果。对于许多问题，特别是涉及二次函数的问题，其行为可以用线性代数的精度来分析。迭代更新可以表示为一个作用于误差向量的矩阵，算法的收敛速度由该矩阵的谱半径决定。这提供了坚实的理论基础，向我们保证，交替更新的直观舞蹈确实在朝着正确的解决方案前进。从其简单、直观的核心到其丰富的联系和实践能力，ADMM 完美地诠释了通过分而治之来寻求简单和力量的原则。

应用与跨学科联系

在熟悉了交替方向乘子法（ADMM）的精妙机制之后，我们现在可以开始一段更激动人心的旅程。我们将走出优化理论的抽象世界，去看看这个强大的工具在现实世界中的应用。你可能会感到惊讶。就像一把万能钥匙能打开各式各样的门一样，ADMM 为那些表面上看起来毫无关联的问题提供了统一的视角。它的巧妙之处在于能够将一个难题“分裂”成两个（或更多）更简单的问题——这一“分而治之”的原则在科学和工程领域引起了广泛的共鸣。

现代数据科学的核心：保真度与简洁性的博弈

科学领域的许多问题都是两种相互竞争的愿望之间的拉锯战：我们希望模型能完美拟合观测数据，但我们也想要最简单、最优雅的模型——这一原则通常被称为奥卡姆剃刀。ADMM 是表达和解决这一根本冲突的天然语言。

考虑现代统计学和机器学习的基石：LASSO 问题。在这里，我们寻求一组参数 $x$ ，它能在数据拟合项（如最小化平方误差 $\frac{1}{2}\|Ax - b\|_{2}^{2}$ ）和复杂性惩罚项（由 $\ell_1$ 范数 $\|x\|_1$ 表示，它鼓励 $x$ 中的许多参数恰好为零）之间取得平衡。完整的问题 $\min \frac{1}{2}\|Ax - b\|_{2}^{2} + \lambda \|x\|_{1}$ 有两个主导因素：光滑的二次数据保真项和尖锐的、诱导稀疏性的 $\ell_1$ 范数。ADMM 将这两个主导因素分离开来。它将光滑项分配给一个子问题，将 $\ell_1$ 范数分配给另一个子问题。由此产生的迭代过程非常直观：一步执行类似岭回归的光滑更新，第二步应用一个“软阈值”算子，该算子只是将值向零收缩并将小值精确地设置为零。这种在光滑更新和“收缩”步骤之间的优雅舞蹈，是无数发现背后的引擎，从识别基因组数据中的关键基因到校准材料科学中的原子相互作用。

同样的原则也适用于我们对数据保真度有绝对要求的情况。在“基追踪”问题中，我们寻求能够完美解释数据（即 $Ax=b$ ）的最稀疏解 $x$ 。在这里，ADMM 将问题分解为最小化 $\ell_1$ 范数和满足硬约束 $Ax=b$ 。第一步仍然是一个简单的收缩操作，而第二步则变成一个几何投影——寻找满足约束的最近点。

这个思想的力量远远超出了简单的稀疏性。在图像处理中，我们知道自然图像不仅在像素值上是稀疏的，而且通常在它们的梯度上也是稀疏的。也就是说，它们由大片光滑区域和尖锐边缘组成。这是全变分 (TV) 正则化背后的思想，它被用于从清理噪声照片到从有限数据重建 MRI 扫描的各种应用中。问题可能看起来更复杂，也许是 $\min \frac{1}{2}\|Ax - y\|_{2}^{2} + \lambda \|Kx\|_{1}$ ，其中 $K$ 是一个梯度算子，但 ADMM 看到了相同的底层结构：一个数据拟合部分和一个简单的 $\ell_1$ 范数，只是应用于梯度。该算法再次分解为一个光滑更新和一个简单的收缩步骤，展示了其卓越的模块化特性。

超越稀疏性：低复杂度模型的宇宙

“简洁性”的概念比仅仅拥有许多零值要丰富得多。对于一个矩阵来说，与稀疏性等价的是什么？一个答案是低秩。一个低秩矩阵可以用非常少的信息来描述，就像一个稀疏向量一样。这个思想是现代推荐系统的基础——数百万用户对数百万种产品的品味可能仅由少数几个潜在因素来解释。

从不完整的测量中恢复低秩矩阵是该领域的一个核心问题，通常被表述为最小化核范数（奇异值之和），这是矩阵等价于 $\ell_1$ 范数的形式。ADMM 再次感到宾至如归。它将问题分解为数据拟合部分和核范数最小化部分。并且它揭示了一个美妙的数学类比： $\ell_1$ 范数的近端算子是对值进行软阈值处理，而核范数的近端算子则是对奇异值进行软阈值处理。ADMM 在这两个基本思想之间架起了一座计算的桥梁，使我们能够通过迭代执行简单的数据拟合步骤和奇异值收缩步骤来解决大规模的矩阵补全问题。

投影的力量：处理现实世界的约束

如果我们的问题没有“软”惩罚项，而是有“硬”的物理或逻辑约束怎么办？例如，一个物理量必须是正的，或者一组概率必须总和为一。ADMM 通过使用指示函数的概念轻松处理这种情况。我们只需将违反约束的惩罚定义为无穷大。

当 ADMM 应用于此类问题时，它的一个子问题会奇迹般地转变为一个欧几里得投影——在允许的集合中找到离我们当前估计最近的点。对于许多重要的约束，这个投影出奇地容易。在有界约束最小二乘问题中，每个变量 $x_i$ 必须位于区间 $[\ell_i, u_i]$ 内，投影操作只是简单地将值裁剪到边界处。ADMM 将一个有约束的优化问题变成了一个无约束问题后跟一个微不足道的裁剪操作。

即使对于更复杂的集合，这个原则也成立。考虑将一个点投影到概率单纯形上——即非负且总和为一的向量集合，这个集合在统计学到机器学习的各个领域都随处可见。这个投影是一个众所周知的子问题，有快速、优雅的解法。通过在 ADMM 框架内构建投影任务，我们看到了该算法如何利用这些高效的几何操作作为构建模块。

从个体到群体：ADMM 作为共识的语言

也许 ADMM 最深刻、影响最深远的应用是在分布式优化中。在这里，“分裂”的不仅仅是数学项，而是物理代理、计算机或处理器。ADMM 变成了一种协议，一种让这些代理进行合作以解决单个代理无法单独解决的全局问题的语言。

核心思想是共识。我们给每个代理一个全局变量的本地副本，并要求它们优化自己的本地目标函数。然后，ADMM 提供了一个两阶段的迭代过程：

本地工作： 每个代理解决自己的问题，为其本地变量找到最佳值。
全局共识： 代理们将它们的结果传达给一个中心协调者（或彼此之间），协调者对它们进行平均，并执行一个“清理”步骤（如收缩或投影）以产生一个更新后的全局变量。这个新的全局变量然后被广播回代理们，过程重复进行。

这种模式无处不在。在一个简单的资源分配问题中，几个代理必须共享一个共同的预算。ADMM 允许它们通过解决各自的本地成本最小化问题，并基于一个单一的、共享的“价格”变量进行迭代调整，来确定最优的分配方案。

这种模式可以扩展到现代机器学习的巨大挑战中。在共识 LASSO 中，我们可以在一个被分割到数百台机器上的数据集上训练一个单一的稀疏模型。每台机器处理自己的数据块（本地更新），然后它们简单地平均它们得到的模型。协调者对这个平均值应用诱导稀疏性的收缩操作，然后循环继续。这种“本地工作，全局平均”的范式是联邦学习的蓝图，模型在分散的数据上（如在手机上）进行训练，而数据永远不会离开设备，从而保护了隐私。

共识的思想甚至可以向内应用。在深度学习中，我们经常希望强制神经网络的不同部分共享相同的参数（“参数绑定”）。ADMM 可以通过将每个参数视为一个必须就单一共享值达成共识的“代理”来强制实现这一点。更新步骤自然地导向一个平均过程，将参数拉向它们的共同中心。

实时协调：ADMM 在控制与机器人技术中的应用

分布式协调的力量并不仅限于离线数据分析；它对于必须实时行动和反应的系统至关重要。在现代控制理论中，模型预测控制 (MPC) 是一种主导范式，系统在该范式下重复地规划一个短未来时间范围内的最优动作序列，执行第一个动作，然后重新规划。

当我们有大规模互联系统时，如电网、自动驾驶车队或化工厂，一个中心化的 MPC 控制器通常是不可行的。我们需要一种分布式方法。ADMM 提供了一个自然的框架。每个子系统可以解决自己的本地 MPC 问题，同时对它的邻居做一些假设。然后，通过 ADMM 迭代，它们交换信息（以对偶变量的形式，这些变量充当共享资源的价格）来迭代地完善它们的计划，直到它们相互一致且全局最优。因为 ADMM 通常在几次迭代内就能收敛到一个合理的解，所以它对于许多实时控制应用来说足够快。

从为数据寻找最简单的解释，到重建人脑图像，再到协调机器人舰队，ADMM 的应用范围令人惊叹。它告诉我们，许多复杂问题的核心，都是更简单部分之间的协商。通过为这种协商提供一种稳健而通用的语言，ADMM 不仅解决了这些问题，还揭示了连接它们的深刻而美妙的统一性。