无导数方法

玻尔百科

关键要点

无导数方法旨在通过仅使用函数值来解决“黑箱”优化问题，因此在导数未知时非常适用。
直接搜索算法，如坐标搜索和 Nelder-Mead 方法，通过智能的试错系统地探索解空间，而不是沿着计算出的斜率进行。
虽然这些方法对非光滑或带噪声的函数具有稳健性，但它们通常是局部优化器，可能会陷入次优解，甚至可能缺乏收敛保证。
无导数优化的应用非常广泛，涵盖工程设计、经济建模、机器学习超参数调整和量子计算等领域。

引言

在科学、工程和金融领域，许多最关键的优化挑战都是“黑箱”问题。我们可以输入参数并测量结果，但连接它们的底层数学函数要么是未知的，要么是极其复杂的，要么是微分成本过高的。这一现实造成了巨大的知识鸿沟，因为依赖导数来寻找“最速下降”方向的传统优化技术变得毫无用处。当我们无法看到地貌的斜率时，我们如何找到最佳解决方案呢？

本文介绍了无导数方法这个强大的世界，这是一类旨在应对这种不确定性的算法。我们将探讨仅使用函数评价值来优化函数的核心理念。第一部分“原理与机制”将解析坐标搜索和著名的 Nelder-Mead 方法等直接搜索策略的直观逻辑，并将它们与基于导数的方法进行对比。随后的“应用与跨学科联系”部分将展示这些方法非凡的多功能性，揭示它们在工程、经济、机器学习乃至量子计算等不同领域的影响。

原理与机制

想象一下，你是一位在未知土地上的探险家，任务是找到整个区域的最低点。但困难在于，这里永远大雾弥漫。你可以精确测量当前的海拔，以及你能走到的任何一点的海拔，但你没有地图，没有能指向下坡的指南针，也无法知道脚下地面的坡度。你该如何前进？这就是黑箱优化的根本挑战。

许多现实世界的问题，从调试复杂的实验性发动机到校准金融模型，都与此完全相同。我们有一个系统，可以输入参数并测量输出——发动机的效率、模型的误差——但连接输入和输出的底层数学函数是未知的或极其复杂的。它是一个“黑箱”。

黑箱的困境

传统的优化方法，就是你在初级微积分课程中可能学到的那种，通常感觉就像拥有一个永远指向最速下降方向的魔法指南针。牛顿法 (Newton's method) 是一种著名而强大的算法，用于寻找函数的零点（这与寻找其导数为零的点，即最小值有关），它就是一个典型例子。其迭代公式 $x_{k+1} = x_{k} - f(x_k)/f'(x_k)$ 关键地依赖于知道导数 $f'(x_k)$ 。这就是你所处地貌的局部斜率。但在我们这个大雾弥漫的黑箱世界里，我们根本无法计算 $f'(x_k)$ 。在这里尝试使用牛顿法就像是想用一个需要你先知道北方在哪里的指南针。这是一条死路。

那么，我们该怎么办？我们需要一种不同的哲学。我们需要的方法，应该能利用我们拥有的唯一信息：函数在特定点的值，或者说海拔。这些就是无导数方法。

旧方法的启示：伪造导数

在我们完全放弃斜率这个想法之前，让我们考虑一个巧妙的技巧。如果我们不能知道导数，或许我们可以估计它？这就是像斯特芬森法 (Steffensen's method) 这类方法背后的思想。

看看它寻找根的公式： $x_{n+1} = x_{n} - \frac{[f(x_{n})]^2}{f(x_{n} + f(x_{n})) - f(x_{n})}$ 将此与牛顿法进行比较。注意到项 $\frac{f(x_{n} + f(x_{n})) - f(x_{n})}{f(x_{n})}$ 已经取代了 $f'(x_n)$ 项。这只是斜率的一个有限差分近似！它通过在 $x_n$ 和 $x_n + f(x_n)$ 处的两次函数求值来计算“高差与水平距离之比”。本质上，它迈出一小步并测量海拔的变化来猜测斜率。其精妙之处在于，在理想条件下，它能达到与牛顿法同样飞快的（二次）收敛速度，但它做到这一点却从不需要你提供导数的解析公式。这是一个绝妙的技巧，但它仍然是用导数的旧语言在思考。如果我们能创造一种全新的语言呢？

一种新哲学：通过直接搜索进行探索

最直观的无导数方法，通常称为直接搜索法，完全抛弃了斜率的概念。它们基于一个简单而强大的原则运作：尝试几个新点，看看是否有任何点比当前最好的点更好，如果有，就移动到那里。这是一种系统性的、智能的试错法。

单纯的侦察兵：坐标搜索

也许最简单的直接搜索策略是坐标搜索或轴平行搜索。想象你正站在山坡上。你不知道哪个方向是下坡，所以你做了最基本的事情：你向北走一步。你的海拔降低了吗？没有。你返回。你向南走一步。更低吗？没有。你返回。你向东走一步。更低吗？是的！你找到了一个更好的位置，所以你移动到那里。现在，从这个新位置开始，你重复这个过程。

这正是坐标搜索算法所做的事情。对于一个双变量函数 $f(x,y)$ ，它首先固定 $y$ 并沿 $x$ 轴探索，然后固定新的 $x$ 并沿 $y$ 轴探索。例如，为了从 $(0,0)$ 开始，以步长 $\delta=1.0$ 最小化 $f(x,y) = (x - 3.5)^{2} + (y + 2.5)^{2}$ ，算法首先检查点 $(-1,0)$ 、 $(0,0)$ 和 $(1,0)$ 。它发现 $f(1,0)=12.5$ 是三者中最好的，所以它将其“基点”移动到 $(1,0)$ 。从那里，它探索 $y$ 方向，检查 $f(1,-1)=8.5$ 、 $f(1,0)=12.5$ 和 $f(1,1)=18.5$ 。胜出者是 $(1,-1)$ ，因此经过一个完整的周期，我们新的最佳点是 $(1,-1)$ ，这确实更接近于位于 $(3.5, -2.5)$ 的真正最小值。

如果在任何阶段，所有的探索步骤都未能找到一个更好的点，算法会断定它可能接近谷底。它的响应很简单：减小步长 $\Delta_k$ ，并以更高的精度再次搜索。这为算法带来了一个自然的停止点：当步长 $\Delta_k$ 变得小于某个预定义的容差 $\epsilon$ 时，我们宣布我们已经以足够的精度找到了最小值，并停止搜索。

爬行的变形虫：Nelder-Mead 方法

虽然坐标搜索很直观，但它可能效率低下，就像一个只沿着网格线行走的探险家。一个更为复杂和著名的直接搜索算法是 Nelder-Mead 方法。它不使用单个点，而是使用一组称为单纯形 (simplex) 的点。在二维空间中，单纯形就是一个有三个顶点的三角形。在三维空间中，它是一个四面体。在 $n$ 维空间中，它有 $n+1$ 个顶点。

对 Nelder-Mead 方法最好的类比是一个爬行的变形虫。变形虫（单纯形）坐落在地貌上，它能感知到哪个顶点处于最高海拔——即最差的点。它的目标是远离这个高点。怎么做呢？它做了一件非常简单的事情：它将最差的点通过所有其他点的中心进行反射。

让我们具体说明一下。假设我们的二维单纯形有顶点 $v_A = (1, 2)$ 、 $v_B = (5, 4)$ 和 $v_C = (3, 6)$ ，其函数值（海拔）分别为 $10$ 、 $25$ 和 $15$ 。最差的点显然是 $v_B$ ，其值最高为 $25$ 。另外两个点 $v_A$ 和 $v_C$ 构成了我们操作的“基底”。它们的质心（中点）是 $v_c = (2,4)$ 。算法现在将最差的点 $v_B$ 跨过这个质心进行反射，落在一个新点 $v_r = (-1,4)$ 上。变形虫有效地将其一个顶点“翻转”到了一个新的位置，希望那是一个更低的点。

但 Nelder-Mead 的天才之处在于它接下来的动作。在对新的反射点 $v_r$ 进行函数求值后，它会变得贪婪。如果新点不仅好，而且是极好——甚至比单纯形之前的最好点还要好——算法会想：“哇，我偶然发现了一个非常陡峭的下坡！”然后它会变得大胆，并执行一次扩张：它将新点在那个充满希望的方向上推得更远。相反，如果反射是一个糟糕的移动，它会执行一次收缩，将点拉回来。如果一切都失败了，它会执行一次压缩 (shrink)，将所有顶点都朝向唯一的最佳点收缩。通过这种反射、扩张和收缩的动态序列，单纯形在函数地貌上翻滚、伸展和收缩，不断寻找更低的地面。

局部视野的力量与危险

这种直接搜索的哲学——在没有导数的情况下进行局部探索——既非常强大，又存在固有的局限性。理解这种权衡是明智使用这些方法的关键。

优势：在崎岖世界中茁壮成长

当地貌不光滑时会发生什么？如果它有导数未定义的尖角、扭结或不连续点怎么办？对于基于梯度的方法来说，这是一场灾难。这就像它们的魔法指南针在磁极上疯狂旋转。

但对于无导数方法来说，这根本不是问题。因为它们只比较函数值—— $f(A)$ 是否大于 $f(B)$ ？——它们一点也不关心 A 和 B 之间的路径是平滑曲线还是锯齿状边缘。考虑最小化函数 $f(x) = |x^2 - c|$ ，它在最小值点处有一个尖锐的“V”形。像黄金分割搜索法（我们讨论过的直接搜索法的一维近亲）这样的方法将毫无困难地逼近最小值，因为它所需要的只是函数在其搜索区间上是单峰的——即只有一个谷底。谷底的不可微性与算法的成功完全无关。这种稳健性是一种超能力，使得这些方法在优化来自现实世界物理过程或通常不光滑的模拟函数时非常有价值。

弱点：困于山谷

现在来看另一面。这些方法之所以有效，正是因为它们依赖于纯粹的局部信息，而这一点也正是它们的阿喀琉斯之踵。想象一个有两个山谷的地貌：一个宽而浅的盆地（一个局部最小值），以及在高山另一边的一个深而窄的峡谷（全局最小值）。

如果你在浅盆地内的任何地方启动你的 Nelder-Mead 单纯形，会发生什么？变形虫会开始爬行。每一次反射、每一次扩张都基于其顶点的局部海拔。它会尽职尽责且高效地找到其紧邻区域的最低点——浅盆地的底部。但它没有“远见”。它看不到山脉另一边的深峡谷。在它的策略中，没有任何操作能让它跨越障碍进行巨大的跳跃。它会陷入局部最小值，心满意足，完全没有意识到别处存在更好的解。这就是为什么这些被称为局部优化算法。它们擅长找到你所在山谷的底部，但不能保证找到整个地图上的最低谷。

一个令人不安的真相：并不存在的保证

这里有一个最终的、微妙的、也许令人不安的观点。我们已经确定 Nelder-Mead 会找到一个局部最小值。但这甚至是真的吗？对于一个表现良好、光滑的凸函数（一个完美的碗形），它肯定能找到底部，对吧？

惊人的答案是否定的。数学家们已经构造出反例——完美的、光滑的碗形函数——在这些例子中，标准的 Nelder-Mead 算法无法收敛到最小值。变形虫被卡住了！发生的情况是，单纯形会退化；它变得异常扁平细长，与碗壁上的等高线对齐。然后它沿着这条等高线滑动，其顶点收敛到一个明显不是碗底真正最低点的点。该算法的步骤不强制函数值有“充分下降”，从而允许这种奇怪的失败模式，即单纯形收缩到一个非驻点。

这是数值分析中一个优美而又发人深省的教训。Nelder-Mead 方法是一个卓越的启发式算法。它是迄今为止被设计出的最流行和实践上最成功的优化算法之一。然而，它行走在钢丝上，缺乏其他（有时不太实用的）方法所拥有的严格数学收敛性证明的安全网。它是一个强大的工具，源于直觉和几何巧思，提醒我们，在优化世界里，实践中效果极佳的东西有时可能隐藏着最迷人的理论意外。

应用与跨学科联系

我们已经花了一些时间了解无导数方法的机制，这些是在函数导数成谜时用于优化的巧妙策略。我们已经看到像黄金分割搜索法或 Nelder-Mead 单纯形法这样的算法如何通过简单地“品尝”函数在各个点的值来耐心而高效地寻找最优解。但一个工具的好坏取决于它能解决的问题。现在是时候踏上征途，看看这些方法的实际应用，去发现这个单一而优雅的思想——在黑暗中搜索的艺术——如何进入到各种令人惊奇的领域，从熙熙攘攘的市场到原子的静默之舞，再到量子计算机的幽灵般逻辑。

你可能会认为优化是抽象的，是数学家的游戏。但它就在你我身边。每当一家公司为新产品定价，每当工程师设计一根能以最小能耗输水的管道，每当人工智能学会识别一张脸，一个优化问题就被解决了。而且很多时候，被优化的函数是一个“黑箱”，其导数要么无法计算，要么成本太高。

真实世界：工程学与经济学

让我们从一个你可能问过自己的问题开始：公司如何决定一个产品的定价？如果价格太高，购买者寥寥无几。如果价格太低，每件销售的利润又微薄。介于两者之间的某个地方存在一个“最佳点”。这是一个经典的一维优化问题。我们可以根据价格 $p$ 写出总利润函数 $\Pi(p)$ 。这个函数取决于制造成本，以及至关重要的、告诉我们在给定价格下会有多少人购买产品的“需求曲线”。这条曲线可能很复杂，是从市场数据中学习到的混乱之物。寻找它的导数可能是徒劳的。

但我们不需要它！使用像黄金分割法这样的简单线性搜索，我们就可以找到利润函数的峰值。该算法只是询问黑箱——我们的经济模型——“如果我们将价格设为 $p_1$ ，利润是多少？”以及“在 $p_2$ 呢？”通过比较答案，它智能地缩小搜索区间，直到以任意精度锁定最优价格。无论需求遵循指数衰减还是更复杂的逻辑曲线，算法都不在乎；它只是找到峰值。

同样的想法也回响在市场营销领域。一家公司进行广告宣传，销售额随之上升。但这种效应会持续多久？广告的“记忆”被所谓的广告库存模型所捕捉，该模型使用一个衰减参数 $\lambda$ 来描述今天的广告影响力如何延续到明天。为了根据给定的销售和广告支出历史找到最可信的 $\lambda$ 值，分析师们建立了一个统计模型，其拟合优度取决于 $\lambda$ 。目标是找到使模型的预测与现实最匹配的 $\lambda$ ——也就是最小化残差平方和 (SSR)。这个作为 $\lambda$ 函数的 SSR，就是我们的新黑箱。评估它需要运行一次完整的统计回归。然而，又一次，一个简单的一维搜索可以有效地调整这个旋钮，以找到最能解释数据的 $\lambda$ 值，从而为市场营销效果提供关键见解。

工程世界建立在这样的隐式关系之上。考虑水在管道中的流动。对于土木和机械工程师来说，一个极具实际重要性的问题是：有多少能量因摩擦而损失？答案取决于达西摩擦因子 (Darcy friction factor) $f_D$ ，它纠缠在一个名为科尔布鲁克方程 (Colebrook equation) 的复杂隐式公式中：

\frac{1}{\sqrt{f_D}} = -2.0\,\log_{10}\!\left(\frac{\epsilon/D}{3.7} + \frac{2.51}{\text{Re}\,\sqrt{f_D}}\right)

你无法简单地通过代数方法解出 $f_D$ 。一个世纪以来，工程师们使用图表来查找近似解。但我们可以从一个新的角度看待这个问题。让我们将方程重新排列成 $g(f_D) = 0$ 的形式。我们正在寻找函数 $g$ 的根。这等同于问：什么样的 $f_D$ 值能最小化函数 $|g(f_D)|$ 或 $g(f_D)^2$ ？就这样，一个求根问题变成了一个优化问题！像割线法（用于求根）或线性搜索（用于最小化平方残差）这样的无导数方法可以以任何期望的精度找到正确的 $f_D$ 值，无需图表。

有时我们的黑箱不是一个单一的公式，而是一个完整的数据集。想象一下，你正在运行一个 RLC 电路的模拟，并得到了一系列不同时间点的电压值。你看到电压上升然后下降，但振荡的真正峰值几乎肯定发生在你的两个记录数据点之间。你如何找到其精确的时间和值？一个巧妙的技巧是仅使用构成离散峰值的三个数据点来建立一个简单的局部模型——一条穿过它们的光滑抛物线。一旦你有了这条简单的抛物线，找到它的最大值就变得微不足道。这种使用几个局部点来建立一个简单模型然后进行优化的过程是一个强大的主题。它使我们能够以远超采样分辨率的精度放大我们数据中的特征。

数字前沿：机器学习与计算科学

帮助我们为小部件定价或在信号中找到峰值的相同原理，现在正处于我们时代最先进技术的核心。现代人工智能模型，例如在无数数据科学竞赛中使用的梯度提升机，有数量惊人的“旋钮”和“刻度盘”，称为超参数。这些设置——如学习率或模型中的树的数量——不是直接从数据中学到的。它们必须由从业者在训练开始之前就设定好。最终模型的性能是这些超参数的一个极其复杂、高维且评估成本高昂的函数。找到正确的组合是一个典型的黑箱优化问题。虽然搜索空间通常对于简单的线性搜索来说太大了，但基本思想仍然是：我们为不同的超参数集评估模型的性能，并使用一个聪明的策略来决定下一步尝试哪一组。

当我们从数字世界转向物理世界，进入分子的世界时，“导数”这个概念本身可能变得脆弱。在分子模拟中，原子系统的势能通常由像 Lennard-Jones 势这样的函数来描述。为了防止原子不切实际地重叠，这些模型有时会包含一个“硬核”排斥——如果两个原子靠得比某个距离更近，能量会飙升到一个大的常数值。这在能量景观中创造了一个“扭结”。在这个精确的距离上，能量的导数是未定义的。一个标准的基于梯度的优化器，依赖于沿着斜坡向下走，将会完全迷失。它可能会在硬核内部看到零斜率（尽管原子处于糟糕的高能冲突中）并错误地停止，或者它可能会被卡在扭结处并振荡。基于梯度的方法的这种失败是采用无导数方法的强大动机，因为后者对导数视而不见，因此不受其缺失的影响。

这个思想是现代计算化学的核心。当研究化学反应时，一个关键目标是找到“过渡态”——反应物和产物之间最小能量路径上的最高点。这是反应的瓶颈，其能量决定了反应速率。根据变分过渡态理论，这个瓶颈不仅仅是势能的峰值，而是一个更微妙的量——自由能的峰值，它包含了分子振动的熵贡献。科学家们进行昂贵的量子化学模拟，以计算沿一条可能的反应路径上几个点的自由能。然后他们面临与我们的电气工程师相同的问题：找到一个仅在几个离散点上已知的函数的最大值。解决方案是同样优雅的策略：用一条光滑曲线对这些点进行插值（特别小心地处理物理约束，如确保振动频率保持为正），然后使用一个稳健的一维优化器，如布伦特方法 (Brent's method)，来找到插值自由能曲线的峰值。这定位了反应的真正瓶颈 $s^\ddagger(T)$ ，并揭示了对其动力学的深刻理解。

但这将我们带到了一个关键的坦诚点。无导数方法是万能药吗？完全不是。算法的选择是一门艺术。考虑一个来自合成生物学的问题：代谢流分析，科学家试图确定细胞内所有反应的速率。这可以被表述为一个高维优化问题。人们可能倾向于使用像 Nelder-Mead 这样的经典无导数方法。它简单且不需要梯度。然而，对于有许多变量 ( $d$ ) 的问题，Nelder-Mead 的扩展性非常差。仅其初始设置就需要 $d+1$ 次昂贵的函数评估，其收敛速度可能慢得令人痛苦。在这个领域，一场革命已经发生：反向模式自动微分。这是一个计算巫师的技巧，它允许以仅为模拟本身成本的一个小的常数倍数的代价来计算复杂模拟的精确梯度，而与参数数量无关。当可以获得如此廉价的梯度时，像 L-BFGS 这样强大的基于梯度的方法就优越得多，能在少得多的步骤内收敛。这个教训是深刻的：无导数方法适用于导数真正不可用或成本过高的情况。当导数可用且廉价时，绝对应该使用它们。

量子前沿与噪声的挑战

我们的旅程在科学的前沿结束，在这里，黑箱优化面临其最大的挑战：量子力学和固有的、不可避免的噪声。变分量子本征求解器 (VQE) 是近期量子计算机的一种前沿算法，旨在寻找分子的基态能量。它的工作原理是：通过一组经典参数 $\boldsymbol{\theta}$ 控制来制备一个量子态，测量其能量，然后使用一个经典优化器来调整 $\boldsymbol{\theta}$ 以降低能量。

这也许是终极的黑箱问题。每一次能量评估都代价高昂，需要在量子计算机上执行一个程序。更糟糕的是，量子力学是概率性的。一次测量不会产生一个确定性的答案，而是根据玻恩定则产生一个随机结果。为了估计能量，必须重复测量多次（进行多次“shots”）并对结果取平均。这意味着我们的黑箱不仅不透明，它还有点像个骗子。每次我们询问在点 $\boldsymbol{\theta}$ 处的能量时，我们都会得到一个略有不同、带噪声的答案。这被称为“散粒噪声”。

这种噪声是许多优化器的克星。正如我们所讨论的，像 L-BFGS 这样的拟牛顿法，试图从梯度的差异中学习地貌的曲率，可能会被噪声灾难性地破坏。试图从两个巨大的、带噪声的梯度向量中计算斜率的微小变化，就像试图在暴风雨中的船上称一根羽毛的重量。噪声完全淹没了信号，导致不稳定的步骤和收敛失败。在这里，一些无梯度方法的相对稳健性就能大放异彩。通过仅依赖函数值，它们有时能更优雅地经受住噪声的风暴。

同样的挑战也出现在计算金融中。在为复杂的金融衍生品定价时，其价值通常通过蒙特卡洛模拟来计算，这是另一种形式的带噪声的函数评估。寻找“隐含波动率”——一个使模型价格与市场价格匹配的关键参数——就是对这个带噪声的黑箱进行求根的问题。如果函数值中的噪声大于它们的真实差异，那么尝试使用从两次函数调用中近似斜率的割线法是危险的。算法可能会被引入歧途。但在这里，也有巧妙的技巧。人们可以使用“共同随机数”，这意味着为你正在比较的两个蒙特卡洛模拟使用完全相同的随机数序列。这会在噪声中引起强烈的正相关，当取差值时，大部分噪声会因此抵消。这是一招漂亮的统计柔道，利用噪声自身的结构来稳定算法。

从管道和价格的现实世界到量子态的幽灵世界，我们看到了同样的基本挑战和同样的核心思想在起作用。在缺乏完美信息的情况下寻找最佳解决方案的探索是贯穿科学和技术的一条普遍主线。无导数优化为这一探索提供了丰富的工具箱，但它也教会了我们一个更深刻的教训：要解决一个问题，你必须首先了解它的特性。它是高维的吗？它是光滑的吗？它带噪声吗？从业者的艺术不在于知道一种“最佳”方法，而在于为手头问题的独特性质明智地选择正确的工具。