全局优化

玻尔百科

定义

全局优化是一个数学和计算领域，致力于在存在多个局部最小值的复杂非凸搜索空间中寻找绝对最佳解。该学科采用模拟退火和盆地跳跃等随机方法，通过引入随机性或景观变换来摆脱局部陷阱。这些策略作为一种统一原则，广泛应用于工程设计、计算化学以及生物系统等多种领域。

核心要点

全局优化的核心挑战在于逃离复杂非凸“景观”中的局部极小值，这是一个简单的下山搜索方法会失败的问题。
模拟退火和盆地跳跃等随机方法通过引入随机性来接受“上山”移动，或通过变换搜索景观以专注于主要盆地，从而克服局部陷阱。
全局优化是一个连接不同领域的统一原则，从工程设计（电池）和计算化学，到理解生物系统（进化）和医学成像。
贝叶斯优化和课程学习等高级策略通过智能地平衡探索新区域与利用已知良好解，从而高效地导航广阔的搜索空间。

引言

对“最佳”的追求是一项基本的科学事业。无论是设计更高效的引擎、发现拯救生命的药物，还是揭示自然的奥秘，我们常常面临着数量惊人的可能性和找到最优解的单一目标。这便是全局优化的范畴。然而，许多现实世界的问题将其最佳解隐藏在复杂、崎岖的“景观”中，简单的搜索方法很容易迷失其中，满足于仅仅是“良好”而非“卓越”的解。本文旨在应对这一根本性挑战：当无数具有欺骗性的局部极小值挡住我们的去路时，我们如何找到真正的全局最小值？我们将首先探讨全局优化的核心原理与机制，学习如何将这些复杂问题可视化，并理解像模拟退火和盆地跳跃这样的策略，它们能让我们逃离局部陷阱。随后，我们将遍览其多样的应用与跨学科联系，探索这一追求如何统一了工程、生物学和机器学习领域的挑战，从而改变了我们创造、发现和理解世界的能力。

原理与机制

为了开始我们的全局优化之旅，我们必须首先了解这一探索所在的世界。想象你是一名盲人徒步者，目标是在广阔未知的山脉中找到绝对最低点。你唯一的工具是一个高度计和感受脚下地面坡度的能力。这个关于势能面的有力隐喻是理解优化一切问题的关键。这个“景观”是一个数学函数 $f(\mathbf{x})$ ，它为系统的每一种可能构型 $\mathbf{x}$ 赋予一个值（一种“能量”或“成本”）。我们的目标是找到具有最低可能能量的构型 $\mathbf{x}^\star$ 。

单一山谷的诱惑：局部优化与全局优化

让我们从最简单的景观开始：一个单一、完美光滑、碗状的山谷。对于身处其中的盲人徒步者来说，任务很简单。在任何一点，他们都能感受到最陡峭的下降方向——梯度 $-\nabla f(\mathbf{x})$ ——并朝该方向迈出一步。通过重复地向山下迈出小步，他们保证能够到达谷底。这就是局部优化的精髓。

像最速下降法或更复杂的拟牛顿法等算法都基于这一原理运行。它们能极其高效地找到其起始点所在的局部山谷的谷底。这对于一类被称为凸优化的特殊问题非常有效。在凸问题中，景观就像一个单一的碗。只有一个最小值，因此局部最小值也就是全局最小值。对于这些问题，满足某些数学标准（Karush-Kuhn-Tucker或KKT条件）就能保证你找到了唯一且最佳的解。

然而，科学与工程领域中那些最有趣、最重要的问题——从发现蛋白质的形状到设计新型电池或寻找潜在新药——很少如此简单。它们的景观不是单一的山谷，而是广阔、崎岖的山脉，充满了无数深度各异的山丘、山脊和山谷。

盆地的囚徒

在这样崎岖的非凸景观上，我们那位盲人徒步者的策略注定要失败。如果他们从山中一个浅浅的山谷开始，他们那种只走下坡路的局部策略会把他们引到那个山谷的底部，从而被困住。他们会找到一个局部最小值——一个比其所有直接邻近点都低的点——但他们完全不会意识到，就在下一座山脊之后，还存在着一个深得多的“大峡谷”。

这就是全局优化的根本挑战。一个简单而具体的例子可以很好地说明这一点。想象一个函数 $f(x_1, x_2) = \sin(x_1) + \sin(x_2)$ ，但其可行的“地形”被分成了五个不相交的方形区域。一个从某个区域开始的局部搜索算法会被限制在该区域内，并且可能找到一个值为（比如说） $f=0$ 的局部最小值。它将无从知晓，另一个区域包含着值为 $f=-2$ 的真正全局最小值。

这个概念通过吸引盆的思想被形式化。一个盆地是某个局部最小值的“分水岭”。任何在给定盆地内开始的局部优化搜索，都注定会终结于该盆地的最小值。整个景观被这些盆地分割开来，盆地之间由“山脊”（在数学术语中，即鞍点的稳定流形）分隔。局部优化器是其起始盆地的囚徒。要解决全局问题，我们需要一种逃离的方法。我们需要一种攀登山脉的方法。

策略一：登山之道，在于升温

我们的徒步者如何才能逃离一个局部山谷？他们需要一种策略，能够允许他们偶尔向上走。这就是最强大的全局优化技术之一——模拟退火（Simulated Annealing, SA）背后美妙的直觉。这个名字来源于冶金学的类比：加热金属使其原子得以摆脱不完美的晶格位置，并在缓慢冷却后，稳定到更坚固、能量更低的状态。

在优化中，“温度”（ $T$ ）是一个控制参数，它向搜索过程中注入随机性。算法仍然倾向于走下坡路。然而，它有时会以一定的概率接受一个“上坡”的步骤——一个暂时让解变得更差的移动。著名的Metropolis接受准则规定了这一概率：一个使能量增加 $\Delta E$ 的移动，被接受的概率为 $p = \exp(-\Delta E / T)$ 。

注意温度的角色。在非常高的 $T$ 值下， $\exp(-\Delta E / T)$ 接近于1，意味着即使是大幅度的上坡移动也经常被接受。徒步者此时就像喝醉了酒，在整个景观上随机游荡，轻易就能翻越任何山脉。随着温度缓慢降低，徒步者变得越来越清醒。接受上坡移动的概率下降，搜索开始集中于下坡方向。如果冷却过程足够慢，算法就有很高的概率稳定在最深的山谷——即全局最小值。

关键在于，初始温度必须足够高，以克服山谷间的能量壁垒。一个经典的典范系统——双阱势，如 $E(x) = x^4 - 3x^2$ ——有两个被中间小山隔开的山谷。为了探索这两个山谷，以 $T$ 代表的热能，其数量级必须与该小山的高度相当。

策略二：欲见森林，先略其木

模拟退火在精细、颠簸的景观中漫游。一种更为优雅的方法则提出：我们能否简化景观本身？这就是盆地跳跃（Basin Hopping）算法背后的天才之处。

盆地跳跃对问题进行了转换。它将局部优化算法视为一个简单的工具，一个映射函数 $m(\mathbf{x})$ ，它能将任意点 $\mathbf{x}$ 瞬间传送到其所在局部盆地的底部。然后，算法不再探索原始、崎岖的景观 $E(\mathbf{x})$ ，而是探索一个变换后的、简化的景观 $E(m(\mathbf{x}))$ 。

这个新景观是什么样的？它是一个“阶梯”。单个盆地内的每一点都被映射到同一个最小值，因此整个盆地变成了在该最小值能量处的一个平坦高原。一个盆地内部所有分散注意力的小颠簸和曲折都被抹去了。唯一剩下的特征是盆地之间的巨大台阶。这使得搜索可以专注于最重要的任务：从一个主要山谷跳到另一个。一次移动包括从当前最小值出发，进行一次大的随机跳跃，这很可能落入一个新的盆地。局部优化器会立即找到这个新盆地的底部，然后一个类似Metropolis的规则根据两个最小值的能量来决定是否接受这次跳跃。

这个方法揭示了关于搜索的一个更深层、更美妙的真理。人们可能认为算法应该偏爱体积最大的盆地。但严谨的分析表明，算法不仅仅关心一个盆地的能量（ $E_i$ ）或其体积（ $V_i$ ）。它采样的稳态分布与乘积 $V_i \exp(-E_i / T)$ 成正比。这意味着，一个非常深但狭窄的盆地（低 $E_i$ ，低 $V_i$ ）可以与一个浅但广阔的盆地（高 $E_i$ ，高 $V_i$ ）被访问的频率相同，甚至更高。算法自然地平衡了寻找低能态的“能量”驱动和探索空间大区域的“熵”倾向——这是一个直接借鉴自统计物理学的深刻原理。其他先进方法甚至可以在搜索过程中动态修改搜索，以奖励“新颖性”并避免重新探索已访问过的区域。

当地图含糊不清时：可识别性之谜

有时，全局优化搜索会揭示一个谜题。算法可能会返回许多不同的解，它们都具有相同且全局最优的成本。这并不一定意味着算法失败了；它可能意味着问题本身存在隐藏的对称性。

这就是结构不可识别性的问题。想象一个模型，其输出仅依赖于两个参数的乘积 $\phi = \theta_1 \theta_2$ 。任何能够给出正确乘积 $\phi$ 的参数对 $(\theta_1, \theta_2)$ 都是一个同样好的解。在景观中，这不会产生多个孤立的最小值，而是会形成一条长长的、平底的山谷或最优解的“山脊”。优化器沿着这条山脊找到不同的点，并非失败；它是在正确地报告问题中固有的模糊性。解决方案不是一个更好的算法，而是要么重新构建问题以求解可识别的组合 $\phi$ ，要么添加新的数据来打破这种对称性。

这与实践不可识别性不同，后者指的是景观在最小值周围非常平坦和浅。在这种情况下，理论上存在唯一解，但数据太弱，无法将其确定下来，使得优化对噪声极其敏感。这种情况的解决方法是更多或更好的数据。

理解全局优化的原理，就是去理解这些隐藏的数学景观的地理。这是一段结合了登山者的蛮力探索、物理学家的精妙统计力学以及地图绘制者的严谨逻辑的旅程，所有这一切都是为了找到那个主宰一切的点：全局最小值。

应用与跨学科联系

我们花了一些时间探索在复杂、崎岖的景观中导航的原理——这在数学上等同于在一个充满无数山峰和山谷的世界里登山。我们已经知道，仅仅走下坡路几乎永远无法带领我们到达地图上的最低点。现在，我们将踏上一段旅程，去看看这些险峻的景观在现实世界中出现在何处。正如我们将发现的，它们并非数学上的奇特现象，而是融入了科学、工程乃至生命本身的结构之中。寻找“全局最优”的探索是一个统一的主题，它将电池的设计、药物的发现、医学扫描的解读以及宏大的进化过程联系在一起。

创造的艺术：构建未来

或许，全局优化最直观的应用是在创造行为中：设计。工程师就像雕塑家一样，从一块充满可能性的“原石”开始，力求雕琢出最佳的形式。问题在于，这块“可能性的原石”往往大到难以想象。

考虑一下为电动汽车设计更好电池的挑战。我们希望在最小的重量内尽可能多地储存能量（以最大化续航里程），但我们还必须确保它在快速充放电期间不会过热（为了安全和寿命）。这些是相互冲突的目标。改善一个方面通常会恶化另一个方面。所有“最佳可能”权衡的集合被称为帕累托前沿。找到这个前沿是一个典型的多目标优化问题。由电极厚度、材料孔隙度和化学成分等变量定义的设计空间是巨大的。模拟每一个可能设计的性能将需要数个世纪。

那么，在昂贵的实验或模拟预算有限的情况下，我们如何找到最佳设计呢？一个非常聪明的想法——贝叶斯优化（Bayesian Optimization, BO）——应运而生。想象一下，你正在咨询一位世界知名但收费高昂的专家。你希望用最少的问题获得最好的建议。BO的运作方式与此类似。它基于已经测试过的设计，建立一个关于所有可能设计性能的概率性“信念地图”——一个代理模型。这个地图不仅包含对每个设计的预测，还包含一个不确定性的度量。下一个要测试的设计由一个“采集函数”来选择，该函数智能地平衡两个相互竞争的欲望：利用（测试我们认为极好的区域中的设计）和探索（测试我们非常不确定的区域中的设计，以期发现隐藏的宝藏）。这使得BO能够以惊人的效率在庞大的设计空间中导航，使其成为从电池技术到催化剂发现等领域现代自动化设计的基石。

当然，BO并非唯一的策略。自然界以集体智能的形式提供了另一种灵感。想象一下一群鸟或一群鱼在寻找食物。这就是粒子群优化（Particle Swarm Optimization, PSO）背后的核心思想。一群候选设计，被称为“粒子”，在设计空间中“飞行”。每个粒子都记得它个人找到的最佳位置，而整个群体都知道任何粒子找到的最佳位置。一个粒子的运动是其自身惯性、向其个人最佳位置的拉力以及向全局最佳位置的拉力的组合。

PSO中的一个关键参数是“惯性权重”，它控制着粒子在当前方向上持续运动的程度。高惯性鼓励对搜索空间进行广泛的探索——飞得又高又远。低惯性则鼓励利用——在已知的良好点周围盘旋并仔细搜索。一个强大的策略，类似于冶金中的退火过程，是从高惯性开始，然后逐渐减小它。这种“降温”安排使得群体能够首先在全球范围内探索景观，然后安定下来精炼找到的最佳解，防止它过早地被次要的局部高峰的诱惑所困住。

解码蓝图：从分子到生命

全局优化不仅用于创造新事物；它也是理解已存在的复杂系统不可或缺的工具。

为了模拟分子的行为——药物如何与蛋白质结合，或者化学反应如何进行——计算化学家构建了称为反应力场（ReaxFF）的模型。这些是描述原子系统能量的复杂函数。模拟的准确性完全取决于这些函数中数十个参数的质量。找到正确的参数是一个巨大的优化问题 [@problem-id:3898438]。目标函数是衡量模型预测与一组参考分子的高精度量子化学计算结果的匹配程度。这个景观是出了名的困难，充满了无数的局部极小值。一种常见而强大的方法是混合策略：首先，使用像遗传算法或协方差矩阵自适应演化策略（CMA-ES）这样的全局探索器来勘测广阔的参数空间并确定一个有希望的区域。然后，一个高效的局部优化器接管，像一位工匠大师一样，迅速将解打磨到高精度。

当我们从单个分子转向生命本身的机制时，挑战急剧升级。在合成生物学中，科学家旨在通过从一个部件库（启动子、基因等）组装基因电路来设计新颖的生物功能。即使只有一个小型的部件库和一个中等大小的电路，可能的组合数量也可能轻易达到数十亿或数万亿 [@problem-id:2535696]。这种组合爆炸使得构建和测试每一种设计成为不可能。穷举法是行不通的。取而代之的是，科学家们使用优化算法——从启发式搜索到更形式化的混合整数非线性规划——来导航这个离散的设计空间，并找到能够执行期望任务（例如响应化学信号进行振荡或切换）的电路。

这把我们引向了终极的优化过程：自然选择驱动的进化。我们可以将其视为一个持续了亿万年的、大规模并行的、随机化的优化算法。搜索空间是所有可能的基因组集合。目标函数是在给定环境中的繁殖适应度。突变和重组提供了变异的机制，而选择则引导种群走向适应度更高的区域。但它是一个“完备”的算法，一个保证能找到全局最优解的算法吗？答案是明确的“不”。它是一种强大的启发式方法，但并不完美。像随机遗传漂变和历史偶然性等因素意味着进化可能并且确实会陷入局部最优。一个首先出现的“足够好”的解可能会阻碍通往一个可能存在于广阔可能性空间中其他地方的真正最优解的道路。生命是全局搜索力量的证明，但也是其内在局限性的提醒。

洞见未见：诠释的挑战

全局优化的另一个迷人领域是解决“逆问题”——即从观察到的效应推断其根本原因的艺术。这类似于侦探工作，从一组零散的线索中重建一个故事。

一个绝佳的例子来自医学成像。为了评估心肌的健康状况，医生可以使用一种特殊的MRI技术，用一个临时的暗线网格来“标记”组织。通过观察这个网格随着心脏跳动而如何变形，他们可以诊断肌肉功能的异常。一个关键的计算任务是跟踪网格从一帧到下一帧的运动。最直接的方法是找到使第一幅图像看起来最像第二幅图像的位移。问题在于网格是周期性的，就像正弦波一样。如果你将一个正弦波移动一个完整的周期，它看起来完全相同。这产生了一个具有许多局部极小值的深度非凸目标函数。一个从稍有偏差的猜测开始的简单局部优化器会自信地收敛到一个错误的位移，这个位移与真实值相差整数个网格间距。

这优雅地说明了为什么局部方法会如此灾难性地失败。为了找到真实的运动，我们需要一个更具全局性的视角。一个巧妙的策略是首先在图像的模糊、低分辨率版本上解决问题。模糊处理会冲淡精细的周期性，使目标景观变得平滑，并移除了大部分虚假的局部极小-值。从这个粗糙层次得到的近似解，为在高分辨率图像上进行精细搜索提供了一个极好的起点。这种“由粗到精”的策略是图像分析中避免局部陷阱的广泛使用原则。

这种塑造优化景观的思想与机器学习有着深刻的联系。训练一个复杂的神经网络也是一个高维优化问题。为了帮助优化器找到一个好的解，可以采用一种名为“课程学习”的策略。我们不是从一开始就给模型呈现完整、困难的数据集，而是先用最简单的例子来训练它。例如，在材料建模中，可以首先向模型展示小变形的数据，此时材料的响应是简单且近乎线性的。这会创造一个更平滑、表现更好的初始损失景观，引导模型的参数进入一个“良好”的吸引盆。然后才逐渐引入更复杂、高度非线性的数据点。这相当于在教孩子微积分之前先教算术。

对确定性的追求

到目前为止，我们主要讨论的是启发式方法——像贝叶斯优化、PSO和遗传算法这样非常有效但不能绝对保证找到全局最优解的巧妙策略。然而，该领域还有另一个分支致力于追求确定性：确定性全局优化。

考虑管理一个电力微电网的任务。交流（AC）潮流的物理学由非凸方程描述。我们希望找到可证明最优的电网运行方式，在遵守所有物理约束的同时最小化成本。像空间分支定界法这样的算法正面解决了这个问题。它们通过系统地将搜索空间划分为越来越小的区域来工作。对于每个区域，算法计算一个保证的目标函数下界。如果这个下界比目前找到的最佳解还要差，那么整个区域就可以被安全地丢弃，无需探索其内部。

为了自动计算这些关键的界限，模型中的函数必须具有一个特殊的性质：它们必须是可分解的。这意味着无论一个函数看起来多么复杂，它都必须可以由一系列简单的“原子”构建块（如加法、乘法和基本函数如 $\sin(x)$ 或 $\exp(x)$ ）有限地构造出来。然后，算法使用一套规则，通过组合其原子部分的已知松弛，为整个复杂函数构建一个“凸松弛”——一个简单的、碗状的下估计器。这个强大的思想使得计算机能够以数学上的确定性来推理非凸函数，修剪搜索空间，直到它将真正的全局最优值逼入绝境。

一场统一的探索

我们的旅程已经走了很远。我们看到了同样的基本挑战——在一个巨大、错综复杂的草堆中找到最好的那根针——出现在设计电池、发现催化剂、模拟分子、工程基因、透视人体内部以及运行我们的电网中。我们甚至在宏伟的进化织锦中看到了它的倒影。

全局优化为应对这些多样化的问题提供了一种统一的语言和一个多功能的工具包。它揭示了看似不相关的科学和工程领域之间的深刻联系。试图理解一种材料的物理学家、构建一个电路的生物学家，以及设计一辆汽车的工程师，在某种意义上，都在进行同样的探索。他们是广阔而复杂景观的探险家，而全局优化的原理就是他们的地图和指南针。这是一个深刻的证明，证明了一个数学思想能够照亮和赋能几乎人类探究的每一个角落。