信赖域方法

玻尔百科

核心要点

信赖域方法首先定义一个最大步长距离（即信赖域半径），然后在此边界内寻找最优步长，这与线搜索方法有本质区别。
该方法利用接受率（比较预测改进与实际改进）来动态收缩或扩展信赖域半径，确保了在病态或非凸问题上也能稳健收敛。
该方法在逃离鞍点方面非常有效，这是高维优化中的一个常见挑战。它利用负曲率信息来寻找下降路径。
信赖域的概念具有高度的适应性，在工程中代表物理稳定性，在楼宇管理中代表舒适度约束，在量子化学中甚至可以代表弯曲流形上的测地线距离。

引言

在从机器学习到物理学的各个领域中，找到一个复杂高维曲面上的最低点是一项核心挑战。这项被称为数值优化的任务，依赖于斜率和曲率等局部信息来指导搜索。但当这些信息仅在我们紧邻的区域内才可靠时，会发生什么呢？这个根本问题催生了不同的优化哲学。传统方法通常是选择一个方向并沿其前进，而信赖域方法则采取了更为谨慎的策略。它首先定义一个“信赖区域”——一个边界，在此范围内我们对曲面的局部模型被认为是可靠的——然后在这个区域内寻找最佳可能步长。本文将深入探讨这种强大而稳健的技术。在接下来的章节中，我们将首先探讨信赖域方法的“原理与机制”，将其理念与其他方法进行对比，并揭示赋予其非凡稳定性的反馈回路。随后，在“应用与跨学科联系”部分，我们将遍历其多样化的应用，从驾驭物理模拟、探索充满噪声的数据世界，到其与量子化学和统计推断的深刻联系，展示其作为现代科学基本工具的通用性。

原理与机制

想象一下，你迷失在一片丘陵起伏、大雾弥漫的地形中，目标是找到最低点。你有一个神奇的高度计，可以告诉你当前的海拔，更厉害的是，还能告诉你脚下地面的斜率（梯度）和局部曲率（海森矩阵）。你该如何决定下一步走向何方？

这正是数值优化的核心问题，并由此产生了两个主要学派。

哲学之问：方向优先，还是距离优先？

一种流行的策略是线搜索方法。它让你首先选择一个有希望的方向——通常是最速下降方向，即下山最陡的方向——然后沿着这条直线行走，同时检查高度计，直到找到该路径上的最低点，或者至少是一个足够低的点。你先决定方向，再决定距离。

信赖域方法则提出了一种截然不同的哲学。它认为：“大雾弥漫，我对斜率和曲率的局部读数仅在周围一小段距离内可靠。我不能无限地相信它们。”因此，你首先在自己周围的地面上画一个圈——比如说，半径为10英尺。这个圆圈就是你的信赖域。你声明：“我的下一步行动不会超出这个圈子。”只有在确立了这个边界之后，你才利用你的局部信息（斜率和曲率）来寻找该圆圈内部的绝对最低点。你先决定最大距离，然后同时找到最佳方向和步长。

这似乎只是一个细微的差别，但我们将看到，它带来了深远的影响。这好比一次朝着固定方向的大胆跋涉，与一次对自己紧邻、可信赖周遭环境的谨慎、审慎搜索之间的区别。

最简单的约定：线性的世界观

让我们从最简单的情形开始。假设我们对地形的局部模型极其基础——我们只考虑斜率，忽略任何曲率。对于从当前位置 $\mathbf{x}_k$ 迈出的一步 $\mathbf{s}$ ，我们对高程变化的模型 $m_k(\mathbf{s})$ 只是一个线性近似：

m_k(\mathbf{s}) = f(\mathbf{x}_k) + \mathbf{g}_k^\top \mathbf{s}

其中 $\mathbf{g}_k$ 是梯度（最陡上升方向）。为了在半径为 $\Delta_k$ 的信赖域内找到最低点，我们必须求解：

\min_{\lVert\mathbf{s}\rVert \le \Delta_k} \mathbf{g}_k^\top \mathbf{s}

表达式 $\mathbf{g}_k^\top \mathbf{s}$ 只是点积，当步长 $\mathbf{s}$ 指向与梯度 $\mathbf{g}_k$ 完全相反的方向时，该值最小。为了充分利用我们的步长，我们应该走到信赖域允许的最远距离。因此，我们能采取的最佳步骤就是直接向下坡方向移动到圆圈的边缘。这一步被称为柯西点，由下式给出：

\mathbf{s}_k = -\Delta_k \frac{\mathbf{g}_k}{\lVert\mathbf{g}_k\rVert}

在这个简化的世界里，信赖域算法不过是人们熟悉的、步长恰好是信赖域半径 $\Delta_k$ 的最速下降法。这提供了一个至关重要的基准：理论上，信赖域方法所采取的任何一步，都必须至少与这个简单的、保证下坡的柯西步一样好。

契约：我们的模型与现实的握手

当然，世界很少是线性的。为了得到更准确的图像，我们使用一个更复杂的二次模型，该模型包含了由海森矩阵的近似值 $\mathbf{B}_k$ 所代表的局部曲率：

m_k(\mathbf{s}) = f(\mathbf{x}_k) + \mathbf{g}_k^\top \mathbf{s} + \frac{1}{2}\mathbf{s}^\top \mathbf{B}_k \mathbf{s}

这个模型不仅仅是一个倾斜的平面；它是一个完整的抛物面（在更高维度上），为我们提供了关于地形形状的更丰富的猜测。任务保持不变：找到在信赖域 $\lVert\mathbf{s}\rVert \le \Delta_k$ 内最小化这个二次模型的步长 $\mathbf{s}_k$ 。

但这个模型仍然只是一个猜测。我们如何知道它是否是一个好猜测？这正是信赖域方法真正精妙之处的体现。在我们计算出提议的步长 $\mathbf{s}_k$ 后，我们会检查模型的预测与现实的匹配程度。我们通过计算接受率 $\rho_k$ 来做到这一点：

\rho_k = \frac{\text{实际下降量}}{\text{预测下降量}} = \frac{f(\mathbf{x}_k) - f(\mathbf{x}_k + \mathbf{s}_k)}{m_k(\mathbf{0}) - m_k(\mathbf{s}_k)}

这个比率是一份契约。

如果 $\rho_k$ 接近 1，实际的高度下降几乎与我们模型的预测完全一致。模型非常出色！我们自信地接受这一步（ $\mathbf{x}_{k+1} = \mathbf{x}_k + \mathbf{s}_k$ ），并且，由于信心十足，我们甚至可能为下一次迭代扩大信赖域（ $\Delta_{k+1} > \Delta_k$ ）。
如果 $\rho_k$ 是正数但不够理想（例如， $\rho_k = 0.3$ ），我们的模型虽然不完美，但仍然找到了一个下坡的步长。我们会接受它，但可能会保持信赖域大小不变。
如果 $\rho_k$ 很小或为负，说明模型是一个糟糕的预测器。它可能预测了大幅下降，但我们最终却走到了更高的地方！模型违背了我们的信任。我们拒绝这一步（ $\mathbf{x}_{k+1} = \mathbf{x}_k$ ），并且至关重要的是，我们缩小信赖域（ $\Delta_{k+1} \Delta_k$ ），承认我们的局部读数仅在更小的区域内有效。

这个反馈回路非常强大。想象一个目标函数带有一道“悬崖”，即在 $x=1$ 处有一个垂直的障碍。一个简单的固定步长梯度法可能会迈出一大步，使其越过悬崖进入一个无效区域，导致算法失败。然而，信赖域方法可能会提出类似的步长。但当它评估“实际下降量”时，发现函数值为无穷大，使得 $\rho_k$ 成为负无穷。这一步被断然拒绝，信赖域随之缩小，算法在接近危险边界时被迫采取更小、更谨慎的步骤，从而成功地穿越了简单方法失败的地形。

在荒野中茁壮成长：非凸曲面中“牵引绳”的力量

信赖域方法的真正超能力在最困难的地形中显现出来：非凸区域，例如鞍点周围的区域。例如，在计算化学中，在势能面上找到这样一个鞍点对应于找到一个化学反应的过渡态。

鞍点是一个在某些方向上地面向下弯曲，而在其他方向上向上弯曲的地方。在这里，海森矩阵是不定的——它既有正特征值也有负特征值。对于基于牛顿法的线搜索方法来说，这是一场灾难。牛顿步长的公式 $\mathbf{s}_N = -\mathbf{B}_k^{-1}\mathbf{g}_k$ ，在 $\mathbf{B}_k$ 不定时可能会指向上坡。尝试沿着上坡方向进行线搜索是徒劳的；无论你走多小的一步，你都会向上走，而不是向下。像BFGS这样的标准线搜索方法被明确设计用来构建地形的正定模型，这使得它们非常适合寻找山谷，但系统地将它们引离了它们本不应寻找的鞍点。

然而，信赖域方法对此毫不畏惧。无约束的二次模型可能是一个在某些方向上延伸至负无穷的鞍形。但该方法并非试图解决无约束问题，而是在一个有界球体内最小化该模型。约束 $\lVert\mathbf{s}\rVert \le \Delta_k$ 就像一根牵引绳，防止步长奔向无穷。在一个闭合有界集合上寻找连续函数的最小值问题总是良定的，无论函数看起来是什么样子。

更妙的是，该算法可以主动利用负曲率。如果模型显示存在一个强下弯曲率的方向，信赖域子问题的求解器通常会返回一个沿着该方向一直移动到信赖域边界的步长。它利用来自鞍点的“上坡”信息，在其模型上找到一条通往低得多的点的路径，而这是标准线搜索方法根本无法实现的策略。

无形之手：保证与稳健性

信赖域约束是最终的仲裁者，其威力之大，以至于在看似荒谬的情况下也能提供安全网。

考虑一个完美的情景：我们想找到一个简单的二次碗型函数的最小值，而我们的模型就是确切的函数本身。算法会一步跳到底部吗？不一定！如果真正的最小值位于我们初始信赖域之外，算法将不会采取那个“完美”的步骤。它会遵从指令，找到它在其信赖域边界上能找到的最佳步骤。这不是一个缺陷；这是该方法核心哲学的体现，提醒我们即使模型恰好是全局完美的，我们也只应在局部相信它们。

这种稳健性几乎是牢不可破的。如果我们实施一个病态激进的更新规则，即每一步成功都导致信赖域半径扩大一百倍（ $\Delta_{k+1} = 100 \Delta_k$ ），会怎样？这肯定会破坏算法吧？令人惊讶的答案是：不会。虽然这样做效率会极低——巨大的扩张很可能导致一个糟糕的模型、一个被拒绝的步长和一系列随后的收缩——但收敛性保证依然存在。拒绝坏步长和缩小半径的机制是一个故障保险，最终会迫使模型再次变得准确。这确保了无论我们在成功时如何疯狂地扩大半径，算法最终都会找回前进的道路。

视角问题：适当缩放的重要性

最后，我们必须将抽象的算法与现实世界联系起来。假设我们正在优化一个包含两种资产 $y_1$ 和 $y_2$ 的金融投资组合。假设我们用美元单位来衡量 $y_1$ ，但由于数据的一个怪癖，我们的计算机程序使用一个变量 $x_2$ 来衡量第二种资产，单位是千美元（ $y_2 = 1000 x_2$ ）。

我们的信赖域算法，在不知道这些单位的情况下，在其计算空间 $(x_1, x_2)$ 中画了一个漂亮的、半径为 $\Delta_k$ 的正圆。但是，这个“圆”在具有经济意义的 $(y_1, y_2)$ 空间中看起来像什么？在 $x_2$ 方向上大小为 1 的一步对应于第二种资产 1000 美元的变动。结果是，我们的圆形信赖域在真实世界空间中变成了一个奇异的细长椭圆，其在 $y_2$ 方向上的长度是 $y_1$ 方向上的 1000 倍。

这是导致性能不佳的根源。算法可能会提出一个在其自身坐标系中看似很小，但在经济现实中却是巨大飞跃的步长。原本只应在局部被信任的二次模型，在如此巨大的距离上完全失效。这导致接受率 $\rho_k$ 非常低，使得步长被拒绝，信赖域也随之缩小。算法会卡住，只能采取微小、低效的步骤，因为它无法调和其扭曲的世界观与现实。

解决方案是直观的：我们必须给我们的算法一个更好的视角。我们可以从一开始就重新缩放变量，或者我们可以将信赖域的形状从一个圆改变为一个能够抵消这种扭曲的椭圆，即使用缩放范数。通过使信赖域的形状反映问题的自然尺度，我们恢复了模型的保真度，提高了接受率，并使算法能够快速有效地收敛。这是一个美妙的提醒：即使是最优雅的数学机器，也必须与它旨在解决的现实世界问题正确连接。

应用与跨学科联系

我们花了一些时间来理解信赖域方法的机制，这是一种在局部模型和名为信赖域半径 $\Delta$ 的牵引绳之间巧妙的博弈。我们已经看到了它的内部逻辑，它承诺朝着目标迈出谨慎而审慎的步伐。但它究竟有何用途？一台精美的机器是博物馆的展品；一台有用的机器则改变世界。一个思想的真正力量和优雅，正是在其应用中得以展现。

你看，世界并不总是一个光滑的凸碗，让我们可以简单地滚到碗底。更多时候，它是一片崎岖险峻的地形，充满了陡峭的悬崖、蜿蜒的山谷、高耸的山口和广阔而具有欺骗性的平原。信赖域方法是我们穿越这片荒野的经验丰富的向导。让我们踏上旅途，穿越其中几片这样的地形，从物理和工程的实体世界到数据和概率的抽象领域，看看这个简单的思想——信任，但要核实——是如何提供一种统一的方式来驾驭它们的。

驯服物理世界：为现实套上缰绳

信赖域方法最直观的应用或许是在模拟物理世界中。想象一下，你是一名视频游戏或动画电影的程序员。你有一个由弹簧连接的质点系统，你想找到系统静止的构型——即其势能最小的状态。一种天真的方法可能是计算每个质点上的力，并使其沿该方向移动。但如果你离平衡点很远呢？力可能会非常巨大，意味着一个巨大的步长。如果迈出那一步，你的质点可能会飞过最小点，严重超调，并使整个模拟陷入混乱、“爆炸”的境地。

信赖域方法提供了完美的解药。它根据其局部二次模型（牛顿步长）计算出理想的步长，然后将其长度与信赖域半径 $\Delta$ 进行比较。如果建议的步长太大，该方法会说：“等等！我可不信我的模型能预测那么远。”然后，它会采取一个更小、更保守的步长，通常是沿着最速下降方向，但长度绝不会超过 $\Delta$ 。在这里，信赖域半径就像一根物理上的牵引绳，防止模拟做出不可能的、不稳定的巨大跳跃。它确保了通往平衡的路径不仅被找到，而且是以一种平滑、稳定和物理上可信的方式找到的。

同样的原理可以从卡通弹簧扩展到现实世界的工程问题。思考一下优化一栋大型建筑能耗的挑战。我们希望调整众多暖通空调区域的设定点以最小化能源使用。这个能量函数很复杂，取决于室外温度、区域间的热传递以及中央制冷机的效率。同样，对设定点进行一次大的、无约束的调整可能会导致剧烈的温度波动或低效的振荡。通过采用信赖域方法，我们可以迭代地找到最优设定点。但在这里，信赖域半径 $\Delta$ 有了一个新的、具体的含义：它代表了在不影响居住者舒适度的前提下，所允许的最大温度变化量。 $\Delta$ 成为了一个“舒适度预算”。我们告诉算法：“找到一个更好的解决方案，但不要采取任何让居住者感到不适的步骤。”优化在以人为中心的约束范围内安全地进行。

当我们放大到分子尺度时，同样的想法依然成立。在现代药物设计中，一个关键步骤是预测一个潜在的药物分子（“配体”）将如何与目标蛋白结合。这个“对接”过程被建模为寻找配体以最小化相互作用能的姿态。这个能量曲面是一幅由吸引阱和排斥壁垒构成的复杂织锦。信赖域方法可以驾驭这个曲面，找到一个稳定的结合姿态。信赖域半径 $\Delta$ 再次扮演了关键角色。它防止算法提出一个原子移动距离不符合物理现实的步长，比如原子互相穿透或违反分子力学的基本原理。它将寻找最优姿态的搜索过程牢牢地束缚在物理定律之内。

从制作动画到设计摩天大楼的气候控制系统，再到发现新药，信赖域方法为在物理世界中寻找最优点提供了一个稳健的框架。在每种情况下，信赖域半径都是一个可调的旋钮，对应于稳定性、舒适性或物理合理性等现实世界的概念。

驾驭数据世界：穿透噪声看本质

数据和机器学习的地形与物理世界一样崎岖，甚至有过之而无不及。在这里，我们通常试图找到能最好地解释某些观测数据的模型参数。这是另一种形式的最小化——最小化我们模型的预测与现实之间的误差，或称“损失”。

数据分析的一大风险是离群点的存在——这些数据点与其余数据截然不同，可能是由于测量误差或某些罕见事件。像最小二乘回归这样的标准方法试图容纳每一个数据点，而单个离群点就像一个引力奇点，将整个解远远地拉离真实的潜在模式。当部分数据在高声“说谎”时，我们如何找到真正的趋势？

这正是信赖域框架稳健性的闪光之处，特别是当它与像Huber损失这样更宽容的损失函数结合时。Huber损失巧妙地对小误差表现为二次函数（如最小二乘法），而对大误差表现为线性函数。这意味着它听取大多数数据点的合理共识，但有效地降低了离群点“叫喊”的权重。信赖域方法则提供了一种稳定的方式来最小化这个复合目标函数，它采取谨慎的步骤，不会被离群点可能产生的剧烈梯度带偏方向。它提供了一种可靠的方法来找到隐藏在噪声中的信号。

现代机器学习中的挑战更为深刻。在训练像深度神经网络这样庞大的模型时，损失曲面是出了名的困难。它们不是简单的碗状，而是布满了无数局部极小值和更棘手的鞍点的高维广阔空间。鞍点就像一个山口：沿着山脊方向，你处于一个最小值；但与山脊垂直的方向上，你处于一个最大值。一个简单的基于梯度的优化器，看到它在某个方向上处于最小值，可能会慢得像爬行一样停滞不前，无法看到就在旁边那条陡峭的下山路。

信赖域方法拥有逃离这些陷阱的非凡能力。与只沿着最速下降方向看的简单线搜索方法不同，信赖域算法在其信赖区域内探索景观的完整二次性质。至关重要的是，它可以探测到“负曲率方向”——即函数向下弯曲的方向。当它找到这样一个方向时，它明白这是一条出路，一条通往更低地势的路径。它会沿着这个逃逸方向迈出一步，自信地离开鞍点，继续下降。这种利用函数完整二阶几何信息的能力，正是信赖域方法及其相关方法在驾驭现代人工智能险恶地形时如此强大的原因。

抽象世界：一个统一的愿景

到目前为止，我们已经将信赖域方法视为一个强大的实用工具。但它真正的美，在费曼的意义上，在于其核心思想如何与其他看似毫不相干的科学和数学领域联系并统一起来。

在许多现实场景中，从经济学到工程学，我们不只是想最小化一个函数；我们想在满足特定约束条件的情况下最小化它。例如，在一个投资组合中，资产的权重必须为非负。在一个计算经济学模型中，变量必须满足市场出清条件。处理此类问题的最强大技术之一是增广拉格朗日方法。该方法巧妙地将一个有约束的问题转化为一系列无约束的问题。而可靠地解决这些无约束子问题的最佳工具是什么？一个信赖域优化器。在这里，信赖域方法就像一个更大、更复杂机器内部一个稳健、可靠的引擎，展示了其作为优化庞大工具箱中一个基本构建模块的模块化和强大能力。

当我们带着量子化学的全部严谨性回到分子世界时，这种联系变得更加深刻。在优化高级量子计算中的分子轨道时，参数不是平坦欧几里得空间中的简单向量。所有可能轨道的集合构成一个弯曲的数学流形——一个“酉群”。两组轨道之间的“距离”不是一条直线，而是一条*测地线，即沿着这个弯曲表面的最短路径。在这种复杂的背景下，信赖域方法以惊人的优雅方式进行了调整。步长不再是一个简单的向量，而是这个流形上一个旋转的生成元。信赖域约束中的欧几里得范数 $\lVert \mathbf{s} \rVert \le \Delta$ ，不再只是一个简单的长度；它变成了一种测地线距离*的度量。信赖域半径 $\Delta$ 字面上就是我们在量子力学世界的弯曲几何上被允许行进多远的界限。这是一个单一数学思想优雅地调整其含义以适应物理现实深层结构的绝佳例子。

最后，我们来到了所有联系中最美妙的一个：优化与统计推断之间的桥梁。在贝叶斯统计中，我们感兴趣的是模型参数的后验概率分布，它不仅告诉我们单一的最佳值，还告诉我们整个可能值的分布形态。一个著名的结果，拉普拉斯近似，指出在这个后验分布的峰值附近，它可以很好地被一个高斯分布（“钟形曲线”）所近似。

这个高斯分布的形状——它在不同方向上是宽还是窄——由其协方差矩阵描述。那么是什么决定了这个协方差矩阵呢？它是对数后验函数负海森矩阵的逆，而这个海森矩阵正是信赖域方法用来构建其二次模型的同一个矩阵！这是一个深刻的启示。告诉我们用于优化的局部曲率的量，与告诉我们用于推断的局部不确定性的量是同一个。

这意味着我们可以智能地设计我们的信赖域。我们可以不使用一个简单的球体（ $\lVert \mathbf{s} \rVert \le \Delta$ ），而是使用一个形状由海森矩阵决定的椭球体。这个“自然”的信赖域在后验分布宽（不确定性高）的方向上被拉长，在后验分布窄（不确定性低）的方向上被压缩。因此，算法被允许在我们不确定的方向上迈出更大、更自信的步伐，而在参数已经很好确定的方向上迈出更小、更谨慎的步伐。寻找最佳答案的过程（优化）与我们对该答案确定性有多高的认知（推断）紧密而优美地交织在一起。

从对物理模拟的实用缰绳，到在量子流形上的几何之旅，再到对不确定性的概率地图，信赖域方法展现了其力量。它不仅仅是一种算法；它是一种哲学——一种在科学的复杂地形中采取谨慎、有度、智能步伐的哲学。它提醒我们，要取得真正的进步，我们不仅需要知道我们想去哪里，还需要了解我们自身知识的局限。