局部最小值与最大值

玻尔百科

核心要点

函数的局部极值只能出现在临界点，即导数为零或导数不存在的点。
找到导数为零的点是函数存在局部极值的必要条件，但非充分条件；该点也可能是拐点。
在更高维度中，Hessian 矩阵用于将临界点分类为局部最小值、局部最大值或鞍点。
寻找极值是一条统一的原则，它将数学理论与物理稳定性、量子能量态和计算优化联系起来。

引言

寻找最高峰或最低谷是一个基本问题，其意义远超简单的地理学范畴。在数学中，这些点被称为局部最小值和最大值，而识别它们是微积分的基石。尽管寻找函数“变平”之处的想法看似直观，但这种简单性背后隐藏着一个复杂的世界，从具有欺骗性的拐点和尖锐的折角，到高维空间中错综复杂的地貌。本文将对这些概念进行全面的探索。我们将首先深入探讨原理与机制，揭示费马定理和罗尔定理等核心定理，并将搜索范围扩大到不可微点和多维鞍点。在这一理论基础之上，我们将继续进入应用与跨学科联系部分，揭示寻找极值如何在物理学、工程学、计算科学乃至量子化学前沿领域成为一个统一的概念，将数学理论与现实世界系统的稳定性和行为联系起来。

原理与机制

我们如何找到山脉的最高点或山谷的最低点？如果我们有一张由数学函数表示的地形图，微积分能为我们提供一套非常强大的工具来回答这个问题。理解这些工具的历程是一次愉快的探索，它揭示了函数的局部“形状”，展现出挑战我们日常直觉的精妙之处和意外惊喜。

平地法则

让我们从一个直观的想法开始。想象你正沿着一个平滑起伏的山坡行走。当你到达山峰的最高点——一个局部最大值——或山谷的最底部——一个局部最小值——时，你脚下的地面会是怎样的？在那个精确的位置，地面必然是完全水平的。如果它有哪怕一丝倾斜，你就不会在最高点或最底部；你仍然可以再走高一点或低一点。

这个简单的观察是微积分中最基本的原则之一的核心，通常以 Pierre de Fermat 的名字命名。费马定理指出，如果一个函数是光滑的（可微的），并且在某点有局部极值（最大值或最小值），那么它在该点的导数必须为零。毕竟，导数就是函数图像切线的斜率。水平的切线意味着斜率为零。

这个原则不仅仅是一个抽象的规则；它是一个强大的诊断工具。考虑一位工程师正在监控一个储能系统，已知其能量水平 $E(t)$ 持续增加。设计规定其变化率 $E'(t)$ 是一个固定的正数，比如 $E'(t) = \alpha > 0$ 。这位工程师可以立即得出结论，即使不知道 $E(t)$ 的完整公式，该系统也永远不会出现局部最大或最小能量水平。因为“斜率”永远不为零，所以不可能有平地，也就没有山峰或山谷。类似地，像 $k(x) = 2x^5 + 5x^3 + 10x - 1$ 这样的函数总是递增的，因为它的导数 $k'(x) = 10x^4 + 15x^2 + 10$ 恒为正。它没有水平点，因此没有局部极值。

所以，我们的第一大原则是：要在一片光滑的地貌上寻找潜在的山峰和山谷，我们就要寻找地面水平的点。我们寻找导数为零的临界点。

平坦的假象

现在，让我们反过来思考这个问题。如果我们找到了一个地面水平的地方 ( $f'(c)=0$ )，我们能保证自己一定在山峰或山谷吗？这似乎合情合理，但自然界更为微妙。想象一条路先是上坡，在一个瞬间变得平坦，然后继续上坡。在那个平坦点，你既不在山顶，也不在谷底。函数 $f(x)=x^3$ 在 $x=0$ 处就是一个经典的例子。它的导数是 $f'(x)=3x^2$ ，在 $x=0$ 处为零。然而， $x=0$ 是一个拐点，而不是极值点。

让我们来探讨一个更好奇的情景。考虑一个在整个区间上都是常数的函数，就像一个完全平坦的高原。假设在区间 $(1, 3)$ 内所有的 $x$ 都有 $f(x)=5$ 。那么在这个区间内的每一点，导数都是 $f'(x)=0$ 。对于这个高原上的一个点，比如 $x=2$ ，我们能说些什么？在它的紧邻区域内，没有点比它更高，所以它满足局部最大值的定义。但同时，也没有点比它更低，所以它也满足局部最小值的定义！这看起来很奇怪，但从逻辑上讲，这个高原上的每一点既是局部最大值也是局部最小值。

这些例子教给了我们一个关键的教训：对于一个可微函数， $f'(c)=0$ 是它在 $c$ 点有极值的必要条件，但不是充分条件。找到一个水平点只是我们调查的第一步；它告诉我们去哪里找，但没告诉我们将会找到什么。

探索崎岖的边缘

到目前为止，我们的讨论都假设地貌是“光滑”的——也就是说，函数处处可微。但如果地形崎岖，有尖锐的山峰和陡峭的裂缝呢？思考一下函数 $f(x) = |x^2 - 4|$ 。它的图像看起来像一条在x轴处被“折叠”起来的抛物线。在 $x=-2$ 和 $x=2$ 处，图像形成了尖锐的“角点”。

在这些角点上，函数显然达到了局部（在这种情况下也是全局）最小值 $0$ 。但是在那里导数是多少呢？如果你从左边趋近 $x=2$ ，斜率趋近于 $-4$ 。如果你从右边趋近，斜率趋近于 $+4$ 。由于在角点处没有一个单一、明确定义的斜率，所以函数在 $x=2$ （以及 $x=-2$ ）处是不可微的。

费马定理要求函数可微，因此在这里根本不适用。这揭示了我们策略的一个重要补充。局部极值可以隐藏在两类地方：

导数为零的点（光滑的山峰和山谷）。
导数不存在的点（尖锐的角点、尖点或垂直切线）。

像 $g(x) = (x^2 - 1)^{2/3}$ 这样的函数完美地展示了这种行为。它在 $x=0$ 处有一个光滑的局部最大值，此处 $g'(0)=0$ ；但它在 $x=\pm 1$ 处也有尖锐的、类似尖点的局部最小值，在这些点导数不存在。为了找到所有极值，我们必须将临界点的定义扩大，以包含定义域内导数为零或导数不存在的任何点。

解读地貌的等高线

函数穿过某一水平线的位置与它必须拥有的山峰和山谷数量之间存在着一种美妙的关系。想象一个描述工程系统中“弹性势能”的函数。我们被告知，该势能在三个不同的点 $x_1$ 、 $x_2$ 和 $x_3$ 处为零。这就像说一个徒步者从海平面出发，返回海平面，然后第三次返回海平面。

如果路径是连续且光滑的，我们能推断出什么？在徒步者第一次和第二次处于海平面之间，他们必定已经到达了一个最高点（山峰）或一个最低点（山谷），然后才返回。在数学上，这就是罗尔定理。它保证在 $x_1$ 和 $x_2$ 之间的某个地方，导数必须为零。同样的逻辑也适用于 $x_2$ 和 $x_3$ 之间。因此，有三个根意味着至少存在两个局部极值。

这一推理思路具有深远的影响。对于一个 $n$ 次多项式，其导数是一个 $n-1$ 次多项式。根据代数基本定理，一个 $n-1$ 次多项式最多有 $n-1$ 个实根。由于局部极值只能在导数为零的地方出现，一个 $n$ 次多项式最多只能有 $n-1$ 个不同的局部极值。这不仅仅是一个数学上的奇特现象；它在数据科学和机器学习中是一个关键概念。当试图用多项式拟合数据时，使用过高的次数会导致“过拟合”，曲线会过度扭动以捕捉每个数据点，从而产生许多不能反映真实潜在趋势的伪局部极值。知道极值的最大可能数量为模型的复杂性提供了基本约束。

超越丘陵与山谷：高维空间中的鞍点

现在让我们从一维路径上升到完整的二维或三维地貌，由像 $f(x, y)$ 或 $f(x, y, z)$ 这样的函数描述。在这里，“水平点”意味着曲面在所有方向上同时是平的。这要求所有偏导数都为零： $\frac{\partial f}{\partial x} = 0$ , $\frac{\partial f}{\partial y} = 0$ ，依此类推。

但是对这些临界点进行分类变得有趣得多。除了我们熟悉的碗状局部最小值和穹顶状局部最大值外，一个新角色登上了舞台：鞍点。想象一个山口：如果你沿着山口行走，你处于一个局部最小值；但如果你垂直于山口行走（上山坡），你处于一个局部最大值。这就是一个鞍点。

为了区分这些情况，我们需要一个类似于二阶导数的工具，但要适用于多维空间。这个工具就是Hessian 矩阵，一个由所有二阶偏导数组成的网格。这个矩阵的性质——特别是它的定性，可以通过其特征值或主子式来检验——告诉我们曲面的局部曲率。

考虑函数 $f(x, y, z) = \alpha x^2 + \alpha y^2 + \alpha z^2 + 2xy + 2xz + 2yz$ 。原点 $(0,0,0)$ 总是一个临界点。通过分析 Hessian 矩阵，我们发现其行为显著地依赖于参数 $\alpha$ 。

当 $\alpha > 1$ 时，Hessian 矩阵是正定的，原点是一个稳定的局部最小值，就像碗底一样。
当 $\alpha -2$ 时，Hessian 矩阵是负定的，原点变成一个局部最大值。
当 $-2 \alpha 1$ 时，Hessian 矩阵是不定的——它在某些方向向上弯曲，在另一些方向向下弯曲。原点是一个鞍点。

这个例子极好地说明了多维曲面的局部几何形状如何被编码在其二阶导数矩阵中，使我们能够对这些更复杂的临界点进行分类。

无限复杂的海岸线

我们已经从平滑的山丘走到崎岖的山峰，并进入了更高维度。但数学中还存在着比这些更奇特的地貌。如果一个函数处处连续，却没有任何光滑的部分会怎样？如果它如此崎岖，以至于处处都不可微呢？

这样的函数是存在的；它们在数学上等同于一条海岸线，无论你放大多少倍，它都永远不会变成一条直线。其中一个例子是函数 $f(x) = \sum_{n=0}^{\infty} \frac{\{2^n x\} ( 1 - \{2^n x\} )}{4^n}$ ，其中 $\{y\}$ 是 $y$ 的小数部分。

对于这样的函数，我们的主要工具——寻找导数为零的点——完全无用，因为导数处处不存在。你可能会猜测这样一个混沌的函数没有局部极值。但真相远比这惊人。这些函数可以拥有无穷多个局部极值，它们紧密地挤在一起，以至于在任何微小的区间内，无论多小，你都能找到更多。局部最大值的集合是稠密的，局部最小值的集合也是如此。

这是一个深刻而令人谦卑的认识。它表明我们强大的微积分工具是建立在光滑性假设之上的，而这个假设并不总是成立。它揭示了函数的宇宙远比我们基于简单抛物线和正弦波训练出的直觉所能想象的要丰富和狂野得多。正是在面对这些奇异而美丽的对象时，我们才真正体会到我们方法的强大与局限，并推动我们去创造新的思想来探索数学的前沿。

应用与跨学科联系

我们已经花了一些时间学习寻找函数峰谷——即局部最大值和最小值——的数学工具。你可能会认为这是一个已经解决的问题，仅仅是给大一微积分学生的练习。但如果这样想，就只见树木不见森林了。寻找极值不仅仅是在教科书问题中找到山顶；它是一个深刻而统一的原则，回响在几乎所有科学和工程分支中。它是一种理解稳定性、预测变化和揭示系统基本规律的工具。那么，让我们踏上旅程，看看这个简单的想法能带我们走向何方。

物理学的稳定性：从滚动的球到量子态

局部极值最直观的应用或许是在物理学中，通过能量的概念来体现。想象一个在丘陵地貌上滚动的球。它会在哪里停下来？它会停在山谷的底部。这个山谷是一个稳定平衡点，在数学上，它是势能函数的局部最小值。如果你轻轻推一下球，它会滚回谷底。那么山峰呢？原则上，一个球可以完美地平衡在山峰上，但最轻微的扰动都会让它滚走。这是一个不稳定平衡，是势能的局部最大值。自然界本质上是“懒惰”的；系统倾向于稳定在能量最低的状态。

这个简单的图景具有惊人的力量。但是，如果地貌本身可以改变会发生什么？考虑一个我们可以调节参数的物理系统，比如温度、压力或外部场。当我们调节这个参数时，一个曾经稳定的山谷（最小值）可能会变平，与附近一个不稳定的山峰（最大值）合并，并自身转变为一个山峰！在这个被称为分岔的过程中，我们见证了平衡点稳定性的产生、消亡和交换。这一个想法就解释了广泛的现象，从钢梁在压力下突然屈曲到奇异材料中复杂的相变。

当然，世界很少如此简单，以至于我们可以为能量写出一个简洁的函数 $V(x)$ 。通常，系统变量之间的关系——比如气体中的压力、体积和温度——都纠缠在复杂的隐式方程中。然而，即使我们不能将一个变量明确地表示为另一个变量的函数，微积分的原理仍然为我们指明了前进的道路。使用像隐函数微分这样的技术，我们仍然可以定位能量地貌平坦的点，并确定它们是稳定的最小值还是不稳定的最大值。

现在，让我们从单个粒子扩展到整个振动系统，比如鼓面、在风中摇曳的桥梁，或在空间中扭转的分子。这样的系统通常不是由单个变量描述，而是由许多变量描述，它们的行为由矩阵控制。这里出现了一个非凡而深刻的联系，通过一个叫做瑞利商的函数。在系统状态保持归一化的约束下，该函数的驻点不仅仅是随机点。它们精确地对应于系统的特征向量，而函数在这些点的值就是特征值。这些特征值代表了系统的基本、量子化的属性：它的自然振动频率、它的主转动轴，或者它允许的量子能级。全局最小值是基态——最低能量或基频。全局最大值是最高可能的状态。那么中间的点呢？它们是鞍点，代表更高、更复杂的振动模式或激发态。寻找极值已经变成了寻找物理系统灵魂的探索。

这一原则一直延伸到微观世界。一个穿过晶体周期性晶格的电子，其能量-动量关系不是简单的抛物线。相反，它在一个由晶体结构定义的复杂“能量地貌”中穿行。这个地貌的临界点——局部最小值、最大值，特别是鞍点——被称为范霍夫奇点。它们不仅仅是数学上的人为产物。这些点导致可用电子态的密度在特定能量处堆积，从而在材料的电导率、光吸收和热学性质中产生尖锐、可观测的特征。通过寻找能量函数的极值，我们可以预测和解释构成我们世界的材料的实际性质。

搜索的艺术：从几何秩序到计算能力

知道极值很重要是一回事；找到它们是另一回事。在这里，这个概念再次揭示了它的力量，不仅作为静态状态的描述符，而且作为理解动力学和计算基础的指南。

考虑一个其演化由一个微分方程描述的系统。我们可能不知道能量地貌的形状，但我们有“运动定律”——一个告诉我们系统在每一点如何变化的方程。那么，任何可能轨迹的极值在哪里？一个粒子的轨迹只有在垂直速度瞬间为零的点才能“掉头”（从上升变为下降，或反之）。这意味着所有可能解曲线的局部极值都必须位于一条导数为零的特定曲线上。这条特殊曲线，通常称为“零斜线”，充当了整个动力学的骨架，揭示了看似无穷的可能解族中隐藏的几何秩序。

极值与导数根之间的这种直接联系是数值优化的基石。假设你想用计算机找到一个复杂函数 $g(x)$ 的最小值。你有一个强大的库例程，非常擅长寻找根——也就是说，找到一个使函数 $f(x)$ 为零的 $x$ 。你该怎么做？答案非常简单：你告诉寻根器去寻找导函数 $f(x) = g'(x)$ 的零点。通过将优化问题转化为寻根问题，我们释放了几十年来数值分析的全部力量，来搜寻定义我们模型的最小值和最大值。

“最佳”的概念并不总是关于“最低”。有时，它关乎“最平坦”。在逼近论中，我们常常希望用一个更简单的函数（如多项式）来表示一个非常复杂的函数，同时最小化最坏情况下的误差。这个故事中出人意料的英雄是切比雪夫多项式。是什么让它们如此特别？对其结构的分析揭示，它们的局部最大值和最小值都具有相同的绝对值，并以一种非常特殊、规则的方式分布在区间 [-1, 1] 上。这种“等波”性质迫使逼近误差尽可能均匀地分布，防止其在任何单一点变得过大。这导致了在极小化极大意义下的最佳多项式逼近，这是一个直接源于多项式极值独特位置的、不那么明显但功能强大的结果。

前沿：量子世界中的稳定性

以免你认为这都是旧闻，请放心，驻点和真正最小值之间的区别在科学研究的最前沿是一个活生生的问题。

在现代量子化学中，科学家使用诸如Hartree-Fock (HF) 理论等方法来近似分子中电子的行为。求解极其复杂的 HF 方程是在所有可能的电子构型组成的高维流形上寻找一个能量泛函的驻点。当计算机程序收敛时，它找到了一个所有电子上的有效力都达到平衡的解。但它找到的是分子的真实、稳定的基态（一个局部最小值）吗？还是它落在一个不稳定的、电子激发态（一个鞍点）上？

只有一种方法可以知道：进行稳定性分析，这不过是二阶导数检验的宏大而华丽的版本。通过计算能量关于所有可能的电子重排的二阶导数 Hessian 矩阵，科学家可以检验他们解的性质。这个 Hessian 矩阵中的一个负特征值标志着一个不稳定性——它指向一个特定的电子运动路径，该路径将导致一个能量更低的状态。这并非某个深奥的学术检验；它是正确预测化学结构、理解反应路径以及设计新分子和材料的关键步骤。

从静止小球的简单稳定性到分子电子云的微妙稳定性，对局部最小值和最大值的探索提供了一种统一的语言。它向我们展示，自然的法则、工程师的设计和数学家的算法，在某种深刻的意义上，都在进行着同样的基本追求：找到那些事物在瞬间静止的特殊点。