驻点：稳定性与优化的数学

玻尔百科

定义

驻点：稳定性与优化的数学指的是函数导数或梯度为零的点，这些点是局部极大值、极小值或鞍点的候选位置。通过二阶导数检验或海森矩阵分析函数的曲率，可以对这些点的局部稳定性进行分类。驻点概念统一了物理平衡、化学过渡态及现代人工智能优化等领域的理论，其中高维空间中的鞍点是这些地形特征中的核心要素。

核心要点

当一个函数的导数（或梯度）为零时，出现驻点，这些点是局部极大值、极小值或鞍点的候选点。
二阶导数判别法及其多变量对应物海森矩阵，通过分析函数的曲率来对这些点进行分类，曲率决定了局部稳定性。
在更高维度中，鞍点——在某些方向上是极小值点，在其他方向上是极大值点的非稳定点——成为函数景观中的一个主要特征。
驻点的概念统一了从物理平衡、化学过渡态到现代人工智能中的优化挑战等多种科学思想。

引言

在数学和科学的广阔图景中，某些基本思想如同一种通用语言，描述着从原子到天文的种种现象。驻点的概念便是其中之一。直观地说，它们是函数图像上的“平坦之处”——山峰之巅、峡谷之底，以及介于其间的独特高原或隘口。它们代表了平衡、最优或过渡的点。然而，仅仅识别这些点是不够的；真正的力量在于理解它们的性质。我们是处于一个稳定的静止点，就像碗中的小球，还是处于一种岌岌可危的平衡中，就像针尖上的大头针？

本文旨在解决寻找、分类和解释这些重要点的关键任务。我们将踏上一段数学之旅，揭示支配这些兴趣点的原理。第一部分“原理与机制”将为您配备微积分的基本工具，从简单的导数到强大的海森矩阵，用于定位和分类一维或多维空间中的驻点。随后的“应用与跨学科联系”将揭示这一个单一的数学概念如何为理解物理学中的平衡、化学中的反应速率，乃至训练人工智能的复杂过程提供框架。读完本文，您将看到看似不起眼的驻点如何构成了现代科学探究的基石。

原理与机制

想象你是一个微小的探险家，徒步穿越一片广阔起伏的景观。你的目标是找到最有趣的地方：最高的山峰、最低的峡谷，或许还有其他一些奇特的地点。你会怎么做？你可能会四处走动，每当脚下的地面变得完全平坦时，你就会停下来环顾四周。在数学的世界里，这片景观就是一个函数的图像，而这些平坦之处就是我们所说的驻点。它们是理解函数形状的关键，并且是无数应用的基础，从寻找物理系统的最稳定状态到训练机器学习模型。

但正如任何优秀的探险家所知，并非所有平地都是一样的。一个平坦的地方可能是宁静山谷的底部、雄伟山峰的顶部、一个完全水平的高原，或是某种更奇怪的东西。我们在本章的任务是成为这些数学景观的制图师。我们将学习如何找到这些特殊的点，更重要的是，如何对它们进行分类。

地形勘探：寻找平坦之处

我们的第一个工具是一个简单而强大的观察，最早由伟大的皮埃尔·德·费马（Pierre de Fermat）正式提出。如果你正处于一个山谷的最底部或山峰的最顶部（一个局部极小值或局部极大值），并且地势是平滑连续的（函数是可微的），那么地面必定是水平的。斜率，也就是导数，必须为零。这就是费马驻点定理。它告诉我们，要寻找潜在的峰顶和谷底，我们应该寻找导数 $f'(c) = 0$ 的点 $c$ 。

这似乎是一个绝佳的规则！但自然界，正如它经常做的那样，比我们简单的规则要淘气一些。如果景观不是完全平滑的呢？如果它有尖锐的角或尖点呢？

考虑像 $f(x) = x + |2x - 1|$ 这样的函数。如果你追踪它的路径，你会发现它一直递减，直到 $x = 1/2$ 处，然后急剧转为递增。它在 $x = 1/2$ 处显然有一个局部极小值——一个V形的谷底。但在那一点上，函数有一个“扭结”。斜率从-1突变为3，因此导数在该点未定义。或者看看函数 $g(x) = (x^2 - 1)^{2/3}$ 。它在 $x=-1$ 和 $x=1$ 处有两个局部极小值。在这些点上，图像形成尖锐的尖点，同样，导数也是未定义的。

这些例子给了我们一个至关重要的教训。极值点不仅出现在景观平坦的地方（ $f'(x)=0$ ），也可能出现在它“断裂”的地方（导数未定义）。为了成为彻底的探险家，我们必须寻找所有的临界点——函数定义域中导数为零或导数未定义的点。这些是局部极值点的唯一候选者。

近距离观察：临界点大观园

所以我们找到了一个临界点。它是极大值点吗？是极小值点吗？答案奇妙地可以是“都不是”！函数 $f(x)=x^3$ 的导数是 $f'(x)=3x^2$ ，在 $x=0$ 处为零。地面是平坦的。但这个点既不是峰顶也不是谷底。它是一个拐点，曲线在此处短暂地变平，然后继续上升。

情况甚至可能变得更加奇特。想象一个函数在一段区间上是完全恒定的，比如在区间 $(1,3)$ 内对所有 $x$ 都有 $f(x)=5$ 。让我们选择这个区间内的任意一点 $c$ 。在 $c$ 的紧邻区域，函数的值总是 $5$ 。那么， $f(c)$ 是一个局部极大值吗？是的，因为附近没有点比它更高（ $f(x) \le f(c)$ ）。它是一个局部极小值吗？也是的，因为附近没有点比它更低（ $f(x) \ge f(c)$ ）。这个平坦高原上的每一个点都同时是局部极小值和局部极大值！这听起来可能像一个哲学悖论，但它直接源于我们严格的定义。它提醒我们，即使定义会引导我们走向反直觉的地方，我们也要相信定义的逻辑。

曲线的形状：二阶导数判别法

找到一个临界点就像找到一块平地。要知道它是一个山谷还是一个山峰，我们需要观察它周围土地的曲率。这就是二阶导数发挥作用的地方。

对于单变量函数，如果我们有一个驻点 $c$ （其中 $f'(c) = 0$ ）：

如果 $f''(c) > 0$ ，函数形状像一个笑脸（上凹）。我们处于一个山谷的底部——一个局部极小值。
如果 $f''(c) 0$ ，函数形状像一个愁眉（下凹）。我们处于一个山峰的顶部——一个局部极大值。
如果 $f''(c) = 0$ ，则判别法无法得出结论。我们可能有一个拐点（如 $x^3$ ），或者我们仍然可能有一个极值点（如 $x^4$ ，它在 $x=0$ 处有极小值）。仅凭二阶导数，我们没有足够的信息。

这个判别法非常有用，但当我们组合函数时会发生什么？假设你有一个函数 $f(x)$ 在 $c$ 点有严格局部极小值，另一个函数 $g(x)$ 在同一点有严格局部极大值。我们能对它们的和 $h(x) = f(x) + g(x)$ 说些什么呢？天真地想，人们可能会认为这两种效应会相互抵消。但现实更为微妙。和的二阶导数是 $h''(c) = f''(c) + g''(c)$ 。由于 $f(x)$ 有一个极小值，我们可以预期 $f''(c) \ge 0$ ；由于 $g(x)$ 有一个极大值，则 $g''(c) \le 0$ 。这个和可能是正、是负，也可能是零，这取决于哪个函数的曲率更显著。事实上，通过仔细选择我们的函数，我们可以使和 $h(x)$ 具有局部极小值、局部极大值或两者皆非。这里没有简单的抵消；结果取决于函数之间竞争的细节。

欢迎来到鞍点：高维空间中的驻点

从单变量到两个或更多变量，就像从探索一维线升级到探索一个完整的二维景观（或三维空间！）。原理是相似的，但可能性更加丰富。

“斜率”不再是一个单一的数字，而是一个称为梯度的向量，记为 $\nabla f$ 。一个驻点现在是一个点 $(x,y)$ ，在该点梯度向量是零向量，即 $\nabla f = \vec{0}$ ，这意味着景观在所有方向上都是平坦的。

但现在，除了峰顶（局部极大值）和谷底（局部极小值）之外，出现了一种新的、迷人的特征：鞍点。想象一个山口或马鞍的形状。如果你在马鞍的中心，沿着从前到后的方向，你处于一个最低点，但沿着从一侧到另一侧的方向，你处于一个最高点。它在一个方向上是极小值，而在另一个方向上是极大值。这是一个驻点，但它是不稳定的。一个放在那里的球会滚走，但滚向哪个方向取决于它被轻推的方向。

为了区分这些可能性，我们需要推广二阶导数判别法。单个的二阶导数 $f''$ 被海森矩阵 $H$ 所取代，这是一个包含所有二阶偏导数的方阵： $H = \begin{pmatrix} f_{xx} f_{xy} \\ f_{yx} f_{yy} \end{pmatrix}$ 这个矩阵捕捉了曲面在每个方向上的曲率。例如，在一个模拟制造成本的问题中， $C(x, y) = x^3 + y^3 - 3xy + 10$ ，我们可以找到两个驻点： $(0,0)$ 和 $(1,1)$ 。通过计算每个点上的海森矩阵，我们发现 $(0,0)$ 是一个鞍点，而 $(1,1)$ 是一个局部极小值，代表了最具成本效益的设计参数组合。在物理学中，这些对应于在势场中运动的粒子的不稳定和稳定平衡点。

洞察一切的海森矩阵：特征值与稳定性

海森矩阵如何告诉我们曲面的形状？秘密在于它的特征值。你可以将一个临界点处海森矩阵的特征值看作是告诉你该点处景观的“主曲率”。

如果所有特征值都是正的，曲面在每个方向都向上弯曲。我们有一个局部极小值（一个稳定的山谷）。
如果所有特征值都是负的，曲面在每个方向都向下弯曲。我们有一个局部极大值（一个不稳定的山峰）。
如果一些特征值是正的，一些是负的，我们有一个鞍点（不稳定的）。

这种联系非常强大。假设一位科学家告诉你，他们找到了一个临界点，那里的海森矩阵的特征多项式是 $\lambda^2 - 4\lambda - 5 = 0$ 。我们知道一个 2x2 矩阵的特征值之积是它的行列式，在特征多项式中即为常数项。在这里，乘积是 -5。这立即告诉我们，一个特征值必须是正的，另一个是负的。我们不需要知道函数甚至海森矩阵本身；我们就能确定这个临界点是一个鞍点！

这个思想可以优美地扩展到更高维度。对于一个三变量函数，我们会有一个 3x3 的海森矩阵。要检查它是否对应一个局部极小值（是否是正定的），我们需要它的所有三个特征值都是正的。计算特征值可能很繁琐，但一个名为西尔维斯特判据 (Sylvester's criterion) 的聪明技巧为我们提供了一条捷径。它指出，一个对称矩阵是正定的，当且仅当它的所有顺序主子式（左上角的 1x1、2x2、3x3 等子矩阵）的行列式都为正。通过简单地计算一系列较小的行列式，我们就可以确定任何维度中一个点的稳定性。

这套机制使我们能够分析当调整一个参数时，系统的稳定性如何变化。考虑一个系统，其能量由 $f(x, y, z) = \alpha x^2 + \alpha y^2 + \alpha z^2 + 2xy + 2xz + 2yz$ 描述。通过分析依赖于参数 $\alpha$ 的海森矩阵，我们可以发现，当 $\alpha > 1$ 时，原点是一个稳定的局部极小值点。但随着我们减小 $\alpha$ ，系统会发生变化。当 $-2 \alpha 1$ 时，原点变成一个鞍点。而当 $\alpha -2$ 时，它翻转为一个局部极大值点。这是真实世界现象（如相变）的一个模型，其中一个参数（如温度）的微小变化可以导致系统稳定状态的巨大改变。

知其所限：判别法失效时

尽管二阶导数判别法功能强大，但它也有其局限性。当海森[矩阵的行列式](@article_id:303413)为零时会发生什么？这相当于高维空间中的 $f''(c)=0$ 。判别法无法得出结论。

以看起来很简单的函数 $f(x,y) = x^4 + y^4$ 为例。它唯一的临界点在原点 $(0,0)$ 。如果你计算它在那里的海森矩阵，你会得到一个零矩阵！行列式为零，二阶导数判别法无法给出任何结论。

这是否意味着我们束手无策了？完全不是。这只是意味着我们必须收起我们花哨的探测器，用我们自己的眼睛去观察。看看函数 $f(x,y) = x^4 + y^4$ ，我们看到它在原点的值是 $f(0,0)=0$ 。对于任何其他点 $(x,y)$ ，由于 $x^4$ 和 $y^4$ 是非负的，函数的值总是大于或等于零。因此，原点必定是一个局部极小值点（实际上是一个全局极小值点）。

这最后一个例子或许是最重要的一课。我们的数学工具是强大的，但它们不是魔法。它们是思考的框架，但不能取代思考本身。理解函数景观的旅程需要一套包含导数、梯度和海森矩阵的工具包，但它也需要好奇心、直觉和在工具失灵时回归第一性原理的意愿。这片景观丰富多彩，充满惊喜，而真正的乐趣在于探索本身。

应用与跨学科联系

在熟悉了用于寻找和分类驻点的数学工具之后，我们现在转向一个更令人兴奋的问题：“我们为什么要关心这些？”科学的美妙之处之一在于，一个单一、优雅的数学思想可以伪装成各种形式出现在十几个不同的领域，解决十几个不同的问题。驻点就是这样一种变色龙。它是自然界用来描述平衡状态、过渡点和最优效率路径的语言。让我们踏上一段旅程，去看看这些非凡的点隐藏在哪里，从静止物体的平稳平衡到人工智能的混沌前沿。

稳定性景观：物理学与化学

思考二元函数最直观的方式是将其看作一个景观，一片有山有谷的地形。在物理学中，这不仅仅是一个类比；它是力学的核心。一个粒子的势能 $V(x,y)$ 正是这样一个景观。一个放在这个表面上的弹珠会在哪里停下来？当然不会在陡峭的斜坡上，因为重力（它不过是势能梯度的负值，即 $-\nabla V$ ）会把它向下拉。它只能在地面平坦的地方停下来——也就是说，在梯度为零的地方。它只能在驻点处静止。

但“静止”有两种。一个在谷底的弹珠处于稳定平衡状态；轻轻一推只会让它滚回来。这对应于势能的局部极小值。一个完美地平衡在山顶上的弹珠处于非稳定平衡状态；最轻微的扰动都会让它滚落。这是一个局部极大值。但第三种驻点——鞍点呢？想象一个山口，这个点沿着通过山口的路径是最小值，但如果你试图攀登两侧的悬崖，它就是最大值。这也是一个平衡点，但它是不稳定的。放在那里的粒子可以保持平衡，但朝一个方向轻推会让它滚入一个山谷，而朝另一个方向轻推则会让它滚入一个完全不同的山谷。因此，对驻点的分类就是对所有可能平衡状态的物理分类。

这种“景观”思维以惊人的力量延伸到化学领域。对于一个分子来说，“坐标”不是 $x$ 和 $y$ ，而是定义其形状的各种键长和键角。势能面（PES）是一个高维景观，其山谷对应于稳定的分子构象或异构体。那么，一个化学反应就可以被看作是一个分子从一个山谷（反应物）到另一个山谷（产物）的旅程。要做到这一点，它通常必须爬出自己的山谷，穿过一个山脉。阻力最小的路径不是去攀登最高的山峰，而是找到最低的山口。这个山口——势能面上的一个鞍点——就是过渡态。它是反应的瓶颈，是沿最优反应路径能量最高的构型。反应物山谷与过渡态鞍点之间的能量差就是著名的活化能，它决定了化学反应的速率。微积分中简单的鞍点，成为了化学变化的守门人。

当稳定性改变时：分岔与相变

自然界的景观并非总是固定的。它们可能被外部条件如温度、压力或电场扭曲和倾斜。当景观本身发生变化时，平衡点会发生什么？这个问题将我们引向了分岔理论这个迷人的世界。

考虑一个简单的一维系统，比如晶格中的一个原子，其势能依赖于一个控制参数 $\mu$ 。对于负的 $\mu$ ，景观可能有两个驻点：一个在原点 ( $x=0$ ) 的稳定谷底和一个在其他位置的不稳定峰顶。当我们缓慢地将 $\mu$ 增加并通过零时，一个显著的转变发生了。原点的谷底变形为一个峰顶，变得不稳定，而原来的峰顶移动并转变为一个谷底，变得稳定。这两个点“碰撞”并交换了它们的稳定性。这样的事件，即参数的微小、平滑变化导致系统行为发生突然的、性质上的改变，就是一次分岔。它是对各种现象的数学模型，如梁在应力下的屈曲、加热流体中对流的开始，或捕食者-被捕食者生态系统中的突然转变。

在更高维度中，可能性更加丰富。通过在一个二维势能中调整参数 $\alpha$ ，我们可能会看到两个驻点——一个鞍点和一个稳定极小值点——在之前只有一个点的地方凭空出现。平衡点数量和性质的这些突然变化是相变和自然界中复杂模式涌现的本质。

隐藏的景观：特征值与量子世界

到目前为止，我们的景观都是空间坐标的函数。但驻点的力量在于其普适性。让我们考虑一个非常不同类型的问题：优化一个函数，但不是在整个平面上，而是在一个约束条件下。例如，如果向量 $\mathbf{x}$ 被约束为单位长度（ $\mathbf{x}^T \mathbf{x} = 1$ ），那么二次型函数 $f(\mathbf{x}) = \mathbf{x}^T A \mathbf{x}$ 的驻点是什么？

答案是应用数学中最深刻和影响最深远的结果之一：驻点恰好是矩阵 $A$ 的特征向量。函数在这些点的值是相应的特征值。球面上的全局最小值是对应最小特征值的特征向量；全局最大值对应最大特征值。那么其他的特征向量呢？它们是这个约束景观中的鞍点。

这一个思想统一了数量惊人的物理概念。

在经典力学中，如果 $A$ 与振动系统的惯性和弹簧常数有关，它的特征向量就是简正模——系统可以表现出的纯粹、简谐的振动模式。
在量子力学中，如果 $A$ 变成哈密顿算符 $\hat{H}$ ，它的特征向量就是系统的定态（如原子的电子轨道），而特征值就是量子化的、允许的能级。
在数据科学中，如果 $A$ 是一个数据集的协方差矩阵，它的特征向量就是主成分，代表了数据中变化的基本方向。

寻找驻点的过程变成了寻找一个系统的基本“模式”，无论它是一根振动的琴弦、一个氢原子，还是一个庞大的数据集。

量子世界提供了另一个奇特的景观。在晶体中，电子的能量不是其位置的函数，而是其动量向量 $\mathbf{k}$ 的函数。这个函数 $E(\mathbf{k})$ 被称为能带结构，它在“动量空间”中定义了一个景观。这个景观的驻点——极小值点、极大值点和鞍点——被称为范霍夫奇点 (Van Hove singularities)。它们不代表机械稳定性的点，而是大量电子态存在的动量点。这些奇点在材料的态密度中产生尖锐的峰和边缘，导致材料吸收光、传导电或发射电子的方式出现可测量的特征。光学吸收光谱中的一个尖峰，可能是一个晶体抽象动量空间景观中一个不可见的鞍点的具体标志。

现代前沿：在人工智能的高维迷宫中导航

让我们在现代技术的最前沿结束我们的旅程：人工智能。当我们“训练”一个深度神经网络时，我们试图最小化一个“损失函数” $L(\mathbf{w})$ 。这个函数衡量网络表现得有多差。这里的“坐标”不是位置或动量，而是构成网络参数的数百万甚至数十亿的权重和偏置 $\mathbf{w}$ 。训练是一个优化问题：在这个维度高得惊人的空间中，找到使损失 $L$ 最小的点 $\mathbf{w}$ 。

这又一次是在寻找一个驻点。几十年来，这个领域最大的恐惧是陷入一个“坏”的局部极小值——一个并非全局最低的谷底。然而，最近的洞见揭示了一个令人惊讶的转折。在非常高的维度中，真正的局部极小值相对罕见，并且其损失值往往与全局最小值几乎一样好。这个景观并非一个充满无数次优谷底的险恶地形。相反，它被数量惊人、不断增殖的鞍点所主导。

就像化学中的过渡态有一个“下坡”方向（沿着反应路径）和许多“上坡”方向一样，损失景观中的鞍点也有一些下坡方向和一些上坡方向。梯度为零，所以一个简单的梯度下降算法可能会慢得像爬行，以为自己到达了谷底。然而，由于存在下坡的逃逸路线，鞍点对于训练过程来说是一个不稳定的平衡点。通过一个小的随机扰动（这在随机梯度下降等方法中是固有的），算法可以“滚下”鞍点并继续其下降过程。

这改变了一切。现代优化的核心挑战不是避开局部极小值，而是在一个遍布鞍点的景观中高效导航。正是这个描述徒步者山口、分子过渡态和振动鼓面简正模的同一个数学对象，现在描述了训练人工智能过程中的主要障碍和特征。这是对科学思想统一性的惊人证明，一个单一的美丽概念回响在物理、化学、工程和计算机科学的殿堂之中。