try ai
科普
编辑
分享
反馈
  • 局部最优

局部最优

SciencePedia玻尔百科
核心要点
  • 局部最优(即函数的峰值(极大值)和谷底(极小值))在数学上对应于一阶导数为零的临界点。
  • 二阶导数判别法通过分析函数的曲率来对这些临界点进行分类,判断某一点是局部极大值、局部极小值还是都不是。
  • 对极值的完整搜索不仅要包括光滑点,还必须包括函数不可微的位置,例如尖角点或歧点。
  • 寻找局部最优的概念是科学中的一个统一性原则,它为从物理学中的稳定能量状态到演化适应度景观上的适应峰等各种现象建模。

引言

寻找最高峰和最低谷是一个基本目标,这不仅适用于徒步旅行者,也贯穿于整个科学和数学领域。这些点被称为​​局部最优点​​,代表了效率最高、能量最低或适应度顶峰的状态。但是,我们如何在一个由函数定义的复杂“景观”上精确定位这些特殊点呢?为何这项探索如此普遍重要?本文旨在连接用于寻找最优点的抽象数学工具与其深刻的现实世界影响。首先,在“原理与机制”一章中,我们将深入微积分的核心,探索如何利用一阶和二阶导数来识别和分类局部极大值与极小值。然后,我们将扩展我们的工具集,以处理更复杂的场景,从带有尖角点的函数到具有无限、分形般锯齿状的函数。接下来,“应用与跨学科联系”一章将揭示,这种数学机制正是自然界用以描述万物的语言,从物理物质的稳定性、相变的动力学,到适应度景观上的演化过程。读完本文,您将看到,寻找函数平坦点这一简单行为,是理解塑造我们宇宙的优化和稳定结构的关键。

原理与机制

想象一下,你是一位在广阔起伏地貌中行走的徒步者。你的目标是找到最高的山峰和最低的山谷。你会怎么做?直觉上,你深知在山谷的最底部或山峰的正顶点,脚下的地面是完全水平的。这个简单而有力的想法,正是我们定位和理解​​局部最优点​​的核心。

地貌的概况:寻找山丘和山谷

在数学世界里,“景观”是函数的图像,而任何一点地面的“陡峭程度”是其​​导数​​。一个水平点对应于导数为零的点。这一基本见解由伟大的数学家 Pierre de Fermat 正式提出,并且是微积分的基石。​​费马驻点定理​​指出,如果一个函数是光滑的,并在某点有局部极值(局部极大值或极小值),那么它在该点的导数必须为零。我们称这样的点为​​临界点​​。

这为我们提供了一个强大的策略:要找到山峰和山谷,我们首先寻找所有平坦的地方。

但如果一个景观没有平坦点呢?考虑一个能量持续稳定增长的系统,比如一个以恒定速率充电的电池。其能量水平 E(t)E(t)E(t) 随时间的变化由一个变动率为正常数(设为 α>0\alpha > 0α>0)的函数 E′(t)E'(t)E′(t) 描述。这就像走在一个永不平缓的斜坡上。由于导数永远不为零,因此不可能存在局部极大值或极小值。函数只是不断增加。同样,像 k(x)=2x5+5x3+10x−1k(x) = 2x^5 + 5x^3 + 10x - 1k(x)=2x5+5x3+10x−1 这样的函数,其导数 k′(x)=10x4+15x2+10k'(x) = 10x^4 + 15x^2 + 10k′(x)=10x4+15x2+10 恒为正。无论你在这个“景观”的何处,你总是在上坡,所以你永远找不到山峰或山谷。

是峰是谷?二阶导数判别法

找到一个平坦点(f′(c)=0f'(c) = 0f′(c)=0)只是第一步。一个平坦点可能是一个峰顶(​​局部极大值​​)、一个谷底(​​局部极小值​​),或者别的什么,比如一个在陡峭山坡上瞬间平坦的平台(拐点)。为了区分它们,我们需要知道景观是如何弯曲的。这个信息由​​二阶导数​​ f′′(x)f''(x)f′′(x) 捕捉,它衡量了函数的​​凹凸性​​。

可以这样理解:

  • 如果你处于一个峰顶,你周围的地面会向下弯曲,就像一个倒扣的碗。在数学上,这对应于函数​​上凸​​,因此 f′′(c)<0f''(c) < 0f′′(c)<0。
  • 如果你身处一个山谷,地面会向上弯曲,就像一个正放的碗。这对应于函数​​下凹​​,因此 f′′(c)>0f''(c) > 0f′′(c)>0。

这就得到了​​二阶导数判别法​​:

  1. 找到一个临界点 ccc,使得 f′(c)=0f'(c) = 0f′(c)=0。
  2. 如果 f′′(c)>0f''(c) > 0f′′(c)>0,你就找到了一个局部极小值。
  3. 如果 f′′(c)0f''(c) 0f′′(c)0,你就找到了一个局部极大值。

让我们来探索一个具体的景观,多项式函数 y=x4−4x2y = x^4 - 4x^2y=x4−4x2。它的导数是 f′(x)=4x3−8xf'(x) = 4x^3 - 8xf′(x)=4x3−8x。令其为零,我们得到三个平坦点:x=0x=0x=0,x=2x=\sqrt{2}x=2​ 和 x=−2x=-\sqrt{2}x=−2​。现在我们用二阶导数 f′′(x)=12x2−8f''(x) = 12x^2 - 8f′′(x)=12x2−8 来检查每个点的曲率:

  • 在 x=0x=0x=0 处,f′′(0)=−8f''(0) = -8f′′(0)=−8。曲率是负的,所以 (0,0)(0, 0)(0,0) 是一个局部极大值——一个山顶。
  • 在 x=2x=\sqrt{2}x=2​ 和 x=−2x=-\sqrt{2}x=−2​ 处,f′′(±2)=12(2)−8=16f''(\pm\sqrt{2}) = 12(2) - 8 = 16f′′(±2​)=12(2)−8=16。曲率是正的,所以 (±2,−4)(\pm\sqrt{2}, -4)(±2​,−4) 是局部极小值——两个山谷。

这个概念不仅仅是一个数学抽象;它支配着物理世界的稳定性。一个粒子的势能 U(x)U(x)U(x) 就是一个景观。粒子会寻找势能最低的位置。​​稳定平衡​​恰好发生在 U(x)U(x)U(x) 的一个局部极小值点,在该点 U′(x)=0U'(x)=0U′(x)=0 且 U′′(x)>0U''(x)>0U′′(x)>0。如果你轻推粒子,它会滚回谷底。而一个局部极大值点,即 U′(x)=0U'(x)=0U′(x)=0 且 U′′(x)0U''(x)0U′′(x)0 的地方,则是一个​​不稳定平衡​​。一个完美平衡在那个峰顶的粒子会保持不动,但最轻微的推动都会让它滚落下来。

当景观变得复杂

如果二阶导数也为零怎么办?那么判别法就失效了。该点的景观异常平坦。在这种情况下,临界点的性质取决于一种更微妙的平衡。

想象你有两个函数:一个 f(x)f(x)f(x) 在某点有一个严格局部极小值,另一个 g(x)g(x)g(x) 在同一点有一个严格局部极大值。当你将它们相加创造一个新的景观 h(x)=f(x)+g(x)h(x) = f(x) + g(x)h(x)=f(x)+g(x) 时,会发生什么?这就像一个力试图创造一个山谷,而另一个力试图创造一个山峰。结果并不显而易见。事实证明,任何情况都可能发生:

  • 如果“造谷”的趋势更强(例如,f(x)=x2f(x)=x^2f(x)=x2 和 g(x)=−x4g(x)=-x^4g(x)=−x4),它们的和 h(x)=x2−x4h(x)=x^2-x^4h(x)=x2−x4 将有一个局部极小值。
  • 如果“造峰”的趋势更强(例如,f(x)=x4f(x)=x^4f(x)=x4 和 g(x)=−x2g(x)=-x^2g(x)=−x2),它们的和 h(x)=x4−x2h(x)=x^4-x^2h(x)=x4−x2 将有一个局部极大值。
  • 如果这两种趋势以一种特殊的方式完美平衡(例如,f(x)=x2+x3f(x)=x^2+x^3f(x)=x2+x3 和 g(x)=−x2g(x)=-x^2g(x)=−x2),它们的和可以是 h(x)=x3h(x)=x^3h(x)=x3,它在 x=0x=0x=0 处既没有极小值也没有极大值。它只是山坡上一个平坦的“鞍点”。

这也与另一个优美的结论有关,即罗尔定理的一个推论:在任何两个相邻的极值点(比如一个极小值点和一个极大值点)之间,必定存在一个凹凸性改变的点。这就是一个​​拐点​​,在该点曲线从向上弯曲变为向下弯曲,或反之。对于光滑函数,这是一个二阶导数为零的点。

蛮荒边界:尖锐边缘处的极值

到目前为止,我们的旅程一直在平滑起伏的山丘上。但许多现实世界和数学中的景观更加崎岖,有尖锐的山峰和锯齿状的峡谷。在这些点——​​尖角点​​和​​歧点​​——单一斜率的概念不再适用。函数在这些点是不可微的。

这些点也是临界点!因此,我们对极值的搜寻必须扩大范围。我们必须寻找导数为零或导数不存在的点。

考虑函数 f(x)=∣x2−4∣f(x) = |x^2 - 4|f(x)=∣x2−4∣。这个函数处处为正,除了在 x=2x=2x=2 和 x=−2x=-2x=−2 处,它达到零。这两点显然是局部(在这种情况下,也是全局)极小值点。但如果你试图求 x=2x=2x=2 或 x=−2x=-2x=−2 处的导数,你会发现它是不存在的。图在这些地方有尖角。该函数在 x=0x=0x=0 处也有一个光滑的局部极大值,其导数确实为零。所以它的极值点集合是“光滑”和“尖锐”两种类型的混合。

其他函数,如 f(x)=(x2−2x−3)2/3f(x) = (x^2 - 2x - 3)^{2/3}f(x)=(x2−2x−3)2/3,会产生更奇特的特征。在底数为零的点(x=−1x=-1x=−1 和 x=3x=3x=3),图像形成称为歧点的尖锐点。同样,在这些位置导数不存在,它们对应于局部极小值。为了进行完整的分析,人们必须总是检查这些“不驯服的”点,以及那些导数为零的“驯服的”点。

无限的地平线与峰峦的海洋

有些景观似乎永无止境,重复着它们的模式。一个连续的​​周期函数​​——比如交流电路中的电压或无摩擦环境中摆的位置——必须在每个周期内达到一个最高点和一个最低点。根据极值定理,在对应于一个周期的任何闭区间上,都必须存在一个最大值和一个最小值。这些必然是局部极值,保证了在定义域上存在无限数量的峰和谷。一个阻尼振荡,如 f(x)=exp⁡(−x)cos⁡(x)f(x) = \exp(-x)\cos(x)f(x)=exp(−x)cos(x),也具有无限多个局部极值,尽管它们的高度随着 x 轴方向的移动而减小。

现在来看最后一个令人惊叹的转折。我们已经看到了光滑的景观和带有一些尖锐点的景观。如果一个景观处处都是锯齿状的呢?这样的东西真的存在吗?

答案是肯定的。数学家们已经构造出了一些函数,比如问题中的函数,它们处处连续——曲线没有断点——但​​处处不可微​​。想象一条分形海岸线:无论你放大多少,你都永远看不到一段平滑的区域;你只会发现越来越复杂的崎岖。这个函数的图像就是如此。

在这里,我们最信赖的工具——费马定理——完全无用。没有一个点的导数为零,因为根本没有一个点存在导数!然而,这个函数远非单调。令人惊讶的是,它充满了局部最优点。局部极大值的集合是​​稠密的​​,这意味着在任何区间内,无论多么微小,你都保证能找到一个峰顶。局部极小值也是如此。这是一个无限复杂的景观,在任何可以想象的尺度上都是一片名副其实的峰峦海洋。

这就是数学之美。一个简单的问题——“峰顶和谷底在哪里?”——引领我们从一个平坦点的直观想法,通过微积分的强大机制,最终到达想象力的边缘,揭示出挑战我们日常直觉的、具有深邃复杂性和奇观的结构。

应用与跨学科联系

我们花了一些时间学习在图上寻找山顶和谷底的数学机制。你可能会认为这只是数学家的游戏,一系列使用导数寻找函数平坦点的形式化练习。但事实证明,大自然对山丘和山谷极为着迷。从恒星到蛋白质再到生物种群,万物的行为都受制于对这些特殊点的寻找。从深层意义上说,宇宙是一个优化者。一个自发演变的系统会试图稳定在能量最低的状态,而可能发生这种情况的点,正是我们一直在研究的局部极小值点。现在让我们来探讨这个想法,看看局部最优这个简单的概念如何成为解开各门科学秘密的有力钥匙。

自然的语言:势能与稳定性

局部最优最直接、最深刻的应用是在物理学中,通过势能的概念体现。想象一个在丘陵地带滚动的球。地形在任何一点的高度就是它的引力势能。球会在哪里停下来?它会停在山谷的底部——势能的一个局部极小值点。在谷底,地面是平的(V′(x)=0V'(x)=0V′(x)=0),而两侧的地面向上倾斜(V′′(x)>0V''(x)>0V′′(x)>0)。这是一个稳定平衡。一次小小的推动会使球滚回原处。一个完美平衡在山顶的球也处于平衡状态(V′(x)=0V'(x)=0V′(x)=0),但它是不稳定的(V′′(x)0V''(x)0V′′(x)0);最轻微的扰动都会让它滚走。

这个简单的图景几乎可以延伸到物理科学的每一个角落。在材料科学中,晶体中原子的排列由吉布斯自由能 GGG 的“景观”决定,它扮演着势能的角色。最稳定的排列,如石墨,对应于最深的山谷,即 GGG 的全局最小值。然而,也可能存在其他稳定的、但并非最稳定的排列。一个著名的例子是金刚石。金刚石中的碳原子处于自由能景观的一个山谷中,但与石墨的山谷相比,这是一个较浅的山谷。金刚石处于一种​​亚稳态​​——自由能的一个局部极小值。它对小的扰动是稳定的,但如果给予足够大的“推动”(以活化能的形式,如极高的热量),它理论上可以“滚下山坡”并转变为石墨。当一个被困在亚稳态的系统最终转变为更稳定的状态时,它会释放能量。这不仅仅是一个理论想法;我们可以在实验室里直接测量到。在像[差示扫描量热法](@article_id:305802)这样的实验中,亚稳态材料的弛豫会释放热量,表现为一个独特的放热峰,这是系统找到更深能量谷的明确信号。

此外,这些能量景观并非总是静止的。它们可以被温度或压力等外部条件扭曲和重塑。在某个温度下为系统提供稳定居所的山谷,在另一个温度下可能会变平并成为山顶,迫使系统寻找新的极小值。这种势能景观的动态重塑,正是我们所说的​​相变​​的核心。一个简单的数学模型可以完美地捕捉这一点。考虑一个像 V(x)=13x3−μ2x2V(x) = \frac{1}{3}x^3 - \frac{\mu}{2}x^2V(x)=31​x3−2μ​x2 这样的势能。通过调整参数 μ\muμ,我们可以观察到一个局部极小值和一个局部极大值相互靠近、合并,然后交换它们的稳定性。这就是一次“分岔”,它是从水沸腾、金属失去磁性到结构梁屈曲等各种现象背后的数学本质。

势能景观的数学还能带来令人惊讶且深刻的禁令。我们可能想象可以巧妙地排列一组行星,在太空中创造一个“引力袋”——一个稳定的引力平衡点,飞船可以在那里不使用燃料地漂浮。这将需要在引力势场中创造一个局部极小值。然而,这是不可能的。在一个没有物质的空间区域,引力势 VVV 必须满足拉普拉斯方程 ∇2V=0\nabla^2 V = 0∇2V=0。一个深刻的数学结论,称为强极值原理(在物理上称为恩绍定理),指出满足此方程的函数在其定义域内部不能有局部极小值或极大值。它可以有“鞍点”,但没有真正的、稳定的山谷。1/r21/r^21/r2 力定律的本质禁止了用静场实现稳定悬浮。数学不仅告诉我们什么是可能的,还告诉我们什么是根本不可能的。

变化的节奏:动力学与计算

到目前为止,我们一直关注静态平衡。但世界是不断运动的,由微分方程的语言描述。在这里,局部极值也扮演着主角。考虑一个系统,其状态 yyy 随变量 xxx 的变化遵循 dydx=f(x,y)\frac{dy}{dx} = f(x, y)dxdy​=f(x,y) 这样的规则。解曲线 y(x)y(x)y(x) 描述了系统所有可能的历史。这些历史在哪些点达到峰顶或谷底?这恰好发生在“速度”为零的时候,即 dydx=0\frac{dy}{dx} = 0dxdy​=0 的地方。平面上满足此条件的所有点 (x,y)(x, y)(x,y) 的集合构成一条曲线,通常称为零斜线。这条曲线是每一条解轨迹所有可能局部极值的集合。通过简单地绘制导数为零的曲线,我们就可以立即看到所有路径必须转向的“山脊线”,从而在不完全求解方程的情况下,对系统的整体行为获得强大的几何洞察。

这就引出了一个非常实际的问题。说“找到导数为零的地方”是一回事,而真正去做则是另一回事。对于一个简单的多项式,我们可以用代数方法。对于更复杂的函数,如 h(x)=exp⁡(x)−2x2h(x) = \exp(x) - 2x^2h(x)=exp(x)−2x2,要找到其导数 h′(x)=exp⁡(x)−4x=0h'(x) = \exp(x) - 4x = 0h′(x)=exp(x)−4x=0 的根,无法通过简单的代数操作完成。我们必须求助于数值方法。像 Steffensen 方法或牛顿法这样的算法提供了一种“走向”解的配方。我们从一个猜测开始,算法告诉我们如何迈向一个更好的猜测,然后是下一个,再下一个,直到我们收敛到导数为零的点。整个数值优化领域,从机器学习到飞机设计,其根本都是关于在解析解无法获得时,寻找局部(并希望是全局)最优的实际挑战。

当我们评判自己的数学模型时,寻找极值的问题甚至也会出现。当我们用一个更简单的函数,比如抛物线,来近似一个复杂的函数,比如 cos⁡(x)\cos(x)cos(x) 时,我们的近似总会存在一些误差。这个误差函数 E(x)=cos⁡(x)−P(x)E(x) = \cos(x) - P(x)E(x)=cos(x)−P(x) 本身也是一个有自己的峰和谷的函数。找到误差函数的局部极大值至关重要,因为它告诉我们最坏的情况——我们的近似最不准确的点。一个优秀的工程师不仅需要知道他们的模型“相当好”,还需要精确地知道在最坏的情况下它能有多差。

生命的景观:作为优化的演化

也许局部最优最鼓舞人心、最具雄心的应用是在生物学中。让我们用景观的语言重新想象演化的过程。想象一张巨大的地图,其中一个蛋白质所有可能的基因序列都是地面上的一个点。“海拔”在每个点的高度是该蛋白质的适应度——对于一种酶来说,这可能是它的催化活性。这就是​​适应度景观​​。自然选择驱动的演化,就是在该景观上进行爬山的过程。一个生物种群,通过随机突变和选择,会倾向于“向上爬”到适应度更高的状态。

在这个图景中,一个高度适应的生物体是已经到达适应度景观上一个峰顶的生物体——一个局部最优点。它的适应度高于其所有直接的单点突变邻居的适应度。这个强大的类比立即解释了很多现象。例如,为什么演化有时看起来会“停滞不前”?因为一个种群可能已经爬到了一个小山丘的顶端(一个局部最优点),而景观的其他地方存在一个高得多的山峰(全局最优点)。要到达更高的山峰,种群首先必须穿过一个适应度较低的山谷,而这是自然选择会积极反对的举动。演化是一个出色的修补匠,但它也是盲目的;它只能从当前位置向上爬坡。

我们可以使用微积分的工具使这个类比变得惊人地精确。如果我们考虑一个位于适应度最优点 θ\boldsymbol{\theta}θ 的种群,景观的“斜率”(适应度梯度 ∇W\nabla W∇W)必须为零。什么样的选择正在作用于这个种群?答案在于曲率,由二阶导数或海森矩阵 HHH 描述。

  • 如果景观像穹顶一样向下弯曲(海森矩阵是负定的),任何偏离最优点的突变都会导致适应度降低。选择将作用于消除这些偏差,使种群紧密地聚集在峰顶周围。这被称为​​稳定性选择​​。
  • 如果景观像碗一样向上弯曲(海森矩阵是正定的),那么“最优点”实际上是一个适应度最小值点。选择将偏爱任何从该点突变出去的个体。这被称为​​分裂性选择​​。
  • 如果景观形状像马鞍,情况就更复杂了。选择在某些方向上是稳定性的,但在其他方向上是分裂性的。

这是一个惊人的联系。二阶导数判别法,一个来自大一微积分的概念,为分类作用于一个种群的自然选择的基本模式提供了一个严谨的数学框架。函数的抽象几何形状反映在生命本身的具体动力学中。即使是一个看似抽象的性质,比如一个三次多项式必须有一个局部极大值和一个局部极小值才能有三个不同的实根,也找到了新的共鸣。它表明,一个景观要支持多种不同的、稳定的形式,它必须遍布峰顶和谷底——它必须具有丰富的几何结构。

从物质的稳定性到运动方程,再到演化的引擎本身,对局部最优的探索是一条统一的线索。它证明了一个简单的数学思想有能力阐明世界在各个尺度上的运作方式,揭示了自然法则深刻而优雅的统一性。