子水平集

玻尔百科

定义

子水平集是指一个函数在其定义域中函数值小于或等于特定阈值的所有点构成的集合。作为最优化理论和控制理论的核心概念，子水平集常用于分析函数的凸性、紧致性，以及证明最小值的存在性或判定系统的稳定性。通过追踪子水平集拓扑结构的变化，莫尔斯理论和拓扑数据分析能够深入刻画函数的内部结构特征。

核心要点

凸函数的所有子水平集本身都是凸集，这是优化理论的基石性质。
强制函数的子水平集是紧集，这对于证明优化问题中最小值的存在性至关重要。
在控制理论中，Lyapunov 函数的子水平集构成“陷阱区域”，可用于验证系统稳定性。
追踪子水平集拓扑结构的变化是莫尔斯理论和拓扑数据分析理解函数结构的基础。

引言

我们如何理解由数学函数定义的复杂多维景观？一个看似简单却功能强大的工具是子水平集（sublevel set）的概念——即函数值小于或等于给定阈值的所有点的集合。这个概念乍一看很抽象，但它提供了一种统一的语言来分析和解决横跨众多科学领域的问题。本文旨在弥合子水平集的形式化定义与其广泛的实际应用之间的鸿沟。通过直观地探讨其性质并巡览其最重要的应用，本文架起了这座桥梁。

本文首先阐述基本原理和机制，探讨子水平集、凸性和拓扑学之间的关键联系。然后，文章转向现实世界，展示这一概念如何被用来寻找最优解、保证动态系统的稳定性以及揭示复杂数据背后隐藏的形状。

原理与机制

想象一下，你是一名徒步旅行者，正在探索一片广阔的山区。地图上任意点 $(x, y)$ 的海拔由函数 $f(x, y)$ 给出。现在，假设你想找出地图上所有海拔等于或低于某一特定高度（比如 1000 米）的区域。地图上所有这些点的集合就构成了水平 $\alpha = 1000$ 的子水平集。这种将定义域中函数值低于某一阈值的所有部分“涂上颜色”的简单想法，是数学中最强大的概念之一，在从优化到拓扑学的各个领域都有着深远的影响。

切割景观：一个可视化的介绍

让我们把这个想法表述得更精确一些。对于一个函数 $f$ ，它接收某个空间中的点 $x$ 并返回一个实数，其 $\alpha$ -子水平集（我们可以称之为 $S_\alpha$ ）就是定义域中所有函数值小于或等于 $\alpha$ 的点 $x$ 的集合。用数学符号表示为：

S_\alpha = \{ x \mid f(x) \le \alpha \}

有一种非常直观的方法可以将其可视化。思考函数的图像。对于像 $f(x) = x^2$ 这样的简单函数，其图像是二维平面中一条我们熟悉的抛物线。现在，想象一下，不仅仅是图像的曲线，而是其上方的整个区域。这个区域称为上图（epigraph），是所有满足 $y \ge f(x)$ 的点 $(x, y)$ 的集合。

我们如何从这幅图中找到子水平集 $S_\alpha$ 呢？我们用一个水平的“切片器”在高度 $y = \alpha$ 处切割上图。这个平面与上图的交集得到一个点集。然后，如果我们将这个切片垂直向下投影到 x 轴上，它投下的阴影就是子水平集。对于 $f(x) = x^2$ 和某个正水平 $\alpha$ ，在 $y = \alpha$ 处切割上图得到点 $(x, \alpha)$ 组成的线段，其中 $x^2 \le \alpha$ 。将其投影到 x 轴上，我们得到区间 $[-\sqrt{\alpha}, \sqrt{\alpha}]$ ，这便是子水平集。

这些集合的性质可能出人意料地多样。对于一个常数函数，就像一个海拔为 $c$ 的完美平原，子水平集 $S_\alpha$ 要么是整个地图（如果 $\alpha \ge c$ ），要么是完全空的地图（如果 $\alpha \lt c$ ）。对于像 $f(x) = \sin(x)$ 这样的波动周期函数，子水平集的特性会根据我们选择的高度 $\alpha$ 而急剧变化。如果 $\alpha$ 大于或等于 1，条件 $\sin(x) \le \alpha$ 始终成立，因此子水平集是整个实数轴 $\mathbb{R}$ 。如果 $\alpha$ 小于 -1，条件永不成立，子水平集为空集 $\emptyset$ 。对于介于两者之间的任何水平，比如 $\alpha = 0.5$ ，子水平集变成一个由无限个不相交区间组成的集合——即正弦波下沉到直线 $y=0.5$ 以下的所有区域。

凸性的力量

子水平集最著名的性质之一与凸性（convexity）的概念有关。如果一个集合中的任意两点，连接它们的直线段也完全包含在该集合内，那么这个集合就是凸集。圆盘是凸的；甜甜圈形状则不是。如果一个函数的上图是凸集，那么这个函数就是凸函数——从几何上看，它的图像可以“盛水”。

这里存在一个优美而基本的联系：凸函数的所有子水平集都是凸集。从几何图像来看，这个逻辑几乎是不言自明的。如果一个函数的图像处处向上弯曲，并且你取了两个都低于某个高度 $\alpha$ 的点 $x_1$ 和 $x_2$ ，那么它们之间的路径 $f((1-t)x_1 + tx_2)$ 不可能“凸起”并超过 $\alpha$ 。凸性的定义保证了函数在线段上的值保持在连接端点高度的线段下方，既然两个端点的高度都低于 $\alpha$ ，那么整个路径也必然如此。

这个性质是单向的，这种区别至关重要。一个函数的所有子水平集都是凸的，是否意味着该函数本身也必须是凸的？答案是否定的。考虑函数 $f(x) = \sqrt{\|x\|}$ ，其中 $x$ 是 $\mathbb{R}^n$ 中的一个点。对于 $\alpha \ge 0$ ，它的子水平集是满足 $\|x\| \le \alpha^2$ 的集合，这些集合就是以原点为中心的球体——是完美的凸集。然而，函数 $f(x) = \sqrt{\|x\|}$ 并不是凸函数；它的图像向上弯曲得不够剧烈。像这样不一定是凸函数但具有凸子水平集的函数，被称为拟凸（quasiconvex）函数。这揭示了一个微妙的层次结构：所有凸函数都是拟凸函数，但并非所有拟凸函数都是凸函数。子水平集是揭示这一区别的关键。

寻找谷底：紧致性与优化

为什么子水平集的凸性如此重要？它是现代优化理论——即寻找问题最佳解的科学——的基石。想象一下，你想在一个由函数 $f(x)$ 描述的景观中找到最低点。

如果景观无限延伸，并在某个方向上总体向下倾斜，你可能永远找不到最小值；你可以一直走下去，并且高度持续降低。但如果这个景观是强制的（coercive）——也就是说，无论你朝哪个方向走，只要离原点足够远，海拔 $f(x)$ 最终都会趋向无穷大呢？。想象一个碗的形状。在这种情况下，最小值必然存在。

子水平集为此提供了严谨的论证。如果一个函数是连续的，它的子水平集就是闭集（即包含其边界）。如果函数同时也是强制的，那么它的子水平集也必然是有界的。为什么呢？假设一个子水平集 $S_\alpha$ 是无界的。这意味着你可以在其中找到离原点任意远的点。但根据强制性，函数在这些远处的点的值必然趋向于无穷大。这就产生了一个矛盾，因为对于 $S_\alpha$ 中的每一点，函数值都必须小于或等于 $\alpha$ 。因此，子水平集必须被限制在一个有限的区域内。

在拓扑学的语言中，欧几里得空间中既是闭集又是有界的集合称为紧集（compact）。作为分析学的一大支柱，极值定理指出，任何定义在紧集上的连续函数都保证在该集合上达到其最小值和最大值。

这为我们提供了一个强大的优化策略。为了找到一个强制函数 $f$ 的全局最小值，我们只需选择任意一个起始点 $x_0$ 。全局最小值，无论它在哪里，其函数值必然小于或等于 $f(x_0)$ 。这意味着最小值必定位于子水平集 $S_{f(x_0)}$ 之内。由于 $f$ 是强制且连续的，这个子水平集是紧集。我们成功地将解“困”在了一个有界的闭区域内，将无限的搜索转变为有限的搜索。相比之下，对于像 $f(x) = \tanh(x)$ 这样的非强制函数，其 $\alpha=1$ 的子水平集是整个实数轴，它不是紧集，而该函数确实接近但从未达到值 1。

绘制地形图：拓扑结构如何随水平变化

子水平集的作用不仅限于告诉我们关于凸性和最小值的信息；它们还能描述一个函数的整个拓扑“骨架”。想象一下，通过缓慢提升水位 $\alpha$ 来淹没我们的山地景观。子水平集 $S_\alpha$ 就是被水淹没的陆地区域。

当我们提高水位时，不会发生什么拓扑上有趣的事情——被淹没的区域只是平滑地扩张。但当水位达到一个临界点时，一切都变了。临界点是函数梯度为零的点（一个山峰、一个谷底或一个鞍点/山口）。只有在这些临界高度，被淹没区域的形状或拓扑结构才会发生改变。

让我们考虑一个二维景观：

当水位 $\alpha$ 到达一个局部极小值点（谷底）时，一片新的水域凭空出现。子水平集中诞生了一个新的连通分支。
当 $\alpha$ 到达一个鞍点（山口）时，一个戏剧性的事件发生了。先前位于两个不同山谷中的两片独立水域可能会突然合并成一片。当水漫过山口时，原本子水平集中的两个不同分支变成了一个单一、更大的分支。连通分支的数量减少了一个。这就像在两个岛屿之间连接了一个“柄”或一座桥。
当 $\alpha$ 到達一个局部极大值点（山峰）时，岛屿上最后一块旱地被淹没。子水平集中的一个“洞”被填补了。

这个视角是莫尔斯理论（Morse theory）的基石，它将我们对函数的静态看法转变为一个动态的故事。通过观察当我们把水平 $\alpha$ 从 $-\infty$ 扫到 $+\infty$ 时子水平集拓扑结构的变化，我们可以逐个临界点地、一片一片地重建函数景观的整个结构。从一个识别“低洼地带”的简单工具，子水平集变成了一个能够深入探究函数形状本质的复杂探针。

应用与跨学科联系

现在我们已经熟悉了子水平集的定义，你可能会问一个完全合理的问题：“那又怎样？”这是否只是又一个巧妙的数学抽象，一个注定要被束之高阁的贫乏概念？

远非如此！事实证明，这个“低于某条线的一切”的简单想法是一个异常强大的透镜。它是那些看似简单却又深刻的概念之一，能够揭示看似迥异的世界之间深层次的联系。借助这一个工具，我们可以从数学证明的抽象确定性走向生物分子纷繁复杂的现实，从寻求最佳设计到挑战保持飞船航向。这样一个简单的构造能够像一把万能钥匙一样，解锁跨学科的秘密，这本身就证明了科学思想内在的统一性。让我们开始我们的旅程，游览其中一些迷人的景观。

“足够好”的几何学：优化

优化的核心在于一个非常基本的问题：我们能找到最好的解吗？这可能意味着建造一座桥梁的最便宜方法，预测天气最准确的模型，或送货卡车最有效的路线。通常，这些问题涉及到在无限的可能性空间中进行搜索。那么，我们如何能确定一个“最好”的解真的存在呢？也许我们可以做得越来越好，却永远无法达到理想状态。

这正是子水平集提供立足之处的地方。考虑常见的数据拟合问题，这通常归结为最小化一个类似 $f(x) = \|Ax-b\|_2^2$ 的函数。向量 $x$ 代表我们模型的参数， $f(x)$ 是误差。我们想找到使误差尽可能小的 $x$ 。挑战在于 $x$ 可以是 $\mathbb{R}^n$ 中的任何向量。如果我们的函数 $f(x)$ 在某个方向上延伸到无穷远处时变得越来越平坦，它的子水平集 $\{x : f(x) \le \alpha\}$ 将是无界的，我们对最小值的搜索可能会让我们陷入到无穷远处的徒劳追逐中。

但我们可以进行一次巧妙的场景转换。与其关注参数空间 $x$ ，不如关注结果空间 $y = Ax$ 。问题现在变成了在由 $A$ 的列向量张成的子空间（ $A$ 的值域）中找到离我们的目标数据 $b$ 最近的点 $y$ 。对于任何候选误差水平 $\alpha$ ，这个结果空间中的子水平集是 $\{y \in \operatorname{range}(A) : \|y-b\|_2^2 \le \alpha\}$ 。这是一个闭球（一个紧集）和一个子空间（一个闭集）的交集。因此，得到的集合是紧集！Weierstrass 定理告诉我们，紧集上的连续函数必然会达到其最小值。所以，一个最佳结果 $y^*$ 必然存在。而如果一个最佳结果存在，那么必然至少有一个参数向量 $x^*$ 能产生它（ $Ax^*=y^*$ ）。瞧！最小值的存在性得到了保证，不是通过强制性，而是通过在正确的空间中观察紧的子水平集。

好吧，最小值存在。但它是唯一的吗？只有一个“最佳”答案吗？人们可能会猜测，如果函数是凸的（形状像一个碗），最小值应该是唯一的。凸函数有凸的子水平集。这足够吗？让我们考虑一个形状像平底碗的函数，例如 $f(x) = (\max\{0, \|x\|-1\})^2$ 。它对于任何 $\alpha \ge 0$ 的子水平集都只是闭球，这些都是非常好的严格凸集。然而，这个函数的最小值是 $0$ ，并且它是在整个单位球 $\|x\| \le 1$ 内的任何点上取得的。我们有无穷多个最小值点！子水平集揭示了其中的微妙之处：它们的形状告诉我们关于唯一性的信息。我们真正需要的是一个禁止在最小值处出现这些“平坦区域”的条件。这个条件被称为严格拟凸性，它确保在任意两点之间的任何线段上，中间点的函数值严格低于两个端点中的较高者。这种微妙的改进，通过子水平集内线段上的函数值自然地表达出来，恰恰是保证唯一全局最小值的关键。

这种几何洞察不仅用于证明，它还构建了强大的算法。有些问题不是凸的，但它们的子水平集是凸的。这些被称为拟凸问题。我们可以用一种感觉像是侦探缩小搜索范围的二分法来解决它们。最小化 $f(x)$ 的问题等价于找到使子水平集 $S_\tau = \{x : f(x) \le \tau\}$ 非空的最小值 $\tau$ 。我们可以搜索这个最优值 $\tau^*$ 。我们从一个我们知道 $\tau^*$ 必然位于的区间 $[\tau_L, \tau_U]$ 开始。我们在中间选择一个测试值 $\tau$ 。然后我们问一个简单的几何问题：“集合 $S_\tau$ 是空的吗？”因为子水平集是凸的，这是一个凸可行性问题，解决起来非常高效。如果它不是空的，意味着我们可以达到 $\tau$ 或更小的值，所以我们更新上界： $\tau_U = \tau$ 。如果它是空的，说明我们目标定得太低了，所以我们更新下界： $\tau_L = \tau$ 。我们重复这个过程，在每一步都将不确定区间减半，直到我们锁定真正的最小值。一个复杂的优化问题就这样被简化为一系列简单的几何“是/否”问题。

绘制无形栅栏：稳定性与控制

子水平集不仅帮助我们找到静态最优解；它们在描述系统随时间变化的动态行为方面也是不可或缺的。控制理论中的一个核心问题是稳定性：如果我们轻推一个系统——一个钟摆、一颗卫星、一个化学反应器——它会返回到其稳定平衡点，还是会偏离轨道？

杰出的俄罗斯数学家 Aleksandr Lyapunov 有一个天才的想法，这个想法避免了直接求解系统运动方程这一几乎不可能完成的任务。他将系统的状态想象成一个景观上的一个点，其高度由一个“类能量”函数 $V(x)$ 给出。我们关心的稳定平衡点，比如原点 $x=0$ ，位于一个山谷的底部。子水平集 $\Omega_c = \{ x : V(x) \le c \}$ 就是景观中低于某个高度 $c$ 的所有点。

现在，让我们观察系统在这个景观上如何移动。我们可以计算能量沿轨迹的变化率 $\dot{V}(x)$ 。如果我们能证明系统的动力学在子水平集 $\Omega_c$ 的边界上总是指向“下坡”方向，或者至少不是上坡（ $\dot{V}(x) \le 0$ ），那么这个边界就如同一个无形的栅栏。一个从 $\Omega_c$ 内部开始的轨迹永远无法爬过高度 $c$ ，所以它永远出不去。子水平集变成了一个陷阱区域，一个系统永远无法逃脱的可证明的安全区。如果函数 $V(x)$ 是径向无界的（它在所有方向上都增长到无穷大），那么这些子水平集也是有界的，因而是紧集。

这种方法为我们提供了一个验证安全性和稳定性的强大方案。对于一个给定的系统，我们可以提出一个 Lyapunov 函数，比如简单的二次能量函数 $V(x) = x_1^2 + x_2^2$ ，其子水平集是圆形（或球面）。然后我们计算状态空间中动力学保证是耗散的区域，即 $\dot{V}(x) 0$ 的区域。接下来的任务就是找到能完全容纳在这个耗散区域内的最大可能的圆。任何从这个圆内开始的轨迹都被保证会被困住，并且如果设置正确，会螺旋式地下降到稳定平衡点。这个最大圆的半径由“首次出口”点决定——即耗散区域边界上（其中 $\dot{V}(x)=0$ ）离原点最近的点。

这个方法甚至更强大。如果 $\dot{V}(x)$ 并非严格为负，而是在某些远离原点的路径上可以为零呢？LaSalle 不变性原理扩展了 Lyapunov 的思想。一条轨迹可能会沿着一条恒定“能量”的路径漂移，但只要它不能永远停留在这样的路径上（除非该路径就是平衡点本身），它最终必须下降。策略仍然是找到最大的子水平集 $\Omega_c$ ，使其避开任何“上坡”区域。即使这个集合包含 $\dot{V}(x)=0$ 的路径，我们也可以检查系统动力学是否会迫使其离开这些路径。如果是这样，LaSalle 原理仍然保证所有从 $\Omega_c$ 开始的东西最终都会到达平衡点。这提供了一种严谨的方法来估计吸引域——即所有能导致稳定性的初始状态的集合。

揭示骨架：拓扑与数据分析

到目前为止，我们已经使用函数的子水平集来理解其最优点或其支配的动力学。但我们可以完全颠覆这个视角。如果我们利用子水平集的变化拓扑来揭示底层空间本身的形状呢？

这就是莫尔斯理论的核心思想。想象一个崎岖的岛屿，让我们的函数 $f$ 是海拔高度。子水平集 $M_c = \{p : f(p) \le c\}$ 就是当海平面在高度 $c$ 时，岛屿被水淹没的部分。当我们慢慢升高水位时，这个水下区域的拓扑结构会发生变化，但仅以非常具体、可预测的方式发生。通常不会发生什么大事，直到水位触及高度函数的临界点。

在局部极小值点（盆地底部），一片新的水域——一个新的连通分支——凭空出现。这是一个拓扑上的“诞生”。
在鞍点（山口），两个先前分离的水域可能会合并成一个。这是一个分支的“死亡”。
在局部极大值点（山峰），最后一点干地被淹没，可能会填补水中的一个洞（比如一个环礁湖）。

莫尔斯理论为这些事件提供了一个精确的公式。当水平 $c$ 穿过一个临界值时，一个称为欧拉示性数 $\chi$ 的拓扑计数器的变化由 $\Delta\chi = (-1)^\lambda$ 给出，其中 $\lambda$ 是临界点的莫尔斯指数（“下坡”方向的数量）。对于二维空间中的鞍点， $\lambda=1$ ，所以 $\Delta\chi = -1$ 。这在直觉上非常有道理：两个分支合并成一个，所以连通分支的数量减少了一个。我们可以通过考虑像 $f(x,y) = \cos(2x) + \cos(y)$ 这样一个定义在环面上的函数来观察这一过程。这个函数有两个全局最小值。如果我们选择一个刚好高于最小值但低于鞍点值的水平，子水平集将由以这两个最小值为中心的两个小的、不相连的“水坑”组成。

这个强大的思想——追踪子水平集的演化——是一个叫做拓扑数据分析（TDA）的现代且令人兴奋的领域背后的引擎。其核心技术，持续同调，将空间上的一个函数转化为一个拓扑特征。我们通过在函数的取值范围内扫描一个水平，并记录拓扑特征的诞生和死亡，来构建一个过滤（filtration）。

让我们以三维空间中的一个三叶结为例，并使用简单的高度函数 $z$ 。当我们从下往上扫描一个平面时，我们观察结的哪些部分位于平面下方。在高度函数的每个局部极小值点，结的一个新部分出现，诞生了一个新的连通分支。随着平面上升，这些部分增长直到在局部极大值点相遇，它们在那里合并，导致一个分支的“死亡”。TDA 的关键洞见是测量每个特征的持续性：它的生命周期，即“死亡时间”减去“诞生时间”。结上的一个微不足道的小扭结将产生一个几乎立即诞生和死亡的分支——它的持续性很低。然而，结的一个主要折叠将产生一个在很长的高度值范围内都存在的分支——它的持续性很高。

这种区分重要特征与噪声的能力对于真实世界的数据是革命性的。考虑在蛋白质上寻找结合位点的问题，这些位点通常是其表面的口袋或裂缝。蛋白质是原子极其复杂的混合体。我们可以在其表面定义一个函数，比如静电势。通过对这个势函数运行子水平集过滤，我们可以追踪分支的诞生和死亡。表面上的一个浅凹痕将是一个低持续性的特征。但是一个深的口袋，一个药物结合的候选位点，将表现为一个高持续性的特征——一个在低电势值时诞生并“存活”很长时间才与表面其他部分合并的分支。TDA 提供了一种自动化的、严谨的方法来观察数据的真实“形状”，滤除噪声以揭示其基本结构。

从优化的抽象基础到工程和生物学的具体挑战，子水平集提供了一种简单而深刻的统一语言。仅仅通过询问“什么位于这个水平之下？”，我们就获得了一个强大的新视角，揭示了支配我们周围世界的隐藏几何。