正定函数

玻尔百科

核心要点

如果一个函数在平衡点处为零，并在其他所有点处严格为正，那么它就是正定函数，这在数学上代表了一个起稳定作用的“能量碗”。
对于二次型 $V(x) = x^T P x$ 而言，其正定性等价于矩阵 $P$ 的正定性，这可以通过 Sylvester 判据等代数检验方法来验证。
在控制理论中，一个正定的李雅普诺夫函数，如果其时间导数是负定的，则可以用来证明动力系统的渐近稳定性。
这一概念是数据科学的基石，它确保了统计学中协方差矩阵的有效性，并促成了机器学习中用于相似性度量的“核技巧”。

引言

我们如何从数学上保证一个系统（例如碗中的弹珠）在受到扰动后能够恢复到静止状态？这个关于稳定性的基本问题是工程学、物理学等领域的核心。尽管稳定的“能量碗”这一直观概念很简单，但将其形式化需要一个精确的数学工具。本文将介绍正定函数这一概念，它是对该问题的严谨解答。它弥合了稳定性的直观理念与其实际应用之间的鸿沟。在接下来的章节中，您将首先深入“原理与机制”部分，在这里我们将定义何为正定函数，并探讨作为此概念核心的二次型的关键性质。随后，“应用与跨学科联系”一章将揭示这个简单的思想如何成为控制理论、机器学习和数值计算的基石，将各种不同的科学挑战统一在一个共同的数学框架之下。

原理与机制

想象一个弹珠静止在一个光滑圆碗的底部。如果你轻轻推它一下，会发生什么？它会向上滚动一小段距离，失去动能，然后滚回碗底，最终再次静止在底部。这就是稳定性的本质。现在，想象把弹珠放在一个马鞍上。它可以在正中心保持平衡，但最轻微的推动都会让它滚落下去。这就是不稳定性。但我们如何用数学语言来描述碗或马鞍的“形状”呢？这正是优美而强大的正定函数概念发挥作用的地方。

这些函数可视为能量景观的数学推广。碗底代表系统的平衡点，而函数在任何其他点的值则告诉我们当系统偏离平衡点时所存储的“势能”。要使一个系统稳定，我们需要的是碗，而不是马鞍。

定义稳定性的形状

那么，一个函数要像碗一样，需要满足哪些精确的数学规则呢？假设我们系统的状态由一个向量 $x$ （可以代表位置、速度、温度等）描述，而我们关心的平衡点在原点 $x=0$ 。如果一个函数 $V(x)$ 满足以下两个简单直观的条件，它就被称为正定函数：

底部为零： 函数在平衡点处必须为零。数学上表示为 $V(0) = 0$ 。这设定了我们能量的“基准面”。
他处皆上坡： 对于任何非平衡点的状态 $x$ ，函数值必须严格大于零。数学上表示为，对所有 $x \neq 0$ 都有 $V(x) > 0$ 。

就是这样！任何满足这两条规则的函数都具有起稳定作用的“能量碗”的基本特征。它在平衡点处有一个唯一的全局最小值。例如，像 $V(x) = \lVert x \rVert^2$ （离原点距离的平方）这样的简单函数就是一个完美的例子。它仅在原点处为零，在其他任何地方都为正。像 $V(x) = \lVert x \rVert^4 + \lVert x \rVert^2$ 这样的函数也是如此，它只是描述了一个更陡峭的碗。

典型的碗：二次型

在物理学和工程学中，我们遇到的最常见、最有用的“碗”是由二次型描述的。二次型是每一项都是二次的函数。对于一个具有两个状态 $x_1$ 和 $x_2$ 的系统，一个普遍的二次型形如 $V(x_1, x_2) = ax_1^2 + bx_1x_2 + cx_2^2$ 。我们可以用矩阵表示法更优雅地写成 $V(x) = x^T P x$ ，其中 $x = \begin{pmatrix} x_1 \\ x_2 \end{pmatrix}$ 且 $P$ 是一个对称矩阵。

矩阵 $P$ 就是这个碗形状的“配方”。它告诉我们碗边的陡峭程度，以及它是否倾斜或拉伸。要使 $V(x)$ 成为一个正定函数，矩阵 $P$ 本身必须是正定的。我们如何知道 $P$ 是否是正定矩阵呢？有几种便捷的检验方法。

一个强有力的方法是 Sylvester 判据。该判据指出，一个对称矩阵是正定的，当且仅当其所有顺序主子式都严格为正。对于一个 $2 \times 2$ 矩阵 $P = \begin{pmatrix} p_{11} p_{12} \\ p_{12} p_{22} \end{pmatrix}$ ，这意味着我们需要满足：

第一个主子式： $\Delta_1 = p_{11} > 0$
第二个主子式： $\Delta_2 = \det(P) = p_{11}p_{22} - p_{12}^2 > 0$

例如，考虑函数 $V(x_1, x_2) = x_1^2 + 3x_1x_2 + 3x_2^2$ 。其对应的矩阵是 $P = \begin{pmatrix} 1 3/2 \\ 3/2 3 \end{pmatrix}$ 。我们检查主子式： $\Delta_1 = 1 > 0$ 且 $\Delta_2 = (1)(3) - (3/2)^2 = 3 - 9/4 = 3/4 > 0$ 。由于两者都为正，该矩阵是正定的，因此我们的函数 $V(x)$ 是一个非常好的“碗”。

另一种可能更直观的方法是配方法。我们可以将函数改写为： $V(x_1, x_2) = \left(x_1 + \frac{3}{2}x_2\right)^2 - \frac{9}{4}x_2^2 + 3x_2^2 = \left(x_1 + \frac{3}{2}x_2\right)^2 + \frac{3}{4}x_2^2$ 这种形式清楚地表明，该函数是两个平方项（永远不为负）之和。它仅当两项都为零时才可能为零，而这只在 $x_2=0$ 进而 $x_1=0$ 时发生。因此，它是正定的。

当碗不再是碗：不完美的形状

并非所有函数都是良好、起稳定作用的碗。让我们看看其他一些可能性。

槽形（半正定）： 如果我们的函数是 $V(x_1, x_2) = (x_1 - 3x_2)^2$ 呢？。这个函数在原点处为零，并且永远不为负。到目前为止，一切都好。但是，它在其他所有地方都是严格为正吗？不是。沿着整条直线 $x_1 = 3x_2$ ，函数值为零。这个形状不是一个碗，而是一个槽或一个山谷。一个弹珠可以静止在这个山谷底部的任何地方，而不仅仅是原点。这被称为半正定函数。它满足 $V(0)=0$ 和 $V(x) \ge 0$ ，但对于某些非零的 $x$ 值，它可以为零。用矩阵的术语来说，这发生在矩阵 $P$ 的行列式为零时，例如矩阵 $P = \begin{pmatrix} 1 1 \\ 1 1 \end{pmatrix}$ ，它对应于函数 $V(x) = (x_1+x_2)^2$ 。
鞍形（不定）： 现在考虑一个像 $V(x_1, x_2) = x_1^2 - 3x_2^2$ 这样的函数。沿着 $x_1$ 轴（此时 $x_2=0$ ），它是一个开口向上的抛物线（ $x_1^2$ ）。但沿着 $x_2$ 轴（此时 $x_1=0$ ），它是一个开口向下的抛物线（ $-3x_2^2$ ）。这是马鞍的经典形状。一个在原点任意邻域内既能取正值又能取负值的函数被称为不定函数。它显然不能保证稳定性。一些看起来无害的二次型可能隐藏着马鞍形状，例如 $V(x,y) = 2x^2 + 4xy + y^2$ ，它在直线 $y=-2x$ 上变为负值。
错误的曲率（奇次幂）： 我们能使用像 $V(x_1, x_2) = x_1^9 + x_2^{11}$ 这样的函数吗？它在原点处为零。但是，由奇次幂构成的函数有一个根本缺陷：它会反映其输入的符号。如果 $x_1$ 是负数，那么 $x_1^9$ 也是负数。因此，在点 $(-2, 0)$ 处， $V(-2, 0) = -512$ 。由于它的值可以小于零，它远非一个碗形，以这种形式无法用于证明稳定性。

构建碗的工具箱

正定函数的美妙之处在于它们具有简单的代数性质。如果你有两个已知是正定“碗”的函数 $V_1(x)$ 和 $V_2(x)$ ，你可以将它们组合起来：

求和： $W(x) = V_1(x) + V_2(x)$ 也是正定的。这就像将一个碗叠在另一个碗里，创造出一个新的、更深的碗。如果 $V_1$ 和 $V_2$ 除了在原点外处处为正，那么它们的和也必然如此。
缩放： $W(x) = k V(x)$ 是正定的，当且仅当缩放常数 $k$ 是一个正数（ $k>0$ ）。这完全合乎情理：乘以一个正常数只是在垂直方向上拉伸或压缩碗，但乘以一个负常数会将其上下颠倒，变成一个圆顶。
相乘： $W(x) = V_1(x) V_2(x)$ 也是正定的。两个正数的乘积是正数，所以这个规则自然成立。

这些规则使我们能够用更简单的构件来构造更复杂、更具针对性的正定函数。

局部稳定性：微观视角

有时，一个函数并非在整个空间中都像一个碗，但它在原点附近的一个小邻域内确实如此。而对于许多实际应用来说，这已经足够了！这就是局部正定的思想。

考虑函数 $V(x_1, x_2) = x_1^2 + x_2^2 - x_1^3$ 。如果我们非常靠近原点，二次项 $x_1^2 + x_2^2$ 会远大于三次项 $x_1^3$ 。例如，如果 $x_1 = 0.1$ ，那么 $x_1^2 = 0.01$ ，而 $x_1^3 = 0.001$ 。二次部分占主导地位，函数表现得像一个完美的碗。然而，如果你走得远一些，比如到 $x_1=2$ ，函数就变成 $V(2,0) = 4 - 8 = -4$ 。函数值降到了零以下。所以，这个函数只在原点附近的一个小区域内是正定的，但在该区域内，它仍然可以用来证明局部稳定性。

分析函数局部行为的一个强大工具是泰勒级数展开。以函数 $V(x, y) = 1 - \cos(x) + \frac{1}{2}y^2$ 为例。这可能看起来很复杂，但我们知道对于小的 $x$ ，余弦函数的泰勒级数是 $\cos(x) \approx 1 - \frac{x^2}{2}$ 。代入后我们得到： $V(x, y) \approx 1 - \left(1 - \frac{x^2}{2}\right) + \frac{1}{2}y^2 = \frac{1}{2}x^2 + \frac{1}{2}y^2$ 在原点附近，这个复杂的函数看起来就像一个简单的二次型碗！这证实了它是局部正定的。

从碗中弹珠这个简单直观的图像出发，我们最终得到了一个精确的数学定义，并由此获得了一套强大的工具。我们可以识别这些“碗状”函数，将它们与不稳定的“鞍形”和“槽形”区分开，用旧的函数构建新的函数，甚至可以放大观察稳定性的局部形状。这个核心思想如此简单的概念，却是理解和保证我们周围各种系统（从飞机飞行到化学反应器的调节）稳定性的基石。

应用与跨学科联系

掌握了正定函数的形式化性质后，我们现在踏上一段旅程，去看看这个看似抽象的概念在何处真正焕发生机。你可能会感到惊讶。这一个概念，就像一把万能钥匙，打开了通往众多科学和工程学科的大门。它是各种思想的数学体现——既有像谷底一样直观的思想，也有像距离概念一样基础的思想，还有像搜索算法可靠性一样实用的思想。我们将看到，正定性不仅仅是教科书中一个需要检验的条件；它是一个深刻的原理，揭示了不同领域之间惊人的一致性。

稳定性的几何学：控制理论与动力系统

正定函数最直观、最基础的应用或许在于稳定性研究。想象一个在碗里滚动的弹珠。如果我们从碗边的任何位置释放它，它最终都会停在最底部。物理学家 Aleksandr Lyapunov 意识到，这个简单的物理图像可以推广到理解任何动力系统的稳定性，从摇摆的钟摆到复杂的化学反应。

关键在于找到一个我们称之为李雅普诺夫函数 $V(x)$ 的函数，它就像系统的“能量”或碗中弹珠的高度。要使系统在平衡点（我们将其置于原点 $x=0$ ）附近稳定，这个能量函数必须满足两个常识性条件。首先，能量在平衡点必须为零，在其他任何地方都为正。这正是正定函数的定义。其次，随着系统随时间演化，其能量必须总是减少（或至少永不增加）。这意味着能量的时间导数 $\dot{V}(x)$ 必须为负。要使系统渐近稳定——意味着它不仅停留在原点附近，而且被主动吸引向原点——这种能量耗散必须是严格的。只要系统没有静止在底部，能量就必须主动耗散，这个条件通过要求 $\dot{V}(x)$ 是负定函数来体现。

但为什么能量函数必须是严格正定的呢？如果它在原点以外的某些地方为零会怎样？考虑一个二维系统的函数，如 $V(x,y) = x^4$ 。这个函数在原点处为零，当 $x \neq 0$ 时为正。然而，沿着整个 $y$ 轴（此时 $x=0$ ），函数值为零。这不是一个碗，而是一个槽或山谷。处于这个山谷中的弹珠可以永远沿着底部（ $y$ 轴）滚动，而永远不会回到原点 $(0,0)$ 。这样的函数仅仅是*半正定*的，不足以保证所有路径都回到唯一的平衡点。对所有非零点都要求“严格大于零”的条件确保了我们的能量景观有一个唯一的、孤立的最小值。

对于线性系统，这个“能量碗”呈现出一种特别优美的形式：一个由二次型 $V(x) = x^{\top} P x$ 描述的完美椭球体。在这里，函数 $V(x)$ 的正定性完全等价于对称矩阵 $P$ 的正定性。这种美妙的等价关系将稳定性的几何概念与线性代数的强大代数工具联系起来。如果我们能为线性系统找到这样一个矩阵 $P$ ，我们就找到了一个证明其稳定性的椭球形碗。对于更复杂的非线性系统，真正的“吸引域”可能根本不是椭球体。寻找能更好地匹配系统动力学的非二次型、定制形状的李雅普诺夫函数是现代控制理论的一个活跃领域，它使我们能够在更大、更现实的区域内验证稳定性。为了保证从任何初始点出发的稳定性（全局稳定性），我们的能量碗必须在所有方向上无限向上延伸。这个被称为“径向无界”的特性确保了无论系统初始能量有多大，它始终被困在有限的空间区域内，无法逃逸到无穷远。这种约束是像 LaSalle 不变性原理这样强大结果的关键先决条件，该原理使我们能够分析那些被保证有界的轨迹的长期行为。

数据的形状：统计学与机器学习

现在，让我们从动力学的物理世界转向数据的抽象世界。在这里，正定性从一种能量的度量转变为一种相似性、方差和信息的度量。

在机器学习中，最强大的思想之一是“核技巧”。我们不直接处理数据点，而是使用一个函数 $K(s, t)$ 来度量任意两点 $s$ 和 $t$ 之间的“相似性”。为了使这种相似性度量在几何上合理，它必须是一个正定核。这个条件保证了我们的相似性概念可以在某个（可能无限维的）特征空间中被解释为内积。它确保了距离是实数，并且几何结构不会坍缩。我们甚至可以从现有的相似性度量构建新的、更强大的度量。一个著名的定理表明，如果我们取一个有效的核 $K(s,t)$ ，并将其与一个其幂级数展开式只含非负系数的函数 $g$ （如 $g(x) = \exp(x)$ 或 $g(x) = \cosh(x)$ ）复合，得到的函数 $K_{new}(s,t) = g(K(s,t))$ 也是一个有效的正定核。这为我们提供了一个强大的“核函数演算”方法，用以设计适合复杂数据的特征和相似性度量。

在统计学中，这个概念出现在多元分析的核心。多个随机变量的分布和相互关系由一个协方差矩阵 $\Sigma$ 来捕捉。一个基本性质是，任何有效的协方差矩阵都必须是半正定的。为什么？任何随机变量的线性组合 $c^{\top}X$ 的方差由 $c^{\top}\Sigma c$ 给出。由于方差永远不能为负，对于任何向量 $c$ ，我们必须有 $c^{\top}\Sigma c \ge 0$ 。这正是半正定矩阵的定义。它确保了我们对统计离散度的数学描述在物理上和逻辑上都是一致的。

这种联系带来了深刻的见解。假设我们有几个数据集，并从每个数据集中计算出样本协方差矩阵 $\mathbf{S}_k$ 。一种自然的组合方式是计算平均或“合并”的协方差矩阵 $\mathbf{S}_{\text{pooled}} = \frac{1}{K} \sum_{k=1}^{K} \mathbf{S}_k$ 。函数 $f(\mathbf{S}) = \ln(\det(\mathbf{S}))$ 是与矩阵 $\mathbf{S}$ 相关联的不确定性椭球“体积”的一种度量，并与熵的概念密切相关。这个函数在正定矩阵空间上是严格凹的。Jensen 不等式对于凹函数告诉我们一个优美的结论：平均矩阵的对数行列式大于对数行列式的平均值。简单来说，先平均数据再计算不确定性体积，所得到的体积要小于先计算各个体积再取（对数尺度上的）平均值。这为“合并数据可以减少总体不确定性”这一普遍认知提供了精确的信息论依据。

从抽象到具体：工程与计算

最后，让我们看看正定性是如何支撑工程和计算领域中一些最实用的工具的。

在数字信号处理中，滤波器将输入信号 $x$ 转换为输出信号 $y$ 。输出信号的总能量 $V(x) = \sum y_k^2$ 可被看作是输入的二次函数。为了使这个能量成为一个有用的度量——例如，为了确保任何非零输入信号都会产生非零的输出能量——函数 $V(x)$ 必须是正定的。你可能期望这个性质依赖于整个滤波器设计，但对于一大类因果滤波器来说，它取决于一个单一、简单的条件：滤波器脉冲响应的第一个元素 $h_0$ 必须非零。这是因为代表滤波器作用的矩阵是三角矩阵，其可逆性（保证非零输入产生非零输出）仅取决于其对角线元素，而这些元素全都是 $h_0$ 。这是一个具有关键影响的微妙细节。

在数值优化的世界里，我们常常需要在一个高维景观中寻找一个复杂函数的最小值。像 BFGS 这样的强大算法通过在每一步构建景观的局部二次模型来完成这个任务。该模型的曲率由海森矩阵的近似值表示，这个近似值必须保持正定。一个正定的海森矩阵确保了模型（至少在局部）是碗形的，从而保证了下一步的方向确实是朝向最小值的“下坡”方向。为了使这成为可能，一个关键的“曲率条件”必须被满足。这个条件是 $s_k^{\top} y_k > 0$ ，其中 $s_k$ 是所采取的步长， $y_k$ 是梯度的变化量，它实质上是在检查函数在步长方向上是否向上弯曲。如果这个条件不满足，就意味着局部景观在该方向上不是凸的，无法找到正定的近似，迫使算法调整其策略。

对称正定矩阵的深层代数结构使我们在很多方面可以像对待正数一样对待它们。例如，我们可以计算任何正定矩阵 $A$ 的唯一“主”平方根。这通过谱分解的魔力实现：我们将矩阵旋转到一个坐标系中，使其变成一个简单的对角矩阵（对角线上是其正特征值），然后取这些对角元素的平方根，再旋转回来。这远非仅仅是一个数学上的奇趣。矩阵平方根在统计学中是解相关数据（一个称为“白化”的过程）的主力工具，在连续介质力学中用于分析应力和应变张量。

一条统一的线索

从行星的稳定性到图像的分类，从滤波器的设计到不确定性的逻辑，正定性这条线索贯穿其中。它是我们用来描述一个表现良好的能量景观、一个连贯的相似性度量、一个合理的方差模型以及一条通往最优解的可靠路径的语言。这一个优美的思想在如此多领域中的反复出现绝非偶然。它有力地提醒我们，我们的世界受着一种潜在的数学统一性支配，等待着那些足够仔细观察的人去发现。