变分法：寻找“最优”的数学

玻尔百科

核心要点

变分法是数学的一个领域，它旨在寻找一个能使给定数量（称为泛函）取极值的最优函数或路径。
欧拉-拉格朗日方程是变分法的核心工具，它给出了任何最优函数都必须满足的必要条件。
使泛函取极值的原理，如最小作用量原理，是一个统一的概念，适用于物理学、经济学和计算机视觉等不同领域。
现代分析通过直接法提供了严谨的理论基础，该方法确立了保证最优解存在的条件。

引言

哪条下山的路最快？肥皂泡为何会形成完美的球体？这些问题并非要寻找一个单一的最优值，而是要寻找一条完整的最优路径或形状。这就是变分法的领域，它是经典微积分的强大扩展，旨在解决未知量本身就是函数的最优化问题。它应对的挑战是从无限的可能性中选择“最优”的选项。本文将分两部分深入探讨这个迷人的领域。第一章“原理与机制”将揭示其核心机制：我们将探讨什么是泛函，微小的“扰动”如何引出强大的欧拉-拉格朗日方程，以及这个框架如何优雅地处理边界甚至尖锐的角点。第二章“应用与跨学科联系”将展示这些思想令人惊叹的应用范围，说明那些指导光线、塑造星系的相同原理，也为经济政策提供了信息，并使计算机视觉成为可能。我们将从探索使这一切成为可能的基本概念开始。

原理与机制

想象一下，你正站在山顶，俯瞰着山谷，想要滑雪到对面的一个点。你应该选择哪条路径才能最快到达？这不是一个关于某个时间点的问题，而是关乎整个旅程。你可以走直线，这是最短的距离，但可能无法获得足够的速度。你可以俯冲到山谷深处以提高速度，但路径会变长。问题是，在所有你能选择的无限多条可能路径中，哪一条是最优的？

这正是变分法诞生之初要回答的那类问题。它是我们熟悉的求最大值和最小值的微积分的推广。但我们不再是寻找使函数 $f(x)$ 最小化的点，而是试图找到函数 $y(x)$ 本身——即一整条路径或形状——来使某个量最小化。

泛函：“最优”的裁判

要着手解决这个问题，我们首先需要一种方法，为每条可能的路径赋予一个数字，一个告诉我们这条路径有多“好”的分数。这个评分机制被称为泛函。泛函是一种超级函数：你给它输入一个完整的函数，它会输出一个实数。对于我们的滑雪问题，泛函会接受一条路径 $y(x)$ 并输出总的旅行时间。对于肥皂泡，泛函会接受泡泡表面的形状并输出其总表面积。

我们称我们的泛函为 $J[y]$ 。使用方括号的记法是一个传统，用以提醒我们其输入 $y$ 是一个函数，而不仅仅是一个数字。然而，输出 $J[y]$ 只是一个数字。这是至关重要的一点。因为输出是一个标量（一个实数），我们可以比较不同路径的值。如果 $J[y_1] \lt J[y_2]$ ，我们就可以说路径 $y_1$ 比路径 $y_2$ “更好”。这种对不同函数进行排序的能力是所有最优化问题的基础。

这似乎显而易见，但却是一个特殊的性质。物理学中的许多问题是由算子描述的，算子是接受一个函数并输出另一个函数的机器。例如，接受一个函数 $u$ 并返回其拉普拉斯算子 $-\Delta u$ 的算子，将一个函数空间映射到其自身。我们不能简单地要求“最小化”这样一个算子的输出，因为输出是另一个完整的函数（一个无限维空间中的向量），而不是一个可以排序的单一数字。为了理解这类问题，人们通常需要将输出投影回标量——例如，通过与另一个函数做内积。但对于一个直接映射到实数的泛函来说，最小值或最大值的概念就非常自然了。

万能钥匙：如何通过“扰动”找到答案

那么，我们如何找到使 $J[y]$ 最小化的函数 $y_0(x)$ 呢？我们不可能测试所有可能的函数，因为它们有无穷多个！变分法的精妙之处在于一个简单而强大的思想。想象你已经找到了最优路径 $y_0(x)$ 。现在，我们对其施加一个微小的“扰动”。我们创建一个新路径 $y(x) = y_0(x) + \epsilon \eta(x)$ 。这里， $\eta(x)$ 是任何在固定端点（如果有的话）处为零的良好“扰动函数”，而 $\epsilon$ 是一个控制扰动大小的非常小的数。

如果 $y_0(x)$ 确实是最优路径，那么任何对它的微小偏离，最多只会引起 $J$ 的二阶增量。在一阶上，值应该没有变化。这和求普通函数 $f(x)$ 的最小值完全一样：在最小值点 $x_0$ 处，斜率为零，所以向 $x_0 + \epsilon$ 移动一小步，值的变化量只与 $\epsilon^2$ 成正比。

因此， $y_0$ 成为极值的条件是， $J$ 关于我们的扰动参数 $\epsilon$ 的变化率在 $\epsilon$ 为零时必须为零。用数学语言表达就是：

\left. \frac{d}{d\epsilon} J[y_0(x) + \epsilon \eta(x)] \right|_{\epsilon=0} = 0

这个量被称为一阶变分，令其为零便是我们的万能钥匙。

让我们来看一个典型的依赖于路径 $y(x)$ 及其斜率 $y'(x)$ 的泛函的例子：

J[y] = \int_{a}^{b} L(x, y(x), y'(x)) \, dx

函数 $L$ 被称为拉格朗日量。它包含了问题的物理内涵。按照我们的步骤：

将 $y_0 + \epsilon \eta$ 代入 $J$ 。
对 $\epsilon$ 求导。使用链式法则，我们得到类似 $\int (\frac{\partial L}{\partial y} \eta + \frac{\partial L}{\partial y'} \eta') dx$ 的表达式。
令 $\epsilon=0$ 。
秘密武器：对含有 $\eta'$ 的项使用分部积分。这个技巧将导数从未知的扰动函数 $\eta$ 转移到（我们希望）更光滑的量 $\frac{\partial L}{\partial y'}$ 上。

\int_{a}^{b} \frac{\partial L}{\partial y'} \eta' \, dx = \left[ \frac{\partial L}{\partial y'} \eta \right]_{a}^{b} - \int_{a}^{b} \frac{d}{dx}\left(\frac{\partial L}{\partial y'}\right) \eta \, dx

如果端点是固定的，那么我们的扰动函数 $\eta(x)$ 在 $a$ 和 $b$ 处都必须为零，所以边界项消失了！我们剩下：

\int_{a}^{b} \left( \frac{\partial L}{\partial y} - \frac{d}{dx}\left(\frac{\partial L}{\partial y'}\right) \right) \eta(x) \, dx = 0

最后的神奇之处就在这里。这个方程必须对任何选择的扰动函数 $\eta(x)$ 都成立。要使 (某个东西) * (任意函数) 的积分对所有任意函数都为零，唯一的办法就是那个 (某个东西) 本身处处为零。这就是变分法基本引理。它引导我们得到著名的欧拉-拉格朗日方程：

\frac{\partial L}{\partial y} - \frac{d}{dx}\left(\frac{\partial L}{\partial y'}\right) = 0

这个微分方程包含了最优路径的必要条件。解出它，我们就能得到最小值的候选函数。它相当于泛函世界中的 $f'(x)=0$ 。

边界之美与角点之奇

分部积分的巧妙运用不仅揭示了主方程，还告诉了我们边界上必须发生什么。

固定边界：正如我们所见，如果一条路径必须从 $y(a)=y_A$ 开始并结束于 $y(b)=y_B$ ，我们的变分 $\eta(x)$ 在端点处必须为零。边界项 [\dots]\eta(x)|_a^b 会自动消失。问题本身告诉了我们边界上的答案，所以变分原理对此没有更多可说的。
自然边界条件：如果一个端点是自由的呢？例如，我们想找到从一个点到一条垂直线的最速降线路径。终点可以在该线上的任何位置。在这种情况下，自由端点处的变分 $\eta(b)$ 不为零，它是任意的。要使一阶变分为零，整个项 $\left[ \frac{\partial L}{\partial y'} \eta \right]_{a}^{b}$ 仍然必须消失。因为 $\eta(b)$ 可以是任何值，所以它的系数必须为零。这给了我们一个解必须自身满足的新条件，一个自然边界条件： $\frac{\partial L}{\partial y'}\big|_{x=b} = 0$ 。变分原理不仅找到了路径，还发现了自由边界上正确的条件！这是逻辑自洽的优美体现。
角点：世界并非总是光滑的。如果最优路径不是一条光滑曲线，而是有一个“角点”，导数 $\dot{x}$ 在此突然跳跃，该怎么办？想象一下光线进入水时发生折射。令人难以置信的是，变分法也能处理这种情况。通过考虑角点周围的变分，可以推导出魏尔斯特拉斯-埃德曼角点条件。这些条件指出，有两个特定的量在穿过角点时必须是连续的：“正则动量” $\lambda = \frac{\partial L}{\partial \dot{x}}$ 和“哈密顿量” $H = \lambda^T \dot{x} - L$ 。这确保了即使速度突变，这些基本量在跳跃前后仍然守恒，这是一个在最优控制和力学中出现的深刻原理。

一曲应用的交响乐

欧拉-拉格朗日方程是一个威力惊人且通用性极强的工具。只需代入不同的拉格朗日量 $L$ ，完全相同的数学机制就能解决大量不同的问题。

极小曲面：拉伸在金属丝环上的肥皂膜是什么形状？由于表面张力，它会使其表面积最小化。由高度函数 $u(x,y)$ 给出的曲面的面积泛函为 $\mathcal{A}(u) = \int \sqrt{1 + |\nabla u|^2} \, dx dy$ 。这个拉格朗日量的欧拉-拉格朗日方程变成了极小曲面方程， $\operatorname{div}\left( \frac{\nabla u}{\sqrt{1+|\nabla u|^2}} \right) = 0$ 。这个方程本身就讲述了一个物理故事：投影梯度场的散度为零，意味着在膜的内部没有表面张力的“源”或“汇”。
弹性梁：一根在两点固定的细柔尺（弹性杆）的形状是什么？它会试图最小化其弯曲能。一个很好的能量模型是 $J[y] = \int \frac{1}{2} (y''(x))^2 dx$ ，这是一个依赖于二阶导数的泛函。通过两次分部积分，我们可以推导出相应的欧拉-泊松方程，在这种情况下它就是简单的 $y''''(x) = 0$ 。这告诉我们，最优形状必须是一个三次多项式。
现代物理学：从经典场论到量子力学，变分原理都处于现代物理学的核心。对于一个物理场 $\phi(x)$ ，其作用量通常由一个形式为 $J[\phi] = \int \left( \frac{1}{2} |\nabla \phi|^2 + V(\phi) \right) dx$ 的泛函给出，其中第一项是动能（与场在空间中的变化有关），第二项是势能。该泛函的欧拉-拉格朗日方程是 $-\Delta \phi + V'(\phi) = 0$ 。这个单一的方程形式描述了从物体中的热量分布到基本粒子的行为等各种各样的现象。当我们解这些方程时，我们本质上是在寻找使“作用量取极值”的场构型——这是一个被称为最小作用量原理的深刻论断。

现代观点：“最优”解是否总存在？

到目前为止，我们都基于一个信念的飞跃。我们假设存在一个最优的路径或形状，然后推导出它必须具备的性质。但最小化子总是存在吗？我们能确定我们对“最优”的追求不是一场徒劳的追逐吗？

这个问题将我们引向变分法中的直接法，这是一个强大的理论框架，它提供了一个保证解存在性的“安全网”。其核心思想是，一个逐渐“变好”的函数序列（一个极小化序列）必须最终收敛到一个极限函数，而这个极限函数本身就是真正的最小化子。要做到这一点，我们需要几个关键要素：

矫顽性：对于变得过于“狂野”或“巨大”的函数，泛函必须“爆炸”（ $J[y] \to \infty$ ）。这确保我们的极小化序列不会“跑到无穷远处”，它必须停留在一个有界集合内。
弱下半连续性：这是一个技术性但至关重要的性质。它保证如果一个函数序列 $u_k$ 收敛到一个极限 $u$ （在适当的意义下），极限的能量不会突然高于能量的极限： $J(u) \le \liminf J(u_k)$ 。这防止了我们序列无限接近最小值，但极限函数本身却“跳升”而未能成为最小化子的令人心碎的情景。
自反性与闭性：这些是我们搜索的函数空间的基本性质，确保我们总能从有界的极小化序列中提取一个收敛的子序列，并且极限仍在我们允许的函数集合内。

当这些条件都满足时，存在性就得到了保证。可以表示为最小化二次泛函 $J(v) = \frac{1}{2}B(v,v) - L(v)$ 的问题，通常完美地满足这些条件，从而在求解线性偏微分方程和寻找一个“能量”泛函的最小值之间建立了深刻的联系。这种联系是像有限元法这样强大的数值技术的理论基础。

但自然界有其微妙之处。有时，直接法的条件不满足，存在性会以引人注目的方式失效。对于某些涉及“临界”指数的问题，一个极小化序列可以通过将其所有能量集中到一个无限小的点来避免收敛到一个真正的最小化子，就像一个泡泡在总曲率保持不变的情况下收缩至虚无。序列“弱”收敛到零，但约束在极限中没有被满足。这些是现代分析的前沿领域，在这里，变分法的美妙机制与关于函数空间几何的深刻问题相遇。寻找“最优”的探索仍在继续，并在此过程中揭示出越来越复杂和优雅的数学结构。

应用与跨学科联系

在上一章中，我们摆弄了变分法的各种工具。我们学会了如何提出一类特定的问题：“在所有可能的路径或形状中，哪一个是‘最优’的？”——这里的“最优”可能意味着最快、最短、最便宜或最稳定。我们找到了一个非凡的工具——欧拉-拉格朗日方程，它接受我们对“最优”的定义——即泛函——并为我们指出解决方案。

现在，我们准备离开工作室，看看这台机器在实际应用中能做些什么。你可能已经正确地猜到，它是为解决物理问题而生的，而我们的旅程也将从那里开始。但令人惊奇的是，真正揭示科学思想深邃统一性的，是这段旅程将带我们去往何方。我们将看到，那指导一道光线的相同原理，也塑造了经济政策，帮助计算机看见事物，并描述了稀有事件最可能发生的方式。似乎宇宙，以及我们在其中建立的世界，都对最优化有着根深蒂固的热爱。

物理学的宏大舞台：光、作用量与能量

物理学是变分原理的摇篮。它始于对光的一个简单而深刻的观察。伟大的 Pierre de Fermat 提出，光在两点之间传播时，不一定走最短的路径，而是走最快的路径。这就是费马最短时间原理。如果光速恒定，最快的路径确实是最短的——一条直线。但如果介质改变，比如光从空气进入水，它就会弯曲。为什么？因为通过弯曲，它可以在更快的介质中花费更多时间，在更慢的介质中花费更少时间，从而缩短总旅行时间。光总是很匆忙！

这个原理带来了美妙的推论。如果我们想象一束光被限制在球面上行进，它的最短时间路径是什么？变分法告诉我们，那是一段大圆弧——球面上的直线等价物，飞行员们早就知道这是两个城市之间最短的航线。这种极值长度路径，即*测地线*，正是 Einstein 广义相对论的核心思想，它将引力描述为物体在弯曲时空中简单地遵循其“最直可能”路径的结果，而非一种力。

这个概念被推广为科学史上最强大的思想之一：最小作用量原理。该原理指出，对于任何物理系统，它从一个起点到一个终点在其位形空间中所走的实际路径，是使一个称为“作用量”的量保持平稳（通常是最小值）的路径。从某种意义上说，宇宙是极其经济的。

虽然这适用于行星和星系的宏伟舞蹈，但它也适用于更接地气、更实际的问题。想象一下，你需要在固定的时间内，将一个小探测器在粘稠的流体中移动固定的距离。流体施加了阻力，你必须施加推力来克服它，这会消耗能量。为了最小化你花费的总能量，你应该先快后慢，还是逐渐加速？变分法给出了一个清晰且或许令人惊讶的答案：最好的方式是以完全恒定的速度行进。任何偏离，任何加速或减速，都会浪费能量。最高效的路径是最平滑的路径。

自然的蓝图：从肥皂泡到河流

自然似乎是一位无可挑剔的工程师，它经常使用变分原理来绘制蓝图。看看一个肥皂泡。为什么它是球形的？因为对于给定的空气体积，球体是表面积最小的形状。肥皂膜的表面张力向内拉，而球形正是最小化储存在该张力中势能的构型。

这是一个经典的*等周问题*：寻找一个在保持另一量固定的同时，使某个量最大化或最小化的形状。一个二维版本是寻找一条固定长度的曲线，与一条直线一起，能围成最大可能的面积。你可能会猜到答案是圆弧，而你是对的。自然的解决方案往往是最优雅的。

这种“尽力而为”的原则也适用于远非静态的系统。考虑流体（如水）在管道中的稳定流动。在19世纪，Jean Léonard Marie Poiseuille 发现，对于缓慢的层流，流体的速度不是均匀的。它在中心最快，在管壁处为零，形成一个优美的抛物线剖面。这个剖面可以从流体动力学的基本方程推导出来，但变分法提供了更深刻的见解。如果你假设流动会自我组织以最小化粘性摩擦所耗散的总能量率，同时保持恒定的流率，那么欧拉-拉格朗日方程返回的恰好就是抛物线形的泊肃叶流速剖面。流动采用了它能达到的最节能的结构。

同样的逻辑也适用于两种不相混合的材料（如油和水）之间的界面。在平衡状态下，系统会寻求其最低的自由能状态。对于两相系统，这涉及到一种权衡。每种材料的主体都希望保持纯净，但创建一个清晰的界面会消耗能量。将变分法应用于 Cahn-Hilliard 自由能泛函，结果表明界面不会是无限薄的。相反，会有一个从一相到另一相的平滑、连续的浓度过渡剖面，其形状同样最小化了系统的总能量。

帝国的扩张：经济、视觉与量子控制

看过变分原理如何支配物理世界后，你可能会认为它们的疆域仅限于此。但这种逻辑的力量太强大，不应受到如此的限制。任何存在权衡、需要最小化成本或最大化收益的地方，变分法都能提供见解。

思考一下宏观经济学的核心问题之一：一个社会应如何平衡当前消费与未来投资？如果我们今天消费掉一切，明天就会贫穷。如果我们投资一切，我们今天的生活就会很悲惨，为了一个我们可能看不到的未来。这是一个随时间变化的最优化问题。在 Ramsey-Cass-Koopmans 经济增长模型中，目标是选择一个随时间变化的消费路径，以最大化社会总“效用”或福祉，同时受制于投资（消费后剩下的部分）决定未来资本存量的约束。将此视为一个变分问题，经济学家们推导出了著名的消费欧拉方程，这是一条支配我们应如何在今天消费与明天消费之间进行权衡的基本法则。在这个问题中，拉格朗日乘子有一个优美的解释：它是资本的“影子价格”，即多一单位投资对社会未来幸福的隐含价值。

变分法的影响甚至延伸到了感知领域本身。计算机算法如何获取视频中的两个连续帧并确定物体是如何移动的？这就是“光流”问题。由 Horn 和 Schunck 开创的一种强大方法，是不要试图独立计算每个像素的运动。相反，他们将一个“好”的运动场定义为满足两个条件的场：首先，它应与图像中变化的亮度一致（“数据项”）；其次，它应该是平滑的，相邻像素之间没有剧烈变化（“正则化项”）。然后，通过最小化一个结合了这两个标准的泛函来找到最优运动场。我们向变分法提问：“在仍然能解释数据的情况下，最平滑的可能运动场是什么？”。这就是我们教机器看懂运动的方式。

更值得注意的是，这些工具对于构建未来的技术至关重要。在量子计算机中，计算是通过使用精确成形的激光或微波脉冲，小心翼翼地引导量子比特（或“qubit”）的状态来执行的。但这些量子比特很脆弱，容易受到噪声的干扰。你如何设计一个脉冲，既能稳健地执行所需的操作，使其免受错误影响，同时又使用最少的能量？这是一个最优控制问题，是变分法的一个现代分支。你定义一个捕捉成本（例如，总脉冲功率）的泛函，并添加强制执行所需最终状态和对噪声鲁棒性的约束。由此产生的变分问题的解就是驱动你的量子计算的最优脉冲形状。

最深层的统一：从随机性到纯粹形式

我们旅程的最后一站将我们带到最抽象、最深刻的应用领域，在这里，变分原理连接了看似迥异的世界。

想一个随机过程，比如花粉在水中抖动——布朗运动。它的路径是杂乱无章和不可预测的。然而，我们可以问一个“假设”问题。假设我们观察到，在一分钟内，这个花粉粒向右漂移了整整一厘米，这是一个非常罕见的事件。在所有可能导致这一结果的无数条随机路径中，是否存在一条比其他路径“更可能”的路径？大偏差理论给出了一个惊人的答案：是的。稀有事件发生的最可能路径是最小化一个“作用量”泛函的路径，这与经典粒子的最小作用量原理完全类似。在随机性的核心，我们发现了确定性力学的幽灵般的回响。

同样的对“最优”代表的追求也出现在纯粹数学的最高殿堂。在微分几何中，数学家通过研究定义在抽象空间（流形）上的对象（如向量场或微分形式）来研究这些空间。通常，这些形式的一整个族可以被认为是等价的（一个“上同调类”）。在这个族中是否存在一个特殊的成员？霍奇定理回答说：是的，存在一个唯一的“调和形式”。这个特殊的形式是如何定义的呢？它是在整个类中最小化一个能量泛函的那一个。再一次，一个最优化原理被用来从无限的可能性中挑选出最典范、最优雅的对象。

这种最优化与基本数学结构之间的联系是一个反复出现的主题。鼓的共振频率集合，原子中电子的允许能级——这些都是特征值问题的解。然而，瑞利-里兹原理揭示，寻找最低的特征值（基频或基态能量）等价于最小化一个能量泛函。这为在量子力学和工程学中近似求解提供了极其强大的方法：我们不必直接解一个困难的微分方程，而可以仅仅“猜测”一个试验解并调整它，以找到相应泛函的最小值。

从物理到金融，从流体流动到计算机视觉，变分法提供了一种统一的语言。它表明，许多系统（无论是自然的还是人造的）的行为都可以被理解为一个最优化过程。宇宙，似乎不仅仅是事实和定律的集合；它是一个动态的过程，在无数方面，总是在追求“最优”。而借助我们所探索的工具，我们正开始理解这意味着什么。