变分原理

玻尔百科

核心要点

变分原理指出，由任何近似试探波函数计算出的能量总是大于或等于真实的基态能量。
该原理提供了一种强大的策略，通过寻找使计算能量最小化的试探波函数参数来系统地改进近似。
变分方法是一个统一的概念，应用于量子化学、固态物理、工程学和量子计算等不同领域。
并非所有的计算方法都是变分性的；像近似密度泛函理论或耦合簇理论等技术不保证能为真实能量提供一个上界。

引言

在量子力学领域，薛定谔方程掌握着理解原子和分子行为的关键。然而，除了最简单的体系外，精确求解该方程是不可能的，这为预测化学和物理性质造成了重大障碍。变分原理为这个问题提供了一个优雅而强大的解决方案。它提供了一个严谨的框架来寻找最佳的近似解，其断言：对系统状态的任何“猜测”所产生的能量都将等于或高于真实的最低能量。这将寻找精确答案这一不可能的任务，转变为一个可管理的优化问题：找到最接近真实能量“底线”的猜测。本文首先在“原理与机制”一节中探讨该原理的基本概念，解释其工作原理及系统性的实现方法。随后，“应用与跨学科联系”一节将揭示这一思想的深远影响，展示其作为驱动化学、物理、工程甚至纯数学领域计算方法的核心引擎所扮演的角色。

原理与机制

猜测即是全部

自然界以其深邃的优雅，似乎遵循着一种极致“懒惰”的原则。球会滚下山坡以寻找最低点。拉伸的弹簧会释放以恢复到其势能最低的状态。在原子和分子的量子世界里，同样的规则也适用：系统会稳定在其基态，即能量最低的状态。这个世界的规则手册是著名的薛定谔方程， $\hat{H}\Psi = E\Psi$ 。如果我们能为任何给定的原子或分子解出这个方程，我们就能知道关于其化学性质的一切。问题在于，对于任何比氢原子更复杂的体系，这个方程都极其难以精确求解。

那么，我们该怎么办？我们可以放弃。或者，我们可以采纳一个既强大又简单的策略：我们可以猜测。

想象一下，我们不知道真实的基态波函数 $\Psi_0$ ，但我们提出了一个试探波函数，一个我们称之为 $\Psi_{trial}$ 的猜测。我们如何判断这个猜测好不好呢？我们可以计算它的平均能量。在量子力学中，这是通过瑞利商来完成的：

\mathcal{E}[\Psi_{trial}] = \frac{\langle \Psi_{trial} | \hat{H} | \Psi_{trial} \rangle}{\langle \Psi_{trial} | \Psi_{trial} \rangle}

这个表达式取我们的试探函数，用能量算符（哈密顿算符 $\hat{H}$ ）对其进行“探测”，然后给出如果系统处于该状态下我们会测量到的平均能量。现在，奇迹来了，这是现代化学和物理学如此多内容的基石：变分原理。它指出，你用你的猜测计算出的能量 $\mathcal{E}[\Psi_{trial}]$ 总是大于或等于真实的基态能量 $E_0$ 。

\mathcal{E}[\Psi_{trial}] \ge E_0

等式仅在你的猜测是完美的情况下成立——即当 $\Psi_{trial}$ 是真实的基态波函数 $\Psi_0$ 时。这意味着你永远不会在低的一侧“超过”真相。把基态能量想象成一个很深的地下室的地板。变分原理告诉我们，无论我们如何猜测，我们计算出的能量将总是在一楼或其上方的某个楼层；我们永远不会意外地发现自己在一个不存在的次地下室里。

例如，在计算氦原子的基态能量时，真实的实验值约为 $-79.0 \text{ eV}$ 。一个简单的变分计算可能会得出 $-77.5 \text{ eV}$ 的答案。注意， $-77.5$ 大于 $-79.0$ 。我们计算出的能量是真实能量的一个上界，正如该原理所保证的那样。这给了我们一个明确的策略：如果我们能提出一系列的试探波函数，我们的目标就是找到那个使能量最小化的函数。我们能得到的能量越低，我们的近似就越好。

这个魔法为何有效？态的交响曲

为什么这个原理会成立？原因既优美又简单。薛定谔方程的真实解，即本征函数 $\Psi_0, \Psi_1, \Psi_2, \dots$ 及其对应的能量 $E_0, E_1, E_2, \dots$ ，构成了一个完整的“字母表”，可以用来描述系统的任何可能状态。这意味着任何合理的试探函数 $\Psi_{trial}$ 都可以写成由这些真实状态混合而成的“鸡尾酒”：

\Psi_{trial} = c_0 \Psi_0 + c_1 \Psi_1 + c_2 \Psi_2 + \dots

这里，系数 $c_n$ 告诉我们混合物中含有多少真实状态 $\Psi_n$ 。如果我们现在计算这杯“鸡尾酒”的平均能量，可以证明其能量期望值是真实能量的加权平均值：

\mathcal{E}[\Psi_{trial}] = \frac{|c_0|^2 E_0 + |c_1|^2 E_1 + |c_2|^2 E_2 + \dots}{|c_0|^2 + |c_1|^2 + |c_2|^2 + \dots}

根据定义，基态能量 $E_0$ 是所有能量中最低的： $E_0 \le E_1 \le E_2 \le \dots$ 。因此，我们的猜测中任何对激发态的“污染”（任何非零的 $c_1, c_2, \dots$ ）都将不可避免地使平均能量高于 $E_0$ 。将能量降至绝对最小值 $E_0$ 的唯一方法是有一个“纯粹”的猜测，即它恰好是基态 $\Psi_0$ （意味着 $c_0=1$ 且所有其他 $c_n=0$ ）。这就是变分原理的精髓。每一个不完美的猜测都受到高能态的污染，而这种污染总是将其平均能量向上推高。

瑞利-里兹方法：构建更好的猜测

有了这条原理，我们就可以设计出一种强大而系统的方法来找到越来越好的近似解。与其做一个单一的、任意的猜测，我们可以用一个灵活的“配方”来构建我们的试探波函数。这就是线性变分法或瑞利-里兹方法背后的思想。我们选择一组更简单的已知函数 $\phi_1, \phi_2, \dots, \phi_M$ ，称为基组，并将我们的试探函数构建为它们的线性组合：

\Psi_{trial} = \sum_{\mu=1}^{M} c_\mu \phi_\mu

我们的任务不再是猜测一个完整的复杂函数，而仅仅是找到能使能量最小化的最佳“混合系数” $c_\mu$ 。这巧妙地将一个困难的微积分问题转换为了一个线性代数问题，而计算机非常擅长解决后者。这个过程导出了广义本征值问题：

\mathbf{H}\mathbf{c} = E\mathbf{S}\mathbf{c}

在这里， $\mathbf{H}$ 是哈密顿矩阵，包含我们基函数之间的能量相互作用； $\mathbf{S}$ 是重叠矩阵，它解释了我们选择的基函数可能彼此不正交的事实。解这个方程得到的最低能量 $E$ 就是我们对基态能量的最佳变分估计。

这个方法有一个非常鼓舞人心的特性：当我们通过增加更多“配料”（即把基组从 $M$ 个函数扩大到 $M+1$ 个）来改进我们的配方时，我们能计算出的最低能量保证会变得更好（更低）或保持不变。它永远不会变得更差。这种单调收敛的性质为我们提供了一条通往精确答案的清晰路径：不断向基组中添加相关的函数，变分能量就会稳步下降，越来越接近真实的基态能量，但绝不会越过它。

一个强大的诊断工具：变分速度极限

变分能量是一个严格的上界，这一事实不仅仅是一个理论上的精妙之处；它还是一个强大的诊断工具。想象一下，一个学生编写了一个计算机程序来计算氦原子的基态能量。公认的实验值（对于非相对论问题）是 $-2.9037$ 哈特里。该学生的程序输出了 $-2.9050$ 哈特里。这是一个非常接近真实答案的绝佳结果吗？

不！这是一个灾难性的失败。计算出的能量比真实能量更低，这是变分原理所禁止的。这就像建造了一台永动机，或者声称自己比光速还快。它所预示的不是一个小小的不准确性，而是计算中的一个根本性错误——代码中的一个bug、数学上的一个失误，或者对矩阵的处理不当。变分原理就像我们计算中一个不可侵犯的“速度极限”，任何打破它的结果都会立即使之无效。

同样的逻辑在量子化学中也具有深远的影响。例如，作为该领域基石的哈特里-福克方法本身就是一种变分计算，其中试探波函数被限制为单个斯莱特行列式。得到的哈特里-福克能量 $E_{HF}$ 是在此约束下的最佳可能能量。由于它仍然是对真实波函数的近似，变分原理保证了 $E_{HF} \ge E_{exact}$ 。因此，其差值，即所谓的相关能（ $E_{corr} = E_{exact} - E_{HF}$ ），必须总是负数或零。它代表了如果允许电子以比单个行列式所允许的更复杂的方式关联其运动所能实现的能量降低。

超越基础：细微差别与新前沿

一个激进的新思想：改变密度

几十年来，变分原理的核心在于猜测波函数。但是对于一个有 $N$ 个电子的分子来说，波函数是一个极其复杂的对象，依赖于 $3N$ 个空间坐标。对于一个简单的苯分子（ $N=42$ ），那是一个126维的函数！

在20世纪60年代，霍亨伯格-科恩定理引发了一场革命，证明了一种新型变分原理的存在。他们表明，基态能量是更为简单的电子密度 $n(\mathbf{r})$ 的唯一泛函——无论系统中有多少电子，这个函数都只依赖于3个空间坐标。这就是密度泛函理论（DFT）的基础。

现在的游戏规则是猜测一个试探密度 $n(\mathbf{r})$ 并最小化一个能量泛函 $E[n(\mathbf{r})]$ 。问题在于，尽管这个泛函的精确形式被证明是存在的，但我们并不知道它是什么。实际的DFT计算必须使用近似泛函。一个至关重要的后果是，这些近似破坏了严格的变分保证。用一个常见的近似DFT泛函计算出的能量不保证是上界，并且可能低于真实能量。这就是DFT的巨大权衡：以牺牲严格上界为代价，换来计算上的巨大简化。

当原理失效时：非变分方法与变分坍缩

变分保证是如此强大，以至于了解它在何时不适用就显得很重要。量子化学中许多先进且高度精确的方法，如莫勒-普莱塞特微扰理论（MP2）或“黄金标准”耦合簇理论（CCSD(T)），都是非变分的。它们的能量是通过一种不同的、投影的程序计算出来的，而不是作为试探波函数的直接期望值。因此，它们的能量不是上界，有时可能低于真实能量。这意味着，如果一个CCSD(T)计算预测几何构型A的能量低于几何构型B，这很可能是对的，但这并非一个严格的数学证明。

最后，变分原理本身依赖于一个关键假设：哈密顿算符的能谱是有下界的——即能量阶梯上存在最低的一级。对于非相对论问题，这是成立的。但当我们转向爱因斯坦的相对论时，狄拉克-库仑哈密顿算符就登场了。这个算符既有正能量态（电子），也有一个无底的负能量态连续谱（即与正电子相关的“狄拉克海”）。

如果你天真地在这里应用变分原理，灾难就会发生。你的试探函数会通过混入这些负能量态来不断地自我改进，导致计算出的能量向 $-\infty$ 暴跌。这种壮观的失败被称为变分坍缩。这是一个绝佳的例证，说明我们必须始终尊重物理原理背后的假设。当然，物理学家已经找到了巧妙的解决方法，比如使用动能平衡或投影算符等技术来“指导”变分计算去寻找最低的正能量态，从而避免坠入狄拉克海。

从一个关于猜测的简单规则，到发展新理论的指南，再到计算错误的诊断工具，变分原理是一条充满深刻洞见的线索，将量子理论与实际计算编织成一幅极具实用性与美感的织锦。

应用与跨学科联系

在上一节中，我们接触到了一个非凡的论断：变分原理。它为我们提供了一个量子体系能量的“底线”。我们对波函数所做的任何猜测，无论多么离奇，其产生的平均能量总是会高于或等于真实的基态能量。这似乎只是一个奇特的性质，一个巧妙的数学界限。但其真正的意义不在于限制，而在于指引。它是一个永远指向“下坡”方向，朝向真实基态能量的罗盘。

其含义是惊人的：如果我们无法找到一个问题的精确解，我们可以创造出一整套“试探”解——一个简化的、可控的现实模型——然后利用变分原理在这个简化模型中找到可能最好的版本。它将在一望无际的草堆中寻找一根针的不可能任务，转变为在我们自己设计的山谷中寻找最低点的可管理任务。这个简单的思想不仅仅是量子力学中的一个注脚；它是科学界一些最强大计算方法背后的引擎，是一条连接化学、工程甚至纯数学的金色丝线。

现代化学的核心：塑造电子云

变分原理的建设性力量在量子化学中表现得最为明显。一个拥有许多电子的原子是一团相互排斥的粒子风暴，它们都束缚在一个原子核上，并都受制于奇特的量子力学定律。对于比氢原子更复杂的任何体系，精确求解薛定谔方程都是不可能的。所以，我们猜测。

第一个绝妙的猜测是哈特里方法。让我们简化现实，假设总波函数只是单个电子波函数的简单乘积。这是我们受约束的试探解族。然后，变分原理为我们提供了一种方法来寻找这种形式的最佳近似。它引出一个优美的迭代过程：我们计算由所有其他电子产生的平均电场来找到电子1的轨道，然后用这个新轨道来更新电子2的场，依此类推，直到整个系统稳定在一个“自洽”的最低能量状态。

但这个猜测有一个缺陷：电子是费米子，泡利不相容原理规定它们必须是“反社会”的。任何两个电子都不能占据相同的量子态。我们可以通过使用一个不同的数学对象——斯莱特行列式，而不是简单的乘积，来将这一基本真理构建到我们的猜测中。这就是哈特里-福克（HF）方法的精髓。我们的试探波函数现在被限制在单个斯莱特行列式的集合中，然后应用变分原理来找到那个使能量最小化的行列式，同时要遵循一个至关重要的约束，即用于构建它的轨道必须保持标准正交。这个方法非常有效，以至于几十年来它一直是计算化学的基础主力。

然而，对于许多分子来说，即使是单个行列式也不足以成为一个好的猜测。对于这些棘手的情况，我们可以通过诸如多组态自洽场（MCSCF）之类的方法再上一个复杂性的台阶。在这里，试探波函数是几个行列式的线性组合。变分原理现在被赋予了更艰巨的任务：它必须同时优化构成行列式的轨道的形状，以及决定它们在最终波函数中如何混合的系数。我们看到了一个优美的近似层次结构：从简单的乘积到单个行列式，再到多个行列式的组合。在每一步，我们都扩展了我们“猜测”的变分空间，而原理则以更精确、能量更低的现实描述来回报我们。

这并不意味着我们可以粗心大意。变分原理带有一个至关重要的附加条款。它只保证在我们的新的、改进的猜测集合真正包含旧集合的情况下才能得到更好的结果。在计算化学的现实世界中，科学家使用预先打包的“基组”来构建他们的轨道。人们可能认为，一个更复杂的基组，如 6-31G，会在变分上保证比一个更简单的基组，如 3-21G，给出更好的答案。但这并不总是正确的，因为这两个集合所张成的数学空间不一定是嵌套的。一个不是另一个的子集。因此，变分保证不适用，这对任何从业者来说都是一个微妙但至关重要的教训。

超越分子：从固体断裂到量子计算机

认为这只是化学家的工具，那就只见树木不见森林了。变分原理是一种普适策略。让我们彻底转换领域，从电子的量子世界转向宏观的材料世界。裂纹是如何决定它在固体中走哪条路的？

我们可以尝试规定一条路径，但这很笨拙。相反，断裂力学的相场法将问题变分地公式化。我们为整个系统写下一个单一的数字：总能量，它是储存的弹性能量和创建新裂纹表面所需能量的总和。然后，我们要求系统找到使这个总能量最小化的状态——即材料变形和裂纹模式的组合。裂纹那复杂、分叉且看似混乱的路径，作为这个最小化问题的解而自然地出现。你不用告诉裂纹该去哪里。你只需告诉系统去寻找它的最低能量状态，裂纹路径便作为自然界阻力最小的路径被揭示出来。这不仅仅是寻找一个基态；它是一个物理系统演化的原理。

让我们回到量子领域，但这次是在固体内部。在凝聚态物理学中，我们面对的是拥有数万亿个相互作用粒子的系统。即使是哈特里-福克的猜测也是徒劳的。但对于某些系统，比如一维量子磁体，我们对基态波函数的结构有一个很好的概念。它可以用一种称为矩阵乘积态（MPS）的巧妙构造来表示，这是一种张量网络。著名的密度矩阵重整化群（DMRG）算法，在其现代形式中，是一种出色的变分方法，它在这个受限的拟设内工作。把MPS想象成一长串相互连接的乐高积木。DMRG是一位大师级的建造者，它沿着链条来回扫描，迭代地优化每一块积木，以找到最能降低整个结构总能量的那一块。再一次，策略是对解的形式做出有根据的猜测，然后让变分原理找到最好的那一个。

这个原理不仅仅是20世纪物理学的遗物；它正处于21世纪的最前沿。变分量子本征求解器（VQE）是当今嘈杂、中等规模量子计算机的旗舰算法。它是两种处理器之间美妙的合作。量子计算机凭借其对纠缠的天然掌控力，做它最擅长的事情：制备一个复杂的、参数化的量子态——我们的试探波函数。然后，经典计算机做它最擅长的事情：它测量那个态的能量，并使用优化算法来找出如何“转动”量子参数的“旋钮”，以便在下一次运行中获得更低的能量。这种对话一直持续到找到一个最小值为止。这种变分方法非常灵活，甚至可以扩展到寻找激发态。我们只需在成本函数中增加一个惩罚项，惩罚那些不相互正交的试探态，这是量子物理学和经典优化理论的美妙结合。

工程师的工具箱与数学家的瑰宝

变分原理不仅是科学家发现基本定律的工具；它也是工程师和应用数学家工具箱中不可或缺的一部分。设计雷达系统或手机天线涉及到求解电磁散射的麦克斯韦方程组。这些经典场方程可以被重构为一个变分问题，这构成了强大的有限元法（FEM）的基础。这种联系不仅仅是形式上的；变分表述的数学性质具有直接的、实际的后果。例如，变分问题的结构决定了计算机代码的数值稳定性和效率，从而决定了当工程师细化仿真网格时，求解时间如何变化。

变分框架也是设计巧妙数值算法的沃土。假设你想解一个微分方程，但解必须在你的域的边界上具有特定的值。直接强制执行这一点可能很麻烦。罚函数法提供了一个优雅的替代方案。你只需在你的能量泛函中增加一个项，来惩罚任何偏离所需边界条件的行为。例如，你可以添加一个像 $\frac{\gamma}{2}\int_{\partial\Omega}(u-g)^2 dS$ 这样的项，其中 $(u-g)$ 是边界上的误差，而 $\gamma$ 是一个大的惩罚因子。现在，当你要求变分原理最小化总能量时，它将被迫找到一个在边界上 $u$ 非常接近 $g$ 的解，以免招致巨大的能量惩罚。这是一个非常实用的技巧，将一个硬约束变成了一个最小化过程会积极遵循的软建议。

最后，我们来到了该原理最抽象，或许也是最美丽的化身：在纯数学的核心。在微分几何中，我们问：在弯曲的流形上，两点之间“最直”的路径是什么？答案是测地线。而测地线是如何定义的？它是一条作为能量泛函临界点的路径。在我们的球形地球上，纽约和东京之间的最短距离是一条大圆航线，因为那条路径是一条测地线。变分原理正是在弯曲宇宙中定义“直”的含义的工具。

这种联系非常深刻。变分法中的“直接法”，我们用它来证明极小化子存在，只有在基础空间具有一种称为完备性的性质时才有效。如果一个空间没有“洞”或“缺失的点”，那么它就是完备的。这个性质确保了一系列能量越来越接近最小值的路径序列，实际上会收敛到空间内的一条极限路径，而不是“从边缘掉下去”。在像球面这样的紧致流形上，完备性是有保证的，变分方法成功地证明了闭合测地线的存在。那个指导原子中电子的原理，也同样雕刻出空间的基本几何形状。

从计算化学和工程的实际应用，到量子计算的前沿和几何学的崇高之美，变分陈述不仅仅是一个定理；它是一种世界观。它告诉我们，通过为一个系统定义一种“能量”或“成本”，我们常常可以通过假设它会寻求最小值来理解它的状态和预测它的演化。这是自然界的宏大优化方案，通过理解它，我们获得了我们理解宇宙最强大、最统一的工具之一。