QZ 算法

玻尔百科

定义

QZ 算法是指一种在线性代数中用于可靠求解广义特征值问题的数值方法，其核心机制是通过广义 Schur 分解将两个矩阵同时转化为上三角形式。该算法避免了矩阵求逆或显式多项式求根等不稳定操作，广泛应用于控制理论、量子化学和工程共振预测等领域。作为一种后向稳定的算法，它能够在有限精度算术中为极其接近原始问题的输入提供精确的特征值结果。

核心要点

QZ 算法通过避免矩阵求逆或显式多项式求根等数值不稳定的操作，可靠地求解广义特征值问题 $Ax = \lambda Bx$ 。
它通过将两个矩阵同时变换为上三角形式（广义舒尔分解），从而可以轻松且稳定地计算出特征值。
作为一种后向稳定的方法，QZ 算法为与原始问题仅有无穷小差异的问题提供了精确的特征值，这是有限精度算术中所能提供的最强保证。
其稳健性使其成为不同领域中的关键工具，例如在控制理论中设计最优控制器、在量子化学中分析分子、以及在工程学中预测结构共振。

引言

在科学和工程的无数领域，从桥梁的振动到分子的能级，我们都会遇到一个基本的数学挑战：广义特征值问题， $Ax = \lambda Bx$ 。这个方程描述了质量和刚度等属性复杂交織的系统。虽然它看起来与它的“表亲”——标准特征值问题——惊人地相似，但其求解过程充满了数值风险。最直观的方法——例如对矩阵求逆或计算多项式的根——可能极其不稳定，会将计算机微小的舍入误差放大成完全没有意义的结果。问题的重要性与简单方法的失效之间的这种差距，催生了对一种更复杂、更稳健、更可靠的工具的需求。

本文将探讨 QZ 算法，这是现代数值线性代数的一块基石，旨在以卓越的稳定性和优雅性解决这一问题。我们将首先探寻其核心思想，揭示它如何巧妙地变换问题，而不是试图强行求解。然后，我们将看到这个强大工具的实际应用，探索其广泛而关键的应用场景。读完本文，您不仅会理解 QZ 算法的工作原理，还会明白为什么它已成为从控制理论到量子化学等多个学科中解锁新知的不可或缺的钥匙。

原理与机制

在我们理解世界的旅程中，我们常常从简化模型开始。例如，在物理学中，我们可以通过假设吉他弦的质量完全均匀来研究其振动。这导出了一个优美的数学结构，即标准特征值问题，写作 $A x = \lambda x$ 。在这里， $A$ 代表系统的物理特性（如刚度和张力）， $x$ 是一种振动模式（即“驻波”），而 $\lambda$ 是其特征频率的平方。但当世界并非如此简单时会怎样？如果我们的吉他弦在不同点附加了重物，或者我们正在分析一个质量和刚度分布复杂的飞机机翼，情况又会如何？

标准模型已不再足够。我们进入了广义特征值问题的领域： $A x = \lambda B x$ 。在这里，我们有两个矩阵。 $A$ 可能仍然代表系统的剛度，但现在 $B$ 也登场了，代表着非均匀的质量分布。问题不再仅仅是找到 $A$ 的特征模式，而是要找到由 $A$ 和 $B$ 之间复杂相互作用产生的模式。这对矩阵 $(A, B)$ 通常被称为矩阵束（matrix pencil），这个名字形象地暗示了通过改变参数 $\lambda$ 绘制出的一系列矩阵 $A - \lambda B$ 。我们的目标是找到使该矩阵奇异的特殊 $\lambda$ 值，即 $\det(A - \lambda B) = 0$ 。这些就是广义特征值，是我们复杂系统的秘密频率。

简化的危险之路

面对一个更复杂的新问题，我们的第一直觉通常是将其简化为我们已知的问题。我们该如何处理 $A x = \lambda B x$ 呢？

一个看似显而易见的途径是将其转化回标准特征值问题。如果矩阵 $B$ 存在逆矩阵 $B^{-1}$ ，我们可以简单地在等式两边乘以它：

B^{-1} A x = \lambda B^{-1} B x \implies (B^{-1} A) x = \lambda x

瞧！我们得到了新矩阵 $C = B^{-1} A$ 的标准特征值问题。问题解决了吗？没那么快。这个看似优雅的操作背后隐藏着一个危险的数值陷阱。问题在于对 $B$ 求逆这一行为。有些矩阵是“表现良好”的，但许多矩阵是病态的（ill-conditioned）。一个病态矩阵就像一个严重损坏的精密仪器；虽然它在有限的意义上可能仍能工作，但任何试图用它进行精细测量的尝试都会产生极其不准确的结果。在数值计算中，对病态矩阵求逆会急剧放大任何微小的既有误差，例如计算机浮点运算中不可避免的舍入误差。矩阵对求逆的敏感性由其条件数 $\kappa(B)$ 来量化。如果 $\kappa(B)$ 很大，计算出的 $B^{-1}$ 可能会被大量误差污染，导致最终的矩阵 $C = B^{-1}A$ 与真实值相去甚远。我们从中得到的特征值可能毫无意义。依赖矩阵求逆就像是把房子建在沙基上。

如果我们尝试另一条路呢？为什么不直接求解定义方程 $\det(A - \lambda B) = 0$ ？这个方程定义了一个关于 $\lambda$ 的多项式。原则上，我们可以计算这个多项式的系数，然后使用标准的求根算法来找到特征值。这听起来也很简单，但同样是一个陷阱。

想象一个系统，其特征值的尺度差异巨大，比如 $\lambda_1 = 1$ 、 $\lambda_2 = 10^{-8}$ 和 $\lambda_3 = 10^{-16}$ 。其特征多项式为 $(\lambda - 1)(\lambda - 10^{-8})(\lambda - 10^{-16})$ 。当我们展开它时，得到的系数是这些值的和。例如，其中一个系数是 $1 + 10^{-8} + 10^{-16}$ 。一台使用标准双精度算术（约保持16位十进制数）的计算机在计算这个和时会得到 $1 + 10^{-8}$ 。来自 $10^{-16}$ 的微小贡献小于数字 1 的精度，因此完全丢失了，仿佛它从未存在过。关于特征值 $10^{-16}$ 的信息在我们开始求根之前就已从多项式系数中被不可逆转地抹去了。我们计算出的多项式并非我们以为的那个，而求根器无论多好，都无法恢复已被丢弃的信息。

QZ 哲学：变换而非破坏

看起来我们陷入了困境。两条最直观的路径都充满了危险。此时，一个更深刻、更优美的思想应运而生：QZ 算法背后的哲学。其核心原则是尊重矩阵 $A$ 和 $B$ 。我们不会试图消去其中一个或将它们抽象成多项式，而是将它们同时、温和地进行变换，直到解变得显而易见。

目标是找到一对特殊的“视角”——由酉矩阵 $Q$ 和 $Z$ 代表——从这些视角看，系统会变得简单得多。酉矩阵是一种非常特殊的变换；它对应于复向量空间中的刚性旋转或反射。它保持长度和角度不变，对我们而言最重要的是，它在数值上是完美的。应用酉变换就像旋转一座雕像以获得更好的视角；你不会以任何方式扭曲或损坏雕像。

QZ 算法旨在寻找酉矩阵 $Q$ 和 $Z$ ，使得当我们变换矩阵束 $(A, B)$ 时，得到一对新的矩阵 $(S, T)$ ：

S = Q^{*} A Z \quad \text{and} \quad T = Q^{*} B Z

其中 $S$ 和 $T$ 都是上三角矩阵。这就是广义舒尔分解（Generalized Schur Decomposition）。为什么这种三角形式如此美妙？因为新矩阵束 $(S, T)$ 的特征值与原始矩阵束 $(A, B)$ 的特征值相同，但现在它们变得极易求解！行列式方程变为 $\det(S - \lambda T) = 0$ 。由于 $S$ 和 $T$ 是上三角矩阵， $S - \lambda T$ 也是，其行列式就是对角线元素的乘积：

\prod_{i=1}^{n} (s_{ii} - \lambda t_{ii}) = 0

解立刻就显而易见了：对于每个对角元素 $i$ ， $\lambda_i = \frac{s_{ii}}{t_{ii}}$ 。所有的复杂性都已被解开。我们只需从变换后矩阵的对角线上读取特征值即可。

算法的运作：一场精心编排之舞

QZ 算法是如何找到这些神奇的矩阵 $Q$ 和 $Z$ 的呢？它不是一蹴而就的，而是一场精心编排的迭代之舞。

首先是一个预备步骤。将完整的算法应用于稠密矩阵是低效的。因此，算法首先将矩阵对 $(A, B)$ 约简为一个结构更清晰的中间形式。它找到正交矩阵 $Q_0$ 和 $Z_0$ ，将 $A$ 变换为上海森堡（upper Hessenberg）矩阵（一种在第一副对角线下方元素为零的矩阵——因此是“几乎”三角的），并将 $B$ 变换为上三角矩阵。这种海森堡-三角形式是主迭代之舞的理想起始位置。

现在，主戏开始：隐式 QZ 迭代。这个过程通常被描述为“追逐凸起”（bulge chasing）。想象一下我们那个近乎三角的海森堡矩阵 $H$ 。迭代开始于在矩阵顶部引入一个微小且精心选择的扰动。这会产生一个“凸起”——一些不该出现的非零元素。然后，从左侧和右侧应用一系列微小、精确的酉旋转。每次旋转都旨在将凸起沿对角线向下推进一步。这个过程像瀑布一样持续进行，凸起被“追逐”着沿矩阵向下移动，直到它从末端掉落，使矩阵比之前更干净、更接近三角形式。海森堡-三角起始形式之所以如此关键，是因为它将这场追逐限制在沿对角线的一个狭窄走廊内，防止变换在矩阵各处产生新的非零元素。这种约束使得算法效率极高，其计算成本按 $O(n^3)$ 的规模增长。

这场舞蹈并非随机；它由位移（shifts）引导。在每一步中，算法都会窺探矩阵的右下角，以获得一个特征值的估计值。这个估计值，即位移，被用来启动追逐凸起的过程，使其能快速收敛到该特征值。对于可能具有复数特征值（总是以共轭对形式出现）的实矩阵，会使用一种更巧妙的策略：Francis 双步位移。它同时使用两个位移来一同追逐一对特征值，这不仅对于聚集的特征值收敛速度快得多，而且还允许整个计算过程保持在实数范围内，这是一个显著的实践优势。

杰作的标志：稳定性、通用性和诚实性

QZ 算法是数值线性代数的基石，不仅因为它有效，更因为它工作得既稳健又优雅。

其最著名的特性是后向稳定性（backward stability）。一个后向稳定的算法就像一位工匠大师。你给工匠一套蓝图（矩阵 $A$ 和 $B$ ），要求制作一张完美的桌子（特征值）。由于工具（浮点运算）的限制，他们制作的桌子可能不是你蓝图中的那张精确的桌子。然而，他们保证，他们所造的桌子是另一套与你原始蓝图仅有无穷小差异的蓝图所对应的完美桌子。QZ 算法为轻微扰动后的问题 $(A+\Delta A, B+\Delta B)$ 提供了精确的特征值，其中扰动 $\Delta A$ 和 $\Delta B$ 保证是微小的。这是在有限精度计算的现实世界中我们所能期望的最强保证。

此外，该算法的框架具有极佳的通用性。如何处理无限特征值？当特征多项式 $\det(A - \lambda B)$ 的次数小于 $n$ 时，就会出现这种情况。QZ 算法能优雅地处理它。一个无限特征值在舒尔形式中简单地表现为一对 $(s_{ii}, t_{ii})$ ，其中 $s_{ii} \neq 0$ 且 $t_{ii} = 0$ ，这是算法一个定义明确的结果。类似地，零特征值则表现为一对 $s_{ii}=0$ 且 $t_{ii} \neq 0$ 的情况。 $s_{ii}/t_{ii}$ 的比值框架无需任何特殊处理即可容纳整个扩展复平面。

最后，这个算法是诚实的。如果问题本身是病态的呢？如果对于所有 $\lambda$ ， $\det(A - \lambda B)$ 都不为零，则矩阵束 $(A, B)$ 称为正则的（regular）。如果一个矩阵束是奇异的（singular），离散特征值的概念就不再成立；复平面上的任何数都可以被视为一个特征值。这是一个病态问题。QZ 算法不会静默失败或产生无意义的结果。它通过收敛到一对对角元素 $(s_{ii}, t_{ii}) = (0, 0)$ 来报告这种病态情况。这对应于不定比值 $0/0$ ，是算法发出的一个明确信号，表明所提出的问题从根本上就是有缺陷的。

从尊重输入矩阵的哲学基础，到其追逐凸起之舞的复杂编排，QZ 算法代表了数值分析领域的一项胜利。它在浮点运算的危险领域中航行，为计算科学中最基本的问题之一提供了稳定、通用且诚实的解决方案。

应用与跨学科联系

在探索了 QZ 算法复杂的内部机制之后，我们可能倾向于将其视为一个优美但深奥的数学钟表。但这样做就只见树木不见森林了。QZ 算法真正的奇妙之处不仅在于其优雅的内部逻辑，更在于它能在广阔的科学和工程领域中解锁深刻见解的非凡能力。它是一把万能钥匙，让我们能够解决一整类乍看之下极其复杂的问题。在本章中，我们将探索这把钥匙适用于何处，揭示该算法作为一条统一的线索，连接着量子化学、最优控制、结构动力学和数值模拟的前沿。

从数值算法的抽象原理到其具体应用的过程，是科学中最激动人心的部分之一。这是理论与现实交汇的地方。QZ 算法作为一个稳健实用的工具，被实现在像 LAPACK 这样的基础库中，它充当了连接数学方程世界与科学家和工程师面临的实际挑战之间的桥梁。

从多项式到矩阵束：线性化的艺术

许多物理系统，特别是那些涉及桥梁或飞机机翼等结构振动的系统，并非天然地由简单的线性矩阵束 $A - \lambda B$ 描述。相反，它们的行为由多项式特征值问题控制，其待解方程形式为 $(A_d \lambda^d + A_{d-1} \lambda^{d-1} + \dots + A_1 \lambda + A_0)x = 0$ 。在这里，系统行为与特征值 $\lambda$ 之间的关系要复杂得多。

人们可能认为这需要一种全新的、更复杂的算法。但在这里，我们看到了我们这个工具应用中的神来之笔。通过一种称为线性化（linearization）的巧妙变换，我们可以将这个规模为 $n \times n$ 、次数为 $d$ 的棘手多项式问题，转换为一个等价的、规模为 $(dn) \times (dn)$ 的线性广义特征值问题。我们构造一个更大的矩阵束 $L(\lambda) = \mathcal{A} - \lambda \mathcal{B}$ ，其有限特征值与原始多项式问题的特征值完全相同。完成这一步后，就可以直接对这个新的、更大的矩阵束应用 QZ 算法，以找到所有 $dn$ 个特征值。

这一操作是物理学和数学中一个常见主题的优美例证：改变视角，让难题变简单。虽然由于矩阵更大，计算成本增加了——通常按 $\mathcal{O}((dn)^3)$ 规模增长——但我们使用一个已有的工具，将一个无法解决的问题转化为了一个可以解决的问题。QZ 算法通过解决线性化问题，驯服了多项式系统的复杂性，使工程师能够分析和预测复杂机械结构的振动模式和不稳定性。

设计未来：最优控制与 Riccati 方程

想象一下，你负责为上升过程中的火箭或自平衡机器人设计控制器。你的目标是利用最少的能量来保持系统稳定并沿着期望的轨迹运行。这就是线性二次调节器（LQR）问题的核心，它是现代控制理论的基石。

这个问题的解决方案在于找到一个满足一个令人生畏的方程的特殊矩阵 $P$ ，这个方程被称为离散时间代数 Riccati 方程（DARE）。该方程是非线性的，且直接求解极其困难。然而，一个优美的理论联系揭示，寻找唯一的稳定化解 $P$ 等价于在一个更高维空间中解决一个线性问题。人们可以从描述系统动力学和成本函数的矩阵中构造一个特殊的 $2n \times 2n$ 矩阵束，称为辛矩阵束（symplectic pencil）。

这正是 QZ 算法作为故事主角登场的地方。这个辛矩阵束的特征值具有一个显著的对称性：如果 $\lambda$ 是一个特征值，那么 $1/\lambda$ 也是。我们寻求的稳定化解完全编码在稳定不变子空间中——即由所有模小于一（ $|\lambda| < 1$ ）的特征值对应的特征向量张成的空间。QZ 算法是完成这项工作的完美工具。它可以用来计算该矩阵束的广义舒尔形式，然后通过一个数值稳定的重排序过程，精确地分离出单位圆内的那些特征值。从这个子空间的基，可以稳健地计算出 DARE 的解 $P$ 。

为什么 QZ 在这里如此重要？替代的迭代方法可能会遇到困难或失败，特别是当系统具有固有地接近稳定边界的模式（特征值模 $|\lambda| \approx 1$ ）时。QZ 方法作为一个直接的、后向稳定的算法，提供了一种迭代求解器在这些挑战性场景中通常无法匹敌的稳健性和准确性。它可靠地区分了稳定与不稳定的世界，为控制工程师提供了设计最优且可信赖控制器所需的精确数学对象。

揭示量子世界：计算化学

让我们将目光从火箭这样的大尺度转向原子和分子这样不可思议的小尺度。计算量子化学的一个核心任务是求解 Roothaan-Hall 方程， $F C = S C E$ ，以确定分子轨道的能量（ $E$ ）和形状（ $C$ ）。你现在可能已经意识到，这正是矩阵对 $(F, S)$ 的一个广義特征值问题。这里， $F$ 是 Fock 矩阵，与电子的能量有关，而 $S$ 是重叠矩阵。

一个严重的实际困难源于用于近似分子轨道的基函数的选择。为了得到准确的答案，化学家们通常使用大型、灵活的基组。但这可能导致一些基函数几乎是其他基函数的线性组合。这种“近线性相关”表现为重叠矩阵 $S$ 变得接近奇异，即病态的（ill-conditioned）。

试图通过简单地计算 $S^{-1}$ 并求解 $S^{-1}F$ 的标准特征问题来解决这个问题将是一场数值灾难。浮点运算中固有的小误差会被极大放大，导致结果毫无意义。QZ 算法为这一困境提供了一个漂亮的解决方案。通过使用稳定的正交变换将矩阵对 $(F, S)$ 约简为海森堡-三角形式，QZ 算法直接处理原始矩阵，完全避免了危险的矩阵求逆。它优雅地处理了 $S$ 中的病态问题，使得化学家们能够使用他们需要的强大基组来精确模拟量子世界。此外，约简后的三角矩阵 $T$ （来自 $S$ ）的结构通过其微小的对角线元素直接暴露了这些近奇异性，为计算的健康状况提供了一个诊断工具。

调谐共振与追踪变化

你是否听过歌手唱到某个特定音高时酒杯碎裂？这就是共振（resonance）。在工程学和物理学中，当系统受到的外部驱动频率与其某个固有内禀频率匹配时，就会发生共振。在数学上，这对应于当驱动频率 $z$ 等于某个广义特征值 $\lambda$ 时，矩阵束 $A - zB$ 变得奇异（或近奇异）。这种近奇异性使得系统的响应变得巨大，并常常导致灾难性故障。

要测试所有可能的驱动频率来找到这些危险的共振，计算成本会非常高昂。在这里，QZ 算法再次提供了一种更优雅的方法。通过计算广义舒尔形式， $A = QSZ^*$ 和 $B = QTZ^*$ ，我们可以在不构造大矩阵 $A-zB$ 的情况下分析系统的响应。寻找 $A-zB$ 离奇异有多近的问题，等价于寻找简单得多的三角矩阵 $S-zT$ 的最小奇异值。这使得工程师能够高效地扫过一系列频率，并创建系统共振行为的“地图”，以高精度和稳定性识别潜在的危险区域。

但如果系统本身在变化呢？例如，随着飞机改变速度和高度，其结构特性会发生变化，其固有频率也会随之改变。我们可能希望追踪一个特征值 $\lambda(\mu)$ 如何随着某个参数 $\mu$ （如空速）的变化而演变。这就是延拓方法（continuation methods）的领域。利用微积分，可以推导出特征值敏感度的公式 $\frac{\mathrm{d}\lambda}{\mathrm{d}\mu}$ 。这使我们能够利用在 $\mu_k$ 处的已知特征值，预测它在一个稍有不同的参数值 $\mu_{k+1}$ 处的位置。然后，我们使用 QZ 算法作为一个校正步骤。我们在 $\mu_{k+1}$ 处求解新的广义特征值问题，并找到与我们的预测最接近的真实特征值。这种以 QZ 为核心的预测-校正循环，使我们能够追踪特征值的路径，从而对系统的行为有一个连续、动态的理解。

构建工具的工具：数值分析的前沿

QZ 算法的力量并不止于直接应用。它还作为更高级数值技术的基本构建模块，特别是那些为解决现代科学计算中遇到的巨大问题而设计的技术。

例如，有时我们只对位于复平面特定区域内的特征值感兴趣。围道积分方法（Contour integral methods）提供了一种实现方式。它们计算沿选定区域的数值积分，其结果是到与内部特征值相关联的子空间上的投影。这个计算需要为围道上的许多不同点 $z_i$ 求解形如 $(A-z_i B)x = b$ 的线性系统。正如我们所见，QZ 算法为执行这些求解提供了一种高效且稳定的方法，使其成为这些先进特征求解器的关键组成部分。

类似地，对于非常大的系统，计算完整的舒尔分解可能成本过高。QZ 算法的重排序能力变得至关重要，它使我们能够以更可控的成本计算部分分解，仅分离出一小部分所需的 $k$ 个特征值及其对应的不变子空间。

在这些高级情境中，QZ 不再仅仅是一个求解器；它是一个更大计算机器内部的高性能引擎，展示了其多功能性以及对数值方法持续发展的根本重要性。从其优雅的内部结构到在设计火箭、发现分子和推动计算边界方面的作用，QZ 算法证明了数学思想深刻而统一的力量。