舒尔-霍恩定理

玻尔百科

定义

舒尔-霍恩定理是线性代数与矩阵理论中的一个基本结论，它揭示了厄米矩阵的对角线元素与其特征值之间的基本关系。该定理指出，矩阵对角线元素构成的向量被其特征值向量所主控，这种主控关系源于双随机矩阵描述的凸组合过程。在几何上，对应于一组给定特征值的所有可能对角线向量构成了一个被称为置换多面体的凸多面体。

核心要点

舒尔-霍恩定理为埃尔米特矩阵建立了一个基本关系：其对角线元素向量总是被其特征值向量所优超。
这种优超关系之所以产生，是因为对角线元素是特征值的凸组合，这个“混合”过程在数学上由一个双随机矩阵描述。
从几何上看，对于给定的特征值集合，所有可能的对角向量集合构成一个称为排列多面体 (permutope) 的凸多胞体，其顶点是特征值的各种排列。
该定理在为优化问题设定硬性限制方面，以及在量子力学中将一个态的能谱与其可能的测量概率联系起来方面，都有着关键应用。

引言

在线性代数的研究中，矩阵的某些属性（如其特征值）在变换下保持不变，如同其基本指纹。相比之下，其他属性（如其主对角线上的元素）则会根据所选的视角或基而发生巨大变化。这就引出了一个关键问题：在矩阵固有的、不变的特征值与其可变的对角线元素之间，是否存在着某种隐藏的规律？对这一问题的理解空白，妨碍了我们全面认识一个系统的核心属性如何体现在具体的测量之中。

本文通过深入探讨矩阵理论中最优雅的成果之一——舒尔-霍恩定理，来填补这一空白。我们将探索该定理如何为我们的问题提供一个精确而有力的答案。第一章“原理与机制”将解析该定理的核心，介绍优超的概念，并揭示连接特征值与其对角线对应物的数学机制。随后，“应用与跨学科联系”一章将展示这一抽象原理如何在从量子力学到工程优化的各个领域中产生深远而实际的影响。让我们首先探索这两组数的故事以及将它们联系在一起的美妙规则。

原理与机制

想象你有一块黏土。你可以把它塑造成球体、立方体或一根细长的杆。在所有这些变换中，黏土的体积保持不变，但其尺寸——长度、宽度和高度——却急剧变化。矩阵理论中有一个惊人相似的故事。对于一类特殊的矩阵，即埃尔米特矩阵（Hermitian matrices）（它们在量子力学和许多物理学领域中至关重要），有一组称为特征值（eigenvalues）的基本数值，就像黏土的总量。它们是矩阵的内在属性，无论你如何“旋转”你的视角，它们都不会改变。但是，矩阵主对角线上的数字，就像我们黏土块的尺寸一样，确实会随着我们的视角而改变。引人入胜的问题是：这两组数——不变的特征值和可变的对角线元素——是如何相关的？

答案是线性代数中最优雅的成果之一，即舒尔-霍恩定理（Schur-Horn theorem）。它不仅仅是一个枯燥的公式，更是一个关于约束的故事，一个关于你能在多大程度上集中或分散一组值的叙述。它是一条支配着从量子系统中可能的能量测量到优化问题求解的普适原理。

两组数的故事

让我们先把角色理清楚。一个埃尔米特矩阵 $A$ 是一个等于其自身共轭转置的方阵。一个关键特征是它的特征值 $(\lambda_1, \lambda_2, \dots, \lambda_n)$ 总是实数。你可以把它们看作矩阵所描述系统的“真实”或“自然”的缩放因子。例如，在量子力学中，它们代表一个物理系统固定的、量子化的能级。

另一方面，对角线元素 $(a_{11}, a_{22}, \dots, a_{nn})$ 代表我们从特定视角，或者用物理学的语言来说，在特定的基（basis）下“看到”的东西。改变基（就像旋转我们的坐标系）会通过一个幺正变换（unitary transformation） $U$ 将矩阵 $A$ 变为一个新矩阵 $A' = U A U^\dagger$ 。这使得特征值保持不变，但可以完全改变对角线元素。

所以，我们的故事是关于特征值向量（我们称之为 $\lambda$ ）和对角线元素向量（我们称之为 $d$ ）之间的关系。

第一条规则：一个永不改变的和

特征值和对角线元素之间最直接的联系是它们的和。矩阵的对角线元素之和称为其迹（trace），记作 $\text{tr}(A)$ 。一个显著的事实是，迹也等于特征值之和。

\sum_{i=1}^n a_{ii} = \sum_{i=1}^n \lambda_i

这是第一个强有力的约束。如果一个量子系统的特征值是 $\{10, 5, -3\}$ ，它们的和是 $12$ 。这意味着你任何可能希望测得的对角线元素集合 $(d_1, d_2, d_3)$ 也必须加起来等于 $12$ 。这是我们的“黏土守恒”规则。

但这不可能是故事的全部。向量 $(11, 2, -1)$ 的和也是 12，但我们很快就会看到，对于一个特征值为 $\{10, 5, -3\}$ 的矩阵来说，这是一组不可能的对角线元素。一定存在一个更微妙、更深刻的规律在起作用。

优超：关于“分布”的法则

Issai Schur 在 1923 年发现的更深层次的关系是一个叫做优超（majorization）的概念。简单来说，优超是一种精确的数学方式，用来说明一个向量比另一个向量“更分散”。舒尔-霍恩定理告诉我们，特征值向量总是比其对角线元素向量更分散。

让我们具体化这个概念。取两个各有 $n$ 个分量的实数向量 $x$ 和 $y$ 。首先，将它们都按降序排序，我们称排序后的版本为 $x^\downarrow$ 和 $y^\downarrow$ 。我们称 $x$ 被 $y$ 优超，写作 $x \prec y$ ，如果满足以下两个条件：

对于从 $1$ 到 $n-1$ 的每一个 $k$ ， $x$ 的前 $k$ 个最大元素之和小于或等于 $y$ 的前 $k$ 个最大元素之和。 $\sum_{i=1}^k x^\downarrow_i \le \sum_{i=1}^k y^\downarrow_i \quad \text{for } k=1, 2, \dots, n-1$
它们的总和相等。 $\sum_{i=1}^n x^\downarrow_i = \sum_{i=1}^n y^\downarrow_i$

第二个条件就是我们熟悉的老朋友，迹规则。第一个条件是新的、微妙的部分。它限制了对角线元素能有多“头重脚轻”。单个最大的对角线元素不能大于单个最大的特征值。两个最大的对角线元素之和不能大于两个最大的特征值之和，依此类推。

让我们来看一个实际例子。考虑一个来自简单练习题的埃尔米特矩阵：

A = \begin{pmatrix} 1 & 1 & 0 \\ 1 & 2 & 1 \\ 0 & 1 & 1 \end{pmatrix}

可以计算出它的特征值为 $\lambda = \{3, 1, 0\}$ ，排序后为 $\lambda^\downarrow = (3, 1, 0)$ 。对角线元素为 $d = \{1, 2, 1\}$ ，排序后为 $d^\downarrow = (2, 1, 1)$ 。

现在我们来检验 $d \prec \lambda$ 的优超条件：

对于 $k=1$ ： $d^\downarrow_1 = 2 \le \lambda^\downarrow_1 = 3$ 。（最大的对角线元素不大于最大的特征值）。条件成立。
对于 $k=2$ ： $d^\downarrow_1 + d^\downarrow_2 = 2 + 1 = 3 \le \lambda^\downarrow_1 + \lambda^\downarrow_2 = 3 + 1 = 4$ 。条件成立。
对于 $k=3$ （迹规则）： $d^\downarrow_1 + d^\downarrow_2 + d^\downarrow_3 = 2 + 1 + 1 = 4$ 且 $\lambda^\downarrow_1 + \lambda^\downarrow_2 + \lambda^\downarrow_3 = 3 + 1 + 0 = 4$ 。它们相等。

所有条件都满足！对角线元素向量确实被特征值向量优超。部分和之间的“差距”，例如在另一个例子中发现的 2.7，量化了对角线元素相比于尖锐的特征值有多“平滑”。

“混合”机器：为什么对角线元素是平滑化的特征值

那么，为什么会发生这种情况？原因很美妙，并且位于量子力学和线性代数的核心。对角线元素并非独立于特征值；事实上，它们是特征值的一种特殊的平均。

任何埃尔米特矩阵 $A$ 都可以写成 $A = V \Lambda V^\dagger$ ，其中 $\Lambda$ 是一个包含特征值 $(\lambda_1, \dots, \lambda_n)$ 的对角矩阵，而 $V$ 是一个幺正矩阵，其列是相应的标准正交特征向量。如果我们写出单个对角线元素 $a_{ii}$ 的公式，我们会发现一个非凡的现象：

a_{ii} = \sum_{j=1}^n |V_{ij}|^2 \lambda_j

仔细看这个方程。每个对角线元素 $a_{ii}$ 是所有特征值 $\lambda_j$ 的一个加权平均。权重是 $|V_{ij}|^2$ 这些数。这些权重是什么呢？由于 $V$ 是一个幺正矩阵，任何行的元素平方和为 1（ $\sum_j |V_{ij}|^2 = 1$ ），任何列的元素平方和也为 1（ $\sum_i |V_{ij}|^2 = 1$ ）。一个所有行和与列和都为 1 的非负数矩阵被称为双随机矩阵（doubly stochastic matrix）。

所以，对角线元素是通过一个由双随机矩阵 $S_{ij} = |V_{ij}|^2$ 所描述的“混合过程”从特征值中产生的。对事物进行平均往往会使它们变得平滑，不那么极端。想象一下，你有一桶桶不同深浅的红色油漆（特征值）。双随机矩阵就像一个菜谱，通过混合原始颜色来创造新颜色（对角线元素）。新颜色的鲜艳度或极端程度永远不会超过最鲜艳的原始颜色。这就是优超背后的物理直觉！

一个几何杰作：排列多面体

Schur 证明了对角线元素总是被特征值优超。但故事还有更精彩的后续。1954 年，Alfred Horn 证明了其逆命题：如果一个向量 $d$ 被向量 $\lambda$ 优超，那么你一定能找到一个具有特征值 $\lambda$ 和对角线元素 $d$ 的埃尔米特矩阵。

这个“当且仅当”的结果异常强大。它为我们提供了所有可能结果的完整刻画。回到我们那个特征值为 $\lambda = (10, 5, -3)$ 的量子系统，我们现在可以明确地检查哪些测量集合是可能的。一个提议的对角线向量 $d = (11, 2, -1)$ 是不可能的，因为它的最大值 11 大于最大的特征值 10，违反了第一个优超不等式。然而， $d = (8, 6, -2)$ 是可能的，因为它满足所有优超规则。

对于给定的特征值集合 $\lambda$ ，所有可能形成的对角向量 $d$ 的集合具有一个优美的几何结构。它在 $n$ 维空间中形成一个称为排列多面体 (permutope) 的凸多胞体（convex polytope）。这个形状的顶点就是特征值向量 $\lambda$ 的所有排列，如 $(10, 5, -3)$ 、 $(10, -3, 5)$ 、 $(5, 10, -3)$ 等等。任何可实现的对角向量只是这个形状内部或边界上的一个点！它是顶点的凸组合。这将一个矩阵代数问题转化成了一幅惊人清晰的几何图景。

超越边界：从埃尔米特矩阵到正规矩阵

这个核心思想——对角线元素是特征值的“凸组合”——的力量甚至超越了实数特征值的世界。它也适用于正规矩阵（normal matrices），即与其共轭转置可交换的矩阵（ $A A^\dagger = A^\dagger A$ ）。这些矩阵可以有复数特征值和复数对角线元素。

即使在这种更一般的情况下，关系依然成立：对角线元素向量 $d = (a_{11}, \dots, a_{nn})$ 是特征值向量 $\lambda = (\lambda_1, \dots, \lambda_n)$ 的凸组合。这使我们能够解决一些有趣的优化问题。例如，如果我们想最大化一个具有给定特征值集合的正规矩阵的对角线元素模长之和 $\sum_i |a_{ii}|$ ，凸性原理告诉我们，最大值必须在极值点处取得。“最极端”或“混合最少”的情况是当双随机矩阵是一个排列矩阵时。这意味着对角线元素仅仅是特征值本身的一种排列。

所以，要获得最大的模长之和，你只需将对角线元素设为特征值，最大值就是这些特征值模长之和。一个关于矩阵的简单问题，最终揭示了一个连接代数、几何和物理的深刻原理，展现了数学世界中隐藏的秩序与统一。

应用与跨学科联系

在我们经历了舒尔-霍恩定理优雅的证明和几何基础之后，你可能会好奇，“这一切究竟有什么用？”这是一个合理的问题。数学常常被呈现为一个纯粹、抽象的结构，我们很容易忽视它描述和约束我们所处世界的力量。然而，舒尔-霍恩定理不仅仅是矩阵代数中的一个奇观。它是一个出人意料的实用而深刻的工具，是一面锐利的透镜，通过它我们可以理解在工程优化和奇特的量子力学领域等不同领域中的极限与可能性。

可以这样想：埃尔米特矩阵的特征值是其固有的、不变的本质。它们就像一个物理系统中能量、动量或其他守恒量的总量。另一方面，对角线元素代表了在特定坐标系或基中，该本质是如何分布或被观察到的。舒尔-霍恩定理是支配这种分布的基本法则。它告诉我们，虽然你可以重新分配能量，但不能任意为之。这里存在硬性限制，而优超为此游戏提供了精确的规则。

优化艺术：塑造矩阵

该定理最直接的应用是在优化领域。如果一个矩阵的对角线代表成本、概率或物理测量值，那么在给定一组固定特征值的情况下，舒尔-霍恩定理告诉我们这些值的绝对最佳和最差情况。

想象你设计了一个系统——也许是一个机械结构或一个电气网络——其基本振动或响应模式由一组特征值给出。该系统矩阵的对角线元素可能代表特定组件上的应力或负载。一个自然的问题是：任何单个组件可能必须承受的最大应力是多少？该定理给出了一个惊人简单的答案：任何单个对角线元素永远不能大于最大的特征值。但它告诉我们的不止于此。假设我们想通过最小化任何组件上的最大应力来使系统尽可能“平衡”。优超不等式允许我们计算这个最大对角线元素可以取的绝对最小值。通常，当对角线元素尽可能均匀或“民主”时，这个最小值便得以实现。该定理提供了精确的下界，为我们的设计提供了有保障的安全裕度。

我们可以提出更复杂的问题。不只是一个组件，我们能在一个特定的子系统（比如说前两个组件）中发现的最大总应力是多少？也就是说， $d_1 + d_2$ 的最大值是多少？同样，优超提供了答案：这个和永远不能超过两个最大特征值之和， $\lambda_1 + \lambda_2$ 。所有可能的对角向量集合构成一个称为排列多面体 (permutope) 的优美几何对象——即特征值所有排列的凸包。最大化像 $d_1 + d_2$ 这样的和，等同于在这个形状上找到在特定方向上最远的点，而这个点总是对应于特征值特定排列的一个角点。这将一个复杂的矩阵问题转化成一个更直观的几何问题。

矩阵元素的守恒定律

该定理还揭示了一个隐藏的守恒定律。矩阵的“总大小”，由其所有元素的平方和（平方弗罗贝尼乌斯范数， $\|A\|_F^2$ ）来衡量，完全由其特征值决定： $\|A\|_F^2 = \sum_i \lambda_i^2$ 。这个量是固定的，是系统的一个常数。我们也可以将这个和写成对角线元素和非对角线元素的贡献之和： $\|A\|_F^2 = \sum_i |a_{ii}|^2 + \sum_{i \neq j} |a_{ij}|^2$ 。

现在，让我们把这两个事实放在一起。如果我们知道了特征值，也知道了对角线元素，舒尔-霍恩定理首先告诉我们这种组合是否可能。如果可能，那么所有非对角线元素的总大小就不再是一个变量；它被固定了！它就是对角线元素从特征值定义的总平方范数中分走其份额后“剩下”的部分。这是一个强有力的陈述。如果你试图强制使对角线元素与特征值非常不同，非对角线元素的大小就必须增长以作补偿。无处可逃；矩阵的元素被一个深层次的关系锁定，而舒尔-霍恩定理就是其宪法。

跨界之桥：量子力学与信息

当我们步入量子领域时，与现实世界的联系变得惊人地直接。在量子信息论中，系统的状态由一个密度矩阵 $\rho$ 描述，它是一个埃尔米特、半正定且迹为1的矩阵。这些约束不仅仅是数学约定，它们是物理定律。

$\rho$ 的特征值是量子态的基本属性，与其纯度和信息内容有关。在给定的基中，对角元素 $\rho_{ii}$ 具有直接的物理意义：它们是在测量时发现系统处于相应基态的概率。基的改变，对应于从不同角度观察系统，由一个酉变换 $\rho \to U\rho U^\dagger$ 表示。这会改变对角元素，但不会改变特征值。

所以，“给定一个具有特定谱的量子态，我们能测量的可能概率是多少？”这个问题恰好是舒尔-霍恩定理回答的问题。概率向量被特征值向量优超。这使我们能够计算，例如，最大测量概率的最小可能值。答案极具启发性：我们常常可以找到一个基，在此基中所有测量结果都是等概率的，直至优超所施加的极限。该定理还可以解决更复杂的约束问题，例如当实验对态施加了某些对称性或条件时，寻找可能概率的范围。

也许最美的应用在于量化“量子性”本身。密度矩阵的非对角元素负责量子相干性——这种性质允许叠加和干涉，是量子力学的核心。一个自然的问题是：对于一个具有给定能谱（特征值）的态，它可能存储的最大相干性是多少？这是一个关于最大化非对角元素模平方和的问题。利用我们之前讨论的“守恒定律”，这等同于最小化对角元素（概率）的平方和。舒尔-霍恩定理，通过舒尔凸函数（Schur-convex functions）理论告诉我们如何做到这一点：当概率 $\rho_{ii}$ 尽可能均匀时，和 $\sum_i \rho_{ii}^2$ 被最小化。这揭示了一个深刻的权衡：要最大化一个态的量子相干性，你必须将其经典概率尽可能薄地分散开。一个态的量子和经典方面是交织在一起的，而舒尔-霍恩定理规定了它们之间关系的条款。

更广阔的数学宇宙

最后，舒尔-霍恩定理背后的原理在整个数学中回响。优超、双随机矩阵和排列上的优化这些核心思想并非孤立存在。例如，在涉及最小化或最大化迹泛函（如 $\mathrm{tr}(AUBU^*)$ ）的问题中，解决方案通常涉及到重排不等式（rearrangement inequality），该不等式指出，当一个序列升序排列而另一个降序排列时，和 $\sum_i a_i b_{\sigma(i)}$ 最小。这并非巧合。证明这个最小值达成的过程，常常会经过支撑 Horn 那部分定理的完全相同的逻辑——即双随机矩阵和排列顶点。

这一系列思想延伸到数值分析和数据科学中的强大成果，例如在矩阵邻近问题中。如果你想在对角矩阵 $D$ 的酉轨道中找到距离给定矩阵 $Y$ 最近的矩阵，答案由一个可以看作是舒尔-霍恩原理推广的定理给出。你必须以正确的方式将 $Y$ 的奇异值与 $D$ 的特征值对齐——这与重排不等式有着惊人的相似之处。这一结果对于从信号压缩到机器学习的各种矩阵近似算法都至关重要。

从一个关于单个矩阵对角线和特征值的简单陈述出发，我们发现了一个约束工程设计、量化量子态本质，并与优化和分析中深刻定理产生共鸣的原理。这是科学与数学统一性的证明，一个单一、优雅的思想可以照亮广阔的不同领域景观，揭示支配它们所有事物的隐藏规则。