计算矩阵平方根：原理、方法及应用

玻尔百科

定义

计算矩阵平方根：原理、方法及应用是指寻找一个矩阵，其自乘结果等于目标矩阵的数学过程。该过程可通过对角化或 Schur 分解等代数变换实现，对于大规模问题则常采用牛顿法等数值迭代技术。在动力系统和量子信息理论中，矩阵平方根被用于表示半时间步长演化以及计算量子态之间的保真度。

核心要点

矩阵的平方根可以通过代数方法，切换到更简单的基来计算，例如对大多数矩阵使用对角化，或对所有矩阵使用 Schur 分解。
对于大规模问题，像牛顿法这样的迭代数值技术为近似计算矩阵平方根提供了一种有效方法。
矩阵平方根具有物理意义，例如在种群模型等动态系统中表示半个时间步长的演化。
在量子信息论中，矩阵平方根是完成基本任务（如计算两个量子态之间的保真度或“接近度”）的重要工具。

引言

虽然求一个数的平方根是我们熟悉的概念，但将此运算扩展到矩阵，则开启了线性代数中一个丰富而复杂的领域。矩阵不仅仅是一个数字网格，它更是一种几何变换的表示。这就引出了一个根本性问题：找到一个变换，当它被应用两次后能得到另一个变换，这意味着什么？本文旨在应对定义和计算矩阵平方根的挑战，将抽象理论与实际应用联系起来。

首先，在“原理与机制”一节中，我们将通过探索矩阵的核心性质来解构这个问题。我们将从最简单的对角矩阵入手，逐步讲解到强大的对角化技术，该技术利用特征值和特征向量来简化复杂的变换。我们还将讨论当此方法失效时的情况，并介绍更通用的方法，如 Schur 分解和迭代数值法。接下来，“应用与跨学科联系”一节将揭示为何这个看似抽象的概念不可或缺。我们将探讨它在不同领域中的关键作用，从量子信息论中计算态保真度，到模拟种群动态，再到实现先进的信号处理技术。

原理与机制

我们如何求一个数（比如 9）的平方根？我们寻找一个数 $x$ 使得 $x^2 = 9$ 。我们很快发现 3 和 -3 都满足条件。这个熟悉的操作感觉很直接。但是，如果我们将数字 9 替换为矩阵 $A$ 会发生什么？我们能否找到一个矩阵 $B$ 使得 $B^2 = A$ ？这个简单的问题打开了通往线性代数中最优雅、最强大领域之一的大门。寻找矩阵平方根的旅程，就是一次深入探究矩阵本质——几何变换的表示——的旅程。

最简单的情形：一个拉伸的世界

让我们从最简单的宇宙开始。想象一个矩阵，它只沿着标准坐标轴拉伸或压缩空间。这就是对角矩阵。例如：

A = \begin{pmatrix} 9 0 \\ 0 -4 \end{pmatrix}

该矩阵将任意向量的第一个分量拉伸 9 倍，第二个分量拉伸 -4 倍（一次拉伸和一次翻转）。求它的平方根 $B$ 非常简单。我们只需找到一个变换，当它被应用两次后，能得到变换 $A$ 。直观上，我们可以独立地对每个拉伸因子取平方根。

B = \begin{pmatrix} \sqrt{9} 0 \\ 0 \sqrt{-4} \end{pmatrix}

我们立刻能看到两件有趣的事。首先，9 的平方根可以是 3 或 -3。其次，-4 的平方根必须是复数，即 $2i$ 或 $-2i$ 。就像数字一样，即使矩阵由实数构成，它的平方根也可能是复数。选择主根（实部为正）可以得到一个可能的平方根：

B = \begin{pmatrix} 3 0 \\ 0 2i \end{pmatrix}

你可以轻易验证 $B^2 = A$ 。但请注意可能性的爆炸式增长！对于一个 $2 \times 2$ 矩阵，第一个元素有两个选择，第二个元素也有两个选择，这导致了 $2^2=4$ 个不同的平方根矩阵。对于一个 $n \times n$ 的对角矩阵，可能存在多达 $2^n$ 个这样的根！单一“平方根”的概念开始瓦解。

对角化的魔力：透过矩阵之眼看世界

大多数矩阵不是对角矩阵。它们不仅仅是沿着坐标轴进行拉伸；它们以更复杂的方式旋转、剪切和扭曲空间。考虑这个矩阵：

A = \begin{pmatrix} 14 -10 \\ 5 -1 \end{pmatrix}

将一个向量与它相乘会打乱其分量。我们如何求这样一个变换的平方根呢？

线性代数的一个深刻见解是：几乎每个矩阵变换都有特殊的、隐藏的方向。当一个指向这些方向之一的向量被矩阵变换时，它不会被旋转，只会被拉伸。这些特殊的方向就是特征向量，而相应的拉伸因子就是特征值。对于上面的矩阵 $A$ ，特征值是 9 和 4。这意味着存在一个方向，在此方向上 $A$ 的作用就像乘以 9；还存在另一个方向，在此方向上它的作用就像乘以 4。

这就是关键。如果我们能切换我们的视角——我们的坐标系——到一个由这些特征向量定义的坐标系，那么复杂的变换 $A$ 会突然看起来像一个由其特征值组成的简单对角矩阵！

D = \begin{pmatrix} 9 0 \\ 0 4 \end{pmatrix}

这个“视角的改变”本身也是一个矩阵，我们称之为 $P$ 。它的列是 $A$ 的特征向量。因此，要应用变换 $A$ ，我们可以做三件事：首先，使用 $P^{-1}$ 将向量转换到特征向量坐标系中；其次，应用简单的对角拉伸 $D$ ；第三，使用 $P$ 将其转换回我们原来的坐标系。这就得到了著名的对角化公式： $A = PDP^{-1}$ 。

这样做的好处是计算幂运算变得极其简单。 $A^2 = (PDP^{-1})(PDP^{-1}) = PD^2P^{-1}$ 。复杂性消失了，隐藏在基的变换之中。为了求 $A$ 的平方根，我们只需在简单的特征向量世界里求平方根，然后再变换回来：

B = A^{1/2} = PD^{1/2}P^{-1}

对于我们的示例矩阵 $A$ ，我们可以找到 $P$ 及其逆矩阵，并利用 $D^{1/2} = \begin{pmatrix} 3 0 \\ 0 2 \end{pmatrix}$ ，我们组合出 $B$ ，求得其一个平方根为：

B = \begin{pmatrix} 4 -2 \\ 1 1 \end{pmatrix}

这个方法非常强大。它适用于许多矩阵，包括非常重要的对称矩阵类。这些在物理学到统计学中无处不在的矩阵，有一个奇妙的性质，即它们的特征向量总是相互垂直（正交）。这使得基变换矩阵 $P$ 成为一个正交矩阵 $Q$ ，而其逆矩阵就是它的转置 $Q^T$ 。这种优雅的简化被称为谱分解，它使我们能够轻松地找到一个矩阵的主平方根——即那个同样是对称且具有正特征值的唯一平方根。

当对角化失败时：一个更普遍的真理

那么，我们总能找到一组特征向量基吗？事实证明，不能。一些被称为亏损矩阵的矩阵，从根本上就无法对角化。一个典型的例子是剪切变换：

A = \begin{pmatrix} 1 1 \\ 0 1 \end{pmatrix}

这个矩阵将一个正方形的顶部向右推，但它只有一个特征向量方向。我们不可能找到两个只被拉伸的独立方向。我们优美的对角化方法失败了。

这是否意味着我们束手无策了？完全不是。自然界提供了一个更普遍、尽管略显不那么整洁的真理。Schur 分解定理指出，任何方阵 $A$ 都可以写成 $A = UTU^*$ 的形式，其中 $U$ 是一个特殊的“旋转”矩阵（一个酉矩阵，意味着 $U^{-1}=U^*$ ），而 $T$ 是一个上三角矩阵。

可以把这看作一种折衷。如果说对角化像是找到一组完美的非旋转轴，那么 Schur 分解则保证了即使我们无法得到一个完美的对角矩阵，我们总能将变换简化为一个三角矩阵。这是一个深刻的结果：每个线性变换都存在一个基，使其在该基下变为三角形式。

求平方根的策略在精神上保持不变：

B = U \sqrt{T} U^*

新的挑战是求三角矩阵 $T$ 的平方根。但由于其结构（对角线下方都是零），我们可以通过一个称为代入法的系统过程，逐个解出 $\sqrt{T}$ 的元素。这个过程虽然比简单地对对角元素求平方根要复杂，但它为求任何矩阵（无论是否可对角化）的平方根提供了一条具体的路径。

通过猜测和精化求根

我们探讨过的代数方法优美且富有洞察力，但对于现代计算中使用的大型矩阵而言，它们可能很慢。存在一种不同的理念：与其直接求解根，不如从一个猜测开始，然后迭代地改进它，直到它“足够好”。

这个想法很古老。求 $\sqrt{a}$ 的巴比伦方法从一个猜测 $x_0$ 开始，并使用公式 $x_{k+1} = \frac{1}{2}(x_k + a/x_k)$ 对其进行精化。令人惊讶的是，这个公式可以完全适用于矩阵：

X_{k+1} = \frac{1}{2} (X_k + A X_k^{-1})

这是一个更通用、更强大的工具——牛顿法的一个特例。目标是找到矩阵 $X$ 来求解方程 $X^2 - A = 0$ 。牛顿法的工作原理是，从一个近似值 $X_k$ 开始，寻找一个小的修正量 $H$ ，使得 $(X_k+H)^2$ 更接近 $A$ 。通过展开并忽略微小的 $H^2$ 项，我们得到了一个关于修正量的线性方程：

X_k H + H X_k = A - X_k^2

这是一个 Sylvester 方程。这里的奥妙在于，我们将一个困难的非线性问题（ $X^2=A$ ）转化成了一系列更容易的线性问题。在每一步，我们求解这个线性方程以得到修正量 $H$ ，更新我们的猜测 $X_{k+1} = X_k + H$ ，然后重复。每次迭代，我们都以二次方的速度逼近真实的平方根。这种迭代精化是许多用于计算矩阵函数的现代数值算法的核心。

奇异矩阵与矩阵的灵魂

那么，那些在某种意义上“损坏”的矩阵呢？奇异矩阵是将部分空间压缩到更低维度的矩阵；它有一个为 0 的特征值，并且没有逆矩阵。这样的矩阵能有平方根吗？

让我们考虑一个秩为一的矩阵 $A = uv^T$ ，它总是奇异的。它的特征值由一个简单的内积 $\lambda = v^T u$ 和一片零给出。如果我们想找到一个平方根 $B$ 使得 $B^2 = A$ ，那么 $B$ 的特征值必须是 $A$ 的特征值的平方根。这告诉我们， $B$ 的特征值必须是 $\pm\sqrt{\lambda}$ 和相应的一片零。

这揭示了一种根本的统一性。特征值是矩阵的“灵魂”。我们对矩阵应用的任何函数——求平方、求逆或求平方根——都等同于将相同的函数应用于其特征值。无论我们是使用对角化直接观察它们，使用 Schur 分解在三角矩阵的对角线上看到它们，还是在奇异矩阵中分析它们的性质，特征值都决定了其行为。它们是固定点，整个优美而复杂的线性变换之舞都围绕着它们进行编排。

应用与跨学科联系

在了解了矩阵平方根的原理和机制之后，人们可能会感到智识上的满足，但也会有一个挥之不去的问题：“这很优雅，但它到底有什么用？”这是一个合理的问题。数字的平方根是我们学生时代的熟客，从几何到金融，无所不需。但矩阵的平方根呢？感觉像是抽象之上的抽象。

然而，这正是数学最美妙的方面之一。一个似乎源于纯粹代数好奇心的想法——“哪个矩阵 $B$ 自乘后得到我的矩阵 $A$ ？”——结果却成了一把万能钥匙，为众多科学和工程学科开启了深刻的洞见。它不仅仅是一种计算；它是一种概念工具，让我们能以全新的视角看待世界。现在，让我们来探索一些这些意想不到且强大的联系。

机器之心：计算与代数

在我们探索物理世界之前，让我们先欣赏矩阵平方根在数学本身中的作用。计算它的各种方法不仅仅是不同的算法，它们是窥探矩阵灵魂的不同窗口。

其中一个最强大的启示是，对于一个矩阵 $A$ ，它的平方根 $\sqrt{A}$ 并非来自另一个数学宇宙的异物。在许多情况下，它可以表示为 $A$ 本身的一个简单多项式，形式为 $\sqrt{A} = \alpha I + \beta A + \gamma A^2 + \dots$ 。这是 Cayley-Hamilton 定理的一个惊人推论，该定理告诉我们矩阵满足其自身的特征方程。这意味着平方根一直隐藏在原始矩阵内部，由完全相同的“材料”——单位矩阵和 $A$ 的幂——构成。这不仅仅是理论上的精妙之处；它通过求解基于 $A$ 的特征值的系数 $\alpha, \beta, \gamma, \dots$ 的方程组，为找到平方根提供了一条直接的代数路径。

这种通过改变视角揭示隐藏的简单性的主题，在信号处理领域得到了辉煌的呼应。考虑循环矩阵，其中每一行都是上一行的循环移位。这些矩阵无处不在，从数字图像滤波到周期系统的模型。试图用暴力方法求一个大型循环矩阵的平方根将是一场噩梦。但是，如果我们使用离散傅里叶变换进行“基变换”，问题就会奇迹般地转化。矩阵变成对角的，求其平方根就像在这个新的“频域”中对每个特征值取平方根一样简单。然后我们再变换回原来的基，得到答案。这是一个美丽的例证，说明一个领域中的难题如何在另一个领域中变得简单，而连接它们的桥梁正是傅里叶分析。

当然，在工程和数据科学的现实世界中，优雅必须与效率相结合。对于作为中流砥柱的对称正定矩阵类——包括统计学中的协方差矩阵、机器学习中的核矩阵以及结构工程中的刚度矩阵——有一种稳健且快如闪电的算法，称为 Cholesky 分解。它将矩阵 $A$ 分解为乘积 $L L^T$ ，其中 $L$ 是一个下三角矩阵。在所有实际应用中，这个 $L$ 就是 $A$ 的“那个”平方根。当统计学家需要生成模拟真实世界数据集相关性的合成数据时（该数据集由协方差矩阵 $\Sigma$ 描述），他们通常会计算其 Cholesky 因子 $L$ ，并将其乘以一个不相关的随机数向量。这个过程，本质上，“赋予”了所需的相关结构，其作用相当于标准差的多维等价物。

编织现实之布：量子信息

在任何领域中，矩阵平方根都没有像在奇异而美丽的量子力学世界中那样，扮演着如此核心和基础的角色。在这个领域，系统的状态不是由几个数字描述，而是由一个“态矢量”或更普遍的“密度矩阵” $\rho$ 描述。物理可观测量——如能量、动量或自旋——由厄米矩阵（算符）表示。

作为线性代数基石的谱定理告诉我们，任何这样的算符都可以理解为投影算符的加权和， $A = \sum_i \lambda_i P_i$ ，其中 $\lambda_i$ 是可能的测量结果（特征值），而 $P_i$ 是到相应状态的投影算符。从这个角度看，平方根是完全自然的： $\sqrt{A} = \sum_i \sqrt{\lambda_i} P_i$ 。我们只需对结果取平方根，同时保持基本状态不变。这表明，一个可观测量的平方根是一个共享相同基本结构、仅仅重新调整了结果的算符。

这个抽象的概念在量子信息论中变得至关重要，我们常常需要回答一个看似简单的问题：两个量子态 $\rho$ 和 $\sigma$ 有多“接近”？这不是一个哲学问题，而是一个决定量子计算机错误率或量子密码信道安全性的实际问题。一个关键的衡量标准是 Uhlmann 保真度 $F(\rho, \sigma)$ ，它量化了它们的“重叠度”。保真度的公式证明了矩阵平方根的力量：

F(\rho, \sigma) = \left( \text{Tr} \sqrt{\sqrt{\rho}\sigma\sqrt{\rho}} \right)^2

看看这个表达式！为了找到量子态之间的距离，我们必须首先找到密度矩阵 $\rho$ 的平方根，用它来变换另一个态 $\sigma$ ，然后找到整个结果矩阵的平方根，才能完成计算。矩阵平方根不仅仅是一个配料，它是主菜。它被编织进量子领域可区分性的定义之中，为描述量子信息的几何学提供了数学语言。

描绘生命与变化的航程

矩阵平方根也为理解随时间演化的系统提供了一个强大的视角，从种群的增长到复杂机械的优化。

想象你是一位人口学家，正在研究一个物种，其种群结构由一个包含不同年龄组个体数量的向量描述。一个 Leslie 矩阵 $L$ 是一个将这个种群向量投射到未来一年的变换。也就是说，如果 $\mathbf{p}(t)$ 是第 $t$ 年的种群向量，那么 $\mathbf{p}(t+1) = L \mathbf{p}(t)$ 。现在，如果你想模拟六个月后的种群呢？你需要一个矩阵 $B$ ，当它被应用两次后，能得到与应用一次 $L$ 相同的结果。换句话说，你需要 $B^2 = L$ 。将种群向前投射半个时间步长的矩阵，正是全步长矩阵的平方根， $B = \sqrt{L}$ ！这为这个一度抽象的运算赋予了一个极好、直观且物理的意义。

这种分析演化系统的思想通过微积分延伸到了连续域。物理学、工程学和经济学中的许多系统都由其元素随时间变化的矩阵 $A(t)$ 描述。这样一个系统的性质可能取决于其矩阵平方根 $B(t) = \sqrt{A(t)}$ 。如果我们想分析系统行为如何变化或对其进行优化，我们需要理解其性质的变化率。这意味着我们必须能够计算其导数 $\frac{d}{dt}B(t)$ 。这个计算在控制理论等领域至关重要，例如，我们可能需要实时调整参数来稳定一个机器人手臂，而其动力学由一个惯性矩阵的平方根描述。它将矩阵根的代数概念与微积分和动力学的分析世界联系起来。

从纯粹的代数逻辑到量子世界的神秘规则，从种群的可预测演进到动态系统的持续变化，矩阵平方根揭示了它并非仅仅是一个好奇之物，而是一个深刻而统一的概念。它提醒我们，在数学中，对一个简单、抽象问题的回答，往往能成为构建、测量和理解我们周围世界的强大工具。