矩阵函数：理论与应用

玻尔百科

核心要点

矩阵的函数 $f(A)$ 通过其幂级数展开来正确定义，而不是将函数逐个应用于每个元素。
对于可对角化矩阵，通过将标量函数应用于矩阵的特征值，可以使用公式 $f(A) = P f(D) P^{-1}$ 高效地计算 $f(A)$ 。
$f(A)$ 的行为取决于标量函数 $f$ 如何作用于 A 的特征值，这决定了诸如 $\operatorname{tr}(f(A)) = \sum f(\lambda_i)$ 和 $\det(f(A)) = \prod f(\lambda_i)$ 的关键性质。
矩阵函数作为一种统一的语言，用于在控制工程、量子化学、信息论和数值物理中建模和分析复杂的相互作用系统。

引言

对一张照片求平方根，或对一张财务电子表格求余弦，这意味着什么？虽然这个问题看似荒谬，但其数学等价物——将函数应用于矩阵——却是现代科学与工程的基石。矩阵不仅仅是一个数字网格，它代表一种线性变换，任何应用于它的函数都必须尊重这一基本属性。本文旨在解决如何以有原则的方式定义和计算矩阵函数这一挑战，超越简单但错误的逐元素运算。

在接下来的章节中，我们将踏上一段从基础理论到实际应用的旅程。在“原理与机制”中，您将学习使用幂级数定义矩阵函数的正确方法，发现一种涉及特征值和对角化的优雅计算捷径，并探索适用于任何矩阵的鲁棒方法。随后，“应用与跨学科联系”将展示这一概念的非凡效用，说明矩阵函数如何提供一种统一的语言，来描述控制工程、量子化学和数字通信等不同领域的复杂系统。读完本文，您将不仅理解如何计算矩阵的函数，还将明白为何它是分析师工具箱中最强大的工具之一。

原理与机制

想象一下，有人让你计算一张财务数据电子表格的余弦，或者一张数码照片的平方根。这个问题似乎很荒谬。照片不是一个数字，它是一个像素网格。电子表格是数字的集合。你怎么能将像 cosine 或 square root 这样的函数应用于这类对象呢？然而，在物理学和工程学中，我们一直都在这样做。从量子力学到控制系统，矩阵函数的概念不仅仅是一个数学上的奇思妙想，而是一个极其有用的工具。但它到底意味着什么？

幼稚的错误与原则性的起点

最直接的猜测可能是简单地将函数应用于矩阵内的每一个数字或“元素”。如果我们想要计算 $\cos(A)$ ，也许我们只需对每个元素 $A_{ij}$ 取余弦？这似乎合情合理，但这是一个陷阱！这是对矩阵本质的根本误解。矩阵不仅仅是一个数字盒子，它是一个线性变换的表示——一个在空间中拉伸、旋转和剪切向量的对象。一个真正的矩阵函数必须尊重这种几何和代数上的同一性。

让我们看看为什么逐元素运算的想法错得如此离谱。考虑一个简单的矩阵 $A = \begin{pmatrix} 0 & \pi \\ 0 & 0 \end{pmatrix}$ 。如果我们逐元素应用余弦函数，会得到 $\begin{pmatrix} \cos(0) & \cos(\pi) \\ \cos(0) & \cos(0) \end{pmatrix} = \begin{pmatrix} 1 & -1 \\ 1 & 1 \end{pmatrix}$ 。但这真的是“真正的” $\cos(A)$ 吗？

为了找到一个更可靠的答案，我们必须回到像 $\cos(x)$ 或 $e^x$ 这类函数的基本定义。我们是如何知道它们是什么的？几个世纪以来，数学家通过它们的幂级数展开来理解它们：

\cos(x) = 1 - \frac{x^2}{2!} + \frac{x^4}{4!} - \frac{x^6}{6!} + \dots

这个定义只涉及 $x$ 的幂次和算术运算。而这些运算我们可以对矩阵进行！我们可以对矩阵求平方、求立方、将矩阵相加，以及用标量乘以它们。因此，这为我们提供了一种坚实、有原则的方式来定义矩阵函数：只需将矩阵 $A$ 替换变量 $x$ ：

\cos(A) = I - \frac{A^2}{2!} + \frac{A^4}{4!} - \frac{A^6}{6!} + \dots

这里， $I$ 是单位矩阵，即数字 1 在矩阵中的等价物。现在，让我们回到我们的示例矩阵 $A = \begin{pmatrix} 0 & \pi \\ 0 & 0 \end{pmatrix}$ 。让我们计算它的幂： $A^2 = \begin{pmatrix} 0 & \pi \\ 0 & 0 \end{pmatrix} \begin{pmatrix} 0 & \pi \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} 0 & 0 \\ 0 & 0 \end{pmatrix}$ 。由于 $A^2$ 是零矩阵，所有更高的幂次（ $A^3, A^4, \dots$ ）也都是零。 $\cos(A)$ 的无穷幂级数突然变得非常短：

\cos(A) = I - \frac{A^2}{2!} + (\text{所有零项}) = I - 0 = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}

这个结果 $I$ 与我们之前逐元素运算的猜测截然不同。这种幂级数方法是我们的基本定义。它保证有效，并能保持函数深层的代数性质。唯一的问题是，对于大多数矩阵，计算所有这些幂并求和是一场计算噩梦。我们需要一条捷径。

特征值的魔力：视角的转变

大自然常常会因为我们找到了看待问题的“正确”方式而给予奖励。对于许多矩阵，存在一个特殊的视角，从这个视角看，它们的行为变得异常简单。想象一个三维空间中的复杂变换，它可能看起来是拉伸和旋转的令人眼花缭乱的组合。但是，如果你能找到一组特殊的坐标轴，使得沿着这些轴的变换只是简单的缩放呢？这些特殊的轴就是特征向量，而缩放因子就是特征值。

一个拥有完整这类特殊轴集的矩阵被称为可对角化的。我们可以将其写为 $A = P D P^{-1}$ 。你可以将这个方程看作是变换 $A$ 的一个配方：

$P^{-1}$ ：从我们的标准坐标系转换到特殊的特征向量坐标系。
$D$ ：执行简单的缩放。 $D$ 是一个对角矩阵，其对角线上是特征值 $(\lambda_1, \lambda_2, \dots)$ 。它是 $A$ 的简化版本。
$P$ ：转换回我们的标准坐标系。

那么，这对于矩阵函数为何如此有用？让我们看看对 $A$ 取幂时会发生什么：

A^2 = (P D P^{-1})(P D P^{-1}) = P D (P^{-1}P) D P^{-1} = P D^2 P^{-1}

中间的 $P^{-1}$ 和 $P$ 相互抵消了！通过数学归纳法，这对任何幂次 $k$ 都成立：

A^k = P D^k P^{-1}

这简直是奇迹。计算 $A^k$ 的困难任务被计算 $D^k$ 的平凡任务所取代。由于 $D$ 是对角矩阵， $D^k$ 就是将每个特征值提升到 $k$ 次幂的矩阵： $D^k = \operatorname{diag}(\lambda_1^k, \lambda_2^k, \dots, \lambda_n^k)$ 。

现在我们可以回到 $f(A)$ 的幂级数定义：

f(A) = \sum_{k=0}^{\infty} c_k A^k = \sum_{k=0}^{\infty} c_k (P D^k P^{-1})

我们可以将 $P$ 和 $P^{-1}$ 提取出来：

f(A) = P \left( \sum_{k=0}^{\infty} c_k D^k \right) P^{-1}

括号中的表达式正是 $f(D)$ 的幂级数！由于 $D$ 是对角矩阵， $f(D)$ 就是我们通过将函数 $f$ 应用于对角线上的每个特征值得到的矩阵：

f(D) = \operatorname{diag}(f(\lambda_1), f(\lambda_2), \dots, f(\lambda_n))

于是我们得到了我们绝佳的捷径：

f(A) = P f(D) P^{-1}

要计算任何可对角化矩阵的函数，你不需要对一个无穷级数求和。你只需要：

找到它的特征值（ $\lambda_i$ ）和特征向量（ $P$ 的列）。
将标量函数 $f$ 应用于每个特征值。
使用矩阵乘法 $P f(D) P^{-1}$ 将它们组合回来。

这一优雅的原则让我们能够相对轻松地计算各种奇特的函数，比如矩阵符号函数或反双曲正切函数。

优美的推论：特征值告诉我们什么

这种“视角的转变”不仅为我们提供了一条计算捷径，它还揭示了一个深刻的真理。矩阵函数 $f(A)$ 的本质行为完全由标量函数 $f$ 如何作用于 $A$ 的谱（特征值的集合）所决定。两个优美而有用的性质由此直接得出。

首先，让我们考虑 $f(A)$ 的迹，即其对角元素之和。迹有一个奇妙的性质： $\operatorname{tr}(XY) = \operatorname{tr}(YX)$ 。利用这一点，我们可以看到：

\operatorname{tr}(f(A)) = \operatorname{tr}(P (f(D) P^{-1})) = \operatorname{tr}((f(D) P^{-1}) P) = \operatorname{tr}(f(D))

而 $f(D)$ 的迹就是其对角元素之和。这给了我们一个深刻的恒等式：

\operatorname{tr}(f(A)) = \sum_{i=1}^{n} f(\lambda_i)

矩阵函数的迹是函数应用于其特征值的总和。这是一个非常强大的分析工具，它允许我们计算像“矩阵 zeta 函数”这样的量，而无需计算完整的矩阵。

类似的故事也发生在行列式上。利用性质 $\det(XYZ) = \det(X)\det(Y)\det(Z)$ 和 $\det(P^{-1}) = 1/\det(P)$ ：

\det(f(A)) = \det(P) \det(f(D)) \det(P^{-1}) = \det(f(D))

对角矩阵 $f(D)$ 的行列式是其对角元素的乘积。所以我们发现：

\det(f(A)) = \prod_{i=1}^{n} f(\lambda_i)

矩阵函数的行列式是函数应用于其特征值的乘积。这两条规则不仅仅是数学技巧，它们是窥探矩阵灵魂的窗口，展示了矩阵的基本属性是如何被一个函数所改变的。

当捷径失效：多项式“伪装者”

我们优美的对角化捷径有一个问题：并非所有矩阵都是可对角化的。一些被称为亏损矩阵的矩阵没有足够多的不同特征向量来构成一个完整的基。对于这些矩阵， $A = PDP^{-1}$ 这个配方根本不存在。那我们该怎么办呢？矩阵函数的整个概念会因此崩溃吗？

完全不会！我们需要一个更通用、更强大的思想。而这个思想来自一个令人惊讶的地方：多项式。线性代数中的一个基石性成果（与 Cayley-Hamilton 定理相关）指出，对于任何解析函数 $f$ 和任何方阵 $A$ ，所得到的矩阵 $f(A)$ 总能被写成一个关于 $A$ 的多项式。

f(A) = c_0 I + c_1 A + c_2 A^2 + \dots + c_{m-1} A^{m-1}

寻找 $f(A)$ 的整个问题简化为寻找这个“伪装”多项式 $p(\lambda) = \sum c_k \lambda^k$ 的系数。我们如何找到那个能够完美模仿函数 $f$ 对于我们特定的矩阵 A 的多项式呢？关键再次在于特征值。多项式 $p(\lambda)$ 必须在 $A$ 的谱上与函数 $f(\lambda)$ 相匹配。

如果一个特征值 $\lambda_i$ 是单根，这仅意味着 $p(\lambda_i) = f(\lambda_i)$ 。但对于亏损矩阵，一个特征值可能以一种形成所谓“若尔当块”的方式重复。在这种情况下，要让多项式成为一个真正令人信服的“伪装者”，它不仅必须在特征值处与函数值匹配，还必须与其导数值匹配。

这就引出了 Hermite 插值法。如果 $A$ 的最小多项式有一个因子 $(\lambda - \lambda_i)^{m_i}$ ，那么我们的“伪装”多项式 $p(\lambda)$ 必须满足：

p(\lambda_i) = f(\lambda_i), \quad p'(\lambda_i) = f'(\lambda_i), \quad \dots, \quad p^{(m_i-1)}(\lambda_i) = f^{(m_i-1)}(\lambda_i)

这组条件为我们提供了一个求解多项式系数的线性方程组。这个方法是完全通用的；它适用于任何矩阵，无论是否可对角化。例如，我们可以用它来找到像 $\frac{\sin(\pi A)}{\pi A}$ 这样的函数的精确多项式表达式，即使当 $A$ 是亏损矩阵时也同样适用，而对角化方法在这种情况下会让我们束手无策。

更高层的视角：统一与矩阵微积分

到目前为止，我们已经看到了思考矩阵函数的三种方式：基础的幂级数、优雅的对角化捷径，以及通用的多项式“伪装者”。事实证明，还有一个更强大的定义能够统一它们所有，这是一个来自复分析领域的视角。任何矩阵函数都可以通过柯西积分公式来定义：

f(A) = \frac{1}{2\pi i} \oint_\gamma f(z) (zI - A)^{-1} dz

这个令人生畏的公式表明，我们可以通过在一个包围矩阵所有特征值的围道 $\gamma$ 上，对一个包含矩阵预解式 $(zI - A)^{-1}$ 的复函数进行积分来找到 $f(A)$ 。这一定义以无与伦比的优雅处理了所有情况——可对角化或亏损矩阵。它表明矩阵函数理论是线性代数和复分析的美妙交集。

这种丰富的结构甚至允许我们进行微积分。我们可以问：“如果我们将 $A$ 微扰一个极小量 $H$ ，矩阵 $\sqrt{A}$ 会如何变化？” 这就是Fréchet 导数的问题。利用一点矩阵微积分，可以证明一个非常奇妙的事情。矩阵平方根函数在单位矩阵 $A=I$ 处，沿对称矩阵 $H$ 方向的导数，就是：

L_I(H) = \frac{1}{2}H

这完美地反映了我们在初等微积分中学到的知识：标量函数 $g(x)=\sqrt{x}$ 在 $x=1$ 处的导数是 $g'(1) = \frac{1}{2}$ 。即使在这个抽象的矩阵世界里，我们关于微积分的基本直觉依然成立。用强大的柯西积分工具进行更深入的探索，会发现二阶导数是 $D^2F(I)(H,H) = -\frac{1}{4}H^2$ ，这再次完美地类比于标量二阶导数 $g''(1) = -\frac{1}{4}$ 。

从一个简单、看似荒谬的问题出发，我们穿越了幂级数、视角变换和多项式“伪装者”，最终抵达了一个具有惊人深度和效用的统一理论。支配矩阵函数的原理并非随意的规则，而是函数与矩阵自身内在结构的深刻反映，揭示了不同数学领域之间美妙的和谐统一。

应用与跨学科联系

既然我们已经熟悉了矩阵函数的工具，你可能会好奇：这一切究竟是为了什么？它仅仅是一场优雅的数学演练，是理论家们的新玩具吗？事实远非如此。将矩阵视为某个变量（无论是频率、能量还是时间）的函数的能力，是现代科学与工程中最强大、最具统一性的概念之一。它是描述多个原因导致多个结果且彼此交织的系统的自然语言。

让我们踏上一段旅程，看看这同一个思想如何为我们揭示迥然不同的世界中的秘密，从工业厂房里嗡嗡作响的控制室，到分子内部寂静的亚原子之舞。

控制的交响曲：驾驭复杂系统

想象你是一名工程师，负责运营一个大型化工厂。你有一组可以调节的旋钮（输入，如阀门设置或加热器功率），和一组必须监控的仪表（输出，如温度、压力或产品浓度）。问题在于，转动任何一个旋钮都会影响所有的仪表，而观察任何一个仪表都会告诉你关于所有旋钮的信息。这个系统是一个错综复杂的交互网络。你究竟如何才能控制它？

这是多输入多输出（MIMO）系统的典型问题，而传递函数矩阵就是它的罗塞塔石碑。我们可以将这样一个系统的整个动态特性打包成一个矩阵 $G(s)$ ，其中每个元素都是复频率 $s$ 的函数。这个矩阵函数通过看似简单的方程 $Y(s) = G(s)U(s)$ ，直接将输入的拉普拉斯变换 $U(s)$ 与输出的拉普拉斯变换 $Y(s)$ 联系起来。

这个矩阵并非凭空而来。对于许多物理系统，比如一个简化的相互作用的双热室模型，我们可以直接从支配系统行为的底层微分方程（通常以状态空间表示法表达）中推导出它的精确形式。矩阵函数 $G(s)$ 成为系统灵魂的一个紧凑的、频域的写照。

一旦我们有了这张写照，就可以开始分析它。就像医生看心电图来诊断心脏一样，工程师通过检查 $G(s)$ 的属性来理解系统。我们寻找它的极点，即矩阵元素“爆炸”的 $s$ 值。这些极点对应于系统的自然共振频率——系统倾向于振荡甚至变得不稳定的频率。我们还寻找它的传输零点，即矩阵“降秩”（对于方阵，即其行列式变为零）的特殊频率。在传输零点处，系统可以有效地阻止输入对输出产生任何影响。对一个系统（如一个双罐化学处理器模型）的极点和零点进行仔细分析，可以在我们建造它之前就揭示其固有的稳定性和响应特性。

在这里，矩阵的视角揭示了一个美妙而有时令人惊讶的精妙之处。我们有可能用所有行为良好（我们称之为“最小相位”）的组件构建一个复杂的系统，但整个系统却可能存在一个隐藏的病态——一个位于复平面“不稳定”右半部分的传输零点。这会使系统极难控制。这样一个“非最小相位”零点是相互连接系统的涌现属性；如果你只看单个部分，它是不可见的，但当你计算整个矩阵函数的行列式时，它就变得一目了然。整体确实有别于部分之和。

这不仅是一个分析工具，更是一个创造性工具。在控制设计领域，我们使用矩阵函数来主动塑造系统的行为。假设我们想“解耦”一个系统——也就是说，我们想设计一个控制器，使得转动旋钮1只影响仪表1，而旋钮2只影响仪表2。这等同于要求整个闭环系统具有一个对角传递函数矩阵。值得注意的是，在某些条件下，我们可以通过设计一个包含被控对象矩阵的逆 $G(s)^{-1}$ 的控制器 $C(s)$ 来实现这一点。我们实际上是在对这些函数进行矩阵代数运算，以塑造系统的最终响应！

即使对于更实用、更日常的控制设计，矩阵函数也是我们的向导。在化学工程中，一个用于在复杂过程（如制造半导体薄膜）中配对输入和输出的标准技术，涉及到计算所谓的相对增益矩阵（RGA）。这个矩阵是直接由系统在零频率下的矩阵函数 $G(0)$ （也称为稳态增益矩阵）计算得出的。此外，著名的反馈回路 Nyquist 稳定性判据有一个向 MIMO 系统的华丽推广：整个多变量回路的稳定性可以通过检查一个标量函数 $\det(I + L(s))$ 的图像来确定，其中 $L(s)$ 是开环传递矩阵。一次又一次，矩阵作为一个整体的属性讲述了完整的故事。

一条统一的线索：信息、物理与量子

如果故事在控制工程这里就结束了，那也已经是一项伟大的胜利。但情节更加丰富。这同一个数学框架出现在表面上看起来与化工厂毫无关系的领域。

考虑通过一个有噪声的信道发送消息——一串比特流——的挑战。为了保护消息，我们使用纠错码。其中最强大的一类，即卷积码，可以被看作一个线性系统，它接收一个输入数据流并生成多个冗余的输出流。而这个系统是如何描述的呢？你猜对了：通过一个传递函数矩阵，通常写为 $G(D)$ ，这里的变量不是频率，而是一个*延迟算子* $D$ 。数学是相同的，但物理诠释已经从连续的时间和频率转变为离散的时间和延迟。这是该概念抽象力量的一个惊人例子。

这种联系甚至更深，直达基础物理和应用数学的核心。计算机是如何求解像泊松方程 $-u''(x) = f(x)$ 这样的微分方程的？该方程描述了从静电学到热流的各种现象。我们通常通过“离散化”问题来做到这一点——将连续函数 $u(x)$ 变成一个由离散网格点上的值组成的长向量 $\mathbf{u}$ 。在这个过程中，微分算子 $-d^2/dx^2$ 变成一个巨大但简单的矩阵，比如 $L$ 。方程变成矩阵方程 $L\mathbf{u} = \mathbf{f}$ 。解于是形式上为 $\mathbf{u} = L^{-1}\mathbf{f}$ 。这个逆矩阵 $G = L^{-1}$ ，被称为离散格林函数。它的每个元素 $G_{ij}$ 都有一个优美的物理意义：它告诉你一个在点 $j$ 的“戳刺”（单位源项）对点 $i$ 的解有多大影响。这个矩阵的结构可以以一个简洁的闭合形式找到，它是求解连续微分方程的积分算子的离散模拟。

这把我们带到了最后的终点：量子世界。在量子化学中，一个分子电子的允许能级是被称为哈密顿量 $\mathbf{H}$ 的矩阵算符的特征值。找到这些特征值可能很困难。一种替代的、极其强大的方法是构建量子力学格林函数矩阵，定义为 $\mathbf{G}(E) = (E\mathbf{S} - \mathbf{H})^{-1}$ ，其中 $E$ 是代表能量的变量， $\mathbf{S}$ 是一个重叠矩阵（在简单模型中通常是单位矩阵）。这是一个能量的矩阵值函数。神奇之处在于：分子轨道能量，这些决定分子化学性质的最基本量，表现为这个格林函数矩阵的极点。矩阵函数“爆炸”时的能量值 $E$ 正是系统允许的量子能级。我们可以通过分析一个矩阵[函数的奇点](@article_id:298215)来找到一个分子的量子秘密。

从工业控制，到数字通信，到数值物理，再到物质的量子结构，将矩阵视为一个函数的思想提供了一种共同的语言和一个统一的视角。它让我们能够将一个复杂的、相互作用的系统，不看作是一堆令人困惑的部件，而是看作一个拥有自己个性、自己共振和自己秘密的单一实体，所有这一切都等待着通过研究其矩阵函数的属性来被发现。这就是这个非凡概念的内在美和统一性所在。