矩阵乘法的性质

玻尔百科

核心要点

矩阵乘法代表线性变换的复合，其中运算顺序至关重要。
结合律 $(AB)C = A(BC)$ 保证了变换链具有一致的结果，从而可以分析复杂系统。
与标量乘法不同，矩阵乘法通常不满足交换律 ( $AB \neq BA$ )，这反映了作用的顺序很重要。
线性保证了输入之和的变换等于它们各自变换之和，这一原则被称为叠加原理。
逆矩阵允许“撤销”变换和求解矩阵方程，但仅对某些方阵有定义。

引言

许多人初次接触矩阵乘法时，会觉得它是一套武断且常常令人困惑的算术规则。例如，顺序至关重要这一概念，就与我们处理普通数字的所有经验背道而驰。本文旨在通过重塑其核心概念来揭开这些性质的神秘面纱：矩阵不是一个静态的数字网格，而是一个动态的作用——一种变换。因此，理解矩阵乘法，就是要理解这些作用如何组合与复合。我们将超越死记硬背，探索支配变换代数的深层逻辑。

在接下来的章节中，我们将首先剖析矩阵乘法的基本“原理与机制”。我们将探讨为何结合律是序列过程的基石，线性如何促成了强大的叠加原理，以及著名的非交换性为何是现实世界作用的直观反映。随后，“应用与跨学科联系”一章将展示这些抽象规则如何成为描述科学与工程中各种系统的基本语法，从卫星动力学、纠错码的结构，到量子力学的对称性。

原理与机制

要真正理解矩阵乘法的性质，我们必须首先摒弃一个安逸的观念：矩阵仅仅是静态的数字网格。这就像把汽车描述为一堆金属和塑料零件的集合。完全没有抓住重点！矩阵是一种作用。它是一台机器，接收一个向量（你可以把它想象成空间中的一个点、一个信号或一组输入），并将其变换为另一个向量。那么，两个矩阵的“乘法”就不仅仅是某个随意的算术过程；它是复合这些变换的行为，即让我们的输入通过一台机器，然后将其输出直接送入下一台。

游戏规则：结合律与线性

想象你有一系列信号处理滤波器。第一个滤波器 $R$ 将你的二维输入信号映射到三维空间。第二个滤波器 $S$ 将该三维信号带回到二维。第三个滤波器 $T$ 处理最终的二维信号。总变换是复合变换 $L = T \circ S \circ R$ 。用矩阵的语言来说，代表整个链条的单一矩阵 $M_L$ 就是乘积 $M_L = M_T M_S M_R$ 。

这就引出了第一个，或许也是最令人安心的性质：结合律。在计算这个乘积时，我们是先计算 $M_S M_R$ 的组合效应再应用 $M_T$ ，还是先组合 $M_T M_S$ 再将其应用于 $M_R$ 的结果，有关系吗？当然没有。无论我们如何对运算进行分组，最终的输出都是相同的。在代数中，这写作 $(M_T M_S) M_R = M_T (M_S M_R)$ 。这个性质给了我们巨大的自由，是代数操作的基石。它向我们保证，一个变换链具有单一、明确的意义。

下一个性质是“线性”代数的灵魂：线性。它包含两条简单而强大的规则。

首先，想象你有两个不同问题 $A\mathbf{x} = \mathbf{b}_1$ 和 $A\mathbf{x} = \mathbf{b}_2$ 的两个解 $\mathbf{x}_1$ 和 $\mathbf{x}_2$ 。如果我们将这两个解相加会发生什么？矩阵乘法的线性告诉我们 $A(\mathbf{x}_1 + \mathbf{x}_2) = A\mathbf{x}_1 + A\mathbf{x}_2 = \mathbf{b}_1 + \mathbf{b}_2$ 。这就是“叠加原理”。输入之和的变换就是它们各自变换之和。系统能够优雅地处理组合输入，而不会让它们以不可预测的方式相互干扰。

其次，考虑一个场景，其中一个由向量 $\mathbf{x}_0$ 代表的特定原液配方，通过方程 $A\mathbf{x}_0 = \mathbf{b}_0$ 产生一个由向量 $\mathbf{b}_0$ 描述的所需营养培养基。现在，如果你需要生产一批大15倍的产品，最终需要 $15\mathbf{b}_0$ 的成分，该怎么办？线性提供了一个非常简单的答案：你只需将你的配方按相同比例放大即可。新的解决方案是 $15\mathbf{x}_0$ ，因为 $A(15\mathbf{x}_0) = 15(A\mathbf{x}_0) = 15\mathbf{b}_0$ 。这种直接的可扩展性是线性系统的一个标志，也是它们在科学和工程中实用性的基石。

巨大的意外：顺序决定一切

我们现在来到了矩阵乘法最著名，也是起初最令人困惑的性质。对于我们日常使用的数字， $a \times b$ 总是等于 $b \times a$ 。我们想当然地认为这种交换律是成立的。但对于矩阵，这是大错特错。通常情况下，对于两个矩阵 $A$ 和 $B$ ：

AB \ne BA

为什么？因为矩阵是作用，而作用的顺序至关重要。先穿袜子再穿鞋，和先穿鞋再穿袜子是两码事。先旋转一个物体再对其进行剪切，和先剪切再旋转也不是一回事。

这对代数有深远的影响。考虑我们熟悉的展开式 $(a+b)^2 = a^2 + 2ab + b^2$ 。让我们用矩阵来试试。正确的展开式是 $(A+B)^2 = (A+B)(A+B) = A(A+B) + B(A+B) = A^2 + AB + BA + B^2$ 。只有当 $AB=BA$ 时，我们才能将中间项合并为 $2AB$ 。当它们不相等时，我们就只能保留四个独立的项。

一个有趣的例子来自对幂零矩阵的研究——即平方后变为零矩阵的矩阵。让我们取两个矩阵 $A$ 和 $B$ ，使得 $A^2=O$ 且 $B^2=O$ 。它们的和 $A+B$ 也是幂零的吗？我们被交换代数“惯坏”的直觉可能会说是。但看看展开式： $(A+B)^2 = A^2 + AB + BA + B^2 = AB+BA$ 。这不一定是零！在问题中构造的一个具体案例里，和 $AB+BA$ 实际上是单位矩阵，与零矩阵截然相反。这戏剧性地表明，我们必须时刻警惕乘法的顺序。

平静的绿洲与隐藏的对称性

虽然非交换性是普遍规则，但它并非普适法则。存在一些美妙的“平静绿洲”，在这些地方顺序无关紧要。最直观的例子是二维平面中的旋转矩阵集合 $SO(2)$ 。一个矩阵 $R(\theta)$ 将一个向量旋转角度 $\theta$ 。如果我们先旋转 $\alpha$ 再旋转 $\beta$ ，结果是总共旋转了 $\alpha+\beta$ 。如果我们先旋转 $\beta$ 再旋转 $\alpha$ ，这对我们的直觉或最终结果都没有任何影响。代数完美地证实了这一点： $R(\alpha)R(\beta) = R(\beta)R(\alpha) = R(\alpha+\beta)$ 。相互交换的矩阵集合在代数上是特殊的，它们构成了称为阿贝尔群的结构。

即使矩阵不交换，它们也可能隐藏着惊人的对称性。考虑乘积 $AB$ 和 $BA$ 。这两个矩阵可能看起来完全不同。然而，如果你计算它们主对角线上元素的和——一个称为迹（记作 $\text{Tr}$ ）的量——你会发现一个非凡的事实：

\text{Tr}(AB) = \text{Tr}(BA)

这个结论总是成立的。这是一种“守恒律”。无论你以何种顺序执行变换，最终复合变换的这个特定数值特征都保持不变。这是一个线索，表明尽管 $AB$ 和 $BA$ 是不同的矩阵，但它们共享着深层的内在联系（事实上，它们具有相同的特征值集合）。

撤销的艺术：逆矩阵

如果一个矩阵 $A$ 代表一个作用，那么很自然地会问，是否存在一个作用可以撤销它。这就是逆矩阵（记作 $A^{-1}$ ）的角色。“什么都不做”的作用，即让任何向量保持不变的作用，是单位矩阵 $I$ （一个对角线上为1，其他位置为0的矩阵）。逆矩阵的基本定义是一个矩阵 $A^{-1}$ ，它从两侧都满足撤销属性：

AA^{-1} = I \quad \text{且} \quad A^{-1}A = I

这个看似简单的定义具有直接而强大的推论。首先，它告诉我们只有方阵才能有这样的逆。为什么？考虑一个尺寸为 $p \times q$ 的非方阵 $M$ ，其中 $p \ne q$ 。为了使乘积有定义，一个假设的逆矩阵 $N$ 必须是 $q \times p$ 的。但这样一来，乘积 $MN$ 是一个 $p \times p$ 矩阵，而乘积 $NM$ 是一个 $q \times q$ 矩阵。定义要求两者都等于同一个单位矩阵，但这是不可能的！一个必须是 $I_p$ ，另一个必须是 $I_q$ ，由于 $p \ne q$ ，这便构成了矛盾。

对于方阵，还有一个精妙之处。我们是否总需要同时检查 $AB=I$ 和 $BA=I$ 这两个条件？对于一般的代数结构，你必须这么做。但方阵的世界更为严格。有一个定理指出，如果你有两个方阵 $A$ 和 $B$ ，并且你已经验证了 $AB=I$ ，那么 $BA=I$ 也必然成立。

有了逆矩阵，我们就可以求解矩阵方程。为了从 $AXB=C$ 中解出 $X$ ，我们不能简单地“相除”。我们必须小心地“剥离”两边的矩阵，同时尊重非交换的顺序。要从左边消除 $A$ ，我们必须从左边乘以 $A^{-1}$ ： $A^{-1}(AXB) = A^{-1}C$ ，简化为 $XB = A^{-1}C$ 。然后，要从右边消除 $B$ ，我们从右边乘以 $B^{-1}$ ： $(XB)B^{-1} = (A^{-1}C)B^{-1}$ 。这样就分离出了我们的未知数： $X = A^{-1}CB^{-1}$ 。每一步都由矩阵代数的基本性质所决定。

深层统一性的一瞥

矩阵乘法的性质不仅仅是一套枯燥的规则；它们是连接数学不同分支的线索。考虑它与几何学的联系。两个向量的点积，写作 $\mathbf{x}^T \mathbf{y}$ ，告诉我们它们之间的夹角和它们的长度。当两个向量都被矩阵 $A$ 变换后，这种几何关系会发生什么变化？新的点积是 $(A\mathbf{x})^T(A\mathbf{y})$ 。利用转置性质 $(MN)^T = N^T M^T$ ，这个表达式变成了 $\mathbf{x}^T (A^T A) \mathbf{y}$ 。这是一个优美的结果。它表明，关于变换 $A$ 如何拉伸、收缩和旋转空间的所有信息，都被封装在单一的对称矩阵 $A^T A$ 中。

最后，作为数学深刻且常常出人意料的统一性的证明，我们来考虑Cayley-Hamilton 定理。每个方阵都满足其自身的特征方程。这听起来很抽象，但纯粹是魔法。特征方程是我们为求解矩阵特征值而解的方程，例如 $\lambda^2 + 2\lambda - 8 = 0$ 。该定理指出，如果我们将变量 $\lambda$ 替换为矩阵 $A$ 本身（并将常数项 $-8$ 替换为 $-8I$ ），该方程依然成立： $A^2 + 2A - 8I = O$ 。这就像发现一个人的生平故事是由描述其基本性格特征的同一个方程所支配。我们甚至可以利用这一点！从 $A^2 + 2A = 8I$ ，我们可以两边乘以 $A^{-1}$ 得到 $A + 2I = 8A^{-1}$ 。整理后就得到了逆矩阵： $A^{-1} = \frac{1}{8}(A+2I)$ 。我们不是通过暴力计算，而是通过利用一个将矩阵与其自身定义方程联系起来的深刻内在性质，求出了矩阵的逆。正是在这些意想不到的联系中，我们看到了数学世界真正的美丽与力量。

应用与跨学科联系

在探讨了矩阵乘法的基本规则——结合律、分配律以及奇特的非交换性——之后，人们可能会倾向于将它们仅仅看作一个抽象数学游戏的规则。但事实远非如此。这些性质并非任意的约定；它们是变化的语法本身，是支撑整个科学与工程领域中系统结构与演化的逻辑。它们决定了我们如何描述世界，世界内部什么是可能的，以及我们如何利用其原理。让我们踏上一段旅程，看看这些简单的代数法则如何演化为一幅丰富的应用图景，从我们数字世界的比特和字节，到宇宙最深层的对称性。

变化与变换的语法

矩阵乘法的核心在于变换。向量代表一个状态，用矩阵乘以它则代表其演化的一步。结合律，即 $(AB)C = A(BC)$ 的思想，可能看起来像一个枯燥的技术细节。实际上，它是关于序列过程本质的深刻陈述。它告诉我们，如果你有一系列变换，如何对它们进行分组并不重要；最终结果是相同的。这个原理是我们建立对系统如何随时间演化的理解的基石。

想象一下，你正在追踪一颗卫星、一个股价或一个细胞群。系统在给定时间的状态可以由向量 $x_k$ 表示，其在下一个时间步长的状态由线性规则 $x_{k+1} = A x_k$ 给出。你如何预测未来100步的状态？你需要计算 $x_{100} = A^{100} x_0$ 。一种方法是费力地将向量 $x_0$ 与矩阵 $A$ 相乘一百次。但那是暴力方法。由结合律驱动的线性代数的优雅之处为我们提供了一种更具洞察力的方法。如果矩阵 $A$ 可以“对角化”——写成 $A = V \Lambda V^{-1}$ ——那么计算它的幂就变得异常简单。结合律保证了 $A^2 = (V \Lambda V^{-1})(V \Lambda V^{-1}) = V \Lambda(V^{-1}V)\Lambda V^{-1} = V \Lambda^2 V^{-1}$ 。通过归纳法，这可以推广到任意次幂： $A^k = V \Lambda^k V^{-1}$ 。由于 $\Lambda$ 是一个对角矩阵，计算 $\Lambda^k$ 是微不足道的；我们只需将其对角线元素提高到 $k$ 次幂。我们在这里做了什么？我们进行了一次巧妙的坐标变换（使用 $V^{-1}$ ），让系统在其“自然”基中演化，在这个基中动力学是简单的（乘以 $\Lambda^k$ ），然后又变换回我们原来的坐标（使用 $V$ ）。这个技巧是求解线性动力系统的核心，它完全由矩阵乘法的结合律所支持。它将一个复杂的迭代问题转化为一个简单的直接计算，揭示了编码在特征值中系统行为的潜在“模式”。

这种通过改变坐标来简化问题的思想，引出了关于物理系统与我们对其描述之间区别的更深刻见解。在控制理论中，我们使用一组矩阵 $(A, B, C)$ 来为系统建模。但这种描述是唯一的吗？如果我们选择一组不同的内部状态变量会怎样？这相当于一次“相似变换”，其中新矩阵通过一个可逆矩阵 $T$ 与旧矩阵相关联： $A' = TAT^{-1}$ ， $B' = TB$ ， $C' = CT^{-1}$ 。从内部看，系统看起来完全不同；矩阵都混杂在一起。然而，外部的物理行为——系统响应输入的方式——却保持绝对不变。为什么？考虑衡量这种行为的一个关键指标，即马尔可夫参数序列 $g_k = C A^{k-1} B$ 。对于变换后的系统，它变为 $g_k' = C' (A')^{k-1} B'$ 。让我们代入新矩阵，见证结合律的魔力： $g_k' = (C T^{-1}) (T A T^{-1})^{k-1} (T B)$ 正如我们所见， $(TAT^{-1})^{k-1}$ 简化为 $TA^{k-1}T^{-1}$ 。所以， $g_k' = (C T^{-1}) (T A^{k-1} T^{-1}) (T B) = C (T^{-1}T) A^{k-1} (T^{-1}T) B = C A^{k-1} B = g_k$ 变换矩阵 $T$ 和 $T^{-1}$ 在中间相遇并相互抵消！结合律揭示了物理输入-输出映射在我们内部描述的改变下是不变的。这是一个优美而强大的概念：矩阵性质帮助我们区分现实中什么是根本的，而什么仅仅是我们所选视角的人为产物。

信息与几何的代数

除了描述变化，矩阵性质还定义了信息和几何的结构本身。它们为一切提供了框架，从确保我们的数据正确传输到在二维屏幕上渲染逼真的三维世界。

思考现代通信的奇迹。数据在全球范围内飞速传输，穿过嘈杂的信道，却能惊人地完好无损地到达。这种魔力的一部分归功于纠错码。其中许多是“线性码”，它们拥有一个非常简单的结构：如果你将任意两个有效的码字相加，你会得到另一个有效的码字。这个关键性质从何而来？它直接源于矩阵乘法的*分配律*。在线性码中，一个消息向量 $u$ 通过与一个“生成”矩阵 $G$ 相乘被编码成一个码字 $c$ ，即 $c = uG$ 。如果我们有两个消息 $u_1$ 和 $u_2$ ，它们产生的码字是 $c_1 = u_1G$ 和 $c_2 = u_2G$ 。它们的和是 $c_1 + c_2 = u_1G + u_2G$ 。在这里，分配律允许我们提出矩阵 $G$ ： $u_1G + u_2G = (u_1 + u_2)G$ 由于 $u_1+u_2$ 只是另一个有效的消息向量，它与 $G$ 的乘积根据定义就是一个有效的码字。这种直接源于分配律的封闭性，赋予了线性码优雅的代数结构，我们利用这种结构来高效地检测和纠正错误。

矩阵乘法的性质也抓住了几何运算的精髓。直观上讲，将一个三维物体“投影”到一个二维表面上意味着什么？这意味着我们将其映射到该表面上，如果我们再次尝试投影它，它已经在那儿了，所以什么都不会改变。这个简单的直觉被幂等性这个代数性质完美地捕捉到：对于一个投影矩阵 $P$ ，我们有 $P^2 = P$ 。从这个单一、简单的方程，我们可以推断出关于投影几何的深刻道理。如果 $v$ 是 $P$ 的一个特征向量，其特征值为 $\lambda$ ，那么 $Pv = \lambda v$ 。再次应用 $P$ 得到 $P^2v = P(\lambda v) = \lambda(Pv) = \lambda^2v$ 。由于 $P^2=P$ ，我们必然有 $\lambda^2v = \lambda v$ 。对于一个非零向量 $v$ ，这迫使 $\lambda^2 - \lambda = 0$ ，这意味着唯一可能的特征值是 $\lambda=0$ 或 $\lambda=1$ 。这不仅仅是一个数学上的奇特现象；这是关于投影的一个深刻真理。任何向量要么被湮灭（投影到零向量， $\lambda=0$ ），要么在投影下保持不变（如果它已经在目标空间中， $\lambda=1$ ）。这个简单的代数性质支撑着计算机图形学、统计学，甚至量子力学，在量子力学中，测量一个系统通常被描述为一次投影。

在更实际的层面上，矩阵性质是计算科学家不可或缺的工具。在优化过程、将模型拟合到数据或寻找系统的最小能量构型时，我们经常会得到涉及矩阵的复杂表达式。为了在计算机上解决这些问题，必须将它们操作成一种标准的、可管理的形式。这个过程中的一个关键工具是乘积转置的规则： $(XY)^T = Y^T X^T$ 。注意顺序的反转！这个规则，连同结合律和分配律，使我们能够将一个看似难以处理的目标函数（例如在参数估计算法中可能遇到的那种），有条不紊地展开并重新排列成一个计算机可以最小化的清晰的二次型。这些性质是主力军，是任何使用数学解决实际问题的人工具箱中可靠的扳手。

对称性与复合系统的语言

物理学家热爱对称性。对称性是一种使系统看起来保持不变的变换，而 Emmy Noether 教导我们，自然界中的每一个连续对称性，都对应着一个守恒量（如能量、动量或电荷）。许多这些对称变换——旋转、升压和更抽象的内部对称性——都可以用矩阵来表示。给定类型的所有对称变换的集合通常形成一个“群”。这意味着该集合在乘法下是封闭的（一个对称操作后跟另一个仍然是对称），它包含一个单位元（什么都不做），并且每个操作都是可逆的（它有逆）。矩阵乘法自动满足结合律，这也是群的一个要求。例如，所有行列式为1的 $2 \times 2$ 矩阵的集合构成了群 $SL(2, \mathbb{R})$ 。这可以通过检查来验证：如果 $\det(A)=1$ 且 $\det(B)=1$ ，那么 $\det(AB) = \det(A)\det(B) = 1$ ，并且 $\det(A^{-1}) = (\det A)^{-1} = 1$ 。最重要的是，这些矩阵群通常是非交换的 ( $AB \neq BA$ )。想一想旋转一本书：围绕垂直轴旋转90度，再围绕水平轴旋转90度，其最终的朝向与你以相反顺序执行旋转是不同的。这种非交换性不是一个数学上的怪癖；它是我们三维世界的一个基本特征，其在物理学中的推广产生了基本粒子的结构及其之间的相互作用力。

矩阵乘法的规则也可以扩展到描述独立系统如何组合。在量子力学中，如果我们有两个系统——比如两个粒子——它们被单独描述，我们如何描述这个组合实体？答案在于克罗内克积（或张量积），用 $\otimes$ 表示。如果系统1根据矩阵 $A$ 演化，系统2根据矩阵 $B$ 演化，那么组合演化会涉及像 $A \otimes I + I \otimes B$ 这样的表达式。要处理这些大得多的矩阵，我们需要知道它们如何相乘。基本规则是“混合乘积性质”： $(X \otimes Y)(Z \otimes W) = (XZ) \otimes (YW)$ 。注意这个优美的规则如何在右侧将两个“世界”分开：每个乘积中的第一个矩阵组合在一起，第二个矩阵组合在一起。这使我们能够将二项式定理推广到这些对象。例如，如果 $A$ 和 $B$ 可交换，我们发现 $(A \otimes I + I \otimes B)^2$ 的展开就像 $(x+y)^2$ 一样，得到 $A^2 \otimes I + 2(A \otimes B) + I \otimes B^2$ 。这种数学机制使我们能够处理多个量子粒子，并且是理解量子理论最著名现象之一——纠缠——的基础。

最后，对于那些不仅复杂，而且是混沌或随机的系统，比如天气或流体中的湍流，我们该如何处理？我们可以将这样一个系统建模为在每个时间步长乘以一个不同的随机矩阵的乘积： $x_n = A_n A_{n-1} \cdots A_1 x_0$ 。预测这样一个乘积的长期行为似乎是无望的。然而，Oseledec 的乘法遍历定理，一个数学上的里程碑式结果，告诉我们，对于几乎任何随机矩阵序列， $\|x_n\|$ 的长期指数增长率会收敛到一组明确定义的数，称为李雅普诺夫指数。这些指数告诉我们系统是稳定的还是混沌的。这个理论的整个数学结构都建立在矩阵乘积的结合律之上，表现为所谓的上循环恒等式。这个恒等式本质上说明，从时间 $m$ 到 $n+m$ 的演化可以看作是从 $0$ 到 $m$ 的演化与在已经演化了 $m$ 步的世界中从 $0$ 到 $n$ 的演化的乘积。这只是结合律的反复应用，使我们能够在表面的随机性中找到深层的结构秩序。

从两个数字数组相乘这个简单的行为中，一个充满结构的世界就此展开。这个运算的性质是将动力学、信息、几何和对称性原理编织在一起的线索。它们为描述我们的世界提供了一种统一的语言，以优美的清晰度展示了几个简单的规则如何能产生我们周围所见的非凡复杂性和丰富性。