矩阵的结合律

玻尔百科

定义

矩阵的结合律是线性代数中的一个基本原理，指对于任意三个可相乘的矩阵 A、B 和 C，乘积 (AB)C 等于 A(BC)。这一性质源于将矩阵视为线性变换，而矩阵乘法则是这些变换的复合，保证了变换序列在重新组合时保持逻辑一致。它是求解矩阵方程和简化复杂矩阵表达式的核心工具，并为群论和量子力学等高级数学与科学领域提供了结构基础。

核心要点

矩阵乘法的结合律 $(AB)C = A(BC)$ 并非代数上的巧合，而是将矩阵视为作用（线性变换）及其乘法视为函数复合的直接结果。
结合律是求解矩阵方程（例如， $A\vec{x} = \vec{b}$ ）和通过重新组合项来简化复杂矩阵表达式的基本工具。
该性质为群论和矩阵相似性等高等数学概念提供了结构基础，确保了一系列变换在逻辑上的一致性。
其原理在跨学科应用中不可或缺，从证明量子力学中的关键关系到支持数据科学和工程中的数值算法。

引言

结合律，即 $(a \times b) \times c = a \times (b \times c)$ ，是我们在初等算术中习以为常的一条规则。然而，在线性代数的世界里，矩阵乘法是出了名的不可交换且常常与直觉相悖，我们还能想当然地认为这条简单的规则依然适用吗？对于矩阵而言， $(AB)C = A(BC)$ 这一事实并非一个微不足道的细节，而是一个基石性质，其背后的道理揭示了矩阵自身的真正本质。本文旨在填补“仅仅知道规则”与“深刻理解其为何必然成立及其深远意义”之间的知识鸿沟。

本次探索分为两大章节。在“原理与机制”中，我们将超越繁琐的代数证明，揭示结合律背后优美的理由：将矩阵解读为作用，即线性变换。您将了解到矩阵乘法不过是函数复合的一种形式，这使得结合律成为逻辑上的必然。随后，“应用与跨学科联系”一章将展示这单一性质如何成为几乎所有线性代数的关键，使我们能够求解方程、定义群等基本结构，并在从量子力学到计算机图形学的广泛领域中解锁强大的洞见。

原理与机制

在我们探索矩阵世界的旅程中，我们常常会遇到一些初看起来似乎很随意的规则，它们像戒律一样被传承下来。你必须用行乘以列。你不能交换乘法顺序。在这些规则中，有一个性质看起来如此简单、如此熟悉，以至于我们可能不会多加思索：结合律。对于任意三个普通数字 $a$ 、 $b$ 和 $c$ ，我们毫无疑问地知道 $(a \times b) \times c = a \times (b \times c)$ 。无论你先乘 $a$ 和 $b$ ，还是先乘 $b$ 和 $c$ ，结果都是一样的。这是算术的基石。

但矩阵呢？考虑到矩阵乘法奇特且不可交换的性质，我们真的能确定对于三个矩阵 $A$ 、 $B$ 和 $C$ ，等式 $(AB)C = A(BC)$ 成立吗？为什么它应该成立？这不是一个可以凭信念接受的问题。这是一个谜题，一旦解开，便揭示了矩阵究竟是什么。

一条看似不合理的规则

要说服自己结合律成立，一种方法是挽起袖子，直接动手计算。让我们取三个一般的 $2 \times 2$ 矩阵，然后把它们乘出来。这有点费劲，像是一场下标和求和的盛宴。你首先计算乘积 $AB$ ，得到一个新矩阵，然后将它乘以 $C$ 。接着，你从头开始，先计算乘积 $BC$ ，再用 $A$ 乘以它。

当所有这些代数运算的尘埃落定后，你会发现一些非凡的事情：最终得到的矩阵逐元素完全相同。 $(AB)C$ 左上角的每一项都与 $A(BC)$ 左上角的每一项完全匹配，其他所有元素也是如此。两个最终矩阵之差，在任何情况下，都是零矩阵。

这在某种程度上算是一个证明。这是一个穷举证明。它让我们相信这个陈述是正确的，但它没有给我们一丝一毫的直观理解，告诉我们为什么会这样。这感觉像是一个代数上的奇迹。然而，数学并非建立在奇迹之上，而是建立在深刻的、底层的结构之上。一定有一个更优美的理由。

更深层的真相：作为作用的矩阵

当我们不再将矩阵仅仅看作一个静态的数字网格，而是开始看到它真正代表的东西：一种作用时，那个优美的理由便浮现了。矩阵是线性变换的配方——一种拉伸、收缩、旋转或剪切空间的方式。当我们用矩阵 $A$ 乘以向量 $\vec{v}$ 得到一个新向量 $\vec{w} = A\vec{v}$ 时，我们描述的是变换 $A$ 对向量 $\vec{v}$ 的作用。

那么，乘以两个矩阵，比如 $A$ 和 $B$ ，意味着什么呢？乘积 $AB$ 代表了另一种作用，但它是一个复合作用。它代表先应用变换 $B$ ，然后再应用变换 $A$ 。这无非就是函数复合，一个你可能以前遇到过的概念。如果你有两个函数 $g(x)$ 和 $f(x)$ ，它们的复合 $(f \circ g)(x)$ 意味着“先做 $g$ ，再做 $f$ ”。矩阵乘法正是如此。

有了这一洞见，结合律的神秘感便荡然无存。考虑乘积 $A(BC)$ 。

项 $(BC)$ 代表复合作用：“先做 $C$ ，再做 $B$ ”。
整个表达式 $A(BC)$ 意味着：“先做复合作用 $(BC)$ ，然后再做 $A$ ”。
详细说来，事件的顺序是：先 $C$ ，再 $B$ ，然后 $A$ 。

现在让我们看看另一边， $(AB)C$ 。

项 $(AB)$ 代表复合作用：“先做 $B$ ，再做 $A$ ”。
整个表达式 $(AB)C$ 意味着：“先做 $C$ ，然后再做复合作用 $(AB)$ ”。
详细说来，事件的顺序是：先 $C$ ，再 $B$ ，然后 $A$ 。

它们是相同的！两个表达式 $(AB)C$ 和 $A(BC)$ 只是对完全相同的操作序列的两种不同断句方式。矩阵乘法的结合律并非代数奇迹；它直接继承自函数复合不言自明的结合性。它必然为真，因为它仅仅描述了事件的顺序。

这是一个深刻的视角转变。结合律与其说是矩阵中数字的性质，不如说是矩阵所代表的作用的性质。无论矩阵的元素是什么——实数、模6的整数，甚至是多项式——只要这些元素本身来自一个乘法满足结合律的系统，这个结论就成立。

重组的力量：为何结合律至关重要

所以，我们可以重组矩阵乘积。这有什么用呢？事实证明，这种“移动括号”的自由度是几乎所有线性代数的关键所在。正是它使矩阵成为一个强大、实用的工具，而不仅仅是一种好奇的研究对象。

想想如何解一个简单的方程，比如 $5x = 10$ 。你乘以其逆元 $(\frac{1}{5})$ ，然后重新组合： $(\frac{1}{5} \times 5)x = 1x = x$ 。这依赖于结合律。同样的逻辑对于矩阵也是不可或缺的。考虑求解一个线性方程组，它可以写成 $A\vec{x} = \vec{b}$ 。如果我们有一个矩阵 $B$ 使得 $BA = I$ （单位矩阵），我们可以通过在左边乘以 $B$ 来解出 $\vec{x}$ ： $B(A\vec{x}) = B\vec{b}$ 没有结合律，我们就会卡在这里。但因为我们可以重新组合，我们就可以写成： $(BA)\vec{x} = I\vec{x} = \vec{x} = B\vec{b}$ 这告诉我们唯一解是 $\vec{x} = B\vec{b}$ 。这个简单的操作，被用于从数字通信到结构分析的各种领域，如果没有结合律是不可能实现的。

这种重组的力量也让我们能够建立基本的代数规则。例如，我们什么时候可以从一个方程中“消去”一个矩阵？如果我们有 $AB = AC$ ，我们能得出 $B=C$ 吗？不总是可以！但如果 $A$ 有逆矩阵 $A^{-1}$ ，我们就可以。证明过程关键性地依赖于结合律： $A^{-1}(AB) = A^{-1}(AC)$ $(A^{-1}A)B = (A^{-1}A)C$ $IB = IC$ $B=C$ 这个消去律对于求解矩阵方程至关重要，它是拥有逆矩阵并能够重新组合乘积的直接结果。

应用是无穷无尽的。在密码学中，一个消息矩阵 $X$ 可能通过函数 $f(X) = AXB$ 进行加密。要解密它，我们必须找到逆函数。揭开这层加密的过程完全依赖于结合律： $Y = AXB$ $A^{-1}YB^{-1} = A^{-1}(AXB)B^{-1} = (A^{-1}A)X(BB^{-1}) = IXI = X$ 解密密钥是函数 $f^{-1}(Y) = A^{-1}YB^{-1}$ ，如果我们不能随意地重组矩阵，这个结果将毫无意义。同样的原理允许我们简化出现在抽象代数和物理学中的非常复杂的矩阵表达式，通过策略性地重组和消去项来解开复杂的乘积。

最后，结合律远不止是教科书中一条尘封的规则。它是线性代数的基本语法，是解释为何矩阵代表序列化作用的逻辑依据，也是让我们能够操作和求解矩阵方程的实用工具，从而释放它们描述和改变我们世界的巨大力量。虽然像交换律这样的其他性质可能会失效，创造出一个丰富而有时违反直觉的领域，但结合律作为一个可靠的基础支柱屹立不倒。它是一个完美的例子，说明了一个看似简单的规则，在被深刻理解后，如何揭示出数学优雅而统一的结构。它也使得某些代数结构，比如上三角矩阵集合，能够以可预测且有用的方式行事，形成一个具有单位元和封闭性的连贯系统，即使并非每个元素都可逆或可交换。

应用与跨学科联系

在探索了矩阵乘法的形式化定义后，人们可能会留下这样的印象：它的规则只是一些随意的约定。特别是结合律，这个默默宣告 $(AB)C = A(BC)$ 的性质，看起来可能像一个枯燥的技术脚注——一条我们必须遵守的记账规则。但这样看待它就错过了其中的魔力。这单一的性质并非仅仅是一个形式上的规定；它是一个关于复合本质的深刻陈述，一个结构上的保证，使我们能够搭建从抽象的数学世界到物理、工程和计算机科学的具体现实之间的桥梁。它是无数理论和技术背后无形的建筑师。

让我们从欣赏这条简单的分组规则如何帮助我们构建一致的逻辑结构开始我们的旅程。在数学中，我们常常希望对对象进行分类，说两样东西是“同一种类”。等价关系的概念为此提供了严谨的框架，要求该关系具有自反性、对称性和传递性。考虑矩阵相似性的概念，其中两个矩阵 $A$ 和 $B$ 如果代表相同的线性变换，只是在不同的坐标选择（不同的基）下，则它们是相似的。这表示为 $A = PBP^{-1}$ ，其中 $P$ 是某个可逆矩阵。为了证明这是一种有意义的分类，我们必须证明它是传递的：如果 $A$ 相似于 $B$ ，且 $B$ 相似于 $C$ ，那么 $A$ 必须相似于 $C$ 。证明过程是结合律在实践中一个优美的例证。如果 $A = PBP^{-1}$ 且 $B = QCQ^{-1}$ ，那么通过代入，我们得到 $A = P(QCQ^{-1})P^{-1}$ 。没有结合律，这只是一堆杂乱的矩阵。但因为我们可以重组这些操作，我们就可以写成 $A = (PQ)C(Q^{-1}P^{-1}) = (PQ)C(PQ)^{-1}$ 。这个优雅的重组揭示了 $A$ 确实与 $C$ 相似，通过复合的基变换 $PQ$ 相关联。结合律确保了相似性的链条不会断裂。

这种作为结构保证者的角色在群论的语言中得到了最形式化的表达。群是一个集合，其上的运算满足四个公理：封闭性、单位元、逆元和结合律。矩阵乘法的结合性是使大量变换集合能够形成群的基石。例如，所有具有整数项且行列式为1的 $2 \times 2$ 矩阵构成一个称为 $\mathrm{SL}_{2}(\mathbb{Z})$ 的群。这个群在数论和几何中至关重要，其作为一个连贯代数结构的存在依赖于结合律。一个更简单但同样深刻的例子来自物理学。在狭义相对论中，宇称变换（翻转三个空间坐标）由矩阵 $P$ 表示。连续两次应用此变换， $P(PX)$ ，看起来是两个不同的步骤。但结合律让我们能将其写为 $(PP)X = P^2 X$ 。快速计算表明 $P^2$ 是单位矩阵，这意味着两次宇称翻转让你回到起点。这个简单的事实，即 $P$ 是其自身的逆，是关于空间基本对称性的一个陈述，而我们能够写下并计算 $P^2$ 本身就依赖于结合律。

当我们研究演化和变化的系统时，结合律的力量才真正显现出来。考虑一下量子力学这个奇特而美丽的世界。在那里，像位置、动量和能量这样的物理量都由矩阵（或更广义的算符）表示。一个核心原则是，如果两个算符 $A$ 和 $B$ 可交换（即 $AB = BA$ ），它们代表的量可以被同时测量而没有不确定性。为什么会这样呢？假设我们有一个状态 $v$ ，它是 $A$ 的一个确定的本征态，所以 $Av = \lambda v$ 。当我们用算符 $B$ 作用于这个状态，创造出一个新状态 $w = Bv$ 时，会发生什么？这个新状态对于 $A$ 来说也是一个特殊的状态吗？让我们通过计算 $Aw = A(Bv)$ 来找出答案。在这里，结合律是我们的向导。我们可以重组得到 $(AB)v$ 。由于算符可交换，这与 $(BA)v$ 相同。再次重组得到 $B(Av)$ 。又因为 $Av = \lambda v$ ，我们得到 $B(\lambda v) = \lambda(Bv) = \lambda w$ 。最终结果 $Aw = \lambda w$ 告诉我们一些非凡的事情：新状态 $w$ 也是 $A$ 的一个本征态，且具有完全相同的本征值 $\lambda$ 。结合律与交换律相结合，确保了状态的特性得以保持。

这种通过移动括号来揭示隐藏关系的能力是一个反复出现的主题。线性代数中一个著名的结果指出，对于任意两个方阵 $A$ 和 $B$ ，乘积 $AB$ 和 $BA$ 具有相同的非零特征值。这似乎近乎魔幻。但证明过程是一场简单而优雅的结合律之舞。如果 $\lambda$ 是 $AB$ 的一个非零特征值，对应特征向量 $v$ ，因此 $(AB)v = \lambda v$ ，那么考虑向量 $u = Bv$ 。现在让我们看看 $BA$ 对 $u$ 的作用： $(BA)u = (BA)(Bv) = B(A(Bv)) = B((AB)v) = B(\lambda v) = \lambda(Bv) = \lambda u$ 。所以， $u = Bv$ 是 $BA$ 的一个特征向量，具有完全相同的特征值 $\lambda$ 。其中的秘诀仅仅是在前面乘以 $B$ ，然后让结合律完成剩下的工作。同样的原理使我们能够将一个变换的性质与其逆变换联系起来。如果矩阵 $A$ 将向量 $v$ 缩放因子 $\lambda$ ，那么它的逆矩阵 $A^{-1}$ 会做什么呢？从 $Av = \lambda v$ 开始，在前面乘以 $A^{-1}$ 得到 $A^{-1}(Av) = A^{-1}(\lambda v)$ 。结合律让我们能将左边写为 $(A^{-1}A)v = Iv = v$ 。方程变为 $v = \lambda(A^{-1}v)$ ，整理后得到 $A^{-1}v = \frac{1}{\lambda}v$ 。逆矩阵具有相同的特征向量，但其特征值是原始特征值的倒数。这些不仅仅是数学上的趣闻；它们是分析线性系统的基本工具。这个原理在控制理论等领域有直接应用，工程师通过改变坐标系来分析系统稳定性。观测器误差的动力学 $\dot{\tilde{x}} = (A-LC)\tilde{x}$ ，在基变换 $T$ 下，会变换到一个新系统，其矩阵为 $T(A-LC)T^{-1}$ ，这一计算正是通过结合分组得以实现的。

最后，结合律是驱动现代科学与工程的强大数值算法背后的无名英雄。当我们需要计算一个大矩阵的特征值时，会使用像QR算法这样的方法。该算法生成一个矩阵序列 $A_{k+1} = R_k Q_k$ ，其中 $A_k = Q_k R_k$ 是前一个矩阵的QR分解。可以证明 $A_{k+1}$ 只是 $A_k$ 的一个相似变换： $A_{k+1} = Q_k^T A_k Q_k$ 。这个推导过程关键性地依赖于从算法定义中重组诸如 $(Q_k^T A_k) Q_k$ 这样的项，这一步由结合律保证其合法性。每一步都是一个相似变换这一事实，保证了特征值在整个迭代过程中保持不变，使得算法能够收敛到正确答案。

同样，在数据科学中，奇异值分解（SVD）是简化和理解复杂数据集的极为重要的工具。它将矩阵 $A$ 分解为 $U\Sigma V^T$ 。这个分解实际上告诉我们，任何线性变换都可以看作是一次旋转（ $V^T$ ）、一次沿垂直轴的缩放（ $\Sigma$ ），以及另一次旋转（ $U$ ）。我们如何看出这一点呢？通过使用这些分量来变换 $A$ 本身。如果我们计算 $B = U^T A V$ ，我们可以代入 $A$ 的分解： $B = U^T (U\Sigma V^T) V$ 。应用结合律，我们将其分组为 $(U^T U) \Sigma (V^T V)$ 。由于 $U$ 和 $V$ 是正交矩阵， $U^TU$ 和 $V^TV$ 都是单位矩阵，整个表达式奇迹般地简化为 $\Sigma$ 。结合律证明了，通过从“正确”的视角（奇异向量）观察我们的系统，复杂的变换 $A$ 就变成了一个简单的缩放。这也是使我们能够求解矩阵方程的性质。如果一个系统模型得出一个关系式如 $A^2 = ABA$ ，其中 $A$ 是一个可逆变换，我们能够通过在左右两边乘以 $A^{-1}$ 并重组各项来分离出 $B$ ，正是这一能力导出了 $B$ 必须是单位矩阵的简单结论。

从定义对称性和等价性的基本语法，到驱动分析我们世界的算法，矩阵乘法的结合律远不止是一条需要记忆的规则。它是一个关于复合的基本原则，为我们对宇宙的数学描述带来了连贯性。它是那个沉默而坚定的伙伴，确保我们科学征途中的每一步都可以被组合、重组和重新排列，并始终通往一个一致而有意义的目的地。