首页四元数：三维旋转的代数及其扩展

四元数：三维旋转的代数及其扩展

玻尔百科

定义

四元数：三维旋转的代数及其扩展指的是一种将复数扩展到四维空间的数系，用于在代数层面上表示三维空间的旋转。该系统通过非交换乘法特性模拟了旋转对顺序的依赖性，并在航空航天、机器人和动画领域有效解决了欧拉角存在的万向节锁问题。此外，四元数对旋转的“双覆盖”特性在量子力学描述粒子自旋等方面具有重要的物理意义。

核心要点

四元数是四维数，它扩展了复数，用代数方式表示三维空间中的旋转。
它们具有非交换乘法特性，该特性完美地模拟了三维旋转的顺序依赖性。
通过使用四个参数，四元数巧妙地避免了万向节死锁——这是欧拉角表示法在航空航天、机器人学和动画领域的一个致命缺陷。
四元数提供了旋转的“双重覆盖”，这一特性在量子力学等领域描述粒子自旋时具有深刻的物理意义。

引言

几个世纪以来，描述旋转的挑战一直吸引着数学家和物理学家。虽然复数为二维平面中的旋转提供了一种优雅的代数工具，但将此概念扩展到三维空间却是一个艰巨的难题。这一局限性在我们的数学工具箱中造成了巨大的空白，使得对我们所处空间中物体的朝向进行建模变得困难。本文将深入探讨由 William Rowan Hamilton 发现的突破性解决方案：四元数，这是一个完美捕捉三维旋转代数的四维数系。

我们的旅程始于“原理与机制”一章，在这一章中，我们将揭示支配四元数的基本规则，探索其非交换性，并学习允许它们在空间中旋转向量的“三明治积”机制。我们还将探讨为什么这个四参数系统比欧拉角等三参数方法本质上更为稳健，能够成功避免可怕的“万向节死锁”。随后，“应用与跨学科联系”一章将展示四元数的非凡效用，阐明这一单一的数学思想如何成为计算机图形学、航空航天工程、分子动力学乃至深奥的量子力学世界等不同领域不可或缺的工具。

原理与机制

为了真正领略四元数的力量与美，让我们像 19 世纪伟大的爱尔兰数学家 William Rowan Hamilton 一样，踏上一段发现之旅。我们从一个看似简单却异常深刻的问题开始：我们如何将二维旋转的优雅数学推广到三维？

超越复数：创造一种新代数

在二维平面上，我们有一个处理旋转的绝佳工具：复数。一个复数 $z = a + b\mathbf{i}$ 可以被看作是平面上的一个点，但当我们用它来对其他点进行运算时，其真正的威力才会显现。将一个向量（表示为复数）乘以另一个单位长度的复数，可以优雅地将其旋转。于是，一个自然的问题出现了：我们能为三维空间发明一个类似的系统吗？

Hamilton 为此痴迷了多年。他最初尝试创建一个三元数系，形如 $a + b\mathbf{i} + c\mathbf{j}$ ，但都失败了。代数法则会失效；具体来说，乘积的模等于模的乘积这一性质不再成立。

他的突破性发现在都柏林的布鲁厄姆桥（Brougham Bridge）的石头上被著名地潦草记下，他意识到他需要的不是三个维度，而是四个。他提出了一种新的数，即四元数，其形式为：

q = q_0 + q_1\mathbf{i} + q_2\mathbf{j} + q_3\mathbf{k}

这里， $q_0$ 是“标量”部分，而 $(q_1, q_2, q_3)$ 构成“向量”部分。虚数单位 $\mathbf{i}$ 、 $\mathbf{j}$ 和 $\mathbf{k}$ 遵循一套全新的、革命性的规则：

\mathbf{i}^2 = \mathbf{j}^2 = \mathbf{k}^2 = \mathbf{ijk} = -1

从这一个简洁的陈述中，一整套代数体系就此展开。例如，如果 $\mathbf{ijk} = -1$ ，我们可以在右边乘以 $\mathbf{k}$ ： $\mathbf{ijk}\mathbf{k} = -\mathbf{k}$ ，简化为 $\mathbf{ij}(-1) = -\mathbf{k}$ ，即 $\mathbf{ij} = \mathbf{k}$ 。通过轮换字母，我们得到 $\mathbf{jk} = \mathbf{i}$ 和 $\mathbf{ki} = \mathbf{j}$ 。

但如果我们颠倒顺序会发生什么？考虑一下 $\mathbf{ji}$ 。我们知道 $\mathbf{ij} = \mathbf{k}$ 。如果四元数乘法是可交换的，那么 $\mathbf{ji}$ 也应该等于 $\mathbf{k}$ 。但让我们看看由 $\{\pm 1, \pm \mathbf{i}, \pm \mathbf{j}, \pm \mathbf{k}\}$ 构成的四元数群。我们可以证明 $\mathbf{ji} = -\mathbf{k}$ 。这看似一个缺陷，但它却是整个系统最关键的特性。

从你的桌子上拿一本书。向前旋转 $90^{\circ}$ （绕其水平轴），然后向右旋转 $90^{\circ}$ （绕其垂直轴）。记下它最终的朝向。现在，重新开始，并以相反的顺序执行旋转：首先向右旋转 $90^{\circ}$ ，然后向前旋转 $90^{\circ}$ 。这本书最终的朝向变得不同了！三维空间中的旋转本质上是非交换的。因此，任何希望描述它们的代数必须也是非交换的。Hamilton 发现的不是一个有缺陷的系统；他发现了三维空间本身的代数。

共轭的魔力：四元数如何旋转空间

那么我们有了这个四维数。它如何作用于我们熟悉的三维世界呢？我们不能简单地将一个三维向量乘以一个四维四元数，然后期望得到一个三维向量。其机制要精妙得多，并且在某种程度上也更优美。

首先，我们将三维空间中的向量 $\mathbf{v} = (v_x, v_y, v_z)$ 表示为一个纯四元数——一个标量部分为零的四元数：

p = 0 + v_x\mathbf{i} + v_y\mathbf{j} + v_z\mathbf{k}

接下来，我们使用一个单位四元数来定义旋转，即一个长度（或称模）为一的四元数 $q$ 。模是复数概念的自然延伸。对于一个四元数 $q = q_0 + q_1\mathbf{i} + q_2\mathbf{j} + q_3\mathbf{k}$ ，其共轭为 $q^* = q_0 - q_1\mathbf{i} - q_2\mathbf{j} - q_3\mathbf{k}$ 。模的平方就是四元数与其共轭的乘积：

\|q\|^2 = q q^* = q_0^2 + q_1^2 + q_2^2 + q_3^2

对于单位四元数， $\|q\|=1$ ，这给我们一个简单而美妙的结果：其逆就是其共轭， $q^{-1} = q^*$ 。

现在是见证奇迹的时刻。要旋转由 $p$ 表示的向量，我们不只是做乘法。我们构造一个“三明治积”：

p' = q p q^{-1}

得到的四元数 $p'$ 必定是另一个纯四元数，其向量部分就是旋转后的向量 $\mathbf{v}'$ 。让我们看看实际操作。考虑一个绕 y 轴旋转 $180^{\circ}$ （ $\pi$ 弧度）的简单旋转。表示这个旋转的四元数恰好就是 $q = \mathbf{j}$ 。（我们很快会看到原因。）让我们旋转一个任意向量 $p = p_x\mathbf{i} + p_y\mathbf{j} + p_z\mathbf{k}$ 。运算为 $p' = \mathbf{j} p \mathbf{j}^{-1} = \mathbf{j} p (-\mathbf{j})$ 。

让我们展开这个式子：

\begin{align} p' &= \mathbf{j} (p_x\mathbf{i} + p_y\mathbf{j} + p_z\mathbf{k}) (-\mathbf{j}) \\ &= (p_x(\mathbf{ji}) + p_y(\mathbf{jj}) + p_z(\mathbf{jk})) (-\mathbf{j}) \\ &= (p_x(-\mathbf{k}) + p_y(-1) + p_z(\mathbf{i})) (-\mathbf{j}) \\ &= -p_x(\mathbf{k}(-\mathbf{j})) - p_y(-1)(-\mathbf{j}) + p_z(\mathbf{i}(-\mathbf{j})) \\ &= -p_x(-\mathbf{i}) - p_y(\mathbf{j}) + p_z(\mathbf{k}) \\ &= p_x\mathbf{i} - p_y\mathbf{j} - p_z\mathbf{k} \end{align}

等等，这不对。让我们仔细重做一遍。

\begin{align} p' &= \mathbf{j} (p_x\mathbf{i} + p_y\mathbf{j} + p_z\mathbf{k}) (-\mathbf{j}) \\ &= -( \mathbf{j} p_x\mathbf{i} + \mathbf{j} p_y\mathbf{j} + \mathbf{j} p_z\mathbf{k} ) \mathbf{j} \\ &= -( p_x(\mathbf{ji}) + p_y(\mathbf{jj}) + p_z(\mathbf{jk}) ) \mathbf{j} \\ &= -( p_x(-\mathbf{k}) + p_y(-1) + p_z(\mathbf{i}) ) \mathbf{j} \\ &= ( p_x\mathbf{k} + p_y - p_z\mathbf{i} ) \mathbf{j} \\ &= p_x(\mathbf{kj}) + p_y\mathbf{j} - p_z(\mathbf{ij}) \\ &= p_x(-\mathbf{i}) + p_y\mathbf{j} - p_z(\mathbf{k}) \end{align}

结果是 $(-p_x, p_y, -p_z)$ 。这正是一个绕 y 轴旋转 $180^{\circ}$ 的效果！它反转了 x 和 z 坐标，同时保持 y 坐标不变。这些抽象的代数规则，在没有任何几何编程的情况下，完美地执行了一次三维旋转。

表示绕单位轴向量 $\mathbf{n}$ 旋转角度 $\theta$ 的单位四元数的一般公式是：

q = \cos(\theta/2) + \sin(\theta/2) (n_x\mathbf{i} + n_y\mathbf{j} + n_z\mathbf{k})

双重覆盖：一个更深层次的现实

公式中 $\theta/2$ 的出现很奇怪，并暗示着更深层次的东西。如果我们考虑四元数 $-q$ 会发生什么？在三明治积中，我们会得到：

(-q) p (-q)^{-1} = (-1)q \, p \, (-1)q^{-1} = (-1)(-1) q p q^{-1} = q p q^{-1}

结果是完全相同的！这意味着 $q$ 和 $-q$ 代表完全相同的物理旋转。这被称为双重覆盖（double-cover）属性。所有单位四元数的空间可以被想象为四维空间中的一个球面，称为 3-球面或 $S^3$ 。这个空间将所有三维旋转的空间（ $SO(3)$ ）“覆盖”了两次。对于我们世界中的每一次旋转，在四维四元数球面上都有两个对应的点（互为对跖点）。

这有一个引人入胜的物理解释。物理空间中旋转 $360^{\circ}$ （角度 $\theta$ 从 $0$ 到 $2\pi$ ）意味着四元数公式中的项 $\theta/2$ 从 $0$ 变为 $\pi$ 。四元数 $q = \cos(0) + \dots = 1$ 变为 $q' = \cos(\pi) + \dots = -1$ 。一次完整的 $360^{\circ}$ 物理旋转使四元数从 $1$ 变为 $-1$ 。你必须将一个物理对象旋转整整 $720^{\circ}$ ，相应的四元数才会回到 $1$ 。这个属性虽然看起来很奇怪，但它正确地描述了量子力学中的精微现象（例如电子的自旋），并被著名的“狄拉克腰带戏法”（Dirac's belt trick）优雅地证明。四元数捕捉到了旋转背后一个隐藏的、更丰富的结构。

对万向节死锁的优雅规避

那么，当我们有更直观的描述方式，如偏航、俯仰和滚转（欧拉角）时，为什么还要经历这四维的麻烦呢？去问任何一位航空航天工程师、机器人专家或三维动画师，你都会听到关于万向节死锁的可怕故事。

用仅仅三个数字来表示三维旋转，就像试图在一张平纸上绘制一幅完美、无畸变的全球地图。这是不可能的。你总会遇到奇点，就像在南、北两极，经度的定义会变得不明确一样。对于欧拉角，也会发生类似的崩溃。如果你将一架飞机（或一个虚拟相机）向上俯仰 $90^{\circ}$ ，偏航轴和滚转轴就会重合。突然之间，你有两个控制器在做同样的工作，而你实际上失去了一个自由度。你的系统被“锁住”了。

四元数优雅地回避了这个问题。通过使用约束在四维球面（ $S^3$ ）上的四个参数，它们提供了一种全局平滑且无奇点的表示方法。物理世界中任何连续的旋转路径，无论多么复杂，都对应于 3-球面上同样平滑和连续的路径。这里没有“极点”，也没有“死锁”。正是这种稳健性，使得四元数成为从航天器、分子模拟到我们智能手机中追踪朝向的黄金标准。

从抽象代数到具体代码

四元数之美不仅在于理论，更在于其强烈的实用性。

组合： 要组合两次旋转，比如金属中的晶粒或机器人臂的关节，不需要乘以庞大的 $3 \times 3$ 矩阵。只需将它们的四元数相乘： $q_{\mathrm{total}} = q_2 q_1$ 。结果是另一个代表复合旋转的单位四元数。注意顺序很重要，这反映了旋转的非交换性。
插值： 四元数允许使用一种名为 SLERP（球面线性插值）的算法在两个朝向之间进行平滑且无歧义的插值。这对于生成看起来自然的动画至关重要。
转换： 当我们最终需要将旋转应用于计算机图形模型中的顶点时，我们可以将最终的四元数转换为一个标准的 $3 \times 3$ 旋转矩阵。这个公式可能看起来令人生畏：

\mathbf{R}(q) = \begin{pmatrix} q_0^2 + q_x^2 - q_y^2 - q_z^2 & 2(q_x q_y - q_0 q_z) & 2(q_x q_z + q_0 q_y) \\ 2(q_x q_y + q_0 q_z) & q_0^2 - q_x^2 + q_y^2 - q_z^2 & 2(q_y q_z - q_0 q_x) \\ 2(q_x q_z - q_0 q_y) & 2(q_y q_z + q_0 q_x) & q_0^2 - q_x^2 - q_y^2 + q_z^2 \end{pmatrix}

但这个矩阵不过是展开三明治积 $\mathbf{v}' = q \mathbf{v} q^{-1}$ 的直接代数结果。它是将优雅的四元数语言翻译成我们的计算机所擅长处理的线性代数主力语言的词典。

从一个扩展复数的失败尝试中，Hamilton 的四维创造为我们提供了一个计算高效、无奇点，并与空间和旋转的基本性质深度关联的系统。它是数学和物理学中内在美与统一性的一个绝佳范例。

应用与跨学科联系

在掌握了四元数的原理之后，我们可能会倾向于将它们视为一种巧妙但略显深奥的数学工具。我们已经了解了它们的工作原理，但现在我们要问一个物理学家或工程师能问的最重要的问题：它们有什么用？ 答案原来是“几乎所有涉及旋转的事情”。William Rowan Hamilton 在都柏林一座桥上灵光一闪而诞生的抽象代数，已成为现代科技无数领域中描述朝向和旋转不可或缺的语言。曾经只是一个数学上的奇思妙想，如今已成为我们屏幕上的数字世界、探索宇宙和细胞奥秘的模拟，乃至量子领域奇异规则背后的主力。

让我们踏上穿越这些不同领域的旅程，看看这个单一而优美的思想如何为看似迥异的问题带来统一。

数字世界：图形学、动画与机器人学

也许四元数最直观的应用是在计算机图形学和动画领域。想象一下，你正在导演一部电影或设计一个电子游戏。你希望镜头从英雄的脸部平滑地摇到天空中追踪一条龙。你有了起始朝向和最终朝向。你如何生成“中间”的帧？

一种天真的方法可能是使用欧拉角，并简单地对三个角度进行线性插值。然而，结果往往令人失望地不自然。相机可能会出人意料地加速和减速，其路径也可能以奇怪的方式摇摆。原因是旋转空间不是一个平坦的欧几里得盒子；它是一个弯曲的空间。四元数提供了驾驭它的完美工具。通过将朝向表示为四维球面上的点，两个朝向之间“最直”且最自然的路径就变成了这个超球面上的一个大圆弧。这项优雅的技术，被称为球面线性插值（Spherical Linear Interpolation），或称 Slerp，生成了我们在现代电影和游戏中习以为常的完美平滑、匀速的旋转。对于更复杂的相机运动，甚至可以将四元数使用对数映射到一个“更平坦”的旋转向量空间，在那里进行复杂的多项式插值，然后再映射回来——这是一种借鉴自李群（Lie groups）深奥数学的强大技术。

这种能力远不止应用于虚拟相机。同样的原理也用于动画化数字角色的肢体、虚拟机器的运动部件或机器人臂的节段。在机器人学和生物力学中，准确描述每个关节的朝向至关重要。例如，在分析人体运动时，在实验室坐标系中测量的力必须转换到运动中人大腿或前臂的坐标系中，以理解作用于其关节的力矩。四元数提供了推导这种转换所需精确旋转矩阵的方法。至关重要的是，它们避免了欧拉角的一个臭名昭著的陷阱，即“万向节死锁”——一个数学奇点，在此处两个旋转轴重合，导致自由度丢失和计算中的灾难性失败。因此，加上它们在插值方面的优雅性，四元数已成为从机器人学到神经科学等领域的标准，在这些领域中，它们被用来校正 fMRI 扫描期间患者微小且不可避免的头部运动。

模拟物理世界：从航天器到分子

描述朝向是一回事；预测其随时间的演变是另一回事。这是动力学的领域，而在这里，四元数真正大放异彩。考虑控制航天器姿态的问题。其朝向根据推进器施加的力矩而改变。物理定律为我们提供了朝向四元数变化率的微分方程。为了模拟航天器的运动，我们必须随时间对这个方程进行积分。

这让我们直面计算的现实。标准的数值方法，如龙格-库塔（Runge-Kutta）算法，将四个四元数分量视为生活在一个平坦的欧几里得空间中。在每个时间步之后，微小的浮点误差会累积，导致所得四元数的模可能不再精确为一。这种“数值漂移”意味着四元数不再代表纯粹的旋转，在长时间的模拟中，误差可能会变得很大，就好像模拟的物体在悄悄地拉伸或收缩一样。简单的修复方法是在每一步重新归一化四元数，将其长度强制变回一。但一个更深刻的解决方案来自于认识到问题的几何性质。所谓的“李群积分器”是专门设计用来尊重旋转群弯曲结构的数值方法。它们通过与另一个小旋转进行组合来更新朝向，这种操作能自动保持单位模，并常常带来更准确、更稳定的长期模拟 [@problem_-id:3144051]。

同样的动力学、几何学和计算的相互作用也在微观尺度上展开。在分子动力学中，科学家模拟像DNA这样的复杂生物分子。在“粗粒化”模型中，一对 DNA 碱基可能被视为一个单独的刚体。DNA 链上每个碱基对的朝向由一个四元数描述。一个碱基对与下一个碱基对之间的相对朝向，通过将一个四元数与其邻居的逆相组合得到，它告诉我们关于 DNA 双螺旋局部形状的一切：梯子的“扭转”（twist），以及其梯级的“滚动”（roll）和“倾斜”（tilt）。这个相对旋转使用四元数对数来计算，它将四元数的乘法关系转换为角度的加法向量。

故事变得更加有趣。DNA 分子不是静态的；它因热能而不断晃动和弯曲。分子的弹性能量取决于其形状偏离其优选的松弛状态的程度。通过在模拟中观察滚动、倾斜和扭转角度的统计波动，我们可以反向推导。统计力学中著名的能量均分定理告诉我们，在给定温度下，每个振动模式的平均能量是固定的。这在旋转波动的方差与分子的刚度之间提供了直接联系。通过分析四元数动力学，我们实际上可以测量一个 DNA 分子有多“弯曲”或“扭曲”——这是一座连接几何学、力学和热力学的非凡桥梁。

一种统一的语言：从晶体到量子态

四元数作为一种通用的旋转语言，其用途延伸到众多其他学科。

在材料科学中，一块金属或陶瓷的特性由构成它的无数微观晶粒的排列决定。相邻晶粒之间的相对朝向，或称“取向差”（misorientation），是一个关键参数。晶体学家使用四元数作为测量和分析这种取向差的标准工具。跨越晶界的两次连续取向差的组合只是一个四元数乘积，从而可以对材料的织构进行强大的统计分析。

在纯粹数学中，四元数在不同领域之间提供了关键的联系。它们揭示了我们所处的普通三维空间旋转与复平面上的莫比乌斯变换（Möbius transformations）之间的深刻联系，后者在几何学和复分析中是基础性的。

但也许最深刻和惊人的联系是与量子力学。一个量子比特，或称“qubit”，是量子计算机的基本单位，其状态可以被可视化为球体表面的一个点。可以对这个量子比特执行的操作，或称“门”，就是这个球体的旋转。描述这些操作的数学群被称为 $SU(2)$ ，即 $2 \times 2$ 特殊酉矩阵群。在那些激动人心的数学洞察时刻之一，我们发现单位四元数群，在所有意图和目的上，都与 $SU(2)$ 群完全相同。这种同构是精确的。

这意味着组合两个量子门——例如，一个绕 x 轴的旋转后跟一个绕 y 轴的旋转——在数学上等同于乘以它们对应的四元数。因此，物理学家可以利用直观、无万向节死锁的四元数代数来分析和设计量子算法。最初作为经典旋转工具的东西，现已成为探索现实最深、最奇异层次的工具包的一部分。

从视频游戏到航天器，从 DNA 到量子比特，四元数提供了一个单一、优雅而强大的框架。它们证明了这样一个事实：为自身的美而追求的抽象数学结构，往往最终成为描述我们周围世界的完美语言。它们是一条美丽的线索，将科学的不同领域编织成一个更加统一和易于理解的整体。