try ai
科普
编辑
分享
反馈
  • 外积:一个通用的构建模块

外积:一个通用的构建模块

SciencePedia玻尔百科
核心要点
  • 外积结合两个向量创建一个秩一矩阵,这是一个将信息投影到单一方向上的基本算子。
  • 它是构建张量的通用构建模块,确保物理定律在不同坐标系下保持一致。
  • 外积在量子力学中对于描述状态和测量至关重要,在相对论和连续介质力学中则用于定义物理量。
  • 在现代数据分析中,外积是张量分解方法的基础,这些方法用于在复杂的多维数据集中寻找隐藏模式。

引言

许多物理现象和数据结构过于复杂,无法用单个数字或简单的数字列表来描述。虽然像点积这样的运算会凝聚信息,但我们常常需要一种方法从简单的组件构建更复杂的数学对象。这种必要性揭示了基本矢量代数中的一个空白:我们如何组合向量来扩展而非缩减维度和描述能力?

这时,外积就派上用场了。它是一种强大而优雅的运算,接收两个向量并将它们编织成一个更丰富的结构——矩阵或更广义的张量。外积远非一个纯粹的数学奇观,它是现代科学语言中的一个基本构建模块,使我们能够模拟从时空结构到大数据中隐藏的模式等一切事物。

本文将引导您进入外积的世界。首先,在“原理与机制”一节中,我们将揭开这一运算本身的神秘面纱,探讨它如何从两个向量生成一个秩一矩阵,并揭示其内在的几何性质。然后,在“应用与跨学科联系”一节中,我们将看到外积在量子力学、相对论、连续介质力学和数据科学中的实际应用,以领略其作为从简单构建复杂的通用工具所扮演的角色。

原理与机制

在我们探索世界的旅程中,我们常常从组合事物开始。我们相加力,我们相乘质量和速度。但有时,最深刻的见解来自于找到全新的方式来组合熟悉的概念。​​外积​​就是这样一种发明。它将两个简单的东西——向量——结合起来,创造出一个在丰富性和描述能力上远超前者的对象。它不仅仅是数学家工具箱中的又一个工具;它是物理现实的一个基本构建模块。

从列表到景观:一个新对象的诞生

我们从已知的东西开始。我们都熟悉两个向量的​​点积​​(或内积)。你取两个数字列表,将它们逐个元素相乘,然后相加。结果是一个单一的数字,一个标量。这很舒适,很熟悉,并且它告诉我们一些有用的信息,比如一个向量在另一个向量上的“投影”程度。

但如果我们想更大胆一点呢?让我们取两个向量,比如 u\mathbf{u}u 和 v\mathbf{v}v,并以一种特定的方式来看待它们:一个看作高瘦的列向量,另一个看作扁长的行向量。如果我们用标准的矩阵乘法规则来乘它们,会发生什么?

我们来用一个具体的例子试试。假设在二维平面上有两个向量:

u=(1−1)andv=(23)\mathbf{u} = \begin{pmatrix} 1 \\ -1 \end{pmatrix} \quad \text{and} \quad \mathbf{v} = \begin{pmatrix} 2 \\ 3 \end{pmatrix}u=(1−1​)andv=(23​)

为了使乘法可行,我们需要把其中一个变成行向量。让我们取 v\mathbf{v}v 的转置,记为 vT=(23)\mathbf{v}^T = \begin{pmatrix} 2 & 3 \end{pmatrix}vT=(2​3​)。现在,让我们用列向量 u\mathbf{u}u 乘以行向量 vT\mathbf{v}^TvT:

uvT=(1−1)(23)=(1×21×3−1×2−1×3)=(23−2−3)\mathbf{u}\mathbf{v}^T = \begin{pmatrix} 1 \\ -1 \end{pmatrix} \begin{pmatrix} 2 & 3 \end{pmatrix} = \begin{pmatrix} 1 \times 2 & 1 \times 3 \\ -1 \times 2 & -1 \times 3 \end{pmatrix} = \begin{pmatrix} 2 & 3 \\ -2 & -3 \end{pmatrix}uvT=(1−1​)(2​3​)=(1×2−1×2​1×3−1×3​)=(2−2​3−3​)

看看发生了什么!我们从两个简单的数字列表开始,最终得到了一个完整的网格,一个矩阵。这种运算,即新矩阵的第 iii 行第 jjj 列的元素是第一个向量的第 iii 个分量与第二个向量的第 jjj 个分量的乘积,被称为​​外积​​。我们通常用符号 ⊗\otimes⊗ 来表示它,如 a⊗b\mathbf{a} \otimes \mathbf{b}a⊗b,其分量为 (a⊗b)ij=aibj(a \otimes b)_{ij} = a_i b_j(a⊗b)ij​=ai​bj​。

这感觉和点积不同。我们没有将信息压缩成一个单一的数字。相反,我们将其扩展,从原始向量中创造出一个新的、更复杂的数学景观。

外积的秘密简单性

我们创造出的这个新矩阵似乎比我们开始时用的向量复杂得多。但它真的复杂吗?让我们把它放在放大镜下看看。矩阵最重要的功能之一是变换其他向量。当我们的外积矩阵 (a⊗b)(\mathbf{a} \otimes \mathbf{b})(a⊗b) 作用于某个其他向量,比如 c\mathbf{c}c 时,会发生什么?

规则结果惊人地简单:

(a⊗b)c=a(b⋅c)(\mathbf{a} \otimes \mathbf{b})\mathbf{c} = \mathbf{a}(\mathbf{b} \cdot \mathbf{c})(a⊗b)c=a(b⋅c)

注意这里的结构。括号中的项 (b⋅c)(\mathbf{b} \cdot \mathbf{c})(b⋅c) 只是一个点积——一个普普通通的数字。所以,这整个运算的结果只是原始向量 a\mathbf{a}a 被某个数字缩放。

这是一个惊人的发现。无论你将什么向量 c\mathbf{c}c 输入这台机器,输出总是指向同一个单一方向:a\mathbf{a}a 的方向!用线性代数的语言来说,这意味着该矩阵的整个输出空间(“列空间”)只是由向量 a\mathbf{a}a 定义的直线。一个只有一个输出维度的对象被称为​​秩​​为一。

所以,两个非零向量的外积,虽然看起来像一个复杂的矩阵,实际上是一个伪装得很好的简单对象。它表面上包含 n×nn \times nn×n 个数字,但它的所有列都只是一个单一向量的倍数。这是一种隐藏的简单结构,是物理学中一个反复出现的主题。

这里还有另一个体现这种简单性的优美例子。让我们计算一个向量与其自身外积的​​迹​​,T=v⊗vT = \mathbf{v} \otimes \mathbf{v}T=v⊗v。迹就是主对角线上元素的和。快速计算可得 Tr(v⊗v)=v12+v22+⋯+vn2\text{Tr}(\mathbf{v} \otimes \mathbf{v}) = v_1^2 + v_2^2 + \dots + v_n^2Tr(v⊗v)=v12​+v22​+⋯+vn2​,这恰好是 v⋅v\mathbf{v} \cdot \mathbf{v}v⋅v,即原始向量长度的平方!。更一般地,任何外积 a⊗b\mathbf{a} \otimes \mathbf{b}a⊗b 的迹就是点积 a⋅b\mathbf{a} \cdot \mathbf{b}a⋅b。所有这些内在的复杂性,像迹这样的简单性质却又回到了我们熟悉的点积。

通用乐高积木:构建张量

到目前为止,我们已经看到外积是制造秩一矩阵的一种巧妙方法。但它真正的威力在于别处。它是构建整个物理学中最重要的对象之一——​​张量​​——的基本“乐高积木”。

什么是张量?你可以把它看作是标量(只有一个分量,是秩为0的张量)和向量(有一个分量列表,是秩为1的张量)的推广。正如我们所见,两个向量的外积给了我们一个秩为2的张量,由一个矩阵表示。

但真正使其成为*张量*的不是它的形状,而是当你改变视角时——也就是当你改变坐标系时——它的行为方式。一个真正的物理量不应依赖于你如何选择设置坐标轴。当你旋转坐标轴时,向量的分量会改变,但向量本身——空间中的那个“箭头”——并不会改变。张量是共享这种坐标无关性特质的对象。

外积的魔力在于它是一个保证能制造出张量的配方。如果你取两个已经是张量的对象(比如两个向量),它们的外积将自动成为一个新的、更高阶的对象,其行为也完全像一个张量。例如,在相对论的背景下,如果你有两个矢量场 VμV^\muVμ 和 WνW^\nuWν,它们的份量在坐标变换下会以特定的方式变换。如果你构造对象 Tμν=VμWνT^{\mu\nu} = V^\mu W^\nuTμν=VμWν,它的分量将自动地完全按照一个秩为2的张量所应有的方式变换。变换规则被“嵌入”到了外积运算中。

这个配方是完全通用的。你可以取两个秩为2张量的外积来创建一个秩为4的张量,它可能描述,例如,晶体的复杂刚度(弹性张量)。外积是一个生成性原理,它允许我们构建任意复杂度的对象,同时确保它们遵守支配我们物理宇宙的一致变换定律。

现实世界中的外积:从量子世界到变形的果冻

这不仅仅是一个数学抽象。外积是我们描述世界方式的核心。

​​量子力学​​:在量子粒子那个奇异而美妙的世界里,一个系统的状态由一个向量描述,物理学家习惯性地将其写成“右矢”,∣v⟩|v\rangle∣v⟩。一个状态与其自身的共轭转置(写成“左矢”⟨v∣\langle v|⟨v∣)的外积,构成一个算子 P=∣v⟩⟨v∣P = |v\rangle\langle v|P=∣v⟩⟨v∣。这个算子是一个​​投影算子​​。当它作用于另一个状态 ∣ψ⟩|\psi\rangle∣ψ⟩ 时,它将 ∣ψ⟩|\psi\rangle∣ψ⟩ “投影”到 ∣v⟩|v\rangle∣v⟩ 的方向上,本质上是在问:“状态 ∣ψ⟩|\psi\rangle∣ψ⟩ 有多大程度上看起来像状态 ∣v⟩|v\rangle∣v⟩?”这是量子理论中测量的数学基础。至关重要的是,这些投影算子总是​​厄米算子​​(P†=PP^\dagger = PP†=P),这是任何我们可以物理观测的量都不可或缺的性质。

​​连续介质力学和相对论​​:想象一块晃动的果冻或一条顺流而下的河水。在物质中的每一点,我们都可以描述速度如何从一点变化到另一点。这个描述不是一个向量;它是一个称为​​速度梯度​​的张量,写作 ∇v\nabla\mathbf{v}∇v。这个对象的分量是 (∇v)ij=∂vi∂xj(\nabla\mathbf{v})_{ij} = \frac{\partial v_i}{\partial x_j}(∇v)ij​=∂xj​∂vi​​,它告诉我们关于材料局部如何拉伸、剪切和旋转的一切信息。它很自然地是用基向量的外积构建的。

此外,我们可以将这个梯度张量分解为两部分:一个描述纯拉伸和挤压的对称部分,以及一个描述纯旋转的反对称部分。外积提供了执行这种物理运动基本分离所需的确切语言。即使对于一个简单的外积 T=a⊗bT = \mathbf{a} \otimes \mathbf{b}T=a⊗b,将其分解为对称部分 S=12(a⊗b+b⊗a)S = \frac{1}{2}(\mathbf{a} \otimes \mathbf{b} + \mathbf{b} \otimes \mathbf{a})S=21​(a⊗b+b⊗a) 和反对称部分 A=12(a⊗b−b⊗a)A = \frac{1}{2}(\mathbf{a} \otimes \mathbf{b} - \mathbf{b} \otimes \mathbf{a})A=21​(a⊗b−b⊗a) 也揭示了隐藏的联系。正如我们所注意到的,对称部分的迹——即其特征值的和——就是 a⋅b\mathbf{a} \cdot \mathbf{b}a⋅b,这又一个迹象表明这些概念之间存在优雅的统一性。

外积与其他运算优雅互动的这个主题甚至延伸到更高级的领域。​​李导数​​,一个用于理解场在随流拖曳时如何变化的工具,对于外积遵循一个简单的乘积法则。这进一步证明,这个运算并非任意的发明,而是空间、时间和物理定律几何结构的深刻特征。

应用与跨学科联系

既然我们已经探索了外积的内部工作原理,你可能会想把它当作一个巧妙的数学技巧而束之高阁。但这样做就完全错失了重点。外积不仅仅是一台抽象的机器;它是大自然最钟爱的工具之一。它是一种生成性原理,一种从简单构建复杂的基本方式,其印记遍布科学和工程的版图。它就像一块通用的“乐高积木”,让我们能从简单的一维向量构建出更高维度的对象和关系。让我们踏上一段旅程,穿越这些不同的领域,看看这个多功能工具的实际应用。

作为基本算子的外积

从本质上讲,两个向量(比如 a\mathbf{a}a 和 b\mathbf{b}b)的外积创造了一个新的实体,一个张量 T=a⊗b\mathbf{T} = \mathbf{a} \otimes \mathbf{b}T=a⊗b。这个新实体做什么呢?它像一台简单而优雅的机器一样运作。当我们把任何其他向量(称之为 c\mathbf{c}c)输入这台机器时,它会执行一个两步过程:首先,它通过计算点积 b⋅c\mathbf{b} \cdot \mathbf{c}b⋅c 来测量 c\mathbf{c}c 有多少分量在 b\mathbf{b}b 的方向上;其次,它创建一个指向 a\mathbf{a}a 方向的新向量,其长度由该测量值缩放。用分量的语言来说,这个操作非常清晰:新向量 d\mathbf{d}d 的分量为 di=(aibj)cj=ai(bjcj)d_i = (a_i b_j) c_j = a_i (b_j c_j)di​=(ai​bj​)cj​=ai​(bj​cj​)。括号中的项 bjcjb_j c_jbj​cj​ 只是一个数字——测量的结果。这台机器接收一个向量,然后输出一个缩放过的 a\mathbf{a}a 版本。

这种“测量与重构”的性质意味着这个算子具有非常特殊的特性。它有一个内在的偏好。如果我们将这台机器自身的构成向量 a\mathbf{a}a 输入进去,会发生什么?结果是 (a⊗b)a=a(b⋅a)(\mathbf{a} \otimes \mathbf{b}) \mathbf{a} = \mathbf{a} (\mathbf{b} \cdot \mathbf{a})(a⊗b)a=a(b⋅a)。看!向量 a\mathbf{a}a 被转换成了它自身的缩放版本。这正是特征向量的定义。我们发现 a\mathbf{a}a 是张量 a⊗b\mathbf{a} \otimes \mathbf{b}a⊗b 的一个特征向量,其对应的特征值是标量 b⋅a\mathbf{b} \cdot \mathbf{a}b⋅a。这是一个深刻的洞见:外积构建了一个算子,其主要特征——主方向和缩放因子——从创造它的向量本身中就已然注定。所有其他向量要么被湮灭(如果它们垂直于 b\mathbf{b}b),要么被映射到 a\mathbf{a}a 的方向上。这种简单的“秩一”结构是其力量的关键。

物理定律的构建模块

物理学,尤其是自爱因斯坦以来,是用张量的语言书写的。张量是以不依赖于你的特定视角或坐标系的方式来捕捉物理定律的对象。而这些关键的张量往往是由更基本的向量的外积构建而成的。

例如,在狭义相对论的世界里,我们用四维时空来描述事件。一个粒子的运动由其四维速度 UνU^\nuUν 捕捉,其位置由一个四维向量 xμx^\muxμ 描述。通过取这两个向量的外积,我们可以构建一个新的二阶张量,Tμν=xμUνT^{\mu\nu} = x^\mu U^\nuTμν=xμUν。这个对象不再仅仅是位置或速度;它是一个更复杂的量,携带着关于粒子历史的组合信息。其美妙之处在于,这个新张量有一个明确的变换定律。如果你改变你的参考系——比如,通过加速到高速——TμνT^{\mu\nu}Tμν 的分量将以一种可预测的方式改变,确保它所描述的物理关系保持不变。

此外,我们可以使用这种构造来找到所有观察者都同意的量——物理学中的不变量。如果我们有两个四维向量,比如一个四维势 AμA^\muAμ 和一个四维流 BνB^\nuBν,取它们的外积得到 AμBνA^\mu B^\nuAμBν。然后我们可以用时空自身的内禀结构——闵可夫斯基度规 gμνg_{\mu\nu}gμν​ 来“探查”这个张量。通过用度规对张量进行缩并,gμνAμBνg_{\mu\nu} A^\mu B^\nugμν​AμBν,指标消失,我们得到了一个单一的数字。这个数字,即洛伦兹标量,对于宇宙中每一个惯性观察者都具有相同的值。理论就是这样构建基本不变量的,比如四维动量的平方,它给出了粒子的静止质量。外积构建结构,而缩并则提取出普适的真理。

这一原理远远超出了相对论的范畴。在连续介质力学中,流体或固体内部的力由一个应力张量描述。考虑一个被磁场 B\mathbf{B}B 贯穿的等离子体。磁场对等离子体施加推力和拉力,但并非均匀。沿磁力线的力比横跨磁力线的力要强。我们如何描述这种定向应力呢?当然是用外积。应力的磁场部分由麦克斯韦应力张量描述,其关键组成部分是项 B⊗B\mathbf{B} \otimes \mathbf{B}B⊗B。这个并积完美地捕捉了沿磁力线的各向异性张力和垂直于磁力线的压力。当流体变形时,磁力对流体做功的速率取决于流体的应变率张量与这个磁应力张量之间的对齐情况,这是通过张量缩并所描述的优美相互作用。外积为描述连续介质内部的这些定向力提供了精确的数学语言。类似地,外积在矢量场微积分中也自然出现,构成了流体动力学和电磁学基础的基本矢量恒等式。

多重性与数据的世界

当我们转向具有许多部分或多维数据的系统时,外积的效用呈爆炸式增长。

考虑一下量子力学那个奇异而美妙的世界。如果你有一个粒子,它的状态可以用一个态矢量 ∣ψ1⟩|\psi_1\rangle∣ψ1​⟩ 来描述。如果你有第二个粒子,它的状态是 ∣ψ2⟩|\psi_2\rangle∣ψ2​⟩。我们如何描述这个组合起来的双粒子系统的状态?它不仅仅是一个和。组合系统存在于一个大得多的状态空间中,即单个空间的张量积。最简单的可能组合态是单个状态的外积,即 ∣Ψ⟩=∣ψ1⟩⊗∣ψ2⟩|\Psi\rangle = |\psi_1\rangle \otimes |\psi_2\rangle∣Ψ⟩=∣ψ1​⟩⊗∣ψ2​⟩。这是所有多体量子理论的起点。对于像电子这样的全同粒子,大自然施加了一条额外的规则:总状态在粒子交换下必须是反对称的。我们通过组合这些简单的外积态(称为哈特里积)来形成斯莱特行列式来实现这一点。从氢原子到复杂分子和固体的复杂电子结构,我们对量子世界的描述都建立在张量积的基础之上。

这种构建和解构高维对象的思想正在革新我们处理数据的方式。在数值优化中,许多算法试图通过迭代改进函数曲率(编码在海森矩阵中)的近似来找到函数的最小值。在每一步都重新计算这个巨大的矩阵是极其昂贵的。像BFGS这样的拟牛顿法使用一种更聪明的方法。它们从一个海森矩阵(或其逆矩阵)的初始猜测开始,并用一系列“秩一”或“秩二”更新来改进它。你猜对了,这些更新就是外积。例如,像 skskT/(ykTsk)s_k s_k^T / (y_k^T s_k)sk​skT​/(ykT​sk​) 这样的更新项,添加了步长向量 sks_ksk​ 与其自身的外积。这就像在矩阵上进行微创手术,从最新的一步中注入恰到好处的新信息来改进近似,而无需重新进行整个计算。

这引导我们走向张量分解的宏大概念。我们今天收集的许多数据都是多维的——想想一段视频(高 × 宽 × 时间)、一个用户评分数据集(用户 × 电影 × 类型),或高光谱成像数据。我们可以将这些数据表示为一个高阶张量。在这块庞大的数字中是否存在隐藏的结构?像典范多项分解(CP分解)这样的张量分解方法通过尝试将复杂的张量表示为简单的秩一张量的短和来回答这个问题。每个秩一张量都是一个外积,如 u⊗v⊗w\mathbf{u} \otimes \mathbf{v} \otimes \mathbf{w}u⊗v⊗w,代表了数据中的一个基本模式或“模态”。找到“张量秩”等同于找到构成数据的这类基本模式的最小数量。在这种背景下,即使是一个简单的性质——一个秩一张量的“大小”(弗罗贝尼乌斯范数)只是其构成向量“大小”(欧几里得范数)的乘积——也成为控制和解释这些分解的重要工具。

一条统一的线索

从算子的特征值到时空的结构,从恒星内部的作用力到分子的量子态,从优化函数到在大数据中寻找模式,外积一次又一次地出现。它是一条统一的线索,一个简单的概念,让我们能够构建、操纵和理解支配我们世界的复杂多维关系。它教会了我们一个深刻的道理:有时,理解整体最有力的方式就是看它是如何由其部分构建而成的。