交替最小二乘法

玻尔百科

定义

交替最小二乘法是一种通过固定除一个变量外的所有变量，迭代求解一系列简单最小二乘子问题的优化算法。该方法广泛应用于矩阵分解和高维张量分解，涵盖了推荐系统、材料科学和量子物理等多个领域。尽管应用广泛，但该算法可能面临收敛缓慢或因子发散的问题，通常需要通过在优化目标中加入正则化项来解决。

核心要点

交替最小二乘法（ALS）通过迭代地固定除一个变量外的所有变量，并求解一系列更简单的最小二乘子问题，来解决复杂的优化问题。
该算法借助矩阵化和Khatri-Rao积等工具，从二维矩阵分解扩展到高维张量分解（如CP分解）。
ALS可能会遭遇收敛缓慢（“泥沼”）或因子发散的问题，这些问题通常通过在优化目标中添加正则化来处理。
ALS是一种通用方法，广泛应用于不同领域，包括推荐系统、材料科学、主题建模和量子物理（DMRG）。

引言

在数据分析和机器学习的广阔领域中，许多深奥的挑战最终都可归结为一项任务：在复杂的高维数据中寻找简单的潜在模式。这通常涉及求解包含众多相互关联变量的优化问题，一次性找到全局解几乎是不可能的。交替最小二乘法（ALS）算法正是为解决此类问题提供的一种优雅而强大的策略。它是一种主力方法，能将棘手的难题转化为一系列简单、可解的步骤。

本文将探讨ALS算法的核心概念和广泛效用。在第一章“原理与机制”中，我们将从“一次只调一个旋钮”这个直观概念入手，揭示ALS的工作原理。我们将从它在基本矩阵分解中的应用，讲到其在更高级的张量分解中的使用，揭示其背后的数学机制，以及诸如“泥沼”等潜在陷阱及驯服之法。随后，“应用与跨学科联系”一章将展示ALS非凡的通用性，说明这一计算思想如何成为解决推荐系统、材料发现乃至量子物理等不同领域问题的关键。读完本文，您不仅将理解ALS的运作机制，还将领会其作为贯穿现代科学技术的统一概念所扮演的角色。

原理与机制

一次只调一个旋钮的艺术

想象你面对着一台极其复杂的机器，可能是一台老式合成器或一台精密的科学仪器，上面布满了数十个旋钮和拨盘。你的目标是产生一种特定的声音或测量结果。一次性转动所有旋钮只会造成混乱，你根本不知道哪个变化产生了哪个效果。你会怎么做？你当然会采取一种更有耐心的策略：固定住除一个旋钮外的所有旋钮，将那一个旋钮调到最佳位置，然后再去调下一个。你会重复这个过程，循环往复，逐步引导机器达到期望的状态。

这个简单而强大的直觉正是交替最小二乘法（ALS）算法的核心。这是一种应用于复杂优化问题的“分而治之”策略。ALS将一个看似不可能解决的、相互关联的问题，分解成一系列更简单、可控的步骤。在每一步中，我们只转动一个“旋钮”，而在那一刻，问题变得异常直截了当。

最简单的情形：解构一个矩阵

让我们从最熟悉的领域——矩阵世界——开始我们的旅程。假设我们有一个大型数据矩阵 $A$ ，它可能代表电影评分，行是用户，列是电影。我们怀疑这些复杂数据是由少数潜在的模式或“类型”驱动的。例如，一个用户的评分可能由他多喜欢“动作片”、“喜剧片”和“剧情片”来解释，而一部电影的评分则由它包含多少“动作”、“喜剧”和“剧情”元素来决定。

数学上讲，这意味着我们想要找到一种矩阵分解，将我们的大型 $m \times n$ 矩阵 $A$ 近似为两个更“瘦”的矩阵的乘积，即 $U$ (一个 $m \times k$ 的用户-特征矩阵) 和 $V^T$ (一个 $k \times n$ 的特征-电影矩阵)，其中 $k$ 是较小的特征数量：

A \approx U V^T

问题在于找到最佳的 $U$ 和 $V$ ，以最小化近似误差，通常用平方Frobenius范数 $\|A - U V^T\|_F^2$ 来衡量。麻烦的是， $U$ 和 $V$ 的元素在这个目标函数中相互纠缠。这是一个棘手的非凸优化问题——就像试图同时转动我们合成器上的所有旋钮。

这时，ALS就施展它的魔法了。我们不选择同时求解 $U$ 和 $V$ ，而是交替进行：

固定 V，求解 U： 假设我们对电影-特征矩阵 $V$ 有一个猜测。现在的问题是找到最佳的用户-特征矩阵 $U$ 来拟合这个 $V$ 。目标函数变为 $\min_U \|A - U V^T\|_F^2$ 。突然间，这不再是一个复杂的问题！由于 $V^T$ 充当一个固定的系数矩阵，这成了一个经典的线性最小二乘问题。对于喜欢数学的人来说，这个问题有一个清晰、唯一的解，可以通过求解一个称为正规方程的简单线性方程组得到：
$U(V^T V) = A V$
这个方程精确地告诉我们，在给定当前 $V$ 的情况下如何计算出最佳的 $U$ 。我们已经找到了“U”旋钮的最佳设置。
固定 U，求解 V： 现在，我们采用新更新的 $U$ 并将其固定。然后我们求解最佳的 $V$ 。问题 $\min_V \|A - U V^T\|_F^2$ 由于完美的对称性，同样是一个简单的线性最小二乘问题。其解可以通过求解一组非常相似的正规方程得到：
$V(U^T U) = A^T U$
我们现在已经找到了“V”旋钮的最佳设置。

我们只需重复这一两步舞，来回交替。在每一步，我们都保证会减少（或至少不增加）近似误差。这就像走下山路，先纯粹朝“U方向”走，再纯粹朝“V方向”走。虽然这并不能保证我们会找到整个误差曲面上的绝对最低点，但在合理的条件下，这个简单的过程会收敛到一个好的局部最小值——一个关于每个块的梯度都为零的稳定点。

进入三维及更高维度：张量的世界

当我们从扁平的二维矩阵进入更丰富的多维数组，即张量的世界时，ALS的真正威力与优雅才得以显现。我们在现实世界中遇到的大部分数据都具有两个以上的维度。想一想视频片段（高 $\times$ 宽 $\times$ 时间）、大脑活动数据集（神经元 $\times$ 频率 $\times$ 时间），或包含上下文的用户-物品交互数据（用户 $\times$ 商品 $\times$ 星期几）。

这里的目标是相似的：我们想将一个庞大而复杂的数据张量 $\mathcal{T}$ 分解为一组更简单、更基本的组分。最常见的模型是CP分解（Canonical Polyadic），它将张量表示为向量外积的和：

\mathcal{T} \approx \sum_{r=1}^{k} a_r \circ b_r \circ c_r

这是张量版的矩阵分解，现在我们有三个（或更多）因子矩阵 $A$ 、 $B$ 和 $C$ 。

优化问题现在变得更加复杂和相互关联。但ALS的美妙思想——一次只调一个旋钮——依然适用。我们可以固定因子矩阵 $B$ 和 $C$ 来求解 $A$ 。然后固定 $A$ 和 $C$ 来求解 $B$ 。以此类推，循环遍历各个因子。

但我们如何将这个张量问题转化为我们知道如何解决的简单线性最小二乘问题呢？这需要两种优雅的数学工具。

首先，我们需要一种方法将我们的多维张量“展开”成一个标准矩阵。这个过程称为矩阵化（或展开）。想象一下，拿起一个魔方，将它的三层并排铺开，形成一个长长的扁平矩形。这就是模-1矩阵化。我们可以用三种不同的方式来做这件事，具体取决于我们想将哪个维度的纤维排列成新矩阵的行。

其次，我们需要一种方法将我们固定的因子矩阵（比如 $B$ 和 $C$ ）合并成一个单一的设计矩阵。这是通过Khatri-Rao积（用 $\odot$ 表示）来完成的。这个乘积巧妙地将矩阵的列编织在一起，创建一个捕捉它们综合影响的新矩阵。它被定义为列向的Kronecker积。

有了这两个工具，曾经令人生畏的张量子问题 $\min_A \|\mathcal{T} - \llbracket A, B, C \rrbracket\|_F^2$ 就神奇地转化成了一个看起来异常熟悉的等价矩阵问题：

\min_A \|X_{(1)} - A (C \odot B)^T\|_F^2

这里， $X_{(1)}$ 是矩阵化后的数据张量。这与我们之前的矩阵最小二乘问题具有完全相同的形式！核心原理跨越维度保持不变。 $A$ 的解同样由一组正规方程给出，其中计算量最大的部分是一个称为矩阵化张量与Khatri-Rao积之积（MTTKRP）的大规模收缩运算。这种方法从简单矩阵到高阶张量的统一性，证明了其根本性的力量。

阴暗面：泥沼、骗局和发散的无穷大

如果不去探索这片风景中更黑暗、更险恶的角落，我们的旅程就不算完整。虽然ALS很强大，但它并非没有危险。算法有时会慢得像爬行，或者表现出令人费解的行为。这些病态现象并非简单的数值故障；它们揭示了关于张量几何的深刻而有趣的真相。

一个常见的问题是泥沼（swamps）的出现。算法似乎被卡住了，在多次迭代中进展极其缓慢。这通常发生在我们试图发现的两个或多个因子向量变得几乎相同，即共线时。想象一下，你试图用两个几乎重叠的灯塔进行三角定位。测量角度的微小误差会导致计算出的位置产生巨大误差。

数学上，因子矩阵（比如 $B$ 和 $C$ ）中的这种近似共线性导致Khatri-Rao积 $C \odot B$ 变得严重病态。由此产生的最小二乘子问题变得极其敏感，算法被迫采取微小、不确定的步长，实际上是陷入了误差曲面的一个平坦、泥泞的区域。

更奇怪的是，对于某些张量，一个“最佳”的低秩近似根本不存在。这与矩阵世界截然不同，在矩阵世界里，这样的近似总是保证存在的。这种现象与边界秩（border rank）的概念有关。一个张量的秩可能是3，但它的边界秩可以是2。这意味着它不是一个秩为2的张量，但你可以找到一个秩为2的张量序列，这个序列可以任意地逼近它。

当被要求寻找一个不存在的近似时，ALS会怎么做？它会尽力而为，导致一种奇怪的“骗局”。考虑张量 $\mathcal{W} = \mathbf{e}_{1} \otimes \mathbf{e}_{1} \otimes \mathbf{e}_{2} + \mathbf{e}_{1} \otimes \mathbf{e}_{2} \otimes \mathbf{e}_{1} + \mathbf{e}_{2} \otimes \mathbf{e}_{1} \otimes \mathbf{e}_{1}$ 。它的秩为3，但边界秩为2。如果我们要求ALS找到一个秩为2的近似，算法会发现一个巧妙的伎俩：它构造出两个巨大的、几乎相同但符号相反的秩-1分量。这两个巨大的分量几乎完美地相互抵消，它们微小的残差差异收敛到张量 $\mathcal{W}$ 。随着近似效果越来越好，因子矩阵的范数必须飙升至无穷大。算法追逐的是一个位于无穷远处的解。

用正则化驯服野兽

幸运的是，我们面对这种狂野行为并非束手无策。我们可以用一个简单而优雅的工具来驯服这头野兽：正则化。因子发散的问题之所以出现，是因为算法可以自由地探索具有任意大分量的解。我们可以通过在目标函数中添加一个惩罚项来约束它，这个惩罚项不鼓励大的因子范数。例如，我们可以将目标函数修改为：

\min_{U,V} \|A - U V^T\|_F^2 + \lambda (\|U\|_F^2 + \|V\|_F^2)

这个由参数 $\lambda$ 控制的小小补充，改变了一切。它告诉算法：“为我找到一个好的近似，但请控制住你因子的大小。”这可以防止范数爆炸至无穷大，并确保最小二乘子问题保持良态。通过增加这个约束，我们保证了一个表现良好的解总是存在的，从而将一个不适定问题转化为一个稳定问题。虽然这个正则化解可能无法完美匹配原始数据，但它提供了一个稳定且有意义的近似，使我们即使面对这些深层次的数学挑战，也能够驾驭ALS的力量。

应用与跨学科联系

在探索了交替最小二乘法（ALS）的内部工作原理之后，你可能会有一种类似于学会了国际象棋规则的感觉。你理解了棋子的移动方式、逻辑和直接目标。但这个游戏的真正美妙之处，其无限的深度和创造力，只有当你看到大师们在千百种不同场景下对弈时才会显现出来。ALS也是如此。它那简单、迭代的核心——固定除一块拼图外的所有部分，解决那块简单的部分，然后交替进行——是一把万能钥匙，能打开众多令人惊讶的科学学科的大门。让我们来游览这片广阔的领域，看看这些门后都通向何方。

推荐的艺术：发现隐藏的品味

或许，ALS最著名和最直观的应用是在推荐系统领域。想象一个巨大的电子表格，一个矩阵，有数百万行代表用户，数千列代表电影。它的大多数单元格都是空的；没有一个人评价过每一部电影。挑战在于填补这些空白——预测一个用户可能会如何评价一部他没看过的电影。

这怎么可能做到呢？由ALS驱动的矩阵分解的天才之处在于，它假设一个人的评分不是某种随意的奇想。相反，它是用户隐藏的偏好与电影隐藏的属性之间相互作用的结果。一个用户可能对“古怪的科幻片”有强烈的偏好，而对“浪漫喜剧”略有反感。反过来，一部电影可以用它包含多少“古怪科幻”或“浪漫喜剧”的成分来描述。评分仅仅是这些偏好-属性乘积的总和。

问题是，没人告诉我们这些属性是什么！我们不知道“古怪的科幻片”是不是一个有意义的类别，也不知道《星球大战》和《银翼杀手》中含有多少这种成分。ALS能够自动发现这些所谓的“潜在因子”。它从对电影属性的一个随机猜测开始。固定这些属性后，为每个用户找到能解释他们评分的最佳偏好就成了一个简单的最小二乘问题。一旦我们对每个人的偏好有了更新的估计，我们就冻结它们，反过来解决问题：什么是能够解释这些偏好的最佳电影属性？同样，这对于每部电影来说都是一个直接的最小二乘问题。我们来回交替，每一次扫描，用户的偏好和电影的属性都更接近真实，就像雕塑家精雕细琢一块大理石。最终，我们拥有了一个强大的模型，可以预测矩阵中空白单元格的评分。

这个想法早已被推广到电影之外。材料科学家们以激动人心的想象力飞跃，将同样的逻辑应用于新材料的发现。他们将化学成分视为“用户”，将其物理性质（如硬度、导电性或熔点）视为“物品”。通过将已知材料的数据收集到一个大型稀疏矩阵中，他们使用ALS来补全它，预测新型成分的性质，而无需进行昂贵且耗时的实验室实验。这个框架甚至为“冷启动”问题——预测一种全新材料的性质——提供了一个优雅的解决方案。就像你可能会根据新用户的年龄或地点向他推荐电影一样，科学家可以利用材料的基本描述符（如其原子结构）来对其潜在因子做出初始猜测，从而启动预测过程。

超越二维：世界是一个张量

用户-物品矩阵是一个扁平的二维世界。但现实往往更加丰富。如果我们想分析社交媒体平台上的用户-物品-标签交互该怎么办？或者，如果我们想建模词义是如何在不同语境下的共现中构建起来的？我们已经进入了张量的世界——矩阵向三维或更多维度的推广。

美妙的是，我们的ALS策略可以自然地扩展。张量的矩阵分解等价物被称为规范多项分解（CP分解），它将一个张量表示为向量外积的和。而寻找这种分解的主力算法，你猜对了，就是ALS。我们固定除一个因子矩阵外的所有矩阵，然后解决一个简单的最小二乘问题，接着交替进行。

这种联系在机器学习和数据分析中具有深远的影响。例如，在主题建模中，我们可能有一个张量，其维度代表句子中不同位置的词以及它们来自的文档。通过应用CP-ALS，并施加某些因子向量必须代表概率分布（其元素非负且和为一）的约束，我们可以发现“主题”。每个主题都以词语上的概率分布形式出现，而分解结果告诉我们这些主题在不同文档中的流行程度。这是一种在海量文本集合中寻找结构的强大方式，并且这些约束在ALS框架内得到了优雅的处理。

计算的技艺：让它在现实世界中奏效

至此，你可能认为ALS是一颗万能灵丹。但和任何强大的工具一样，有效使用它是一门艺术，与数值优化领域紧密相连。

一个关键的第一步是初始化。ALS的迭代之舞需要一个起始位置。一个纯粹随机的起点可能就像被空投到一片广阔、多雾的山脉中；你可能会误入一个狭小、无趣的沟壑（一个差的局部最小值），而永远找不到下面的大峡谷。一个好得多的策略是先“摸清地形”。通过对数据张量的二维展开进行奇异值分解（SVD），我们可以找到数据中最重要的方向或“子空间”。在这些子空间中启动ALS因子，这种方法与HOSVD有关，就像是从一个有希望的山脊线开始我们的搜索。这种有信息的初始化大大加快了收敛速度，并增加了找到高质量解的机会。

即使有一个好的开始，旅程也可能充满危险。有时因子向量变得几乎平行，导致一个病态的、“泥沼般”的景观，其中ALS的步长变得微小，算法几乎停滞不前。在这里，来自更高级优化的思想，如Levenberg-Marquardt方法，就派上了用场。该技术本质上是在最小二乘问题中加入少量的“阻尼”或正则化，防止算法在优化景观的平坦或狭窄部分迈出疯狂、不稳定的步伐。这是一种确保我们的搜索保持稳定并取得稳步进展的复杂方法。

最后，ALS在处理约束方面显示出其真正的灵活性。现实世界的数据通常遵循规则。事件的计数或光的强度不能为负。主题模型中的因子向量必须是概率分布。其中一个最优雅的例子来自分析化学，在色谱图或光谱图中从漂移的基线中分离信号。“非对称最小二乘法”在ALS迭代中使用了一种巧妙的加权方案。在每一步，它都会查看当前的基线估计。位于基线上方的数据点（可能是峰的一部分）被赋予一个非常小的权重，实际上是告诉算法忽略它们。位于基线下方的点被赋予一个大的权重，告诉算法要紧密拟合它们。通过在更新权重和重新拟合基线之间交替进行，ALS选择性地平滑背景，而不会扭曲尖锐、有意义的峰。这是一个利用迭代过程本身来强制执行一个复杂、动态规则的美妙例子。这以及其他约束，如非负性，需要的不仅仅是简单的启发式方法；它们需要从一开始就尊重问题结构的专门求解器，以确保数学上的正确性和数值上的稳定性。

窥探量子领域

我们的最后一站或许是最令人敬畏的。我们从电影评分和化学信号的实体世界，走向奇异而美妙的量子力学领域。量子物理学的一个核心挑战是描述一个由许多相互作用的粒子（如材料中的电子）组成的系统的状态。描述这样一种状态的“波函数”是一个复杂性达到天文数字级别的对象；即便是几十个粒子，直接存储它所需要的内存也比地球上所有计算机的总和还要多。

在一项卓越的概念性突破中，物理学家意识到，对于许多系统而言，物理上相关的状态可以使用一种称为矩阵乘积态（MPS）的特殊张量分解来有效表示。MPS将巨大的波函数张量表示为一串小得多的张量的链，每个粒子对应一个张量。

他们如何找到最重要的状态——能量最低的“基态”呢？他们使用的算法，在其现代形式下，正是一种交替最小二乘法的变体。著名的密度矩阵重整化群（DMRG）算法沿着粒子链来回扫描，一次优化一到两个小张量，同时保持其余部分固定。我们之前看到的那些计算技巧——使用特殊的“规范形式”使局部最小二乘问题变得微不足道，以及使用SVD来截断模型并使其可控——正是驱动现代量子物理学中最强大的数值方法之一的引擎。

从推荐电影到发现材料，从分析文本到计算量子世界的属性，交替最小二乘法的简单迭代模式被证明是一个具有非凡力量和广度的概念。它证明了科学思想的深刻统一性，即一个单一、优雅的想法可以为解开一个又一个领域的秘密提供钥匙。发现之旅不仅在于找到新事物，还在于找到我们已知事物之间的新联系。