最小角回归 (LARS)

玻尔百科

定义

最小角回归 (LARS) 是一种通过沿着等角路径构建模型的回归算法，该路径使当前所有活跃预测因子与演化残差保持相等的响应相关性。该算法常用于计算物理等领域以创建稀疏代理模型，并且在经过微调后能够高效地计算出 LASSO 的完整解路径。最小角回归 (LARS) 具有高度的灵活性，可以扩展到处理非负约束、分组变量以及针对离群值的鲁棒性版本。

核心要点

LARS 通过沿一条“等角”路径构建模型，在此路径上，活跃预测变量与不断变化的残差保持相等的相关性。
LARS 算法只需稍作修改，便能高效地计算出 LASSO 的完整解路径，揭示了几何学与优化之间的深刻联系。
LARS 原理高度灵活，可以推广应用于处理非负约束、分组变量（组 LARS）以及异常值（稳健 LARS）。
LARS 在包括计算物理学在内的多个领域中都是一个至关重要的工具，用于为不确定性量化创建稀疏代理模型。

引言

在广阔的数据分析领域，一个根本性的挑战是从众多可能性中选择最有意义的预测变量。传统方法可能目光短浅或计算密集，常常无法找到最优雅的解决方案。本文介绍最小角回归（LARS），这是一种强大且几何上直观的算法，为解决该问题提供了一种民主化的方法。它通过提供一条高效、循序渐进的求解路径，弥合了贪婪的逐步选择法与计算复杂的优化方法之间的鸿沟。接下来几章将引导您了解 LARS 的核心概念。首先，“原理与机制”将揭示该算法优雅的等角方法及其与 LASSO 的深刻联系。随后，“应用与跨学科联系”将展示 LARS 的多功能性，从机器学习中的实际模型构建到其在计算物理学等复杂科学领域中的作用。

原理与机制

想象你是一位面临复杂案件的侦探。你需要解释一个结果——某件关键证据的价值，我们称之为 $y$ ——而房间里有成百上千条潜在线索，即预测变量（ $X_1, X_2, \dots, X_p$ ）。有些是至关重要的，其他的则是干扰项。你如何构建一个连贯的犯罪理论，一个使用正确线索来解释 $y$ 的模型呢？

一种简单、近乎原始的本能是贪婪。你会找出与证据 $y$ 相关性最强的单一线索。假设是 $X_1$ 。你会完全围绕 $X_1$ 建立你的初步理论。然后，审视证据 $y$ 中仍未被解释的部分（即残差），你会找到下一个最能解释这部分剩余的线索。这便是一种经典方法——前向逐步选择法的精髓。这是一种务实的、一次只处理一个变量的方法。然而，这种贪婪可能是其致命弱点。当线索之间相互关联——即预测变量相关时——这种方法可能变得目光短浅，过分信赖它找到的第一条线索，从而可能错过一个涉及多条线索组合的更优雅解释。

如果我们能更深思熟慮呢？如果我们不让一条线索主导整个调查，而是在它们之间建立一种民主机制呢？这正是最小角回归（LARS）的核心美妙思想。

最小角路径

LARS 的起点与我们那位贪婪的侦探一样，首先识别与响应变量 $y$ 相关性最强的单个预测变量。假设这个变量是 $X_1$ 。此时，我们的模型为空，需要解释的“残差”就是数据 $y$ 本身。但从这里开始，路径出现了分歧。LARS 并非全力押注于 $X_1$ ，而是迈出了试探性的一小步。它开始将 $X_1$ 的系数 $\beta_1$ 从零开始，一点一点地增大。

随着系数 $\beta_1$ 的增加，我们模型的预测值 $\hat{y} = \beta_1 X_1$ 开始解释 $y$ 中的部分变异。因此，残差 $r = y - \beta_1 X_1$ 开始缩小并改变方向。这对相关性产生了奇妙的影响。我们“活跃”预测变量 $X_1$ 与不断演变的残差的相关性将会下降。与此同时，所有“非活跃”预测变量与这同一个演变残差的相关性也会发生变化，有些增加，有些减少。

LARS 如同观看一场赛马般观察着这一切。它会问：在哪个精确的点上，某个非活跃预测变量（比如 $X_2$ ）与残差的相关性在绝对值上恰好等于我们第一个预测变量 $X_1$ 的相关性？LARS 移动 $\beta_1$ 的距离刚好足以达到这个完美平衡点，仅此而已。这是其核心机制。我们到达了路径上的一个“节点”，一个必须做出决定的点。

沿等角线前行

面对这种平局，前向逐步选择法可能会武断地打破僵局，然后选择下一个“最佳”变量。LARS 的做法则优雅得多。它宣布 $X_1$ 和 $X_2$ 现在都是活跃集的成员。它不会偏袒任何一方。

现在，算法必须同时更新 $\beta_1$ 和 $\beta_2$ 。但是朝哪个方向更新呢？它沿着一条非常特殊且唯一的路径移动它们：等角方向。这是一个在系数空间中选择的方向，当我们沿此方向移动时，两个预测变量 $X_1$ 和 $X_2$ 与不断变化的残差的绝对相关性保持完全相等。想象两个系在一起的攀岩者，他们攀登悬崖时始终保持在同一海拔高度。这就是 LARS 的精神。模型的拟合向量 $\hat{y}$ 沿着一个与预测变量向量 $X_1$ 和 $X_2$ 形成等角的方向移动——“最小角回归”因此得名。

这种协作式的移动一直持续，直到第三个预测变量 $X_3$ 在它自己的竞赛中胜出，其与残差的相关性“追上”了活跃集中的那个共同数值。那时， $X_3$ 加入活跃集，算法为所有三个预测变量计算一个新的等角方向，让它们共同前进。这个过程创造了一条分段线性的系数路径，从一个节点移动到下一个节点。这与其他增量方法（如前向分步回归）有着根本的不同，后者是为每个活跃系数采取微小的、交替的“之”字形步进。LARS 则是直接找到节点之间那条完美的、笔直的、平衡的路径。

秘密身份：揭开 LASSO 的面纱

在一段时间里，这被视为一个聪明且几何上优美的算法。但故事远不止于此。事实证明，这个纯粹从几何直觉得出的程序，实际上是在秘密地解决现代统计学中最重要的优化问题之一：LASSO（最小绝对收缩和选择算子）。

LASSO 旨在找到一个系数向量 $\beta$ ，使得平方误差和最小化，但带有一个关键的转折。它增加了一个与系数绝对值之和成正比的惩罰项，即 $\lambda \|\beta\|_1 = \lambda \sum_j |\beta_j|$ 。

\min_{\beta \in \mathbb{R}^{p}} \left\{ \frac{1}{2}\|y - X \beta\|_{2}^{2} + \lambda \|\beta\|_{1} \right\}

这个 $\ell_1$ 惩罚项是一种“诱导稀疏性”的正则化项；它倾向于迫使许多系数不只是变小，而是恰好为零，从而实现自动变量选择。参数 $\lambda$ 控制着这个惩罰项的强度。

这种联系来自于 LASSO 问题的最优性条件，即 Karush-Kuhn-Tucker (KKT) 条件。这些条件是解决方案的数学“试金石”。它们指出，对于给定的惩罚参数 $\lambda$ ，任何最优的 LASSO 解 $\hat{\beta}$ 都必须满足一个显著的性质：

对于每个活跃预测变量 $j$ （其中 $\hat{\beta}_j \ne 0$ ），其与残差的绝对相关性必须恰好等于惩罚参数： $|X_j^\top (y - X \hat{\beta})| = \lambda$ 。
对于每个非活跃预测变量 $k$ （其中 $\hat{\beta}_k = 0$ ），其与残差的绝对相关性必须小于或等于 $\lambda$ ： $|X_k^\top (y - X \hat{\beta})| \le \lambda$ 。

这恰恰是 LARS 通过其构造本身所维持的等角条件！LARS 在节点之间保持恒定的那个共同相关性值，正是 LASSO 的惩罚参数 $\lambda$ 。从另一个优美的凸对偶角度看， $\lambda$ 定义了对偶空间中一个“盒子”的大小，而 KKT 条件要求活跃预测变量的相关性恰好位于这个盒子的边界上。

LARS 算法通过遵循其简单的几何规则，描绘出了当 $\lambda$ 从一个很大的值（此时所有系数都为零）扫到零时 LASSO 解的完整路径。这里有一个微小但至关重要的修改。精确的 LASSO 路径有时要求一个变量在其系数被驅使回零时从活跃集中移除。对 LARS 进行一个简单的修改来处理这种情况——当变量的系数路径达到零时将其移除——使得该算法能够以惊人的效率计算出完整的 LASSO 解路径。一个始于几何好奇心的想法，最终被揭示为一个深刻统计原理的计算引擎。

魔法何时发生？

这种优雅的相关性之舞虽然强大，但并非万无一失。最后一个更深层次的问题仍然存在：这个程序在什么时候能真正成功地识别出生成数据的“真实”预测变量集合？答案再次在于问题的几何结构——具体来说，在于预测变量本身之间的关系。

统计理论中的一个基本结果提供了一个称为不可表示条件（Irrepresentable Condition）的保证，确保 LASSO 能够成功。从本质上讲，这个条件指出，“真实”的非活跃预测变量（即干扰项）不能被“真实”的活跃预测变量（即关键线索）很好地表示或与之高度相关。如果那些不重要的线索可以被那些重要线索的组合紧密模仿，那么任何算法都几乎不可能将它们区分开来。

当不可表示条件对给定的预测变量集成立时，它保证了存在一个惩罚参数 $\lambda$ 的范围，在此范围内 LASSO 解的支撑集将与真实的支撑集完全相同。由于 LARS 追踪了这条路径，这意味着该算法在其进程中的某个点，其活跃集中将包含正确的变量集。因此，算法的成功并非偶然，而是编织在它所探索的数据的结构之中。这是对几何学、优化以及在数据中探寻真理三者统一之美的一个绝佳证明。

应用与跨学科联系

一个简单而强大的思想蕴含着奇妙的美感。我们所探讨的最小角回归原理就是这样一个思想。它不仅仅是解决统计问题的巧妙算法，更是一种几何视角，一种思考数据的方式，揭示了在广阔的科学与工程挑战景观中惊人的一致性。为了理解这一点，我们将踏上一段旅程。我们将从构建简单模型的基本任务开始，一直走到复杂物理模拟的前沿。你将看到这个“沿等角路径前进”的单一思想如何适应、泛化并连接看似无关的领域。

模型构建的艺术

想象你是一名工程师，试图预测一栋房子的价格。你有一长串潜在因素，或称“特征”：居住面积、卧室数量、房龄、社区犯罪率、到最近学校的距离等等。哪些因素真正重要？添加无关因素会使你的模型充满噪声且不可靠；遗漏重要因素则会使其不准确。模型构建的艺术就是明智选择的艺术。

这正是 LARS 首次展现其优雅之处的地方。它提供了一种民主且有原则的方式来逐步构建模型。它从零开始，然后发问：哪个单一因素与房价的相关性最高？假设是居住面积。LARS 接着开始增加居住面积的重要性（即系数）。随着系数的增加，房价中被“解释”的部分发生变化。LARS 沿着这条路径不断调整，直到某个时刻，另一个因素——比如卧室数量——与剩余未解释房价部分的相关性变得完全相等。在这个精确的点上，出现了一个平局。

现在，有两个因素在起作用，LARS 做了一件了不起的事。它开辟了一条新路径，一个特殊的“等角”方向，其选择是为了在移动过程中，两个活跃因素与不断变化的残差的相关性保持完美的 eşit。这就像把铅笔立在手指上保持平衡；你必须不断调整才能让它直立。LARS 就走在这条钢丝上，直到第三个因素加入竞争，然后这个过程继续下去。

这条逐步路径与现代统计学中最著名的工具之一——LASSO（最小绝对收缩和选择算子）——有着深刻的联系。LASSO 由一个优化问题定义：我们希望找到系数 $\beta$ 以最小化平方误差和，但同时对系数的绝对值之和施加惩罚，由参数 $\lambda$ 控制：

\min_{\beta} \frac{1}{2} \|y - X\beta\|_{2}^{2} + \lambda \|\beta\|_{1}

对于任何给定的 $\lambda$ ，这会给出一个单一的解。但我们应该选择哪个 $\lambda$ 呢？大的 $\lambda$ 会迫使大多系数为零（一个简单的模型），而小的 $\lambda$ 则允许一个复杂的模型。LARS 的天才之处在于，只需稍作修改，它就能为每一个可能的 $\lambda$ 值，描绘出从最简单到最复杂的整个 LASSO 解集。计算单个 $\lambda$ 的解可以用其他方法（如坐标下降法）完成，但 LARS 给了我们整部电影，而不仅仅是一张快照。这非常强大，因为路径本身就是研究的对象。

拥有完整的路径就像拥有一个所有可能模型的目录。接下来的问题是，哪一个最好？在这里，LARS 框架与模型选择理论完美结合。我们可以沿着路径前进，在每个新变量进入的“节点”，评估当前模型的质量分数。Mallows' $C_p$ 就是这样一种分数，它是一个在统计学上意义深远的预测误差度量。一个优美的理论结果表明，LASSO 模型的“自由度”——计算 $C_p$ 的关键要素——恰好就是活跃变量的数量。这使得沿着 LARS 路径计算 $C_p$ 变得异常简单和高效。

在机器学习领域，模型选择的黄金标准是交叉验证。这包括将数据分割，用一部分训练模型，用另一部分测试模型。对许多 $\lambda$ 值执行此操作的计算成本可能极其高昂。但是，由于 LARS 高效地计算了整个路径，它使得“路径式”交叉验证成为可能。我们为每个训练分割计算 LARS 路径，然后在 $\lambda$ 值的组合网格上评估所有模型。这比为我们想要测试的每一个 $\lambda$ 值重新运行一个独立的优化要高效得多。LARS 的几何特性也给了我们精确的控制，允许我们在达到期望的模型大小或系数范数的特定预算时精确地停止算法。

更灵活的几何

现实世界是 messy 的。数据有异常值，变量成组出现，物理量常常受到约束。一个真正伟大的思想必须足够灵活以应对这种混乱。LARS 提供的几何视角恰好具备这种灵活性。“等角”原理可以以优美的方式进行推广。

考虑一下我们建模的许多量，如浓度或计数，是不能为负的。我们可以将这个简单的约束 $\beta \ge 0$ 直接纳入问题中。底层的几何结构发生了变化，但 LARS 原理依然适用。KKT 最优性条件稍有改变，算法也随之调整，现在只考虑正相关性并确保系数永远不会低于零。路径仍然是分段线性的，逻辑也同样优雅。

或者，如果我们的变量具有天然的结构呢？在遗传学中，我们可能想知道一整个基因通路是否与某种疾病相关，而不是逐个询问每个基因。我们可以定义变量组并寻求一个“组稀疏”模型。LARS 算法可以推广到这种“组 LARS”。它不再根据单个变量与残差的相关性来选择变量，而是根据其集体相关向量的范数来选择变量组。等角方向的概念于是从单个变量提升到整个子空间，使得算法能够为所有活跃组保持相等的组相关范数。这还是同样的核心思想，只是应用于更复杂的对象 [@problemid:3456930]。

也许最美的扩展是使算法变得稳健。LARS 从 LASSO 继承的标准最小二乘准则对异常值极其敏感——几个极端不正确的数据点就可能让整个模型偏离。我们可以通过用像 Huber 损失这样的函数替换平方误差来构建一个稳健的版本。Huber 损失对于小的残差表现得像平方误差，而对于大的残差则表现得像不太敏感的绝对误差。我们的算法会发生什么变化？几何结构扭曲了！LARS 路径现在不再是在标准的欧几里得空间中描绘，而是在一个加权空间中，权重由残差本身决定。被识别为异常值的点被赋予较小的权重，它们对解路径的“引力”减弱了。算法的结构保持不变，但它现在在一个动态变化的几何景观中运行，自动地保护自己免受污染。

通往其他科学的桥梁

一个数学思想的最终考验在于它解决其他科学领域实际问题的能力。在这方面，LARS shining as a bridge between data science and computational physics, particularly in the challenging field of Uncertainty Quantification (UQ).

现代科学依赖于复杂的计算机模拟——从气候模型到飞机机翼的结构完整性。这些模拟依赖于几十个或几百个输入参数（材料属性、边界条件等），而这些参数通常无法被精确知晓。一个关键任务是理解这些输入中的不确定性如何传播到模拟的输出中。运行数千次模拟来测试每一种可能性在计算上是不可行的。

取而代之，科学家们构建一个近似的“代理模型”——一个模仿昂贵计算机模拟的简单数学函数。一种强大的方法是使用多项式混沌展开（PCE），它将输出表示为随机输入变量的多项式。问题在于，当输入变量很多时，可能的多项式项的数量可能是天文数字。我们需要找到那些真正重要的少数项。

这是一个稀疏回归问题，而 LARS 是解决这个问题的完美工具。科学家可以运行昂贵的模拟几百次，创建一个小数据集。然后，他们可以使用 LARS 在包含数千或数百万个多项式基函数的庞大候选库中进行搜索，自动选择一个稀疏而准确的代理模型。这种自适应、数据驱动的方法结合了我们讨论过的所有元素：对最重要“特征”（现在是多项式项）的贪婪选择，允许通过交叉验证进行高效模型选择的路径式结构，甚至可以通过加权选择来整合先验物理知识，偏爱已知更重要的变量（一种称为各向异性的属性）。

想一想：那个帮助经济学家建立简单房价模型的核心思想，同样也在帮助物理学家为一个复杂的多尺度物理系统构建一个紧凑、准确的模型。这就是我们一直在寻求的统一与力量。

从一个简单、优雅的几何规则——“始终保持活跃变量与你尚不能解释的部分具有同等的相关性”——一个完整的应用宇宙就此展开。它为我们提供了构建模型的实用工具，一个理解正则化的理论透镜，以及一个能够适应科学数据中 messy、结构化和受约束现实的灵活框架。沿着 LARS 路径的旅程不仅仅是为了找到一个单一的答案；它是关于一步一步地揭示一个问题隐藏的结构。