LASSO 理论

玻尔百科

定义

LASSO 理论是一种通过在回归模型中添加系数绝对值之和（l1 范数）作为惩罚项来增强统计分析的框架。该机制利用其几何特性将许多系数压缩至零，从而实现高维模型中的自动变量选择并有效防止过拟合。虽然该理论在预测建模中表现优异，但其引入的系数估计值向下偏差意味着在进行因果推断时需要对模型进行修正。

核心要点

LASSO（最小绝对收缩和选择算子）通过在标准回归中增加对系数绝对值之和（ $\ell_1$ -范数）的惩罚来对其进行增强。
这种惩罚迫使许多系数变为恰好为零，这一特性称为稀疏性，从而在高维模型中执行自动变量选择。
虽然 LASSO 在预测和防止过拟合方面表现出色，但它会对其系数估计引入向下的偏差，这使得它在未经修改的情况下不适用于直接的因果推断。
从几何角度看，LASSO 之所以倾向于产生某些系数为零的解，是因为其 $\ell_1$ 惩罚的约束区域呈尖锐的菱形，这与岭回归的圆形约束不同。

引言

在通过数据理解世界的探索中，我们常常试图为一个结果与一组潜在的解释变量之间的关系建模。几个世纪以来，普通最小二乘（OLS）回归一直是这项工作的基石，它提供了一种简单而有效的方法来找到穿过数据点云的最佳拟合线。然而，在现代大数据时代，这种经典方法面临着一个关键挑战：当有几十、几百甚至数千个特征可用时，模型可能会变得过于复杂。它们可能会学习到我们数据集特有的噪声，而不是真实的潜在信号，这种现象被称为过拟合，这使得它们在对新数据进行预测时毫无用处。这就造成了模型简单性与预测准确性之间的根本性矛盾。

我们如何才能构建既强大又简约的模型？LASSO（最小绝对收缩和选择算子）理论通过一种称为正则化的技术，为这一难题提供了绝佳的解决方案。它修改了经典的回归目标，增加了一个抑制模型复杂度的惩罚项，有效地迫使模型为其包含的每一个特征提供正当理由。本文探讨了 LASSO 的优雅框架，为其内部工作原理及其在科学和工业领域的变革性影响提供了全面的指南。

我们的旅程始于“原理与机制”一章，在这一章中，我们将解构 LASSO 独特的惩罚项如何不仅收缩系数，还能执行自动变量选择，从而创建简单、可解释的模型。随后，“应用与跨学科联系”一章将展示这一强大思想如何应用于解决现实世界的问题，从解码生物学中的遗传密码到构建人工智能中的智能体。

原理与机制

要真正领会 LASSO 的力量与优雅，我们必须从一个熟悉的朋友——直线——开始我们的旅程。几个世纪以来，当面对一堆散乱的数据点时，我们的第一直觉就是找到穿过它们的“最佳”直线。这是经典回归的核心，而普通最小二乘（OLS）方法提供了一个极其简单的答案。它告诉我们，选择那条能使每个数据点到直线的垂直距离（即“残差”）的平方和最小化的直线。这很直观，在数学上也很方便，而且通常效果极佳。

但是，当我们的世界变得更加复杂时，会发生什么呢？如果我们不仅仅是想根据房屋的面积来预测其价格，而是要根据上百甚至上千个不同的特征——屋顶的年龄、附近公园的数量、当地学校的质量、厨房台面的风格等等？如果我们让模型自由地使用所有这些特征，它可能会变得过于灵活。它可能会开始追踪我们特定数据集中的随机噪声，创建一个对于我们已有的数据完美拟合，但对于预测一所新房子的价格却完全无用的、极其复杂的模型。这种现象被称为过拟合，它是数据科学家的宿敌。我们面临着一个根本性的权衡：一个简单的模型可能偏差过大，而一个复杂的模型可能方差过大，无法泛化。

我们如何找到这个黄金分割点？我们需要一种方法来告诉我们的模型：“尽你所能做到准确，但看在上帝的份上，请保持简单！” 这就是正则化的魔力所在，而 LASSO 提供了一种特别出色的方法。

LASSO 的交易：对复杂度的惩罚

LASSO 的全称——最小绝对收缩和选择算子——已经说明了大部分故事。它与 OLS 的目标相同：最小化残差平方和（RSS）。但随后，它增加了一个关键的转折：一个惩罚项。LASSO 的目标函数如下所示：

\text{Minimize } \left( \text{RSS} + \lambda \sum_{j=1}^{p} |\beta_j| \right)

在这里， $\beta_j$ 值是我们模型的系数——即赋予 $p$ 个特征中每一个的权重。第一部分 RSS 是“拟合数据”项。第二部分 $\lambda \sum_{j=1}^{p} |\beta_j|$ 是 LASSO 惩罚项。这是对模型复杂度征收的税，其中复杂度由其所有系数的绝对值之和来衡量（这也被称为 $\ell_1$ -范数）。参数 $\lambda$ 是税率，是我们用来控制权衡的一个旋钮。

让我们看看这个旋钮的作用。如果我们设置 $\lambda = 0$ ，惩罚项就完全消失了。LASSO 目标函数变得与 OLS 目标函数完全相同，我们又回到了我们的老朋友——经典最小二乘拟合。这是一个优美的统一原则：OLS 只是 LASSO 的一个特例，即我们决定完全不担心复杂性。

现在，如果我们把 $\lambda$ 调得很高会怎样？惩罚项会变得非常昂贵，以至于最小化总成本的最佳方式是让所有系数 $\beta_j$ 都等于零，从而得到一个无论特征如何，都对所有事物预测相同平均值的模型。这是一个极其简单的模型，但可能是一个非常差的模型。

真正的力量在于选择一个介于两者之间的 $\lambda$ 。我们要求模型进行一场交易：一个系数 $\beta_j$ 只有在它通过降低 RSS 所带来的收益超过其在惩罚项上的成本时，才被“允许”为非零。

稀疏性的几何学

至此，我们来到了 LASSO 最著名的特性：它执行变量选择的能力。它不仅将系数向零收缩，还常常将其中许多系数恰好设置为零，从而有效地将这些特征从模型中剔除。这种被称为稀疏性的属性，使得 LASSO 在具有成千上万个潜在预测变量（如基因组学或金融领域）的环境中非常有价值。但为什么会发生这种情况呢？答案，正如数学中经常出现的那样，可以在问题的几何形状中找到。

想象一个只有两个预测变量 $\beta_1$ 和 $\beta_2$ 的简单模型。RSS 项形成了一个椭圆等高线的景观，OLS 解位于靶心。惩罚项定义了一个“预算”或约束区域。最终的 LASSO 解是不断扩大的 RSS 椭圆首次接触到这个约束区域的点。

现在，让我们比较一下 LASSO 的 $\ell_1$ 惩罚 $|\beta_1| + |\beta_2| \le \text{constant}$ ，与它的近亲岭回归所使用的惩罚，后者使用 $\ell_2$ -范数 $\beta_1^2 + \beta_2^2 \le \text{constant}$ 。

岭回归的惩罚定义了一个完美的圆形（或在更高维度下为超球面）约束区域。当椭圆形的 RSS 等高线扩大时，它们几乎总是在两个 $\beta_1$ 和 $\beta_2$ 都非零的点接触到圆形。系数被向原点收缩，但它们很少会恰好变为零。
另一方面，LASSO 的惩罚定义了一个菱形（或超菱形）区域，倾斜了 45 度。这个菱形在坐标轴上（其中一个系数为零）有尖锐的角。当 RSS 等高线扩大时，它们很有可能会首先碰到这些尖角之一。位于角上的解意味着其中一个系数恰好为零！

这就是 LASSO 的几何魔力。 $\ell_1$ -范数的尖角使其能够充当“选择算子”。这在计算上是可行的，因为 $\ell_1$ -范数定义了一个凸形，不像简单地计算非零系数个数（即所谓的 $\ell_0$ -范数）那样会形成崎岖不平的景观。可以把它想象成一个光滑的碗：无论你从哪里开始，只要你向下滑，就保证能找到唯一的最低点。直接最小化非零特征数量的问题不是凸问题，在计算上是一场噩梦，相当于试图在有无数个山谷的山脉中找到最低点。LASSO 的 $\ell_1$ -范数是一个绝妙的凸代理，它为我们带来了稀疏性，而没有那高昂得无法承受的计算成本。

运行机制：软阈值

我们可以通过一个简化的、理想化的情景使这一点更加具体，即我们所有的预测变量彼此不相关（一种“正交设计”）。在这种特殊情况下，LASSO 复杂的优化问题分解为一系列针对每个系数的简单、独立的决策。

对于每个预测变量 $j$ ，其 LASSO 系数 $\hat{\beta}_j$ 由一个称为软阈值的简单规则确定：

首先，计算预测变量 $j$ 与结果变量之间的简单相关性。我们称这个值为 $z_j$ 。（在这种特殊情况下， $z_j$ 也是 OLS 系数）。
如果这个相关性的绝对值 $|z_j|$ 小于惩罚率 $\lambda$ ，那么 LASSO 系数 $\hat{\beta}_j$ 就被设置为零。该信号被认为太弱，无法克服惩罚。
如果 $|z_j|$ 大于 $\lambda$ ，则信号足够强。然后，通过将 $z_j$ 向零收缩 $\lambda$ 的量来计算 LASSO 系数。也就是说，如果 $z_j$ 是正的，则 $\hat{\beta}_j = z_j - \lambda$ ；如果 $z_j$ 是负的，则 $\hat{\beta}_j = z_j + \lambda$ 。

这为 LASSO 的机制提供了一幅极其清晰的画面。它就像一个过滤器。它将小的相关性解释为可能只是随机噪声并将其完全消除。它保留了它认为是真实信号的强相关性，但通过收缩其大小来调节它们，承认即使是这些强相关性也可能被偶然性部分夸大了。这种收缩是为了降低模型的整体方差并提高其对新数据的预测能力而付出的代价 [@problem_d:3184350]。

当工具背离目标：预测 vs. 推断

LASSO 是构建稀疏预测模型的绝佳工具。但如果我们的目标不仅仅是预测，而是科学理解呢？如果我们是一位政策分析师，试图估计一项新的健康保险计划对患者支出的精确因果效应，该怎么办？

在这种情况下，我们可能会拟合一个模型，其中计划参与变量的系数 $\alpha$ 代表我们想要估计的因果效应。分析师可能会想把所有潜在的混淆变量连同主要关注的变量一起扔进一个 LASSO 模型中，并对所有变量（包括 $\alpha$ ）进行惩罚。

这将是一个深远的错误。LASSO 的基本机制是向零收缩系数。通过惩罚 $\alpha$ ，我们系统性地在我们的估计中引入了偏差，使其比真实值更接近于零。虽然在用偏差换取更好的整体预测性能时，这种偏差是可以接受的（甚至是可取的），但它与获取单个、准确、无偏的因果参数估计的目标直接相悖。以这种天真的方式使用 LASSO 是一个典型的用对的工具做错的事的案例。

认识到这一局限性后，统计学家们开发了更复杂的方法。像去偏 LASSO或双重选择这样的技术，在一个巧妙的两阶段过程中使用 LASSO。它们首先使用 LASSO 来选择重要的控制变量，然后在第二步中，以一种消除收缩偏差的方式重新估计感兴趣的系数，从而允许进行有效的置信区间和假设检验。这揭示了一个至关重要的教训：对一个工具的深刻理解包括了解它的边界。

当 LASSO 遭遇阻碍：相关的挑战

最后，LASSO 并非没有其自身的阿喀琉斯之踵：高度相关的预测变量。如果我们有一组非常相似的变量（例如，衡量公司规模的几个不同指标），LASSO 就会变得不知所措。面对一组冗余的预测变量，它倾向于任意选择一个纳入模型，并将其他变量的系数设置为零。如果我们对一个稍有不同的数据集再次进行分析，它可能会从该组中选择一个不同的变量。这会使模型选择过程看起来不稳定和武断。

这就是另一个扩展，弹性网络（Elastic Net），前来救援的地方。弹性网络是一种折衷方案，一个结合了 LASSO 的 $\ell_1$ 惩罚和岭回归的 $\ell_2$ 惩罚的混合体。在预测变量相关时，这种对类岭回归惩罚的微小添加产生了显著的效果。它鼓励模型将高度相关的预测变量作为一个整体来选择或丢弃。这种“分组效应”通常会带来更稳定和更易于解释的模型。在数学上， $\ell_2$ 项的添加改善了优化问题的曲率，使其表现得更好，尤其是在 LASSO 的理论保证（如不可表示条件）可能因相关结构而受到挑战的情况下。

从其作为最小二乘法惩罚版本的简单根源出发，LASSO 展现了一幅由几何直觉、计算巧思和深刻统计权衡构成的丰富画卷。它向我们展示了一个简单的数学思想——惩罚绝对值之和——如何能够成为一个强大的工具，用于驾驭现代数据复杂、高维的世界，同时也教给我们关于预测和推断这两个不同目标的深刻教训。

应用与跨学科联系

在理解了 LASSO 的原理之后，我们现在踏上一段旅程，看看这个卓越的思想将我们带向何方。如同万能钥匙一般，稀疏性原则在从生命蓝图到人工智能架构等各种领域中开启了大门。它不仅仅是一种算法，更是一种关于复杂性的思考方式，一种在数据泛滥的世界中提取意义的指导哲学。在本章中，我们将探讨 LASSO 及其相关方法如何不仅在解决旧问题，而且在整个科学领域创造了提出新问题的方式。

现代科学家的放大镜：在草堆中寻针

LASSO 最直接、最深刻的应用是作为一种强大的发现工具，用于我们称之为“高维”设定的情境——即我们能测量的潜在原因或特征的数量（ $p$ ）远超我们能进行的观测次数（ $n$ ）。这是现代科学中典型的“大海捞针”问题。

思考一下遗传学家面临的挑战。活细胞是一个复杂的机器奇迹，成千上万的基因在错综复杂的舞蹈中相互作用。一个单一的可观察性状或表型——比如一个人的身高或他们对某种疾病的易感性——很少是单个基因的结果。它通常源于一个复杂的相互作用网络，这种现象被称为上位效应。生物学家可以通过不仅考虑单个基因，还考虑它们所有可能的两两、三向甚至更高阶的相互作用来对此建模。即使只有十几个基因，这也会产生成百上千个潜在的“特征”。仅有几百个实验样本，我们怎么可能希望能找到那少数几个真正起作用的相互作用呢？

这正是 LASSO 大放异彩的地方。通过施加其 $\ell_1$ 惩罚，它对复杂性实施了“预算”。它在潜在相互作用的海洋中筛选，并返回一个稀疏模型，仅突出那些有最强证据表明具有效应的少数几个。理论告诉我们，这不仅仅是一个充满希望的猜测。在特定的数据数学条件下——这些条件与特征之间的统计“不相干性”有关——LASSO 可以被证明能够恢复真实的活跃相互作用集。所需的样本数量 $n$ ，不依赖于天文数字般的可能相互作用总数，而是依赖于更小的真正活跃相互作用的数量 $s$ ，以及特征总数 $p$ 的对数。标度律 $n \gtrsim s \log p$ 是使这种发现成为可能的基本原则。

同样的故事也发生在金融和经济学领域。一位试图预测股市回报的分析师可能接触到数百种潜在的宏观经济指标、技术信号和市场情绪指标。如果他们使用像普通最小二乘（OLS）回归这样的经典方法，他们将面临一场灾难。当特征数量（ $p$ ）接近数据点数量（ $n$ ）时，OLS 变得极其不稳定，其预测对数据的微小波动极为敏感——这是一个高方差问题。更糟的是，如果 $p$ 超过 $n$ ，则存在无限多个“完美”解，方法完全失效。相比之下，LASSO 仍然表现良好。它选择了一个小的、稳定的预测变量子集，提供了一个不仅可解释，而且更有可能在样本外做出可靠预测的模型。它通过拥抱稀疏性来驯服“维度灾难”。

超越简单选择：融合结构与知识

LASSO 框架的真正美妙之处在于其灵活性。 $\ell_1$ 惩罚并非僵化的教条；它是一块可以被塑造成形的数学黏土，用以融入我们对问题结构的先验知识。

例如，想象一下某些特征天然地以团队形式工作。在信号处理应用中，信号的不同频率分量可能会被分组在一起。在遗传学中，一组基因可能属于同一个生物学通路。将整个组别要么全部包含在我们的模型中，要么全部排除，这样做会很有意义。组 LASSO 正是这样做的。它不是惩罚单个系数，而是惩罚整个系数组的“大小”。这个简单的改变产生了深远的影响。它使得该方法能够对组内的高度相关性保持鲁棒——这种情况会使标准 LASSO 感到困惑——并且当我们的分组假设正确时，可以显著提高其检测真实底层结构的能力。

我们可以进一步扩展这个想法。如果我们同时研究两个相关的问题呢？在遗传学中，当一个基因影响多个不同性状时，就会发生这种情况，这个概念被称为基因多效性 ([@problem_d:2825551])。我们可以为每个性状分别运行两次 LASSO 分析。但这是浪费的；它忽略了底层的因果因素可能是共享的这一关键信息。多任务 LASSO 通过连接这些分析优雅地解决了这个问题。它的惩罚结构鼓励一个特征同时被两个性状选中。通过在任务间“借用统计力量”，它可以发现那些在单个分析中因信号太弱而无法检测到的共享影响。

这种将知识嵌入惩罚项的原则可以变得相当复杂。我们甚至可以编码逻辑关系，比如层级关系。在上位效应问题中，如果两个基因之间的相互作用只有在这些基因本身具有效应时才被考虑，这在生物学上通常是合理的。分层 LASSO 模型可以强制执行这种“强遗传”原则，进一步缩小搜索空间并防止虚假的发现。这将正则化从一个简单的数学约束转变为一种编码的科学智慧形式。惩罚项成为了一种与数据对话的方式，用我们的领域专业知识来引导它。

LASSO 在行动：从工程到人工智能

这种稀疏性思维的影响远远超出了它在统计学中的起源。它已成为工程和计算机科学中理解和构建复杂系统的基本工具。

在信号处理和系统辨识中，工程师们经常面对内部工作原理未知的“黑箱”系统。他们可以用输入信号探测系统并测量输出，但如何推断其内部结构呢？一个对弱非线性系统强有力的表示是 Volterra 级数——本质上是系统对过去输入响应的多项式展开。这个展开的系数，即 Volterra 核，完美地描述了系统。问题在于，即使对于一个简单的系统，潜在系数的数量也可能非常庞大。然而，许多现实世界的系统是简约的；它们复杂的行为仅源于少数几个关键的非线性项。通过将问题构建为高维回归，LASSO 可用于估计这个稀疏的 Volterra 核集，从而有效地从系统的行为中逆向工程其动态。

也许最激动人心的前沿之一是 LASSO 在人工智能中的应用，特别是在强化学习（RL）中。一个 RL 智能体，比如一个学习在房间中导航的机器人或一个学习玩游戏的程序，必须学习一个“价值函数”——一种判断任何给定情况或状态有多好的方法。描述一个状态可能需要成千上万个特征。智能体真的需要关注所有这些特征吗？几乎可以肯定不需要。LASSO 可以用来以稀疏线性模型来近似价值函数。这迫使智能体学习其环境中的哪些特征对于做出好的决策是真正相关的。LASSO 引起的稀疏性不仅使智能体的“思维”更有效率，也使其策略对人类设计者来说更具可解释性。

更深层次的审视：哲学与推断的联系

最后，要真正欣赏 LASSO，我们必须不仅仅把它看作一个工具，而是看作一个庞大而深刻的统计思想网络中的一个节点。

在其核心，LASSO 是奥卡姆剃刀原理的体现：即在其他条件相同的情况下，更简单的解释更受青睐。惩罚参数 $\lambda$ 是控制这种对简单性偏好的旋钮。一个小的 $\lambda$ 表示：“尽可能紧密地拟合数据。”一个大的 $\lambda$ 表示：“我要求一个简单的模型，即使这意味着不拟合数据中的每一个小波动。”通过交叉验证选择 $\lambda$ 的标准做法是一种经验方法，用于在这个偏差-方差权衡中找到“甜蜜点”——即模型足够简单以至于能够很好地泛化到新数据的那个点。

这个视角将 LASSO 与古老的多重检验问题联系起来。如果一位生物学家测试 20,000 个基因与某种疾病的关联，纯粹出于偶然，在 p 值为 0.05 的阈值下，将有 1,000 个基因显得“显著”。这是多重检验的恶魔。像错误发现率（FDR）控制这样的统计程序旨在驯服它。LASSO 从一个不同的角度处理这个问题。它不是单独测试每个基因，而是对整个模型施加一个单一的、全局的惩罚。通过提高任何基因被包含在内的门槛（ $\lambda$ ），它含蓄地为抵御大量假阳性提供了一个坚固的屏障。虽然在经典意义上它不是一个正式的错误率保证，但它是由同一个根本目标驱动的：在高维搜索中将信号与噪声分离开来。

但是，如果我们想要经典统计学的正式保证呢？如果我们即使在使用 LASSO 从数千个基因中选择出某个特定基因后，仍然需要该基因效应的 p 值或置信区间呢？标准的 LASSO 估计量是有偏的，其分布很复杂，使得这很困难。在这里，理论已经发展。像去偏 LASSO 这样的方法为 LASSO 估计构造了一个巧妙的校正，产生了一个近似无偏的新估计量，并且由于中心极限定理，它服从正态分布。这使我们能够重新进入我们熟悉的经典推断世界，但带有一个关键的警告标签：这些结果只有在一系列新的假设——包括足够的稀疏性和行为良好的数据——得到满足时才有效。这是机器学习的预测世界与传统科学的推断世界之间一座美丽但脆弱的桥梁。

为了完成我们的旅程，我们甚至可以从贝叶斯视角来看待 LASSO。事实证明，LASSO 估计等同于在特定先验信念下的最大后验（MAP）估计：即每个系数都来自一个拉普拉斯分布。这个分布在零点处有一个尖峰，表达了对稀疏性的先验信念。这是一个引人入胜的发现。它将一个源于优化的方法与贝叶斯推断的世界联系起来。然后我们可以将其与其他促进稀疏性的先验进行比较，比如更“理想”但在计算上极其困难的尖峰厚尾先验，该先验假定一个系数要么恰好为零（尖峰），要么来自一个正态分布（厚尾）。这种比较揭示了 LASSO 本质上是一个对更复杂的贝叶斯理想的计算高效的近似。

从一个简单的优化问题出发，我们穿越了遗传学、金融、工程和人工智能。我们看到了它与科学哲学的深刻原则、经典推断和贝叶斯推理的联系。LASSO 证明了一个简单、优美的数学思想能够统一不同领域，并为现代科学的发现探索提供一种通用语言。