岭回归与Lasso回归：稀疏性与正则化指南

玻尔百科

定义

岭回归与Lasso回归：稀疏性与正则化指南是统计学与机器学习领域中评估两种核心正则化技术的分析框架。该指南重点介绍了使用 L2 惩罚项来稳定相关变量模型的岭回归，以及利用 L1 惩罚项实现自动特征选择并产生稀疏性的 Lasso 回归。掌握这些方法有助于在模型稳定性和可解释性之间进行权衡，并为理解结合两者优势的弹性网络模型提供基础。

核心要点

岭回归（ $L_2$ 惩罚）会同时收缩相关预测变量的系数，从而创建密集但稳定的模型。
Lasso回归（ $L_1$ 惩罚）可以将系数精确地收缩到零，从而执行自动特征选择，并创建稀疏、可解释的模型。
在它们之间的选择涉及一种权衡：岭回归提供更优的稳定性，而Lasso在特征选择方面表现出色，尤其是在高维环境中。
弹性网络（Elastic Net）结合了两种惩罚项，继承了各自的优点，提供了一种稳健的方法，既能进行特征选择，又能处理相关变量。

引言

在构建预测模型的过程中，一个核心挑战是创建一个不仅能解释其训练数据，还能泛化到新的、未见过的数据的模型。过于复杂的模型常常会陷入“过拟合”的陷阱——它们记住了训练数据中的噪声，而不是学习潜在的信号，导致在现实世界中表现不佳。我们如何引导模型走向简单化和更好的泛化能力？答案在于一个强大的统计概念，称为正则化（regularization），它通过惩罚模型的复杂性来防止过拟合。

本文深入探讨了两种最著名的正则化技术：岭回归（Ridge regression）和Lasso回归。尽管它们源于相同的原则，但其微妙的数学差异导致了截然不同的行为和应用。我们将踏上一段理解这些方法的旅程，从它们的核心机制开始，然后探索它们在整个科学领域的变革性影响。第一章“原理与机制”将剖析定义岭回归和Lasso的数学惩罚项、几何直觉和稳定性权衡，最终引出优雅的弹性网络（Elastic Net）混合方法。随后，“应用与跨学科联系”一章将展示这些工具不仅仅是统计学上的奇特之物，而是在生物学、神经科学到物理学等领域中强大的发现引擎，使科学家能够在复杂数据中找到简单的真理。

原理与机制

想象一下，我们正试图建立一个世界的模型——比如，根据病人的健康记录预测其患败血症的风险，或者根据房屋的特征预测其价格。我们希望我们的模型在我们已有的数据上是准确的，但更重要的是，我们希望它能在它从未见过的新数据上奏效。这就是泛化（generalization）的本质。一个过于复杂的模型，试图捕捉我们训练数据中每一个微小的波动和怪癖，就像一个学生背诵了去年考试的答案。他们可能会在那次特定的考试中得到满分，但他们并没有真正学懂这门学科，并且在新的考试中会一败涂地。这种泛化失败被称为过拟合（overfitting）。

为了解决这个问题，我们需要教我们的模型一点谦逊。我们需要一个简约原则，一种鼓励更简单解释而非更复杂解释的奥卡姆剃刀（Occam's razor）。在统计建模中，这是通过一个优美的思想——正则化（regularization）——来实现的。我们修改了我们的目标：我们不再仅仅最小化模型的误差，而是最小化误差加上一个对复杂性的惩罚。这个惩罚项不鼓励模型的参数——它的系数——变得过大，从而有效地限制了其复杂性。

实现这一目标的两种最优雅、最强大的方法被称为岭回归（Ridge）和Lasso回归。它们是兄弟，诞生于同一思想家族，但其DNA中的一个微妙差异赋予了它们截然不同的个性和技能。它们的整个故事，它们的力量和权衡，都源于其惩罚项的数学形式。

问题的核心：两种惩罚项的故事

假设我们正在尝试为我们的模型找到一组最佳系数，我们称之为 $\beta$ 。经典方法是最小化一个损失函数，通常是我们预测值与实际值之间差异的平方和。正则化则向这个损失函数添加一个惩罚项。

岭回归，也称为 $L_2$ 正则化，增加了一个与所有系数的平方值之和成比例的惩罚项：

\text{Penalty}_{\text{Ridge}} = \lambda \sum_{j=1}^{p} \beta_j^2 = \lambda \|\beta\|_2^2

在这里， $\lambda$ 是一个控制惩罚强度的调整参数。你可以把这看作是对每个系数的“温和拉力”，诱使它趋向于零。系数越大，拉力越强，但它从不强制任何系数恰好为零（除非其贡献确实为零）。它优雅地、集体地收缩模型的参数。

Lasso回归（最小绝对收缩和选择算子），或 $L_1$ 正则化，则采取了不同的方法。它的惩罚项与系数的绝对值之和成比例：

\text{Penalty}_{\text{Lasso}} = \lambda \sum_{j=1}^{p} |\beta_j| = \lambda \|\beta\|_1

这个微小的改变——从对系数取平方到取其绝对值——带来了巨大的后果。 $L_1$ 惩罚就像一个严格的预算。它迫使模型做出艰难的选择。一个特征要想拥有非零系数，其对减少模型误差的贡献必须足够大，以证明其在此预算下的“成本”是合理的。如果一个特征的预测能力太弱，Lasso将通过将其系数设置为精确地零来无情地消除它。这就是为什么Lasso不仅仅是一种收缩方法；它也是一种特征选择方法。它给了我们一个稀疏模型，一个只包含最重要预测变量的模型，这样的模型可能更容易解释。

选择的几何学：为什么Lasso会产生稀疏性

为什么这个看似微小的差异会导致行为上如此重大的分歧？答案在于几何学，一种 Feynman 本人也会珍视的思维方式。想象一下，我们的系数存在于一个多维空间中。在没有任何惩罚的情况下，我们的最佳模型对应于该空间中使误差最小化的一个单点。我们称之为“无约束解”。

正则化可以被看作是将我们的解约束在原点周围的某个区域或“约束形状”内。对于岭回归， $L_2$ 惩罚定义了一个完美的球形区域（在二维中是一个圆形）。对于Lasso， $L_1$ 惩罚定义了一个菱形形状（在二维中是一个旋转了45度的正方形），称为超八面体（hyper-octahedron）。

现在，想象一下：我们从原点处一个微小的约束形状开始，并将其扩大，直到它刚好接触到误差函数的表面，从而找到形状内误差最小的点。

对于岭回归平滑的球形边界，接触点几乎总是某个所有系数都非零的点。球体首次接触误差曲面的位置恰好在坐标轴上的可能性极小。因此，岭回归会收缩系数，但会保留所有系数。
对于Lasso的菱形边界，情况就不同了。这个形状有尖角，这些尖角恰好位于坐标轴上。当我们扩大这个菱形时，它很可能在其中一个角上首次接触。坐标轴上的点意味着其中一个系数恰好为零！这个优美的几何特性正是Lasso能够执行特征选择的力量来源。

这个机制在数学上被所谓的Karush-Kuhn-Tucker（KKT）条件所捕捉。对于Lasso，如果一个系数 $\beta_j$ 的贡献大小（其梯度）小于惩罚参数 $\lambda$ ，那么它将被设置为零。一个特征要生存下来，就必须通过其梯度超过这个阈值来证明其价值。对于岭回归，条件是平滑的，只有在其梯度在解处恰好为零的非一般情况下，系数才会为零。

队友的故事：处理相关预测变量

真实世界的数据是杂乱的，预测变量常常成组出现。例如，在医学中，一组五种不同的生物标志物可能都测量同一个潜在的炎症过程；它们是高度相关的“队友”。我们的两种方法如何处理这样的团队呢？

岭回归，凭借其集体收缩的特性，表现出一种“分组效应”。如果一组预测变量高度相关并且集体有用，岭回归会一起收缩它们的系数，赋予它们相似的非零值。它将它们识别为一个团队，并保留在模型中，减少它们各自的影响力，但保留它们的集体存在。当这个群体本身代表一个你不想拆分的有意义的临床或生物学构造时，这一点非常宝贵。

Lasso，在追求稀疏性的过程中，则更为果断，有时甚至有些武断。当面对一组相关的预测变量时，它通常只会从组中选择一两个“明星球员”，赋予它们非零系数，同时将其余团队成员的系数强制为零[@problem_-id:5208093]。虽然这产生了一个更简单的模型，但选择哪个预测变量可能有些随机。这引出了稳定性的关键概念。

稳定性与不稳固的基础：稀疏性的代价

一个好的科学模型应该是稳健的。它的结论不应该因为我们从分析中移除一个数据点而发生巨大变化。这个属性被称为算法稳定性（algorithmic stability）。

在这方面，岭回归大放异彩。它的目标函数是“强凸”的——你可以把它想象成一个光滑、形状完美的碗。无论你从哪里开始，你总会到达底部那个唯一的、稳定的最小值。对数据进行轻微扰动只会使这个最小值移动一个微小、可预测的量。这使得岭回归成为一个非常稳定的算法；它的解不会因为输入数据的微小变化而剧烈跳动。

然而，Lasso为其特征选择的能力付出了代价。由于 $L_1$ 惩罚的非光滑性质，其目标函数不是强凸的。对于相关的预测变量，这个“碗”可能会有一个平底的山谷。这意味着不存在唯一的最小误差点，而是一整条线或一个平面上同样好的解。算法必须选择其中一个，而数据的微小变化可能导致它跳到山谷中一个完全不同的点，从而可能改变从相关组中选择哪些变量。这种相对不稳定性是使用Lasso时需要考虑的一个关键权衡。

尽管如此，在适当的背景下——特别是当我们相信真实的潜在模型是稀疏的（许多特征是无关的）并且我们的数据集是高维的（ $p \gg n$ ）——Lasso识别这种稀疏结构的能力通常会比岭回归带来更好的泛化能力。它的误差可以与少数真实预测变量的数量 $s$ 成比例，而不是与特征总数 $p$ 成比例。

两全其美：弹性网络

因此我们面临一个两难的境地：岭回归稳定且能将队友分组，但给出的是密集模型；而Lasso是强大的特征选择器，但可能不稳定。我们必须二选一吗？幸运的是，并非如此。一个名为弹性网络（Elastic Net）的巧妙解决方案提供了两者的完美结合。

弹性网络只是使用了一个混合了岭回归和Lasso惩罚项的惩罚项：

\text{Penalty}_{\text{Elastic Net}} = \lambda \left( \alpha \|\beta\|_1 + \frac{1-\alpha}{2} \|\beta\|_2^2 \right)

参数 $\alpha \in [0,1]$ 扮演着“混合旋钮”的角色。

当 $\alpha=1$ 时，我们得到纯Lasso。
当 $\alpha=0$ 时，我们得到纯岭回归。
对于0和1之间的任何 $\alpha$ ，我们得到一个继承了父母双方最优品质的混合体。

少量的岭回归（ $L_2$ ）惩罚使得整个目标函数再次变为强凸。这是一个至关重要的技巧！它恢复了Lasso单独使用时可能缺乏的解的稳定性和唯一性，即使数据高度相关。它还鼓励分组效应，允许它将相关的预测变量作为一个团队来选择或丢弃。同时，Lasso（ $L_1$ ）部分仍然强制稀疏性，将不相关特征和组的系数推向精确的零。弹性网络向我们展示，岭回归和Lasso不仅仅是对手；它们是一个连续工具谱的两端，让我们能够为任何给定的问题找到完美的平衡。

更深层次的视角：贝叶斯联系

还有一个最后、优美的理解层次统一了这些思想。惩罚回归可以从贝叶斯推断（Bayesian inference）的角度来看。在这种观点下，惩罚项对应于我们在看到数据之前对模型系数持有的先验信念（prior belief）。最小化带惩罚的损失函数等价于寻找“最大后验”（Maximum A Posteriori，MAP）估计——即在给定我们的先验信念和数据证据的情况下最 plausible 的一组系数。

岭回归的 $L_2$ 惩罚等价于对系数施加一个高斯（正态）先验。这个先验假设系数最可能接近于零，呈经典的钟形曲线分布。它认为非常大的系数是可能的，但其可能性呈指数级下降。

Lasso的 $L_1$ 惩罚等价于一个拉普拉斯先验。这个分布在零点有一个比高斯分布尖锐得多的峰，并且有“更重的尾部”。这个先验代表了对世界的不同信念：它表达了一种强烈的信念，即许多系数恰好为零（尖锐的峰），同时对于少数系数可能相当大（重尾）持比高斯先验更开放的态度。

这个贝叶斯视角为这些方法的行为方式提供了深刻的哲学 justifications。岭回归进行收缩，Lasso进行选择，因为它们是我们试图解决的问题的潜在结构的不同、连贯假设的物理体现。它们不仅仅是数学技巧；它们是将我们的知识和直觉嵌入到从数据中学习过程中的有原则的工具。

应用与跨学科联系

既然我们已经探索了岭回归和Lasso回归优美的数学机制，我们可能会问，就像我们在科学中应该始终做的那样，“那又怎样？”这些工具有什么用？它们能让我们到达以前无法到达的地方吗？事实证明，答案是，它们不仅仅是统计上的便利工具。它们代表了一个基本原则——简单性或稀疏性原则——这个原则在科学世界的无数角落回响。它们是一个数学透镜，让我们能够在极其复杂的系统中找到隐藏的简单、优雅的模式。让我们踏上旅程，穿越其中一些世界，看看这些思想的实际应用。

寻找关键少数：生物学和医学中的稀疏性

想象你是一名医生，正在测试一种有前景的新抗癌药物。这种药物有效，但在某些患者身上会引起危险的、危及生命的反应。你的身体含有成千上万种不同的蛋白质，你怀疑治疗前少数几种蛋白质的水平可以预测谁会出现这种可怕的副作用。如果你能找到它们，你就可以对患者进行筛查，只将药物给予那些能安全服用的人。

问题是，你如何在成千上万的蛋白质海洋中找到这几个关键的蛋白质？如果你有来自，比如说，几百名患者的数据，你的变量（蛋白质）比观测值（患者）要多得多。传统的回归模型会淹没在这种复杂性中，拟合噪声，给你一个毫无希望的复杂且无意义的答案。

这正是Lasso大显身手的地方。通过应用 $L_1$ 惩罚，你实际上是在告诉算法：“我相信答案是简单的。给我找到能有效预测这种副作用的最小蛋白质集合。”Lasso就像一个数学筛子，过滤掉成千上万个其波动只是噪声的无关蛋白质，留给你一个只包含少数具有强烈、一致信号的蛋白质的稀疏模型。这不仅仅是一个统计技巧；它是在现代生物学高维世界中进行发现的强大引擎。它使我们能够从数据洪流转向可行的医学见解。

寻找“关键少数”的应用超出了预测，延伸到了建立因果关系的核心。在医学中，检验治疗效果的黄金标准是随机对照试验。但如果我们无法进行呢？如果我们只有观察性数据，其中患者选择（或因各种原因被给予）某种治疗？为了进行公平比较，我们需要调整各组之间可能不同的所有因素——即混杂因素（confounders）。

在这里，我们可能又面临几十个甚至几百个潜在的混杂因素。哪些是真正重要的？Lasso的一个巧妙用法是建立一个模型，不是为了预测患者的结果，而是为了预测他们接受的治疗。这个模型，称为倾向性得分（propensity score），帮助我们平衡治疗组和对照组，创建一个“伪随机试验”。通过使用Lasso来构建这个模型，我们是在断言一种信念，即只有一组稀疏的因素真正影响了治疗决策。算法然后找到这组关键的混杂因素，从而可以更稳健、更可靠地估计治疗的真实效果。这是一个优美而微妙的应用，其中Lasso不是为了其最终的预测能力，而是作为追求因果真理过程中的一个关键中间步骤。

从城市天空到内心宇宙：构建世界模型

稀疏性原则不仅是关于在草堆中找针；它也关乎构建我们周围世界的简单、可理解的模型。考虑一个大城市的空气污染问题。我们想创建一张地图，显示哪些社区面临细颗粒物（ $PM_{2.5}$ ）的风险最高。我们可以在几十个监测点测量污染，并且对于每个站点，我们可以收集大量其他数据：交通密度、工业用地、海拔、绿地面积等等。

这些因素中哪些真正驱动了污染水平？Lasso可以帮助我们回答这个问题。通过将污染测量值与所有潜在的环境因素进行回归，Lasso会将不太重要的变量的系数收缩到零，给我们一个简约的模型。然而，这不是一个自动的、盲目的过程。科学家可能会发现，纯粹关注预测能力的Lasso保留了两个高度相关的变量，比如population density和traffic counts。知道交通是排放的直接来源，而人口是一个不太直接的代理变量，科学家可以利用这一见解来完善模型，移除冗余变量，以创建一个不仅具有预测性，而且稳定和可解释的模型。这是一个统计工具与人类专家之间对话的美丽例子，他们共同努力构建一个具有科学意义的模型。

这种建模思想可以扩展到科学中最深刻的挑战之一：理解人脑。神经科学家使用像脑电图（EEG）和脑磁图（MEG）这样的技术来测量头骨外的微小电场和磁场。他们想从这些微弱的涟漪中推断出大脑内部电活动的位置。这是一个经典的物理学“逆问题”——我们看到结果，想要推断隐藏的原因。这个问题是灾难性的不适定（ill-posed）：有无限多种大脑源的配置可以产生完全相同的头皮信号。

我们怎么可能解决这个问题？我们增加一个物理约束，一个关于解的性质的信念：我们相信，在任何给定时刻，负责认知事件的神经活动是稀疏的，并局限于少数特定的大脑区域。一旦我们陈述了这个信念，问题就转变了。它变成了一个寻找能够解释测量值 $y$ 的最稀疏源向量 $x$ 的问题，给定封装在导联场矩阵 $G$ 中的物理原理。这正是LASSO或其近亲基追踪（Basis Pursuit）被设计来解决的问题。

在这里，奇妙的事情发生了。这不仅仅是一个好的启发式方法。压缩感知（compressed sensing）理论提供了严格的数学证明，证明如果系统的物理特性（矩阵 $G$ ）遵循某个条件——有限等距性质（Restricted Isometry Property, RIP）——那么Lasso保证能找到正确的稀疏解。这是抽象数学、电磁学物理和大脑生物组织之间惊人的联系。稀疏性原则让我们在非常真实的意义上，能够洞察思考中的心智。

发现物理定律的算法

我们已经看到Lasso被用来寻找重要变量和构建模型。我们能把它推得更远吗？我们能用它不仅来模拟一个系统，而且来发现支配它的自然法则吗？

这就是一种名为SINDy（稀疏非线性动力学识别）技术的大胆目标。想象你有一个系统行为的时间序列——钟摆的位置、捕食者和猎物的种群数量，或气候系统的温度。你不知道支配其演化的微分方程。SINDy方法提出了一个极其简单的方法：首先，创建一个庞大的候选数学函数库——像 $x$ , $x^2$ , $x^3$ , $\sin(x)$ , $\cos(x)$ 以及它们的组合。然后，从你的数据中数值估计系统的时间导数 $\dot{x}$ 。

最后，你提出了一个Lasso回归问题：找到能够准确再现观测到的导数 $\dot{x}$ 的最稀疏的库函数组合。算法会筛选数百个候选项，如果潜在的动力学确实简单，它将返回一个只有少数非零系数的模型。如果你看到导数 $\dot{x}$ 最好由单个项 $-\sin(x)$ 描述，那么你刚刚发现了钟摆的方程。这是一种范式转换。这是一种让计算机查看数据并推导出物理定律的方法，这个过程曾是像Newton和Einstein这样的巨人的专属领域。

当然，现实世界是充满噪声的。这项工作的一个微妙而优美之处在于它如何处理噪声数据。如果你试图通过简单地取两个噪声点之间的差来计算导数，你会灾难性地放大噪声。解决方案是使用“弱形式”（weak formulation），一个来自偏微分方程世界的技巧。通过将方程与一个平滑函数进行积分，导数从噪声数据转移到平滑的已知函数上，从而抑制了噪声，并让真实、简单的动力学得以揭示。这是物理学、微积分和数据科学的完美结合。

为工作选择合适的工具：一个方法家族

从岭回归到Lasso的旅程揭示了稀疏性的力量。但自然的复杂性有时需要更专门的工具。世界并不总是由独立的特征组成。通常，变量是相关的或以自然的分组出现。例如，基因不是孤立地起作用；它们在通路中协同工作。

针对这些情况，已经开发了一整套相关方法。

当预测变量高度相关，并且你相信它们作为一个群体很重要时，弹性网络（Elastic Net）提供了岭回归和Lasso之间的折衷方案。它倾向于一起选择相关的预测变量，而不是武断地选择一个。
当你拥有预定义的特征组——比如已知生物通路中的所有基因，或医学图像中的所有纹理测量值——并且你相信整个组要么是相关的，要么是无关的时，你可以使用组Lasso（Group Lasso）。它在组级别鼓励稀疏性，决定一次性包含或排除整个通路。
如果你相信只有少数组是相关的，并且在这些相关组内，只有少数特征是真正活跃的，你可以使用稀疏组Lasso（Sparse Group Lasso），它在组和单个特征两个级别上都诱导稀疏性。

这些方法展示了正则化原则的灵活性和深度。通过定制惩罚函数，我们可以将我们关于系统结构的先验知识直接编码到模型中，为科学发现创造出越来越强大和精确的透镜。选择不仅仅是在岭回归和Lasso之间，而是在一个丰富的工具调色板中进行选择，每种工具都适合我们期望在世界上找到的不同类型的潜在结构。