try ai
科普
编辑
分享
反馈
  • L1 正则化

L1 正则化

SciencePedia玻尔百科
核心要点
  • L1 正则化增加了一个基于系数绝对值之和的惩罚项,从而将次要特征的系数强制变为精确的零。
  • 这个过程实现了自动特征选择,产生更简单、更易于解释且不易过拟合的稀疏模型,尤其适用于高维数据。
  • 与 L2(岭)回归不同,L1 惩罚项独特的几何与数学特性使其能够将特征从模型中完全移除,而不仅仅是减小其影响。
  • L1 正则化的原理应用广泛,从在基因组学中识别关键基因、在人工智能中修剪神经网络,到重建生物网络以及在信号处理中发现可解释的特征。

引言

在大数据时代,我们面临的一个核心挑战是构建既准确又简单且可解释的模型。当面对成千上万个潜在的解释变量时,诸如普通最小二乘法等标准方法可能会创建出过于复杂的模型,将噪声误认为信号,这个问题被称为过拟合。这引出了一个根本性问题:我们如何才能在数学上强制执行简约原则(或称“奥卡姆剃刀”),以识别出那些真正重要的少数特征?L1 正则化,及其最著名的实现 LASSO 模型,为这个问题提供了一个优雅而有力的答案。

本文将对 L1 正则化进行全面探讨。在第一部分​​“原理与机制”​​中,我们将剖析数据保真度与模型简洁性之间的数学权衡,探索 L1 得以执行特征选择的几何直觉,并将其与 L2 正则化进行对比。随后,在​​“应用与跨学科联系”​​部分,我们将考察其在现实世界中的影响,了解这一思想如何成为基因组学、系统生物学、人工智能等领域探索发现的一把万能钥匙,并最终与贝叶斯的信念概念相统一。

原理与机制

想象你是一名侦探,面对一桩有上千名潜在嫌疑人的案件。每个嫌疑人都是一个“特征”,你的任务是找出谁对你观察到的“结果”负有真正责任。如果你试图建立一个牵涉所有人的理论,你的理论会变得极其复杂、晦涩,而且很可能是错误的。你这是在对线索进行“过拟合”。一位优秀的侦探,就像一位优秀的科学家一样,会寻求最简单且有力的解释,这一原则我们称之为简约原则,或奥卡姆剃刀。挑战在于,我们如何用数学来强制执行这一原则?我们如何告诉模型去找出少数关键的嫌疑人,并忽略其余的?这正是 L1 正则化及其最著名的实现——最小绝对值收缩和选择算子(LASSO)所优雅解决的美妙问题。

一场优美的博弈:保真度与简洁性

任何建模工作的核心都存在一种根本性的张力。一方面,我们希望模型能忠实于我们观察到的数据,即尽可能准确地解释已发生的情况。在线性回归的世界里,这种忠实度传统上由​​残差平方和(RSS)​​来衡量。它就是模型预测值与实际值之差的平方和。仅最小化这一项是普通最小二乘法(OLS)回归的目标。

RSS=∑i=1n(yi−y^i)2\text{RSS} = \sum_{i=1}^{n} \left(y_{i} - \hat{y}_i \right)^{2}RSS=i=1∑n​(yi​−y^​i​)2

在这里,yiy_iyi​ 是实际观测值,y^i\hat{y}_iy^​i​ 是模型预测的值。OLS 是它所见数据的忠实仆人,但它也天真得危险。它没有“简洁性”的概念。如果你给它一千个特征,它会试图使用所有这些特征,构建一个极其复杂的模型,这个模型或许能完美解释训练数据,但在面对新的、未见过的数据时却会惨败。这就像一个学生,为了考试背下了所有答案,却对学科本身一无所知。

LASSO 引入了一个绝妙的折衷方案。它主张:“我们不应仅仅最小化误差,而应最小化误差 加上 一个对复杂度的惩罚。” 这就创造了一个新的目标函数,一场在两个相互竞争的目标之间的优美博弈。

目标函数=∑i=1n(yi−β0−∑j=1pβjxij)2⏟保真度项 (RSS)+λ∑j=1p∣βj∣⏟简洁性惩罚 (L1 范数)\text{目标函数} = \underbrace{\sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\sum_{j=1}^{p}\beta_{j}x_{ij}\right)^{2}}_{\text{保真度项 (RSS)}} + \underbrace{\lambda\sum_{j=1}^{p}|\beta_{j}|}_{\text{简洁性惩罚 (L1 范数)}}目标函数=保真度项 (RSS)i=1∑n​(yi​−β0​−j=1∑p​βj​xij​)2​​+简洁性惩罚 (L1 范数)λj=1∑p​∣βj​∣​​

让我们来分解这个公式。第一部分是我们的老朋友——RSS,我们可以称之为​​保真度项​​。它促使模型忠于数据。第二部分是革命性的新思想:​​简洁性惩罚​​。它是所有特征系数 βj\beta_jβj​ 绝对值之和,再乘以一个调整参数 λ\lambdaλ。

你可以将系数 βj\beta_jβj​ 想象成控制每个特征 xjx_jxj​ 对预测影响力大小的旋钮。惩罚项实质上是为调高任何一个旋钮设置了“成本”。参数 λ\lambdaλ 就是这个成本的“价格标签”。如果 λ\lambdaλ 为零,那么复杂度是免费的,我们就回到了 OLS 的狂野世界。如果 λ\lambdaλ 巨大,那么即便是最微小的复杂度也是代价高昂的,模型将被迫达到极度的简洁。LASSO 的目标是找到一组能最小化这个总成本的系数,从而在解释数据和保持解释的简洁性之间取得完美平衡。

绝对值的魔力:收缩与选择

那么,这个惩罚项 λ∑∣βj∣\lambda \sum |\beta_j|λ∑∣βj​∣ 到底做了什么呢?它的效果是双重的,而且都包含在它的名字里:收缩(Shrinkage)和选择(Selection)。

首先是​​收缩​​(shrinkage)。L1 惩罚项持续地拉动每一个系数,试图将它们拖向零。这意味着 LASSO 模型中的系数在量级上会比同等 OLS 模型中的系数更小。这种“收缩”效应是一种正则化形式。它削弱了所有特征的影响力,使模型对训练数据中的噪声不那么敏感,从而降低了其方差。这是对每个特征所声称的重要性施加的一种健康的怀疑态度。

但仅有收缩并非全部。LASSO 真正的“魔力”在于​​选择​​(selection),它催生了我们所说的​​稀疏模型​​(sparse models)。由于绝对值函数独特的数学性质,这种朝向零的拉力非常有效,以至于它能迫使某些系数变为精确的零。

当一个系数 βj\beta_jβj​ 变为零时,其对应的特征 xjx_jxj​ 实际上就从模型的方程中被抹去了(βjxj=0\beta_j x_j = 0βj​xj​=0)。它对最终的预测没有任何影响。LASSO 不仅是降低了该特征的权重,而是彻底地移除了它。它扮演了一个自动特征选择器的角色,判定某个特定的“嫌疑人”有不在场证明,可以从调查中排除。最终得到的模型是“稀疏”的,因为它只使用了原始特征的一个稀疏子集,从而使其更简单、更易于解释,并且通常更具预测能力。

两种惩罚的故事:L1 与 L2 的几何学

要真正欣赏 L1 惩罚的独特威力,我们必须将其与其最亲近的亲戚——岭回归(Ridge Regression)中使用的 L2 惩罚进行对比。岭回归的惩罚是系数平方的和:λ∑βj2\lambda \sum \beta_j^2λ∑βj2​。表面上看,这似乎只是一个微小的改动,但它导致了截然不同的结果。

这种差异最好通过一幅简单的几何图形来理解。想象我们的模型只有两个特征,因此我们试图找到 β1\beta_1β1​ 和 β2\beta_2β2​ 的最佳值。RSS 可以被看作一张等高线图,最优的 OLS 解位于一个山谷的底部。正则化增加了一个约束:我们的解必须位于由惩罚项定义的某个“预算”范围内。

对于岭回归,约束 β12+β22≤t\beta_1^2 + \beta_2^2 \le tβ12​+β22​≤t 形成一个完美的圆形。最佳的正则化解在 RSS 山谷的最低海拔等高线首次接触这个圆形的地方找到。由于圆形是完全光滑的,这个接触点可以位于其圆周上的任何位置。它极不可能恰好发生在某个系数为零的坐标轴上。因此,岭回归会将系数向零收缩,但几乎从不将它们精确地设为零。

对于 LASSO,约束 ∣β1∣+∣β2∣≤t|\beta_1| + |\beta_2| \le t∣β1​∣+∣β2​∣≤t 形成一个菱形(或在高维空间中的超菱形)。这个形状在坐标轴上具有尖角。现在,当 RSS 山谷扩展到接触这个约束区域时,它更有可能在其中一个尖角处接触,而不是在平坦的边上。而这些尖角的坐标是什么呢?它们是其中一个系数恰好为零的点!这个几何上的巧合正是 LASSO 能够执行特征选择的秘诀。

还有一个基于微积分的直观解释。岭回归(L2)惩罚对系数 βj\beta_jβj​ 的“作用力”与该系数本身成正比(2λβj2\lambda\beta_j2λβj​)。随着系数变小,惩罚力也变弱。这是一种温和的推动,会逐渐消失,永远无法将系数完全推到零。相比之下,只要系数不为零,LASSO(L1)惩罚的“作用力”就是一个恒定值(λ⋅sign(βj)\lambda \cdot \text{sign}(\beta_j)λ⋅sign(βj​))。这是一种不减弱的、持续稳定的推力。正是这种恒定的压力最终将次要的系数完全压缩至零。

LASSO 的实践:通往简约之路

调整参数 λ\lambdaλ 就像一个主控旋钮,控制着模型的“个性”。

  • ​​当 λ=0\lambda=0λ=0 时​​,我们得到一个纯粹的 OLS 模型。我们处于“信任一切”模式,允许最大的复杂度,这带来了高方差和过拟合的风险。
  • ​​当 λ→∞\lambda \to \inftyλ→∞ 时​​,我们进入“不信任何事”模式。复杂度的惩罚变得如此巨大,以至于最小化总成本的唯一方法就是将所有特征系数设为零。我们只剩下最简单的模型:仅有截距项,它对每个观测值都预测结果的平均值。这个模型具有高偏差。

真正的威力来自于探索介于两者之间的值。通过慢慢调高 λ\lambdaλ 的旋钮,我们可以追踪每个系数的​​解路径​​(solution path)。我们可以观察到它们的量值如何收缩,并一个接一个地因被强制归零而从模型中退出。这条路径讲述了一个引人入胜的故事。那些系数在强惩罚下仍能存活最久的特征,是最稳健和最重要的预测变量。那些最先消失的特征则是最可有可无的。例如,如果我们发现 Marketing Budget(营销预算)的系数在 λ=3.2\lambda=3.2λ=3.2 时归零,Number of Employees(员工数量)的系数在 λ=8.7\lambda=8.7λ=8.7 时归零,而 Company Age(公司年龄)的系数只有在 λ≥15.0\lambda \ge 15.0λ≥15.0 时才消失,那么 LASSO 就给了我们一个清晰的、由数据驱动的特征重要性排序:年龄 > 员工数 > 预算。

这种能力不仅仅是一个统计学上的小把戏;它是应对现代数据科学最大挑战之一——高维性的关键武器。在基因组学或金融等领域,预测变量远多于观测值(p>np > np>n)的情况很常见。在这种情况下,OLS 完全失效;存在无限多个可能的解,使得问题成为不适定的(ill-posed)。LASSO 通过强制执行其简洁性预算,使得问题变得可解。它被迫选择一个稀疏解,从浩如烟海的可能性中最多挑选出 nnn 个特征。它在原本无法穿越的复杂丛林中找到了一条单一、可解释的路径,体现了科学发现的精髓。

应用与跨学科联系

“首要原则是你决不能欺骗自己——而你自己是最好骗的人。” —— Richard Feynman

在我们迄今的旅程中,我们已经探讨了 L1 正则化的“如何做”。我们看到了它在菱形尖角中的几何灵魂,以及在将微小效应优雅地推向精确零的软阈值函数中的代数效应。但是,一个物理或数学原理的真正美妙之处,不仅在于其内在的优雅,更在于其触及世界千百个角落的力量。现在,我们离开纯粹原理的圣殿,进入其应用的纷繁复杂却又奇妙的世界。我们将看到,这个单一、简单的思想——奥卡姆剃刀的数学化身——如何成为一把万能钥匙,在基因组学、经济学、人工智能乃至生命本身的基本过程中解锁洞见。

选择的艺术:大海捞针

L1 正则化最直接、最直观的力量在于它能像一位自动化的科学家,从堆积如山的潜在解释中筛选出少数真正重要的部分。它执行​​特征选择​​,这是所有科学和工程领域的基础任务。

想象一下,你正在建立一个预测房价的模型。你的数据集是信息的洪流:房屋面积、建造年份、卧室数量,或许还有一些不那么明显相关的细节,比如前门的颜色或花园里花卉的种类。一个普通的线性回归模型可能会为每一个特征都赋予一个微小但非零的重要性,导致一个杂乱且过于复杂的解释。但如果我们引入 L1 正则化,奇妙的事情就会发生。算法被迫做出艰难的选择。对于每个特征,它会问:“你所增加的预测能力是否值得你消耗的‘复杂度预算’?”对于像 number_of_bathrooms(浴室数量)这样的特征,答案是响亮的“是”;它的系数将是一个健康的非零值。但对于 exterior_paint_color_code(外墙油漆颜色代码),它可能提供的微不足道的预测价值不足以证明惩罚的合理性。L1 正则化会毫不客气地将其系数设置为精确的零,实际上是在告诉我们:“这个特征不够重要,不应包含在我们的房价理论中。”它自动地发现了一个更简单、更稳健、更可解释的模型。

这种在噪声的“干草堆”中找到信号“针”的能力不仅仅是一种便利;在某些领域,它是一种绝对的必需品。思考一下现代基因组学的世界。一位科学家可能拥有一组患者的基因表达数据,其中一些人患有某种疾病,另一些人则没有。样本(患者)数量可能只有几百个(n=100n=100n=100),但特征(基因)的数量可能达到两万个或更多(p=20,000p=20,000p=20,000)。这是一个经典的“高维”问题,即变量远多于观测值。如果我们相信,正如生物学常提示的那样,该疾病是由少数几个基因的功能失常引起的,那么我们就处在一个为 L1 正则化量身定做的情境中。它成为一种强大的发现工具,穿透数千个不相关基因的噪声,聚焦于少数几个候选基因以供进一步研究。

当然,没有工具是万能的。如果一个性状是高度“多基因的”(polygenic),即由数千个基因的微小贡献共同产生,那么 L1 对稀疏性的积极追求将是错误的方法。正是科学家对*潜在现象稀疏性*的先验信念,使得 L1 成为这项工作的正确工具。

完善工具:拥抱现实世界的复杂性

现实世界很少像我们的理想情景那样干净。当我们的特征不是相互独立时会发生什么?例如,如果两个基因因为属于同一生物通路而高度相关,该怎么办?纯粹的 L1 正则化在这些情况下可能会变得困惑,有时会武断地选择一个特征而丢弃另一个。

为了解决这个问题,人们巧妙地将 L1 原理与其近亲 L2 正则化(也称为岭回归)相结合,创造了所谓的​​弹性网络(Elastic Net)​​。弹性网络的目标函数是一个优美的折衷: J(β)=损失函数+λ[α∥β∥1+(1−α)12∥β∥22]J(\beta) = \text{损失函数} + \lambda \left[ \alpha \|\beta\|_1 + (1-\alpha) \frac{1}{2} \|\beta\|_2^2 \right]J(β)=损失函数+λ[α∥β∥1​+(1−α)21​∥β∥22​] 参数 α\alphaα 扮演着一个混合旋钮的角色。当 α=1\alpha=1α=1 时,我们得到纯粹的 L1(Lasso)。当 α=0\alpha=0α=0 时,我们得到纯粹的 L2(Ridge)。对于介于两者之间的值,我们得到一个混合体,它既保留了 L1 创造稀疏模型的能力,又继承了 L2 处理相关预测变量组的才能。

想象一项关于两个旁系同源基因 GenA 和 GenB 的研究,它们的表达水平几乎完全相关。一个弹性网络模型在面对这对基因时,会做出非常明智的举动:它不会随机选择一个,而是为两者分配相似的非零系数,有效地将它们视为一个整体来承认。这种“分组效应”在许多特征天然以相关簇形式出现的科学领域中至关重要。

惩罚复杂度的原则也不局限于线性模型。设想一位生物物理学家正在研究蛋白质折叠的复杂动力学。这个过程可能由一个带有多个动力学参数的非线性模型来描述,其中一些参数可能“草率”(sloppy)或难以从嘈杂的数据中识别。通过对这些动力学参数添加 L1 惩罚,研究人员可以利用数据找到能够解释观测结果的最简单的动力学模型,自动将非必需的速率常数设为零。L1 的思想已经从选择外部特征跃升到简化一个动态理论的内部结构。

从数据到发现:重建世界

或许,L1 正则化最激动人心的应用,不仅仅是建立预测模型,而是在于从事科学本身——从观测数据中重建世界的隐藏结构。

在系统生物学中,一个宏伟的挑战是绘制构成​​基因调控网络​​的复杂相互作用网络。哪些基因开启或关闭了其他哪些基因?我们可以将此问题构建为一个巨大的回归问题:对于每个基因,我们将其表达量建模为所有其他潜在调控基因表达的函数。通过应用 L1 正则化,我们可以为每个目标基因找到一个稀疏的调控因子集合。我们模型中的非零系数成为网络图中的假定连接,将一片数据海洋转化为一个具体的、可检验的生物电路图。

这种力量延伸到破译生命的语言本身。基因的功能通常由其启动子区域中一段短的 DNA 序列(称为基元)控制。我们可以将基因的表达建模为其启动子中每个位置的 DNA 碱基的线性函数。利用 L1 正则化,我们可以向数据提问:哪些位置对于控制这个基因真正重要?算法将返回一个稀疏的系数集,非零值聚集在构成功能性基元的关键位置上。我们实质上是在利用 L1 来阅读细胞的蓝图。

对可解释的、“基于部件”的表示的追求是普遍的。在信号处理中,来自多个来源的数据(例如,从不同视角随时间拍摄的图像)可以被组织成一个称为张量的高维对象。标准的分解方法通常产生密集且“整体性”的基分量,就像模糊的平均图像。通过在​​Tucker 分解​​的因子矩阵上引入 L1 惩罚,我们鼓励基向量本身变得稀疏。对于面部识别,这可能意味着找到的基分量不再对应于模糊的整张脸,而是对应于眼睛、鼻子或嘴巴等局部部位。模型发现了一种更自然、更可解释的词汇来描述数据。

人工智能时代的稀疏性:驯服野兽

那些有史以来最复杂的模型,即驱动现代人工智能的深度神经网络,又如何呢?这些拥有数十亿参数的庞然大物,似乎是简约原则的对立面。然而,即使在这里,L1 原理也找到了一个关键的角色。

深度学习的一大挑战是效率。我们能否在不牺牲性能的情况下,使这些巨大的网络变得更小、更快、更节能?这就是​​网络剪枝​​(network pruning)的领域。通过在神经网络的权重上添加 L1 惩罚,我们可以将许多连接驱动到零。这一思想是“彩票假设”(lottery ticket hypothesis)的基石之一,该假设推测,一个从头开始训练的大型密集网络中,包含一个小的、稀疏的子网络(即“中奖彩票”),它贡献了大部分性能。L1 正则化是我们寻找这些中奖彩票的主要工具之一。

L1 惩罚的多功能性是显著的。它不仅可以应用于模型的输入权重,还可以应用于其内部组件。在像梯度提升机(Gradient Boosting Machines)这样构建决策树集成的复杂模型中,L1 惩罚可以应用于每棵树的叶子节点值上。这迫使许多叶子节点的贡献变为零,从内部简化了模型,并提高了其泛化能力。

贝叶斯的低语:思想的统一

我们以一个揭示,将这个实用的工具与知识论中一个深刻而美丽的思潮联系起来,来结束我们的巡礼。L1 正则化的整个机制都可以通过​​贝叶斯法则​​的视角来审视。

在贝叶斯框架中,我们在看到任何数据之前,都对模型的参数有一个“先验信念”。然后,我们根据数据提供的证据更新这个信念,从而得到一个“后验信念”。事实证明,最小化一个带有 L1 惩罚的损失函数,在数学上等同于在我们对参数的先验信念服从​​拉普拉斯分布​​时,寻找“最大后验”(MAP)解。

拉普拉斯分布在零点处有一个尖锐的峰值,并且比更常见的高斯分布具有更重的尾部。这意味着什么?这意味着我们告诉模型:“我相信,在你看到任何数据之前,你的大多数参数很可能恰好是零。我也相信,对于少数不为零的参数,它们可能会相当大。”这是对稀疏性原则的一个精确的、概率性的陈述!相比之下,L2 惩罚对应于一个高斯先验,它表示“我相信大多数参数会很小并且聚集在零附近”,但并没有强烈偏好它们恰好为零。

这种联系是深刻的。我们最初视为一种巧妙算法技巧——一个惩罚函数——的东西,被揭示为一种关于世界本质的先验假设的体现。它将频率学派的优化观点与贝叶斯学派的信念更新观点统一起来。它告诉我们,我们对简单、优雅模型的追求,不仅仅是一种随意的偏好;它可以被形式化为一个理性的推理过程,其指导原则是这样一个基本信念:简单的解释确实更有可能是正确的。从房价到人类基因组,从张量场到深度神经网络的复杂舞蹈,在 L1 范数简单优雅的力量驱动下,对简约的追求继续指引我们走向对世界更清晰、更深刻的理解。