重叠组 LASSO

玻尔百科

核心要点

重叠组 LASSO 是一种正则化方法，它选择以预定义的重叠组形式组织的特征，非常适合为基因网络等复杂系统建模。
它通过将变量分解为特定于组的潜变量分量来运作，从而鼓励在整个组的层面上产生稀疏解。
该框架可以强制施加结构性先验，例如遗传交互模型中的层级原则或信号处理中的树状结构。
在计算上，它通常使用像 ADMM 这样的分裂算法高效求解，这些算法将复杂问题分解为更简单、可管理的部分。

引言

在数据丰富的时代，各大学科面临的核心挑战是从浩如烟海的可能性中识别出少数关键因素。虽然像 LASSO 这样的统计工具擅长选择单个特征，组 LASSO 擅长选择预定义的特征团队，但当面对现实世界中这些团队相互重叠的复杂、互联的本质时，它们就显得力不从心。我们如何才能选择那些共享成员的基因通路，或者属于多种纹理的图像特征？本文通过探讨重叠组 LASSO 这一强大的扩展方法来弥补这一根本性差距，该方法正视了这种复杂性。以下章节将引导您了解这一创新方法。首先，“原理与机制”将揭示其核心理论的神秘面纱，解释潜变量和巧妙的优化技术如何协同工作以强制实现结构化稀疏。随后，“应用与跨学科联系”将展示该方法卓越的灵活性，阐明它如何被用于嵌入先验知识，并解决从遗传学到医学成像等领域的实际问题。

原理与机制

假设你是一位生物学家，试图了解哪些基因导致了某种特定疾病。你有数千个基因需要考虑，但你怀疑真正相关的只有少数几个。这是一个经典的“特征选择”问题，它无处不在，从经济学到天文学皆是如此。我们如何从众多无关紧要的因素中找出少数关键因素？解答这个问题的过程，尤其是在复杂、互联的系统中，揭示了现代统计学和优化领域一些最美妙的思想。

从简单选择到组决策

一个强有力的初步方法是 LASSO（最小绝对收缩和选择算子）。本质上，LASSO 是一个极简主义者。当面对众多潜在因素时，它试图用最少的因素来解释数据。它通过增加一个与系数绝对值之和（即著名的 $\ell_1$ -范数 $\mathcal{R}(\beta) = \|\beta\|_1 = \sum_i |\beta_i|$ ）成正比的惩罚项来实现这一点。这个惩罚项有一个显著的特性：它不仅仅是将系数向零收缩，而是迫使其中许多系数恰好为零。这就像一个严格的预算，鼓励你完全砍掉所有次要开销，而不是对所有开销进行轻微削减。

但如果你的特征不是独立行动呢？如果它们是团队的一部分呢？例如，基因通常作为生物通路的一部分协同发挥作用。在图像分析中，相邻的像素构成纹理。在这些情况下，我们可能不关心选择单个基因或像素，而是关心整个通路或纹理。这需要一种不同的策略：组 LASSO。

组 LASSO 修改了惩罚项，使其作用于预定义的、不重叠的变量组。它不是惩罚单个系数，而是惩罚每个组的“大小”，通常用组的欧几里得范数（ $\ell_2$ -范数）来衡量。惩罚项的形式为 $\mathcal{R}(\beta) = \sum_{g \in G} w_g \|\beta_g\|_2$ 。这鼓励在组层面上实现稀疏性。结果是一种“全进或全出”的行为：要么一整组系数被选中为非零，要么整组系数被设为零。然而，一旦一个组被“选中”，这个惩罚项并不会鼓励组内部的稀疏性——团队的所有成员都会留在场上。

错综复杂世界的挑战：当组发生重叠时

不重叠的组 LASSO 是一个强大的工具，但现实很少如此整洁。一个基因可以参与多个通路。一个像素可以既是垂直边缘的一部分，也是水平纹理的一部分。文档中的一个词可以同时属于“金融”和“政治”两个主题。我们用来描述世界的组不是孤立的岛屿；它们形成了一个复杂、重叠的网络。

我们究竟如何设计一个能够尊重这种重叠结构的惩罚项呢？一个朴素的方法可能只是像以前一样应用组惩罚： $\mathcal{R}(\beta) = \sum_{g \in G} w_g \|\beta_g\|_2$ ，但现在允许组共享索引。这个看似简单的求和隐藏着一个诡谲的复杂性。一个同时属于（比如说）三个组的索引 $j$ 将被“惩罚”三次，出现在三个不同的 $\ell_2$ -范数项中。结果是，对单个系数的惩罚变得依赖于我们对组结构的任意定义。例如，使一个系数非零的阈值可能会与其所属的组的数量成正比。这种“重复计算”让人感到不满意且缺乏原则性。我们需要一种更优雅的方式来思考重叠问题。

优雅的技巧：用潜变量分解现实

突破来自于一个美妙的概念飞跃。我们不再将一个系数 $\beta_j$ 视为一个被多次惩罚的单一实体，而是想象它是由其所属的每个组的“贡献”之和构成的。假设系数 $\beta_j$ 属于组 $g_1$ 和 $g_2$ 。我们可以想象 $\beta_j = v_j^{(g_1)} + v_j^{(g_2)}$ ，其中 $v_j^{(g_1)}$ 是来自组 $g_1$ 的贡献， $v_j^{(g_2)}$ 是来自组 $g_2$ 的贡献。

这就引入了一组“潜”或隐藏变量 $\{v^{(g)}\}$ ，每个组一个。实际的系数向量 $\beta$ 仅仅是所有这些潜向量之和： $\beta = \sum_g v^{(g)}$ 。然后，重叠组 LASSO 惩罚项不是直接定义在 $\beta$ 上，而是定义在这些潜变量上。我们寻求 $\beta$ 的最“经济”的分解：

\Omega(\beta) = \inf_{\{v^{(g)}\}} \left\{ \sum_{g \in G} w_g \|v^{(g)}\|_2 \quad \text{subject to} \quad \sum_{g \in G} v^{(g)} = \beta, \text{ and } \mathrm{supp}(v^{(g)}) \subseteq g \right\}

这是该惩罚项的规范定义，在凸分析中被称为下确卷积。不要被这个数学公式吓到。其思想简单而深刻：通过对特定于组的构建块 $v^{(g)}$ 求和，找到构建最终解 $\beta$ 的“最便宜”的方式，其中成本是这些构建块大小的总和。模型被鼓励使用尽可能少的这些特定于组的构建块来构建解。

结构如何诞生：稀疏性的几何学

这种表述方式带来了一个绝妙的结果。它自然地鼓励那些非零系数集合（即“支撑集”）可以表示为少数几个组的并集的解。

让我们用一个具体的例子来看这一点。假设我们有从 1 到 5 索引的特征，以及三个重叠的组： $g_1 = \{1,2,3\}$ ， $g_2 = \{3,4\}$ 和 $g_3 = \{4,5\}$ 。现在，考虑两种可能的解，它们都有两个大小相同的非零系数。

一个支撑集为 $\{1,2\}$ 的解。这个支撑集完全包含在组 $g_1$ 内。要构建这个解，模型可以简单地激活组 $g_1$ 的潜向量，并保持其他潜向量为零。总惩罚大致与这一个活动组的大小成正比。
一个支撑集为 $\{2,5\}$ 的解。这个支撑集横跨了不同的组。特征 2 在 $g_1$ 中，特征 5 在 $g_3$ 中。没有单个组同时包含这两个特征。要构建这个解，模型必须同时激活组 $g_1$ 的潜向量（以获得特征 2）和组 $g_3$ 的潜向量（以获得特征 5）。惩罚将是来自两个活动组的成本之和。

事实证明，对于横跨组的支撑集 $\{2,5\}$ 的惩罚严格大于包含在单个组内的支撑集 $\{1,2\}$ 的惩罚。重叠组 LASSO 内在地“偏爱”那些尊重预定义组结构的解。它惩罚那些与组拓扑“不一致”的支撑集。正是这种偏好，让我们能够将复杂的先验知识——如基因通路或图像结构——直接融入模型中。

使之可行：分裂问题的艺术

潜变量的表述在概念上很优雅，但它似乎创造了一个庞大的优化问题。我们用一大堆潜变量 $v^{(g)}$ 替换了一个变量 $\beta$ 。这如何能被高效地解决呢？

答案在于另一个巧妙的技巧：变量复制和共识，通常通过一种名为交替方向乘子法 (ADMM) 的算法来实现。我们不是解决一个单一、复杂且耦合的问题，而是将其分解为许多简单、独立但相互协调的问题。

想象一下，你正试图管理一个有重叠区域的城市预算。ADMM 方法就像为每个区域雇佣一个独立的预算经理。

复制：我们为每个组创建变量的副本，称之为 $z^{(g)}$ 。这些等同于我们的潜变量。每个经理只负责自己的 $z^{(g)}$ 。
分裂与求解：ADMM 算法分轮次进行。
- 首先，每个经理独立地为自己的区域解决一个简单的问题：“在当前情况下，我的区域的最佳预算是什么？”这一步涉及对其局部变量 $z^{(g)}$ 的简单、不重叠的组惩罚，这很容易计算。
- 接下来，一个中央协调员将所有这些提议的预算汇总起来，求解整个城市的计划 $\beta$ 。这一步通常涉及一个简单的二次优化（最小二乘问题）。
- 最后，协调员公布一套“价格”或“修正”（即对偶变量），这些价格反映了城市整体计划与各区域计划之间的不一致或缺乏共识。
迭代至共识：在下一轮中，区域经理们会考虑这些新的价格并调整他们的提案。这种独立局部更新和协调全局更新的循环持续进行，直到所有人都达成一致，并且局部计划与全局计划保持一致。

这种“分而治之”的策略非常强大。它将一个棘手的、交织在一起的问题转化为一系列简单、通常有闭式解且高度可并行的步骤。我们用更大的内存占用（来存储复制的变量）换取了计算速度上的巨大提升。

微调机制：权重与内部稀疏性

就像任何精密的机械一样，重叠组 LASSO 需要仔细调校才能发挥最佳性能。两个关键问题随之而来：

我们应该如何为各组加权？ 一个较大的组，仅仅因为偶然，也可能与随机噪声有更大的相关性。如果我们给所有组相同的惩罚权重，模型将偏向于选择较大的组。为了创造一个公平的竞争环境，一个标准且有原则的选择是使权重 $w_g$ 与组大小的平方根成正比，即 $w_g \propto \sqrt{|g|}$ 。这种调整确保了在“无信号”的零假设模型下，不同大小的组有大致相等的被选中机会。然而，即使这样也无法解决所有问题。一个属于许多重叠组的特征有更多的“机会”被选中。纠正这种多重性效应需要对惩罚项进行更微妙的、针对特定特征的调整。
如果我们希望组内部也具有稀疏性该怎么办？ 标准的重叠组 LASSO 选择或丢弃整个组（作为并集）。如果一个组被选中，其所有成员通常都会被保留。如果我们认为一个通路很重要，但其中只有少数基因是关键的，该怎么办？为了实现这一点，我们可以创建一个混合惩罚，称为稀疏组 LASSO。这个惩罚是组 LASSO 惩罚和标准 LASSO $\ell_1$ 惩罚的凸组合： $\mathcal{R}(\beta) = \alpha \|\beta\|_1 + (1-\alpha) \Omega(\beta)$ 。 $\ell_1$ 项鼓励个体稀疏性，而组项鼓励组级稀疏性。这种强大的组合允许模型选择重要的组，然后通过将那些活动组内的不重要成员置零来进一步细化选择。

一个美丽的虚构：可识别性之谜

我们以一个关于这些模型本质的微妙而深刻的观点结束。潜变量 $v^{(g)}$ 是解开整个问题的关键。但它们是“真实”的吗？

考虑我们那个简单的例子，组为 $g_1 = \{1,2\}$ 和 $g_2 = \{2,3\}$ 。假设真实解是 $\beta = (0,1,0)$ ，一个在重叠索引处的尖峰。要构建这个解，模型需要 $v^{(g_1)} + v^{(g_2)} = (0,1,0)$ 。一种可能是将所有的“能量”放在第一个组中： $v^{(g_1)} = (0,1,0)$ 且 $v^{(g_2)} = (0,0,0)$ 。另一种可能是将其全部放在第二个组中： $v^{(g_1)} = (0,0,0)$ 且 $v^{(g_2)} = (0,1,0)$ 。还有一种可能是将其分开： $v^{(g_1)} = (0, 0.5, 0)$ 且 $v^{(g_2)} = (0, 0.5, 0)$ 。

事实证明，所有这些分解都可以得到完全相同的最小惩罚值。模型对此是无所谓的。虽然最终的、聚合的解 $\beta$ 可能是唯一且正确的，但其底层的潜变量分解是不可识别的。在某种意义上，潜变量是一个美丽的虚构——我们为解决问题而搭建的计算脚手架，一旦得到答案就将其丢弃。这是一个谦逊的提醒：我们的模型是理解世界的工具，而不一定是其内部运作的完美镜像。而正是在驾驭这些结构、近似和解释的层次中，蕴含着统计建模的真正艺术与科学。

应用与跨学科联系

在理解了支配重叠组 LASSO 的原理之后，我们现在可以踏上一段旅程，看看这个强大的思想将我们引向何方。科学和数学中一个基本概念的真正美妙之处，不仅在于其内在的优雅，更在于其跨越看似迥异的领域的广泛影响力。重叠组 LASSO 就是这方面的一个绝佳例子。它不仅仅是一种专门的统计技术；它是一种用以描述复杂世界中结构的灵活语言。通过巧妙地定义何为“组”以及这些组如何重叠，我们可以将我们关于世界如何组织的最深刻假设——从基因的相互作用到医学图像的构成——编码进去。

科学中的层级原则

自然界偏爱层级结构。在生物学中，复杂的功能源于相互作用的组件系统，而这些组件本身又由更简单的部分构成。在语言中，句子由短语构成，短语又由词语构成。现代科学中一个反复出现的主题是“层级原则”：即只有当构成复杂交互作用的主要组成部分存在时，才应考虑该交互作用。这不是自然法则，而是在我们迷失于变量多于观测值的数据海洋中时，构建合理模型的强大指导原则。

考虑一下统计遗传学家面临的挑战。他们可能拥有来自数百个个体（我们的观测）的数千个标记（我们的变量）的遗传数据，并希望了解这些标记如何影响像血压这样的性状。某些基因不仅单独起作用，而且相互作用，这是合乎情理的。然而，考虑所有可能的两两交互会产生数量庞大的变量，远超我们能够可靠估计的范围。

重叠组 LASSO 提供了一个惊人优雅的解决方案。我们可以强制实施所谓的弱层级原则：如果一个基因的主效应被认为不重要并从模型中移除，那么所有涉及该基因的交互作用也应被移除。为此，我们只需以一种特定的方式定义我们的组。对于每个遗传标记 $j$ ，我们创建一个组 $G_j$ ，其中包含其主效应的系数 $\beta_j$ ，以及涉及该标记的每个交互作用的所有系数。然后，惩罚项作用于这些重叠的组。通过鼓励整组被设为零，该方法自然地强制实施了层级结构。如果一个交互项的父级主效应所在的组被置零，那么该交互项就无法存活。

该框架是如此灵活，以至于我们甚至可以编码该原则的更严格版本。如果我们认为一个交互作用只有在其两个父级主效应都处于活动状态时才应被激活，该怎么办？这被称为强遗传原则。我们可以通过改变我们的组定义来强制实施这一点。我们不再以主效应为中心定义组，而是为每个潜在的交互作用定义一个组，该组由交互作用系数本身加上其两个父级主效应的系数组成 [@problem_id:1932248, @problem_id:3102320]。这里的强大之处在于认识到“组”的定义不是天赐的；它是我们作为科学家为了将我们的知识和假设嵌入到模型的数学结构中所做的选择。

剖析现实：树、信号与图像

结构的概念远远超出了遗传学中的数据表格。想一想一维信号，如一段音乐，或一幅二维图像。这些对象具有内在的几何结构。像素与其他像素相邻；音乐中的高频声音与低频声音相关。一种表示此类信号的强大方法是通过小波变换，它将信号分解为不同尺度和位置的分量，这些分量自然地组织成树状结构。这棵树上的系数倾向于表现出层级稀疏性：如果一个精细尺度上的小波系数很大，其在更粗糙尺度上的父级系数也可能很大。

这正是重叠组 LASSO 的完美应用场景。我们可以根据树的结构来定义我们的组。一个美妙的想法是为从树的根到叶的每条可能路径定义一个组。然后，一个信号被建模为少数几个活动的“根到叶路径”的组合。这强制实施了一种非常特定的层级结构。但如果我们想建模的是任何连通的子树结构，而不仅仅是完整路径的并集呢？我们可以通过简单地改变我们的组来实现这一点！如果我们将组的集合扩展到包括从根到任何节点（不仅仅是叶子）的每条路径，模型就变得能够表示树上任何祖先封闭的稀疏模式。这是一个深刻的见解：我们能建模的结构的丰富性与我们重叠组集合的丰富性直接相关。

但是，这种层级结构的强制实施在底层是如何运作的呢？一个美妙的视角来自于该问题的一个略有不同的表述，即使用所谓的潜变量。想象一下，我们的信号 $x$ 是隐藏分量之和， $x = \sum_g v^g$ ，其中每个分量 $v^g$ 都属于我们树中的一个特定组 $g$ 。现在，惩罚项应用于这些隐藏分量。神奇之处在于我们如何为每个组惩罚设置权重。如果我们让对较大的祖先组的惩罚比对较小的后代组的惩罚“更便宜”，我们就创造了一种优雅的激励结构。任何存在于小的、深层组中的信号能量都可以被“重新分配”到其更大、更便宜的父组中，而不会改变最终信号 $x$ ，但会减少总惩罚。结果是，最优解永远不会在不激活其父组的情况下激活子组。这是一个美妙的例子，说明一个简单的经济学原理——找到最便宜的表示——如何能被用来强制实施一个复杂的结构约束。

更清晰的图像：用结构化先验看清世界

让我们转向一个真正前沿的应用：医学成像。在现代并行磁共振成像（MRI）中，医生使用放置在患者周围的多个接收线圈来同时采集数据。这加快了扫描速度，但也带来了计算挑战。每个线圈都有自己的“灵敏度图”——它对离它最近的身体部位看得最清楚。最终的图像必须通过组合这些多个、嘈杂且不完整的视图来重建。

这是一个为重叠组 LASSO 量身定做的问题。我们可以将图像划分为一个由小的、重叠的区块组成的网格，并将每个区块视为一组像素值。重叠组 LASSO 惩罚项会鼓励生成一个在“区块域”中稀疏的图像，这是一种表达图像应由少量简单的区块模式构成的说法——这对于自然图像来说是一个非常有效的模型。

但真正的天才之处在于我们如何能够将 MRI 设备的物理原理融入其中。我们知道，被许多线圈清晰看到的身体区域（高灵敏度）提供非常可靠的数据，而被看得不清楚的区域（低灵敏度）提供嘈杂的数据。我们可以相应地调整每个区块 $g$ 的惩罚权重 $w_g$ 。对于具有高质量数据的区块，我们使用一个小的惩罚权重。这告诉算法：“相信这里的数据；不要过度正则化。”对于具有低质量数据的区块，我们使用一个大的惩罚权重，告诉算法：“这里的数据是嘈杂的；更多地依赖于区块应该简单的先验知识。”权重被设置为与局部线圈灵敏度成反比。这种自适应正则化使我们能够重建出高质量的图像，优雅地平衡我们对数据的信任和对图像结构的先验信念，这一原则既优雅又有效。

共同学习：发现普适真理

这个框架的力量可以扩展到另一个维度。通常，我们不只有一个数据集要分析，而是有几个相关的数据集。想象一下研究几种相关的自身免疫性疾病的遗传基础，或者分析多个被试执行相同任务时的大脑活动。我们期望其潜在机制是相似的，但并非完全相同。我们希望跨越这些任务借鉴信息，以揭示一个共享的、潜在的结构。

这是多任务学习的领域，而重叠组 LASSO 为其提供了一种自然的语言。假设我们的变量上有一个树状结构（例如，已知的基因功能层级）。我们可以寻求一个解，其中活动的层级特征集在所有任务中是共享的。这是通过耦合惩罚项来实现的。对于树中的每个组 $g$ ，我们从所有任务中取出与该组对应的系数，并应用一个混合范数惩罚（如 $\ell_{2,1}$ 范数），该惩罚鼓励这些系数要么全部为零，要么全部非零，同时发生。通过在树的整个重叠组结构上对这些惩罚求和，我们强制要求恢复出的层级模式在我们正在研究的所有相关问题中保持一致。这使我们能够找到连接不同数据集的共同线索，从而更接近普适的原则。

问题的症结：微观视角

我们已经看到了这个思想的广泛应用，但是重叠组 LASSO 是如何在最基本的层面上做出决策的呢？它如何决定一个在两个或多个组之间共享的单个变量应该被保留还是丢弃？数学揭示了一幅惊人简洁和美妙的画面，类似于图上的最小割问题。

想象一个单个变量 $x_2$ ，它被一个包含变量 $x_1$ 的组和另一个包含变量 $x_3$ 的组所共享。数据 $y$ 提供了一种“力”，试图将 $x_2$ 从零拉开。同时，包含 $x_2$ 的两个组施加了一种“恢复力”，试图将其保持在零。来自第一个组 $\{1,2\}$ 的恢复力强度取决于施加在其另一个成员 $x_1$ 上的力。如果数据正在强烈地拉动 $x_1$ ，那么该组剩下用来固定 $x_2$ 的“能力”就更少。施加在 $x_2$ 上的总恢复力是其所属所有组能够提供的可用能力之和。

最终的决定是一场简单的较量：如果来自数据的对 $x_2$ 的力大于其所属组能够共同施加的总恢复力，那么该变量就会“断裂”到一个非零值。否则，它就被精确地设为零。这场拔河比赛，这种数据拉力与组成员关系结构约束之间的平衡，正是重叠组 LASSO 的微观核心。这是一个局部的、分布式的决策过程，它催生了我们所探索的那些非凡的全局结构。

从遗传学到成像学以及更广阔的领域，重叠组 LASSO 证明了它不仅仅是一种算法。它证明了一个思想：通过将我们对世界结构的先验知识构建到我们的探究工具中，我们能够更清晰地看到其潜在的简洁与美。