L1 和 L2 范数：距离与数据的几何学

玻尔百科

关键要点

L2 范数衡量最短的“直线”欧几里得距离，而 L1 范数衡量沿网格的“城市街区”或曼哈顿距离。
在高维空间中，由这些范数定义的几何形状会发生分化，与 L2 的“球体”相比，L1 的“菱形”变得越来越“尖锐”。
L1 范数的尖锐几何形状天然地促进了稀疏性，使其成为现代机器学习中（如 LASSO 模型）用于自动特征选择的基石。
范数的选择取决于问题的背景：L2 的旋转对称性对物理定律至关重要，而 L1 对异常值的稳健性对于分析噪声数据至关重要。

引言

我们如何测量距离？这个问题看似简单，但其答案在科学和技术领域具有深远的影响。从自动驾驶汽车测量其与行人的距离，到生物学家比较蛋白质的形状，“大小”或“量级”的概念都是基础。然而，并不存在单一、通用的标尺。最直接的“直线”路径只是测量方式的一种，对应于欧几里得范数或 L2 范数。另一种方式，“城市街区”或 L1 范数，同样有效，并且在受约束的系统中通常更具现实意义。理解这两种视角之间的差异，是掌握从机器学习到物理学等领域中强大技术的关键。

本文旨在揭开 L1 和 L2 范数的神秘面纱，超越抽象的定义，揭示它们的实际威力。文章将回答一个关键问题：为什么选择不同的数学“标尺”如此重要？通过探索这些范数的几何形状和性质，您将对稀疏性、稳健性以及高维空间的奇特性质等概念获得深刻的直觉。

首先，在“原理与机制”一章中，我们将建立基本思想，比较 L1 和 L2 范数的几何解释，并探讨为什么它们都是有效的距离度量。然后，我们将看到它们的关系在高维空间中如何发生巨大变化，这导致 L1 范数具有找到简单、稀疏解的独特能力。接下来，“应用与跨学科联系”一章将展示这些原理的实际应用，阐明 L1 与 L2 的选择如何决定了机器人学、计算物理学以及 LASSO 和岭回归等前沿机器学习模型的设计成果。

原理与机制

想象一下，你正站在曼哈顿的一个街角，需要去另一个街角。一只从头顶飞过的乌鸦会走最直接的路径——一条直线。它的旅程完美地诠释了我们在学校学到的距离概念。但身处地面的你，无法穿过建筑物。你必须沿着纵横交错的街道网格行走。你的路径会不同，走过的总距离也更长。那么，关于距离，谁的说法是“正确”的呢？是乌鸦，还是你？

答案很巧妙：你们都是对的。你们只是在用不同但同样有效的尺子来衡量世界。在数学和科学中，这些“尺子”被称为范数，它们是我们测量向量大小或量级的基础工具。理解乌鸦的尺子和出租车司机的尺子之间的区别，是解开从自动驾驶到现代人工智能等领域深刻思想的关键。

以不同方式衡量世界

让我们把这个问题具体化。假设一辆自动驾驶汽车的摄像头和激光雷达（LIDAR）系统试图定位一个行人。它们给出的位置估计略有不同，汽车的计算机需要量化这种差异。如果它们估计的差异是一个向量 $\Delta p = [x, y]$ ，那么这个误差有多“大”呢？

乌鸦的视角对应着最常见的范数：欧几里得范数，也称为 L2 范数。它的计算方式完全符合你从勾股定理中学到的那样：

$\|\Delta p\|_2 = \sqrt{x^2 + y^2}$

这是我们标准的“直线”距离。它平等地对待所有维度，并为我们提供一个平滑、旋转对称的长度度量。如果你有一个误差向量 $[3, -4]$ ，其 L2 范数为 $\sqrt{3^2 + (-4)^2} = \sqrt{9+16} = \sqrt{25} = 5$ 。

现在，让我们考虑你作为城市网格中行人的视角。你只能沿着坐标轴移动。这对应于曼哈顿范数，或 L1 范数。要计算距离，你只需将各分量的绝对值相加：

$\|\Delta p\|_1 = |x| + |y|$

对于同一个误差向量 $[3, -4]$ ，其 L1 范数为 $|3| + |-4| = 3 + 4 = 7$ 。注意这与 L2 范数不同。这种“城市街区”距离对于那些运动或成本受限于网格的系统至关重要，比如城市物流或计算机芯片上的布线。

虽然 L1 和 L2 是我们讨论的主角，但还有另一个有用的角色：切比雪夫范数，或 L-无穷范数。这个范数不关心总行程，只关心单次行程中最长的一段。它被定义为所有分量中绝对值的最大值：

$\|\Delta p\|_\infty = \max(|x|, |y|)$

对于我们的向量 $[3, -4]$ ，L-无穷范数是 $\max(|3|, |-4|) = 4$ 。这个范数是悲观主义者或安全工程师的选择，他们只关心任何单一维度中最坏情况下的误差。

通用的交通规则

这些不同的范数给出了不同的数值，但我们都称它们为有效的“长度”度量。是什么赋予了它们这种权利？这是因为它们都遵守一些基本的、不可协商的规则。其中最直观的一条是三角不等式。

想象一架送货无人机需要经停两站。它的第一次飞行的位移是 $u$ ，第二次的位移是 $v$ 。它飞行的总距离是 $\|u\|_1 + \|v\|_1$ 。或者，它本可以一次性直接飞到最终目的地，位移为 $u+v$ 。这次直接飞行的距离是 $\|u+v\|_1$ 。常识告诉我们——数学也证实了这一点——绕路不可能更短。两次独立飞行的距离之和必须至少与一次直接飞行的距离一样长。这就得到了著名的不等式：

$\|u+v\|_1 \le \|u\|_1 + \|v\|_1$

这个规则不仅适用于 L1 范数，也适用于 L2 范数和任何其他合法的范数。它是“直线（在该范数的意义下）是两点之间的最短路径”这一原则的数学体现。任何满足三角不等式（以及另外两个简单规则：除非向量为零，否则长度总是正的；将向量缩放一个因子，其长度也按该因子的绝对值缩放）的函数都可以被视为一个有效的范数。

化圆为方：关联不同的世界

所以，我们有了这些不同但相关的长度度量方式。它们之间如何关联？我们能从乌鸦的世界转换到出租车的世界吗？答案是肯定的，这引出了线性代数中最优雅的思想之一：范数等价性。在任何有限维空间中，所有范数都是“等价的”，意味着它们可以相互限定。

让我们在二维空间中将其可视化。想象所有距离原点正好“1个单位”的点。对于 L2 范数，这是满足 $\sqrt{x^2+y^2}=1$ 的点集，也就是一个我们熟悉的圆。对于 L1 范数，这是满足 $|x|+|y|=1$ 的点集，它构成一个菱形（一个旋转了45度的正方形）。

应用与跨学科联系

在穿越了向量空间的抽象世界，并掌握了 $L_1$ 和 $L_2$ 范数的基本几何特性之后，我们可能会想把它们留在那里，当作纯数学中优雅的奇珍。但这就像学会了国际象棋的规则却从未下过一盘棋！这些概念真正的美和力量只有在实际应用中才能显现。在 $L_1$ 和 $L_2$ 视角之间做出选择，绝非纯粹的学术操练；它是一个根本性的决定，塑造了我们如何为世界建模、解决问题和解释数据。这是在乌鸦的路径与出租车的路径之间、在平滑与尖锐之间、在整体视角与聚焦于稀疏和本质之间做出的选择。

现在，让我们来探索这片广阔多样的领域，在这些领域中，范数不仅是工具，更是让世界变得清晰的透镜。

我们世界的几何学：从城市网格到机器人手臂

最直观的起点或许就是我们所居住的空间本身。 $L_2$ 范数，我们的老朋友欧几里得距离，描述了“如乌鸦飞行般”的世界——两点之间最短的直线路径。这是开阔田野和晴朗天空的距离。 $L_1$ 范数，即曼哈顿距离，则描述了一个受网格约束的世界，其中移动仅限于正交路径。这是一辆出租车在像曼哈顿这样的城市里必须行驶的距离，一个街区一个街区地移动。

这不仅仅是一个古雅的比喻；它对我们如何设计和理解网络有着深远的影响。想象你是一位城市规划师，负责布置紧急服务。你在一个小镇上有三个关键位置。如果你决定如果两个地点在某个直线距离（ $L_2$ 范数）内就算“相连”，你可能会发现河两岸的两个点是相连的，即使它们之间无法直接到达。如果你改用曼哈顿距离（ $L_1$ 范数）来模拟道路网络，你会得到一幅完全不同，也许更现实的连通性图景。度量方式的简单改变可以把一个完全连接的网络变成一组孤立的点，反之亦然，从而极大地改变你的规划决策。

同样的逻辑从描述性模型延伸到指令性工程。考虑一个机器人手臂，其马达分别控制沿 $x$ 、 $y$ 和 $z$ 轴的运动。移动手臂的能量成本不是它在空间中划出的直线路径的长度，而是沿每个轴移动的总和。这正是 $L_1$ 范数！如果我们让这个机器人从当前位置移动到目标表面上的最近点，我们解决的就不是一个标准的欧几里得距离问题，而是在最小化一个 $L_1$ 成本函数。这类问题的解具有独特的特性：它倾向于“吸附”到坐标上。最优路径通常只涉及一次只沿一个轴移动，即那个在满足约束方面提供最大“性价比”的轴，这是 $L_1$ 球体尖角的直接结果。范数的选择是由机器的物理现实决定的。

微观世界的物理学：为何自然要求旋转不变性

当我们从城市和机器人的宏观世界转向原子和分子的微观领域时，度量标准的选择变得更加关键。在这里，物理定律至高无上，而其中最基本的信条之一就是这些定律是各向同性的——它们在所有方向上都相同。两个相互作用粒子的能量应该只取决于它们之间的距离，而不是取决于连接它们的线是指向北、东还是上。换句话说，物理定律必须是旋转不变的。

欧几里得距离 $\sqrt{\Delta x^2 + \Delta y^2 + \Delta z^2}$ 拥有这种美丽的对称性。一个球体无论你怎么转动，看起来都一样。现在，想象一位淘气的计算物理学家决定进行一次分子动力学模拟——这种模拟用于模拟从水到蛋白质折叠的一切——但在能量计算中用曼哈顿距离 $|\Delta x| + |\Delta y| + |\Delta z|$ 取代了欧几里得距离。

结果将是物理学的一场灾难。系统的能量现在会依赖于粒子相对于模拟盒子任意设定的 $x,y,z$ 轴的方向。如果一对原子与x轴对齐，它们感受到的力可能与它们对角线对齐时不同。这会引入虚假的、非物理的力和力矩，导致模拟的流体表现得好像它被嵌入了一个看不见的晶格中。模拟将不再代表一个各向同性的流体，而是一种奇异且人为的各向异性物质。

同样的原则也适用于比较生物结构。像 DALI 这样的强大算法通过比较蛋白质的内部距离矩阵来对齐它们，这些矩阵列出了所有氨基酸对之间的距离。整个方法都依赖于这个矩阵是蛋白质折叠的独特“指纹”，与蛋白质在空间中的朝向无关。如果有人用 $L_1$ 范数来构建这个矩阵，两个相同但经过旋转的蛋白质会产生不同的矩阵，算法将无法识别它们的相似性。这些思想实验揭示了一个深刻的真理： $L_2$ 范数被编织在我们物理定律的结构中，因为它体现了我们所体验空间的基本对称性。

数据的逻辑：信息时代的稀疏性与稳健性

虽然 $L_2$ 范数可能是物理学的语言，但 $L_1$ 范数在现代数据科学和机器学习世界中找到了它的主角地位。在这里，斗争不是对抗城市网格的限制，而是对抗“过拟合”和“维度灾难”这两大恶魔。

当我们建立一个统计模型，比如用上百个不同的特征来预测房价时，我们想要一个能捕捉真实潜在趋势而不过度记忆数据中噪声（过拟合）的模型。实现这一目标的一个常用方法是通过正则化：我们惩罚过于复杂的模型。模型的复杂度通常通过其系数的大小来衡量。而我们如何衡量这个大小呢？当然是用范数！

这引出了一个经典而强大的二分法：

岭回归 (Ridge Regression) 使用 $L_2$ 惩罚（ $\lambda \sum \beta_i^2$ ）。它鼓励所有系数都变小，将它们向零收缩，但很少将它们精确地设置为零。它将“责任”分散到所有特征上。
LASSO (最小绝对收缩和选择算子) 使用 $L_1$ 惩罚（ $\lambda \sum |\beta_i|$ ）。由于 $L_1$ 范数的“尖角”，优化过程会迫使许多系数变为完全为零。这产生了一个稀疏模型——它执行自动特征选择，告诉我们哪少数几个特征是真正重要的。

在一个拥有成千上万甚至数百万潜在特征的世界里（比如在基因组学中）， $L_1$ 范数产生稀疏、可解释模型的能力简直是革命性的。但为什么要二选一呢？弹性网络 (Elastic Net) 模型巧妙地结合了两种惩罚，寻求一个“两全其美”的解决方案，既能像 LASSO 一样选择特征，又能保持岭回归的稳定性。这些复杂的模型需要先进的优化技术，但它们的基本理念是 $L_1$ 和 $L_2$ 世界观的简单而优雅的融合。

稀疏性与平滑性的主题随处可见。在一项追踪药物如何影响细胞代谢的系统生物学研究中，我们可以将五种关键代谢物的变化表示为一个向量。这个向量的 $L_1$ 范数代表了代谢周转的总量——所有绝对变化的总和。相比之下， $L_2$ 范数给出了细胞代谢状态的直线位移。由于它对各项进行平方， $L_2$ 范数对任何单一的巨大变化都更为敏感，而 $L_1$ 范数则提供了对整体活动的更均衡的看法。

最后，范数指导我们处理不完美数据的方法。像均值和标准差这样的标准统计量是“类 L2”的，因为它们基于平方差。这使得它们对异常值高度敏感。一个极其不正确的数据点可以极大地扭曲均值。相比之下，像中位数和中位数绝对偏差（MAD）这样的度量是“类 L1”的，基于绝对差。它们对异常值具有更强的稳健性。在生物信息学等领域，实验数据可能充满噪声，选择基于 $L_2$ 的度量（如标准信噪比）还是基于 $L_1$ 的度量，可能会显著改变像基因集富集分析（GSEA）这样复杂分析的结果，从而可能改变哪些生物通路被标记为显著。

从我们城市的街道到细胞的核心，再到高维数据的抽象景观， $L_1$ 和 $L_2$ 范数提供了一种统一的语言。它们不仅仅是计算数字的不同方法；它们是看待世界的不同方式，每一种都为支配世界的模式提供了独特而强大的视角。