try ai
科普
编辑
分享
反馈
  • 距离度量

距离度量

SciencePedia玻尔百科
核心要点
  • 距离是一个由几个关键性质定义的灵活数学概念,欧几里得距离和曼哈顿距离是其常见例子。
  • 在数据科学和生物学等领域,距离度量的选择至关重要,因为它从根本上塑造了对相似性和结构的解释。
  • 微生物组研究中的 UniFrac 距离和统计学中的马氏距离等专业化度量,融入了特定领域的知识,从而提供更具洞察力的分析。
  • 距离的概念可以被抽象地定义在复杂实体之间,例如概率分布或计算结果,以解决高深的科学问题。

引言

距离是一个如此直观的概念,似乎无需任何解释。我们用尺子测量它,在路标上读取它,并用它来导航我们的世界。这个基于直线欧几里得距离的常识性观念,是我们几何直觉的基石。然而,在现代科学的复杂图景中——从基因组学拥挤的数据云到进化论错综复杂的网络——这把简单的尺子往往不仅不敷使用,甚至会产生误导。本文要解决的核心问题,正是我们对“邻近性”的直观概念与为获得有意义的科学见解而必须采用的、针对特定问题的复杂距离度量方式之间的鸿沟。

本文将在“原理与机制”一章中,首先解构距离的概念,探索其数学基础以及在熟悉的直线之外存在的各种度量族。随后,在“应用与交叉学科联系”一章中,我们将穿越众多科学领域,见证选择正确的“尺子”如何成为一项关键的发现行为,为从病毒进化到细胞生物学的万事万物解锁新的视角。

原理与机制

那么,“距离”究竟是什么?这个问题似乎简单得近乎幼稚。它是尺子上的读数,是路标上的数字,是从此地到彼地的直线长度。这就是我们所说的​​欧几里得距离​​,即我们在学校学到的为人熟知的“直线”路径。如果你在平面上有两个点,比如 P1=(x1,y1)P_1 = (x_1, y_1)P1​=(x1​,y1​) 和 P2=(x2,y2)P_2 = (x_2, y_2)P2​=(x2​,y2​),那么距离由勾股定理给出:dE=(x1−x2)2+(y1−y2)2d_E = \sqrt{(x_1 - x_2)^2 + (y_1 - y_2)^2}dE​=(x1​−x2​)2+(y1​−y2​)2​。这个概念是如此基础,如此深入我们对世界的感知,以至于我们很少停下来质疑它。

但如果你不是一只乌鸦呢?如果你是曼哈顿的一名出租车司机,被限制在街区和大道组成的网格中行驶呢?你不能斜穿建筑物,必须沿着网格,一个街区一个街区地走。你的距离是水平和垂直距离的总和。这是一个完全有效且往往更有用的距离概念,被称为​​出租车度量​​或​​曼哈顿距离​​,dT=∣x1−x2∣+∣y1−y2∣d_T = |x_1 - x_2| + |y_1 - y_2|dT​=∣x1​−x2​∣+∣y1​−y2​∣。

这个简单的视角转变打开了一个充满可能性的潘多拉魔盒。原来,数学家们已经将任何“距离函数”或​​度量​​的基本性质形式化了。一个函数 d(x,y)d(x, y)d(x,y) 能被称为度量,必须满足几个常识性的规则:一个点到其自身的距离为零,否则距离恒为正;从 xxx 到 yyy 的距离与从 yyy 到 xxx 的距离相同;以及——最重要的一点——​​三角不等式​​成立:从 xxx 到 zzz 的距离永远不大于从 xxx 到 yyy 的距离与从 yyy 到 zzz 的距离之和。任何遵循这些规则的函数都是一个名副其实的距离。

欧几里得度量和出租车度量只是一个名为 ​​LpL_pLp​ 范数​​的无限距离族中的两个成员。对于一个向量 v=(v1,v2,…,vn)\mathbf{v} = (v_1, v_2, \dots, v_n)v=(v1​,v2​,…,vn​),其 LpL_pLp​ 范数由 ∥v∥p=(∑i=1n∣vi∣p)1/p\|\mathbf{v}\|_p = \left( \sum_{i=1}^n |v_i|^p \right)^{1/p}∥v∥p​=(∑i=1n​∣vi​∣p)1/p 给出。出租车距离对应于 p=1p=1p=1(L1L_1L1​ 范数),欧几里得距离对应于 p=2p=2p=2(L2L_2L2​ 范数)。随着 ppp 值的变化,你会得到一整套测量长度的不同方式。

这些不同的选择真的重要吗?当然重要。想象在一个 nnn 维空间中,两点在每个坐标轴上的差值构成一个简单的等差数列。计算表明,它们之间的曼哈顿距离(D1D_1D1​)与欧几里得距离(D2D_2D2​)的比值并非一个简单的常数,而是取决于空间的维度 nnn:D1D2=3n(n+1)2(2n+1)\frac{D_1}{D_2} = \sqrt{\frac{3 n (n+1)}{2(2n+1)}}D2​D1​​=2(2n+1)3n(n+1)​​。在二维空间中,这个比值约为 1.221.221.22,但当你进入无限维空间时,它会趋向于 3/4×n\sqrt{3/4} \times \sqrt{n}3/4​×n​,无界增长!你测量距离的方式从根本上改变了你对空间的感知。

距离的形状与拓扑等价

这就引出了一个优美的几何概念。所有与原点“距离为1”的点集看起来是什么样子的?对于我们熟悉的欧几里得距离,答案是一个圆(在二维中)或一个球面(在三维中)。但对于出租车距离呢?在平面上,满足 ∣x∣+∣y∣=1|x| + |y| = 1∣x∣+∣y∣=1 的点集 (x,y)(x,y)(x,y) 构成一个菱形,一个旋转了45度的正方形!每种度量都为其单位球定义了自己独特的“形状”。

这似乎是一个根本性的差异。如果一个世界里的“圆”在另一个世界里是“菱形”,我们又如何能比较它们呢?这里蕴含着一个深刻的洞见。尽管形状不同,你总能拿一个欧几里得圆,找到一个足够小的、能完全容纳于其中的出租车菱形。反之,你也总能找到一个欧几里得圆,能容纳在任何一个出租车菱形内部(前提是它们中心相同)。

这种相互包含的特性,是一个被称为​​度量等价​​的强大概念的精髓。如果两种度量能生成相同的​​拓扑​​——也就是说,它们对于一个点序列“任意接近”一个极限点的含义达成一致——那么这两种度量就被认为是等价的。更形式化地说,如果能找到两个正常数 α\alphaα 和 β\betaβ,使得对于任何两个不同的点 ppp 和 qqq,不等式 α⋅dA(p,q)≤dB(p,q)≤β⋅dA(p,q)\alpha \cdot d_A(p, q) \le d_B(p, q) \le \beta \cdot d_A(p, q)α⋅dA​(p,q)≤dB​(p,q)≤β⋅dA​(p,q) 恒成立,那么度量 dAd_AdA​ 和 dBd_BdB​ 就是等价的。对于平面整数网格上的出租车度量(dTd_TdT​)和欧几里得度量(dEd_EdE​),可以证明 dE(p,q)≤dT(p,q)≤2dE(p,q)d_E(p,q) \le d_T(p,q) \le \sqrt{2} d_E(p,q)dE​(p,q)≤dT​(p,q)≤2​dE​(p,q)。因为这些常数 α=1\alpha=1α=1 和 β=2\beta=\sqrt{2}β=2​ 存在,所以这两个度量是等价的。它们可能在距离的值上不一致,但在关于邻近性和收敛性的基本概念上是一致的。

超越点:更奇特世界中的距离

我们的距离概念可以被进一步延伸。从你现在的位置到最近的海岸线有多远?这不是两点之间的距离,而是一个点和一个点集之间的距离。我们可以很自然地将其定义为 fS(x)=inf⁡s∈Sd(x,s)f_S(x) = \inf_{s \in S} d(x, s)fS​(x)=infs∈S​d(x,s),即从我们的点 xxx 到集合 SSS 中任意点 sss 的最小距离。这个看似简单的定义,有一个直接源自三角不等式的非凡隐藏特性:函数 fS(x)f_S(x)fS​(x) 是 ​​1-Lipschitz​​ 的。这意味着 ∣fS(x)−fS(y)∣≤d(x,y)|f_S(x) - f_S(y)| \le d(x, y)∣fS​(x)−fS​(y)∣≤d(x,y)。用通俗的话说,到海岸线的距离变化速度不会超过你自身移动的距离。你移动1公里,你到海岸的距离变化至多1公里。这个优雅的性质使得这类距离函数在分析中表现极好且非常有用。

现在,让我们进入一个真正奇特的世界。想象一个城市,每条道路都是从中心枢纽(原点 OOO)辐射出的直线。要从点 PPP 到点 QQQ,你可能需要先从 PPP 前往枢纽 OOO,然后再从 OOO 前往 QQQ。让我们这样定义距离:如果 PPP、QQQ 和 OOO 在同一条直线上,距离就是普通的出租车距离。如果不在,距离就是它们到原点的出租车距离之和,d(P,Q)=∥P∥T+∥Q∥Td(P,Q) = \|P\|_T + \|Q\|_Td(P,Q)=∥P∥T​+∥Q∥T​。这个奇怪的规则是否满足三角不等式呢?仔细的检验表明,令人惊讶的是,它确实满足!。它是一个有效的度量。

我们甚至可以对这样的空间提出更深层的问题。它是​​完备的​​吗?如果每个“柯西序列”——一个点与点之间越来越近的序列——都确实收敛到空间内的一个点,那么这个度量空间就是完备的。有理数集是著名地不完备的,因为一个有理数序列可以收敛到 2\sqrt{2}2​,而它不是一个有理数,从而在空间中留下一个“洞”。那么我们这个中心辐射型城市呢?这个世界感觉是脱节的,好像充满了洞。然而,数学证明了,带有这种“邮局”度量的空间 (R2,d)(\mathbb{R}^2, d)(R2,d) 实际上是完备的!任何看起来正在逼近目的地的旅程,都保证有一个目的地存在。严谨的逻辑再次战胜了我们可能有缺陷的直觉。

对症下药:科学中的距离

这种探索不仅仅是一场数学上的智力游戏。选择正确的距离度量,是解决现实世界科学问题中一个关键且往往是决定性的一步。

假设一位生物学家正在研究一种柔性肽,这是一种在水中摆动和改变形状的小蛋白质链。目标是将模拟中的快照聚类成相似构象的组。衡量两种构象 C1C_1C1​ 和 C2C_2C2​ 之间差异的一种方法是​​笛卡尔 RMSD​​,它本质上是在分子经过优化叠加后,对应原子间的平均欧几里得距离。但另一种方法是关注局部几何,通过测量蛋白质骨架​​二面角​​的差异来实现。

想象这样一个场景:我们有一个参考形状 CrefC_{ref}Cref​。构象 CAC_ACA​ 的笛卡尔 RMSD 很低(2.52.52.5 Å),但其所有二面角都与参考形状有少量差异。构象 CBC_BCB​ 的 RMSD 非常高(5.05.05.0 Å),但它与参考形状仅在一个二面角上有差异,而这个二面角发生了剧烈扭转,就像一个铰链运动。哪一个“更近”呢?RMSD 度量说 CAC_ACA​ 更近。二面角距离度量则说 CBC_BCB​ 更近。

正确的选择取决于科学问题。如果我们关心的是由一系列相似二面角定义的转角和螺旋等局部特征,那么 CBC_BCB​ 比 CAC_ACA​ 与 CrefC_{ref}Cref​ 更为相似。CBC_BCB​ 中的单个铰链运动导致分子的大部分摆动开去,增大了整体的 RMSD,但其 90% 的局部结构与参考构象保持一致。二面角距离度量正确地识别了这种局部相似性。对于生物学家来说,选择度量就是选择要观察哪些特征。

这一原则可以延伸到数据科学的宏大尺度上。想象一位生物学家正在比较鱼类头骨和植物叶片的形状,这些形状由一组对应的标志点表示。在去除了位置、方向和大小的无关差异后,​​Procrustes 距离​​给出了两个样本之间纯粹的“形状距离”,这是一种高维的欧几里得距离。但如果我们想对一个新样本进行分类呢?

假设一组叶子(A 组)的长度变异性很大但宽度变异性不大,而另一组鱼头骨(B 组)在所有方向上的变异性都相同。现在,出现了一个新样本,它比 A 组的平均叶子长得多,但宽度正确。它与 A 组中心的欧几里得(Procrustes)距离可能很大。但它真的是一个“异常值”吗?​​马氏距离​​提供了一个更精妙的答案。它是一种“统计”距离,根据数据的协方差重新缩放空间。它测量的不是英寸或厘米,而是标准差单位。对于在长度上有高方差的 A 组,长度上的大偏差被认为是“正常的”,因此会产生一个小的马氏距离。而对于各向同性的 B 组,同样的偏差将是非常不寻常的,会产生一个大的马氏距离。这种度量更“聪明”,因为它包含了关于群体自然变异性的知识,使其成为一种远为优越的分类工具。

惊鸿一瞥:世界之间的距离

距离的概念可以被提升到更高的抽象层面。我们不仅可以定义点与点之间的距离,还可以定义整个*概率分布*之间的距离。

​​瓦瑟斯坦距离​​,或称“推土机距离”,将两个分布想象成两堆不同的土。它求的是将一堆土变成另一堆所需的最少“功”——质量乘以移动距离。它是衡量两个分布之间最有效运输方案的度量。

另一种方法是​​全变差距离​​,它提出了一个不同的问题:这两个分布对单个事件概率可能有的最大分歧是什么?它衡量的是最坏情况下的差异。用测度论的语言来说,这个距离可以用​​Radon-Nikodym 导数​​ dQdP\frac{dQ}{dP}dPdQ​ 优雅地表达,它用一个概率测度 PPP 来描述另一个概率测度 QQQ。公式 dTV(P,Q)=12∫∣dQdP−1∣dPd_{TV}(P, Q) = \frac{1}{2} \int |\frac{dQ}{dP} - 1| dPdTV​(P,Q)=21​∫∣dPdQ​−1∣dP 揭示了概率、几何和微积分之间深刻的联系。

从曼哈顿的街道到蛋白质的扭转,再到物种的进化,距离这个不起眼的概念展现出它是整个科学领域中最灵活、最强大的思想之一。它是一面我们可以塑造和调整的透镜,让我们得以洞察我们世界的结构,从触手可及的实体到令人叹为观止的抽象。它远非一把简单的尺子,而是一把解锁对形状、变化和关系本身更深层次理解的钥匙。

应用与交叉学科联系

我们花了一些时间探索距离的数学核心,它的公理和各种形式。人们可能倾向于将此归类为纯粹数学,优雅但抽象。事实远非如此。一旦我们掌握了这套扩展的“距离”词汇,我们就会发现自己拥有了一把万能钥匙,能解开众多领域里深刻的见解,其多样性令人惊叹。这个简单的测量间隔的想法,一旦被创造性地运用,就成为一个强大的工具,不仅能导航物理空间,还能导航数据、生物学乃至科学思想本身的广阔复杂空间。让我们踏上一段旅程,看看这一个概念如何为一系列令人眼花缭乱的科学难题提供一种共同语言。

从城市街区到数据云

想象一下,你正在为一组送货无人机编程,让它们相互通信以节省能源。它们必须形成一个总通信链路长度最短的连接网络——这是一个经典的最小生成树问题。无人机散布在一个城市网格中。你如何衡量两架无人机之间链路的“成本”?你可以使用直线、如鸦飞般的欧几里得距离(L2L_2L2​)。或者,如果无人机的通信信号在某种程度上受到城市网格布局的限制,你可能会使用曼哈顿距离(L1L_1L1​),即只能沿着网格线移动。

这似乎是一个微不足道的选择,但结果可能截然不同。最优网络——也就是解决方案的根本结构——会根据你使用的“尺子”而改变。在欧几里得意义上短的路径,在曼哈顿意义上可能很长,反之亦然。度量的选择从根本上改变了问题的几何形状,导致不同的现实世界成本和配置。这不仅仅关乎无人机;这对任何网络优化问题都是一个教训,从铺设光纤电缆到设计集成电路。“最佳”连接方式完全取决于你如何定义“邻近”。

现在,让我们实现一个飞跃。如果我们测量的“点”不是无人机,而是基因呢?一位生物学家有一个庞大的基因表达水平数据集,但由于技术故障,一个数值丢失了。我们如何做出有根据的猜测?我们可以将每个基因视为高维“表达空间”中的一个点,其中每个轴代表一个不同的实验条件。为了估计我们基因的缺失值,我们可以在这个空间中寻找它的最近邻——即在所有我们确实拥有数据的条件下,具有相似表达模式的其他基因。然后我们对它们在缺失条件下的值进行平均。这种方法,被称为 k-最近邻(k-NN)插补,完全依赖于距离的概念来定义“相似性”。小距离意味着高相似性。突然之间,我们的几何直觉被用来填补生物数据中的漏洞,将“相似基因”的模糊想法转化为一个精确、可计算的量。

描绘现代生物学的浩瀚海洋

向基因空间的飞跃打开了一个潘多拉的盒子。在单细胞生物学等领域,我们可能拥有数万个细胞的 20,000 维数据。在这里,我们的低维直觉会彻底失效。在如此浩瀚的空间中,一切事物似乎都与其他事物相距遥远,这种现象被称为“维度灾难”。我们信赖的距离度量可能会变得不可靠。

那么,我们该怎么办?我们变得更聪明了。科学家们不再在充满噪声的完整 20,000 维空间中测量距离,而是首先采用像主成分分析(PCA)这样的技术。PCA 找到数据中的主要变异轴——即细胞之间差异最大的方向。通过只保留前 30 或 50 个轴,我们将数据投影到一个更小、更“干净”的空间中。这至关重要的第一步起到了噪声过滤器的作用,确保当我们为可视化或聚类(使用 UMAP 等算法)计算距离时,这些距离反映的是真实的生物信号,而不是随机波动。

但故事并没有就此结束。即使在这个降维的 PCA 空间内,尺子的选择仍然至关重要。我们是使用欧几里得距离,它由方差最大的成分(前几个主成分)主导?还是我们使用像相关距离这样的度量,它对每个细胞的主成分得分向量进行标准化,并在不考虑总体大小的情况下寻找各成分之间模式的相似性?这两种选择可以突显细胞关系的不同方面。欧几里得度量可能基于大型、主导性的生物过程对细胞进行分组,而相关距离则可能找到更微妙的细胞分组,这些细胞即使在总体表达水平不同,也共享相似的调控“图谱”。由此产生的细胞图谱——生物系统的真实写照——可能因这一选择而改变,从而可能导致不同的科学发现。

“为正确的问题选择正确的尺子”这一主题,在微生物组研究中表现得最为明显。想象一下比较两个人的肠道微生物群落。一个 PCoA 图(它可视化样本之间的非相似性)可能会显示,当使用​​非加权 UniFrac​​ 距离时,这两个群落是完全不同的。这种度量对细菌谱系的简单存在或缺失很敏感,尤其是稀有谱系。然而,如果我们切换到​​加权 UniFrac​​ 距离,它考虑了这些谱系的相对丰度,那么这两个群落可能突然看起来几乎完全相同。这告诉我们什么?这表明,虽然两人共享相同的主导、高丰度细菌,但他们各自拥有一组独特且不同的稀有“专家”物种。两种描绘都不是错误的;它们是关于生态系统的两种不同、互补的真相,由两种不同的距离测量方式揭示。

这个想法可以被进一步完善。一些距离,比如流行的 Bray-Curtis 非相似性,将所有物种视为同等不同。但我们从进化中知道,事实并非如此;两种Lactobacillus属的物种彼此之间的相似性远大于它们中任意一种与E. coli的相似性。像 UniFrac 这样的系统发育距离,将这种进化树直接纳入计算中。在研究像炎症性肠病这样的疾病时,可能一整个相关的“好”细菌家族被一个亲缘关系远的“坏”细菌群体所取代,此时一个考虑系统发育的度量会强大得多。它捕捉到这样一个事实:这种变化不是随机的,而是沿着生命之树结构化的,从而为疾病过程提供了更清晰的信号。

重塑生命蓝图:从树到网络

在病毒世界,分类的挑战变得更加深刻。病毒以交换基因为名,创造出具有纠缠进化历史的嵌合基因组。没有一个适用于所有病毒的“标记基因”可以用来构建一棵普适的生命之树。简单的分支树概念本身就瓦解了。

解决方案?对分类进行彻底的重新思考,而这得益于新的距离概念。病毒学家现在不再试图强制构建树状结构,而是计算全基因组范围的距离度量。他们可能会根据两个病毒基因组之间共享基因的比例计算​​Jaccard 距离​​,或者计算它们整个序列的​​平均核苷酸一致性 (ANI)​​。这些聚合度量提供了一个对整体相关性的稳健估计,平均了来自单个基因的冲突信号。这个成对距离矩阵可以被可视化为一个​​基因共享网络​​,其中病毒是节点,它们之间的“距离”由边的强度表示。这种网络模型拥抱了病毒进化的网状、网格状的性质。这个网络中的集群,由距离阈值定义,正在成为病毒分类学的新基础——一个诞生于观察和测量距离新方式的系统。

距离作为景观、模型与诊断工具

抽象的力量使我们能够以更令人惊讶的方式应用距离概念。在进化生物学中,“共同进化的地理镶嵌理论”假设,种群间的基因流对于传播适应性至关重要。但基因并非沿欧几里得直线传播;它们跨越真实的景观,其中山脉、河流和森林充当屏障或走廊。为了捕捉这一现实,景观遗传学家从物理学中借鉴了一个优美的思想:电路理论。景观被视为一个电阻网络,易于穿越的区域电阻低,而屏障则电阻高。两个种群之间的​​有效距离​​随后被计算为该电路中它们之间的有效电阻。这种复杂的度量考虑了所有可能的基因流并行路径,通常能比简单的直线距离更好地解释性状相似性的生物学模式。在这里,距离等同于连通性。

再回到细胞内部,我们发现单个染色体可以由多个并存的距离尺度来描述。有以 DNA 碱基对(bpbpbp)计量的​​物理距离​​。有沿减数分裂期间形成的蛋白质支架(联会复合体)以微米(μm\mu\text{m}μm)计量的​​细胞学距离​​。还有以摩根(MMM)计量的​​遗传距离​​,它反映了发生交换事件的概率。这些并非相互独立。使交换事件间隔开来的机制,即所谓的干涉,似乎是沿着细胞学轴运作的。DNA 的压缩紧密程度决定了物理距离和细胞学距离之间的关系。而最终的交换模式,受到细胞学尺度上干涉的影响,正是我们最终测量到的遗传距离。要理解遗传,必须精通所有三种距离语言,并知道它们如何相互转换。

最后,在最抽象的转变之一中,距离成为监督科学过程本身的工具。在贝叶斯系统发育学中,科学家使用复杂的计算机模拟(MCMC)来搜索广阔的可能进化树宇宙,旨在找到数据支持最好的那些树。但我们如何知道模拟运行的时间是否足够长以找到正确答案?我们可以运行两个或多个独立的模拟并观察它们。如果它们都收敛到了相同的答案,那么一个模拟采样的树集合在统计上应该与另一个模拟采样的集合无法区分。为了检查这一点,我们可以使用像 ​​Robinson-Foulds 距离​​这样的度量来测量树与树之间的“距离”,该度量计算不同分支的数量。通过比较一次模拟样本内部的距离分布与跨模拟的距离分布,我们可以为收敛性开发出一种强大的诊断工具。在这里,距离测量的不是空间或相似性,而是平行计算流之间的一致性。

从平凡到宇宙,从工程到进化,距离的概念被证明是科学中最具通用性和创造性的思想之一。它证明了一个简单概念的力量,只要被精确定义和创造性地应用,就能揭示遍布我们宇宙的隐藏联系和优美秩序。