首页艾奇逊距离

艾奇逊距离

玻尔百科

定义

艾奇逊距离是组合数据分析中用于衡量整体各组成部分之间差异的数学度量。该方法通过中心对数比（CLR）转换将数据映射到欧几里得空间，旨在通过关注各组分间的比例而非绝对值来消除恒定和约束带来的伪相关性。这种距离度量为基因组学和地质学等领域提供了准确的相对差异测量手段。

核心要点

由于恒定总和约束，标准统计学方法在处理成分数据（整体的各个部分）时会失效，从而产生误导性的伪相关。
艾奇逊几何学通过关注各部分之间的比率而非其绝对值来解决这个问题，因为比率包含了有意义的信息。
中心对数比（CLR）变换是将成分数据投影到可以计算有意义距离的标准欧几里得空间中的关键机制。
艾奇逊距离是经过CLR变换后的成分之间的欧几里得距离，它提供了一种真实的相对差异度量，在从基因组学到地质学的各个领域都至关重要。

引言

从我们肠道中的微生物构成到国家预算的分配，我们不断遇到代表整体各部分的数据。这种“成分数据”无处不在，但使用标准统计工具对其进行分析却充满风险。由于各组分必须加和为一个常数（例如100%），一部分的增加必然导致另一部分的减少，从而产生一张伪相关的网络，扭曲了我们的理解。这种“总和的暴政”带来了一个根本性的知识鸿沟，导致在生物学和经济学等不同领域得出错误的结论。

本文探讨了解决这一问题的优雅方案：由数学家 John Aitchison 发展的几何框架。通过深入研究比率的逻辑，我们可以开启一种衡量、可视化和建模这种独特数据类型的新方法。首先，“原理与机制”一章将揭示成分数据的核心问题，并介绍革命性的对数比变换，这种变换使我们能够摆脱单纯形的约束。接下来，“应用与跨学科联系”一章将展示艾奇逊距离如何提供一种统一的语言来解决地球化学、微生物组研究、材料科学等领域的问题，证明其作为现代数据分析中一个基本概念的力量。

原理与机制

总和的暴政：为什么你的百分比可能具有欺骗性

想象一下你是一位面包师，你著名的蛋糕配方有三种主要成分：面粉、糖和黄油，它们共同构成了面糊的主体。你总是用百分比来描述你的配方：50%的面粉、30%的糖、20%的黄油。现在，假设一位朋友尝试了你的配方，但他的蛋糕做出来不一样。你分析了他的面糊，发现其中含有50%的面粉、25%的糖和25%的黄油。

发生了什么？简单比较百分比可能会让你认为你的朋友只是用了更少的糖和更多的黄油。但如果真实情况是他们加入了第四种成分，比如可可粉，而这并不在你的原始配方中呢？如果这种新成分现在占了总量的一部分，那么所有原始成分的百分比都必须缩小以容纳它，即使它们的绝对量保持不变。一部分的增加迫使其他部分减少。

这就是成分数据的核心困境——这种数据代表一个整体的各个部分，例如你肠道中细菌物种的相对丰度、岩石中不同矿物的比例，或者选举中各政党的得票份额。这些数字不是独立的；它们受到恒定总和约束的限制：它们必须加起来等于1（或100%）。这个看似简单的约束投下了长长的阴影，创造了一种“总和的暴政”。它强加给数据一些现实中可能不存在的关系。如果一种细菌的数量增加，其他细菌的相对丰度就必须下降，从而产生一种伪相关，这可能会让科学家误以为这些细菌在竞争，而实际上这只是一个数学假象。

几十年来，科学家们一直在努力解决这个问题。许多常见的统计工具假设数据存在于一个无约束的、“平坦”的欧几里得空间中，当应用于成分数据时，会产生奇怪且误导性的结果。例如，当主坐标分析（PCoA）等排序方法与 Bray-Curtis 相异性等流行的生态距离度量一起使用时，可能会产生令人困惑的负特征值。这些“虚构”的变异轴是数学上的警告信号，表明数据的基础几何结构没有得到尊重——这些距离并非真正的欧几里得距离。这些度量虽然直观，但直接作用于原始比例，因此是“总和的暴政”的奴隶。我们需要一种不同的思维方式。

一种新的比率运算法则

突破来自一位名叫 John Aitchison 的苏格兰数学家。他认为，对于成分数据，任何单个部分的绝对值都是无意义的。基本信息不在于百分比本身，而在于它们之间的比率。他建立的核心原则是尺度不变性：无论一个成分的总量是多少，其相对结构都不应改变。

让我们回到微生物组。想象一下，一份粪便样本的原始计数显示有100个Bacteroides和200个Firmicutes。同一人另一天的另一份样本产生了300个Bacteroides和600个Firmicutes。读取的总数不同——也许是测序深度更深了——但基础的群落结构，即1:2的比率，是相同的。一个有意义的分析必须认识到这两个样本本质上是相同的。它们携带相同的相对信息。

标准的欧几里得距离完全无法通过这个测试。原始计数之间的“距离”将是巨大的，会误导我们认为发生了巨大的变化。Aitchison 意识到，为了尊重比率的本质，我们需要一种新的运算法则，一种为单纯形——成分数据所在的三角形（或更高维）空间——量身定制的新几何学。他在这个单纯形上定义了一个完备的向量空间，有其自己的加法和标量乘法规则。

扰动（成分加法）：要“相加”两个成分，你需要将它们对应的部分相乘，然后重新归一化使它们的总和为1。这个运算表示为 $x \oplus y$ ，对应于应用一组相对变化。
幂运算（成分标量乘法）：要将一个成分“乘以”一个标量 $\alpha$ ，你需要将每个部分提升到 $\alpha$ 次幂，然后重新归一化。这个运算表示为 $\alpha \odot x$ ，它缩放了成分内部的相对差异。

这种新的代数结构优美且内部一致，但我们如何用它来进行实际的统计分析呢？答案既优雅又强大：我们找到一种方法来变换数据，将其从单纯形的弯曲、受限世界移动到我们熟悉的欧几里得空间的“平坦大陆”。

对数比望远镜：从单纯形到平坦大陆

解锁单纯形的魔术钥匙是对数。对数有一个奇妙的性质：它将乘法变为加法，除法变为减法。由于成分数据完全关乎比率（除法），对数便成为这项工作的天然工具。这一思想引出了中心对数比（CLR）变换。

这个过程非常直观。首先，我们需要一个稳定的参考点，以便将成分的所有部分与之进行比较。对于标准数据，我们可能会使用算术平均值。但对于所有东西都是乘性的成分数据，正确的“中心”是几何平均数。 $D$ 个部分的几何平均数是它们乘积的 $D$ 次方根， $g(x) = (\prod_{i=1}^{D} x_i)^{1/D}$ 。它代表了一组相乘数字的某种典型值。

那么，成分中任何单个部分的CLR变换就是该部分与几何平均数之比的对数：

\operatorname{clr}(x)_i = \log \left( \frac{x_i}{g(x)} \right) = \log(x_i) - \log(g(x))

这个简单的操作将我们的数据从单纯形投影到一个标准的欧几里得空间。得到的CLR坐标有几个优美而关键的性质：

它们是尺度不变的。 如果你取一个原始计数向量，并将每个计数乘以一个常数（比如，你的测序深度加倍），得到的成分是相同的，并且CLR坐标是完全相同的。正如我们所期望的，缩放因子在变换中被完全抵消了。
它们的和为零。 对于一个给定的样本，所有CLR坐标的总和总是零。这表明我们已经成功摆脱了恒定总和约束，现在处于一个无约束的平坦超平面中——这是标准统计方法的理想环境。

我们成功地构建了一个观察单纯形的“望远镜”，一个能将其弯曲几何拉直成我们懂得如何分析的平坦图像的数学透镜。

测量不可测之物：艾奇逊距离

既然我们的数据处于一个真正的欧几里得空间中，定义一个有意义的距离就变得微不足道了。艾奇逊距离无非就是两个成分经过CLR变换后的坐标之间计算出的标准欧几里得距离：

d_{A}(x,y) = \sqrt{\sum_{i=1}^D (\operatorname{clr}(x)_i - \operatorname{clr}(y)_i)^2} = \|\operatorname{clr}(x) - \operatorname{clr}(y)\|_2

这个距离是成分数据唯一真正的度量。它是一种相对差异的度量。两个总计数差异巨大但比率相同的样本，其艾奇逊距离将为零，从而正确地将它们识别为成分上相同。相反，两个总计数相同但内部比率不同的样本，其距离将不为零。

此外，该距离表现出子成分相干性。想象一下，你正在研究一个包含100种细菌的肠道微生物组。你计算了两个病患样本之间的艾奇逊距离。后来，你决定只关注一个包含10种细菌的特定科。如果你仅使用这10种细菌（在将它们重新归一化以使总和为1之后）重新计算艾奇逊距离，你观察到的相对关系将被保留。子成分之间的距离将小于或等于完整成分之间的距离。大多数其他度量，如 Bray-Curtis，都缺乏这一关键特性；移除部分会不可预测地打乱样本间的表观距离。

超越距离：诠释新几何

艾奇逊框架提供的不仅仅是一个单一的距离数值；它提供了一个理解数据的新坐标系。CLR坐标本身代表了每个部分与几何平均数的对数比，这只是一个起点。但我们可以更巧妙一些。

与其将每个分类单元与整体的几何平均数进行比较，我们何不将分类单元组与其他组进行比较呢？这就是平衡（balances）的概念，即成分中两个互斥子集的几何平均数之间的对数比。例如，在一个微生物组样本中，我们可以定义一个平衡来捕捉主要门类厚壁菌门（Firmicutes）和拟杆菌门（Bacteroidetes）之间的关系：

\text{balance} = \log\left(\frac{g(\text{Firmicutes})}{g(\text{Bacteroidetes})}\right)

这个单一的数字为这两个具有重要生态意义的群体之间的相对优势提供了一个直接、可解释的度量。正值意味着厚壁菌门占优势，负值意味着拟杆菌门占优势，而零则表示完美的平衡。追踪这些平衡如何响应饮食或药物治疗而变化，为我们描述生态系统结构的变化提供了一种强有力的方法。

这一思想在等距对数比（ILR）变换中被形式化，它将一个 $D$ 部分的成分映射到 $D-1$ 个正交（几何上独立的）平衡坐标上。这是成分数据分析的“圣杯”。因为ILR坐标在欧几里得空间中是正交的，我们可以毫无顾忌地应用主成分分析（PCA）等强大的方法。对ILR坐标进行PCA在数学上是可靠的，在几何上是可解释的，能够揭示数据中相对变异的主要轴向。根据定义，这个ILR空间中样本之间的距离就是艾奇逊距离。

从伪相关的恼人悖论出发，艾奇逊的几何学引导我们找到了一个优雅而强大的解决方案。通过关注比率并以对数为钥匙，我们可以构建一个一致的框架来测量、可视化和建模整体的各个部分，揭示被“总和的暴政”所掩盖的真实模式。

应用与跨学科联系

在经历了一段关于新几何学原理和机制的旅程之后，我们很自然会问：“它有什么用？”一个真正深刻的科学思想就像一把万能钥匙；它不仅能打开一扇门，还能打开一系列看似毫不相干的房间里的门。艾奇逊距离及其所测量的成分几何学就是这样一把钥匙。在阐明了原理之后，我们现在转向应用，在这里，这个概念的真正美妙和实用性得以体现。我们将看到，这个单一的几何思想如何为从古代岩石的构成到未来合金的设计，再到生命本身错综复杂的舞蹈等一系列问题带来清晰的认识。

比例构成的世界：从岩石到日常作息

成分数据分析的故事，毫不夸张地说，始于岩石。地球化学家经常面临一个反演问题：他们有一个具有特定化学成分的水或沉积物样本，并希望推断其来源。例如，来自不同来源（河流、地下水、雨水）的水以何种比例混合，形成了这个湖泊中的水？。每个来源都有其特有的化学指纹——一种溶解离子的成分。起初，这似乎是一个简单的混合问题。但数据有一个陷阱：它是成分性的。如果一个样本含有50%的钠、30%的氯和20%的镁，这些数字必须总计为100%。钠的增加必然对应着其他成分的减少。这就是臭名昭著的闭合问题：恒定总和约束会产生伪负相关，从而欺骗标准的统计方法。一个幼稚的分析可能会得出结论，认为钠和镁是“对立的”，而实际上它们之间根本没有任何真实关系。艾奇逊几何学就是为了解决这个问题而发明的。通过分析对数比，它只关注相对信息，避开了闭合约束的陷阱，并允许对潜在的混合过程进行物理上有意义的建模。

这个整体与部分的问题不仅出现在地壳中，也出现在我们日常生活的结构中。想一想你一天的24小时。它是一个成分，一种被划分到各种活动中的有限资源：睡眠、工作、轻度活动和剧烈运动。总和必须总是1440分钟。公共卫生研究人员使用这种“时间使用成分”来研究生活方式改变的影响。假设一个人决定用30分钟的步行和30分钟的慢跑来取代60分钟的久坐时间。这个变化有多“大”？简单计算分钟数并不能完全说明问题。艾奇逊距离为我们提供了一种有原则的方法来量化这种生活方式转变的幅度，它恰当地考虑了所有活动的相对变化。它提供了一个单一、稳健的数字，告诉我们一个人的日常作息发生了多大程度的改变，这是评估公共卫生干预措施的重要工具。

生命的交响曲：解码生物系统

在生命科学领域，成分分析的影响力可谓是爆炸性的，无出其右。现代生物学由“组学”技术主导，这些技术产生了关于生物分子相对丰度的大量数据集。

一个典型的例子是人类微生物组，即生活在我们肠道中的数万亿微生物的繁荣生态系统。当我们对粪便样本进行测序时，我们得到的不是细菌的绝对数量，而是它们的相对比例。一个健康的肠道可能由一组细菌主导，而一个患病的肠道则由另一组主导。艾奇逊距离使我们能够量化这两种状态之间的差异。它可以测量感染患者的菌群失调程度，或者更乐观地说，在接受像粪便微生物群移植（FMT）这样的治疗后，追踪他们恢复到健康状态的过程。同样的原理直接适用于基因组学，当分析来自RNA测序的基因表达数据时。其输出通常以每百万转录本（TPM）为单位，是一个代表数千个基因相对表达水平的成分。艾奇逊距离是比较癌细胞与健康细胞整体基因活性谱的正确工具，能够揭示转录失调的全局图景。

但我们可以比单一的距离值更深入。艾奇逊几何学的真正力量在于它能够剖析两种成分如何不同。这是通过平衡（balances）的概念实现的，这一概念由等距对数比（ILR）变换所捕捉。我们可以不一次只看一个基因，而是定义一个“平衡”，即两组完整基因几何平均数之间的对数比——例如，促进细胞生长的基因与促进细胞死亡的基因之间的平衡。一个成分可以由一组这样的正交平衡完全描述，这些平衡是根据各部分的合理分组构建的，比如基因或代谢途径的族谱。那么，艾奇逊距离就仅仅是所有这些基本平衡的聚合变化。它将一个复杂的生物学问题从“所有这些独立部分改变了多少？”转变为一个更强大的问题：“功能组之间的关键关系是如何被扰动的？”

用原子和算法构建：工程与数据科学

成分几何学的原理并不仅限于自然界；它们对于工程改造我们周围的世界以及构建帮助我们理解世界的智能算法至关重要。

考虑材料科学领域，特别是高熵合金（HEAs）的设计。这些是通过将几种元素以大致相等的比例混合而成的先进材料。它们的性质——如强度或耐腐蚀性——是其成分的复杂函数。为了使用机器学习来预测一种未经测试的新合金的性质，我们需要一种可靠的方法来在我们的数据库中找到“最接近”的已知合金。我们应该用什么度量来定义“接近度”？一个绝妙的思想实验揭示了答案。如果我们取一整个合金成分数据集，并对它们施加一个统一的乘法变换（一次“扰动”），其内部关系不应改变。合金X的最近邻仍然应该是合金Y。艾奇逊距离因其本质，对这种扰动是不变的。基于艾奇逊距离的预测模型是稳定和稳健的。相比之下，使用朴素欧几里得距离的模型则变化无常；在这些扰动下其预测会发生变化，揭示了一种根本性的“度量引发的偏见”。选择正确的几何学不仅仅是一项学术练习；它对工程设计的可靠性有着直接的影响。

作为一种基础工具，它的作用遍及整个数据科学领域。

聚类：当应用于成分数据时，艾奇逊距离是诸如 $k$ -均值等聚类算法的引擎。通过首先将微生物组数据转换到适当的几何空间（CLR空间），我们可以使用聚类来发现人群中自然存在的群落类型，即“肠型”，从而揭示人类健康与疾病中的隐藏结构。
数据整合：在精准医疗中，一个主要挑战是整合来自单个患者的多种类型数据——转录组学、蛋白质组学、微生物组学等。每种数据类型都有其自身的统计特性，需要自己的“语言”。一个稳健的分析流程必须是“多语种”的，为每种模态使用正确的度量：或许基因表达用皮尔逊相关系数，某些蛋白质组学数据用余弦相似度，而关键的是，成分性的微生物组数据用艾奇逊距离。只有尊重每个数据层的几何结构，我们才能将它们融合成一个单一、连贯的患者相似性网络，从而提供对个体的整体视图。
前沿：拓扑学：在研究的前沿，研究人员正在使用拓扑数据分析（TDA）来寻找数据的“形状”——可能对应于生态位或发育路径的孔洞、环和空隙。要看清成分数据的真实形状，必须首先通过艾奇逊几何学的镜头来观察。直接将TDA应用于原始比例，就像试图通过观察一张揉皱纸上扭曲的影子来理解一座雕塑的形状。艾奇逊框架提供了那面平坦、干净的墙，可以在其上投射出真实的拓扑阴影。

从我们星球的元素构成到新型材料的工程设计，从我们一天中每分钟的成分到我们细胞中分子的浩瀚交响乐，都出现了同样简单的相对信息问题。艾奇逊几何学为理解这些看似迥异的世界提供了一个单一、优雅而强大的框架。它提醒我们，有时解决一个问题的最重要一步是首先理解答案所在空间的形状。