
从基因组学到地质学,在各个科学学科中,研究人员经常会遇到代表整体各部分的数据——例如生态系统中微生物物种的相对丰度,或岩石的元素组成。这类信息被称为成分数据,它带有一个隐藏的数学陷阱:由于各部分的总和必须为一个常数(如 100%),因此它们不是相互独立的。天真地将相关性等标准统计工具应用于此类数据,可能会造成危险的假象,并导致错误的科学结论。本文通过介绍专为成分数据设计的强大框架——Aitchison 几何,来应对这一根本性挑战。本文将首先深入探讨其核心原理和机制,解释传统方法为何失效,以及对数比变换如何提供一个稳健的解决方案。随后,文章将探讨其广泛的应用和跨学科联系,展示这种视角上的转变如何正在彻底改变从微生物组研究到材料科学等多个领域。
想象一下,你正在尝试完善一份水果冰沙的配方。你目前的混合物是 20% 的香蕉、30% 的草莓和 50% 的蓝莓。你觉得需要多加点香蕉。会发生什么呢?要增加香蕉的百分比,你必须减少草莓、蓝莓或两者的百分比。这不是水果之间某种复杂的生化相互作用,而是一个简单且不可违背的数学必然性。如果各部分的总和必须等于一个整体(100%),你就无法在不影响至少其他一个部分的情况下改变其中一个部分。
这个看似简单的观察,是理解一个横跨无数科学领域的深远挑战的入口。代表整体各部分的数据——如恒星的元素组成、岩石中不同矿物的比例、肠道中微生物物种的相对丰度,或高熵合金中的原子分数——被称为成分数据。它们都共有这个基本的闭合约束:各部分的总和是恒定的。正如我们将看到的,这一个约束就打破了我们对数据熟悉的日常直觉,迫使我们去发现一种新的、更优美的几何学。
几个世纪以来,科学家一直使用统计学来寻找关系。吸烟是否与肺癌相关?肥料能否提高作物产量?这类分析的主力工具是相关性,它衡量两个变量如何协同变化。但当天真地将相关性应用于成分数据时,它可能会说出危险的谎言。
让我们回到冰沙的例子。假设你制作了一百批,随机改变各种成分的用量。如果你绘制香蕉百分比与草莓百分比的关系图,几乎肯定会发现一个负相关。这看起来好像香蕉和草莓在某种程度上是相互拮抗的。但这种“关系”是一种错觉,一个由闭合约束产生的数学幽灵。这就是统计学家所说的伪相关。在 19 世纪末,伟大的统计学家 Karl Pearson 首次指出了这个陷阱:强迫数据总和为一个常数的行为本身,就会人为地在各部分之间引入负相关。
在真实的科学情境中,这是一场灾难。生态学家可能会错误地断定两个微生物物种在竞争资源,而实际上它们的绝对数量是独立增长的。地质学家可能会建立一个有缺陷的矿物形成模型。问题的核心在于:对于成分数据,任何一个部分的绝对值都是没有意义的。它只是你碰巧收集到的总物质量(测序读数、岩石样本等)所产生的人为结果。唯一真正有意义的信息在于各部分之间的比率。一个 的成分与 或 包含相同的相对信息。在所有这些情况中,第一部分与第二部分的比率都是 。我们的数学工具必须尊重这种基本的“相对性”。
那么,我们常用的工具有什么问题呢?标准统计学——相关性、回归,甚至简单的距离计算——都建立在欧几里得几何的基础上。这是我们在学校里学的熟悉的平面几何。在这个世界里,两点之间的距离是一条直线。但成分数据并不存在于这个平坦的世界中。
考虑我们由三部分组成的冰沙成分。一个像 这样的向量不能在三维立方体中的任意位置。约束条件 迫使所有可能的成分都位于嵌入该立方体的一个平坦的三角形表面上。这个空间被称为单纯形 (simplex)。对于具有 个部分的数据,其成分存在于一个 维的单纯形上。
在这个单纯形上,欧几里得几何的规则失效了。两个配方之间的直线距离,比如从 到 的距离,与从 到 的距离是相同的。但从相对意义上看,第一个变化代表第一种成分相对于第二种成分翻了一番,而第二个变化则是一个小得多的变动。欧几里得距离对这种关键的相对信息是“视而不见”的。更糟糕的是,使用标准方法“相加”两个成分或求它们的“平均值”会得到一个落在单纯形之外的结果——一个各部分总和不等于 100% 的无意义配方。我们就像生活在二维“平面国”的生物,试图仅用直线的规则去理解三维世界。我们需要一种原生于单纯形本身的新几何学。
这就是地质学家 John Aitchison 在 20 世纪 80 年代做出杰出贡献的地方。他意识到,要正确分析成分数据,我们需要一套新的规则——一种新的代数。这个现在被称为Aitchison 几何的框架,重新定义了在单纯形上“加”和“乘”的含义。
扰动 ():这是 Aitchison 体系中与加法等价的运算。它不是关于相加绝对量,而是关于改变成分的相对平衡。如果你有一个成分 ,并想应用另一个向量 定义的相对变化,新的成分是通过将各分量逐元素相乘,然后重新归一化使它们的总和为 1 来得到的。用数学符号表示为 ,其中 是强制总和为 1 的闭合运算。
幂运算 ():这是 Aitchison 体系中与标量乘法等价的运算。它代表对成分内部对数比的均匀缩放。其定义为 。
通过这些运算,单纯形成为了一个一致且性质良好的向量空间。它有一个零元素(所有部分都相等的成分,例如 ),并且每个元素都有一个逆元素。我们成功地构建了一种新的算术。
虽然这种新代数在数学上是严谨的,但直接使用它却很繁琐。真正的突破——那块能让我们将单纯形的陌生语言翻译成我们熟悉的欧几里得几何语言的“罗塞塔石碑”——就是对数比变换。
这个想法的美妙之处在于其简单性。成分数据关乎乘法关系(比率)。对数具有将乘法转化为加法的神奇特性。如果我们分析的不是比例本身,而是它们比率的对数,会怎么样呢?
这引出了几种类型的变换。最直观的是中心对数比(clr)变换。要计算一个成分 的 clr,你需要遵循两个步骤:
为该成分找到一个参考“中心”。对于乘法数据,正确的中心不是算术平均值,而是几何平均值,。
对于每个部分 ,计算它与这个几何平均值之比的对数:。
我们来看一个来自微生物组研究的成分:。它的 clr 坐标大约是 。这个新的 clr 坐标向量具有非凡的特性。首先,它的分量总和恒为零,这巧妙地体现了原始数据只有 个自由度的事实。其次,该变换是尺度不变的:如果你将原始数据乘以任何正常数,clr 坐标完全不会改变。这个变换完美地分离出了相对信息!
有了这个工具,我们终于可以定义一个有意义的距离。两个成分之间的Aitchison 距离就是它们经过 clr 变换后的坐标之间的标准欧几里得距离。我们已经将单纯形“展开”成一个平坦的空间,在那里我们旧的标尺又能再次使用了。
clr 变换是一个巨大的进步,但对于实践中的科学家来说,它有一个微妙的缺陷。每个 clr 坐标 都依赖于几何平均值,而几何平均值又依赖于成分的每一个部分。这意味着,如果你分析一个包含 100 种代谢物的血液样本,后来决定只重新分析其中与特定通路相关的 10 种,那么你所有原始的 clr 坐标都将变得无效。这种子成分一致性的缺乏在实践中是一个令人头疼的问题。
为了解决这个问题,人们开发了其他的变换方法。加性对数比(alr)变换通过选择一个部分作为参考(即“分母”),并计算所有其他部分与它之间的对数比来简化问题。这很简单,但你的结果现在依赖于对参照物的任意选择。
最优雅和稳健的解决方案是等距对数比(ilr)变换。ILR 将一个 部分的成分转换为 个新的坐标,这些坐标在数学上是相互独立且标准正交的。每个 ILR 坐标,被称为平衡 (balance),代表原始部分中两个不同组别的几何平均值之间的对数比。例如,在微生物组研究中,一个平衡可以代表所有厚壁菌门 (Firmicutes) 与所有拟杆菌门 (Bacteroidetes) 的相对丰度。
ILR 变换是许多应用梦寐以求的“圣杯”。它是一种等距变换 (isometry),意味着它在一个标准的、无约束的欧几里得空间中完美地保留了 Aitchison 距离。而且,如果平衡的构建经过深思熟虑,它就能提供完美的子成分一致性。比较厚壁菌门和拟杆菌门的平衡完全不受第三个门(如变形菌门,Proteobacteria)存在与否的影响。这使得科学家们可以放心地在 ILR 坐标上执行主成分分析或线性回归等标准多变量分析,确信自己不会被闭合约束的幽灵所误导。
通过拥抱其数据的真实几何结构,科学家们可以超越伪相关,建立反映现实的模型。这是一个绝佳的例子,说明选择正确的数学视角不仅能解决一个技术问题,更能揭示一个更清晰、更真实的世界图景。
也许你有些惊讶。我们花了这么多时间发展一种新的几何学,它有自己独特的距离规则,而这一切只是为了处理那些总和为一的数字向量。你可能会想:“这确实是一个优美的数学构造,但真的有必要吗?自然界真的关心比率的对数吗?”
事实证明,答案是响亮的“是”。我们关于空间、距离和直线的日常直觉——即我们在学校里学的欧几里得世界——是一个非常有用的工具,但它不是唯一的工具。当我们面对代表整体各部分的数据,即成分数据时,强行将其塞入欧几里得的框架中,就好比试图通过看一张平面地图来理解地球仪;你可以这样做,但大陆的形状会被扭曲,从纽约到马德里的直线会看起来像一条曲线。采用正确的几何学,即单纯形上的 Aitchison 几何,就像终于看到了地球仪本身。突然之间,奇怪的曲线变成了直线,扭曲消失了,各部分之间的真实关系也变得清晰起来。
这不仅仅是一项学术活动。这种视角的转变正在彻底改变从我们身体内部运作到下一代技术设计的整个科学领域的面貌。
成分性思维的影响在现代生物学中尤为深远,特别是在统称为“-组学”的领域。当科学家使用高通量测序来测量基因、蛋白质或微生物的丰度时,他们几乎总是在生成成分数据。一台机器产生的序列总数——即其“文库大小”——是一个技术变量,而不是生物学变量。将测序深度加倍并不意味着你的微生物数量增加了一倍,只意味着你观察得更仔细了。唯一有意义的信息在于不同组分的相对比例。
这个简单的事实意味着 Aitchison 几何是基因组学的自然语言。以人类微生物组的研究为例,这是生活在我们肠道中由数万亿细菌组成的繁华生态系统。
衡量真实的生物学差异: 想象一项研究,比较健康个体与消化系统疾病患者的肠道菌群。测序为我们提供了数百种细菌的相对丰度。这两个生态系统有多大差异?对原始比例进行简单的比较是具有误导性的。Aitchison 距离,通过计算样本在转换为中心对数比(clr)坐标之后的简单欧几里得距离得出,它为两种状态之间的生态变化提供了一个真实、无失真的度量。这是衡量微生物世界变化的合适标尺。
发现模式并进行预测: 有了这把正确的标尺,我们就可以释放现代数据科学的全部力量。我们可以利用数百人的微生物组数据,使用聚类算法来观察它们是否自然地分成了不同的群落类型,这些类型可能对应着不同的饮食或生活方式。我们还可以训练机器学习分类器,如支持向量机(SVM),来区分健康和疾病状态。将经过正确 clr 变换的数据,而不是原始比例,输入到 SVM 中,可以确保模型从真实的生物信号中学习,而不会被成分约束所产生的人为结果所欺骗。
使用“平衡”提出针对性问题: 有时,我们有更具体的假设。我们可能怀疑某种抗生素会导致一个菌科(比如厚壁菌门)的数量减少,同时导致另一个菌科(拟杆菌门)的数量相应增加。Aitchison 几何允许我们构建一个称为平衡 (balance) 的特定坐标,它能精确地捕捉这两个群体之间的对数比。这个单一而强大的数字概括了这两个群体之间的关系,使我们能够以惊人的清晰度和优雅度来量化治疗效果。这比追踪数十个单一物种要深刻得多。
同样的原则也远远超出了微生物组的范畴。无论是分析来自 RNA 测序数据的基因相对表达水平,还是分析尿液样本中代谢物的比例浓度,情况都是一样的。通过将成分数据转换为等距对数比(ilr)坐标,我们创建了一组在数学上独立的变量。这解决了原始比例固有的多重共线性问题,并允许我们在不违反其基本假设的情况下使用线性回归等标准统计工具。它在成分数据的独特世界与经典统计学的熟悉领域之间架起了一座严谨的桥梁。
虽然生物学是成分数据分析的一个重要新前沿,但这些思想诞生于一门更古老的科学:地质学。John Aitchison 在 20 世纪 80 年代发展了他的几何学,以处理岩石的化学成分问题。
地球化学:解析地壳的混合过程: 想象一位地质学家发现了一块岩石样本,并怀疑它是由两种已知的岩石类型(或称“端元”)混合而成。一个关键问题是确定混合比例。直观的模型是假设组分百分比进行简单的线性混合。这在标准欧几里得空间中是一条“直线”。然而,真实的地球化学混合过程通常遵循不同的规则——一条对应于 Aitchison 空间中的直线(或测地线)的规则。如果你试图用欧几里得模型来推断由 Aitchison 式混合形成的岩石的混合比例,你的答案将会系统性地出错。这个模型根本不符合数据的几何结构。但是,如果你将你的端元和样本转换到 ilr 空间并在那里解决混合问题,你得到的答案就是完全正确的。正确的几何学揭示了岩石的真实历史。
燃烧科学:窥探火焰之心: 火焰是化学反应的漩涡,其中数百种不同的分子物质不断地被创造和摧毁。这些物质的质量分数向量就是一个成分数据。如果我们想了解主导的化学路径,一个常用技术是主成分分析(PCA),它可以找到数据中变化最大的方向。但直接将 PCA 应用于原始质量分数会导致人为误差;它找到的“主成分”可能是由所有分数总和必须为一这一事实所引起的伪相关。通过首先将成分数据转换到对数比空间,我们就可以执行 PCA,并找到控制火焰复杂化学过程的真实、潜在的低维流形。
材料科学:人工智能驱动的新技术设计: 这种几何视角的威力延伸到了工程技术的前沿。考虑为锂离子电池设计一种新电极。电极的性能取决于其配方——即化学成分的相对比例。这是一个成分设计空间。科学家可以使用复杂机器学习模型(如高斯过程)来预测给定配方的性能,并智能地指导寻找更优配方的过程。为了使这个人工智能有效,其内部关于两种配方之间“相似性”的模型必须是正确的。使用欧几里得距离的标准模型会因成分约束而被误导。然而,通过构建一个其核函数基于 Aitchison 距离的模型,人工智能能够“理解”设计空间的几何结构。它可以做出更准确的预测,区分真实趋势和人为假象,并加速发现新的高性能材料。
从微生物的无形世界,到我们星球的地质构造,再到我们未来的工程材料,一条共同的线索浮现出来。每当我们从相对组成部分的角度分析世界时,我们标准的几何直觉都可能将我们引向歧途。Aitchison 几何提供了必要的校正,它像一个新的透镜,通过它,世界显得更简单、更一致、也更优美。这有力地证明了抽象数学思想在解决实际问题和统一我们对自然界不同角落的理解方面的强大力量。