try ai
科普
编辑
分享
反馈
  • 单纯形几何:成分数据中隐藏的规则

单纯形几何:成分数据中隐藏的规则

SciencePedia玻尔百科
核心要点
  • 成分数据代表一个整体的各个部分,被约束在一个称为单纯形的几何空间中,这使得标准的统计方法产生误导。
  • 将相关性分析等传统统计方法应用于比例数据,会产生伪关系和不合逻辑的结论,而这些结论会随着分析部分的不同而改变。
  • Aitchison 几何通过使用对数比变换,将受约束的成分数据转换到一个标准的、无约束的空间中进行分析,从而解决了这些问题。
  • 单纯形几何的原理为理解不同领域中由部分组成的系统提供了一个统一的框架,从肠道微生物组到高熵合金。

引言

在从生物学到经济学的许多科学学科中,我们更关心的不是绝对数量,而是构成一个整体的各组分的相对比例。这类信息被称为成分数据,它无处不在,但却带有一个隐藏的问题:因为所有部分的总和必须为一个常数,所以它们不是相互独立的。这一基本约束将数据“困”在一个名为单纯形的独特几何空间中。在这个空间里,我们基于直线和平面建立的直观、日常的统计工具开始失效,从而导致悖论和错误的结论。

本文旨在弥合我们通常分析比例数据的方式与我们应该如何分析之间的关键知识鸿沟。它为一种新的几何视角提供了指引,这种视角解决了上述悖论,并提供了一种更强大、更真实地理解世界的方式。在接下来的章节中,您将学习这种方法的核心原理,并见证其变革性的影响。首先,“原理与机制”部分将解释为什么我们的直觉在处理成分数据时会失效,并介绍 Aitchison 几何和对数比这一优雅的解决方案。随后,“应用与跨学科联系”部分将展示这一个单一的几何思想如何统一我们对看似毫不相干的领域的理解,从我们肠道中的微生物到先进材料的设计。

原理与机制

整体的束缚:什么是成分数据?

在科学中,如同在生活中一样,我们关心的往往不是单一事物,而是一个完整系统的构成。想想面包师的配方:重要的不是面粉的绝对量,而是它相对于糖、鸡蛋和黄油的比例。或者考虑一个国家的经济:我们追踪不同行业的市场份额,将其作为总经济产出的一部分。这种代表整体各部分的数据,被称为​​成分数据​​。

也许这种思维方式最激动人心的前沿领域之一是在生物学中,特别是在​​微生物群​​的研究中——即生活在我们身体内部和表面的庞大微生物群落。当科学家对肠道微生物群进行测序时,他们得到的不是每一种细菌的绝对数量。测序仪提供给他们的是大量的基因片段,他们只能从中确定每个物种的*相对丰度。你可能会发现,群落中有 20% 是拟杆菌属(Bacteroides),15% 是普雷沃氏菌属*(Prevotella),以此类推。

无论微生物总种群有多大或多小,这些相对丰度加起来必须总是一个常数,通常归一化为 111(或 100%100\%100%)。这是成分数据的基本规则,即​​闭合约束​​。这个看似无害的约束带来了深刻且常常是反直觉的后果。这意味着这些数值不能自由地独立变化。如果一个组分的比例上升,至少有另一个组分的比例必须下降。它们被捆绑在一个零和博弈中。

这个约束迫使数据存在于一个称为​​单纯形​​的特定数学空间中。什么是单纯形?它是在任何给定维度中最简单的几何形状。对于一个由三部分(比如细菌 A、B 和 C)组成的成分,其可能的比例必须位于一个三角形的表面上。对于四部分,它们则位于一个四面体的表面上,这是一个四面的金字塔。对于微生物组中的数百万个组分,数据则存在于这样一个形状的数百万维版本上。这就是成分数据大戏上演的舞台。

镜厅幻象:为何我们的直觉会失效

几个世纪以来,我们基于欧几里得几何的原理——即高中所教的平面和直线的熟悉世界——开发了强大的统计工具,如相关性、回归、方差分析等。但单纯形不是一个平坦、开放的空间。它是一个受约束的曲面。在这个新空间里应用我们常用的工具,就像试图用一张平面地图在弯曲的地球上导航一样;你会得到扭曲的结果,并可能最终迷失方向。

这个镜厅中的第一个幻象是​​伪相关​​。想象一个简单的肠道生态系统,其中一种细菌的增加对另一种细菌没有生物学影响。然而,如果第一种细菌大量繁殖,其相对丰度从 10%10\%10% 增加到 30%30\%30%,那么总的“蛋糕”仍然只有 100%100\%100%。那额外的 20%20\%20% 必须来自某个地方。其他细菌的相对丰度必须下降,即使在没有真正生物拮抗作用的地方,数据中也会产生负相关。我们看到了一个并非真实存在的效果;它只是一个由闭合约束产生的数学幽灵。

情况甚至更加凶险,会导致一种被称为​​子成分不相干性​​的逻辑崩溃。让我们用一个惊人简单的例子来说明这一点。想象一下,我们追踪三个样本中三种细菌 A、B 和 C 的绝对丰度,发现 A 和 B 是完全正相关的。

样本A 的绝对丰度B 的绝对丰度C 的绝对丰度
1127
2235
3343

现在,让我们做测序仪所做的事情:将这些数值转换为相对丰度。每个样本的总量恰好是 101010,所以比例是:

样本A 的相对丰度B 的相对丰度C 的相对丰度
10.10.20.7
20.20.30.5
30.30.40.3

如果我们计算 A 和 B 相对丰度之间的 Pearson 相关性,它仍然是完美的 +1+1+1。到目前为止,一切顺利。但是,如果我们只对 A 和 B 之间的关系感兴趣,并决定忽略 C 呢?我们会取它们的绝对丰度,形成一个子成分,然后重新归一化,使它们的总和为 111。

样本A 的绝对丰度B 的绝对丰度小计相对 A'相对 B'
11231/31/31/32/32/32/3
22352/52/52/53/53/53/5
33473/73/73/74/74/74/7

现在,如果我们计算这些新的相对丰度(相对 A' 和相对 B')之间的相关性,我们得到一个完美的 −1-1−1。关系完全颠倒了!。这太荒谬了。A 和 B 之间的真实关系不可能取决于我们是否关注 C。这表明标准的相关性分析对于成分数据来说是根本性错误的。我们的统计“尺子”每次在改变我们观察系统的哪些部分时,都会给出不同的测量结果。

这就把我们带到了核心问题:我们用错了尺子。标准的​​欧几里得距离​​,∑(xi−yi)2\sqrt{\sum (x_i - y_i)^2}∑(xi​−yi​)2​,测量的是两点之间的直线长度。这在一个开放、平坦的空间里没有问题。但在单纯形的受约束曲面上,这条“直线”会穿过形状的中间,超出了我们数据可能存在的空间。从比例 0.10.10.1 变为 0.20.20.2(100%100\%100% 的增长)与从 0.80.80.8 变为 0.90.90.9(12.5%12.5\%12.5% 的增长)被同等对待。我们的尺子对数据的相对性质视而不见。

一种新几何学:对数比的世界

这个难题的解决方案来自一位名叫 John Aitchison 的苏格兰数学家,他在 20 世纪 80 年代提出了这一方案。他提出了一个激进而优美的想法:如果数据结构本身是问题所在,那么我们就改变我们的视角。他认识到,一个成分中基础、稳定的信息并不在于各部分的值本身,而在于它们的​​比率​​。

为什么是比率?因为比率是​​尺度不变的​​。如果你有一个样本,其中包含 10 个单位的微生物 A 和 20 个单位的微生物 B,它们的比率是 10/20=1/210/20 = 1/210/20=1/2。如果由于更好的实验方法,你得到了双倍的总物质,现在测量到 20 个单位的 A 和 40 个单位的 B,那么绝对量已经改变,比例可能也已经改变(取决于其他微生物发生了什么),但比率 20/4020/4020/40 仍然是 1/21/21/2。比率捕捉了内在的关系,而与任意的总量无关。

Aitchison 的天才之处在于,他基于这些比率构建了一整套几何学,现在被称为 ​​Aitchison 几何​​。为此,他使用了一个经典的数学工具:对数。对数有一个奇妙的性质——它们将乘法和除法转换为加法和减法。通过对比率取对数,我们可以将单纯形的乘性的、受约束的世界“展开”成一个标准的、加性的、无约束的欧几里得空间。

实现这一点最重要的方法之一是​​中心对数比(CLR)变换​​。其思想是为成分找到一个“中心”,并相对于该中心来表示所有部分。一组正数的自然中心是它们的​​几何平均数​​,g(x)=(x1×x2×⋯×xD)1/Dg(\mathbf{x}) = (x_1 \times x_2 \times \dots \times x_D)^{1/D}g(x)=(x1​×x2​×⋯×xD​)1/D。那么,每个部分 xix_ixi​ 的 CLR 变换就是:

clr(xi)=ln⁡(xig(x))\text{clr}(x_i) = \ln\left(\frac{x_i}{g(\mathbf{x})}\right)clr(xi​)=ln(g(x)xi​​)

例如,对于一个简单的三部分成分 [0.2,0.3,0.5][0.2, 0.3, 0.5][0.2,0.3,0.5],其几何平均数是 (0.2×0.3×0.5)1/3≈0.3107(0.2 \times 0.3 \times 0.5)^{1/3} \approx 0.3107(0.2×0.3×0.5)1/3≈0.3107。那么 CLR 坐标将是 [ln⁡(0.2/0.3107),ln⁡(0.3/0.3107),ln⁡(0.5/0.3107)][\ln(0.2/0.3107), \ln(0.3/0.3107), \ln(0.5/0.3107)][ln(0.2/0.3107),ln(0.3/0.3107),ln(0.5/0.3107)],计算结果约等于 [−0.441,−0.035,0.476][-0.441, -0.035, 0.476][−0.441,−0.035,0.476]。我们已经将三个必须总和为 111 的受约束数字,转换为了三个现在总和为 000 的无约束数字。这些新坐标存在于一个标准的欧几里得空间中,我们熟悉的统计工具终于可以在这里被正确地使用。

也存在其他更复杂的变换,如​​等距对数比(ILR)变换​​。它们提供了更多优势,例如提供一组可以被构建以保证子成分相干性(subcompositional coherence)的坐标,这对于构建可靠的预测模型至关重要。关键的洞见保持不变:分析对数比,而不是原始比例。

Aitchison 距离:成分数据的标尺

既然我们有了从单纯形到熟悉的欧几里得空间的映射,我们终于可以定义一把合适的尺子了。两个成分 x\mathbf{x}x 和 y\mathbf{y}y 之间的​​Aitchison 距离​​,就是它们经过 CLR 变换后的坐标之间的标准欧几里得距离:

dA(x,y)=∑i=1D(clr(xi)−clr(yi))2d_A(\mathbf{x}, \mathbf{y}) = \sqrt{\sum_{i=1}^{D} \left( \text{clr}(x_i) - \text{clr}(y_i) \right)^2}dA​(x,y)=i=1∑D​(clr(xi​)−clr(yi​))2​

这个距离以一种连贯且有意义的方式,测量了两个成分之间的“相对差异”。让我们回顾一下之前思想实验中的两个微生物组剖面:x=(0.5,0.2,0.2,0.1)\mathbf{x} = (0.5, 0.2, 0.2, 0.1)x=(0.5,0.2,0.2,0.1) 和 y=(0.4,0.3,0.2,0.1)\mathbf{y} = (0.4, 0.3, 0.2, 0.1)y=(0.4,0.3,0.2,0.1)。它们之间朴素的欧几里得距离仅为 0.1410.1410.141。然而,在对数比空间中计算的真实 Aitchison 距离约为 0.4540.4540.454——是前者的三倍多!。朴素的尺子严重低估了两个群落之间相对变化的真实程度,因为它忽视了样本 y\mathbf{y}y 中第 2 部分与第 1 部分的比率相比样本 x\mathbf{x}x 翻了一倍的事实。Aitchison 距离捕捉到了这一基本信息。

从肠道到合金:成分的统一性

最初只是一个统计学难题,如今已发展成为一种理解由部分构成的系统的通用语言。这不仅仅是微生物学家研究肠道菌群失调的工具。地质学家用它来分析岩石的元素组成。生态学家用它来研究森林的物种构成。经济学家用它来建模市场份额。

单纯形几何的原理甚至正在给材料科学带来革命。在​​高熵合金​​——由五种或更多元素以近乎相等的比例组成的复杂金属——的设计中,精确的成分平衡是创造具有非凡性能材料的关键。Aitchison 几何提供了正确的框架,用于测量不同合金成分之间的距离,并构建机器学习模型来预测它们的强度、耐腐蚀性或其他特性。

这种联系甚至更深,延伸到计算机科学和人工智能的核心。在​​在线优化​​中,从数据流中学习的算法必须在一个受约束的集合内做出决策。这些算法的性能从根本上取决于该集合的几何形状。为欧几里得球的开放空间设计的算法,与为单纯形的受约束空间设计的算法,其行为截然不同。理解这种几何结构对于设计高效的学习算法至关重要。

这就是一个深刻科学思想的美妙之处。帮助我们理解内部微生物世界平衡的相同原理,可以指导未来材料的创造和智能机器的设计。通过学习将世界看作相对部分的交响乐,而不是绝对数量的集合,我们对其错综复杂的结构获得了更深刻、更统一的理解。

应用与跨学科联系

我们花了一些时间探索单纯形这个奇特的世界,这是一个整体各部分总和必须为常数的几何空间。我们学习了它奇怪的加法和距离规则,这些规则不是基于绝对量,而是基于相对比率。乍一看,这似乎只是一个数学上的奇闻,是对我们日常直觉中熟悉的欧几里得空间的一次绕行。但如果我告诉你这根本不是绕行呢?如果这正是大量自然现象的母语呢?

一旦你开始寻找由部分构成的事物——由营养素构成的饮食、由物种构成的生态系统、由金属构成的合金、由支出构成的预算——你就会开始随处看到单纯形。我们揭示的原理不仅仅是抽象的规则;它们是解锁对世界更深刻理解的关键。现在,让我们踏上一段旅程,穿越一些看似毫不相干的领域,见证单纯形几何这一个优美的思想如何提供一条统一的线索。

生物学与医学领域的成分数据革命

这一几何视角的影响在生命科学领域最为深远。几十年来,生物学家和医学研究人员一直在收集关于系统“各部分”——基因、蛋白质、代谢物、细胞——的数据,这些数据通常以比例或百分比表示。然而,我们却常常像分析生活在平坦欧几里得世界中的数据一样分析它们,这个错误类似于用一张平面的世界地图来规划洲际航班。认识到数据在单纯形上的真正家园,引发了一场革命。

想想你肠道中熙熙攘攘的微生物大都市。你的微生物组是由数百种细菌组成的成分,其平衡与你的健康密切相关。假设我们想知道一种新饮食是否会影响微生物组。旧的方法可能会问:“乳酸杆菌的数量增加了吗?”但这是一个误导性的问题。乳酸杆菌的增加必然伴随着其他东西的减少。单纯形几何教我们问一个更好、更有意义的问题:“不同细菌群体之间的平衡改变了吗?”例如,我们现在可以精确地提出并检验一个关于纤维消化细菌与蛋白质消化细菌比率的假设,这个概念可以通过一个等距对数比(ILR)坐标优雅地捕捉到。这不仅仅是一种统计上的修正;这是我们科学提问方式的根本性转变,从“有多少?”转变为“相对于什么?”

这种新视角延伸到了我们如何比较个体。想象一位医生想知道你的微生物组剖面是更像健康人,还是更像患有某种特定疾病的人。一把简单的尺子——欧几里得距离——会测量百分比的绝对差异,这是一个有缺陷的度量标准。正确的工具是 Aitchison 距离,它测量的是两个成分内部对数比之间的“距离”。它告诉我们这两个微生物生态系统在结构上有多大不同。利用这个距离,我们可以将患者聚类到具有临床意义的群体中,也许可以识别疾病的亚型或预测治疗反应,所有这些都基于他们细胞构成的几何结构。

这个故事的高潮在于我们能够追踪复杂的因果路径。我们知道饮食影响我们的健康,但如何影响?大部分影响可能是通过肠道微生物组介导的。我们现在可以建立一个遵循因果链的统计模型:饮食变化(比如从高脂饮食转为低脂饮食)首先改变了微生物组的成分。这种成分的变化,通过使用对数比坐标恰当表示后,会引起宿主表型的变化,比如血液中某个关键代谢物的水平。通过在关键的中间步骤中尊重单纯形几何,我们可以厘清这些效应,并精确量化饮食的好处有多少来自其对我们微生物伙伴的影响。这使我们能够研究深层次的问题,例如饮食干预是否能产生“表型模仿”(phenocopy)——一种由环境诱导的、模仿已知遗传性状的特征。没有正确的几何工具,这种复杂程度的分析根本不可能实现。同样,在研究膳食脂肪的构成——饱和脂肪、单不饱和脂肪、多不饱和脂肪——如何影响炎症标志物时,对数比分析使我们能够正确解释我们的发现,不是将其视为添加一种脂肪的效果,而是视为用一种类型替代另一种类型的健康后果。

解码地球及更远:混合物的几何学

让我们将视线从我们体内的微观世界拉远,转向从上空俯瞰的世界。当一颗环绕地球的卫星拍摄森林或海岸线的照片时,其图像中的每个像素很少是单一的纯物质。地景上的一个像素是土壤、水、岩石和植被的混合物。从该像素反射的光谱是其组分纯光谱的组合,这些纯组分被称为“端元”(endmembers)。

在最简单的模型中,测得的光谱是位于一个高维单纯形内部的一个点,该单纯形的顶点是纯端元的未知光谱。“光谱解混”的任务是一个迷人的几何谜题:给定成千上万个数据点(像素)组成的点云,找到包含它们的单纯形的顶点!这就像给你一千种不同的油漆色板,然后必须推断出用来创造它们的原始颜色一样。像 N-FINDR 这样的算法通过寻找能形成最大可能体积单纯形的数据点集来解决这个问题,其基础是一个优美的思想:真正的端元必须构成所有其他混合物的容器。其他方法,如 SISAL,则采用不同方法,寻找能够包围整个数据云的最小可能单纯形。

当然,现实世界很少如此简单。当山坡被阴影笼罩时会发生什么?岩石和草的混合物是相同的,但反射的光线更暗。这种均匀的变暗充当了一个乘法缩放因子。在几何学上,这会产生戏剧性的效果:我们整齐、有界的单纯形被拉伸成一个以原点为顶点的无限、无界的锥体。这个锥体上任意一条射线上的所有点都对应于相同的物质成分,只是光照条件不同。理解这种几何变换是解决问题的关键。通过对每个像素的光谱进行归一化——例如,将其除以其总亮度——我们可以将每条射线上的所有点投影回平面上的一个单点。这种归一化操作将锥体坍缩回一个类似单纯形的对象,使我们的顶点查找算法能够再次工作。这是几何推理的一次胜利:通过理解我们的模型是如何被破坏的,我们找到了修复它的精确数学操作。

锻造未来:材料与机器中的单纯形

单纯形的影响延伸到了工程和技术领域,塑造着我们创造新材料和构建智能机器的方式。

在材料科学中,研究人员通过混合五种、六种甚至更多种金属元素,以近乎相等的比例来设计“高熵合金”。材料中任何一点的精确局部成分都是高维“吉布斯单纯形”上的一个点。当这种合金被加热时,原子会振动和扩散,局部成分随时间变化。这是一个动态过程——在单纯形表面上的流动。原子的总通量必须为零;原子不能凭空出现。这种物理约束意味着任何成分变化的“速度”都必须与单纯形相切。著名的用于多组分扩散的 Maxwell-Stefan 方程,从几何学的角度看,是一套关于在流形上受约束运动的定律。物理学家和工程师使用称为投影算子的数学工具,来确保他们对这个过程的模拟尊重几何结构,将动力学限制在单纯形内,就像火车被限制在轨道上一样。

最后,随着我们构建日益复杂的机器学习模型,我们面临着使其可理解的挑战。如果一个模型根据患者血细胞的成分来预测其风险,我们如何能信任它?像 SHAP(Shapley Additive Explanations)这样的方法旨在通过为每个输入特征分配一个重要性得分来解释预测。但将其天真地应用于成分数据可能会产生误导,因为它未能识别出总和为一的约束。如果一种细胞类型的百分比上升,其 SHAP 值可能会增加,但这忽略了其他细胞类型必须下降的事实。一个真正“成分化”的解释方法必须建立在对数比的逻辑之上。通过设计在数据的自然几何结构中运行的可解释性工具,我们可以确保我们的解释不仅是貌似合理的,而且是有原则的。我们可以教会我们的机器不仅看到数字,而且理解赋予它们意义的比率。

从我们身体内生命的平衡到遥远行星上矿物质的混合,从合金中原子的流动到人工智能的逻辑,单纯形的几何学是一个深刻而统一的原理。它揭示了我们世界中一个隐藏的结构层。通过学习它的语言,我们不仅找到了解决现有问题的更好方法,而且还使我们自己能够提出——并回答——我们以前不知道如何表述的问题。单纯形不是一个约束的牢笼,而是一块丰富的发现画布。