try ai
科普
编辑
分享
反馈
  • 非加权配对算术平均法 (UPGMA)

非加权配对算术平均法 (UPGMA)

SciencePedia玻尔百科
核心要点
  • UPGMA 是一种凝聚式聚类算法,它通过基于聚类之间的平均距离迭代地合并两个最近的聚类来构建系统发育树。
  • 该方法的基本假设是严格的分子钟,该假设认为突变在所有进化谱系中以恒定速率累积。
  • 由于依赖于恒定的进化速率,UPGMA 容易出现长枝吸引等错误,即错误地将进化迅速但亲缘关系较远的物种归为一类。
  • 除了系统发育学,UPGMA 还是一个多功能工具,用于生物信息学、数据科学甚至社会科学中,以对任何可以用距离矩阵表示的数据进行聚类。

引言

我们如何为所有生命创建一个家族树,或者在复杂数据中找到隐藏的模式?“相似性意味着关联性”这一基本思想是许多分类方法的基础,而非加权配对算术平均法 (UPGMA) 则是其最直接的应用之一。该算法解决了将一个令人困惑的距离矩阵——无论是物种间的遗传差异还是产品间的口味特征——转换为直观的层次树状结构的挑战。本文通过将 UPGMA 方法分解为其核心组成部分来揭开其神秘面纱。

首先,在“原理与机制”部分,我们将探讨该算法的分步逻辑,从在距离矩阵中找到最近的配对,到计算算术平均值以形成新的聚类。我们还将揭示其最关键和最具限制性的假设——分子钟,并检验违反此假设如何导致误导性结果。随后,“应用与跨学科联系”一章将展示 UPGMA 卓越的多功能性,从其在病毒系统发育学和生物信息学中的传统应用,到在聚类基因表达数据、消费品甚至网络迷因等意想不到的应用,展示其作为在混乱世界中寻找秩序的通用工具的力量。

原理与机制

我们如何为生命本身绘制一棵家族树?如果给你一份人类、黑猩猩、小鼠和鱼类之间的遗传差异列表,你会如何开始勾勒它们的进化关系?你可能会从一个最直观的想法开始:越相似的事物,亲缘关系越近。这个简单而强大的思想是构建进化树的一整类方法的核心,而非加权配对算术平均法 (UPGMA) 可能是其最直接的体现。

邻近的逻辑:一步一个脚印

想象一下,你是一位生物学家,发现了四个新物种,并编制了一个​​距离矩阵​​,显示了每对物种之间的遗传差异数量。这个矩阵就是我们的相似性地图。

物种 A物种 B物种 C物种 D
物种 A-182925
物种 B18-1422
物种 C2914-31
物种 D252231-

UPGMA 的运作逻辑非常简单,是分步进行的。它扫描整个矩阵并提出一个问题:“这里谁是最近的亲戚?” 它在整个表格中找到最小的数字。在这种情况下,最小的距离是 141414,位于物种 B 和物种 C 之间。因此,算法做出了第一个决定:B 和 C 是姐妹物种。它们是第一批被聚类在一起的。

这第一步是 UPGMA 过程中的基本操作。该算法是​​凝聚式​​的,意味着它通过逐步聚类(或“凝聚”)最接近的配对,自下而上地构建树。但是,当我们将 B 和 C 合并成一个可以称之为 (BC) 的新族群后,接下来会发生什么?我们如何测量物种 A 到这个新群组的距离?

“算术平均”的应用

这就是名称中“算术平均”部分的由来。为了计算外部物种(如 A)到我们新聚类 (BC) 的距离,UPGMA 只需取原始距离的平均值。A 到 (BC) 聚类的距离是 A 到 B 的距离和 A 到 C 的距离的平均值。

d((BC),A)=d(B,A)+d(C,A)2d((BC), A) = \frac{d(B, A) + d(C, A)}{2}d((BC),A)=2d(B,A)+d(C,A)​

这个逻辑使我们能够一步步地简化矩阵,直到只剩下一个群组。让我们通过一个涉及四种食肉植物的完整例子来看看这个过程。假设我们从这个距离矩阵开始:

ABCDA00.120.520.34B0.1200.540.36C0.520.5400.60D0.340.360.600\begin{array}{c|cccc} & A & B & C & D \\ \hline A & 0 & 0.12 & 0.52 & 0.34 \\ B & 0.12 & 0 & 0.54 & 0.36 \\ C & 0.52 & 0.54 & 0 & 0.60 \\ D & 0.34 & 0.36 & 0.60 & 0 \\ \end{array}ABCD​A00.120.520.34​B0.1200.540.36​C0.520.5400.60​D0.340.360.600​​
  1. ​​第一次合并:​​ 最小距离是 d(A,B)=0.12d(A,B) = 0.12d(A,B)=0.12。我们合并 A 和 B。连接它们的分支点,或称​​节点​​,被放置在对应于该距离一半的高度,即 0.12/2=0.060.12 / 2 = 0.060.12/2=0.06。这个高度代表估计的分化时间。

  2. ​​更新矩阵:​​ 我们现在有三个聚类:(AB)、C 和 D。我们计算新的平均距离:

    • d((AB),C)=d(A,C)+d(B,C)2=0.52+0.542=0.53d((AB), C) = \frac{d(A,C) + d(B,C)}{2} = \frac{0.52 + 0.54}{2} = 0.53d((AB),C)=2d(A,C)+d(B,C)​=20.52+0.54​=0.53
    • d((AB),D)=d(A,D)+d(B,D)2=0.34+0.362=0.35d((AB), D) = \frac{d(A,D) + d(B,D)}{2} = \frac{0.34 + 0.36}{2} = 0.35d((AB),D)=2d(A,D)+d(B,D)​=20.34+0.36​=0.35

    我们新的、更小的矩阵如下所示:

    (AB)CD(AB)00.530.35C0.5300.60D0.350.600\begin{array}{c|ccc} & (AB) & C & D \\ \hline (AB) & 0 & 0.53 & 0.35 \\ C & 0.53 & 0 & 0.60 \\ D & 0.35 & 0.60 & 0 \\ \end{array}(AB)CD​(AB)00.530.35​C0.5300.60​D0.350.600​​
  3. ​​第二次合并:​​ 现在最小的距离是 d((AB),D)=0.35d((AB), D) = 0.35d((AB),D)=0.35。因此,我们将 (AB) 聚类与 D 合并。连接 ((AB),D) 的新节点被放置在 0.35/2=0.1750.35 / 2 = 0.1750.35/2=0.175 的高度。

  4. ​​最终合并:​​ 我们只剩下两个聚类,((AB),D) 和 C,它们被合并形成树的根。

通过这种寻找最小距离和求平均值的迭代过程,我们构建了一棵完整的、有根的进化树。这个过程突显了 UPGMA 的一个关键特征:通过将 DNA 序列中所有细微的差异总结成一个单一的距离值,它虽然丢失了一些信息,但获得了计算上的简便性。差异在哪里不再重要,重要的是总共有多少差异。这与​​基于特征的方法​​(如最大简约法或最大似然法)有着根本的区别,后者将 DNA 序列数据的每一列作为独立的证据进行分析。

你可能会对 UPGMA 中的“非加权”感到好奇。这似乎有违直觉,因为在更新距离矩阵时,该算法确实会根据每个聚类的大小(即其中包含的物种数量)对其进行加权。例如,如果我们将一个包含两个物种的聚类 iii 与一个包含一个物种的聚类 jjj 合并,那么新聚类到外部聚类 kkk 的距离是通过加权平均计算的:d((ij),k)=(2d(i,k)+d(j,k))/3d((ij), k) = (2d(i, k) + d(j, k))/3d((ij),k)=(2d(i,k)+d(j,k))/3。这个名称实际上是为了将 UPGMA 与其“表亲” WPGMA(加权配对法)区分开来,后者在更新距离时使用简单的非加权平均 d((ij),k)=(d(i,k)+d(j,k))/2d((ij), k) = (d(i, k) + d(j, k))/2d((ij),k)=(d(i,k)+d(j,k))/2,而不考虑聚类 iii 和 jjj 中有多少物种。UPGMA 中的“非加权”指的是最终的输出:它生成的树中,每个物种都被赋予相同的权重,意味着所有的叶尖到根的距离都相等。这个微妙之处将我们引向了隐藏在该算法简单逻辑中最深刻、也最危险的假设。

隐藏的假设:完美的分子钟

为什么 UPGMA 坚持其树的所有叶尖都完美对齐?这是因为它隐含地对进化如何运作做出了一个非常具体的假设:它假设存在一个​​严格的分子钟​​。分子钟假说指出,基因中的突变会随着时间的推移以大致恒定的速率累积。如果这是真的,那么两个物种之间的遗传距离就与它们自最后一个共同祖先以来的时间成正比。

想象两个朋友,Alice 和 Bob,从同一点出发,以完全相同的速度背向而行。在任何时刻,他们之间的距离就是他们行走时间的二倍乘以他们的速度。现在想象第三个朋友,Carol,她与 Alice 的路径分离得更晚一些。他们三人之间的距离——d(A,B)d(A,B)d(A,B)、d(A,C)d(A,C)d(A,C) 和 d(B,C)d(B,C)d(B,C)——将具有一个特殊的性质。两个最大的距离必须相等(在这种情况下,d(A,B)=d(B,C)d(A,B) = d(B,C)d(A,B)=d(B,C))。这是因为 Alice 和 Carol 与 Bob 的共同祖先的距离是相等的。这个性质是数学家所称的​​超度量​​空间的标志。

UPGMA 就是为处理完全超度量的数据而设计的。它构建一棵​​超度量树​​,其中枝长代表时间,所有叶尖(现存物种)都处于相同的时间水平(现在)。该算法总是选择最小距离的简单、贪婪方法,当且仅当潜在的进化过程表现得像一个完美的时钟时,才能完美运作。符合完美时钟的数据被称为​​超度量​​数据,而仅仅适合任何树(无论是否像时钟)的数据被称为​​可加​​数据。UPGMA 要求数据具有超度量性。

当时钟失灵时:长枝吸引的危险

但如果时钟坏了怎么办?如果一些谱系的进化速度比其他谱系快得多怎么办?这就像我们的一个朋友决定冲刺,而其他人则在散步。处于“快速”谱系上的物种将在相同时间内比其进化缓慢的亲属积累更多的突变。这会在真实的进化树上产生“长枝”。

在这里,UPGMA 的简单逻辑可能会产生危险的误导。该算法只看到最终的距离矩阵;它对不同的进化速率一无所知。它可能会看到两个实际上亲缘关系很远的物种,但它们都进化得非常快,从而错误地断定它们是亲缘关系很近的一对,因为大量累积的突变使得它们的遗传距离与其他配对相比显得具有欺骗性的小。这种臭名昭著的人为现象被称为​​长枝吸引​​。

考虑一个真实的树是 (((A,B),(C,D)),E) 的情况。但假设谱系 E 进化得非常快。距离可能看起来像这样:

ABCDE
​​A​​08242420
​​B​​80242420
  1. UPGMA 首先正确地连接 A 和 B,因为 d(A,B)=8d(A,B)=8d(A,B)=8 是最小值。
  2. 然后它计算从新的 (AB) 聚类到所有其他聚类的平均距离。到 E 的距离是 d((AB),E)=(20+20)/2=20d((AB),E) = (20+20)/2 = 20d((AB),E)=(20+20)/2=20。到 C 或 D 的距离是 242424。
  3. 算法现在扫描可用的距离:d((AB),E)=20d((AB),E)=20d((AB),E)=20,d(C,D)=24d(C,D)=24d(C,D)=24 等。最小的是 202020。因此,UPGMA 的下一步是将 E 与 (AB) 聚类合并。

结果得到的树是 (((A,B),E),(C,D));,这是不正确的!算法被到长枝 E 的“短”距离所诱惑,错误地将其与 A 和 B 分组在一起,破坏了真正的 (C,D) 进化枝。更复杂的方法,如最大似然法,可以对不同分支上的不同速率进行建模,很可能已经避免了这个陷阱。

事实上,我们可以巧妙地设计一个距离矩阵,故意欺骗 UPGMA。我们可以设置一个场景,通过操纵平均值来创造一个诱人的小但不正确的聚类间距离,使得 UPGMA 在合并一个分类单元与其明显的最近邻居之前,先合并两个远亲的群组。这表明 UPGMA 的“贪婪”局部决策可能对树的全局真实结构视而不见。

因此,UPGMA 是一个优美而简单的工具,但必须非常谨慎地使用。它为我们提供了一个窥探系统发育重建世界的绝佳视角,将一个数字表格转化为一幅历史图景。但它的优雅是以一个强大且往往不切实际的假设为代价的。当进化的分子钟走得不均匀时,UPGMA 可能会误导我们。这就是为什么科学家们开发了更广泛的工具包,包括像​​邻接法 (NJ)​​ 这样的方法,它放宽了严格的时钟假设,可以处理任何可加数据,以及分析原始数据全部丰富性的基于特征的方法。理解 UPGMA 不仅仅是学习一种算法;它是学习一个基本原则,即每个模型、每种方法都有一个核心假设,而科学家的首要职责就是去探究这个假设对于他们试图理解的世界是否成立。

应用与跨学科联系

在理解了非加权配对算术平均法 (UPGMA) 简单而优雅的流程之后,我们可能会想把它当作一个精巧的数学技巧束之高阁。但这样做就只见树木,不见森林了。UPGMA 的真正魅力不在于其机械的步骤,而在于其惊人的多功能性。它是一个在混乱世界中寻找秩序的通用镜头,一个为从病毒到思想等万物绘制家族树的工具。现在,让我们开启一段旅程,从 UPGMA 的故乡生物学出发,探索意想不到的领域,见证这个简单算法的力量。

生命之树:系统发育学及其他

UPGMA 源于重建生命历史的渴望。想象一下,你是一位追踪流行病的生物学家。你在不同时间点收集了病毒样本并对其基因组进行了测序。这些基因组是由'A'、'C'、'G'和'T'组成的长字符串。这些不同的病毒株之间有何关联?哪些是“表亲”,哪些是远古的祖先?UPGMA 提供了一种直接的方法。我们可以将任意两个病毒基因组之间的“距离”定义为它们序列上差异位置的数量——即所谓的汉明距离。这是一个非常简单的进化时间代理指标。差异很少的两个序列可能共享一个近期的共同祖先,而差异很多的序列则在很久以前就分化了。通过将这个距离矩阵输入 UPGMA 机器,我们得到了一个树状图,这是一个表示病毒合理进化历史(或系统发育)的分支图。树中的每个分叉代表一个分化事件,而枝长告诉我们它可能发生的时间。这种方法使我们能够可视化病毒的传播和突变,将原始序列数据转化为一个进化叙事。

但自然是巧妙且常常是混乱的。UPGMA 的优雅建立在一个关键而脆弱的假设上:“分子钟”。它假设进化变化在所有谱系中以恒定速率累积。如果这不是真的呢?想象一下,我们正在比较不同物种的一组基因。在我们不知情的情况下,某个物种中我们测序的基因并非其他物种中基因的直系后代(直系同源基因),而是一个为新功能进化而来的重复拷贝(旁系同源基因)。这个旁系同源基因可能以快得多的速率进化。这个“快时钟”基因会显得比它应有的距离其所有亲属远得多。当 UPGMA 遇到这种情况时,它会感到困惑。与这个物种相关的大距离使其看起来像一个古老的、早期分支的谱系,从而错误地将其放置在树的根部附近。这种现象是“长枝吸引”的一种形式,突显了一个根本性的局限。UPGMA 是一个强大的工具,但像任何工具一样,使用时必须清楚其基本假设。

尽管如此,UPGMA 的简单性和速度使其成为生物信息学中一个宝贵的“主力”。当科学家们想要比对数百个蛋白质或 DNA 序列——一项称为多重序列比对的任务时——他们面临一个计算上的“鸡生蛋还是蛋生鸡”的问题。要获得最佳比对,你需要知道进化树,但要构建树,你需要一个好的比对。渐进式比对算法,如著名的 Clustal 家族,通过首先创建一个粗略的“指导树”来解决这个问题。它们使用什么算法呢?通常就是 UPGMA。这个指导树并非一个正式、准确的系统发育声明。它是一个快速粗略的启发式方法,一个决定比对顺序的脚手架:从比对最近的配对开始,然后将这些比对彼此对齐,依此类推。在这里,UPGMA 不是最终答案,而是通往更宏大生物学见解之路上不可或缺的第一步。

从基因到“组学”:聚类数据洪流

21 世纪的生物学革命是一场数据的革命。我们已经从测序单个基因发展到同时测量所有基因的活性——即“转录组学”领域。这为我们提供了细胞状态的快照,通常表示为一个巨大的矩阵,其中行是基因,列是不同的样本(例如,来自健康患者与癌症患者的组织)。一个常见的问题是:哪些样本的基因活性最相似?我们能否根据患者的基因表达谱将其分组为不同的亚型?

这是 UPGMA 的理想工作,但它让我们从系统发育学领域迈出一步,进入了数据科学的范畴。在这里,我们聚类的“对象”不是物种,而是样本,“距离”不是进化时间,而是基因表达模式相似性的度量,通常是简单的欧几里得距离。然而,在计算距离之前,我们必须处理数据本身的性质。一些基因的表达水平可能在数千,而另一些则徘徊在零附近。如果我们使用原始数据,高表达的基因将主导距离的计算。为防止这种情况,我们必须首先对数据进行归一化,例如,通过缩放每个基因在所有样本中的表达,使其均值为零,标准差为一(z-score 归一化)。这确保了每个基因在聚类过程中都有平等的“投票权”。通过将 UPGMA 应用于这些归一化的配置文件,我们可以构建树状图,揭示数据中的隐藏结构,将患者分组到可能对治疗反应不同的聚类中,从而为个性化医疗铺平道路。

寻找家族的通用秘诀

进入基因表达数据的旅程揭示了一个深刻的真理:UPGMA 的逻辑根本不局限于生物学。它是一种通用的层次聚类算法。为了看到这一点,让我们完全剥离生物学的背景。想象一下对不同品牌的瓶装水进行聚类。我们可以测量它们的矿物质概况——钙、镁、钠等的浓度——并将每个品牌表示为这些值的向量。这些向量之间的欧几里得距离为我们提供了一个相异性度量,UPGMA 会很乐意对它们进行聚类,揭示出你可能不知道存在的矿泉水“家族”。或者,考虑对国际美食进行聚类。我们可以将意大利、泰国和墨西哥菜肴表示为标志性成分频率的向量(例如,番茄、罗勒、辣椒、青柠的频率)。UPGMA 可以利用这些向量生成一个“风味家族树”。

该方法的威力因其模块化而进一步增强。我们不局限于欧几里得距离。考虑电子商务世界。像 Amazon 或 Netflix 这样的公司希望了解他们的客户。谁是“动作片爱好者”?谁是“家居装修爱好者”?我们可以用每个客户购买过的商品或看过的电影的集合来表示他们。在这里,欧几里得距离没有意义。相反,我们可以使用为集合设计的度量,例如 Jaccard 距离,它根据两个集合之间的重叠来衡量相异性。低的 Jaccard 距离意味着两个客户的品味非常相似。将 Jaccard 距离矩阵输入 UPGMA,可以让公司发现客户原型并对其用户群进行细分,从而实现定向营销和个性化推荐。

这种普适性延伸到了人文学科和社会科学。我们如何在政治话语中找到模式?我们可以分析一系列演讲,将每一篇演讲表示为一个特定情感词汇的词频向量。在对向量进行归一化之后,UPGMA 可以对演讲进行聚类,可能揭示出意识形态分组或言辞随时间的变化。我们可以将同样的逻辑应用于艺术。一位影评人可以使用一系列量化指标——平均镜头长度、调色板饱和度、摄像机移动频率——来描述不同电影导演的风格,并将其表示为向量。然后 UPGMA 可以生成一个树状图,显示哪些导演拥有最相似的电影“指纹”。

迷因的系统发育:数字时代的进化

也许 UPGMA 最有趣和最现代的应用让我们回到了原点。考虑一下网络迷因的演变。一个迷因,比如“Drakeposting”格式,是人们复制和修改的模板。它的行为很像一个基因:它会复制(被分享),也会突变(文字或图像被改变)。我们可以直接使用系统发育学的工具来模拟这个过程。

想象一下,我们收集一个迷因的许多变体。我们可以将每一个变体表示为一个字符或特征序列。两个迷因之间的“距离”可以是它们的汉明距离——从一个变到另一个所需的变化次数。通过应用 UPGMA,我们可以构建该迷因的“系统发育”,追溯其谱系至共同祖先,并描绘出不同子格式如何分支出来。这不仅仅是一个异想天开的练习;它是一种数字人类学,一种量化和可视化文化本身传播与演变的方式。

从生命之树到迷因之树,UPGMA 的旅程向我们展示了一个简单思想的统一力量。它提醒我们,分化与继承的模式,家族与谱系的模式,并不仅限于生物学。它们是我们世界的一个基本特征,借助一个巧妙的算法,我们可以学会在任何地方看到它们。