首页UPGMA (非加权配对算术平均法)

UPGMA (非加权配对算术平均法)

玻尔百科

定义

UPGMA (非加权配对算术平均法) 是一种简单的层次聚类算法，通过迭代合并距离矩阵中最相似的配对来构建系统发育树。该方法的核心假设是严格的分子钟模型，即所有谱系的进化速率保持恒定，从而生成超度量树。除了在系统发育学中的应用，它也是一种通用的聚类工具，可用于基因表达谱或化学性质等任何可定义距离的数据分析。

核心要点

UPGMA 是一种简单的层次聚类算法，它通过从距离矩阵中迭代合并最相似的配对来构建系统发育树。
该方法的核心假说是严格分子钟，即所有谱系均以恒定速率进化，从而产生一棵超度量树。
当分子钟假说被违背时，UPGMA 容易出现长枝吸引等错误，即快速进化的谱系被错误地组合在一起。
除了系统发育学，UPGMA 还是一个多功能的聚类工具，可用于对任何可以定义距离的数据进行聚类，从基因表达谱到化学性质均可适用。

引言

探索生命历史的征程通常始于一个看似简单的问题：不同物种之间是如何相互关联的？随着 DNA 测序技术的出现，科学家们得以接触到一个庞大的、数字化的进化历史文库。然而，这海量的数据也带来了其自身的挑战：我们如何将原始的遗传差异转化为一棵清晰的家族树，即系统发育树？非加权配对算术平均法 (UPGMA) 是对这个问题最基本、最直观的解答之一。它提供了一种简单明了的、分步式的方法，根据生物体间的总体相似性对其进行聚类，为进入计算系统发育学领域提供了一个易于理解的切入点。

本文深入探讨 UPGMA 算法，从其理论基础到实际应用进行全面探索。第一章“原理与机制”将剖析算法本身。我们将逐步介绍从距离矩阵构建树的过程，揭示支配其逻辑的关键隐藏假说——“分子钟”，并探究在何种条件下这种简单方法会受到著名的、系统性的误导。随后，在“应用与跨学科联系”中，我们将拓宽视野，了解 UPGMA 在现实世界中的应用。从重建蛋白质和免疫细胞的进化路径，到在生物信息学中充当实用的主力工具，再到在化学和食品科学等不同领域作为通用聚类工具，我们将领会该算法的持久效用以及从其局限性中学到的重要教训。

原理与机制

想象一下，你是一位发现了数个相关新物种的探险家。你已经对它们的 DNA 进行了测序，现在手头有一堆数据。你的基本目标是绘制它们的家族树。你该如何开始呢？最直观的起点是衡量它们彼此之间的差异程度。如果两个物种的 DNA 非常相似，它们可能就是近亲；如果它们的 DNA 差异巨大，那么它们最后的共同祖先生活在非常久远的过去。这个简单的想法是基于距离的系统发育方法的核心。

从差异到图表：聚类的逻辑

第一步是将所有复杂的遗传信息提炼成一个简单、易于管理的格式：距离矩阵。你可以把它想象成城市间的里程表，但这里的数字代表的不是英里，而是遗传距离——也许是某个特定基因中的核苷酸差异数。

例如，如果我们有四个物种——A、B、C 和 D——我们的矩阵可能如下所示：

	A	B	C	D
A	-	18	29	25
B	18	-	14	22
C	29	14	-	31
D	25	22	31	-

这张表一目了然地告诉我们，物种 B 和 C 最相似（距离为 14），而 C 和 D 最不相似（距离为 31）。现在问题变成了一个有趣的谜题：我们如何将这个成对距离表转换成一个代表其进化历史的分支树？这就是算法发挥作用的地方。它们为这种转换提供了精确的步骤。关键是要理解，不同的步骤——不同的算法——基于对进化运作方式的不同假说。UPGMA 是这些方法中最简单、最具历史重要性的方法之一。

同样重要的是要认识到，将所有信息压缩成一个单一距离值的初始步骤是一种深度的简化。我们暂时搁置了 DNA 中哪些突变发生在哪个位点的具体细节。像最大简约法或最大似然法这类被称为基于字符的方法则不这样做；它们逐列分析原始序列比对，将每个位点视为独立的证据片段。相比之下，UPGMA 采用鸟瞰视角，仅处理总差异的摘要信息。

一个简单的配方：UPGMA 算法实战

非加权配对算术平均法 (UPGMA) 就是我们所说的层次聚类算法。这个名字很拗口，但过程却异常简单。这是一个迭代的过程，从树的末端向内构建。让我们来逐步了解一下。

找到最近的配对： 扫描整个距离矩阵，找到彼此间距离最小的两个物种。这对物种是我们第一个、也是最近的一个分支事件。在我们上面的示例矩阵中，最小的数字是 14，连接了物种 B 和 C。
合并与求平均值： 我们现在将这对物种 (B,C) 视为一个新的单一聚类。我们画一个小分支连接 B 和 C。它们相连的点，即它们最近的共同祖先，被放置在等于其距离一半的“高度”上。因此，(B,C) 的节点高度为 $14/2 = 7$ 。现在，我们需要更新我们的距离矩阵。这个新聚类离 A 有多远？离 D 又有多远？UPGMA 名称中的“算术平均”部分给出了答案：我们只需取平均值。我们的新聚类 (B,C) 到 A 的距离就是 B 到 A 的距离和 C 到 A 的距离的平均值： $d((B,C), A) = \frac{d(B,A) + d(C,A)}{2}$ 。名称中的“非加权”部分意味着，当我们计算这个平均值时，聚类中每个原始物种的权重都是相等的。
重复直至完成： 现在我们有了一个新的、更小的距离矩阵，其中聚类 (B,C) 作为一个单一实体。我们只需重复这个过程：在新矩阵中找到最小的距离，合并这对物种，计算其节点高度，然后再次求距离的平均值。我们不断重复这个合并和求平均的循环，直到所有物种都在一个根节点下被统一起来。

最终的结果是一棵完整的、有根的树，其中每个节点都有一个特定的高度，代表该分歧事件发生的时间。这种所有末端到根的距离都相等的树被称为超度量树。

机器中的幽灵：UPGMA 的分子钟

UPGMA 的构建方法优雅而直接。但任何优秀的科学家都知道，当一个过程看起来过于简单时，背后往往隐藏着一个强大的假说。我们以这种方式构建一棵树时，到底是在假定什么呢？

关键在于它产生的树所具有的超度量性质。所有末端到根的距离都相等并非偶然，而是该算法结构的直接结果。这意味着遗传变化的量与时间完全成正比。换句话说，UPGMA 从根本上假定了一个严格的分子钟：即在树的所有谱系中，突变都以恒定的速率累积。如果两个物种在 1000 万年前发生分歧，它们之间的遗传距离应该恰好是与它们共同祖先在 2000 万年前分歧的第三个物种之间距离的一半。

在数学上，这个假说意味着距离矩阵必须是超度量的。一个简单的测试方法是三点条件：对于任意三个物种 $i, j, k$ ，三个距离 $d(i,j)$ 、 $d(j,k)$ 和 $d(i,k)$ 中最大的两个必须相等。这是一个非常严格的条件，真实的生物数据很少能完美满足。

当时钟走快时：长枝吸引的陷阱

那么，当这个假说被违背时会发生什么呢？如果进化时钟在某些谱系中比其他谱系走得更快怎么办？这不仅仅是一个假设性的担忧，而是进化中普遍存在的现实。一个物种可能会适应新环境，经历种群瓶颈，或者拥有效率较低的 DNA 修复机制，所有这些都可能加速其突变速率。

考虑一个简单的例子，有三个物种，其真实关系是 ((A,B),C)。这意味着 A 和 B 是彼此最亲近的亲属。现在，想象一下，在与 A 分开后，通往 B 的谱系经历了突变率加倍的情况。就累积的突变而言，通往 B 的分支实际上变得“更长”了。

让我们来追踪其后果。距离 $d(A,B)$ 会增加。但距离 $d(B,C)$ 也会增加。由于 B 积累了如此多的独特突变，它最终可能看起来与它的真正姐妹 A 差异巨大，以至于现在它似乎与更远的外群 C “更近”。在一个计算示例中，B 分支上速率的增加可以改变距离，使得 $d(A,C)$ 成为矩阵中的最小值。UPGMA 盲目地遵循其“找到最近配对”的规则，会错误地首先将 A 和 C 分组，从而完全歪曲了真实的进化历史。

这种现象是一种臭名昭著的系统发育伪迹，称为长枝吸引。快速进化的谱系（“长枝”）可以积累如此多的变化，以至于纯粹出于偶然，它们最终会共享一些性状状态，看起来像是相关的。像 UPGMA 这样的简单方法特别容易陷入这个陷阱，因为它们完全由总体相似性引导，而两个长枝可能看起来具有欺骗性的相似。UPGMA 会看到长枝之间的微小距离，并自信但错误地将它们组合在一起。

更智能的分组：从 UPGMA 到可加树

如果严格的分子钟常常只是一种幻觉，那么基于距离的方法是否就注定失败了呢？完全不是。我们只需要一种更复杂的方法。即使进化速率在整棵树上各不相同，数据仍可能拥有一种优美而有用的特性，称为可加性。如果存在一棵树（不一定是超度量树），其中任意两个末端之间的距离恰好是它们之间路径上各分支长度的总和，那么这个距离矩阵就是可加的。

这是一个比超度量性限制更少的条件。我们可以使用四点条件来检验它：对于任意四个物种 $i, j, k, l$ ，三组成对距离之和—— $d(i,j)+d(k,l)$ 、 $d(i,k)+d(j,l)$ 和 $d(i,l)+d(j,k)$ ——中最大的两个必须相等。

这就是像邻接法 (NJ) 这样的算法发挥作用的地方。与 UPGMA 不同，NJ 不是为超度量数据设计的，而是为可加数据设计的。它的选择标准比仅仅找到最小距离要复杂。它试图找到成对的“邻居”，当它们连接在一起时，即使速率不相等，也能使树的总长度最小化。

让我们考虑一个场景：距离矩阵是完全可加的但不是超度量的，这正是由可变进化速率产生的那种数据。如果我们将 UPGMA 应用于这些数据，其基于时钟的贪婪假说将导致它犯错，将错误的物种分组，最终得到的树与原始距离拟合得很差。然而，如果我们应用邻接法，其更稳健的算法将正确识别出真正的邻居，重建正确的树拓扑，并找到与可加距离完美匹配的分支长度。

从 UPGMA 到 NJ 的历程给我们上了一堂深刻的课。UPGMA 的简单性既是它的魅力，也是它的弱点。它为系统发育学提供了一个清晰直观的入门点，但其关于进化步伐的僵化假说使其变得脆弱。通过理解其局限性，我们被迫更深入地思考进化变化的本质，并开发出更智能的算法，以处理非恒定分子钟这个美丽而混乱的现实。

应用与跨学科联系

在前面的讨论中，我们探讨了 UPGMA 算法的内部工作原理。我们看到，它是一个优雅的、分步式的程序，能将一张成对“不相似性”的表格——距离矩阵——转换成一棵整洁的、层次分明的家族树。该方法的魅力在于其简单性。它遵循一个单一、直观的规则：在每一步都连接两个最接近的亲属。这个简单的原则在反复应用后，便能构建出一个完整的谱系。现在，我们提出一个更深刻的问题：这有什么用？这个抽象的配方在现实世界中如何发挥作用？正如我们将看到的，答案是：无处不在。从破译宏大的生命历史到整理现代世界的混乱数据，UPGMA 都是发现隐藏结构的基本工具。

伟大的生命之树：分子系统发育学

UPGMA 最经典、最富浪漫色彩的应用或许就是重建生命的进化历史。几个世纪以来，生物学家根据骨骼的形状、翅膀的图案和花朵的结构来绘制家族树。基因组革命为我们提供了一部新的、更强大的圣经：DNA 和蛋白质的序列。如果我们能假定进化变化以大致稳定的速度发生——这个想法我们称之为分子钟——那么两个序列之间的差异数量应与它们从共同祖先分歧以来的时间成正比。

这正是 UPGMA 大放异彩的地方。它是分子钟假说的完美算法体现。通过将不同的氨基酸或 DNA 碱基的数量作为距离的度量，我们可以为一组相关的蛋白质或基因生成一个距离矩阵。然后，UPGMA 接收这个矩阵，并在恒定变化率的假设下，将其直接转换成一棵分支长度代表进化时间的树。

这个方法可以用来追溯关键蛋白质家族的祖先，例如调控我们从肌肉收缩到神经元放电等一切活动的钙结合蛋白。通过比较钙调蛋白和肌钙蛋白等蛋白质的序列，UPGMA 可以重建它们的共同历史，揭示一个从古老祖先分子经过复制和分歧的故事。

但进化并不仅仅是跨越数百万年的史诗。它在我们自己身体内部以快进的方式发生着。思考一下免疫系统对抗新入侵者的卓越能力。在一个称为亲和力成熟的过程中，B 细胞疯狂地突变其抗体基因，只有那些能产生更好结合力抗体的细胞才被选择存活下来。这是微观世界中的进化。通过对 B 细胞群体的抗体基因进行测序，免疫学家可以使用 UPGMA 构建一个谱系树，追溯从一个初始的、弱结合的抗体到一个高效抗体的确切突变步骤。这就像实时观看进化展开一样，而这一切都归功于一个简单的聚类算法。

生物信息学家的实用工具

虽然重建历史是一个崇高的目标，但科学家通常是需要工具来解决眼前问题的实用主义者。生物信息学中最常见的任务之一是创建多序列比对 (MSA)，这涉及到排列许多 DNA 或蛋白质序列以识别相似区域。同时比对成千上万条序列是一项计算上极其艰巨的任务。

这时，渐进式比对这一巧妙的启发式方法就派上了用场。它不是一次性解决整个难题，而是一步步地构建比对。但按什么顺序呢？UPGMA 提供了蓝图。通过快速计算所有序列之间的成对距离，我们可以构建一棵“指导树”。这棵树并非意在成为完美的进化历史，它只是一个粗略的草图，一份给比对软件的实用说明书。指导树说：“先比对这两条最相似的序列。现在，将该比对视为一个整体，并将其与下一个最接近的序列进行比对”，依此类推。其逻辑非常简单：先做好简单的比对，然后用它们来约束更难的比对。

更重要的是，这个过程是奇妙的模块化。UPGMA 聚类引擎不关心距离是如何计算的。虽然距离可以来自缓慢、仔细的成对序列比对，但它们也可以来自闪电般的“无比对”方法。例如，人们可以简单地计算短序列片段（ $k$ -mers）的频率，并计算这些频率分布之间的距离。输出仍然是一个距离矩阵，UPGMA 同样会乐于将其变成一棵指导树。这种灵活性使 UPGMA 成为现代生物学支柱——高通量计算流程中的一个重要组成部分。

当时钟失灵时：理解算法的局限

到目前为止，我们为 UPGMA 描绘了一幅美好的图景。它对分子钟假说的依赖使其简单而优雅。但当这个假说错误时会发生什么呢？事实证明，大自然并非总是如此循规蹈矩。一些谱系以快速爆发的方式进化，而另一些则以稳健的步伐前进。这导致了生命之树上真实的分支长度不均等。

在这种情况下，UPGMA 会被一种称为长枝吸引 (LBA) 的伪迹系统性地误导。想象一下两个物种虽然亲缘关系不近，但都经历了快速进化。它们在进化树上的长枝代表了大量累积的突变。纯粹出于偶然，这些众多的、独立的改变中有些可能最终变得相同，从而产生一种虚假的相似性信号（同源异形）。UPGMA 只看到原始的距离，可能会错误地将这两个长枝组合在一起，推断出一种不存在的近亲关系。

这是科学中一堂深刻的课。一个简单的模型是优美的，但我们必须了解它的“断点”。UPGMA 在这些条件下的失败促使了更复杂算法的开发。例如，邻接法 (NJ) 并不假定分子钟。它使用一个巧妙的标准，旨在寻找不仅彼此接近，而且共同远离所有其他分类单元的分类单元对。这有助于它抵抗长枝吸引的诱惑，并即使在进化速率变化剧烈时也能正确重建系统发育树。比较 UPGMA 和 NJ 并不是要宣布一个“好”一个“坏”，而是要理解我们必须根据对潜在生物学现实的理解来选择合适的工具。

超越基因组：一种通用的聚类工具

当我们意识到 UPGMA 其实根本不局限于生物学时，它的真正力量就显现出来了。它是一种用于层次聚类的通用算法。只要你能为任意两件事物定义一个有意义的距离，你就可以使用 UPGMA 来构建一棵组织它们的树。

这个想法开启了一个充满可能性的宇宙。

在系统生物学中，我们可能有成千上万个基因在不同时间点的表达数据。通过基于它们表达谱的差异性来定义一个“距离”，我们可以使用 UPGMA 对它们进行聚类。一个紧密的基因簇，它们的表达水平同步升降，很可能意味着它们属于同一个调控网络，对相同的信号做出反应。
我们可以涉足化学领域，根据元素的物理性质（如原子半径和电负性）计算出的距离来对元素进行聚类。由此产生的树会与元素周期表相似吗？
我们甚至可以玩得更有趣一点，分析世界各地美食的配料表。通过基于共享配料定义距离，UPGMA 可以生成一棵“食物的系统发育树”，或许能揭示不同烹饪传统之间意想不到的历史联系。或者，我们可以根据瓶装水的矿物质含量谱对其品牌进行分类。

在所有这些案例中，算法都是相同的。它是一种通用的数据探索工具，接收一个不相似性矩阵，揭示潜在的层次结构，为人类的洞察和假说生成提供一个起点。

我们有多确定？置信度的问题

最后，构建一棵树会引出一个至关重要的问题：我们应该在多大程度上相信它？如果我们收集了略有不同的数据，我们还会得到同一棵树吗？这是一个统计置信度的问题。在系统发育学中，评估这一点最常用的方法是一种称为自举法 (bootstrapping) 的技术。

这个想法很直观。想象一下你的数据（例如，序列比对的列，或配料清单）是袋子里的弹珠。为了创建一个“自举重复样本”，你通过从袋子中有放回地抽取弹珠来创建一个同样大小的新数据集。因为你每次抽取后都把弹珠放回去，所以一些原始数据点会被选择多次，而一些则根本不会被选中。然后，你从这个新的、略有扰动的数据集构建一棵 UPGMA 树。你将整个过程重复数百或数千次。

你原始树中某个特定分组（一个分支）的自举支持率就是这个分组在所有自举树中出现的百分比。如果一个分支的自举值为 95，这意味着即使在数据被随机重采样时，该分组仍然在 95% 的情况下保持不变。这并不意味着该分支“有 95% 的可能性是正确的”，但它确实告诉我们，我们数据中支持该分组的信号是强大而稳健的。这是我们向数据提问“你确定吗？”并得到一个有原则的、定量的答案的方式。

从其作为一个简单聚类规则的卑微起源，我们看到了 UPGMA 作为历史学家、主力工具、警示故事、通用组织者和假说生成器的多重角色，并且我们可以严格检验其主张。它的故事完美地诠释了科学过程本身：开发简单的模型来解释世界，发现它们的局限性，并在此过程中创造出更丰富、更细致的理解。