首页层次聚类中的链接方法

层次聚类中的链接方法

玻尔百科

定义

层次聚类中的链接方法是指在层次聚类过程中用于确定簇间距离的一系列技术，其直接决定了所生成聚类的形态与特征。通过调整兰斯-威廉姆斯递归公式中的关键参数，可以将单链接、全链接、平均链接和 Ward 方法等整合进统一的数学框架。尽管这些方法容易受到维数灾难的影响，但它们在癌症亚型分析和金融投资组合构建等领域发挥着重要作用。

核心要点

链接方法的选择（如单链接、完全链接、平均链接或 Ward 链接）从根本上决定了层次聚类中簇的形状和性质。
Lance-Williams 递推公式提供了一个统一的数学框架，只需调整几个关键参数即可描述各种链接方法。
链接方法对“维度灾难”高度敏感，在高维空间中，基于距离的比较可能变得毫无意义。
链接方法的实际应用遍及各个领域，包括购物篮分析、癌症亚型分型和金融投资组合构建，通过揭示隐藏的结构发挥作用。

引言

层次聚类是一种强大的技术，通过将数据点逐步分组到一个嵌套的簇树中来发现数据中的结构。然而，这种方法的成功与否及其结果的解释，都取决于一个单一而关键的决策：如何衡量簇之间的距离。这个看似简单的选择，即链接方法，是该算法的引擎，它塑造了最终的结构，并决定了揭示何种模式。本文旨在揭开链接方法世界的神秘面纱，以应对为特定问题选择正确方法所面临的挑战。首先，在“原理与机制”部分，我们将剖析单链接、完全链接和 Ward 链接等关键方法背后的理念，揭示它们的行为以及统一这些方法的优美数学原理。随后，“应用与跨学科联系”部分将展示这些方法如何应用于解决生物学、金融学到城市规划等领域的现实问题，为这一重要的数据分析工具提供全面的指南。

原理与机制

层次聚类的过程是一个关于联合的故事。我们从一个由单个数据点组成的景观开始，每个数据点都是一座孤岛。目标是建立大陆，将这些岛屿一步步地聚合成有意义的群岛，直到所有岛屿都联合起来。规则很简单：在每一步中，找到两个“最近”的簇并将它们合并。但这种优美的简洁性背后隐藏着一个深刻的问题，它塑造了整个过程：我们所说的“最近”究竟是什么意思？答案不止一个，而我们所做的选择——即链接方法——正是算法的灵魂，决定了它所构建的世界的结构。

合并的艺术：“最近”意味着什么？

让我们想象一下，我们的数据点是散布在田野里的人。我们想要组成小组。我们如何决定哪两个现有的小组是最近的？

乐观主义者：单链接

一种方法是采取乐观的态度。我们可以说，如果一个组中的任何一个人与另一个组中的任何一个人相近，那么这两个组就是近的。这就是单链接的精髓：两个簇之间的距离是它们最近的两个成员之间的距离。这种方法非常擅长发现细长的、非球状的结构。然而，这种乐观主义也可能是它的致命弱点。想象一下，两个密集的村庄由一串稀疏、蜿蜒的房屋连接起来。单链接会寻找最短的那条链接，愉快地沿着这串房屋从一间走到另一间，将两个截然不同的村庄合并成一个细长的、蛇形的实体。这种著名的病态现象被称为链式效应，是该方法的一个典型失败模式。
悲观主义者：完全链接

如果我们采取相反的观点呢？悲观主义者可能会认为，只有当两个组的所有成员都相对接近时，它们才算得上是真正的近。即使第一个组中的一个人与第二个组中的某个人相距很远，这两个组作为一个整体也是远的。这就是完全链接：两个簇之间的距离是它们最远的两个成员之间的距离。这个标准天然地抵抗链式效应，并倾向于产生紧凑的、球形的簇。它对长距离非常警惕，因此在识别离群点方面可能特别有效。一个远离所有其他点的点会与任何簇产生很大的“最大距离”，因此它会被单独留到最后，从而有效地被孤立起来。
民主主义者：平均链接

单链接和完全链接都是极端主义者，它们的决策都基于单一的一对点（最近的或最远的）。一种更民主的方法是平均链接，它考虑了所有人。它将两个簇之间的距离定义为第一个簇中的每个点与第二个簇中的每个点之间的平均距离。这种方法提供了一种稳定的折衷方案，对单链接的链式效应和完全链接对离群点的过度关注都不那么敏感。正如你可能预料到的，这些不同的理念可能导致对同一数据集的结构得出截然不同的结论。

超越基础：质心与方差

除了关注单个点之间的距离，我们还可以将簇视为具有质心或内能等属性的整体对象。

质心链接： 这种方法将每个簇视为一个位于其几何中心或质心（簇内所有点的平均值）的单一对象。两个簇之间的距离就是它们质心之间的距离。这个逻辑很有吸引力：我们根据两个簇的质心是否最接近来合并它们。这就像根据两个星系中心超大质量黑洞的邻近程度来决定将它们归为一组。
Ward 方法： Ward 链接也许是常用方法中最复杂的一种，它源于统计学和物理学领域。它提出的问题是：哪次合并会导致系统总“能量”的增量最小？在这里，“能量”被定义为簇内方差，即每个点到其簇质心的平方距离之和。在每一步中，Ward 方法都会选择破坏性最小的合并，使生成的簇尽可能紧凑。这使得它在数据中存在清晰的球形簇时，非常擅长发现这些簇。

通用秘方：隐藏的统一性

我们有五种不同的方法，每种都有自己的理念。这看起来像是一堆杂乱无章的临时规则。但在这里，大自然揭示了一个惊人的潜在统一性。所有这些方法，以及更多其他方法，都可以用一个单一、优美的方程来描述，这个方程被称为 Lance-Williams 递推公式。

假设我们刚刚合并了簇 $A$ 和 $B$ ，形成了一个新的簇 $A \cup B$ 。我们现在需要知道这个新簇与任何其他簇 $C$ 之间的距离。该公式提供了计算方法： $d(A\cup B,C)=\alpha_{A}\,d(A,C)+\alpha_{B}\,d(B,C)+\beta\,d(A,B)+\gamma\,|\,d(A,C)-d(B,C)\,|$ 它告诉我们，新的距离只是我们已知的旧距离的加权组合！其中的奥妙在于参数 $\alpha$ 、 $\beta$ 和 $\gamma$ 。只需为这些参数选择不同的值，我们就可以生成我们所有的链接方法：

对于单链接： $\alpha_A = \frac{1}{2}, \alpha_B = \frac{1}{2}, \beta = 0, \gamma = -\frac{1}{2}$ 。
对于完全链接： $\alpha_A = \frac{1}{2}, \alpha_B = \frac{1}{2}, \beta = 0, \gamma = \frac{1}{2}$ 。
对于平均链接： $\alpha_A = \frac{n_A}{n_A+n_B}, \alpha_B = \frac{n_B}{n_A+n_B}, \beta = 0, \gamma = 0$ 。

这个公式不仅仅是一个数学上的奇特现象；它是理解这些方法行为的关键。例如，某些方法（如质心链接）的 $\beta$ 参数为负。这可能导致一种奇异且违反直觉的现象，称为树状图倒置，即一次合并的高度低于构成它的某个簇的形成高度！这就像是说，两个组因为“相距 1 英里”而合并，即使其中一个组本身是由一次“相距 5 英里”的合并形成的。这是一个迹象，表明聚类过程的几何形状已经扭曲，而这个统一的公式帮助我们预测这种病态现象。

特性评判：不变性与稳健性

有了这种更深入的理解，我们就可以开始评判每种方法的“特性”。一个关键问题是：一种方法真正关心数据的哪些属性？

考虑一下如果我们改变度量尺会发生什么。假设我们不再测量距离 $d$ ，而是测量它的某个函数，比如 $f(d) = \log(1+d)$ 。只要这个函数是严格递增的，它就保留了距离的顺序：如果 A 比 B 远，那么在新度量下它仍然更远。这会改变我们的聚类结果吗？

对于单链接和完全链接来说，答案是不会！因为它们只关心单一的最小或最大距离，最终的聚类结构保持不变。它们对此类单调变换具有不变性。但对于依赖距离的实际数值来计算平均值或方差的平均链接和 Ward 链接来说，结果可能并且将会改变。这揭示了单链接和完全链接本质上是关于距离的秩次，而平均链接和 Ward 方法则是关于它们的量值。

一个奇异的新世界：高维聚类

我们对距离的直觉是在我们生活的二维或三维空间中形成的。但是，当我们的数据有数百或数千个特征，将其置于高维空间时，会发生什么？几何学变得陌生而极度违反直觉。

这就是维度灾难的领域。随着维度 $p$ 的增加，空间的体积急剧膨胀，以至于我们所有的数据点都变得稀疏、孤立，并且彼此相距遥远。更奇怪的是，点对之间的距离开始看起来惊人地相似。这种现象被称为距离集中，可以通过数学方式证明。对于高维空间中的随机点，平均距离随 $\sqrt{p}$ 增长，但其标准差保持相对恒定。结果是，变异系数——标准差与平均值的比率——以 $1/\sqrt{2p}$ 的速度缩减至零。

在这个奇异的世界里，“最近邻”这个概念本身就失去了意义。最远邻居与最近邻居的距离之比趋近于 1。这对基于距离的聚类造成了灾难性的后果。

单链接依赖于寻找唯一的最近点对，因此很容易被迷惑。簇内真实的“近”点对和簇间虚假的“近”点对之间的区别变得模糊，使得该方法极易出现链式效应和失败。
随着任何一对距离之间的对比度减小，完全链接和平均链接也面临困难。
专注于更稳定属性的方法，如簇质心间的距离（如 Ward 方法），或者像主成分分析 (PCA) 这样首先找到真正重要的少数维度的技术，成为在这片高维沙漠中生存的必备工具。

记分卡：我们的聚类效果有多好？

面对所有这些不同的方法及其怪癖，我们如何为特定问题选择最佳方法？我们又如何知道结果是否良好？我们需要客观的衡量标准。

一个优雅的想法是检查最终的树状图在多大程度上保留了原始距离。树状图本身定义了一种新的点对间距离：共表型距离，即这两个点首次出现在同一簇中的合并高度。然后，我们可以计算这些共表型距离与原始距离之间的相关性。高的共表型相关系数意味着层次结构忠实地代表了数据的结构。通过进行模拟，我们可以统计检验哪种链接方法能为特定类型的数据持续产生最忠实的层次结构。

另一种方法是直接对划分为 $k$ 个簇的质量进行评分。Dunn 指数提供了一个简单直观的评分：它是任意两个簇之间的最小距离与任意单个簇内的最大距离之比。一个好的聚类应该有分离良好的簇（分子大），并且簇本身是紧凑的（分母小）。我们可以为不同的链接方法和不同的簇数 $k$ 计算这个指数，这不仅可以让我们比较链接方法，还可以帮助我们为数据选择最佳的簇数。

归根结底，链接方法的选择不仅仅是一个技术细节。它是一种声明，表明我们相信数据中存在何种结构，这一选择反映了关于“相似”意味着什么的特定理念。这些方法的丰富多样性、它们惊人的数学统一性，以及它们引人入胜的行为和失败，为任何数据探索者提供了强大的工具集。

应用与跨学科联系

现在我们已经探讨了链接方法的复杂机制和它们产生的优美树状图，一个自然的问题随之而来：“这一切都是为了什么？” 这个问题应该向任何数学工具提出。一个优美的想法是一回事，但一个能帮助我们理解世界的优美想法则完全是另一回事。事实证明，层次聚类正是那些极其有用的想法之一。它的应用并不局限于统计学的一个狭窄子领域；它们几乎遍及所有人类探究的领域，从超市的货架到癌症研究的前沿。贯穿其中的共同主线是寻找结构，寻找隐藏在复杂数据中的自然的“家族”和“部落”。让我们踏上对其中一些世界的探索之旅。

人类世界：从购物车到城市街区

也许最直观的起点是我们自己。我们不断地对事物进行分组。我们有音乐流派、食物类型和朋友圈。层次聚类为描述这种基本的人类活动提供了一种形式化的语言。

想象你是一家大型连锁超市的数据科学家。你可以接触到成千上万的“购物篮”，它们就是人们一起购买的商品集合。你能用这些数据做什么？你可以对它们进行聚类。一些购物篮可能包含{牛奶, 面包, 鸡蛋}，而另一些则有{啤酒, 薯片, 莎莎酱}。直观地说，这些代表了不同的购物“任务”。第一个看起来像一次常规的日用品采购；第二个则像是为聚会做准备。通过应用凝聚型聚类，我们可以自动发现这些行为模式。在这里，链接方法的选择不仅仅是一个技术细节；它是关于我们希望找到何种模式的选择。如果我们使用完全链接，它要求一个簇中的所有商品都与另一个簇中的所有商品“接近”，我们往往会找到非常紧凑、具体的群体——比如一个由{面粉, 糖, 鸡蛋, 黄油}组成的“烘焙”簇。它是排他的。相比之下，平均链接则更为宽容。它考虑平均相似度，可以将在更广泛、更多样化的购买习惯归为一类。通过分析这些簇，商店可以做出更明智的决策：将啤酒和薯片放在一起，或者为经常购买牛奶和面包的顾客提供鸡蛋折扣。

我们可以将这种思维从个体购物者扩展到整个社区。城市社会学家可能不会将城市视为一个统一的实体，而是看作一个由不同社区组成的马赛克。每个社区都可以用一个特征向量来描述：收入中位数、人口密度、教育水平、平均年龄等等。通过对这些向量进行聚类，我们可以绘制出一张数据驱动的城市社会结构图。树状图成为一个极好的探索工具。在较低的高度切割树状图可能会揭示细微的差别，比如相邻街区之间的差异。在较高的高度切割可能会将社区划分为更广泛的原型：繁华的“年轻专业人士”市中心核心区、宁静的“家庭导向”郊区，以及大学附近密集的“学生区”。这使得城市规划者和社会学家能够同时在多个尺度上理解城市的结构，从微观无缝地过渡到宏观。

数字世界：驯服数据洪流

在我们的现代世界中，我们的大部分“东西”都是数字化的，而聚类是组织和理解它们的必要工具。考虑数据去重的问题。一家公司可能有数百万条客户记录，其中许多是重复或近似重复的，只是输入时有细微差别：“John Smith”、“J. Smith”、“Smith, John”。我们需要一种方法来找到并合并它们。我们可以将每条记录表示为一个向量并对它们进行聚类。任何落入同一个小簇中的两条记录都可能是重复的。这里的关键问题是在哪里切割树状图。如果切割得太高，我们可能会将“John Smith”与“Jane Smith”合并，这是一个代价高昂的错误。这是一个假阳性。如果切割得太低，我们可能无法合并实际上是同一个人的两条记录，这是一个假阴性。最佳切割高度是一种权衡，我们可以通过为假阳性和假阴性分配一个成本 $\lambda$ 来将其形式化。这将聚类从一个描述性工具转变为一个在数据清洗和工程中做出最优决策的强大引擎。

聚类的影响甚至延伸到人类语言的微妙领域。我们如何判断一台机器是否真正“理解”了词语的含义？一个引人入胜的方法是检查它的“思想”——现代人工智能系统用来表示语言的词嵌入。我们可以获取像dog、cat、horse、car、truck和boat等词的向量表示，并进行层次聚类。如果算法学习得很好，那么生成的树状图应该会自然地将动物与交通工具分开。我们可以通过切割树状图，并将所得簇与已知的人工分类体系（如 WordNet）进行比较，使用标准化互信息 (NMI) 等指标来量化这种对齐程度。高的 NMI 分数告诉我们，机器的内部“语义空间”与我们自己的相似，这表明它捕捉到了关于世界的一些有意义的东西。在非常真实的意义上，我们正在对机器的概念进行聚类，以观察它们是否有意义。

科学前沿：从基因到星系

对自然分类的追求是科学的基石，而层次聚类是这项工作中的主力。在计算生物学中，它彻底改变了我们对癌症等疾病的理解。在显微镜下看起来相同的肿瘤，可能具有截然不同的基因表达谱，并对治疗有不同的反应。通过对来自多个肿瘤样本的数千个基因进行聚类，研究人员可以识别出不同的癌症亚型。链接方法的选择再次至关重要。像Ward 链接这样旨在创建紧凑、低方差簇的方法，非常适合识别定义明确、紧密的亚型，这些亚型可能对应于特定的基因突变并对靶向治疗有反应。相比之下，平均链接可能会揭示基因表达的连续梯度，这可能对应于疾病的进展或免疫细胞浸润水平的变化。这不仅仅是一项学术活动；区分离散的亚型和连续的梯度可以指导开发新药的整个策略[@problem-t_id:2379267]。

同样的逻辑适用于所有科学领域。材料科学家可能会根据化合物的化学成分对其进行聚类，以发现具有理想性能的新材料家族。天文学家可能会根据星系的形态和光谱对其进行聚类，以了解宇宙的大尺度结构。在金融领域，分析师根据股票的历史价格走势对其进行聚类。这里通常使用基于相关的距离 $d_{ij} = 1 - \rho_{ij}$ ，这样一起上涨和下跌的股票被视为“接近”。由此产生的簇代表了共享共同风险因素的资产组，如“能源板块”或“科技板块”。这对于构建多元化的投资组合至关重要。

但是，面对所有这些强大的应用，一个挥之不去的问题仍然存在：我们对我们的结果有多大的信心？即使是随机噪声，树状图也总能产生簇。这就是统计技术自助法 (bootstrapping) 发挥作用的地方。通过重复地对我们的数据进行重采样（例如，重采样奶酪特征的样本或股票的交易日），并重新运行聚类，我们可以看到我们发现的群体有多稳定。一个在 99% 的自助法复制中都出现的簇是数据的一个稳健特征，值得我们信赖。一个只出现 20% 的簇很可能是随机抽样的脆弱产物。这种方法提供了一个关键的统计严谨性度量，使我们能够将真实的信号与噪声区分开来。

最后，值得记住的是，整个聚类过程都建立在最初选择的距离度量之上。我们的“度量尺”塑造了之后的一切。标准的欧几里得距离适用于各向同性的，或大致为球形的数据云。但如果数据是拉伸和相关的，形成一个椭圆呢？在这种情况下，欧几里得距离可能会产生误导。一个在几何上很远的点实际上可能属于同一个簇。这就是像马氏距离 (Mahalanobis distance) 这样更先进的度量发挥作用的地方。它本质上是根据数据自身的协方差结构来“扭曲”空间，在测量距离之前将椭圆变回圆形。选择正确的度量——无论是欧几里得距离、马氏距离、余弦距离还是 Jaccard 距离——是使通用的聚类工具适应手头问题特定几何形状的基础步骤。有时，最有趣的点是那个不属于任何群体的点。通过寻找那些在非常高的相异度值下才被合并到树状图中的点，我们可以使用聚类作为一种强大的异常检测方法，发现那些常常预示着错误、欺诈甚至新科学发现的离群点。

从平凡到不朽，原理始终如一。层次聚类是发现结构的通用镜头。通过仔细选择我们的镜头——距离度量、链接标准、切割高度——我们可以将任何数据集中隐藏的家族、梯度和离群点清晰地呈现出来，揭示复杂性表面下美丽而错综复杂的秩序。