分裂聚类

玻尔百科

核心要点

分裂聚类是一种“自上而下”的方法，它从将整个数据集视为一个簇开始，然后递归地将其分割成更小的组。
由于检查所有可能的分割在计算上是不可行的，分裂聚类依赖于巧妙的启发式算法，如 DIANA、Girvan-Newman 和谱聚类。
Girvan-Newman 算法通过迭代移除具有最高“介数中心性”的边，在网络社群检测中非常有效。
在生物学和医学中，分裂聚类用于识别蛋白质网络中的功能模块，以及根据复杂数据将患者分层为有意义的疾病亚型。

引言

在浩瀚的数据图景中，隐藏的结构和有意义的群体等待着被发现。虽然许多方法都是从头开始构建这些群体，但还存在一种强大的替代方案：从整体出发，系统地将其切割成其组成部分。这就是分裂聚类的理念，一种“自上而下”的方法，优先识别数据中最大、最根本的划分。这种视角对于理解复杂系统通常至关重要，因为在这些系统中，全局结构比局部关系更为重要，而这正是自下而上的方法有时可能忽略的挑战。

本文将引导您了解这种优雅方法的理论与实践。首先，在“原理与机制”部分，我们将探讨分裂聚类的核心逻辑，直面其主要的计算挑战，并检视那些使其变得可行的巧妙启发式算法——从关注离群点的 DIANA 到切割网络的 Girvan-Newman 算法。随后，在“应用与跨学科联系”部分，我们将看到这些理论在实践中的应用，发现分裂聚类如何通过揭示生物网络和人类疾病的隐藏结构，从而革新系统生物学和个性化医疗等领域。

原理与机制

想象你是一位雕塑家，站在一块巨大的、未经雕琢的大理石前。你的任务是揭示隐藏在其中的美丽雕像。你不会从小块大理石开始，将它们粘合在一起；你从整块大理石开始，小心地凿掉碎块。这便是分裂聚类的精髓：一种“自上而下”的理念，它始于将你的整个数据世界视为一个单一的、庞大的群体，然后系统地将其雕刻成更小、更有意义的簇。这与其更著名的近亲——凝聚聚类形成鲜明对比，后者采用“自下而上”的方式工作，就像一个孩子用单个乐高积木搭建城堡，逐一连接最接近的部件。

我们为什么会选择雕塑家那条艰难的道路，而不是孩子那条直观的路径呢？有时，我们数据中最重要的结构存在于最大的尺度上——即定义整体的根本性划分。分裂方法旨在首先找到这些主要断层线。例如，在一个患者数据集中，最关键的区别可能是“健康”与“高风险”，这是一个全局性的分割，而自下而上的方法可能需要经过多次小规模的局部合并后才能揭示。

让我们通过一幅简单的图来看看这两种理念如何导致截然不同的结果。想象一小群紧密的朋友坐在公园中心，而另一群人则广泛地散布在公园边缘。一种自下而上的单链接法，它根据最近的点对进行合并，会首先完成对那个紧密群体的联合。然后，它会注意到中心群体中的一个人比任何两个边缘上的人彼此之间更接近边缘上的某个人。因此，它会将整个中心群体与那个单独的外部人员合并——这种“链接”行为感觉很不自然。而像 DIANA 这样的分裂方法，则可能首先注意到边缘上的某个人平均而言与其他人最不相似。然后，它会执行其第一次雕刻：将那个单独的“离群点”从其余人群中分离出来。这两种方法，在面对相同数据时，讲述了两个完全不同的故事，因为它们提出了两个完全不同的问题。

巨大的挑战：完美分割问题

雕塑家的愿景是优雅的，但其执行却是一个艰巨的挑战。对于一个包含 $m$ 个数据点的簇，将其分割成两个非空组的方式有 $2^{m-1} - 1$ 种。对于一个只有 20 个点的小组，这已经超过了五十万种可能性。对于 100 个点，这个数字比可观测宇宙中的原子数量还要大得不可思议。通过检查每一种可能性来寻找“最佳”分割在计算上是不可能的。

这是分裂聚类的核心困境。凝聚方法在每一步只需考虑数量可控的点对进行合并（对于 $k$ 个簇，有 $\frac{k(k-1)}{2}$ 对），而分裂方法则面临着组合爆炸。这使得朴素的分裂聚类在计算上远比其凝聚聚类对应方法昂贵得多。

因此，分裂聚类的故事不是一个关于蛮力的故事，而是一个关于巧妙和艺术的故事。我们无法检查所有可能的切割，所以我们必须发展启发式策略——即有原则的策略，用于找到一个“足够好”的分割，它既能揭示有意义的结构，又不会耗费永恒的时间。该领域的美妙之处在于这些巧妙启发式策略的多样性。

作为艺术形式的启发式方法：寻找数据中的裂缝

不同的问题需要不同的工具。雕塑家粗加工时用锤子和凿子，精雕细琢时用细锉刀。同样，不同的分裂算法体现了寻找数据集中自然“裂缝”的不同理念。

离群点优先方法：DIANA

最具直觉性的启发式方法之一是分裂分析 (DIANA) 算法。其逻辑很简单：在任何群体中，总有一些成员比其他成员更“边缘”。DIANA 的策略是找到最疏远的个体——即与所有同伴的平均相异度最高的那个——并用它作为新分裂组的“种子”。

让我们用一个简单的一维数据集来看看它的作用，数据集的点位于位置 $\{0, 1, 4, 10\}$ 。

找到种子：我们首先通过计算每个点到所有其他点的平均距离来衡量其“不合群”的程度。位置在 $10$ 的点，平均而言，离其他点最远（ $\frac{1}{3}(10+9+6) = \frac{25}{3}$ ），所以它成为新簇的种子。
发展分裂组：现在，算法会问其他每个点：“平均而言，你离这个新的分裂组（仅含点 $10$ ）比离原来的组更近吗？” 对于位置在 $4$ 的点，它到 $10$ 的距离是 $6$ ，但它到 $\{0, 1\}$ 的平均距离是 $\frac{1}{2}(4+3) = 3.5$ 。它并不更接近分裂组，所以它留下了。点 $0$ 和 $1$ 也是如此。
最终切割：没有其他点加入分裂组。因此，第一次分割是 $\{0, 1, 4\}$ 和 $\{10\}$ 。DIANA 成功地识别并剥离了那个离群点。算法接下来会以同样的方式继续分割簇 $\{0, 1, 4\}$ 。这种“离群点优先”的逻辑在患者表型分析等领域非常强大，因为在这些领域，识别高度异常的患者画像是一个关键目标。

“烧桥者”方法：用于网络的 Girvan-Newman 算法

让我们将视角转向网络——社交网络、通信网格或蛋白质相互作用。在这里，我们没有几何空间中的点；我们有由边连接的节点。那么，“分割”一个网络意味着什么呢？它意味着寻找社群。在这里，分裂聚类的洞见——在 Girvan-Newman 算法中得到了优美的阐述——是那些充当社群之间桥梁的边是最关键的切割对象。

我们如何找到一座桥梁？我们测量它的边介数：网络中所有节点对之间的最短路径中，通过那条特定边的路径总数。连接两个密集社群的边将成为信息流的瓶颈，承载着大量的最短路径，因此具有很高的介数。

Girvan-Newman 算法是一位耐心的雕塑家：

计算网络中每一条边的介数。
找到具有绝对最高介数的边——最关键的桥梁。
移除那条边。
关键在于，回到步骤 1。移除一条边会重新路由所有依赖于它的最短路径，从根本上改变了介数的分布。这种重新计算在计算上是密集的，但绝对是必不可少的。

通过迭代地移除最重要的桥梁，社群会逐渐分离并最终断开连接，从而揭示网络隐藏的社会结构。这是一个自上而下的方法揭示在局部层面不可见的组织的深刻例子。

物理学家的方法：谱聚类

也许最优雅且数学上最深刻的分裂方法来自于与物理学的类比：谱聚类。想象你的数据点是由弹簧连接的质量块，弹簧的刚度对应于两点之间的相似度。这个系统由一个称为图拉普拉斯矩阵的矩阵来描述。现在，如果你“摇晃”这个系统，它会以某些自然频率或模式振动。

谱聚类的最深刻洞见在于，最“慢”的非平凡振动模式揭示了将网络一分为二的最佳方式。这个模式由一个称为 Fiedler 向量的特殊向量捕获——它对应于拉普拉斯矩阵第二小特征值的特征向量。

该向量的分量为每个数据点分配一个实数。神奇的是，应该属于一个组的点倾向于具有正值，而另一组中的点则倾向于具有负值。只需查看每个数据点的 Fiedler 向量分量的符号，我们就能得到一个数据分割的建议！这种方法为解决诸如 Normalized Cut 和 Ratio Cut 等臭名昭著的困难图分割问题提供了近似解，这些问题旨在找到既“干净”（切割的边少）又“平衡”（避免微小、无意义的簇）的分割。通过递归地应用这种谱二分法，我们可以构建一个完整的层次结构。这是一个美丽的例子，说明了线性代数和物理学中的抽象概念如何为数据雕刻提供强大而实用的工具。类似的想法也用于二分 k-均值算法中，该算法不使用 Fiedler 向量，而是使用著名的 k-均值算法（其中 $k=2$ ）来寻找一个能最小化两个子簇内部方差的分割。

知止之时：雕塑家的两难困境

雕塑家必须知道何时放下凿子。如果他们停得太早，雕像就是一个未成形的疙瘩。如果他们雕刻得太久，它就会化为尘土。分裂聚类算法也面临着同样的困境：我们什么时候停止分割？选择一个停止规则与选择分割启发式方法本身同样重要。

一个简单而有效的规则是查看簇的内部凝聚力。我们可以定义一个衡量簇“分散度”的指标，例如其簇内离散度——点到其自身簇中心平均平方距离。然后我们可以设定一个阈值 $\tau$ 。如果一个簇的离散度低于 $\tau$ ，我们就宣布它为我们层次结构的一个完成的“叶节点”，不再对其进行分割。高 $\tau$ 值将导致一个包含少数大群体的粗略聚类，而低 $\tau$ 值将迫使算法继续雕刻，直到产生许多小的、高度紧凑的簇。

对于网络社群检测，通常使用一种更复杂、数据驱动的标准：模块度。模块度通过比较所提议社群内部的边密度与在具有相同属性的随机网络中我们所期望的密度，来衡量一个划分的“社群性”如何。随着 Girvan-Newman 算法移除边，我们可以追踪每一步划分的模块度。通常，模块度会上升，达到一个峰值，然后随着算法开始破坏有意义的社群而下降。最明智的停止点是选择那个达到了最大模块度分数的划分。这让数据本身告诉我们何时揭示了最显著的组织层次。

归根结底，分裂聚类提供了一个强大而优雅的视角。它首先寻找数据中宏大、首要的结构，提供了一个自下而上的方法可能错失的全局视野。虽然计算要求高，但其启发式算法的独创性——从隔离离群点到烧毁桥梁和寻找振动模式——使其成为现代科学家发现工具箱中不可或缺的工具。

应用与跨学科联系

在了解了分裂聚类的原理之后，我们现在到达了探索中最激动人心的部分：见证这些思想的实际应用。正是在这里，在现实世界那纷繁复杂而又美丽的织锦中，“自上而下”的视角才真正展现出其力量。就像地质学家在景观中寻找自然的断层线一样，分裂聚类为我们提供了一个镜头，以识别那些定义复杂系统结构的巨大分界线和根本性裂痕。

它的应用十分广泛，但其影响最深远之处莫过于生命科学领域，它在这里充当了一台强大的显微镜，用以剖析生物学精密的机制和人类疾病细微的模式。

揭示生命蓝图：生物学中的网络

在许多方面，自然界是一个网络的宇宙。蛋白质形成错综复杂的相互作用网络，基因在复杂的回路中相互调控，代谢物在广阔的化学通路中流动。系统生物学的梦想是通过解读这些网络的地图来理解其功能。分裂聚类，特别是优雅的 Girvan-Newman 算法，已成为实现这一探索不可或缺的工具。

其核心直觉非常优美。想象一个庞大的王国。你将如何识别其天然的省份？一个聪明的方法可能是找到并移除最关键的桥梁——那些每个人在不同区域间穿行都必须使用的桥梁。一旦这些桥梁消失，王国自然会沿着其组成部分分裂开来。这正是 Girvan-Newman 算法所做的事情。它为网络中的每个连接计算一个名为边介数中心性的量。这个指标实质上计算了所有节点对之间的最短通信路径中有多少条通过了某条特定的边。连接不同密集社群的边充当了这些关键桥梁，因此将具有最高的介数分数。通过迭代地找到并移除这些“社群间高速公路”，网络会沿着其自然的断层线瓦解，揭示其隐藏的模块化结构。

这个单一而强大的思想在生物学中有着广泛的应用：

寻找蛋白质机器： 在蛋白质-蛋白质相互作用 (PPI) 网络中，节点是蛋白质，边是物理相互作用。通过分裂聚类发现的社群通常对应于“功能模块”或“蛋白质复合物”。这些是一组协同工作的蛋白质，共同执行特定任务，如 DNA 复制或细胞信号传导。识别这些模块是理解细胞部件清单的巨大飞跃。
绘制代谢通路图： 在代谢网络中，节点可以代表化学反应，边可以代表共享的代谢物或调控耦合。将分裂方法应用于此网络可以揭示宏大的代谢通路——如糖酵解或柠檬酸循环——作为不同的反应社群。这使得生物学家能够从原始相互作用数据中重建生命的化学流程图。
发现保守模块： 也许最优雅的应用之一在于比较基因组学。想象我们有两个不同物种的 PPI 网络，比如人类和小鼠。我们可以问一个深刻的问题：哪些功能模块在进化中被保留了下来？为了回答这个问题，我们可以构建一个单一的、宏大的“多重网络”。我们将两个独立的网络结合起来，并添加第三种类型的边：物种间的连接，连接的是“直系同源物”——即在两个物种中都流传下来并进化的相同蛋白质。将分裂聚类应用于这个统一的网络，使我们能够找到跨越物种边界的社群。一个包含人类和小鼠蛋白质混合体的簇，通过其内部相互作用和直系同源连锁在一起，代表了一个对生命如此基础以至于在数百万年的进化中都被保存下来的功能模块。

疾病分层：从基因组学到个性化医疗

分裂聚类也正在彻底改变我们理解和分类人类疾病的方式。在这里，挑战通常不是分析一个预先存在的网络，而是在海量的患者数据表中寻找隐藏的群体。目标是超越“一刀切”的诊断，迈向个性化医疗的未来，即根据患者疾病的具体亚型量身定制治疗方案。

考虑肿瘤分类的挑战。两个在显微镜下看起来相似的肿瘤，可能具有截然不同的遗传基础，并对治疗产生不同的反应。我们可能拥有数百名患者数千个基因的活动水平数据（他们的“转录组”）。我们的目标是找到具有相似基因表达“特征”的患者群体。层次聚类，无论是分裂法还是凝聚法，都是完成这项任务的主力。我们可以将每个患者视为高维空间中的一个点，并根据他们的接近程度将他们分组，从而发现以前无法看到的新的肿瘤亚型。

这段进入医学数据分析的旅程提出了引人入胜的挑战，并催生了新的创新：

处理混合数据： 患者数据具有极大的异质性。单个患者记录可能包含数值数据（年龄、血压）、分类数据（性别、肿瘤分期）和二元数据（吸烟/不吸烟）。如何才能计算出两个这样的患者之间有意义的“距离”？Gower 距离是一个巧妙的解决方案。它是一种通用转换器，一个知道如何为每种特征类型计算合理相异度的框架——对数值差异进行归一化、检查分类不匹配——然后智能地将它们平均。这使我们能够将强大的聚类方法应用于真实临床世界中丰富、多方面的数据。
整合“多组学”数据： 现代生物学可以同时在多个层面上测量一个患者：他们的基因组 (DNA)、转录组 (RNA)、蛋白质组 (proteins)、甲基化组 (epigenetic marks) 等等。这就是“多组学”时代。为了获得一个整体的视图，我们必须整合这些数据层。一个强大的策略是为每种数据类型分别计算一个距离矩阵，然后将它们组合成一个单一的复合距离。对于一个权重 $\alpha \in [0,1]$ ，我们可能将最终距离定义为： $d_{\text{composite}} = \alpha \, d_{\text{omics}} + (1 - \alpha) \, d_{\text{clinical}}$ 这个简单的公式意义深远。权重 $\alpha$ 是一个科学假设。通过改变它，研究人员可以探索是患者的分子谱还是他们的临床特征在定义疾病亚型中更具主导性。对这个复合距离进行分裂聚类，可以揭示在多个生物学尺度上都相似的患者群体。
将聚类与临床结果联系起来： 找到簇仅仅是开始。关键的下一步是问它们是否有意义。A 簇的患者与 B 簇的患者预后是否不同？我们可以通过将我们的聚类结果与临床结果（如患者生存时间）联系起来回答这个问题。通过为每个发现的簇绘制生存曲线（使用 Kaplan-Meier 估计器），我们可以直接观察到我们数据驱动的分组是否对应于疾病进展的真实差异。这是将抽象的聚类转变为可能挽救生命的临床洞见的最终、关键环节。

切割的艺术：算法与分析师的对话

分裂聚类的一个决定性特征是它不返回单一的答案。它提供了一个完整的树状图——一个关于数据结构的完整、层次化的地图，从整体的统一到其个体部分的多样性。这既是它最大的优势，也是它最大的挑战。算法给了我们景观；科学家必须选择在哪里划定边界。

这个选择不是任意的。它是数据与我们领域知识之间的对话，并由量化原则引导。

最大化模块度： 在网络分析中，最有力的指导之一是模块度的概念，用 $Q$ 表示。对于网络的任何给定划分，模块度衡量的是社群内部的连接密度与我们在边被随机重连的情况下所预期的相比，有多么出人意料地密集。随着 Girvan-Newman 算法分割网络，我们可以在每一步计算 $Q$ 。通常， $Q$ 会上升，达到一个峰值，然后随着算法开始破坏有意义的簇而下降。对应于 $Q$ 最大值的划分通常被认为是网络中最“自然”或统计上最稳健的社群结构。
寻找富集峰值： 在生物学应用中，我们可以更加直接。我们有基因功能和通路的外部知识库。对于在层次结构任何层面找到的任何簇，我们都可以问：“这个簇是否出人意料地富含与，比如说，免疫反应相关的基因？”超几何检验为这个问题提供了一个严格的统计答案，一个 $p$ 值。因此，我们可以扫描整个树状图，在每个可能的划分水平上计算富集度。“最优”的切割就是那个能揭示最显著的统计学意义，而又不会将簇分裂成无意义的、细小的“噪音”碎片的切割。

归根结底，分裂聚类远不止是一种自动切割数据的程序。它是一种探索的哲学。它拥抱了复杂性通常是按层次组织的思想，并为我们提供了一种系统地探索该层次结构的方法。它是一种工具，当怀着好奇心并以原则为指导来使用时，能让我们窥探支配我们世界的隐藏结构，从细胞中蛋白质的复杂舞蹈到人类疾病的多种表现形式。