聚类分析

玻尔百科

定义

聚类分析是一种无监督学习方法，通过在没有预定义标签的情况下将相似项目分组来揭示数据的内在结构。该领域利用 k-means、层次聚类和 DBSCAN 等多种算法原理，根据中心点、系谱树或密度来定义簇。聚类分析在从生物学到天体物理学的各个学科中都有着变革性的应用，但在处理时需要进行精细的数据预处理，以克服维度灾难等挑战。

核心要点

聚类分析是一种无监督学习方法，它通过对相似项目进行分组来揭示数据中固有的结构，而无需预定义的标签。
层次聚类、k-means 和 DBSCAN 等关键算法基于不同的理念运作，分别依据“家族树”、中心点或密度来定义簇。
高效的聚类需要仔细的数据预处理，包括归一化和标准化，以消除技术噪声并防止产生误导性结果。
“维度灾难”是一个主要挑战，在高维空间中，邻近性的概念变得模糊，从而阻碍了大多数聚类算法的有效性。
聚类在各学科中都有变革性的应用，从生物学中识别细胞类型到天体物理学中发现星系超星系团。

引言

在大数据时代，我们常常面对海量、看似混乱的信息集合，这些信息没有任何明确的标签或类别。我们如何着手理解这一切呢？答案就在于聚类分析，这是一种强大的无监督学习形式，致力于发现数据内部的自然分组——即隐藏的结构和社群。它通过让数据自己说话，解决了如何从无标签数据集中获取意义这一根本性的知识鸿沟。本文将带领读者踏上一场进入聚类世界的旅程，揭示其优雅的原理和深远的现实影响。

第一章 原理与机制 将揭开聚类核心逻辑的神秘面纱，解释相似性的概念如何被转化为几何距离。我们将探讨主流算法背后的不同理念，例如层次聚类的“家族树”方法、k-means 的“重心”模型以及 DBSCAN 的基于密度的视角。我们还将直面分析师必须应对的实际挑战，从清洗和准备数据到应对高维空间的奇异几何特性。随后的 应用与跨学科联系 章节将展示这些方法不仅是抽象的工具，更是发现的引擎，正在彻底改变从生物学、化学到天体物理学和市场营销等多个领域，并最终促使我们反思构成一个“群体”的本质意义。

原理与机制

想象一下，你走进一个巨大的图书馆，所有的书都被扔在地板上，堆成一堆巨大的、混乱的“山”。你的任务是为这场混乱带来秩序。你会如何开始？你不会从阅读每一本书开始。相反，你可能会开始将它们分组。也许你会把所有又大又重的艺术类书籍放在一起，把薄薄的诗集放在另一堆，而科学教科书则放在第三堆。在不知道任何一本书具体内容的情况下，你已经开始揭示这个集合的隐藏结构了。这就是聚类分析的精髓：在没有事先被告知这些组可能是什么的情况下，发现数据中固有群组的艺术和科学。

这是一场无监督的发现之旅。我们为机器提供数据和一个关于两样东西何为“相似”的通用概念，然后问它：“这里存在哪些自然的家族、部落、社群？” 答案可能具有深刻的启发性，揭示从构成我们身体的不同细胞类型到购买某种产品的不同顾客群体的各种信息。

相似性与距离的逻辑

所有聚类的核心是一个异常简单的理念：相似的项目应该被分在一起，不相似的项目应该被分开。 但我们如何用计算机能理解的方式来定义“相似”呢？我们通过将其转化为几何学来实现。我们把想要聚类的每一个项目——无论是细胞、顾客还是植物油——想象成一个巨大的多维空间中的一个点。每个维度代表我们测量的一个特征：一个基因的表达水平、某种化学物质的含量，或者一个人的年龄。

在这个空间中，相似性变成了邻近性。两个靠得很近的点代表两个非常相似的项目。两个相距很远的点则代表不相似的项目。因此，聚类算法的目标，就是在该空间中划定边界，将其分割成有意义的区域，即“簇”。

但这个看似简单的任务充满了有趣的微妙之处。聚类的故事并非关于某一种单一方法的故事，而是关于一整个方法家族的故事，其中每种方法对于何为“群组”都有其自身的理念。

构建一棵家族树：层次聚类

寻找群组最直观的方法之一是为我们的数据构建一棵“家族树”，这种方法称为层次聚类。想象你是一位化学家，分析了几种植物油的化学成分，想知道哪些油最相似。层次聚类方法不仅给你一个最终的群组集合，它还一步步向你展示了整个分组过程。

它首先将每一个数据点声明为它自己的微小簇。然后，它在整个数据集中寻找两个最接近的点——即两种最相似的植物油——并将它们合并成第一对。这个合并事件发生在一个特定的“距离”上，算法会记录下这个距离。现在，它再次寻找。接下来两个最接近的项目是什么？也许是另一对油，或者也许是第三种油与我们刚形成的第一对非常接近。它在下一个最小的距离上进行下一次合并。

这个过程持续进行，迭代地合并最接近的簇，直到所有东西都融合成一个包含所有数据的巨大簇。这些合并的记录形成了一个优美的树状图，称为树状图 (dendrogram)。树的枝丫显示了哪些项目被合并，而枝丫的高度则告诉你合并发生的距离。最早和最低的枝丫代表最相似的配对，就像我们例子中的玉米油和大豆油，它们因为化学差异最小而最先被合并。

这种嵌套的、树状的结构不仅仅是一幅漂亮的图画；它本身就可以是一种深刻的科学洞见。思考一下理解一个干细胞如何发育成身体中所有不同细胞——神经元、皮肤、肌肉——的挑战。这个过程本质上是分层的，是一个关于命运决定的分支故事。如果我们对这个过程中不同阶段细胞的基因表达谱进行聚类，层次聚类生成的树状图几乎可以完美地重现真实的发育谱系，向我们展示细胞决定走向某种命运的主要分支点。像 k-means 这样的方法（我们接下来会看到），只会给我们一个扁平的细胞类型列表，从而丢失了它们丰富的“祖先”故事。

什么是簇？两种理念的故事

层次聚类的方法很强大，但它不是唯一的方法。让我们问一个更基本的问题：一个簇到底是什么？它是一个具有密集“重心”的区域，还是仅仅是一个连续的高密度区域，无论其形状如何？这种理念上的差异催生了两大类算法家族。

基于质心的聚类（例如 k-means）： 想象你有一张标有几个城市的地图，你想定义它们的“势力范围”。k-means 算法的运作方式有点像这样。你首先决定想要找到多少个簇，即 $k$ 个。然后，算法在你的数据空间中放置 $k$ 个“质心”（就像首都城市）。接着，它执行一个简单的两步舞：首先，将每个数据点分配给最近的质心。其次，将每个质心移动到所有分配给它的点的平均位置。它重复这个“分配、移动、分配、移动”的舞蹈，直到质心不再移动。最终的群组就是属于每个质心的点的集合。

这里的关键假设是，簇是“球状”的，就像围绕一个中心点聚集的点云。而且至关重要的是，每一个点都必须被分配到一个簇中。这里没有犹豫不决的公民；每个人都属于一个势力范围。
基于密度的聚类（例如 DBSCAN）： 现在想象一张不同的地图，一张群岛的地图。你不会通过它们的中心来定义它们，而是通过它们的海岸线来定义。DBSCAN（基于密度的含噪声应用空间聚类）就是这样工作的。它不寻找中心。相反，它在数据空间中漫游，寻找“密集”的邻域。它选择一个点并提问：“附近有足够多的邻居吗？”如果有，它就称之为一个“核心点”，并开始向外扩展，连接所有可达的邻居。因此，一个簇就是任何一组通过高密度路径相互可达的点。

这种方法有两个惊人的优势。首先，它可以找到任意形状的簇——长的、细长的、C形的，任何形状——只要密度足够高。其次，也许更重要的是，它有一个自然的噪声概念。任何不在密集区域且离密集区域不够近的点，都被简单地标记为离群点。它不属于任何岛屿；它只是海洋中的漂浮物。

这两种理念之间的选择并非学术之争；它会带来深远的影响。想象一下模拟一个蛋白质的折叠过程。蛋白质可能大部分时间都处于少数几个稳定、明确的形状（密集簇）中，这些状态之间由非常短暂、瞬时的运动（稀疏路径）连接。如果我们使用 k-means 并要求找到三个簇，它会找到三个质心，并将每一个构象，包括那些瞬时的构象，都分配给其中之一。它会把整个景观切割成三个凸形区域，错误地将那些稍纵即逝的过渡结构与稳定状态混为一谈。但如果我们使用 DBSCAN，它将漂亮地识别出稳定的密集区域作为我们的簇，并且通过适当的调参，将稀疏的过渡路径标记为它们本来的样子：噪声，那些不属于任何单一状态的变化瞬间。这种让数据定义簇的形状，并识别出不属于任何簇的能力，是现代发现驱动科学的一个标志。

分析师的重任：驯服数据

聚类算法功能强大，但它们也极其天真。它们就像一个蒙住眼睛的雕塑家，只能感受到所给粘土的形状。如果粘土充满了肿块和杂质，那么无论雕塑家多么熟练，雕塑作品也会一团糟。作为科学家，我们的责任是在将数据交给算法之前准备好数据——即清洗粘土。这种预处理不是一件苦差事；它正是许多科学洞见的所在。我们必须首先从数据中驱除几个“小魔怪”。

不等“音量”的干扰（归一化）： 想象一下你正在分析单细胞基因表达数据。测序过程的一个技术性产物是，某些细胞被测序的深度就是比其他细胞更深，导致基因分子的总计数（或“文库大小”）更高。如果你将这些原始计数数据输入聚类算法，它会被完全误导。一个文库大小是其他细胞五倍的细胞，看起来会与它的同伴们截然不同，即使其底层的生物学特性完全相同。它会显得如此“遥远”，以至于可能被单独分到一个簇里。算法聚类的依据不是细胞类型，而是测序深度！解决方案是归一化，这是一个调整计数值以消除文库大小差异的过程。这就像调整合唱团里所有麦克风的音量，以便我们能听到歌手们的和声，而不是他们设备的灵敏度。
不同“出身”的干扰（批次效应）： 假设你想比较来自健康组织和患病组织的细胞。你在周一把健康样本送入机器，周二处理患病样本。当你对合并后的数据进行聚类时，你发现了两个完美的簇：一个是所有周一的细胞，另一个是所有周二的细胞。你是否发现了疾病的生物学特征？几乎可以肯定没有。你发现的是批次效应。实验室条件中那些微妙的、系统性的差异——温度、化学试剂、技术员——为每个批次创造了一个“特征”。这种技术噪声可能大到完全淹没你正在寻找的真实生物学信号。校正这些批次效应是现代数据分析中最关键和最具挑战性的步骤之一。
数据缺失的干扰（插补）： 有时，我们的测量会失败，在数据矩阵中留下空洞。对于某些分析来说，这并非灾难。要计算一个基因的平均表达量，我们只需对已有的值取平均，忽略缺失值即可。但对于聚类来说，单个缺失值都可能是致命的。记住，我们是在高维空间中计算点与点之间的距离。如果其中一个点有一个未知坐标，你如何计算两点之间的距离？你无法计算。整个样本向量变得无法使用，使其与所有其他样本的距离都无法定义。这就是为什么处理缺失数据，通常通过“插补”或对缺失值进行有根据的猜测，对于像聚类这样的多变量方法来说如此关键。
尺度不公的干扰（标准化）： 想象一下根据两个基因的表达来对样本进行聚类。基因 A 非常稳定，表达值在 1 到 2 之间。基因 B 则高度动态，值从 1 到 1000 不等。当我们计算两个样本之间的欧几里得距离时，基因 B 表达值的差异对最终距离值的贡献将远远大于基因 A 的差异。算法实际上会忽略基因 A。为了防止这种情况，我们使用标准化，通常通过重新缩放每个基因的表达谱，使其均值为 0，标准差为 1。这将所有基因置于一个公平的竞争环境中，确保聚类是由整体模式驱动，而不仅仅是由最不稳定的参与者驱动。有趣的是，这一步对于像 k-means 这样基于距离的方法至关重要，但对于基于相关性的聚类来说却是多余的。这是因为皮尔逊相关系数，根据其数学定义，本身就已经包含了一个内部的标准化步骤！。这是一个绝佳的例子，说明了理解底层数学原理如何能够指导我们的实践。

最后的疆域：高维度的诅咒

我们生活在一个三维世界中，我们的几何直觉也建立于此。但来自现代生物学的数据通常生活在一个有数千甚至数万个维度的空间里。每个基因都是一个维度。在这些难以想象的广阔空间中，我们的直觉完全失效。这就是维度灾难（curse of dimensionality）。

在高维空间中，任何东西都与其他任何东西相距遥远。一个点的最近邻和最远邻之间的距离差异，与这些距离本身相比，变得微乎其微。一个“邻域”的概念开始失去其意义。对于像 k-means 这样的算法来说，这是一场灾难。它赖以定义簇的距离变得模糊不清，失去了对比度。即使对于基于相关性的方法，随着噪声和不相关维度的数量增加，任何两点之间的相关性都趋向于零，而所有点对之间的不相似性都收敛于一。数据变成了一片没有特征、均匀的迷雾，其中看不到任何结构。

这是数据分析前沿的巨大挑战。这意味着仅仅收集越来越多的特征并不总是更好。它迫使我们变得更聪明，去开发选择信息最丰富特征的方法，或发明在这些奇异几何中更具鲁棒性的新型算法。但有时，最聪明的解决方案是对视角做一个简单的改变。在一个典型的基因表达研究中，我们可能有数千个基因（ $p$ ）但只有几十个样本（ $n$ ）。在 $p$ 维空间中对样本进行聚类是一个被诅咒的问题。但如果我们把问题颠倒过来呢？如果我们是在 $n$ 维的样本空间中对基因进行聚类呢？由于 $n$ 很小，这个诅咒就消失了。问题再次变得易于处理，算法的选择再次取决于基因簇的预期形状，而不是与高维空间的虚空进行绝望的斗争。

这段旅程，从对相似项目进行分组的简单行为，到与高维奇异几何的搏斗，揭示了数据分析的灵魂。它是算法的蛮力计算与人类科学家细致、直观且时而富有创造性的指导之间的合作。正是在这种合作中，混沌化为秩序，数据化为发现。

应用与跨学科联系

我们花了一些时间来理解聚类分析的机制——这些数学引擎筛选数据以寻找隐藏的部落。但意义何在？这种抽象的分类程序真的与我们看到、感觉到并试图理解的世界相连吗？你会欣喜地发现，答案是肯定的。一个基础科学思想的真正美妙之处，不仅在于其内在的优雅，更在于其以意想不到的方式照亮世界的力量。聚类就是这样一个思想。它是一种描述结构的通用语言，一旦你学会说它，你就会开始在任何地方看到模式，从你自己大脑的构造到宇宙的宏伟织锦。

解码生命蓝图

也许没有任何地方比在现代生物学中，聚类分析产生的影响更具革命性。几个世纪以来，生物学家通过显微镜观察，根据细胞的形状和外观精心描述它们。但如果一个细胞的真正身份不在于其形态，而在于其功能——其内部的遗传程序呢？单细胞RNA测序（scRNA-seq）给了我们读取这个程序的能力，能够同时测量成千上万个单个细胞中数千个基因的活性。结果是数据的洪流，一个令人眼花缭乱的数字矩阵。我们如何理解它？我们进行聚类。

在这种背景下，聚类的基本目标是进行一种计算性的人口普查。通过根据细胞基因表达谱的相似性将它们分组，我们让数据本身告诉我们一个组织中存在哪些“类型”的细胞。一个表达神经传递相关基因的细胞簇成为一种神经元亚型的候选者；另一个表达免疫防御基因的簇很可能是一种小胶质细胞。我们从一堆混乱的细胞混合物，变成了一个整齐分类的、构成大脑或肾脏的细胞部件目录。

但这仅仅是开始。那么建筑蓝图呢？知道零件清单是一回事；知道它们如何组装是另一回事。这就是空间转录组学等技术的用武之地，它不是在分离的细胞悬液中测量基因表达，而是在一块物理的组织切片上进行测量。在这里，我们对组织切片上的点进行聚类。一组在基因表达空间中聚类在一起的相邻点揭示了一个独特的功能域——也许是大脑中有组织的皮层层次之一，或者是一个正在进行原肠胚形成的胚胎的特定区域。在非常真实的意义上，我们正在使用聚类来绘制生命结构的第一张真正的分子地图。

然而，这种绘图需要谨慎选择工具。大自然并非总是整洁有序。虽然健康大脑的层次可能在基因表达空间中形成行为良好、紧凑的簇，但癌性肿瘤则是另一回事。例如，胶质母细胞瘤可能会以蔓延、不规则的形状浸润健康组织。如果我们使用像 k-means 这样假设簇是大致球形的算法，它可能会错误地将这个单一、连续的肿瘤区域分割成几个虚假的部分。而像 DBSCAN 这样基于局部密度定义簇的算法则要娴熟得多。它可以在高维基因空间中追踪肿瘤的任意、非凸形状，从而更忠实地表征生物现实。算法的选择不仅仅是一个技术细节；它是我们对所研究世界几何形状假设的声明。

分子的复杂舞蹈

如果我们能对细胞进行聚类，我们能走得更深吗？我们能对分子本身进行聚类吗？蛋白质的世界并非静止。一个蛋白质，如酶抑制剂，是一个动态的实体，不断地在狂热的舞蹈中摆动、弯曲和折叠。分子动力学（MD）模拟让我们能够观察这场舞蹈，随时间生成数百万个“快照”或构象。为了分析这一轨迹，我们可以对构象进行聚类。通过将结构相似的快照分组，我们可以识别蛋白质的主要“姿态”或构象亚态。一个簇可能代表准备结合其目标的“开放”状态，而另一个簇可能是“关闭”的非活动状态。理解这些稳定状态的景观以及它们之间的转换，是理解蛋白质如何执行其功能以及如何设计药物将其锁定在期望状态的关键。

这种在点云中寻找结构的原则延伸到了我们所能看到的极限。利用超分辨率显微技术，神经科学家可以精确定位突触内单个支架蛋白的位置——突触是神经元进行交流的微小连接点。所得数据是一个点模式，一片定位点的云。这片云有结构吗？通过应用基于密度的聚类，研究人员可以识别这些蛋白质聚集的“热点”。这些结构簇是突触小泡释放位点物理位置的有力候选，而这正是思想和记忆的基本机制。当然，这种推断并非轻率作出。它需要一个严格的统计框架来确保这些簇不仅仅是随机波动，并且需要功能性验证——例如，证明这些结构热点与触发释放的钙通道共定位。

分子的世界也带来了信号混合的挑战。免疫系统通过检查由 HLA 分子呈现在细胞表面的小蛋白质片段（称为肽）来识别受感染的细胞。在单一个体内，有多种类型的 HLA 分子，每种都有其自身的“偏好”，决定了它会展示哪种类型的肽。一次性提取所有这些肽的实验会得到一个混合的信号袋。我们如何能学习每种 HLA 类型的独特偏好或基序呢？这正是聚类的完美任务。复杂的算法，通常基于概率混合模型，可以处理这个杂乱的肽序列列表并对其进行解卷积，将肽分类成共享共同序列基序的组。结果是底层信号的清晰分离，这是设计疫苗和个性化癌症免疫疗法的关键一步。

从星辰到购物车：一种普适的逻辑

当我们看到同一个思想连接了看似无关的学科时，聚类的真正威力就显现出来了。在 1980 年代，天体物理学家需要一种方法来在他们的模拟和宇宙巡天中识别引力束缚的结构。他们开发了一种简单而强大的方法，称为“朋友的朋友”(Friends-of-Friends)算法。想象每个星系都是一个人。任何两个在某个“连接长度”之内的星系都被声明为“朋友”。然后，算法会找到所有这样的星系群，其中每个成员都通过一条友谊链与其他所有成员相连。这些群组就是星系团和超星系团，宇宙中最大的结构。

现在，让我们做一个惊人的飞跃。用顾客替换星系，用描述他们购买行为的特征向量（例如，购买频率、平均花费、购买的产品类型）替换他们在空间中的位置。我们可以应用完全相同的“朋友的朋友”逻辑。购买习惯相似的两个顾客是“朋友”。然后，算法将识别出所有通过相似行为链相互连接的顾客群体。这些就是你的市场细分——“忠诚的高消费者”、“偶尔的折扣猎手”等等。一个为绘制宇宙地图而设计的算法，可以无缝地被重新用于绘制市场地图，这一事实惊人地证明了数学抽象的统一力量。其基本原理——物体在某个抽象空间中基于邻近性进行分组——是普适的。

知识的边缘：“群组”是什么？

这把我们带到了最后一个，更具哲学性的观点。聚类是用于发现的工具还是用于确认的工具？答案是两者皆是，而区分这一点至关重要。

考虑一个药物试验。一个监督模型可能被训练来根据患者的基因组数据预测他们是否会对药物产生平均意义上的反应。但如果有一小部分独特的患者亚群——比如说，其中的 10%——他们拥有独特的基因谱，使他们对药物反应异常好呢？一个为最小化所有患者的平均误差而优化的监督模型，可能会完全忽略这个信号，将这些特殊响应者视为服务于正确预测大多数人而产生的噪声。然而，无监督聚类并不受预定义结果的束缚。它只是在基因组数据本身中寻找结构。它可能会自然地根据这些特殊患者独特的基因表达模式将他们分到自己的簇中，从而揭示一个监督模型视而不见的发现。这就是探索性数据分析的精神，也是个性化医疗的引擎。

这引出了最深层的问题：什么是“物种”？它是人类基于可观察特征（如形态）发明的标签吗？如果是这样，识别物种就是一个监督学习问题：我们有了标签，我们的任务是学习一个函数，将新的个体分配到这些预定义的盒子里。或者，“物种”是数据本身的涌现属性，是广阔遗传可能性空间中的真实结构，我们应该能够发现它？如果是这样，它应该是一个无监督聚类问题：我们应该能够将遗传数据输入算法，并让它返回“真实”的物种簇。

当然，现实是奇妙而复杂的。对物种的不同生物学定义（例如，基于繁殖兼容性与基于形态学）可能导致不同且有时相互冲突的分组。“可以与之杂交”的关系并不总是传递性的，不像“与……在同一个簇中”的关系。因此，没有任何单一的无监督聚类目标能保证恢复像“物种”这样多方面的概念。

于是我们回到了原点。聚类分析为我们提供了一种强大的、定量的语言来谈论群组和结构。它帮助我们在组织中找到细胞类型，蛋白质的功能状态，星系的超星系团以及市场中的细分。但它也迫使我们对自己所使用的类别保持诚实。它向我们展示，有些群组是清晰明确的，而另一些则是模糊和偶然的。它揭示了有些问题是关于将世界分类到我们已经建好的盒子里，而另一些——最激动人心的那些——是关于发现大自然为自己建造的盒子。聚类的旅程，归根结底，是一场深入知识结构本身的旅程。