选择最佳聚类数

玻尔百科

定义

选择最佳聚类数是无监督学习中的一个关键模型选择过程，旨在确定给定数据集最理想的分组数量。该过程通常利用肘部法、轮廓系数、间隔统计量或贝叶斯信息准则等评估指标，通过衡量簇内紧凑性与簇间分离度来确定最佳参数。由于最佳聚类数受距离度量和具体研究目标的影响，研究者通常需要结合交叉验证等稳定性分析方法来确保所选结构的健壮性。

核心要点

肘部法则提供了一种直观的方法来寻找最佳 $k$ 值，通过识别簇内紧密度（WCSS）呈现边际效益递减的点。
像轮廓系数和间隙统计量这样的客观方法，基于内聚性和分离度或通过与随机数据的比较来评估聚类质量。
信息论准则，如贝叶斯信息准则（BIC），将该问题视为模型选择，旨在平衡数据拟合度与模型复杂性。
“正确”的聚类数并非绝对；它取决于所使用的距离度量以及对数据提出的具体问题。
通过交叉验证等方法进行稳定性分析是至关重要的最后一步，以确认所选的聚类结构是稳健且有意义的。

引言

在数据中寻找模式的行为，即聚类，是现代科学与分析的基石。我们对相似的数据点进行分组，以揭示其潜在结构，无论是将客户划分为不同群体，还是对星系进行分类。然而，在进行任何分组之前，都存在一个根本性挑战：我们应该寻找多少个簇？这个数字，记为 $k$ ，通常并不显而易见。选择过少的簇会合并不同的群体，掩盖宝贵的见解；选择过多的簇则会造成无意义的划分，这是在噪声中寻找模式的典型案例。本文旨在填补这一关键知识空白，为确定最佳聚类数提供全面的指南。在接下来的章节中，您将学习到寻找 $k$ 值的核心技术，从直观的启发式方法到严谨的统计方法。我们将首先探讨这些技术背后的基础“原理与机制”。然后，通过“应用与跨学科联系”的综述，我们将发现它们在现实世界中的变革力量，展示这一个简单的问题如何塑造从市场营销策略到物种的科学定义等方方面面。

原理与机制

想象一下，您是一位考古学家，刚刚出土了大量的陶器碎片。您的目标是将它们分拣成不同的组合，这些组合可能来自不同的历史时期或文化渊源。您会如何开始呢？您可能会将颜色、图案或材质相似的碎片归为一组。但是您应该分成几组呢？两组？十组？五十组？如果分组太少，您可能会将不同风格的碎片混为一谈。如果分组太多，您可能是在钻牛角尖，将每个微小的变异都视为一个新的类别。

这本质上就是聚类的根本挑战。我们面对的是一团数据点——无论是蛋白质、基因、客户还是陶器碎片——我们的任务是找到它们内在的结构。我们必须回答的最关键，也往往最困难的问题是：实际上存在多少个簇，或者说多少个组？这个数字，几乎普遍用字母 $k$ 表示，并非数据通常会直接告诉我们的。我们必须找到它。本章将带领我们探索科学家和数学家为回答这个问题而设计的那些优美而巧妙的原理。

肘部的直觉：一个边际效益递减的点

让我们从最简单、最直观的想法开始。一个好的簇是“紧密”的。其成员应该彼此靠近，围绕一个共同的中心聚集。我们如何一次性量化所有簇的这种“紧密度”呢？一个常用的度量是簇内平方和（Within-Cluster Sum of Squares, WCSS）。这个名字听起来复杂，但想法很简单。对于每个簇，我们首先找到它的中心（簇内所有点的平均值）。然后，对于该簇中的每个点，我们测量它到中心的平方距离。最后，我们将所有簇中所有点的这些平方距离相加。结果就是一个单一的数字，即 WCSS。较小的 WCSS 意味着簇在平均上更紧密、更紧凑。

那么，为了找到最佳的 $k$ 值，我们是否应该不断增加簇的数量，直到 WCSS 尽可能小呢？让我们思考一下。如果我们有 $n$ 个数据点，我们可以宣布每个点都是一个独立的簇。在这种情况下， $k=n$ 。每个簇只有一个成员，该点到其簇“中心”（即其自身）的距离为零。WCSS 将会是完美的零！但我们学到了什么吗？没有。我们只是返回了我们开始时的数据。这是一个典型的过拟合案例——创建了一个过于复杂的模型，它完美地描述了噪声，却没有揭示任何潜在的模式。

真正的艺术在于寻找平衡。我们想要一个小的 WCSS，但我们也想要一个简单的模型（一个小的 $k$ 值）。这种权衡引出了一种非常直观的图形工具：肘部法则（Elbow Method）。

我们对一系列不同的 $k$ 值（比如从1到10）运行聚类算法（如流行的k-means）。对于每次运行，我们都计算 WCSS。然后我们将这些 WCSS 值与 $k$ 值的关系绘制成图。我们通常会看到一条曲线，起初急剧下降，然后开始趋于平缓。急剧下降是好事，这意为着增加一个簇显著改善了我们分组的紧密度。但是当曲线变平时，增加更多簇所带来的收益就变得微不足道了。我们正在经历边际效益递减。

图上陡峭下降结束、曲线开始变平的点，看起来就像一只弯曲手臂的肘部。这个“肘部”就是我们对最佳聚类数的候选。这是那个最佳平衡点，是在我们开始钻牛角尖之前最后一个显著增益点。例如，在根据物理特性对蛋白质进行聚类时，生物学家可能会为不同数量的假定“家族”计算 WCSS。如果 WCSS 从 $k=1$ 到 $k=4$ 急剧下降，但在 $k > 4$ 后只是缓慢下降，生物学家会推断样本中可能存在四个不同的蛋白质家族。这个选择不是通过找到最低的 WCSS 做出的，而是通过找到 WCSS 的减少量不再值得增加复杂性成本的那个点。

超越肉眼：形式化搜索

肘部法则是极好的起点，但如果“肘部”更像一条平缓的曲线怎么办？视觉检查可能带有主观性。我们需要更严谨、更客观的方法来找到 $k$ 。驱动这些先进方法的关键洞见是提出一个更复杂的问题：“我的聚类结果比随机偶然情况下预期的结果好多少？”

这就是间隙统计量（Gap Statistic）背后的哲学。我们不只看来自我们数据的 WCSS 曲线，而是创建一个“零假设”数据集——一个没有内在簇结构的数据集，比如在一个盒子内随机均匀散布的点。我们对这个随机数据运行聚类算法并计算其 WCSS。我们多次重复这个过程，以获得无簇数据的平均 WCSS。“间隙”就是这个随机数据的 WCSS 与我们真实数据的 WCSS 之间的差异（通常在对数尺度上进行比较）。如果我们的数据具有强聚类结构，其 WCSS 将远低于随机数据的 WCSS，从而产生一个大的间隙。然后，在考虑了统计变异性之后，我们选择使这个间隙最大化的 $k$ 值。该方法的强大之处在于，如果数据真的没有结构，那么对于所有的 $k$ 值，间隙都会很小，从而正确地告诉我们，也许 $k=1$ 是最好的答案。

我们也可以让肘部概念本身更加形式化。“肘部”其实就是一个高曲率点。在微积分中，我们用二阶导数来衡量曲率。对于我们的离散 WCSS 值图，我们可以使用离散二阶导数来通过算法找到最大正曲率点。这为我们提供了一种精确、可复现的方法来定位肘部，而无需依赖肉眼。同样地，这个数学思想不仅可以应用于 k-means 的 WCSS，还可以应用于层次聚类中的合并高度，从而提供了一种在不同聚类情境下寻找肘部的统一方法。

单点的视角：轮廓系数

到目前为止，我们的方法都是“全局”的——它们着眼于整个数据集的总 WCSS。如果我们采用一种更“局部”、更民主的方法，询问每个数据点对其自身位置的“感受”如何呢？这就是轮廓系数（Silhouette Score）背后的优美思想。

对于每一个数据点 $i$ ，我们计算两个量：

$a(i)$ ：点 $i$ 到其所在簇中所有其他点的平均距离。这是一个衡量内聚性的指标。小的 $a(i)$ 意味着该点很好地融入了其自身的“家庭”。
$b(i)$ ：点 $i$ 到最近邻簇中所有点的平均距离。这是一个衡量分离度的指标。大的 $b(i)$ 意味着该点远离其他“家庭”。

一个聚类良好的点应该有小的 $a(i)$ 和大的 $b(i)$ 。轮廓系数巧妙地将这两个量合并成一个单一的数字： $s(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}}$ 让我们来看看这个公式。

如果 $a(i)$ 远小于 $b(i)$ ，分数将接近 $+1$ ，表示分配效果极佳。
如果 $a(i)$ 与 $b(i)$ 相近，分数将接近 $0$ ，表明该点位于两个簇的边界上。
如果 $a(i)$ 大于 $b(i)$ ，分数将是负数！这意味着该点平均而言，离邻近簇的成员比离自己簇的成员更近——这明确表明它可能被错误分类了。

为了找到最佳的 $k$ 值，我们只需计算数据集中每个点的轮廓系数，然后取平均值。我们对不同的 $k$ 值重复此过程，产生最高平均轮廓系数的那个 $k$ 值就是我们的获胜者。这种方法之所以强大，是因为它奖励那些既内部紧密又彼此分离良好的簇。但需注意：在非常高维的空间中，一种被称为“维度灾难”的奇特几何效应可能使所有点看起来彼此大致等距。在这种情况下， $a(i)$ 和 $b(i)$ 之间的区别可能变得模糊，轮廓系数的信息量可能会降低。

宏大统一：信息、似然与复杂性

我们已经见识了几种不同的工具——WCSS、间隙统计量、轮廓系数。它们看起来像是一堆巧妙的技巧。但是否有一个更深层次、统一的原理在起作用？答案是肯定的，而且它将我们带到了现代统计学和信息论的核心。

让我们重新定义我们的目标。与其仅仅划分数据，不如将聚类看作是建立一个生成模型。例如，我们可以假设我们的数据是由几种简单分布（如钟形曲线，即高斯分布）的混合体生成的。那么，我们寻找 $k$ 个簇的任务就变成了一个统计学中的标准问题：模型选择。

这里是第一个美妙的联系。WCSS，我们衡量紧密度的简单几何度量，与球形高斯簇模型下数据的对数似然（log-likelihood）直接相关。最大化数据的似然性等同于最小化 WCSS。这是简单启发式方法与统计推断基石之间的深刻联系。

当然，就像 WCSS 一样，仅仅最大化似然性是不够的；它总是会偏爱最复杂的模型（ $k=n$ ）。统计学中的解决方案是惩罚模型的复杂性。这引出了像贝叶斯信息准则（Bayesian Information Criterion, BIC）这样的标准，其形式优雅： $\text{Criterion} = (\text{拟合不佳项}) + (\text{复杂性项})$ 对于我们的聚类问题，这可以转化为一个我们希望最小化的目标函数： $J'(k) = np \ln(W(k)) + (kp+1)\ln(n)$ 第一项 $np \ln(W(k))$ 随着拟合度的提高而变小（即 $W(k)$ 减小）。第二项 $(kp+1)\ln(n)$ 是惩罚项；它随着我们增加更多簇而变大（即 $k$ 增加）。使该函数最小化的 $k$ 值代表了在拟合数据和保持模型简单性之间的最佳平衡。来自信息论的一个类似思想，即最小描述长度（Minimum Description Length, MDL）原则，指出最好的模型是那个能够对数据进行最压缩描述的模型，这也导致了在数据拟合和模型复杂性之间的权衡。

这种信息论的观点甚至让我们对我们朴素的肘部法则有了更深的理解。聚类的过程为我们提供了信息。信息的量可以通过数据和聚类标签之间的互信息（mutual information）来量化。事实证明，增加一个簇所带来的互信息增益与 WCSS 的分数下降大致成正比。 $\Delta I(k) \approx \frac{p}{2} \frac{W(k-1)-W(k)}{W(k-1)}$ 其中 $p$ 是维度数。“肘部”就是这个信息增益下降到某个有意义的阈值以下的点。我们对“边际效益递减”的直观追求，从始至终都是对“信息递减”的追求！

最终检验：结构是否稳定？

我们选择了一个 $k$ 值。我们使用了一种复杂的方法。但我们如何能确定我们发现的结构是真实的，而不仅仅是我们特定数据集或算法随机起点的产物呢？我们需要测试其稳定性。

对此最强大的工具是交叉验证（cross-validation）。这个想法简单但深刻。将您的数据随机分成两半：一个训练集和一个测试集。

仅在训练集上运行您的聚类算法，以找到簇中心。
然后，使用这些中心对测试集中的点进行分类。衡量从前半部分学到的结构在多大程度上“预测”了后半部分。
用不同的随机分割多次重复此过程。

如果某个 $k$ 值的聚类真正捕捉到了数据中真实存在的潜在结构，那么结果应该是稳定的。在一半数据中找到的簇应该与在另一半数据中找到的簇非常相似。您选择的 $k$ 值不仅应该在像轮廓系数或 BIC 这样的度量上得分高，而且还应该在这些重采样实验中产生一致且可复现的结果。这最后一步的稳定性检查，给予了我们信心，让我们敢于宣称我们所发现的结构不仅仅是噪声中的模式，而是真理的回响。

应用与跨学科联系

我们花了一些时间探讨聚类背后的原理以及如何选择正确分组（或簇）数量的技术问题。这似乎是一个相当抽象的数学难题。但当我们走出课堂，就会发现这个问题从世界的每个角落回望着我们。寻找“正确”的聚类数不仅仅是一项统计练习；它是一种根本性的发现行为，是一种向自然提问的方式：“你的自然分类是什么？”或“这里的隐藏结构是什么？”正如我们将看到的，答案可以帮助我们组织超市、设计城市、创造新药，甚至重新定义我们所谓的“物种”的含义。

从市场到都市：人类世界中的聚类

让我们从熟悉的事物开始：一个庞大的在线市场。当您购买一台新咖啡机时，网站会向您推荐特定品牌的咖啡滤纸或一个新杯子。它怎么知道的？它从数百万用户的行为中学习到，这些产品属于同一个“群体”。这就是聚类的实际应用。通过分析共同购买数据，我们可以创建一张产品地图，这张地图不是基于产品的物理属性，而是基于它们在我们生活中的关系。如果我们有产品被一同购买的频率数据，我们就可以定义它们之间的“距离”——高的共同购买相似性意味着小的距离。利用层次聚类，我们可以构建一个分类体系，一棵关系树。在哪里“切割”这棵树以定义产品类别这一关键问题，正是选择聚类数的问题。一个好的选择，通过使用像调整兰德指数（Adjusted Rand Index）这样的度量与已知类别进行验证，可以揭示出一个反映我们自己对市场心智地图的结构。

同样的想法可以从产品转向人。想象一下，试图通过一项调查来理解公众舆论的格局。每个受访者对一系列问题在一到五的量表上给出答案。我们能找到舆论的“部落”，即人群中不同的子群体吗？我们可以将每个人的答案列表视为高维空间中的一个点。寻找舆论部落的任务，就变成了在这个空间中寻找簇。但在这里，我们很少有“真实标签”可以用来比较。我们如何决定是否存在两个、三个或十个不同的意见群体呢？

在这里，我们需要一个更根本的原则。从某种程度上说，自然偏爱简洁。一个好的模型是既能很好地解释数据，又不过于复杂的模型。这就是像贝叶斯信息准则（BIC）这样的信息准则的精髓。对于每个潜在的聚类数 $k$ ，我们可以计算出簇对数据的解释程度，但我们要为引入的每一点复杂性增加惩罚——即为我们必须定义的每一个新的簇中心点。最佳的 $k$ 值是那个在准确性和简洁性之间达到最美平衡的。在那个点上，增加另一个簇给我们的模型带来的复杂性超过了它对我们理解的提升。

人类行为的世界不仅仅是静态的观点，它也是动态的运动。思考一下一个城市的交通流，由成千上万的GPS轨迹捕捉。城市规划者想知道人们走的主要路线。原始数据是混乱的：每次出行的长度和路径都略有不同。在我们开始聚类之前，我们面临一个创造性的挑战：我们如何定义两条轨迹“相似”的含义？一个巧妙的解决方案是重采样每条路径，就像拉伸或收缩一根橡皮筋，使得所有轨迹都由相同数量的点表示。一旦采用这种通用格式，它们就变成了高维空间中的点，我们就可以对它们进行聚类。

要选择路线的数量，我们可以使用一种非常直观的启发式方法，称为“肘部法则”。随着我们增加聚类数 $k$ ，簇内的总变异（簇内平方和，或WCSS）总是会下降。但改善的幅度会趋于平缓。如果我们将 WCSS 与 $k$ 的关系绘成图，曲线通常看起来像一只手臂，在最佳 $k$ 值处有一个清晰的“肘部”。这个肘部就是边际效益递减的点，是增加一个新簇不再给我们带来太多新信息的那个点。这是一个简单、直观的经验法则，常常能揭示数据中“自然”的模式数量。

然而，一个迷人的微妙之处出现了。“正确”的聚类数是数据的绝对属性吗？还是它取决于我们所问的问题？假设在我们的市场分析中，我们根据每个客户产生的收入对其进行加权。我们不再问“自然的消费行为群体是什么？”而是问“从商业角度看，最有意义的群体是什么？”突然之间，一个小的、但高收入的群体可能变得足够重要，被视为一个独立的簇，而一个大的、低收入的群体可能会与另一个合并。通过改变权重，我们改变了数据的有效“形状”，我们曲线的肘部也可能移动。因此，“正确”的聚类数并不总是自然界中一个不可改变的事实，而是我们提出的特定问题的答案。

数据的形状：看见不可见之物

这把我们带到了一个更深层次的观点。我们找到簇的能力，以及我们能找到多少个簇，关键取决于我们如何看待数据——取决于我们对距离的定义。我们日常的尺子测量的是欧几里得距离，即两点之间的直线。这对于圆形的、球状的数据云来说非常有效。但如果我们的数据被拉伸成长而薄的椭圆形呢？一个使用欧几里得尺子的标准聚类算法将会惨败，它常常会直接切穿一个自然的椭圆簇，因为它对变量之间的相关性视而不见。

要看到真实的结构，我们需要一把更聪明的尺子。马氏距离（Mahalanobis distance）正是这样一把尺子。它是一种在测量距离时考虑了数据的相关性和尺度的度量方式。这就像戴上了一副特殊的眼镜，在测量前将椭圆形的簇变回圆形。通过选择一个度量标准，我们实际上是在对我们簇的预期形状做出声明。使用错误的度量标准可能会隐藏那些显而易见的簇，而使用正确的度量标准则能让它们凸显出来。因此，最佳聚类数可能会根据我们假设的几何形状而发生巨大变化。

那么，对于完全没有内在几何结构的数据，比如社交网络，又该怎么办呢？它只是一组节点和它们之间的连接。在这里，现代机器学习领域的一个绝妙想法是创造一个几何结构。像 node2vec 这样的技术可以为每个节点学习一个向量表示——即一个嵌入（embedding），将网络中“相近”的节点放置在新的向量空间中的邻近位置。然后，我们可以将我们的几何聚类工具，如 k-means，应用于这个嵌入空间。但这提出了一个深刻的问题：通过观察嵌入的几何结构（例如，使用肘部法则）发现的社群结构，是否与直接分析网络连接（例如，通过最大化模块度）发现的社群结构相匹配？有时它们完全一致。其他时候，它们对“正确”的社群数量给出不同的答案，揭示了图的拓扑结构和嵌入的几何结构之间一种迷人的张力。

重新定义世界：聚类在科学前沿的应用

我们已经看到，选择聚类数是一个内涵丰富的问题，对商业、社会科学和工程学都有影响。但其最深远的影响可能是在自然科学领域，它不仅成为分析数据的工具，更成为塑造我们理解世界所用概念的工具。

思考一下药物发现的挑战。从数百万种化合物的筛选中，几百个“命中物”可能显示出一些前景。为了从中挑选几十个进行昂贵的后续实验，我们不想挑选20个同一分子的微小变体。我们想要结构多样性。在这里，聚类至关重要。我们首先定义分子间的“化学距离”，比如用于分子指纹的Tanimoto距离。然后我们对命中物进行聚类。我们选择的聚类数 $k$ 决定了我们寻找多样性时的粒度。从 $k$ 个簇中各选一个代表，确保我们正在探索化学空间的广度，从而增加找到真正新型疗法的机会。

让我们更进一步，探讨生物学中最大的问题之一：什么是物种？传统定义涉及生殖隔离，但这通常无法观察到。基因型聚类物种概念（Genotypic Cluster Species Concept）提供了一种革命性的、数据驱动的替代方案：一个物种就是所有可能基因型空间中的一个独特簇。在这种范式下，发现物种的工作变成了一个聚类问题。科学家们从许多个体中收集遗传数据，并使用强大的统计混合模型——与用于寻找舆论部落的模型属于同一数学家族——来探究多少个“祖先群体”或簇最能解释遗传变异。使用像 BIC 或交叉验证这样的有原则的方法来选择聚类数 $k$ ，不再仅仅是一个技术步骤。这是一个关于样本中存在多少物种的假说。抽象的模型选择问题变成了在自然的关节处进行分割的具体行动。

这种思维方式是当今“组学”革命的核心。我们现在可以从个体身上收集巨大的、多层次的数据集——他们的宿主基因组、肠道微生物组、代谢产物。一个紧迫的问题是，在这个巨大的宿主-微生物空间中，是否存在与健康或疾病相对应的离散、稳定的状态，即“生态状态”（ecostates）。找到这些状态是一个极其复杂的聚类问题。它不仅需要选择正确的聚类数，还需要以极高的统计严谨性来完成：对不同数据类型使用正确的转换（如对成分性的微生物组数据使用中心对数比变换），并细致地控制饮食、地理和年龄等混杂变量。找到一个簇很容易；证明它是一个真实的生物信号而非统计假象，才是真正的挑战。

也许最优雅的例子之一来自免疫学。您的免疫系统通过检查由HLA分子在细胞表面呈递的蛋白质小片段（称为肽）来识别外来入侵者。由于您从父母双方继承了不同的HLA基因，您体内发现的肽的集合是一个混合物，源于少数未知的底层HLA“规则”。对科学家来说，挑战在于观察这数千种肽的杂乱混合物，并找出有多少个不同的规则手册，即 $k$ 值，在生成它们。这对于概率混合模型来说是一个完美的解卷积问题。在这里，找到最佳的 $k$ 值，实际上就是发现正在塑造您免疫反应的活性生物机器的数量。

因此，我们回到了起点，但带着新的领悟。这个听起来简单的问题，“有多少个组？”是一只变色龙，在每种情境下都调整着自己的含义。对于商人来说，它可以是一个实际问题；对于生物学家来说，它可以是一个哲学问题；对于统计学家来说，它可以是一个技术问题。我们寻求答案的旅程为我们配备了多样的工具包，从肘部法则的简单几何学到信息论的深层原理。但更重要的是，它揭示了一个美妙的真理：寻找结构、寻找简洁、寻找“正确”的类别数量，不仅仅是我们对数据所做的事情。它是科学探索、理解我们世界的一个基本组成部分。