
在数据分析领域,最基本的任务之一就是从海量信息中找出有意义的群组——这个过程被称为聚类。特别是层次聚类,它构建了一个数据点的嵌套族谱,揭示了各个尺度上的结构。然而,整个过程取决于一个关键决策:当我们有两个点集时,如何衡量它们之间的距离?这个决策由连接准则(linkage criterion)决定,它如同一面透镜,深刻地塑造了我们感知数据内部结构的方式。不同的透镜可以揭示完全不同的现实,因此理解这一选择对任何从业者都至关重要。
本文旨在解决围绕连接准则影响的关键知识空白。我们将揭开这一核心概念的神秘面纱,从抽象理论走向具体后果。本文的探讨分为两个主要部分。首先,在“原理与机制”部分,我们将剖析最常见的连接准则——单一连接、完全连接、平均连接和 Ward 方法——以理解其底层理念以及它们旨在发现的独特结构类型。我们还将学习如何通过树状图来解释其输出。然后,在“应用与跨学科联系”部分,我们将看到这些原理的实际应用,探索连接准则的选择如何解决现实世界的问题,并推动生物信息学、神经科学和自然语言处理等不同领域的发现。读完本文,您将认识到连接准则不仅仅是一个技术参数,更是一种强大的科学探究工具。
想象一下,你是一位来自过去时代的地图绘制师,任务是为新发现的群岛绘制地图。你有一本详细的航海日志,记录了每对岛屿之间的距离,但你没有地图。你的目标是将这些岛屿划分为省、县和市。你会如何开始?你可能会先找出最近的两个岛屿,将它们划为一个市。现在你面临一个新问题:你手头既有单个的岛屿,也有一个市。一个岛屿到这个新成立的市的距离是多少?是到这个市最近海岸的距离?还是最远海岸的距离?抑或是到市内所有点的平均距离?
这正是层次聚类的核心挑战。我们从一系列单个数据点开始——无论它们是医学研究中的患者、基因组中的基因,还是星系中的恒星——并且我们拥有衡量每对数据点之间相异度(或距离)的方法。我们的目标是建立一个簇的层次结构,从最精细的粒度(每个点自成一簇)到最粗糙的粒度(所有点同属一个大簇)。最常见的策略是凝聚式聚类(agglomerative clustering):一种“自下而上”的方法,我们从每个点作为一个独立的簇开始,迭代地合并两个“最近”的簇,直到只剩下一个簇。一种不太常见的“自上而下”策略是分裂式聚类(divisive clustering),它从所有点都在一个簇开始,然后递归地将它们分离开来。
在接下来的探讨中,我们将专注于凝聚式方法,因为它迫使我们直面那个关键问题。
凝聚式聚类的整个逻辑都取决于我们在每一步都必须做出的一个关键决策:我们如何定义两个点簇之间的距离?这个规则,这个定义,就是所谓的连接准则。它不是数据本身的属性,而是我们选择观察数据的透镜。正如我们将看到的,更换透镜可以从根本上改变我们发现的“现实”。
假设我们有两个簇,簇 和簇 。我们知道 中任意一个点 与 中任意一个点 之间的距离 。连接准则就是将所有这些个体距离组合成一个单一数字 的方法,这个数字代表了两个群组之间的距离。它就是我们那位地图绘制师所面临困境的答案。让我们来看看几种最著名的“方法”。
每种连接准则对于“群组相近”的含义都有其独特的“理念”。理解这些理念是明智地使用它们的关键。
单一连接(Single linkage)将两个簇之间的距离定义为其最近成员之间的距离。
这是一种“最近邻”方法。它是一种乐观的准则:只要簇 中有一个成员与簇 中的一个成员相近,这两个簇就被视为整体相近。这种理念会带来一个显著且决定性的后果:链式效应(chaining)。
想象两组密集、紧凑的点,就像我们某个场景中的紧密方块点集 和 。这两组点相距很远。但是,假设有一座由中间点构成的稀疏“桥梁”将它们连接起来,就像过河的踏脚石。单一连接会“看到”第一组点与第一块踏脚石之间的微小距离,并将它们合并。然后它会看到这个新形成的、更大的簇与下一块踏脚石之间的微小距离,并再次合并。它愉快地从一个点跳到下一个点,完全没有意识到它正在创建一个长而伸展的、蛇形的簇,这个簇连接了两个本应非常不同的群组。这是因为它只关注当前可用的那个最短的连接。
这种行为不是一个缺陷,而是一个特性。它揭示了簇是连通的,即使它们在全局上并不紧凑。事实上,由单一连接构建的层次结构在数学上等同于在数据上构建最小生成树(Minimum Spanning Tree, MST)的过程——这是一个深刻而优美的联系,解释了它为什么对路径和连通性的敏感度高于对紧凑性的敏感度。
完全连接(Complete linkage)在理念上与单一连接正好相反。它将两个簇之间的距离定义为其最远成员之间的距离。
这是一种“最远邻”方法。它是一种悲观的,或者说是持怀疑态度的准则。一个簇只有当其所有成员都与另一个簇的所有成员相对较近时,才被认为与另一个簇相近。只要有一对成员相距遥远,它就会判定这两个簇相距很远。
让我们回到由桥梁连接的两组点的例子。完全连接会拒绝通过桥梁合并这两个主要群组。为什么?因为要合并它们,算法将不得不接受一个“直径”——即其最远两点之间的距离——巨大的簇。 组远侧的一个点与 组远侧的一个点之间的距离很大,完全连接看到这个巨大的距离就会退缩。相反,它会倾向于继续合并那些能保持簇“紧凑性”的点,从而产生紧密、球形的群组。这使得完全连接非常擅长识别清晰的、球状的簇,并且作为一个附带效果,它也非常善于分离离群点。离群点本质上远离大多数其他点。完全连接会看到这个巨大的距离,并推迟将离群点合并到主簇中,直到整个过程的最后阶段。
如果说单一连接是乐观主义者,完全连接是悲观主义者,那么平均连接(average linkage)就是实用主义者。它采用一种民主的方式,将两个簇之间的距离定义为其成员之间所有成对距离的平均值。
这种方法,也被称为 UPGMA(Unweighted Pair Group Method with Arithmetic Mean,非加权配对算术平均法),是一种折衷方案。它对离群点的敏感度低于单一连接,但对球形簇的偏好又低于完全连接。它考虑了簇的整体结构,而不仅仅是极端情况。为了解其实际应用,我们考虑一个简单的例子:根据某些医疗特征对五名患者 进行聚类。经过几步之后,我们可能得到一个簇 ,并想知道它与另一名患者 的距离。平均连接法指示我们计算 到 的距离和 到 的距离,然后简单地将这两个值取平均,即可得到最终的簇间距离。
最后,我们来看一个理念完全不同的准则:Ward 方法。它根本不以同样的方式定义距离。相反,它提出了一个信息论问题:在每一步,我可以合并哪两个簇,才能使簇内总“方差”的增加量最小?
你可以将方差看作是衡量簇“混乱度”或“分散度”的指标。Ward 方法致力于保持簇的整洁。它会审视所有可能的合并,并选择能产生最整洁新簇的那个合并。“合并成本”是簇内总平方和的增加量。对于欧几里得距离,这个成本恰好与待合并簇的质心之间距离的平方成正比,并按簇的大小加权。Ward 连接法倾向于产生非常紧凑、大小均等的簇,是一种非常流行且强大的默认选择。然而,重要的是要记住,Ward 方法树状图上的高度代表的是方差的增加量,而不是简单的距离,这使得它们的解释略有不同。
这种自下而上合并过程的结果是一个称为树状图(dendrogram)的树形图。它是数据如何被分组的可视化故事。底部的叶子是单个数据点。向上移动时,线条连接形成分支。每个分支点或节点代表一次合并。
树状图最关键的特征是纵轴。任何节点的高度都对应于该合并发生时的相异度值(由所选的连接准则定义)。短的分支意味着非常相似的簇被合并了。合并点之间较长的垂直线段表示下方的簇分离得很好,算法必须“延伸”相当一段距离才能找到下一个合并对象。
那么横轴呢?它……没有任何意义。叶子的从左到右的顺序是树绘制方式的偶然结果。你可以围绕任何一个合并点翻转其下的分支,而完全不改变层次结构或树状图的含义。两个被画在一起的叶子不一定比两个被画得很远的叶子更相似。所有有意义的距离信息都编码在纵向维度上。
通过在某个高度水平“切割”树状图,我们可以获得数据的一个“扁平”划分,即划分为特定数量的簇。任何在切割线上方发生的合并都会被忽略,而穿过切割线的那些分支就定义了各个簇。
我们从一个真实距离矩阵 开始,我们的聚类过程创建了一个树状图。这个树状图定义了它自己的一套距离。两点之间的共表型距离(cophenetic distance) 是树状图中它们首次被合并到同一个簇时的高度。
这样我们就得到了两组距离:原始距离 和由树所隐含的距离 。一个自然的问题随之产生:树状图在多大程度上代表了原始数据?聚类过程是“尊重”了原始距离,还是扭曲了它们?
我们可以用共表型相关系数(Cophenetic Correlation Coefficient, CCC)来回答这个问题。它就是原始距离向量与共表型距离向量之间的皮尔逊相关系数。接近 1.0 的 CCC 值意味着两者之间存在很强的线性关系。该层次结构是原始数据的高保真表示。接近 0 的值则表明树状结构打乱了原始距离,其表示效果很差。通过为不同连接准则产生的树状图计算 CCC,我们可以得到一个量化分数,来评判哪种方法最“适合”我们的数据。
连接准则的选择不仅仅是一个技术细节。它是一种建模选择,会对你的数据施加特定的几何结构。它决定了你是会发现长链还是紧凑的球体,你如何处理离群点,以及你的发现对噪声的鲁棒性如何。没有哪一个连接准则是“最好”的,只有最符合你所寻求发现的结构类型的准则。理解它们的原理和机制是实现这一发现的第一个也是最关键的一步。
我们花了一些时间来理解层次聚类的内部机制——可以说是游戏的规则。现在我们有了一套指令,可以为我们的数据点构建一个族谱,即树状图。这个过程的核心是一个看似微小的选择:连接准则。我们如何衡量两个簇之间的距离?是选择乐观的路线,看成员中最近的一对(单一连接)?还是悲观的路线,关注最远的一对(完全连接)?或者,也许是采用所有配对的民主平均值?
人们很容易将其视为一个纯粹的技术细节而忽略。但在科学中,你选择遵循的规则可以塑造你对整个世界的看法。连接准则就是这样一条规则。它不仅仅是一个需要调整的参数;它是我们审视数据的透镜。通过更换透镜,我们可以将不同的结构聚焦,曾经模糊不清的一团乱麻可以解析成一幅清晰、有意义的画面。让我们踏上一段旅程,看看这一个选择如何在不同的科学领域中产生回响,揭示它在塑造我们从人类疾病到思想结构等方方面面理解上的力量。
在最根本的层面上,连接准则是一种几何偏好的声明。想象你是一位雕塑家,你的原材料是一团数据点云。你想要雕刻出什么样的形状?
如果你选择完全连接,那你就是一位偏爱完美、紧凑球体的雕塑家。这种方法将两个簇之间的距离定义为其两个最远成员之间的距离。只有当一个群组中的每一个点都与另一个群组中的每一个点相对较近时,它才会合并这两个群组。这个严格、悲观的规则使其非常擅长雕刻出分离良好、呈球状的簇,并且对离群点具有鲁棒性。
相比之下,平均连接是一位更灵活的雕塑家。它考虑的是两个簇之间所有可能点对的平均距离。它不那么执着于完美的球体,通常是一个很好的折衷方案,对离群点的敏感度低于单一连接,但比完全连接更能捕捉非球形。
这个选择并不仅仅是审美上的。考虑一个简化的患者特征数据集。当数据自然形成两个紧凑、分离良好的群组时,完全连接和平均连接可能会讲述同一个故事,并识别出相同的两个不同患者群体。但如果其中一个群组是紧凑的簇,而另一个是细长的,代表一种沿连续谱发展的疾病呢?僵化的完全连接可能会将这个细长的群组分割成一系列小的、离散的团块。而更宽容的平均连接则可能正确地将其视为一个单一、连贯(尽管是伸展的)的实体。你选择的连接准则决定了你向同行科学家报告的是你发现了五种新的疾病亚型,还是只有一种但表现形式广泛的疾病。
现实世界很少像雕塑家的工作室那样干净;它充满混乱和噪声。想象你是一位医学信息学家,试图从多家医院的记录中解析患者身份。你计算每对记录之间的相似度分数。理想情况下,“John Smith”的所有记录彼此之间应该高度相似,而与“Jane Doe”的记录则非常不相似。但如果一个单一的数据录入错误——比如输错的出生年份——在 John 的一条记录和 Jane 的一条记录之间制造了一个虚假的高相似度,会发生什么?
这就是单一连接展示其奇特且有时是危险特性的地方。单一连接是永远的乐观主义者:它通过两个簇最近的成员来定义它们之间的距离。那一个虚假的连接就是它所需要的全部。它会愉快地将 John 的全部记录簇与 Jane 的全部记录簇合并。这种被称为“链式效应”的现象,就像一条八卦链:一个单一的联系就足以连接两个完整的社区。在这种情况下,这是一场灾难,会导致一个庞大且错误的患者档案。
在这样一个充满噪声的环境中,完全连接和平均连接的怀疑主义成了一种美德。它们会审视两个簇之间的所有连接。那一个虚假的连接被其他几十个低相似度的配对所“否决”。它们拒绝合并,正确地将 John 和 Jane 保持为独立的个体。这揭示了一个深刻的原则:理解你数据中预期的噪声和结构对于选择正确的规则至关重要。“最佳”连接准则并非普适的;它依赖于具体情境。
有了对连接准则行为方式的理解,我们现在可以把它们看作是用于科学发现的多功能工具箱。每种工具都有其用途,即它被设计用来发现的特定结构。
在现代生物信息学中,科学家们面临着惊人的复杂性。考虑一下理解基因功能的任务。我们可以通过与一个基因相关联的“基因本体论”(Gene Ontology, GO)术语集来描述它——这是一份其已知生物学角色的列表。这些 GO 术语之间的关系并不简单;它们形成一个复杂的图,一个巨大的知识网络。两个基因之间的“距离”是“语义上”的,基于它们共享功能的具体程度。这个距离在简单的欧几里得空间中不是一条直线。如果我们盲目地应用像 Ward 方法这样的连接方法(它专为欧几里得空间设计),就可能遇到麻烦。该算法可能会产生一个带有“倒置”(inversions)的树状图,即某次合并发生在比前一次合并更低的相异度上。这就像发现孩子比父母还年长一样——一个逻辑上的不可能,它告诉你用错了工具。相反,像平均连接这样的方法,它对空间的几何形状做的假设更少,因此成为一个更安全、更具原则性的选择。
从基因,我们转向药理学和新药的搜寻。一次高通量筛选可能会发现数千种对某个疾病靶点显示出活性的化合物。应该对哪些进行深入研究?我们不能只挑选 100 个最有效的;它们可能都只是同一个化学“骨架”的微小变体,这对药物开发来说是一条死胡同。我们需要的是化学多样性。层次聚类此时便能派上用场。通过将每个分子表示为一个结构“指纹”,并使用适当的距离(如 Tanimoto 距离)对它们进行聚类,化学家可以构建出它们的“化学空间”地图。像完全连接这样的连接准则在这里表现出色,因为它能划分出结构相似化合物的紧密簇。研究团队随后可以利用这张地图来选择一个多样化的组合:从每个主要家族中选出最有希望的候选者,确保他们正在探索广泛的化学可能性。
同样的结构映射逻辑也适用于我们所知的最复杂的物体:人脑。在神经科学中,研究人员可能会向受试者展示人脸、房屋、猫和椅子的图片,同时记录他们的大脑活动。然后他们可以计算一个表征相异度矩阵(Representational Dissimilarity Matrix, RDM),其中每个条目 衡量大脑对刺激 和刺激 的神经反应有多大不同。这个 RDM 是大脑内部“相似性空间”的一个快照。通过对这个 RDM 应用层次聚类,我们可以将大脑自己的归档系统可视化。大脑是否将所有动物归为一类?树状图会告诉我们答案。连接准则的选择充当了一个具体的科学问题。如果我们使用完全连接,我们是在问:“‘人脸’和‘房屋’这两个类别是否被完美且紧凑地分开了?” 一次发生得较晚、层次较高的合并会证实这一点。如果我们使用单一连接,我们是在问:“是否存在任何‘桥梁’刺激,比如一幅看起来有点像人脸又有点像建筑物的抽象画,将这两个类别连接起来?” 一次较早的合并会暗示存在这样的联系。连接准则不再仅仅是一个数据处理步骤;它已经成为一种科学探究的工具。
一个真正伟大的科学思想的力量在于其适应和推广的能力。简单的连接规则也不例外。它们以巧妙的方式被扩展和重新利用,开辟了新的分析前沿。
最令人兴奋的前沿之一是自然语言处理(NLP)。我们如何测试一个计算机模型是否真正“理解”了词语的含义?一种方法是看它组织词语的方式是否对人类有意义。我们可以从一个 AI 模型中获取词语的向量表示(嵌入),并进行层次聚类。如果模型足够好,“狗”、“猫”和“仓鼠”等词应该归入一个簇,而“汽车”、“船”和“飞机”则归入另一个簇。通过将生成的簇与像 WordNet 这样由人类策划的分类体系进行比较,我们可以定量地衡量模型的语义敏锐度。
我们已经看到,单一连接的“链式效应”可能是一个问题。但如果我们寻找的恰恰是链条本身呢?在网络科学中,研究人员通常对寻找链接的社群感兴趣,而不仅仅是节点的社群。例如,他们可能想在复杂网络中找到路径或流。为此,他们可以定义相邻边之间的相似性度量。当我们对这些边进行聚类时,单一连接的“链式效应”属性就从一个缺陷变成了一个特性!它非常适合沿着局部相似的边组成的轨迹进行追踪,从而发现一条路径或一个功能模块,而这对于像完全连接这样的方法来说是完全不可见的,因为它会因为链中不相邻边之间的零相似度而受到惩罚。
基本的聚类算法是“无监督的”——它仅凭数据工作。但如果我们有一些先验知识呢?一位系谱学家可能确切知道,尽管有某些相似之处,但两条记录属于两个不同的人。我们可以通过施加“不能链接”(cannot-link)约束,将这些知识直接融入算法中。我们只需修改规则:任何包含“不能链接”对的两个簇之间的距离被定义为无穷大。这个简单的调整将层次聚类转变为一个强大的半监督工具,将数据驱动的发现与专家知识无缝地融合在一起。
这把我们带到了一个最终的、美妙的综合。我们已经看到,不同的连接准则提供了不同的视角,每种视角都有其自身的优点和缺点。那么,哪一个是“正确”的呢?也许最稳健的答案不是选择一个,而是将它们全部结合起来。这就是集成聚类(ensemble clustering)背后的思想。我们可以使用单一、完全、平均以及其他连接方法生成多个树状图。然后,我们可以创建一个“共现”矩阵,该矩阵总结了对于任何一对项目,它们在所有这些不同的树状图中被聚类在一起的频率。这个矩阵代表了一种共识,它平均掉了每种单一方法的偏见。为了将这个共识矩阵转换回一个单一的、最终的树状图,我们再次执行层次聚类。那么,对于这最后一步,我们使用哪种连接方法呢?在一个奇妙的命运转折中,数学上最合理的选择通常是单一连接,这恰恰是因为它在处理树状图所代表的那种结构(一种超度量)时具有独特的属性。我们最初强调其缺陷的那个方法,最终却成了统一所有其他方法的关键。
从一个简单的距离测量选择开始,连接准则变成了一面透镜、一个工具、一个探针,并最终成为一个统一的原则。它告诉我们,在数据分析中,就像在科学本身一样,我们提出的问题和我们遵循的规则,定义了我们所发现的宇宙。