try ai
科普
编辑
分享
反馈
  • 高维聚类

高维聚类

SciencePedia玻尔百科
核心要点
  • “维度灾难”导致高维空间中的距离趋于一致,使得依赖距离的传统聚类算法失效。
  • 克服此问题的策略包括降维(如PCA)、使用替代距离度量(如马氏距离)以及专门的子空间聚类方法。
  • 高维聚类是基因组学和精准医疗等领域实现发现的关键工具,它能够识别新的细胞类型和疾病亚型。
  • 像t-SNE这样的可视化技术可能会产生误导性的聚类分离,因此直接对其二维输出进行聚类需要极其谨慎,因为它可能无法反映真实的数据结构。

引言

在一个由海量数据集定义的时代,从压倒性的复杂性中寻找有意义的模式是一项根本性的科学挑战。高维聚类为此任务提供了一套强大的工具,使我们能够对相似的对象进行分组,并揭示具有成百上千个特征的数据中的隐藏结构。然而,这项工作充满了风险。我们关于空间和距离的低维直觉会失效,导致一系列统称为“维度灾难”的反直觉问题,这些问题可能使标准方法变得毫无用处。

本文旨在弥合高维数据聚类的美好前景与实际陷阱之间的关键知识鸿沟,为理解和驾驭这一复杂领域提供全面的指南。首先,在“原理与机制”部分,我们将探讨传统聚类为何会失败,并深入研究高维空间的数学现实。然后,我们将揭示为克服这些挑战而发展的巧妙策略,从更智能的度量到降维和子空间分析。接下来,“应用与跨学科联系”部分将展示这些复杂方法不仅仅是理论练习,它们正积极地推动一场发现的革命,揭示基因组学中的生命蓝图,绘制细胞宇宙的地图,并在现代医学中重新定义疾病。

原理与机制

想象一下,你正试图描述一个小房间里所有人的位置。这很简单;你可能会说“Alice在门边,Bob在窗户旁”。“近”和“远”的概念直观且有意义。现在,想象你是一位天文学家,任务是描述散布在银河系中的一千颗恒星的位置。突然之间,“近”和“远”的概念变得奇异地扭曲了。从我们在地球上的视角来看,几乎每颗恒星都只是“遥远得不可思议”。它们之间距离的微小差异——可能相差许多光年——在巨大的尺度面前显得微不足道。我们很难有意义地说一颗恒星是另一颗恒星的“邻居”。

这只是对高维世界奇异且反直觉现象的一瞥,而它正是高维聚类挑战的核心所在。这个问题是一系列现象的总称,即​​维度灾难​​。让我们踏上这段进入奇异景观的旅程,去理解为什么我们熟悉的工具会失效,并发现那些能让我们找到出路的巧妙原理。

空间幻觉:高维中的距离

聚类中最基本的工具是距离的概念。像kkk-均值和层次聚类这样的算法完全依赖于距离;它们将“近”的点分组,将“远”的点分开。但是,当维度数(我们称之为 ppp)变得非常大时,距离会发生什么变化?

让我们来做一个思想实验。想象在 ppp 维空间中的两个随机点。我们将计算它们之间的欧几里得距离。在二维或三维空间中,这个距离可以有很大的变化。有些点很近,有些点很远。但是,当我们把维度数增加到成百上千时,一个奇特而强大的现象出现了:​​距离集中​​。

事实证明,在高维空间中,任意两个随机选择的点之间的距离几乎变得完全相同。就好像你随机挑选夜空中的任意两颗恒星,发现它们都距离我们大约一百万光年,差异小到可以忽略不计。这不仅仅是一个比喻,这是一个数学上的确定性。对于相对均匀分布的数据(比如来自标准高斯分布的点),任意两点间的期望距离随维度以 p\sqrt{p}p​ 的速度增长,但这些距离的变异或分布范围却不会。距离的标准差大致保持不变。这意味着由变异系数衡量的距离相对离散程度,与 1/2p1/\sqrt{2p}1/2p​ 成比例地缩小。当 ppp 变得很大时,这个比率迅速趋近于零。所有距离都急剧地集中在它们的均值附近。

为什么会发生这种情况?可以把它想象成一个加强版的勾股定理。平方距离是沿 ppp 个维度上差的平方和:d2=∑i=1p(xi−yi)2d^2 = \sum_{i=1}^p (x_i - y_i)^2d2=∑i=1p​(xi​−yi​)2。当 ppp 很大时,这个和的行为遵循大数定律。每个维度都对总距离贡献一小部分,当有数千个维度共同贡献时,总和会平均为一个非常可预测的值。每个维度上个别的、随机的波动在求和过程中被冲淡,最终导致距离几乎没有变异。

这会带来毁灭性的后果。如果所有点彼此之间的距离大致相等,“邻域”这个概念本身就消失了。如果在“近邻”和“远邻”之间没有有意义的区别,我们又如何能找到聚类呢?

当工具失效:经典聚类的失败

这种对比度的丧失使我们最信赖的聚类工具变得毫无用处。

以 ​​kkk-均值聚类​​ 为例。它的目标是找到聚类中心,以最小化每个点到其指定中心的平方距离之和。但如果一个点到任何潜在中心的距离都几乎相同,算法就会失去方向。它试图下降的能量景观变得平坦而无特征,充满了无数的局部最小值。最终的聚类结果对中心的随机初始位置变得极其敏感,导致结果不稳定且毫无意义。

对于​​层次聚类​​来说,情况同样黯淡。该方法通过逐步合并最近的点和簇来工作。它会生成一个称为树状图的树形图表,其中每次合并的高度代表被合并簇之间的距离。我们被教导要在这些合并高度中寻找大的间隙,以确定自然的簇数量。但由于距离集中现象,所有的合并高度——无论是代表一个真实簇内两点的合并,还是两个完全不同簇的合并——都倾向于落在一个非常窄的范围内。树状图变成了一团“茂密”的、无差别的混乱,找到一个清晰切分的梦想也随之破灭。

我们的评估指标也同样失效。​​轮廓系数​​是一种流行的聚类质量度量,它基于比较平均簇内距离(a(i)a(i)a(i))和平均最近簇距离(b(i)b(i)b(i))。在高维空间中,a(i)a(i)a(i) 和 b(i)b(i)b(i) 都集中在相同的值附近,导致分子 b(i)−a(i)b(i) - a(i)b(i)−a(i) 趋近于零。每个点的轮廓系数都坍缩到零,无法提供任何信息。世界变成了一片没有特征的灰色迷雾。

寻找出路:实现高维清晰度的策略

这似乎是一个无望的境地。但这正是科学与数学之真正美妙之处的体现。通过理解维度灾难的本质,我们可以设计出巧妙的策略来战胜它。我们主要可以采取三条路径。

路径一:寻找正确的罗盘(改变度量)

也许问题不在于维度本身,而在于我们使用的“尺子”。标准的欧几里得距离将所有维度视为同等且独立的,这可能是一个有缺陷的假设。

一种替代方法是​​余弦相异性​​,它测量的是两个向量之间的夹角,而不是它们的空间距离。这对于方向比大小更重要的数据尤其有用,例如在文本分析中,词向量指向不同的概念方向。然而,这并非万能良药。对于许多类型的数据,高维空间中的向量往往趋于近乎完全正交(彼此成90度角),导致余弦相似性集中在零附近,而余弦相异性则集中在一附近。有趣的是,对于被归一化到高维球面上的数据,余弦相异性比欧几里得距离能保留更多的对比度,使其在这些特定情况下成为一个更好但仍不完美的选项。

一种更深刻的方法是使用​​马氏距离​​。这个度量是“协方差感知的”。它理解特征(维度)之间可能存在相关性。想象一个以身高和体重为特征的数据集,这两个特征高度相关。马氏距离认识到,沿着相关方向移动(例如,身高和体重都略微增加)不如沿着与该趋势正交的方向移动(例如,身高增加很多但体重不变)来得“显著”。它通过根据数据自身的协方差结构重新缩放空间,有效地“白化”了数据。

但我们在这里又遇到了另一堵墙。要使用这种距离,我们需要计算数据协方差矩阵的逆矩阵 S−1\mathbf{S}^{-1}S−1。当特征数 ppp 远大于样本数 nnn(这是高维数据的标志)时,估计出的协方差矩阵 S\mathbf{S}S 是“奇异的”,无法求逆。它的秩最多为 n−1n-1n−1,但它却是一个 p×pp \times pp×p 的矩阵!

解决方案是一种被称为​​收缩估计​​的优雅统计思维。经验协方差矩阵 S\mathbf{S}S 是一个高方差、不稳定的估计。收缩的核心思想是不要完全相信它。相反,我们通过将 S\mathbf{S}S 与一个简单、稳定的“目标”矩阵(如一个缩放的单位矩阵)混合,来创建一个更稳健的估计量。这是一个凸组合:Sshrink=(1−λ)S+λT\mathbf{S}_{\text{shrink}} = (1-\lambda)\mathbf{S} + \lambda \mathbf{T}Sshrink​=(1−λ)S+λT。这个新矩阵总是可逆的,并且稳定得多。通过改变收缩强度 λ\lambdaλ,我们可以在混乱的马氏距离(当 λ=0\lambda=0λ=0 时)和简单的欧几里得距离(当 λ=1\lambda=1λ=1 时)之间平滑地插值。这项技术巧妙地驾驭了偏差-方差权衡,产生了一种为数据结构量身定制的、稳定而强大的距离度量。

路径二:寻求更简单的世界(降维)

如果高维世界过于混乱,为什么不在其中寻找一个隐藏的、更简单的低维世界呢?这就是降维的哲学。

最直接的方法是​​特征选择​​。可能我们成千上万个维度中的大部分都只是不相关的噪声。如果我们能智能地选择出少数携带真实信号的特征,问题就解决了。但我们如何找到它们呢?信息论的视角给了我们一个深刻的答案。对聚类最有用的特征是那些具有最高​​信噪比(SNR)​​的特征。例如,在一个简化的双细胞类型模型中,一个基因的“信号”是它在两种类型之间平均表达的差异,而“噪声”是它在单一类型内部的自然变异性。为了最好地分离簇,我们应该选择那些能最大化信噪比的基因。在生物信息学中,这一原理为广泛采用的选择​​高变基因(HVGs)​​来聚类单细胞数据的实践提供了理论依据。这种启发式方法之所以有效,是因为那些“出人意料地”可变的基因,其变异通常是由强烈的生物信号驱动的,而不仅仅是随机噪声。

一种更复杂的方法不仅仅是选择特征,而是创建新的、信息量更大的特征。这就是​​降维​​。经典的“主力”方法是​​主成分分析(PCA)​​。PCA会找到数据中方差最大的方向。通过将数据投影到前几个主成分上,我们可以捕捉到最重要的结构,同时丢弃来自次要维度的噪声。这一个步骤往往就能打破维度灾难,使数据再次适用于像kkk-均值这样的标准聚类算法。标准化数据、运行PCA,然后对得到的主成分进行聚类的流程是现代数据分析的基石。

近年来,像​​t-SNE​​和​​UMAP​​这样强大的非线性方法变得流行起来。它们可以“展开”复杂、纠缠的数据流形,生成令人惊叹的低维可视化效果,其中聚类通常看起来分离得非常漂亮。这引出了一个诱人的想法:为什么不直接在这个漂亮的二维图上运行我们的聚类算法呢?

在这里,我们必须发出一个关键警告。你在t-SNE图中看到的分离通常是一种精心构建的幻觉。t-SNE的目标是创建一个视觉上令人愉悦的布局;它​​不保留全局距离​​。它的工作原理是拉近局部邻居,并主动推开非邻居。这种对分离的夸大可能会使二维嵌入中的高轮廓系数变得完全具有误导性。与原始空间相比,t-SNE空间中更高的分数并不意味着聚类“更好”;这通常是算法距离扭曲的产物。直接在此类嵌入上进行聚类是一种危险行为,应极其谨慎。这个警示故事也延伸到了用像轮廓系数这样的指标来评估密度聚类(它可以有任意形状)的情况,因为这些指标隐含地假设了凸形和有意义的欧几里得距离。

路径三:隐藏结构的世界(子空间聚类)

我们的最后一条路径也许是思想上最美的一条。它始于一个对世界的不同假设。如果数据不是一团单一、复杂的云,而是在一个巨大空间中共同存在的一系列简单、独立的结构呢?例如,想象数据点分布在几个不同的二维平面和一维直线上,所有这些都嵌入在一个一万维的房间里。这就是​​子空间联合模型​​。

我们怎么可能解开这些结构呢?答案来自​​自我表达性​​的思想和稀疏性的力量。位于某个特定平面上的一个点,可以被描述为在同一平面上的其他几个点的简单线性组合。而要用来自其他平面的点来描述同一个点,则需要一个复杂的、非稀疏的、由许多点构成的组合。

这一洞见催生了​​稀疏子空间聚类(SSC)​​。对于每个数据点,SSC试图找到能重构它的、由所有其他数据点构成的最稀疏线性组合。算法神奇地发现,最优解只使用了来自同一子空间的点!通过观察哪些点被用来表示哪些其他点,我们可以构建一个图,其连通分量完美地揭示了底层的聚类。这是一个惊人的证明,展示了像稀疏性这样的原理如何能够穿透高维的复杂性,揭示出简单、优雅的底层真理。

在这次宏大的巡礼中,我们看到维度灾难并非终点,而是起点。它迫使我们放弃低维直觉,更深入地思考数据、距离和结构的本质。这些解决方案——从巧妙设计的度量和降维,到对稀疏表示的探索——都证明了数学推理的力量,它能于初看之下毫无特征的混沌中,发现秩序与美。

应用与跨学科联系

我们已经花时间探索了聚类的原理,即那些让我们能够对相似对象进行分组的数学机制。我们已经审视了“如何做”——距离的逻辑、算法的策略以及高维的风险。但现在我们要问一个更激动人心的问题:这一切究竟是为了什么?它仅仅是一种复杂的排序方式吗?你会很高兴听到,答案是响亮的“不”。高维聚类不仅仅是一种组织工具;它是一个名副其实的发现引擎。它是一个镜头,让我们能够在自然界压倒性的复杂性中感知隐藏的结构,将数据风暴转化为美丽、可理解的模式。在本章中,我们将从基因和蛋白质的微观领域,走到现代医院的走廊,见证这个单一而优雅的思想如何照亮科学和医学中一些最深刻的问题。

从一袋基因到生物蓝图

或许,高维聚类最显著、最直接的影响是在基因组学领域。几十年来,我们一直能够测量基因的活性,但随着RNA测序(RNA-seq)等技术的出现,我们突然发现自己有能力在数十或数百个样本中一次性测量所有两万个基因的活性。其结果是一个规模惊人的数据矩阵,一个生物状态的数值表示。看着这个巨大的电子表格,就像看着一个满是静电雪花的电视屏幕;信息就在那里,但对肉眼来说,它是一片混乱。

聚类是我们调到正确“频道”的第一个也是最强大的工具。然而,眼前的挑战是深刻的。在这些数据集中,我们几乎总是处于特征数(基因,ppp)远超样本数(患者,nnn)的境地,这种情况表示为 p≫np \gg np≫n。这导致了臭名昭著的“维度灾难”。在一个有数千个维度的空间里,我们的几何直觉会失效。空间体积扩张得如此之快,以至于每个数据点都成了一座孤岛,看起来与其他所有点都相距甚远。少数重要基因发出的微弱、真实的生物信号,很容易被成千上万个不相关基因的累积噪声所淹没。在这里天真地应用聚类算法是注定要失败的。

为了克服这一点,我们必须更加巧妙。我们的方法必须由生物学和统计学指导,而不仅仅是蛮力计算。例如,我们不应在原始基因表达计数上使用简单的欧几里得距离——这种做法会被少数高表达基因所主导——而是可以使用一种更稳健的度量,如相关距离。该度量忽略基因的绝对“亮度”,转而关注它们在样本间的活动模式,提出问题:“这两位患者是否显示出相似的基因上调和下调模式?”这个简单的改变通常具有变革性。此外,我们必须进行仔细的特征选择,例如,在假设它们最可能具有生物学意义的前提下,专注于在整个队列中表现出最大变异的基因。这些预处理步骤不仅仅是技术细节;它们是形成一个连贯的科学问题的关键第一步。当操作正确时,结果是惊人的。一张基因表达热图,曾经看起来像是随机的椒盐噪声,现在分解成清晰的彩色块,以优美的清晰度揭示了区分癌性肿瘤与健康组织,或一种白血病亚型与另一种亚型的基本遗传程序。

发现细胞宇宙

基因组学的革命在于理解组织中细胞的集体行为。下一个前沿是理解细胞社会本身。像单细胞RNA测序(scRNA-seq)和质谱流式细胞术(CyTOF)这样的技术,就像强大的望远镜,首次让我们能够将模糊的星系污点分解为数百万个独立、清晰的恒星。我们现在可以取一个肿瘤、一滴血或一块脑组织,为其内部的每一个细胞创建一个详细的目录,测量每个细胞的数十个特征。结果是一个包含数百万细胞的数据集,每个细胞都是高维空间中的一个点。挑战很明确:这些细胞是什么?我们如何绘制这个细胞宇宙的地图?

多年来,免疫学家通过一个称为手动圈门的繁琐过程来识别细胞类型。他们查看数据的二维散点图——例如,绘制蛋白质A与蛋白质B的图——然后用手画一个“门”来分离一个群体,接着取出这些细胞,再根据另外两种蛋白质绘制它们,依此类推。这种方法不仅乏味和主观,而且从根本上受限于科学家的想象力。这就像试图通过只问“它大吗?”和“它有羽毛吗?”来识别雨林中所有的动物物种。你会找到鸡和鸵鸟,但你会完全错过蛇、猴子和发光的树蛙。

无监督聚类提供了一种新的、无偏见的范式。像FlowSOM或PhenoGraph这样的算法不再依赖于一系列二维投影,而是在完整的高维空间中运行,同时使用所有45个标记的信息来发现数据的内在结构。这种自动化方法减少了用户偏见,最重要的是,它能够发现传统方法无法看到的全新或稀有细胞类型。

然而,这种能力也伴随着批判性思考的责任。没有单一的“最佳”聚类算法。数据的自然结构决定了我们的选择。生物种群并不总是整齐的球形岛屿。有时,我们会发现连续的景观,例如T细胞从“幼稚”状态分化为“活化”状态。将像kkk-均值这样假设聚类是球形的算法应用于这样一个连续的轨迹是错误的;它会武断地将这条优美的连续路径切成若干个人为的团块。相反,像DBSCAN这样擅长发现复杂形状的密度聚类算法,如果数据同时包含非常常见和非常稀有的细胞类型,则可能会失败,因为它难以处理密度差异巨大的簇。因此,算法的选择不仅仅是一个技术细节;它是一个建模决策,反映了我们对所研究生物系统底层结构的假设。

生命的架构:从摆动的蛋白质到分层网络

聚类的原理远远超出了基因或细胞的静态目录。它们可以揭示构成生命基本结构的动态过程和抽象网络的隐藏架构。

考虑一种蛋白质,细胞的主力分子。它不是一个刚性物体,而是一个动态实体,不断摆动、弯曲和改变其构象。分子动力学模拟可以产生数百万个这种舞蹈的快照,每个快照都是原子坐标高维空间中的一个点。为了理解蛋白质如何工作,我们需要知道它偏好的形状,即“构象状态”。通过对这组快照应用层次聚类,我们可以解析其轨迹并识别蛋白质所占据的不同宏观状态。在这里,连接准则的选择至关重要。单连接法根据簇之间最近的点进行合并,容易被噪声欺骗,在不同状态之间产生错误的“链”。相比之下,像Ward连接法这样的方差最小化方法通常更稳健,因为它天然适合识别与稳定状态相对应的、密集的、类高斯分布的构象云,从而有效地将真实的构象信号与随机热噪声分离开来。

这种揭示隐藏结构的思想可以从单个分子扩展到整个复杂系统。自然界和社会中的许多系统——从互联网到大脑,再到细胞的代谢网络——都表现出层次化或多尺度的组织结构。它们由紧密结合的小模块组成,这些小模块又松散地连接形成更大的模块,依此类推。这就是复杂性的架构。层次聚类提供了一种绘制这种架构的自然方法。这种聚类的输出——树状图,不仅仅是一种可视化;它是系统组织的一个定量模型。通过选择一种巧妙的方式来测量网络中节点间的“距离”——例如,捕捉随机游走者在它们之间穿行所需时间的“扩散距离”——我们可以使树状图完美地反映网络的嵌套社群结构。在不同高度切割树状图,可以揭示不同尺度的社群,从最小的团队到最大的部门。在数学上,树状图在数据上施加了一种特殊的距离,称为超度量,它满足强三角不等式 d(i,j)≤max⁡{d(i,k),d(k,j)}d(i,j) \le \max\{d(i,k), d(k,j)\}d(i,j)≤max{d(i,k),d(k,j)}。这个属性是完美层次结构的形式化表达,使聚类成为发现它的理想工具。

重新定义疾病并指导医疗

在所有受高维聚类影响的领域中,没有哪个领域比医学对人类更有前景。几个世纪以来,我们一直根据疾病的外部体征和症状来定义它们。但我们现在知道,许多我们用单一名称称呼的疾病,如“癌症”或“脓毒症”,实际上是不同分子疾病的集合。这种潜在的异质性解释了为什么“一刀切”的药物常常失败,对一些患者效果显著,而对另一些患者则毫无作用。

聚类是解锁“精准医疗”的关键,它使我们能够超越粗粒度的标签,根据患者的潜在生物学特性对其进行分层。以脓毒症为例,这是一种由对感染的免疫反应失调引起的危及生命的病症。无数针对抗脓毒症药物的临床试验都失败了,很大程度上是因为它们将所有脓毒症患者视为一个单一的群体。通过对患者血液的基因表达数据应用无监督聚类,研究人员发现了脓毒症的不同“内在分型”。例如,一些患者表现出“超炎症”特征,其免疫系统过度活跃。另一些患者则陷入“免疫麻痹”状态,其免疫防御被危险地抑制。这是一个深刻的洞见。给超炎症患者使用免疫抑制剂可能会挽救他们的生命。而给免疫麻痹患者使用同样的药物则可能是致命的错误。聚类为丰富临床试验,并最终在正确的时间为正确的患者选择正确的药物,提供了一个理性的、数据驱动的框架。

这种范式延伸到了重症监护室之外。利用庞大的电子健康记录(EHR)数据库,我们可以进行“计算表型分析”,以发现常见慢性病的亚型。想象一下对哮喘患者应用聚类。数据是复杂且混合的:一部分由二元诊断代码组成,另一部分是药物依从性的时间序列。这需要一个复杂的流程,该流程需要为每种数据类型使用正确的距离度量——例如,为稀疏代码使用Jaccard距离,为相位偏移的时间序列使用动态时间规整(DTW)——以及一个能够处理这种复合距离的聚类算法,如kkk-中心点法。这样的分析可能会揭示一个患者亚型,其频繁的急性发作与疾病严重程度无关,而是与药物依从性差有关,这指向了行为干预而非更强的药物。它还可以揭示由特定共病模式定义的亚型。这就是聚类如何帮助我们理清塑造患者健康旅程的复杂因素网络。

超越发现:更深层次的原理

聚类的应用甚至更深入,触及了复杂系统如何构建以及我们如何能最好地对其进行推理的基本原理。其中有两个思想尤为优美。

第一个是​​整合多视图​​的原则。在现代生物学中,我们很少只有一种类型的数据。对于一组肿瘤,我们可能拥有DNA突变数据、RNA表达数据和蛋白质丰度数据。这些“组学”层中的每一层都提供了对潜在疾病的不同且充满噪声的视角。我们如何将它们结合起来,以找到真实、一致的亚型?天真的方法是简单地将所有特征连接成一个巨大的向量,然后对其进行聚类。但一个远为优雅和强大的策略是“多视图聚类”,例如相似性网络融合(SNF)。在这里,我们首先在每种数据类型内部构建一个患者相似性网络。然后,我们迭代地融合这些网络,加强在多个视图中被认为相似的患者之间的连接。该方法基于一个深刻的直觉:一个在多个独立、嘈杂的来源中都一致的微弱信号,比仅出现在一个来源中的强信号更有可能是真实的。在每种单一数据类型都因噪声太大而无法产生清晰聚类的情况下,这种融合过程可以放大共享信号,直到它超越噪声,从而揭示任何单一视图都无法看到的亚型。

第二个是生物学概念​​简并性​​。在工程学中,冗余意味着有多个相同的组件来执行相同的功能。在生物学中,简并性是一个更微妙、更强大的思想:它是指结构上不同的组件或通路能够执行相同功能或产生相同结果的能力。这为系统提供了巨大的稳健性。聚类为我们提供了一个衡量这一点的工具。假设我们已经识别出一种特定的表型,例如“耐药”癌细胞。我们可以将所有属于这一单一表型的细胞取出,并对它们应用聚类。如果所有细胞都落入一个单一、同质的簇中,这意味着存在一个与耐药性相对应的主导分子状态。但如果我们发现两个、三个或更多个不同且分离良好的簇,我们就做出了一个了不起的发现:我们发现存在多种结构上不同的基因表达状态,它们都能产生相同的耐药结果。我们找到的簇的数量就成为系统简并性的一个估计。在这里,聚类不是用来发现新的表型,而是用来揭示一个已知表型隐藏的内部复杂性和稳健性。

从排序基因到绘制细胞宇宙,从解码蛋白质运动到重新定义疾病,将相似事物分组这个简单的想法被证明是现代科学中最富有成果的概念之一。它证明了这样一个事实:在一个数据铺天盖地的宇宙中,寻找模式——于众中见一——正是理解的开端。