相似性度量

玻尔百科

定义

相似性度量是机器学习和生物学等领域中的一个基础概念，它为比较数据点提供了一种正式的数学语言。这些度量标准通过欧几里得距离、余弦相似度以及针对结构的编辑距离或 RMSD 等方法，定义了数据中哪些属性（如量级或方向）在比较中具有重要性。为了确保在不同应用场景下的可比性，原始相似性评分通常需要经过统计标准化或概率方法进行校准。

核心要点

选择相似性度量（例如欧几里得距离与余弦相似度）是一项关键决策，它定义了在比较中哪些数据属性（如大小、方向）被认为是重要的。
高级度量超越了简单的特征列表，能够考虑数据的内在结构，包括序列顺序（编辑距离）、层次化概念（本体相似度）和三维形状（RMSD）。
原始相似度分数本身没有意义，必须通过统计标准化（z分数）或概率方法进行校准，才能被解释为可比较的证据。
将相似性概念形式化提供了一种统一的语言，推动了生物学、机器学习乃至伦理推理等不同领域的发现和解释。

引言

人类感知相似性的能力是智能的基石，它使我们能够识别模式、进行类比并从经验中学习。但如何将这种对“相像”的直观把握转化为机器能够理解的形式化数学语言？这个问题是现代数据科学中的一个关键挑战，因为如何衡量相似性的选择深刻影响着我们能获得的洞见，无论是在诊断疾病、搜索信息还是构建人工智能。本文旨在弥合直觉与形式化之间的鸿沟。第一章“原理与机制”将深入探讨关键相似性度量的数学和几何基础，探索欧几里得距离、余弦相似度和编辑距离等度量如何通过定义“相似”的含义来解决特定问题。随后的“应用与跨学科联系”将展示这些概念的普适力量，揭示一种“亲近度演算”如何在生物学、生态学、人工智能甚至道德哲学等不同领域中解锁新发现，并将它们统一在一个共同的分析框架下。

原理与机制

我们如何教会机器识别两个事物是相似的？这不仅是一个哲学问题，更是现代科学技术核心的一个深刻的实践问题。无论我们是试图寻找相似的文档、识别相关的基因、根据症状诊断疾病，还是在人群中识别人脸，我们都需要一种形式化的数学语言来描述“相似性”。这种语言由相似性度量构建而成，选择正确的度量就像选择合适的镜头来观察世界。错误的选择会让你看到一个扭曲、误导的画面，而正确的选择则能揭示深刻且原本不可见的联系。

比较的几何学：从距离到方向

我们对相似性最基本的直觉是距离。如果两个点在空间中很近，它们就是相似的；如果相距很远，它们就是不同的。我们可以用欧几里得距离（Euclidean distance）将其形式化。如果我们将两个对象表示为数字向量 $x$ 和 $y$ ，它们的不相似性就是它们之间的直线距离 $\lVert x-y \rVert_2$ 。这在很多情况下都非常有效。但如果它失效了呢？

想象一下，你有两份临床记录。记录A写着：“患者报告发烧和咳嗽。”记录B则长得多，可能是从模板复制而来，写着：“患者报告发烧和咳嗽。无胸痛。无气短。患者报告发烧和咳嗽。”在一个简单的向量空间模型中，每个词对应一个维度，其计数或频率（如TF-IDF）作为该维度的值。这样，记录B的向量会“更长”——它的模会更大。由于长度的差异，记录A和记录B的向量之间的欧几里得距离可能会非常大，这表明它们非常不同。然而，它们的核心主题是相同的。欧几里得距离在这里失效了，因为它对我们不关心的文档长度敏感。

这时，一个优美的几何洞见就派上用场了。与其问“这两个向量相距多远？”，我们可以问“它们指向同一个方向吗？”。这可以通过它们之间的夹角来衡量。余弦相似度（Cosine similarity）被定义为两个向量 $x$ 和 $y$ 之间夹角的余弦值，

S_C(x, y) = \frac{x \cdot y}{\lVert x \rVert_2 \lVert y \rVert_2}

这正是我们所需要的。如果两个向量指向同一方向，夹角为 $0^\circ$ ，余弦相似度为最大值 $1$ 。如果它们正交（没有共同内容），夹角为 $90^\circ$ ，相似度为 $0$ 。关键在于，向量的长度被抵消了。我们的两份临床记录，在高维词汇空间中都指向“发烧和咳嗽”这个方向，现在将被视为最大程度地相似。

这揭示了一个基本原则：选择相似性度量就是定义不变性（invariances）。我们选择余弦相似度，是因为我们想要一个对向量的模不敏感的度量。这个想法是一个强有力的指导原则。在分析RNA测序的基因表达数据时，一个主要的混淆因素是每个样本的总读数（文库大小），它会影响整个表达向量的模。为了在忽略这种技术性伪影的同时比较患者间的相对表达模式，余弦相似度是一个绝佳的选择。但如果我们的数据有不同类型的伪影呢？在蛋白质组学中，来自不同实验批次的数据通常会在其数值上存在一个加性“偏移”。欧几里得距离和余弦相似度都对这种偏移不具有不变性。这时，我们可以转向皮尔逊相关系数（Pearson correlation），它在数学上等同于对均值中心化后的向量计算余弦相似度。通过首先从每个向量中减去其均值，我们消除了基线偏移，随后的余弦相似度计算则处理了任何尺度上的差异。因此，皮尔逊相关系数对偏移和尺度都具有不变性，使其成为解决该特定问题的完美工具。

当结构至关重要时：超越特征袋模型

向量空间模型很强大，但它将所有特征视为一个“袋子”中的独立项目。词袋没有语法；基因图谱没有通路。但在现实世界中，结构往往是意义的关键。一个真正智能的度量必须理解这种结构。

事物的顺序：序列

让我们回到医学搜索引擎的例子。一位医生输入了“hypertensoin”。词袋模型会认为这与“hypertension”是一个完全不同的词元（token）。它们的余弦相似度将为零。机器对这个明显的拼写错误视而不见。为了解决这个问题，我们需要一个能理解序列的度量。编辑距离（Edit distance），例如 Levenshtein 距离，正是为此而生。它衡量将一个字符串转换为另一个字符串所需的最少单字符编辑次数（插入、删除或替换）。“hypertensoin”和“hypertension”之间的距离很小，从而正确地将它们标记为高度相似。在这里，我们看到两种度量扮演着互补的角色：编辑距离捕捉印刷和拼写上的变体，而余弦相似度则捕捉词语共享但顺序不同的语义重叠。

这个想法在生物学中变得更加复杂。蛋白质是氨基酸的序列。DNA中的A到G替换是一回事，但这对蛋白质意味着什么？两个化学性质相似的氨基酸之间的替换（例如，异亮氨酸换成亮氨酸，两者都是疏水性的）是一种“保守”变化，可能不会影响蛋白质的功能。而换成一个化学性质差异很大的残基（例如，疏水性的异亮氨酸换成带正电的精氨酸）则可能是灾难性的。简单的百分比一致性（percent identity）将所有错配同等对待，忽略了这一关键的生物化学背景。

在漫长的进化时间尺度上，会发生一种称为饱和（saturation）的现象，即同一位点发生多次突变，从而掩盖了真实的进化距离。一个位点可能从A变为G，然后再变回A，尽管发生了两次突变事件，但看起来与其祖先完全相同。此时，百分比一致性成了一个糟糕的、非线性的亲缘关系度量。为了看透这层迷雾，科学家使用像 BLOSUM 这样的替换矩阵（substitution matrices）。这些矩阵是一个查找表，包含了所有可能的氨基酸配对的分数，这些分数源于对真实进化模式的观察。它们为可能发生且保守的替换分配高分，为不可能发生的替换分配低分或负分。基于这些矩阵的相似度分数能够捕捉到早已褪去精确一致性呐喊后的、共享祖先的微弱低语。

知识之网：本体

那么那些并非线性相关，而是层次相关的概念呢？“室间隔缺损”和“房间隔缺损”是两种不同的病症，但医生知道它们都属于“心间隔缺损”。这种知识被捕获在本体（ontologies）中，它们是概念的有向无环图（DAGs）。要在此处测量相似性，我们必须沿着树状结构向上追溯。

一种简单的方法是比较每个术语的所有祖先集合。一个更强大的想法是测量每个术语的信息内容（Information Content, IC）。在本体中，像“疾病”这样的一般性术语很常见，因此信息内容较低。而像“致心律失常性右室发育不良”这样的特定术语则很罕见，具有较高的IC。我们可以根据两个术语 $t_1$ 和 $t_2$ 的信息量最丰富的共同祖先（Most Informative Common Ancestor, MICA）——即具有最高IC的共同祖先——来定义它们之间的相似性。例如，Resnik 相似度就直接定义为MICA的IC。这优雅地捕捉了一个思想：共享一个非常具体父节点的两个非常具体的术语，远比共享一个非常笼统父节点的两个笼统术语更为相似。

生命的形状：三维结构

最后，让我们考虑物理三维物体（如蛋白质）的相似性。这里最常用的度量是均方根偏差（Root-Mean-Square Deviation, RMSD），它测量的是在两个结构经过最佳叠加后，对应原子之间的平均距离。但对于一个由柔性连接子连接的复杂多结构域蛋白质来说，会发生什么呢？该蛋白质可能存在于“开放”状态和“闭合”状态。各个结构域在结构上可能完全相同，但由于它们相对移动了，全局RMSD会变得巨大，从而错误地表明这两个结构不相关。

这是全局度量失效的又一个例子。解决方案是局部思考。我们可以通过分别比对和比较每个结构域来计算结构域特异性RMSD。或者，我们可以使用更高级的算法，如DALI或TM-align，它们不仅关注原子位置，还关注一个折叠结构内部的接触和距离网络。这些方法对核心架构或折叠的保守性很敏感，同时对于会误导简单全局RMSD的大尺度结构域运动具有鲁棒性。

数据空间的形态：度量、几何与预处理

到现在，应该很清楚了：一个相似性度量定义了我们数据的几何形态。让我们进一步探索这种几何形态。当我们有一个像余弦相似度（ $s$ ）这样的相似性度量时，我们如何将其转换为不相似度或距离（ $d$ ）？一个朴素的选择是 $d = 1-s$ 。这个转换是单调的，对于排序任务来说通常足够好。但它有一个隐藏的缺陷：它通常不满足三角不等式，这是任何真正距离度量的一个核心属性，该属性表明绕行的路程不能比直达路径更短（ $d(A, C) \le d(A, B) + d(B, C)$ ）。一个违反此规则的“距离”在使用多维缩放（MDS）等可视化技术时，可能会导致奇怪且无法解释的结果。

对于余弦相似度，至少有两种“正确”的方式来定义一个真正的度量距离。如果我们将单位归一化后的向量视为超球面上的点，那么角距离 $d = \arccos(s)$ 就是沿球面曲面的真实距离。而弦距离 $d = \sqrt{2(1-s)}$ 则是穿过球体的直线欧几里得距离。两者都是合适的度量，并具有清晰的几何意义。

我们数据空间的几何形态不是固定的；我们可以通过预处理来操纵它。以现代人工智能中使用的词嵌入为例。它们常常表现出系统性偏差。例如，所有向量可能都朝着一个共同的方向偏离原点，这是一种“各向异性漂移”。这会扭曲它们之间所有的夹角。对数据进行均值中心化——即从每个向量中减去平均向量——会将原点移到数据云的中心，从而消除这种共同偏差，并从根本上改变相似性的图景。

此外，数据云可能会像一个椭圆一样被拉伸，某些维度的方差远高于其他维度。白化（Whitening）是一种变换，它通过重新缩放空间，使数据云呈球形或各向同性。它能去除维度间的相关性，并使它们具有相等的方差。这同样会深刻地改变几何形态，以及我们随之使用的相似性度量。这里的教训是，相似性不是原始数据的内在属性，而是数据在选定坐标系内的属性。

最终校准：从分数到证据

我们已经看了一系列令人眼花缭乱的度量，每一种都针对特定类型的数据和结构量身定制。当我们使用其中几种来分析一个复杂问题时，会发生什么？比如，利用不同类型的生物数据来为一种罕见病筛选候选基因。我们可能从蛋白质序列分析中得到50的相似度分数，而从表型本体比较中得到0.8的分数。我们如何组合它们？50是个大数吗？0.8是个大数吗？没有上下文，原始分数是毫无意义的。

最后，也是最关键的一步是校准（calibration）。我们必须将这些任意的分数放在一个通用的、有意义的尺度上。主要有两种方法可以做到这一点。

统计标准化：对于每种度量，我们可以通过计算大量随机数据对的分数来生成一个“零分布”。这告诉我们偶然情况下预期的分数是多少。然后我们可以计算这个零分布的均值（ $\mu$ ）和标准差（ $\sigma$ ）。我们得到的真实分数 $s$ 可以转换为一个z分数（z-score）： $z = (s - \mu) / \sigma$ 。z分数不再是任意单位；它衡量的是统计上的意外程度。一个3.0的z分数意味着“这个观测值与我偶然预期的值相差3个标准差”，而无论它来自哪个原始度量。这些可比较的z分数现在可以有意义地进行组合。
概率校准：一个更强大的方法是，如果我们有带标签的“基准真相”（ground truth）数据，就可以学习一个函数，将原始分数直接映射到一个概率。利用逻辑回归等技术，我们可以找到一个从分数 $s$ 到例如两个项目真正相关的对数优势比（log-odds）的映射。一个50分的分数不再仅仅是“50”，它变成了“存在真实关联的概率为75%”。这些来自不同证据来源的概率或对数优势比，随后可以运用贝叶斯统计的严谨规则进行组合，得出一个统一的置信度。

这就是最终目标：将一个简单的、机械的相似性度量，转化为一个经过校准、可解释的证据。从简单的距离计算到组合的概率分数的这个过程，证明了深入思考“两个事物相似”的真正含义是多么丰富和强大。

应用与跨学科联系

我们人类是识别相似性的大师。我们在人群中认出熟悉的面孔，在新歌中听到童年旋律的回响，我们会说某个政治局势与另一个时代的某个情景“如出一辙”。这种对“亲近性”、“关联性”或“类比”的直观感觉是我们智能的核心。但它到底是什么？我们能将这种直觉提炼成一种形式化的数学语言吗？如果可以，这又会赋予我们什么样的力量？

本章正是对这一问题的探索之旅。我们将发现，通过将“相似性”这个概念形式化，我们创造了一种通用语言，使我们能够在表面上看起来毫无共同之处的领域中，提出并回答深刻的问题。我们将看到一种“亲近度演算”如何成为一把万能钥匙，在生物学、生态学、人工智能甚至道德哲学中解锁秘密。其美妙之处在于其惊人的简洁性和不可思议的多功能性。

解构生命蓝图

让我们从生命的基本机器——蛋白质——的层面开始。蛋白质就像由称为结构域的模块化部件构成的极其复杂的机器。当生物学家发现一种新蛋白质时，一个自然而然的问题是：“它与什么相似？”但“相似”可以有很多含义。为了取得进展，我们必须精确。我们可以问：

两种蛋白质是否包含相同类型的结构域？（关于内容的问题）
它们每种结构域的数量是否相同？（关于数量的问题）
这些结构域是否以相同的顺序排列？（关于结构的问题）

这些问题中的每一个都探究了相似性的不同方面。我们可以设计特定的数学工具，比如 Jaccard 相似性指数的变体，来分别量化每一个方面。这使我们能够从一个模糊的相似性概念，转向对蛋白质结构进行精确、多方面的比较，这对于理解蛋白质如何进化和发挥功能至关重要。

然而，在比较蛋白质之前，我们必须首先识别它们。想象一下，一名法医科学家试图通过一枚指纹来识别一个人。在蛋白质组学领域，一种称为质谱法的技术让我们能做类似的事情。我们可以取一个蛋白质，将其分解成碎片，并测量这些碎片的质荷比。结果是一张谱图——该蛋白质的独特指纹。为了识别我们的未知样品，我们将其谱图指纹与一个庞大的已知指纹库进行比较。但谱图从来都不是完美的；它们充满噪声。简单的一对一比较会失败。

一种更稳健的方法是将每个谱图表示为高维空间中的一个向量，其中每个维度对应一个特定的质荷比“区间”（bin）。我们的问题就从匹配杂乱的谱图转变为测量向量之间的几何关系。余弦相似度，即测量两个向量之间夹角的余弦值，是完成这项任务的完美工具。如果我们的样本向量与库中某个向量之间的夹角非常小，那么它们在这个抽象的“谱图空间”中几乎指向同一个方向，这表明匹配度很高。通过找到具有最高余弦相似度的库谱图，我们就能自信地识别出我们的蛋白质。这种方法非常可靠，我们甚至可以使用一个由不存在的蛋白质组成的“诱饵”库，来统计估算我们的匹配纯属偶然的概率。

从更宏观的视角看，蛋白质及其编码基因并非孤立运作。它们形成了巨大而复杂的相互作用网络。可以把这想象成基因的“社交网络”。我们可以测量任意两个基因之间的“功能相似性分数”，以表示它们角色的关联程度。这就给了我们一个图，其中基因是节点，相似性分数是连接它们的边的权重。要理解这个系统的核心运作结构，我们可能希望找到一个能连接所有基因且没有任何冗余环路的最强连接集合。这是图论中的一个经典问题：寻找最大生成树（Maximum Spanning Tree）。其结果是一张清晰的“功能连锁图”，它揭示了遗传网络的关键骨架，而这张图完全是基于最大化相似性原则构建的。

我们可以将这个网络概念更进一步，比较不同物种间的网络。在酵母中协同执行某项功能的一组蛋白质，在人类中是否有可识别的对应物？通过比对两个物种的蛋白质相互作用网络，我们可以寻找“保守模块”——即在数百万年的进化中被保存下来的子网络。这种对图之间结构相似性的探索可以揭示深刻的、共同的生物学原理，就像在两种截然不同的生物体的蓝图中，找到一个古老的、共享的机器部件一样。

从生态系统到艾字节

相似性度量的力量远远超出了分子世界。让我们走出实验室，来到一片经过恢复的高草草原。我们想知道我们的恢复工作是否奏效。我们恢复的地块与一个原始、未受干扰的参照群落有多相似？

同样，答案取决于我们所说的“相似”是什么意思。我们可以简单地列出两个地点都存在的所有动植物物种，并计算共享物种占总物种的比例。这就是 Jaccard 相似度，一种衡量组成重叠度的指标。但如果参照地点有数十种物种，数量均衡，构成一幅丰富的织锦，而我们恢复的地点99%都是一种入侵草，其他物种都只有一个个体呢？如果物种列表重叠显著，Jaccard 指数可能会说它们非常相似。它对丰度是盲目的。

如果我们关心群落的相对平衡，就需要一个不同的工具。例如，Bray-Curtis 相似性指数会考虑每个物种的丰度。它会正确地得出结论：这两个地点非常不同。在 Jaccard 和 Bray-Curtis 之间的选择不仅仅是一个技术细节，它是对我们生态目标的声明。我们是仅仅试图重新引入物种，还是试图重建一个健康、平衡的生态系统？我们选择的度量既反映也塑造了我们的科学探究。

同样这个挑战——选择如何表示世界以及如何在该表示中测量距离——在驾驭数字世界时也至关重要。考虑一下将患者的医疗记录与可能挽救生命的临床试验相匹配的关键任务。患者的记录和试验的资格标准都只是非结构化文本。机器如何能理解描述“心脏病发作”（heart attack）的记录与针对“心肌梗死”（myocardial infarction）患者的试验在语义上是接近的？

第一步是将文本转换为向量。经典方法 TF-IDF 创建巨大的向量，其中每个维度代表词汇表中的一个词。更现代的方法使用“嵌入”（embeddings），它将单词和句子映射到一个更小、更密集的“意义空间”中，其中同义词被放置得很近。一旦我们有了这些向量表示，问题就再次变成了几何问题。我们可以使用余弦相似度来找到描述向量与患者向量夹角最小的试验，或者我们可以使用欧几里得距离来找到向量端点最接近的试验。最佳方法通常是复杂表示（如嵌入）与合适的相似性度量（如余弦相似度）的结合，它们共同可以穿透人类语言的混乱，找到最相关的信息。

智能的引擎

在现代人工智能的世界里，相似性不仅是分析的工具，它往往是学习本身的核心引擎。机器如何能从原始数据（如卫星图像）中学会理解世界，而无需人类来标记所有东西？

其中一个最强大的范式是“对比学习”（contrastive learning）。我们可以通过玩一个简单的游戏来教AI。我们向它展示一组“三元组”图像：一个“锚点”（anchor，特定时间的某块土地），一个“正例”（positive，几分钟后的同一块土地），和一个“负例”（negative，一块完全不同的土地）。AI的唯一目标是调整其内部参数，使其对锚点和正例的表示变得更相似，而对锚点和负例的表示变得更不相似。它试图优化的目标函数就是直接由这些相似度分数构建的。

通过重复这个游戏数百万次，AI会自行学习哪些视觉变化是重要的，哪些不是。它学会了太阳角度的变化或飘过的云朵不应过多改变其表示（因为它被迫将这些视为“正例”对），而森林被住宅区取代则是一个关键差异（因为这些会出现在“负例”对中）。相似性度量成为了老师，引导模型学习那些对干扰因素不敏感，同时对有意义的语义变化保持敏感的表示。

一旦AI模型学习完成，我们面临另一个挑战：信任。在像医学这样的高风险领域，一个只提供诊断而无解释的“黑箱”是不可接受的。相似性为实现透明度提供了一条路径。一个可解释的AI可以不说“90%的恶性概率”，而是说：“我做出这个判断，是因为这次扫描的特征与恶性肿瘤的教科书式原型高度相似。”通过使用像余弦相似度这样的简单度量，将患者数据（表示为向量）与一个原型向量库进行比较，AI可以将其抽象的决策建立在具体、人类可理解的类比之上。

我们甚至可以将伦理原则直接融入这个框架。来自AI的原始相似度分数只是一个数字；它不一定是一个经过良好校准的风险。此外，我们必须坚持我们的AI以一种非欺骗性的方式行事。例如，我们可以强制执行一个严格的单调性约束：一个与病理原型更相似的案例，绝不能被赋予更低的风险评分。这个伦理规则可以通过诸如保序回归（isotonic regression）等技术在数学上强制执行，该技术在将AI的原始相似度分数校准为有意义的概率的同时，保证了这种单调、可信赖的行为。

良知的演算

这个诞生于几何学和统计学的数学框架，真的能对伦理学这个独特的人类领域有所贡献吗？答案是肯定的，而且出人意料地响亮。

思考一下决疑论（casuistry），或称基于案例的伦理推理。当伦理学家或临床医生面临一个新颖而复杂的困境时，他们常常通过类比推理，将当前情况与过去理解透彻的“范例案件”进行比较。我们可以将这个过程形式化。一个案例可以由其伦理学上显著特征的向量来表示——例如，自主权受限的严重性、潜在临床益处的大小以及对患者隐私的风险。

新案例与范例案件之间的“距离”便告诉我们哪些先例最为相关。但在伦理学中，并非所有维度都是平等的。在“自主权”维度上的微小差异，可能远比在另一个维度上的巨大差异更为重要。我们可以将这些伦理优先级编码到一个权重矩阵 $W$ 中，并使用一个加权度量（例如马氏距离（Mahalanobis distance），它是一种由 $d^2(x, y) = (x-y)^T W (x-y)$ 定义的平方距离）来衡量伦理上的“距离”。在这个加权空间中找到最近的范例案件，可以让AI检索到最相关的伦理先例，从而为人类决策者突显出核心的道德权衡。

这将我们的旅程带回了原点——一个患有神秘罕见病的儿童。这个孩子表现出的不是单一的实验室数值，而是一系列症状和体征的组合——他们独特的表型。诊断的漫漫长路，就是在寻找一个其已知功能效应与这一临床图像相匹配的基因。利用庞大的人类表型本体（Human Phenotype Ontology），我们可以将孩子的表型和每个候选基因的已知效应都表示为结构化的术语集合。挑战在于计算它们之间的“语义相似度”。

简单的关键词匹配是不够的。匹配到一个高度特异和罕见的症状，远比匹配到一个普遍和普通的症状更具信息量。通过融合信息论的原理，我们可以设计一个相似性度量，对这些罕见、特异的匹配给予更高的权重。找到具有最高语义相似度的基因，不仅仅是数据匹配的技术操作，更是一种深刻的诠释行为，它将一个孩子的独特痛苦与整个人类遗传学的图景联系起来，为诊断、理解和希望照亮了一条道路。

从蛋白质的微观舞蹈到生态系统的宏观健康，从机器智能的逻辑到道德推理的细微差别，相似性的概念提供了一种强大而统一的语言。它证明了科学技术中一些最深刻的工具，源于对我们最基本、最根深蒂固的直觉的严谨数学化。