Skip-Gram 负采样

玻尔百科

定义

Skip-Gram 负采样是一种通过训练模型区分真实词对与人工生成的负样本词对来学习词向量的计算方法。该算法的训练目标在本质上是对点互信息矩阵进行分解，其生成的向量空间允许通过代数运算进行向量推理，从而在药物重定位等领域发现新假设。除了处理文本，该技术还被灵活应用于基因、蛋白质序列以及通过随机游走生成的网络节点序列。

核心要点

带负采样的 Skip-Gram (SGNS) 通过训练模型区分真实的词对和人工生成的“负”词对来学习词向量。
该算法的训练目标隐式地对点互信息 (PMI) 矩阵进行因式分解，将一个简单的分类任务与深层的信息论联系起来。
“词语”和“上下文”的概念是灵活的，这使得 SGNS 可以通过随机游走（例如 node2vec）应用于基因、蛋白质序列或网络中的节点。
由此产生的向量空间支持“向量推理”，允许对概念进行代数运算，从而在药物重定位等领域生成新的假说。

引言

我们如何教会计算机一个词语微妙且依赖于上下文的含义？现代自然语言处理的基本洞见是：“一个词的特性由其相伴的词语所决定。” 我们可以不通过记忆定义，而是通过分析在海量文本中哪些词语会出现在彼此附近来学习意义。然而，一个简单的方法在计算上是不可行的。本文深入探讨了一种优雅而高效的解决方案：带负采样的 Skip-Gram (SGNS) 模型，它将预测上下文的复杂问题重构成一个识别“真实”与“虚假”词对的简单游戏。

本次探索分为两部分。在“原理与机制”部分，我们将揭示这个简单的游戏如何转化为向量间动态的“推拉”之舞，并揭示该算法与信息论核心概念点互信息 (PMI) 之间深厚的数学联系。之后，“应用与跨学科联系”部分将展示该方法的卓越通用性，说明同一原理如何解码生物学语言、绘制社交网络的几何结构，甚至生成新的科学假说。

原理与机制

从本质上讲，理解语言或任何复杂关系系统的科学有点像一个侦探游戏。如果你遇到一个未知的词，比如说“borogove”，你会如何开始理解它？如果它孤立存在，你学不到太多东西。但如果你被告知“borogoves”经常在“mimsy”的东西附近被发现，并且它们会“gyre and gimble”，你就会开始建立一个心智图像。你会知道它可能是一种生物，并且你会将它与某些动作和品质联系起来。这个强大的想法，即一个词的特性由其相伴的词语所决定，正是我们即将探讨的基础。

我们的目标是将这种直觉教给计算机。不是通过给它一本字典，而是让它自己从海量原始文本中发现这些关系。为此，我们必须将“意义”这个模糊的概念转化为具体的数学语言：数字。我们将把每个词表示为一个数字列表，即一个高维“意义空间”中的向量。在这个空间里，我们希望“king”和“queen”的向量彼此靠近，而“king”和“cabbage”的向量应该相距很远。问题是，我们如何为这些向量找到正确的数值？

一个巧妙的捷径：“真或假？”的游戏

让我们想象一下学习任务。一个直接的方法可能是：给定一个词如“king”，预测最可能出现在其附近的词。这是 Skip-Gram 模型的核心。虽然直观，但这带来了巨大的计算挑战。如果我们的词汇表包含 50,000 个词，那么对于每一个训练样本，计算机都必须计算和更新 50,000 个概率——这是一个艰巨的任务，将使得从数十亿词语中学习变得极其缓慢。

这时，一个天才的瞬间简化了一切。我们不再要求模型预测确切的上下文词，而是将游戏改为一个更简单的二元问题：“这是一对词，(‘king’, ‘queen’)。这是来自文本中的真实共现词对吗？” 这将问题从一个庞大的预测任务重构成一个简单的“是/否”分类任务。

当然，如果我们只给模型展示真实的词对并要求它说“是”，它很快就会学会一个无用的策略：对所有东西都说“是”！为了让游戏有意义，我们需要引入“否”的例子。对于我们从文本中取出的每一个真实词对，比如 (‘king’, ‘queen’)，我们通过将中心词与字典中的随机词语匹配，来发明几个虚假的词对。这些就是我们的负样本。例如，我们可能会创建 (‘king’, ‘aardvark’)、(‘king’, ‘photosynthesis’) 和 (‘king’, ‘wrench’)。

模型的新任务非常简单：看到 (‘king’, ‘queen’) 就学习输出一个高分（意为“可能是真的”）。看到 (‘king’, ‘aardvark’) 就学习输出一个低分（意为“可能是假的”）。这个巧妙的设置被称为负采样。

向量之舞：推与拉的机制

模型如何为一对词生成“分数”？它使用我们分配给它们的向量。一对词 $(w, c)$ 的分数就是它们各自向量 $v_w$ 和 $u_c$ 的点积。点积 $v_w^\top u_c$ 是衡量相似度的指标；一个大的正值意味着向量指向相似的方向，而接近零或负值则意味着它们指向不同的方向。

训练过程是一场优美而动态的舞蹈。对于每个样本，我们调整向量以提高它们的分数。这是通过现代机器学习的主力军——梯度下降来完成的。让我们想象一下这场舞蹈中一步会发生什么。

想象一下，我们开始时所有的词向量都在我们的意义空间中被初始化为随机位置。

拉近：我们给模型一个真实的词对，比如来自临床文本的 (‘chest’, ‘pain’)。模型计算它们的点积。假设分数很低，这是“错误”的，因为这是一个真实的词对。学习算法然后将‘chest’的向量 $v_{\text{chest}}$ 朝着‘pain’的向量 $u_{\text{pain}}$ 的方向轻推一下。同时， $u_{\text{pain}}$ 也被轻推向 $v_{\text{chest}}$ 。它们被轻轻地拉近了。
推远：接下来，我们给它一个负样本，比如 (‘chest’, ‘lamp’)。模型对这对词的点积应该很低。如果不是，算法就会介入。它将 $v_{\text{chest}}$ 朝着远离‘lamp’的向量 $u_{\text{lamp}}$ 的方向轻推一下。它们被推远了。

这种“推拉”机制是学习过程的核心。每次轻推的幅度与模型当前预测的“错误”程度成正比。如果‘chest’和‘pain’已经非常接近，拉力就很小。如果它们相距很远，拉力就很强。推力也是如此。这是一场优雅的、自我修正的舞蹈，重复数百万次。随着每一步，向量们重新洗牌和排列，逐渐将整个词汇表组织成一个连贯的结构，其中语义相似性由空间上的邻近性来捕捉[@problem_targ_id:4617685]。

重大揭示：语言的物理学

这种推拉游戏可能看起来像一个巧妙的工程技巧，一种计算上的便利。但现实远比这深刻。有一个深层次的基本原理在起作用，它将这个简单的算法与信息论和线性代数的基础联系起来。

问题是：这场舞蹈最终趋向的理想向量排列是什么？答案在于一个叫做点互信息 (PMI) 的概念。PMI 衡量两个事件之间的关联性。对于两个词 $w$ 和 $c$ ，它问：“这两个词一起出现的可能性比它们纯粹偶然一起出现的可能性大多少？” 它的定义是：

\text{PMI}(w,c) = \log\left(\frac{P(w,c)}{P(w)P(c)}\right)

这里， $P(w,c)$ 是看到词 $w$ 和 $c$ 一起出现的概率，而 $P(w)$ 和 $P(c)$ 是它们各自的概率。如果两个词的共现频率远高于偶然（例如，“San”和“Francisco”），它们的 PMI 就很高。如果它们的共现频率与偶然预期的相同，它们的 PMI 为零。如果它们似乎互相回避，它们的 PMI 为负。

以下是惊人的发现：简单的带负采样的 Skip-Gram 目标函数使得学习到的向量的点积收敛于相应词语的 PMI，只是有一个小的常数偏移。具体来说，对于目标向量 $v_w$ 和上下文向量 $u_c$ ，模型学习使得：

v_w^\top u_c \approx \text{PMI}(w,c) - \ln(k)

其中 $k$ 是我们为每个正样本使用的负样本数量。

这是一个优美而强大的结果。它意味着我们计算成本低廉的“真或假？”游戏，实际上在解决一个深层次的问题：它正在对语言的整个 PMI 矩阵进行低秩分解。它发现了词语间相互关系中最重要的统计潜流，并将那庞大、复杂的信息压缩成密集的低维向量。这种联系将 SGNS 从一个单纯的算法提升为揭示潜在结构的原理。

超越词语：一个普适原理

这个原理真正的美在于它的普适性。该机制并非特定于语言；它适用于任何可以从共现中推断出关系的领域。这是因为 SGNS 可以被理解为一种更通用的统计方法——噪声对比估计 (NCE) 的一种实际实现，该方法通过将数据与噪声进行对比来学习数据模型。

社交和生物网络：想象一个社交网络。我们可以通过在网络图上进行随机游走来生成“句子”（例如，“Alice → Bob → Charlie → Alice → David...”）。现在，‘Alice’和‘Bob’构成一个共现对。我们可以应用完全相同的 SGNS 机制来学习每个人的向量，将朋友和社群成员在嵌入空间中放置得更近。这可以用于预测友谊或在从社交网络到蛋白质相互作用网络的各种事物中识别功能性社群。
基因组学和医学：同样地，我们可以将在一个细胞中共表达的基因视为一个“上下文”。或者在临床记录中，我们可以根据哪些症状、药物和疾病在患者笔记中被一同提及来学习它们的嵌入。学习到的向量随后可以揭示隐藏的关系，为现有药物提出新用途或识别新的疾病通路。

在所有这些情况下，底层的“物理学”是相同的：算法学习一对实体来自“真实数据”与来自“噪声”的对数几率，这隐式地捕捉了系统的有意义的统计结构，无论它是一个语言、一个社交网络，还是一个细胞。

微调机器

虽然核心原理很优雅，但其实际应用涉及一些本身也具有启发性的微妙之处。

一个关键的选择是我们如何生成“虚假”的词对。如果我们完全随机地从字典中挑选负样本，我们大多会得到稀有词。这使得任务过于简单。相反，如果我们只挑选最频繁的词（如‘the’、‘a’、‘is’），模型学到的教训将非常有限且无益。理想的负采样分布需要提供均衡的样本组合。标准的解决方案是一个实践上的天才之举：我们根据词的频率进行采样，但通过将频率提升到 $\alpha=0.75$ 次方来平滑分布。这个技巧确保我们采样高频词的频率略低于其应有频率，而采样稀有词的频率略高于其应有频率，从而防止少数“中心”词主导训练过程，并带来更丰富的学习信号。

这也凸显了一个挑战：对于极其罕见的实体该怎么办？在一个十亿词的语料库中只出现一两次的词，或者在一个巨大的社交网络中只有一个朋友的人，将只接收到非常少的“拉”或“推”更新。它们最终的向量将被估计得很差且不可靠。这提醒我们，即使有强大的原理，我们数据的质量及其分布的特性也至关重要，常常需要深思熟虑的工程解决方案，比如有意地对稀有项进行过采样，或者干脆将它们作为噪声丢弃。

从一个简单的猜谜游戏开始，我们经历了一场优雅的向量机械之舞，到达了与信息论的深刻联系，并发现了一个用于学习复杂系统中结构的普适原理。这就是科学之美：找到那些能统一看似迥异问题广阔领域的简单而强大的思想。

应用与跨学科联系

在我们之前的讨论中，我们剖析了带负采样的 Skip-Gram 模型的精妙机制。我们视其为一个聪明的学徒，通过观察同伴来学习词语的意义。该模型塑造了一个高维的“概念空间”，其中具有相似上下文的词语被推得更近。然而，真正的魔力始于我们意识到“词语”和“上下文”的定义可以以最非凡的方式被延伸。如果我们能教会我们的学徒不仅阅读人类语言，还能阅读生命本身的语言呢？如果它不仅能导航句子的线性流动，还能驾驭复杂网络的纠缠之网呢？在本章中，我们将踏上一段超越语言学的旅程，探索这个简单思想惊人的多功能性，见证其解码医学、生物学和复杂系统隐藏结构的力量。

医学和生物学的语言

第一个也是最自然的飞跃是将我们的词语学习算法应用于专门领域。医学，拥有海量的临床笔记、患者记录和基因组数据，为发现提供了肥沃的土壤。

想象一下，将数百万份来自电子健康记录的去身份化医生笔记输入我们的模型。现在的“词语”是医学术语——疾病、症状、药物和程序。训练后，模型不仅学到了一个字典，还捕捉到了临床实践中错综复杂的关系。这使得一种“向量推理”成为可能。例如，模型学习到的嵌入满足关系类比，如著名的“king - man + woman ≈ queen”。在临床领域，这可能表现为 $v_{\text{aspirin}} - v_{\text{antiplatelet}} + v_{\text{metoprolol}} \approx v_{\text{beta-blocker}}$ ，其中模型通过遵循一个代表“属于……类别”关系的向量，正确地识别出一种新药的治疗类别。然而，这种学习到的结构并非魔法；它是统计模式的反映，其成功取决于这些关系可以被嵌入空间中的简单线性偏移所近似的假设——这个假设可能受到临床术语多面性的挑战。

但为什么要止步于人类生成的文本呢？生命的原理是用比我们自己的语言古老得多的语言写成的。考虑基因组，一个由核苷酸 A、C、G 和 T 组成的序列。我们能学习一个短 DNA 片段（称为 $k$ -mer）的“意义”吗？通过将 DNA 测序仪的读段视为“句子”，将 $k$ -mer 视为“词语”，我们可以直接应用 SGNS。由此产生的嵌入捕捉了功能和系统发育的相似性，使我们能够从原始序列数据中识别基因或对微生物进行分类。这个应用展示了计算机科学与领域知识的美妙结合。DNA 是双链的，一条链上的序列在另一条链上有其反向互补序列。由于生物学功能通常对于读取哪条链是不变的，我们可以通过指示我们的模型一个 $k$ -mer 和它的反向互补序列是同义的来强制执行这种对称性，例如通过绑定它们的参数 $\mathbf{v}_k = \mathbf{v}_{\mathrm{rc}(k)}$ 。这个优雅的约束将基本的生物学真理直接注入到我们的数学模型中。

同样的逻辑也延伸到蛋白质的语言，蛋白质是由 20 种标准氨基酸组成的序列。通过在巨大的蛋白质数据库上训练 SGNS 模型，我们可以为每种氨基酸学习一个密集的、数据驱动的表示，捕捉其典型的功能上下文。这是一个深刻的转变，与依赖于基于氨基酸已知理化特性（如大小或电荷）手工制作特征的旧方法不同。SGNS 方法体现了让数据自己说话的哲学，揭示了少数预定义特征可能无法捕捉到的共现细微差别。

那么，模型真正在学习什么？它仅仅是一种聪明的关联技巧吗？通过仔细分析发现，答案要深刻得多。当我们审视 SGNS 优化的数学目标时，我们发现在其最优解处，两个嵌入向量的点积 $s_{ij}^{\star} = \mathbf{u}_i^{\top} \mathbf{v}_j$ 近似等于两个“词语”的点互信息 (PMI)，并偏移了一个与负样本数量相关的项：

s_{ij}^{\star} = \ln\left( \frac{P(i,j)}{P(i)P(j)} \right) - \ln(k) = \text{PMI}(i,j) - \ln(k)

点互信息是信息论中一个强大的概念。它衡量两个事件共同出现的可能性比它们独立出现时的可能性高多少。高的 PMI 意味着这种共现是出人意料的，因此信息量很大。因此，SGNS 不仅仅是一个神经网络；它是一种在计算上卓越且可扩展的方法，用于分解这个“意外值”矩阵。它学习将项目映射到一个向量空间，其中距离反映了它们关联的有意义程度。这一洞见也阐明了诸如对高频词（例如，英语中的“the”，或在临床语境中的“patient”）进行子采样等实用技巧的作用，这有效地防止了模型被常见但信息量不大的配对所淹没，使其能够专注于更稀有、更有意义的信号。

超越序列：网络的几何学

SGNS 框架的真正天才之处在于我们超越线性序列时才显现出来。世界上大部分数据——从社交网络到蛋白质-蛋白质相互作用，再到生物医学知识——最好都表示为复杂的图。我们如何学习网络中一个节点的意义？

由 DeepWalk 和 node2vec 等方法开创的关键见解是，将图结构转换回 SGNS 所能理解的线性序列。这是通过在图上模拟数千次随机游走来实现的。每次游走都是一条节点路径，“A → D → F → C → ...”，可以被视为一个句子。一个节点的“上下文”现在是它在这些随机游走中倾向于与之共现的节点集合。通过将这些游走输入标准的 SGNS 机制，我们可以为图中的每个节点学习一个嵌入。由此产生的向量空间捕捉了图的拓扑结构，将网络中相近的节点放置在嵌入空间中相近的位置。

通过给随机游走者一个“有偏的”罗盘，这个简单的想法变得更加强大。例如，node2vec 算法引入了两个参数 $p$ 和 $q$ ，使我们能够控制游走者的探索策略。想象一下我们的游走者在一个十字路口。它应该像广度优先搜索 (BFS) 一样，细致地探索紧邻的邻域吗？还是应该像深度优先搜索 (DFS) 一样，勇闯远方，探索图的遥远部分？

类似 BFS 的策略（高 $q$ ）将游走者限制在一个局部区域内。由此产生的嵌入在捕捉同质性——即节点与其直接邻居相似的倾向——方面表现出色。这非常适合像社群检测这样的任务。
类似 DFS 的策略（低 $q$ ）鼓励游走者去更远的地方冒险。这使它能够发现那些虽然相距遥远，但在网络中扮演相似结构角色的节点（例如，作为两个社群之间的桥梁）。由此产生的嵌入捕捉了这种结构对等性。

通过调整这种探索性偏好，我们可以引导学习过程专注于与我们任务最相关的几何特性。至关重要的是，即使对于拥有数百万个节点的图，这整个强大的过程在计算上仍然是可行的。“负采样”技巧通过将问题简化为每步少数几次比较，使得每个周期的训练成本与 $M d (k+1)$ 成比例，其中 $M$ 是训练对的数量， $d$ 是维度， $k$ 是负样本的数量。该成本与总词汇量或网络大小无关，将一个棘手的问题变成了实际可行的现实。

发现的代数

我们已经学会了将词语、基因、蛋白质和网络节点表示为共享几何空间中的点。这一成就不仅仅是一种聪明的数据压缩行为。这些嵌入空间的真正前景在于它们作为一种新型计算发现实验室的潜力。

允许我们解决像“king - man + woman”这样类比问题的向量代数，可以被重新用于假说生成。考虑一个连接药物、蛋白质靶点和疾病的庞大三方知识图。在对此图进行 node2vec 这样的模型训练后，我们为每个实体都有一个嵌入。现在，我们可以开始提出创造性的问题。

假设我们有兴趣为一种现有药物寻找新用途，这个过程称为药物重定位。我们可能取一种疾病的向量，比如 $v_{\text{Alzheimer's}}$ ，以及一种已知的靶向该疾病的药物的向量 $v_{\text{DrugA}}$ 。差向量 $v_{\text{Alzheimer's}} - v_{\text{DrugA}}$ 可能代表了该疾病“未被药物干预的”病理机制的某些方面。如果我们现在将这个“机制向量”加到一种完全不同的药物上，比如说一种用于糖尿病的药物： $v_{\text{DiabetesDrug}} + (v_{\text{Alzheimer's}} - v_{\text{DrugA}})$ ？这个新向量指向哪里？它可能会落在某个蛋白质靶点的嵌入附近，而这个靶点之前从未与阿尔茨海默病相关联，但已知会受该糖尿病药物影响。这就提出了一个新的、可检验的假说：或许调节这个靶点可能是治疗阿尔茨海默病的一种新策略。

这就是前沿。嵌入空间成为一个发挥创造力的画布，我们可以在这里加减概念，以导航至未曾见过的联系并生成新颖的科学假说。我们从一个简单的规则开始——事物由其相伴者定义。通过以数学的严谨性和计算的独创性追求这一思想，我们最终得到了一个强大的科学探究工具，其应用仅受我们想象力的限制。带负采样的 Skip-Gram 模型之美在于它表达了一个深刻的原理：在正确的地图上，通往发现的道路可以像两点之间画的一条线一样简单。