嵌入学习

玻尔百科

定义

嵌入学习是一种基于分布假说的机器学习技术，旨在将稀疏的高维数据转化为稠密的低维向量表示。该技术通过矩阵分解和对比学习等机制，在几何空间中利用向量距离和方向来表达实体间的语义关系。嵌入学习广泛应用于自然语言处理、推荐系统、蛋白质序列解码以及人工智能公平性分析等多个领域。

关键要点

嵌入学习建立在分布假说之上，该假说认为一个实体的意义由其出现的上下文决定。
像矩阵分解（GloVe）和对比学习等技术被用于将稀疏的高维数据转换为密集的低维向量嵌入。
这些嵌入创建了一个几何空间，其中语义关系由向量的距离和方向表示，从而能够对抽象概念进行直观操作。
嵌入的应用非常广泛，涵盖了语言理解、推荐系统、蛋白质序列解码以及人工智能公平性分析。

引言

我们如何教会机器理解诸如一个词、一件消费品，乃至一个生物分子等抽象概念背后的含义？用数字来表示我们世界中错综复杂的关系网是人工智能领域的一个根本挑战。传统方法常常力不从心，产生的表示不仅笨重、稀疏，而且难以被模型解释。嵌入学习提供了一种强大而优雅的解决方案，它提供了一个框架，能将复杂的关系转化为几何这一通用语言。它使我们能够创建密集的低维地图，其中点的邻近度和方向反映了它们所代表的概念之间的语义联系。

本文将对嵌入学习进行全面探索。我们首先将深入探讨“原理与机制”，追溯从奠基性的分布假说到矩阵分解的数学魔力，再到现代对比学习动态的学术历程。我们将揭示关于上下文的简单思想如何能转化为强大的几何表示。随后，“应用与跨学科联系”部分将展示嵌入非凡的通用性。我们将看到这一个思想如何革新了计算金融、基因组学、推荐系统和人工智能公平性等截然不同的领域，为分析和与复杂系统互动提供了一个统一的视角。

原理与机制

“观其伴，知其义”

嵌入学习的核心是一个优美、简单而深刻的思想，由语言学家 John Rupert Firth 在1957年提出：“观其伴，知其义（You shall know a word by the company it keeps）。” 这就是分布假说，是我们整个事业的哲学基石。它认为，一个词的意义并非孤立的属性，而是由它出现的上下文所定义。

想一想“bank”这个词。如果我告诉你它出现在一个包含“money”、“loan”和“interest rates”的句子中，你立刻会想到金融机构。但如果我说它的邻居是“river”、“shore”和“slippery”，你则会想象到水道的岸边。上下文定义了意义。因此，我们的第一个挑战，就是如何用数学方式捕捉这种“伙伴”关系的概念。我们如何教会机器看到“bank”所交往的不同朋友圈？

最直接的方法是计数。我们可以系统地通读大量文本，统计词对在彼此附近出现的频率。这就引出了共现矩阵的概念。

从词到数：共现矩阵

想象一张巨大的电子表格。每一行代表我们词汇表中的一个词，每一列也是。位于词A的行和词B的列交叉处的单元格中的数字，是A和B在给定上下文中一同出现的次数的计数。这个矩阵，我们称之为 $X$ ，是分布假说的原始数值体现。

当然，我们必须精确定义“一同出现”的含义。我们通常定义一个上下文窗口，比如目标词左右各五个词的小范围。如果一个词落在这个窗口内，它就被认为是邻居。此外，我们可能会认为更近的邻居更重要。紧邻目标词的词可能比五个词远的词告诉我们更多信息。我们可以通过用距离的倒数 $1/\Delta$ 来加权共现计数来编码这种直觉，其中 $\Delta$ 是词之间的距离。距离为1的词贡献计数1，距离为2的词贡献 $1/2$ ，依此类推。

即便是这简单的一步也揭示了一个根本性的选择。我们是否允许上下文窗口跨越句子边界？如果允许，我们可能会意外地将一个句子的最后一个词与下一个句子的第一个词联系起来，产生无意义的共现。对于像“bank”这样的多义词，允许窗口跨越句子可能会将金融语境与河岸语境混合在一起，模糊了我们希望捕捉的区别。将窗口限制在句子内部通常会产生更清晰、更精确的意义信号。

完成所有这些工作后，我们得到了共现矩阵 $X$ 。代表“bank”的那一行是一长串数字，表示它与语言中其他所有词的共现情况。这个行向量是“bank”的一种表示，但不是一个很好的表示。对于一个有10万个词的词汇表，这个向量有10万个维度。它巨大、大部分由零填充（稀疏），而且笨重。这就像试图通过列出一个人见过的每一个人来表示这个人一样。这在技术上提供了信息，但并非一个有用的总结。这类似于使用独热编码来表示一个高基数类别变量——比如一支股票IPO的150个不同承销商。你会为每一个承销商得到一个巨大而稀疏的向量，这对于许多模型来说都难以优雅地处理。我们需要更好的东西。我们需要提炼其精髓。

寻找精髓：低秩思维的魔力

目标是将每个词的巨大、稀疏的向量压缩成一个短得多的密集向量——即嵌入。我们希望从一个10万维的向量变成，比如说，一个300维的向量，而不丢失关于意义的基本信息。这怎么可能呢？

关键的洞见在于，共现矩阵是高度冗余的。词与词之间的关系是结构化的。如果“cat”经常与“purr”和“meow”一起出现，而“dog”经常与“bark”和“fetch”一起出现，那么这里就存在一个潜在的“宠物般的叫声和行为”的概念。成千上万个单独的共现统计数据只是一些少数潜在语义主题的表象。发现这种潜在主题的数学工具是矩阵分解。

其中最优雅和成功的方法之一，GloVe (Global Vectors)，提出我们应该分解的对象不是原始共现矩阵 $X$ ，而是它的对数 $\log(X)$ 。该模型试图为每个词找到两个嵌入向量，一个词向量 $w_i$ 和一个上下文向量 $\tilde{w}_j$ ，使得它们的点积近似于共现计数的对数： $w_i^\top \tilde{w}_j \approx \log(X_{ij})$ 。

但为什么要取对数？为什么 GloVe 的目标函数是一个奇特的加权平方误差和， $\sum_{i,j} f(X_{ij}) (w_i^\top \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij})^2$ ？事实证明，这不是一个随意的选择。通过一段优美的推理，可以证明这个目标函数正是从一个有原则的统计模型出发所得到的结果。如果你假设“真实”的意义关系由点积给出，并且观察到的对数计数被方差与计数本身成反比的高斯噪声所破坏（这对计数数据来说是一个非常合理的假设），那么寻找最可能嵌入的过程——最大似然估计——会直接引导你到这个加权最小二乘目标，其中权重函数自然地呈现为 $f(X_{ij}) = X_{ij}$ 。这是一个绝佳的例子，说明一个看似临时的工程选择背后，其实有着深刻、有原则的根源。

意义的几何学

通过分解，我们将巨大的矩阵提炼成一组密集的低维向量。现在，有趣的部分开始了。我们已将词语映射到一个几何空间中。在这个空间里，向量之间的关系——它们的距离和角度——应该对应于意义之间的关系。“King”应该靠近“Queen”，“walking”应该靠近“ran”，并且从“king”到“queen”的向量应该与从“man”到“woman”的向量惊人地相似。

为了使这种几何关系变得清晰，一个标准做法是对嵌入向量进行L2归一化。这意味着我们缩放每个向量，使其长度为1。从几何上看，我们将所有词向量投影到一个高维球体（一个超球面）的表面上。这个简单的操作带来了深远的影响。在这个球面上，最大化点积 $w^\top x$ （它与向量之间夹角的余弦，即余弦相似度成正比）变得等同于最小化欧氏距离的平方 $\|w - x\|^2_2$ 。它们之间精确的关系非常简单： $\|w - x\|_2^2 = 2(1 - w^\top x)$ 。

为什么要这样做？因为它移除了一个干扰性的自由度。在不进行归一化的情况下，模型可以通过简单地使向量 $w$ 和 $x$ 变得很长来增大点积 $w^\top x$ ，而实际上并不需要让它们指向相同的方向。通过强制所有向量具有相同的长度，我们迫使模型只关注它们之间的角度。现在的学习纯粹是关于相对方向，而这正是真正语义精髓所在之处。

我们看到的是幻象吗？随机性的零假设

所以，我们训练了模型，发现“cat”和“feline”之间的余弦相似度是0.85。这个数字算大吗？我们怎么知道我们看到的不仅仅是噪声中的模式？我们需要一个基准——一个零假设。完全随机选择的两个向量之间的余弦相似度会是多少？

让我们在高维超球面上随机选取两个点，并找出它们之间的夹角。有人可能会猜测答案是“任何值都有可能”。但在这里，高维空间揭示了其最令人惊讶和有用的特性之一。从第一性原理出发，仅使用对称性和期望的线性性质，就可以证明在一个 $d$ 维空间中，两个独立的随机单位向量之间期望的余弦相似度恰好为0。

更重要的是，这种相似度的方差是 $1/d$ 。这意味着，随着维度 $d$ 变大，余弦相似度的分布会难以置信地集中在0附近。在一个300维的空间中，两个随机向量的余弦相似度为0.85是天文数字般不可能的。它们几乎总是接近正交（成90度角）。这所谓的“维度灾难”对我们来说反而成了一种福音。它保证了我们在学习到的嵌入中发现的任何强相似性或不相似性都是模型发现的真实信号，而不是随机偶然的结果。空间的广阔性确保了结构不是偶然产生的。

对比学习：一个现代视角

虽然像 GloVe 这样基于计数的方法很强大，但现代主流方法是直接从神经网络中学习嵌入。主导的范式是对比学习。其思想非常直观：通过学习区分相似事物和不相似事物来学习好的表示。

对于一个给定的“锚点”数据点（比如一张猫的图片），我们通过数据增强（例如，裁剪或变色）来创建一个“正”样本。批次中的所有其他数据点都被视为“负”样本。模型，即一个编码器网络，被训练来产生嵌入，使得锚点的嵌入被拉近正样本的嵌入，同时被推离所有负样本的嵌入。

这听起来与计算共现次数非常不同。但在这里，一个优美的统一原则再次出现。最流行的对比损失函数 InfoNCE，可以被证明在代数上与分类中使用的标准 softmax 交叉熵损失是等价的。其中的“诀窍”在于将问题构建为一个大规模的分类任务，其中数据集中的每一个实例都是其自己独特的类别。模型的任务是，对于一个给定的锚点，预测在成千上万个“类别键”（每个实例一个）中，哪一个是它的正匹配。这揭示了学习区分个体是一种极其强大的方式，可以学习定义它们的通用语义特征。

简单的危险：表示坍塌

模型要满足将正样本对拉近的目标，最简单的方法是什么？最懒惰——也最聪明——的解决方案是将每一个输入都映射到完全相同的点！如果所有的嵌入都相同，正样本对之间的距离为零，这堪称完美。模型轻而易举地解决了对齐任务，但这个表示却完全无用。这种失败模式被称为表示坍塌。

从统计上看，坍塌意味着一批嵌入的协方差矩阵失去了秩；一个或多个维度上的方差缩小到零。我们如何对抗这种情况？深度学习中最有效和无处不在的工具之一，批量归一化（Batch Normalization, BN），前来救场。BN 对一批嵌入进行操作，对每个维度，它减去均值并除以标准差。这个看似简单的清理步骤是对抗坍塌的强大解药。通过强制每个维度的均值为0、方差为1，它明确地防止了任何维度方差的消失。如果模型试图使某个维度坍塌，BN 会简单地将其“拉伸”回来，放大任何残余信号，并迫使模型找到一个更有意义的解决方案。

一个更复杂的观点将训练过程视为一种权衡。我们既想要好的对齐性（正样本对之间的距离小），又想要好的均匀性（嵌入应该均匀分布在超球面上，而不是聚集在一起）。坍塌是完美对齐但均匀性为零的状态。通过在训练期间同时监控这两个指标，我们可以实施一个更智能的早停规则：当看到对齐性持续改善但均匀性开始下降时，我们停止训练，这表明模型开始过度优化对齐任务，而牺牲了整体表示质量。

从简单的上下文概念到高维球体的复杂几何，再到训练的微妙动态，嵌入学习是一段发现和利用数据中隐藏结构的旅程。

应用与跨学科联系

在回顾了嵌入学习的原理和机制之后，我们已经看到如何教会计算机为抽象概念找到一个几何家园。我们已经构建了引擎。现在，真正的乐趣开始了：让我们驾驭它去驰骋。这个强大的思想能带我们去向何方？正如我们将看到的，答案是几乎无处不在。嵌入的真正魅力不在于其训练的复杂性，而在于其非凡的通用性。通过将任何领域——无论是语言、商业，甚至是生命本身——内部错综复杂的关系网转化为几何这一通用语言，我们解锁了一种看待和解决问题的新方式。

数字世界：语言与推荐

也许最自然的起点是我们用自己的言语和选择构建的世界：广阔的互联网。在这里，嵌入已成为我们数字体验中安静、无形的架构师。

思考一下语言。对计算机来说，像“king”这样的词只是一串字母。我们到底如何能教会它与“king”相关的概念——皇室、权力、男性、与“queen”相对应？受分布假说启发的突破在于，认识到一个词的意义是由其周围的词编码的。通过训练模型根据邻居词预测一个词（或反之），模型被迫为每个词学习一个向量，即一个嵌入。在相似上下文中出现的词——如“king”和“queen”——在这个新的几何空间中被推到一起，而不相关的词如“king”和“cabbage”则被推得很远。

这个简单的想法带来了深远的影响。例如，在计算金融领域，机器不能仅仅阅读年度报告，它需要理解报告。通过使用复杂的上下文嵌入来表示财经新闻的文本，模型可以辨别所用语言的微妙情感和含义。像 Transformer 这样的先进模型可以为“interest”这个词生成不同的嵌入，这取决于它是在“interest rates”（利率）还是“a conflict of interest”（利益冲突）的语境中，这是旧的静态方法无法实现的壮举。这种深刻的理解带来了非凡的应用，例如根据新闻稿的细微差别预测股市动向。

同样的几何推理也驱动着推荐电影、产品和音乐的推荐系统。想象一个广阔的“品味空间”。在这个空间里，每个用户和每个物品都有自己的坐标，自己的嵌入。模型的任务，通过像矩阵分解这样的过程，是排列这些点，使几何关系反映出喜好程度。如果你喜欢某部电影，你的用户嵌入就会被移近那部电影的嵌入。为了给你找一部新电影，系统只需在这个空间中寻找靠近你位置的其他电影嵌入即可。这种方法的优雅之处在于它能够发现潜在特征。系统不需要知道你为什么喜欢一部电影；嵌入的几何邻近性自动捕捉了可能难以言表的共同品味，比如对某位导演风格或特定类型幽默的偏好。

我们甚至可以使这些推荐更加动态。与其仅仅考虑你过去买了什么，我们不妨看看你行为的序列？通过将用户的浏览会话视为一个句子，将他们点击的物品视为单词，我们可以调整语言模型来预测你可能感兴趣的下一个物品。我们甚至可以为你花更多时间查看的物品赋予更高的权重，这个概念被称为“停留时间”。这使我们能够以惊人的精度对物品的可替代性概念进行建模，理解在特定情境下哪些产品可以作为替代品。

解码自然世界：从分子到生态系统

嵌入的力量并不仅限于数字领域。事实证明，语言和上下文的原则以惊人的成功应用于自然本身的语言。

考虑一下生命的基石：氨基酸。蛋白质是由这20种基本分子组成的长序列。几十年来，生物学家研究了它们各自的物理化学性质。但是，我们是否能像处理词语一样，从它们的上下文中学习它们的“意义”？通过将数十亿已知的蛋白质序列视为一本巨著，我们可以训练一个像 Skip-Gram 或 CBOW 这样的语言模型。模型的任务很简单：给定一个氨基酸，预测它在序列中的邻居。在学习这个任务的过程中，模型为20种氨基酸中的每一种生成一个密集的向量嵌入。由此产生的几何结构令人震惊。具有相似化学性质的氨基酸自然地聚集在一起，这并非因为我们告诉了模型关于化学的知识，而是因为它们在相似的进化语境中被交替使用。我们学会了细胞的语言，它被书写在一个嵌入空间的几何结构中。

我们可以从单个分子放大到整个生态系统。想象一下肠道微生物组的复杂世界，这是一个由数千种细菌组成的熙熙攘攘的群落。我们如何识别出协同工作的细菌功能群，即“菌群”？一个假设是，通过水平基因转移交换基因的细菌很可能在合作。我们可以将其表示为一个图，其中每个细菌物种是一个节点，如果两个物种交换基因，则用一条边连接它们。使用图神经网络（GNN），我们可以为每个物种学习一个包含其网络邻域信息的嵌入。在这个学习到的空间中，我们可以执行一个简单的聚类算法。出现的簇直接对应于我们假设的功能性菌群，揭示了微生物世界隐藏的社会结构。

构建更智能的机器：先进的人工智能范式

除了分析现有数据，嵌入还是构建更智能、更灵活、更强大的人工智能系统的基石。它们是人工智能赖以思考世界的内部“心智画布”。

最令人兴奋的前沿之一是多模态学习——教会机器通过多种感官（如视觉和语言）来理解世界。像 DALL-E 或 CLIP 这样的模型是如何知道“宇航员骑马的照片”是什么样子的？这是因为它学习了一个共享的嵌入空间，在这个空间里，文本“宇航员”和宇航员的图像被映射到相近的点。我们可以严格地衡量这种对齐。一个良好对齐的模型不仅会将一个类别的文本原型映射到其视觉原型，还会保留关系结构。例如，从文本空间中的“猫”簇到“狗”簇的向量方向，应该与视觉空间中连接它们相应图像簇的向量方向相似。这种“方向引导”确保了人工智能对概念的理解在不同模态间是一致的，从而形成一个统一而强大的世界内部表示。

这种对齐不同概念空间的能力带来了另一项非凡的本领：零样本学习。标准模型只能分类它在训练中见过的类别。但是当一个新产品出现在电商网站上时会发生什么？我们必须重新训练整个系统吗？嵌入提供了一个绝妙的解决方案。如果我们学习了一个类别的文本描述与其学习到的嵌入之间的对齐关系，我们就可以通过处理一个未见过的新类别的文本描述来为其生成一个合理的嵌入。然后模型就可以对这个新类别进行推理，而无需见过任何一个该类别的标记样本。这使得我们的人工智能系统在面对一个不断变化的世界时，具有更强的可扩展性和适应性。

嵌入也在革新强化学习（RL），即教会智能体做出最优决策的科学。在许多现实世界的场景中，从机器人学到玩视频游戏，智能体感知到的并非世界的真实、干净的状态。相反，它接收到的是一个混乱、高维的观察，比如来自摄像头的像素流。它最大的挑战往往不是决定做什么，而是首先弄清楚它在哪里。这是一个表示学习问题。通过给智能体一个辅助任务——比如预测它的下一个观察会是什么样子——我们迫使它学习其观察的一个压缩的、信息丰富的嵌入。一个好的表示能解开环境中重要的变化因素，使得学习策略这个主要任务变得容易得多。这可以显著减少智能体掌握一项任务所需的试错次数。

人类背景：公平性与抽象结构

随着嵌入越来越深入地融入影响我们生活的技术中，我们必须努力应对其社会影响。它们创造的几何空间并非中立的；它们反映了训练它们所用的数据，包括其中的偏见。这把我们带到了人工智能公平性这一关键领域。

假设我们训练一个生成嵌入的模型，并且发现这些嵌入满足了像人口统计学均等这样的公平性标准——意味着，平均而言，这些表示不能预测种族或性别等敏感属性。人们可能会认为，任何基于这种“公平”表示构建的下游分类器也同样是公平的。然而，这是一种危险的简单化观点。下游模型可能仍然违反一个更强且通常更有意义的公平性标准，如均等化赔率，该标准要求模型在不同人口群体中的准确率相等。这揭示了一个微妙但至关重要的一点：公平性不是一个可以在表示层面单独“解决”的单一属性。表示与下游任务之间的相互作用很重要，这迫使我们更深入地思考在每个具体情境下公平性意味着什么。

最后，为了真正欣赏嵌入的普遍性，我们可以将这个想法推向其最抽象的极限。什么可以被嵌入？词语、产品、蛋白质、细菌……那么像概率分布这样抽象的东西呢？在数学中，有复杂的方法来衡量两个分布之间的“距离”，例如来自最优传输理论的 Wasserstein 距离。这个距离衡量了将一个分布转换为另一个分布的最小“成本”。我们可以问：是否可能创建一个简单的、低维的欧几里得空间，其中点代表整个概率分布，而点之间的标准欧几里得距离近似于原始分布之间复杂的 Wasserstein 距离？答案是肯定的。使用像多维缩放这样的技术，我们可以构建这样一个嵌入。这展示了该概念的终极力量：任何对象和关系的系统，无论多么抽象，都可以被转化为一个计算机——通常也是人类——可以理解和使用的几何图像。

从推荐一首歌到确保算法公平，从解码生命的语言到探索数学的抽象空间，嵌入学习的概念提供了一个统一而强大的框架。它证明了这样一个思想：在巨大的复杂性核心，往往存在一个简单、优美且几何化的真理。