节点嵌入

玻尔百科

核心要点

节点嵌入是一种将网络的关系结构转化为几何映射的技术，它将每个节点表示为一个数值向量。
学习嵌入的核心方法包括捕捉节点上下文的随机游走（DeepWalk、node2vec）和使用消息传递的图神经网络（GNN）。
GNN通过聚合邻居信息来迭代更新节点特征，但面临着过平滑和无法区分某些结构的局限性。
应用包括预测生物网络中的缺失链接、发现药物新用途、设计新颖材料以及分析医学图像中的细胞群落。

引言

我们如何教会计算机理解网络所讲述的复杂故事？从社交关系到生物通路，这些结构无处不在，但机器使用的是数字语言，而非抽象的关系。解决方案在于一种强大的转换技术，即节点嵌入，它将复杂的图谱转化为算法可以探索和学习的几何景观。本文全面概述了现代网络科学中的这一基本概念，旨在解决如何使网络数据变得机器可读，以用于预测和分析等任务的挑战。

首先，我们将探讨节点嵌入背后的原理与机制。本章将解析结构保持的核心思想，并深入探讨学习这些表示的两种基本理念：DeepWalk 和 node2vec 等方法所使用的随机游走方法，以及驱动图神经网络（GNN）的迭代式消息传递范式。我们将审视这些方法的工作原理，并讨论其固有的优势与局限。随后，应用与跨学科联系一章将展示这些技术的变革性影响。我们将穿越生物学、医学、材料科学和计算机视觉等不同领域，了解节点嵌入如何被用于预测缺失链接、发现功能性社群、药物重定位，甚至从医学图像等原始数据中构建新颖的基于网络的模型。

原理与机制

从本质上讲，网络是一个故事——一个关于连接的故事。它告诉我们基因如何相互调控，蛋白质如何组装成分子机器，思想如何在社会中传播，以及星系如何在浩瀚宇宙中聚集。但是，我们如何教会计算机读懂这个故事呢？毕竟，计算机说的是数字语言，而不是抽象关系的语言。现代网络科学的挑战与魅力正在于此种转换：将错综复杂的图谱转化为机器能够理解、推理甚至用以预测未来的语言。这种转换就是节点嵌入的艺术。

提炼的艺术：什么是节点嵌入？

想象一下，如果你的任务是为你自己的社交世界绘制一幅地图。你不会画一张由相互连接的线条组成的网；你会在纸上放置一些点。对你生活至关重要的人——家人、密友——会被放在中心附近。不同的社交圈可能会形成独特的簇。而你几乎不认识的熟人可能只是外围的一个孤点。本质上，你就是在创建一个嵌入。你正在将“关系”这一抽象概念转化为“距离”这一具体、几何的概念。

节点嵌入为计算机做的正是这件事。它是一种学习到的映射，为网络中的每个节点在多维空间中分配一个坐标——一个数字向量。节点不再仅仅是一个抽象的实体，而是丰富几何景观中的一个点。其基本原则是结构保持：如果两个节点在网络中是“相似”的，那么它们在这个新空间中对应的点也应该彼此靠近。

“相似”意味着什么？这是一个深刻的问题，答案取决于我们想捕捉网络故事的哪些方面。我们关心的是直接的朋友关系（一阶邻近性）还是朋友的朋友关系（二阶邻近性）？我们关心的是身处同一社群（同质性），还是在不同社群中扮演着相似的角色，比如作为两个群体之间的桥梁（结构等价性）？。节点嵌入的强大之处在于，我们可以设计算法来学习一种映射，这种映射能突显我们针对特定任务最关心的那种相似性。这张地图不是给定的，而是被发现的。

学习映射：两种基本理念

机器是如何发现这种隐藏的几何结构的？已经出现了两种主要的理念，每种都以其优雅的直觉来阐释如何破译网络密码。

物以类聚：随机游走方法

理解一个节点角色的方法之一是看它出现在哪里。这个思想借鉴自语言学，它假设你可以通过一个词的上下文来理解它。在网络中，一个节点的“上下文”可以通过漫步来发现。

想象一个随机游走者沿着图的边从一个节点移动到另一个节点。这段旅程生成了一系列节点，构成一个描述网络路径的“句子”。在这些随机句子中频繁共同出现的节点，很可能在某种意义上是相关的。像 DeepWalk 和 node2vec 这样的方法就利用了这个思想。它们生成数千次这样的随机游走，然后训练一个受自然语言处理中 Skip-gram 模型启发的模型来学习节点嵌入。目标很简单：对于游走中的任何给定节点，其嵌入应该能很好地预测该游走中其邻居的嵌入。

这种方法的精妙之处在于其灵活性。通过改变游走者的行为方式，我们可以改变我们所学习的“相似性”概念。一个简单的、无偏见的游走（如在 DeepWalk 中）倾向于捕捉局部和全局结构的混合体。我们也可以像 node2vec 那样引入偏好，以微调探索过程。我们是想让游走者“宅”在家里，固守其直接邻域吗？这就像广度优先搜索（BFS），强调的是同质性——即节点紧密聚集。还是我们想让它成为一个冒险家，勇闯图的遥远部分？这就像深度优先搜索（DFS），更擅长发现那些即使相距遥远但具有相似结构角色的节点。通过调整这些简单的参数，我们可以指示算法绘制一幅突出网络景观不同特征的地图。

网络之声：消息传递范式

第二种极具影响力的理念采用了一种更具互动性的方法。与其派出游走者，不如让节点之间直接对话？如果每个节点都能通过倾听其邻居的低语来完善自己的身份呢？这就是图神经网络（GNN）和消息传递范式背后的核心思想。

让我们来走一遍这场“对话”的一轮，它对应于 GNN 中的一层。想象我们的节点是图表中的原子核，每个节点都有一组固有属性，比如它的质子数、中子数，以及这些数字是否为“幻数”（意味着高稳定性）。

初始身份：每个节点都以一个初始特征向量 $\mathbf{x}_v$ 开始。这代表了在任何通信之前，节点对自身的了解。在我们的原子核例子中，这可以是一个表示其物理属性的数字列表。为了使这种方法奏效，这些初始特征必须经过精心选择和归一化，因为尺度差异巨大的属性（如原子质量 $\sim 100$ 和电负性 $\sim 1$ ）可能导致学习过程失败。一种稳健的方法是将每个特征标准化为零均值和单位方差，并可能对原子质量等高度倾斜的数据应用对数变换进行压缩。
发送消息：在每一轮中，每个节点 $u$ 向其邻居发送一条“消息”。这条消息通常是它自己当前的嵌入 $\mathbf{h}_u$ ，经过一个学习到的权重矩阵 $\mathbf{W}$ 的变换。这个矩阵就像所有节点用来格式化其消息的共享语言或密码本。
聚合低语：一个节点 $v$ 从其所有邻居那里接收消息。它必须将这些消息整合成一个单一、连贯的思想。这是通过一个置换不变的聚合函数完成的——这个函数不关心消息到达的顺序。常见的选择是 sum、mean 或 max。这个选择虽然微妙但至关重要。例如，在一个每个节点都具有相同特征和连接的图（正则图）上，无论节点有多少邻居，mean 聚合都会产生完全相同的输出！GNN 将无法感知节点的度。然而，使用 sum 聚合可以确保输出与邻居数量成比例，从而保留这一至关重要的结构信息。
更新身份：最后，节点 $v$ 将来自其邻居的聚合消息与其自己之前的嵌入 $\mathbf{h}_v$ 相结合，从而创建其本轮的新嵌入 $\mathbf{h'}_v$ 。这个更新步骤也由一个可学习的函数和一个非线性激活函数（如 [tanh](/sciencepedia/feynman/keyword/hyperbolic_tangent_(tanh)|lang=zh-CN|style=Feynman)）来指导。

这整个过程——消息、聚合、更新——构成了 GNN 的一层。通过堆叠这些层，我们允许信息传播得更远。一轮过后，一个节点了解了它的直接邻居。两轮过后，它听到了来自邻居的邻居的低语。经过 $L$ 轮后，它的嵌入成为其整个 $L$ -跳邻域的丰富摘要，优美地将其自身的初始特征与其周围的拓扑结构融为一体。

强大功能及其局限

一旦我们学习了这张几何地图——这组节点嵌入——我们就可以将其用于强大的下游任务。一个主要应用是链接预测。如果我们正在探索一个生物网络，并且发现某种药物的嵌入与某种疾病的嵌入非常接近，这可能暗示着一种潜在的、未被发现的治疗关系。我们可以利用所学空间的几何结构来假设新的关系，从而有效地使用 GNN 来指导科学发现。

但就像任何强大的工具一样，GNN 也有其局限性。它们的“视力”并非无限。

“色盲”GNN：标准的基于消息传递的 GNN 的能力不超过一种经典的图算法——Weisfeiler-Lehman (WL) 测试。这意味着存在一些简单的、非同构的图，GNN 无法将它们区分开。经典的例子是一个6节点环 ( $C_6$ ) 与两个独立的3节点环 ( $C_3 \cup C_3$ )。在这两种图中，每个节点都恰好有两个邻居。从任何一个节点的局部视角来看，世界都是一样的。一个只聚合邻居特征的基础 GNN 会为两个图中的每个节点计算出完全相同的嵌入，因此会认为这两个图无法区分。为了克服这个问题，我们需要给 GNN 更多的信息，例如，为边本身创建描述其局部上下文的特征，以打破对称性。
传话游戏：当我们为了看得更远而堆叠越来越多的 GNN 层时，可能会出现两个新问题。
- 过平滑：对邻居特征的反复平均就像一个低通滤波器。就像一个传话游戏，消息每重述一次就会失真，单个节点的独有特征也被模糊掉了。经过太多层之后，所有节点的嵌入都可能变得相似，收敛到一个平淡无奇、信息量不足的均值。网络失去了其丰富的纹理。
- 过挤压：来自指数级增长的远方节点的信息必须被压缩到一个固定的、大小有限的嵌入向量中。如果这些信息必须通过图中的一个狭窄“瓶颈”（连接两个大型社群的少数节点），就好像试图将洪水通过一根花园水管。绝大部分信号会丢失，或者说被“挤压”。

这些局限性并非死胡同，而是活跃的研究前沿。科学家们已经开发出巧妙的架构解决方案——比如允许信息“跳过”一层的残差连接，或者添加“捷径”以绕过瓶颈的图重构技术——来缓解这些问题，并构建更深、更强大的 GNN。

从用随机游走捕捉简单的邻近性，到通过深层消息传递学习复杂的结构角色，节点嵌入的历程是一场渐进式的提炼。它关乎于发现关系的数值精髓，创造出网络灵魂的几何映像。在这种转换中，我们不仅赋予了计算机理解网络的能力，也让我们对支配我们世界的隐藏结构有了全新而深刻的领悟。

应用与跨学科联系

现在我们已经体验了节点嵌入的机制，让我们来实际应用一下。我们已经看到如何将网络中错综复杂的关系网转化为一个几何空间，一幅每个节点都成为一个点的地图。这种“关系几何学”能带我们去向何方？事实证明，几乎是任何地方。这个想法的真正力量在于其普适性：它将“关联性”这个抽象的组合问题，转化为我们熟悉且直观的“距离”、“方向”和“空间”的语言。仅仅是这种视角的转变，就解锁了惊人多样的应用，从补全我们自身的生物学图谱，到设计未来的材料。

洞见无形：补全与组织知识

节点嵌入最直接的用途之一是帮助我们看到缺失的东西。现实世界的网络几乎总是不完整的。我们可能有一张城市道路图，但有些街道可能尚未被标记。在科学中，我们有细胞内代谢物相互作用的图谱，但许多反应仍然是未知的。链接预测就是发现这些缺失连接的艺术。

想象一个代谢网络，其中化学物质（代谢物）是节点，将一种物质转化为另一种物质的酶促反应是边。通过为每个代谢物学习一个嵌入，我们将其放置在一张地图上，其位置由其邻域——即它已知的参与反应——决定。如果两个我们之前不知道有连接的代谢物，在这个嵌入空间中最终变得非常接近，这是一个强有力的暗示。这表明它们在网络的化学反应中扮演着相似的“角色”。这种邻近性意味着它们之间很可能存在一条隐藏的反应，一条未被发现的代谢通路。为了检验这个假设，我们不必立即在实验室里进行更多的化学实验；我们可以简单地将它们的嵌入向量通过一个评分函数，来计算链接存在的概率。这个简单的几何查询就像一个强大的科学罗盘，引导研究人员走向最有希望的实验。

除了发现单个缺失的链接，嵌入还能让我们看到网络的宏伟结构——它的大陆和群岛。这就是节点聚类的任务。一旦每个节点都成为空间中的一个点，我们就可以寻找“团块”，即那些点之间比与其他点更密集的区域。这些簇通常对应于社群或功能模块。

考虑我们肠道微生物组的复杂生态系统。我们可以构建一个网络，其中每种细菌是一个节点，如果两种细菌已知会交换基因，则存在一条边。图神经网络可以基于这个基因交换网络为每种细菌学习一个嵌入。当我们将聚类算法应用于这些嵌入时，我们发现了频繁“交谈”的细菌群。这些被发现的簇很有可能是功能性联盟——即协同工作以执行特定任务的细菌团队，比如消化某种食物。

同样的想法也适用于人类社交网络。但这里出现了一个有趣的微妙之处。有些人（节点）是拥有数千个连接的“中心节点”，而另一些人则属于更小、更紧密的群体。一个简单的嵌入可能只是将所有中心节点都放在宇宙的中心，从而掩盖了真实的社群结构。该方法的精妙之处在于其适应性。通过使用更复杂的“镜头”，比如基于图的归一化拉普拉斯矩阵的嵌入，我们可以校正这种度的变化。这种数学技巧确保我们的地图反映的是真实的连接模式，而不仅仅是每个节点的受欢迎程度，从而使我们即使在高度异构的网络中也能找到有意义的社群。

网络语言

节点嵌入所创造的几何空间不仅仅是一张地图；它是一块画布，网络中的关系以一种语言的形式被描绘出来。正如词嵌入著名地揭示了“国王”的向量减去“男人”的向量再加上“女人”的向量，与“女王”的向量惊人地接近一样，节点嵌入也可以在复杂的生物网络中捕捉到类似的关系。

这种“嵌入代数”对医学，特别是在药物重定位——为现有药物寻找新用途——方面具有深远的影响。想象一下，构建一个连接药物、它们靶向的蛋白质以及它们相关疾病的庞大异构网络。我们可以训练一个像 [node2vec](/sciencepedia/feynman/keyword/node2vec) 这样的模型来学习这个图中每个节点的嵌入。现在，假设我们想找到一种药物来治疗某种特定疾病。我们可以将这个问题表述为一个向量方程。我们取该疾病的嵌入，加上一种已知的对相似疾病有效的药物的嵌入，然后在嵌入空间中搜索最近的药物节点。更强大的是，我们可以探索关系路径：一种治疗疾病的药物通常是通过与该疾病中一个关键的蛋白质靶点相互作用来实现的。这在嵌入空间中暗示了一种简单而深刻的关系： $v_{\text{drug}} + v_{\text{disease}} \approx v_{\text{target}}$ 。我们可以利用这种向量算术来为药物-疾病对的潜在蛋白质靶点打分，通过将其转变为一个几何搜索问题，彻底改变了药物发现的早期阶段。

嵌入学习一种组合语言的这种思想，也深深地延伸到物理科学领域。在材料科学中，研究人员不断寻找具有理想属性的新材料，例如用于电池的更高储能性能。我们可以将材料的晶体结构表示为一个图，其中原子是节点，化学键是边。然后可以训练一个 GNN，从材料的图结构来预测其属性。奇妙之处在于，该模型基于原子序数和电负性等基本属性为每个原子学习一个嵌入，并且它还学习了如何根据它们之间的*化学键*来组合这些原子嵌入。

这导向了科学洞察力的一个优美展示。假设我们有一个在氧化物基电池材料上训练的模型，我们想让它适用于一类新的硫化物基材料。原子的基本物理性质（锂、氧、硫的属性）保持不变。然而，化学键的性质——它们相互作用的“规则”——发生了显著变化。一种复杂的迁移学习方法是保留模型中学习原子嵌入的部分，因为这代表了关于元素的基本、可迁移的知识。但我们会重新训练模型中处理化学键的部分，使其能够学习硫化物化学的“新语言”。这种剖析模型并将其组件映射到物理概念的能力，证明了节点嵌入如何能够捕捉自然世界的深层组合结构。

构建世界：从图像、大脑到综合知识

节点嵌入的力量不仅限于分析预先存在的网络。在一些最激动人心的应用中，网络本身就是一种新颖的抽象，一个从原始数据中构建的新世界。

在计算病理学中，病理学家可能会在显微镜下观察染色的组织样本来诊断癌症。我们现在可以通过首先使用计算机视觉来识别高分辨率图像中的所有细胞核，从而自动化该过程的部分环节。接着是概念上的飞跃：我们将每个细胞核视为一个节点，并在任意两个彼此靠近的细胞核之间画一条边。这就创建了一个“细胞图”，一个细胞的社交网络。然后，GNN 可以为这些细胞学习嵌入，捕捉组织的复杂空间排列和细胞结构。通过将这些节点嵌入聚合成整个图的单个表示，模型可以将组织样本分类为癌性或良性。这个卓越的流程将像素世界与图世界连接起来，教会机器解读细胞社群的微妙语言以诊断疾病。

当我们为像大脑这样的物理系统建模时，我们的模型必须尊重其物理现实。大脑不是一个抽象的节点列表；它是三维空间中的一个物体。我们分配给不同感兴趣区域（ROI）的标签是人为的约定。如果我们重新标记所有区域，大脑本身不会改变，一个科学上合理的模型应该产生相同的结果。这个原则被称为置换不变性。用于大脑网络的 GNN 从设计之初就尊重这种对称性。它们使用应用于每个节点和边的共享函数，无论其标签如何，并且聚合步骤（如求和）对邻居的顺序不敏感。这确保了所学到的大脑区域嵌入捕捉到的是其固有的生物学特性和连接模式，而不是我们选择的任意索引方案。这是神经科学、物理学和深度学习的深刻交汇点，其中对称性的基本原则指导着有意义模型的构建。

这种世界构建的顶峰是创建大规模、异构的生物医学知识图谱。这些不是简单的网络，而是庞大的数字百科全书，其中的节点可以是基因、蛋白质、通路、疾病或药物，而边则是有类型的关系，如 associates_with（关联）、targets（靶向）或 treats（治疗）。这些图谱通常通过整合数十个数据库构建，并与形式化的本体——定义概念之间意义和关系的逻辑框架——对齐。

最终的挑战是将这些结构化的、符号化的知识图谱与来自真实世界实验的杂乱、统计性的数据（如基因共表达网络或化学相似性矩阵）融合起来。节点嵌入为此提供了“通用语言”，使其成为可能。我们可以设计一个单一、统一的目标函数。目标的一部分促使嵌入尊重知识图谱中的逻辑关系。另一部分，使用一种称为拉普拉斯正则化的工具，促使嵌入在经验相似性网络上是“平滑的”——这意味着具有高共表达的两个基因应该有彼此靠近的嵌入。通过优化这个联合目标，我们学习到一个单一、统一的嵌入空间，它代表了符号知识和统计证据之间的共识。这个集成的流形是进行发现的强大基底，一个融合的世界，我们可以在其中提出比在任何单一数据源中都更丰富的问题 [@problem_-id:4350070]。

意外的联系：回顾经典思想

与科学中许多伟大的思想一样，节点嵌入的核心概念有着深厚的根源，并与其他领域有着惊人的联系。考虑一个来自经典优化理论的问题：寻找最小成本流，即通过网络运输货物的最便宜方式。几个世纪以来，这个问题都是用一个叫做“节点势”的概念来解决的。网络中的每个节点被赋予一个标量值，一个势 $\pi(i)$ 。这些势被用来计算每条边的“简约成本”，从而引导算法走向最优解。

该框架中的一个关键条件是，对于一组“有效”的势，两个节点之间的势差不能大于它们之间直接路径的成本。也就是说，对于每条成本为 $c_{ij}$ 的边 $(i, j)$ ，必须有 $\pi(j) - \pi(i) \le c_{ij}$ 。这是一个优雅的数学约束。但它到底在说什么呢？它说的是，势 $\pi$ 是将节点嵌入到一维实数线上的过程，并且这种嵌入相对于图上的旅行成本是“非扩张的”或 1-利普希茨的。“距离”在实数线上，即 $|\pi(j) - \pi(i)|$ ，受限于网络中的距离 $c_{ij}$ 。这恰恰是许多现代节点嵌入技术核心的几何约束类型。它揭示了为节点分配一个数值坐标以捕捉其属性和关系的基本思想，是一个永恒且统一的原则，它将优化我们供应链的算法与揭示生命奥秘的神经网络联系在一起。