try ai
科普
编辑
分享
反馈
  • 图卷积网络

图卷积网络

SciencePedia玻尔百科
核心要点
  • GCN 通过一个称为消息传递的过程,从节点的局部邻居迭代地聚合信息来学习节点表示。
  • GCN 的空间消息传递机制在数学上等价于对图信号的谱图滤波操作。
  • 堆叠过多的 GCN 层会导致过平滑,即节点特征变得无法区分,从而限制了这些模型的有效深度。
  • GCN 具有广泛的应用,从在药物发现和材料科学中预测分子性质,到建模疾病传播和分析电网。

引言

在一个联系日益紧密的世界里,从社交网络到分子结构,数据通常不再适合表示为表格或序列,而是复杂的图。为结构化数据而设计的传统机器学习模型,难以解锁隐藏在这些关系中的丰富洞见。这催生了对能够原生理解和推理图结构信息的新架构的迫切需求。图卷积网络 (GCN) 作为应对这一挑战的强大而优雅的解决方案应运而生,彻底改变了我们在众多科学和工业领域解决问题的方式。本文将对 GCN 进行全面探讨。在第一章“原理与机制”中,我们将剖析 GCN 背后的核心思想,从直观的消息传递概念到其与谱图理论的深层联系。随后的“应用与跨学科联系”一章将展示 GCN 卓越的通用性,阐述其在药物发现、全球流行病建模等领域的应用。我们将从驱动这些网络的基本原理——即通过观察节点的邻居来理解该节点——开始我们的旅程。

原理与机制

图卷积网络的核心建立在一个极其简单的理念之上,这个理念我们每天都在自己的生活中运用:观其友,知其人。要理解网络中的一个节点——无论是社交圈中的一个人、细胞中的一个蛋白质,还是引文网络中的一篇研究论文——我们应该观察它的邻居。这个被称为​​消息传递​​的原则,构成了 GCN 学习“观察”和推理定义我们世界的复杂连接网络的基础。

群体的智慧:图上的消息传递

想象图中的每个节点都是一个个体,拥有一组由数字向量表示的特征。为了更新自己对在网络中所扮演角色的理解,一个节点会倾听来自其直接邻居的“消息”。最简单的方法是收集其所有邻居的特征向量并进行聚合,例如将它们相加。然后,这个聚合后的消息与该节点自身的当前特征向量相结合,产生一个更新、更具信息量的状态。这个迭代过程在整个图上重复进行,使得信息能够流动和传播,从而用来自其局部环境的上下文丰富每个节点的表示。这是被称为​​消息传递神经网络​​ (MPNNs) 的一整类模型的通用蓝图,其中每个节点 hvh_vhv​ 根据自身状态和来自其邻域 N(v)\mathcal{N}(v)N(v) 的聚合消息进行更新。

然而,这种简单的聚合方案很快就带来了一个挑战。以一个社交网络为例。一个只有少数朋友的人会聚合少量信息,而一个拥有数百万粉丝的名人则会被信息淹没。如果我们简单地将特征相加,名人的特征向量的量级将会爆炸式增长,这并非因为其内在属性不同,而仅仅是因为其连接数量众多。在深度神经网络中,这可能导致数值不稳定,使学习过程变得混乱。模型的预测将不公平地被这些高阶“中心节点”所主导。为了构建一个稳定且公平的学习系统,我们必须找到一种平衡信息流的方法。我们需要引入​​归一化​​。

归一化的艺术:在网络中寻求平衡

我们如何才能控制这些高阶节点的影响力?一个自然而然的想法是取邻居特征的平均值,而不是总和。这正是某些架构,如 ​​GraphSAGE​​ 的均值聚合版本所做的事情。这可以防止特征爆炸,是一个明确的改进。

然而,经典的 GCN 采用了一种更微妙、更优雅的解决方案:​​对称归一化​​。从节点 uuu 传递到节点 vvv 的消息的影响力,会通过一个因子 1/deg⁡(u)deg⁡(v)1 / \sqrt{\deg(u)\deg(v)}1/deg(u)deg(v)​ 进行缩放,其中 deg⁡(⋅)\deg(\cdot)deg(⋅) 是节点的度(连接数)。可以将其视为一种信息引力定律:如果发送方或接收方是拥有大量连接的庞大中心节点,那么消息的“拉力”就会被减弱。这可以防止中心节点压倒其邻居,反之,也可以防止低阶节点被单个中心节点过度影响。

让我们通过一个思想实验来具体说明这一点。想象一个“星形图”,其中一个中心节点连接到许多外围的“叶节点”。当中心节点更新其特征时,它会聚合来自所有叶节点的消息。对称归一化确保了所有这些叶节点的总体影响与其自身当前状态得到适当的平衡。对于一个叶节点,其更新主要由来自中心节点的单一、强大的消息主导,但依赖于中心节点高阶的归一化因子会适当地缓和这种影响。结果是一种完美平衡的信息流,其中每个节点的结构位置都被优雅地考虑在内。

GCN 层的更新规则,以其矩阵形式,优雅地捕捉了这一点。对于一个具有邻接矩阵 AAA 和在第 lll 层的特征矩阵 H(l)H^{(l)}H(l) 的图,到下一层 H(l+1)H^{(l+1)}H(l+1) 的更新由以下公式给出:

H(l+1)=σ(D^−12A^D^−12H(l)W(l))H^{(l+1)} = \sigma \left( \hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}} H^{(l)} W^{(l)} \right)H(l+1)=σ(D^−21​A^D^−21​H(l)W(l))

在这里,A^=A+I\hat{A} = A + IA^=A+I 是添加了​​自环​​的邻接矩阵。这是另一个关键细节:一个节点不仅应该听取其邻居的意见,也应该听取自己的意见。添加自环确保了节点先前的表示被包含在其自身的更新中。对于一个没有邻居的孤立节点,这是它唯一的信源,可以防止其特征被清零。D^\hat{D}D^ 是 A^\hat{A}A^ 的度矩阵,W(l)W^{(l)}W(l) 是一个可学习的权重矩阵,σ\sigmaσ 是一个非线性激活函数(如 ReLU)。其魔力的核心在于传播算子 D^−12A^D^−12\hat{D}^{-\frac{1}{2}} \hat{A} \hat{D}^{-\frac{1}{2}}D^−21​A^D^−21​,它执行了对称归一化。

同一枚硬币的两面:空间视角与谱图视角

到目前为止,我们是从一个直观的、“空间”的视角——即节点向其局部邻居传递消息——来构建 GCN 的。现在,让我们完全改变观点,通过物理和信号处理的视角来看待图。想象图是一个振动的表面,每个节点上的特征值是该点表面的振幅。这就创建了一个“图信号”。就像乐器有一组自然的共振频率或谐波一样,图也有一组基本的振动模式。这些模式由​​图拉普拉斯算子​​的特征向量捕捉,该算子由邻接矩阵和度矩阵导出 (L=I−D−1/2AD−1/2L = I - D^{-1/2} A D^{-1/2}L=I−D−1/2AD−1/2)。

在这个“谱图”世界里,卷积是一种滤波操作。我们可以将图信号分解为其基本频率(通过“图傅里叶变换”,使用拉普拉斯算子的特征向量作为基),然后选择放大或抑制某些频率,就像音频均衡器调整低音和高音一样。这提供了一种强大、全局的方式来处理图上的信息。

现在是揭示真相的时刻,一个理论上深刻统一的时刻。GCN 简单、局部、空间的消息传递规则完全等价于一种特定的谱图滤波器。一个 GCN 层,实际上是在进行图信号处理。我们为了稳定性而引入的对称归一化,恰好是确保图的“频率”(拉普拉斯算子的特征值)表现良好所需要的,使其整齐地落在 [0,2][0, 2][0,2] 的范围内。这保证了当我们在深度网络中反复应用该滤波器时,我们的信号不会爆炸或消失。空间视角和谱图视角,看似来自完全不同的世界,实际上是同一枚硬币的两面。这种对偶性是 GCN 数学之美和有效性的基石。

网络所见:感受野及其局限

堆叠 GCN 层使模型能够看到其直接邻域之外。单层 GCN 让一个节点能从其 1 跳邻居那里获取信息。第二层让它能从其邻居的邻居,即最远 2 跳距离的节点那里获取信息。一个 KKK 层的 GCN 为每个节点提供了一个延伸至图上 KKK 跳范围的​​感受野​​。GCN 就是通过这种方式学习识别更大的“中尺度”模式——如社区结构、模体和功能路径,这些在 1 跳级别是不可见的。

但这种能力伴随着一个关键的权衡。随着我们添加越来越多的层,每个节点的感受野开始扩展到覆盖整个图。每个节点开始听取其他所有节点的信息,它们独特的局部视角被淹没在全局共识中。它们的特征表示变得越来越相似,最终收敛到一个单一的、信息量不足的平均值。这种现象被称为​​过平滑​​。这是深度 GCN 中​​欠拟合​​的主要原因,即模型变得过于简单,无法区分节点,导致即使在训练数据上也表现不佳。设计 GCN 架构的艺术在于,使其足够深以看到相关模式,但又不能太深以至于整个网络变成一团模糊、同质化的混乱。

对称性与盲点:GCN 的能力与表达力

GCN 架构最优雅的特性之一是它对图的基本性质的内在尊重。图是由其连接定义的,而不是由我们任意分配给其节点的标签定义的。如果你打乱节点的标签(一次​​置换​​),图在根本上保持不变。GCN 自然地理解这一点。如果你给它一个置换后的图,它的输出将是原始输出相应置换后的版本。这个属性被称为​​置换等变性​​。这不是一个手动添加的功能,而是共享权重和基于图的传播所带来的深刻、内在的结果。这就是为什么 GCN 是图数据的“原生”模型,与 Transformer 等为有序序列设计的模型形成对比,后者必须通过添加“位置编码”来明确打破其置换对称性。

然而,正是这种对称性造成了盲点。标准消息传递 GNN 的表达能力从根本上是有限的;众所周知,它的能力不强于一种经典的图同构启发式算法,即 ​​1-Weisfeiler-Lehman (1-WL) 测试​​。这意味着,任何 1-WL 测试无法区分的两个图,GCN 也无法区分。一个著名的例子是一个 6 节点的单环与两个独立的 3 节点环。两者都是“2-正则”图,其中每个节点都恰好有两个邻居。对于一个具有统一初始特征的 GCN 来说,这两个结构不同的图中,每个节点都生活在一个相同的局部世界里。消息传递过程对所有节点都以相同的方式展开,网络无法区分这两个图。

这不是一个缺陷,而是一个定义 GCN 能力边界的基本特征。它突显了 GCN 主要利用局部邻域结构。要区分这类图,可能需要转向更强大的方法,例如可以通过查看拉普拉斯算子谱来计算连通分量的谱分析,或更具表达力的 GNN,如图注意力网络 (GAT),它学习根据邻居的特征来加权消息,打破了 GCN 的刚性对称性。理解这些原理和局限是有效运用图卷积网络力量的关键。

应用与跨学科联系

在了解了图卷积的原理之后,你可能会想:“这套数学理论很优雅,但它究竟有什么用?”这是一个合理的问题,而答案也正是这个主题如此令人兴奋的原因。在图的邻居之间传递消息这个简单而优美的想法,不仅仅是一种计算技巧;它反映了贯穿自然界和人类活动的一个深刻而普遍的原则:局部交互决定全局行为。

图卷积网络 (GCN) 就像一台计算显微镜,专为观察这一原理而设计。它使我们能够构建尊重问题底层结构的模型,无论这个结构是分子中的化学键、细胞中错综复杂的蛋白质相互作用网络,还是一个国家的电网物理布局。通过学习信息如何在局部流动,GCN 能够对整个系统做出惊人的预测。现在,让我们来探索 GCN 已经成为不可或缺工具的一些不同领域。

揭示分子与材料的秘密

原子和分子的世界,其核心就是一个图的世界。原子是节点,它们之间的化学键或相互作用是边。这个世界简直就是在召唤 GCN 前来探索。

想象一下药物发现的宏大挑战。我们体内有一个与某种疾病相关的靶蛋白,我们想找到一个小分子——一种药物——它能与该蛋白结合并调节其功能。这是一个多方面的问题,GCN 可以在每个阶段提供帮助。

首先,我们可以尝试理解蛋白质本身。蛋白质并非孤立工作;它们在细胞内形成巨大而复杂的相互作用网络。我们可以将其表示为一个“蛋白质-蛋白质相互作用”(PPI) 图。GCN 可以遍历这个图,根据未表征蛋白质的邻居来预测其功能,这是生物学家称之为“关联推断”的原则。GCN 的平滑操作自然地将标签从我们已知的少数蛋白质传播到它们的邻居,有效地自动化了生物学推断的一个核心原则。

但是,如果我们想直接预测药物和蛋白质之间的结合呢?这是一个更精细的任务。我们可以构建一个连接药物节点和靶蛋白节点的二分图。在这里,一个同等对待所有邻居的简单 GCN(如 GCN)可能就不够了。为什么?因为在结合口袋复杂的生物化学环境中,并非所有相互作用的原子贡献都相等。一些是关键的,另一些是外围的。这正是更复杂的模型——图注意力网络 (GAT)——大放异彩的地方。GAT 学习为每个邻居分配不同的“注意力”权重,有效地学习哪些相互作用对于预测最为重要。它就像一个明智的委员会,更关注邻里中最具信息量的声音,这一策略可以在其最终预测中带来更好的信噪比。

我们甚至可以构建强大的多模态系统。蛋白质的结构始于一个一维的氨基酸序列,而一个潜在的药物是一个二维的分子图。一个真正智能的模型必须理解这两种语言。一个优美而有效的架构包含两个平行的分支:一个使用一维卷积神经网络 (1D-CNN) 读取蛋白质序列,另一个使用 GCN 解释药物的分子图。来自两个分支的洞见——高层特征向量——然后被连接起来,并输入到最终的一组层中,以预测结合亲和力。在这里,GCN 就像一个大型预测团队中的专业“化学专家”。

这种基于图的视角的力量超越了生物学的柔软世界,延伸到材料科学的刚性领域。晶体,以其重复的原子晶格,是一个完美的周期性图。我们可以使用晶体图卷积神经网络 (CGCNN) 来预测宏观材料性质,例如潜在电池正极的电压,而这仅仅是通过从其原子结构中学习。GCN 学会了将局部原子排列与全局性质联系起来。更重要的是,我们可以反过来问模型,它为什么做出某个预测。通过使用归因方法,GCN 可以高亮显示那些影响最大的特定原子和化学键。例如,它可能会指出某个特定过渡金属八面体的几何形状对于材料的电压至关重要,从而将人工智能模型的抽象预测与配位化学的原理直接联系起来。

建模人类世界:从患者到流行病

GCN 不仅限于微观尺度。它们还可以帮助我们理解人类层面的复杂系统,从在患者群体中探索疾病景观,到模拟大流行病在社会中的传播。

在追求个性化医疗的过程中,一个主要挑战是患者分层:识别可能对不同治疗方法有不同反应的疾病亚型。我们可以构建一个图,其中每个节点是一个患者,边权重表示他们基于一系列分子和临床数据的相似性。应用于该图的 GCN 可以为每个患者学习一个“嵌入”。GCN 的消息传递机制有效地在相似患者之间平滑特征,使他们的表示在嵌入空间中更紧密地聚集在一起。这个过程增强了数据的底层结构,使得更容易识别这些隐藏的患者亚型,为更具针对性的治疗铺平了道路。

要应用这类模型,我们首先需要一个图。考虑分析来自脑电图 (EEG) 的大脑活动的挑战。我们有来自人头皮上数十个通道的时间序列数据,但它们在空间上是如何关联的?我们可以将头皮建模为一个球体,并计算每对电极之间的真实测地距离。从这些距离中,我们可以构建一个加权邻接矩阵,其中距离更近的电极有更强的连接。这个基于物理的图为 GCN 分析大脑信号提供了结构,使其能够学习到尊重脑电场空间组织的模式。

GCN 中的消息传递与现实世界中的传播之间的类比,在我们在建模流行病学时变得惊人地贴切。想象一个接触网络,其中人是节点,互动是边。一种传染病从最初的一组人向外传播。一种疾病的“代际间隔”是一个人感染另一个人所需的时间。我们可以建立一个简单的、线性的感染风险模型,其中风险沿着网络中的路径传播。真正非凡的是,GCN 的感受野直接反映了这个过程。一个有 LLL 层的 GCN 从最远 LLL 跳的邻居那里聚合信息。这意味着一个 3 层 GCN 的预测所依据的节点邻域,与一次 3 代爆发所能达到的范围相同。网络深度具有直接的物理类比,为算法架构与其所建模的系统动态之间提供了优美而直观的联系。

工程化我们的未来:智能电网与智能信息

GCN 的影响范围延伸到构成现代社会骨干的工程系统中,从关键基础设施到庞大的数字信息网络。

考虑电网。它是一个字面意义上的图,其中母线(变电站)是节点,输电线是边。两个节点之间连接的强度由一个物理量——导纳——决定。我们可以为 GCN 构建一个图,其边权重直接从这些导纳值导出。当 GCN 执行其平滑操作时,它正在做一些具有物理意义的事情:它确保电网中强耦合部分的特征相互影响更大。这使得 GCN 能够学习监控电网状态、诊断故障和预测不稳定性,同时尊重电力流动的基本物理原理。

最后,我们生活在一个信息世界中,其中大部分信息都可以用图来表示。当社交网络推荐新朋友,或电子商务网站推荐产品时,它通常是在解决一个链接预测问题:给定一个庞大的用户和物品图,下一条可能形成的边是什么?GCN 是这项任务的大师。它们可以为图中的每个节点学习一个低维向量表示,即嵌入。网络的训练目标是使得已经连接(或应该连接)的节点在这个学习到的嵌入空间中彼此靠近。要预测一个链接,只需在这个空间中寻找彼此靠近的节点即可。

但并非所有的链接都是平等的。在一个真实的知识图谱中,你可能会有像 is-a (是一种)、born-in (出生于) 或 employed-by (受雇于) 这样的关系。标准的 GCN 会将所有这些边同等对待,从而丢失大量信息。这需要一个更细致的模型:关系图卷积网络 (R-GCN)。一个 R-GCN 为每种类型的关系学习一组不同的参数——一个独特的消息转换。这使其能够区分节点之间不同的连接方式,从而在复杂的多关系知识库上进行更强大、更准确的推理。

从最小的原子到最大的基础设施,局部交互的原则是关键。图卷积网络的真正力量和美感在于它们能够捕捉、形式化并从这一基本真理中学习,为我们提供一个统一的镜头,来审视一系列惊人多样的科学和工程挑战。