
我们如何教机器比较两个复杂的结构化对象,比如分子、社交网络或大脑连接图?简单地罗列它们的组成部分,无法捕捉到定义其本质的复杂连接模式。这个根本性挑战——量化图结构数据的相似性——正是优雅而强大的图核概念发挥作用的地方。图核提供了一个遵循原则的数学框架,用于衡量尊重图拓扑结构的相似性,使得强大的机器学习算法能够应用于曾经被认为无法触及的领域。本文旨在引导读者理解这些卓越的工具。第一章“原理与机制”将揭开其核心思想的神秘面紗,从著名的“核技巧”到基于组合计数和物理扩散过程的有影响力的核设计。随后,“应用与跨学科联系”一章将展示这些原理如何转化为实践,揭示图核在化学、神经科学等领域以及作为现代图神经网络基础所产生的深远影响。
我们如何比较两个复杂的物体,比如一个咖啡因分子和一个多巴胺分子?或者两个社交网络,甚至是两个不同大脑的连接图?你可以尝试列出它们的组成部分——原子和化学键、人与友谊、神经元和突触。但这就像通过罗列线头来描述一幅挂毯;它忽略了物体的本质,而本质在于其结构。一个简单的连接列表,被扁平化成一个向量,会变成一堆杂乱无章的数字,对节点的标记方式极其敏感,并且无法识别出优美、宏观的连接模式。我们需要一种更深刻的方式来衡量相似性,一种尊重图的内在拓扑结构的方法。正是这一追求,引领我们走向了图核这一优雅的概念。
请想象一下,我们可以将每个图映射到一个无限广阔的“特征宇宙”中。在这个宇宙里,每个维度对应一个特定的结构属性:一个轴衡量三角形的数量,另一个轴衡量 5 节点环的数量,第三个轴衡量某种特定链状基序的普遍性,以此类推,涵盖所有可以想象的子图。要比较两个图,我们只需将它们表示为这个宇宙中的向量,然后计算它们的点积。一个大的点积意味着它们的特征向量指向相似的方向,表明这两个图共享许多相同的结构属性。
这听起来像天方夜谭。可能的子结构数量是天文数字,显式地构建这些特征向量在计算上是不可能的。而这正是奇迹发生的地方。核技巧允许我们仅使用原始图,直接计算这个点积,而无需踏入那个特征宇宙。一个图核 正是这个神奇的函数——一个计算上可行的方法,它能给出在高维特征空间中的内积 ,其中 是通往特征宇宙的那个虚构映射。
当然,并非任何相似性函数都能成为一个核。要使这个数学戏法成立,核函数必须满足一个关键属性:它必须是正半定 (PSD) 的。这个条件确保了我们虚构的特征空间的几何结构是良好定义的——即所有成对的“相似性”实际上都可以由某个希尔伯特空间中的真实点积产生。任何一组图之间成对核值的矩阵,称为格拉姆矩阵 (Gram matrix),必须是正半定的。这个数学保证是所有核方法赖以建立的基石,确保了像支持向量机这样的机器学习算法能够在一个凸优化环境中找到最优解。
图核的力量在于其多样性。设计一个核是一种创造性的特征工程行为,需要决定图的哪些结构方面对于手头的任务最为重要。这催生了一个丰富的核设计“动物园”,其中许多设计都建立在一个强大的原则之上,即R-卷积:通过对图的组成部分上的更简单核进行求和或组合来构建一个复杂的核。
一些最直观的核是基于遍历图的。一个随机游走核通过以下问题来比较两个图:如果我们让一个“随机冲浪者”在每个图上游荡,我们会发现多少个相同的游走模式(具有相似标签的节点序列)?如果两个图支持相似的随机游走分布,它们就被认为是相似的。这些核优雅地捕捉了关于邻域连通性和图上扩散过程的信息。
另外,一个最短路径核比较的是两个图的“路线图”。它将每个图分解为所有节点对之间最短路径的集合。然后,核函数比较这两个集合。如果两个图对应节点之间的最短路径长度相似,并且经过的节点具有相似的属性,那么这两个图就被认为是相似的。这种方法非常适用于分析医学图像等应用,其中图代表区域及其邻接关系,而最短路径则捕捉了空间关系。
这些设计中的一个共同点是需要归一化。一个大图自然会比一个小图拥有更多的路径和游走,这可能会扭曲相似性得分。为了纠正这一点,核通常会被归一化(例如,使用余弦归一化),以比较子结构的比例构成,使比较不受图大小的影响。
也许最强大和应用最广泛的组合核是 Weisfeiler-Lehman (WL) 子树核。它采用了一个优美的迭代过程,感觉就像观看涟漪在池塘上扩散。这个被称为颜色精化 (color refinement) 的算法工作如下:
WL 算法的每次迭代都有效地捕捉了每个节点周围更大邻域的信息。深度为 的一次迭代捕捉了每个节点处深度为 的有根子树的结构信息。因此,WL 核基于两个图对这些丰富的、分层子树模式的清点来进行比较。迭代次数 成为一个关键的超参数,它控制着模型的复杂性。更大的 允许核区分更复杂的结构(减少偏差),但也带来了捕捉噪声和对训练数据过拟合的风险(增加方差)。这种卓越的方法提供了一种计算上高效的方式来近似更复杂的图同构测试的表达能力,使其成为现代图机器学习的基石。
虽然组合核是通过“计数”构建的,但另一个同样优美的核族系则源于模拟图上的物理过程。这种被称为谱方法的视角,像处理声波一样处理图上的信号。
正如傅里叶变换将复杂的声波分解为纯正弦频率之和,图傅里叶变换 (GFT) 将图节点上的信号分解为一组基本的“振动模式”。这些模式是图的拉普拉斯矩阵 的特征向量,而相应的特征值代表“图频率”。低频对应于在边上变化缓慢的平滑信号,而高频则对应于嘈杂、振荡的信号。
谱图卷积就是在这个频域中操作的滤波器。它接收一个信号,将其转换到图傅里叶域,将每个频率分量乘以一个滤波器函数 ,然后再转换回来。这类似于音频均衡器增强低音或削减高音。
热核是这一理念的典型例子。它源于图上热方程 的解,该核由矩阵指数 给出。将此核应用于信号,模拟了热量在图中扩散持续时间 的过程。在谱域中,这对应于将每个频率分量 乘以 。高频被强烈抑制,而低频则被保留。其结果是一个强大的低通滤波器,它在尊重底层网络结构的同时,优美地平滑了信号中的噪声。此外,对于任何 ,矩阵 本身是对称且正定的,使其成为一个有效的核,可以衡量节点之间的“热连通性”。
图核的故事并未就此结束;它在图神经网络 (GNNs) 的世界中找到了其现代的延续。这两个领域紧密地交织在一起。
早期的谱 GNN 可以被看作是谱核的直接扩展。它们不使用像热核那样的固定滤波器,而是采用一个可学习的滤波器,通常参数化为拉普拉斯算子的多项式,。网络为手头的任务学习最优的滤波器系数 。图上的卷积定理保证了这种谱滤波器等价于在顶点域中的一系列局部操作,使其在计算上是可行的。
更现代的 GNN 主要使用空间方法,这可以被解释为在每个节点的邻域内直接应用小型的、可学习的核。“消息传递”范式,即每个节点从其邻居聚合信息并更新自身状态,本质上是一种局部化的、非线性的卷积。GNN 中的“特征通道”数量 () 决定了节点表示的丰富性,而层数则决定了模型能“看到”的邻域大小(感受野)。
虽然 GNN 具有端到端学习任务特定特征的优势,但核方法提供了另一组不同的优点。核方法的能力不是由参数数量控制,而是由再生核希尔伯特空间 (RKHS) 的几何结构控制,这可以通过核矩阵的谱来分析。这提供了一种直接的、非参数化的方式来控制复杂性。此外,标准消息传递 GNN 的表达能力已知受限于 1-WL 测试,而精心设计的图核可以利用更高阶的 WL 特征,赋予它们更强的理论能力来区分非同构图。归根结底,GNN 和图核是同一枚硬币的两面,它们在探索结构化数据中隐藏的秘密这一共同追求中拥有共同的起源。
在探索了图核的原理之后,我们现在踏上一段旅程,去见证它们在实践中非凡的力量。你可能会倾向于认为核是一种巧妙的数学抽象,一种局限于计算机科学领域的机械装置。但事实远非如此。图核是一种通用语言,一块罗塞塔石碑,它让我们能够将周围世界错综复杂的结构——从分子的舞蹈到大脑的布线——翻译成相似性和模式识别的语言。它们为我们提供了一种有原则的方式来回答一个基本问题:“这两个复杂系统有多相似?”让我们看看这一个优雅的思想如何在一片惊人多样化的科学景观中,编织出一条统一的线索。
我们的旅程从生命的最小尺度开始。在化学和生物学中,功能跟随着形式。分子的性质和蛋白质的用途由其三维结构和内部连接所决定。但是,我们如何比较两个分子,不仅仅是用眼睛看,而是以一种计算机可以理解和学习的方式?
想象一下,我们有一个巨大的分子库,每个分子都表示为一个由原子和化学键构成的图。我们想要找出与疏水性(排斥水的倾向)或芳香性等性质相关的隐藏模式。我们可以设计一个“智能”的相似性度量——一个图核——它就像一副特殊的眼镜。通过调整核,使其更关注某些类型的原子(如芳香碳),而较少关注其他类型的原子(如极性杂原子),我们就能有效地教我们的算法“看见”我们感兴趣的化学性质。利用这种量身定制的相似性度量,像核主成分分析这样的无监督学习方法就可以筛选整个库,并揭示化学变异的基本轴线,让分子能够根据其潜在属性自行组织,就像按主题而非按大小对书籍进行分类一样。当然,这些眼镜也有其局限性;一个只看到图的二维连接性的核,本身无法区分手性分子的左手和右手版本——这是一个真正的三维属性。
从单个分子,我们可以放大到复杂的代谢迷宫。一个生物体的代谢通路可以被看作是一张错综复杂的“路线图”,其中交叉路口是化学反应,道路是代谢物的流动。我们能否仅通过比较它们的代谢图,就判断出两种生物体是否具有相似的生活方式——比如,一种依赖氧气(好氧),另一种则不依赖(厌氧)?使用配备了图核的支持向量机,答案是肯定的。通过比较诸如沿通路酶序列(类似于比较地图上的路线)等特征,核可以计算出任意两种生物体代谢网络之间的相似性得分。如果我们在地图上提供有意义的标签,例如每次反应特定的酶学委员会编号,核的威力将大大增强。然后,它可以学会区分好氧和厌氧生命所特有的图结构,将一个复杂的系统生物学问题转化为一个可解的模式识别任务。
我们早期看到的核通常基于对共同游走或子图的计数。但我们可以从物理学中汲取灵感,获得更深刻、更动态的视角。想象一下,将一滴墨水滴入一个网络中。它如何扩散?这个过程,即扩散,由图论中的一个基本对象所支配:图拉普拉斯算子 。信息的传播方式可以通过*热核* 来描述,它告诉我们在给定时间 内,任意两个节点之间流动了多少“热量”或影响。
这个物理图像给了我们深刻的洞见。热核充当一个低通滤波器,平滑掉图上信号中嘈杂、高频的波动,揭示出更稳健、更大尺度的激活模式。对于一条生物通路而言,这意味着我们的核可以专注于整个基因模块的协同激活,而不会被单个基因的嘈杂行为分心。
这个思想在蛋白质研究中找到了惊人的应用。别构效应,即蛋白质一个位点的变化引发远处另一个位点响应的过程,是一种通信形式。但信息是如何传递的呢?答案取决于信号的性质。
弹性抖动: 如果蛋白质接近其平衡态并受到轻微的机械戳刺,产生的应力会像振动穿过桥梁一样,通过其弹性结构传播。这种线性响应被系统的格林函数完美捕捉,其在数学上等同于拉普拉斯算子的伪逆 。这为我们提供了通信的力学视角。
涨落高速公路: 如果信号涉及更大的、瞬时的涨落,蛋白质会探索多种构象,那么信息就不会沿着单一路径传播。相反,它会沿着一系列路径传播,有点像城市中的交通寻找出路。这种熵驱动的多路径路由,更适合用一个对游走求和的通信性核来捕捉,比如热核 。
这里蕴含着真正的科学之美。这两个看似不同的观点——机械响应和扩散传播——是紧密相连的。拉普拉斯伪逆 实际上是热核 在所有时间上的积分(在移除平凡的平衡分量后)。我们原以为是两个不同的模型,其实只是同一潜在扩散过程的瞬时视图和累积视图,这是力学和信息论的美妙统一。
同样的逻辑也适用于我们所知的最复杂的网络:人脑。当我们问两个大脑区域的沟通效果如何时,最短路径是一个很差的指标。一条高速公路可能会拥堵。真正的整合依赖于一个丰富的替代路线网络。“通信性”,一个由邻接矩阵的矩阵指数 定义的核,考虑了两个区域之间所有可能的游走,并赋予较短的游走更大的权重。它衡量了它们连接的稳健性,提供了一幅比简单距离远为精妙的脑连接图景 [@problem-id:3985513]。通过模拟信号在大脑结构连接图上的扩散,我们甚至可以构建模型来预测功能性磁共振成像 (fMRI) 测量到的大脑活动模式,从而在静态结构和动态功能之间建立起强大的联系。
我们讨论过的这些概念不仅仅是历史上的奇闻轶事;它们构成了当前图基人工智能革命的根基。最强大的现代架构,图神经网络 (GNN),可以被理解为图核的直系后代。
思考一下经典的 Weisfeiler–Lehman (WL) 测试,这是一个来自图论的简单算法,它根据邻居的标签迭代地重新标记节点。这是一种出乎意料的强大方式来刻画图的局部结构。我们可以构建一个非常有效的图核,即WL 子树核,只需运行此测试,并在每次迭代中计算每个唯一标签(对应于特定的有根子树模式)的出现次数。这个核通过构建一个显式的子结构计数特征向量来工作。
那么,GNN 是做什么的呢?在每一层,它通过聚合来自邻居的消息并应用非线性变换来更新节点的特征向量。一种名为图同构网络 (GIN) 的架构以一种可证明与 WL 测试同样强大的方式来完成此操作。本质上,GNN 是 WL 过程的一个可学习版本。GNN 不是仅仅计算一组预定义的子结构,而是通过训练来学习哪些邻域信息是重要的,以及如何组合这些信息以最好地解决给定任务。这种联系揭示了 GNN 并非与过去的彻底决裂,而是核方法的自然演进,用灵活的、端到端的表示学习取代了固定的特征工程。在将这些模型应用于像电子健康记录这样复杂、异构的数据时,这种观点是无价的,因为我们希望基于患者临床历史的图来预测其预后。
这种学习核本身的想法也延伸到了物理科学领域。在求解偏微分方程 (PDE) 时,解通常可以通过一个带有特殊核的积分来表示。一个图神经算子 (GNO) 可以被看作是一台学习这个核的机器。它在不规则网格上的消息传递操作,实际上是用于近似该积分的数值积分方案的可学习版本。这使得 GNO 能够在非均匀网格和复杂边界周围解决复杂的物理问题,而传统基于网格的方法在这些情况下会遇到困难。
让我们通过扩展到整个城市的层面来结束我们的旅程。想象一下,你有一张从遥感数据中获取的道路网络地图,并且你已经为每个路段计算了其“介数中心性”——这是衡量网络中有多少最短路径沿其通过的指标。这个中心性是交通流量和可达性的良好代理,而这两者又驱动着城市发展。我们如何利用这些离散的网络数据来引导一个在网格上进行的连续城市增长模拟呢?
答案,再一次,是核。我们可以将每个路段看作是承载了一定“质量”的中心性。为了创建一个连续的发展潜力场,我们可以通过与一个核函数进行卷积,将这个“质量”涂抹在整个地貌上。这个过程存在真正的技巧。我们必须使用一个积分为一的核,以确保总中心性是守恒的。我们可以设计一个各向异性的核,即沿着道路方向拉长的核,以模拟道路的影响沿其长度延伸得比垂直于它更远的事实。最后,当我们将这个连续场离散化回我们的模拟网格时,我们必须对每个单元格区域内的值进行平均,以确保我们的模型不依赖于网格分辨率的任意选择。这提供了一种有原则且稳健的方法,将离散的矢量数据转换为复杂空间模拟的连续驱动力。
从最小的分子到庞大的都市,图核为理解结构提供了一个统一的框架。它们向我们展示了如何在学科之间搭建桥梁,揭示了蛋白质中信号的扩散、大脑区域间的通信以及最先进 GNN 中的表示学习,都是相同基本思想的表达。它们有力地证明了,一个单一、优雅的数学概念如何能照亮一个广阔而多样的科学世界。