
在一个由连接驱动的世界里,从社交网络到分子相互作用,传统的机器学习模型常常因为孤立地处理数据点而显得力不从心。真正的挑战与机遇在于理解定义复杂系统的错综复杂的关系网络。图为描述这种结构提供了一种通用语言,但我们如何能让机器直接从图上学习呢?这个问题标志着现代人工智能的一个前沿,并催生了强大的图上机器学习技术的发展。
本文对这一激动人心的领域进行了全面概述。我们将首先深入探讨驱动现代图学习的“原理与机制”,剖析图神经网络(GNNs)的核心引擎。我们将探索优雅的消息传递范式,理解归纳泛化的力量,并正视这些模型的理论局限性,同时引入谱方法作为一种强大的替代方案。在这一理论基础之后,“应用与跨学科连接”部分将带领我们穿越GNNs正在产生变革性影响的各个领域。从在原子层面设计新药到绘制大脑的细胞结构,我们将看到从关系中学习如何解锁新的科学和工程能力。我们从揭示那些催生出这些复杂模型的简单局部规则开始我们的探索之旅。
物理学的核心在于寻找能够催生复杂全局现象的简单局部规则。两个粒子间的引力仅取决于它们的质量和彼此的距离,然而这些简单的规则却主导着星系的宏伟舞蹈。图上机器学习也秉持着类似的精神。机器如何才能学会理解社交网络、蛋白质相互作用图谱或金融交易系统中错综复杂的关系网络?其最优雅的答案是,它学习一套简单的、局部的交互规则。
想象一下,你是一个庞大网络中的单个节点——社交圈里的一个人,或细胞中的一个蛋白质。你的身份不仅由你自身的属性(你的特征)定义,关键还在于你与谁为伍。如果我们想构建一个能够学习你的表征的机器,它就需要捕捉这种双重性。这便是消息传递范式背后的核心直觉,该范式是大多数图神经网络(GNNs) 的主力。
一个GNN层通过在每个节点上同时执行三步舞曲来精炼节点对自身的理解:
消息创建: 你的每个邻居都会为你创建一个“消息”。这不仅仅是它们当前的状态,而是其状态的转换版本。可以想象成你的朋友们在为你量身定制他们讲述的故事。在数学上,如果你的邻居 有一个特征向量 ,它发送的消息通常是一个线性变换,,其中 是一个学习到的权重矩阵。GNN通过调整这个矩阵 的参数来学习节点间“交谈”的最佳方式。
聚合: 现在,你同时从所有邻居那里接收到消息。它们不是按顺序排队到达的,而是一片嘈杂的同步输入。你需要一种与处理它们的任意顺序无关的方式来组合它们。这个关键特性被称为置换不变性。常见的聚合方法包括简单地将所有消息向量相加(求和聚合)或取其平均值(均值聚合)。这个选择并非无足轻重。一个简单的思想实验表明,均值聚合器无法区分听到一个朋友说“”和听到两个朋友都说“”,而求和聚合器则可以。因此,求和聚合器更具“表达力”,但可能对拥有大量邻居的节点敏感。好的GNN设计需要选择一个既有表达力又稳定的聚合函数。
更新: 最后,你将来自邻居的聚合消息与自己当前的特征向量 相结合,生成你新的、更新后的表征 。这通常通过另一个学习到的函数来完成,比如将你的旧状态和聚合消息一起输入一个小型神经网络。
通过堆叠这些层,我们允许信息传播。经过一层后,一个节点了解了其直接邻居。经过两层后,它接收到了来自其邻居的邻居——即其2跳邻域——的信息。经过 层后,一个节点的表征是其整个 跳邻域的函数。这使得GNN能够从局部互动逐步构建出对网络更大范围区域结构的认知。
这种局部的、消息传递配方的真正魔力正在于此。GNN学习的不是某个特定网络的僵化地图。它不会去记忆“E. coli中的蛋白质A与蛋白质B相互作用”。相反,它学习的是一套通用的、参数化的规则,即任何蛋白质应如何根据其局部相互作用伙伴的特征来更新其表征。这一强大特性被称为归纳学习。这意味着我们可以在充分理解的E. coli蛋白质网络上训练我们的模型,然后将同样学到的规则应用于一个新发现的细菌中,来预测其蛋白质功能——这是一个模型从未见过的图。这就像在地球上的实验室里发现了力学定律,然后用它们来理解木星(Jupiter)的一颗卫星的运动。定律是普适的,改变的只是具体的环境。
这与早期的直推式方法形成了鲜明对比。想象一下,试图使用像矩阵分解这样的技术来预测药物-靶点相互作用。这样的模型会为训练期间见到的每个药物和每个靶点学习一个特定的嵌入向量。如果出现一种新药,模型就束手无策了;它没有该药物的嵌入向量,也没有创建新向量的流程。它被束缚在训练时所用的固定实体集上。而GNN则不同,它学习一个函数,该函数可以接受任何药物的化学特征,查看其在相似性图中的邻居,并计算出一个有意义的表征。这种泛化到新的、未见过的节点乃至全新图的能力,正是GNN如此多才多艺的原因。
但是,这种局部的“闲聊”协议到底有多强大?它能弄清任何网络的全局结构吗?让我们来看一个谜题。想象两个“宇宙”。宇宙 是一个由6个人手拉手组成的单环(循环图 )。宇宙 由两个各自包含3个人的独立环组成 ()。两个宇宙都有6个人,每个人都恰好与另外两个人拉着手。对于一个消息传递GNN来说,如果每个人都以相同的状态开始(例如,具有相同的特征向量),这两个宇宙看起来是完全相同的。
为什么呢?在消息传递的每一步中,两个宇宙中的每个人都向左看、向右看,看到的两个邻居在那一刻都处于完全相同的状态。他们收到的聚合消息是相同的。他们更新后的状态也是相同的。一层又一层,情况依然如此。GNN就像一个只有局部视觉的生物;它无法分辨自己是在一个大圆圈上行走,还是在两个小圆圈之一上。这个局限性被1-Weisfeiler-Lehman(1-WL)图同构测试正式地捕捉到,它证明了任何简单的消息传递GNN的表达能力在根本上是有界的。它们无法区分某些非同构的图。
那么,我们如何才能让模型变得更聪明?如何赋予它们全局位置感?一种方法是放弃纯粹的局部视角,转而提出一个不同的问题:一个图的基本“形状”或“振动模式”是什么?这就引出了谱图理论的视角。
任何图都可以用一个名为图拉普拉斯算子的矩阵来表示,,其中 是邻接矩阵, 是节点度的对角矩阵。这个不起眼的算子具有极其重要的意义。你可以把它看作是衡量图上信号“平滑度”的工具。这个拉普拉斯矩阵的特征向量代表了图上变化的基本模式,就像振动的弦或鼓面的特征向量代表其基频和泛音一样。
对应于最小特征值(恒为 )的特征向量在所有节点上都是常数。接下来的特征向量代表了逐渐“更高频”的变化模式。谱图理论的一个关键洞见是,零特征值的特征向量数量等于图中的连通分量数。这立刻为我们解决了之前的谜题:单环()的拉普拉斯算子有一个零特征值,而两个独立环()的拉普拉斯算子有两个。任何能够计算拉普拉斯谱的方法都能将它们区分开来。
这种谱的观点催生了另一类GNN。我们可以将图卷积定义为谱域中的一种滤波操作,而不是消息传递。这是第一批GCN的基础。尽管功能强大,但早期的“朴素”谱模型存在一个致命缺陷:学习到的滤波器与训练图的特定特征向量绑定,这使得它们像矩阵分解一样是直推式的。然而,现代GCN使用了一种巧妙的数学技巧(用局部多项式逼近谱滤波器),创造出一种既有谱理论动机又可局部计算的操作,从而重新获得了消息传递的归纳能力。
实际上,这两种观点——空间消息传递和谱滤波——是同一枚硬币的两面。一个标准的GCN层可以被看作是一个简单的、局部化的谱滤波器,它将一个节点的特征与其邻居的特征进行平均。当相连的节点相似时(这一特性称为同质性),这种“低通”滤波器效果很好,但当它们不相似时(异质性)则可能失效。完整的谱框架和更灵活的消息传递设计,允许创建更复杂的滤波器来处理这两种情况。
此外,我们可以将这两个世界结合起来。为了克服1-WL测试的局限性,我们可以向消息传递GNN中注入全局位置信息。一种有效的方法是使用拉普拉斯特征向量的坐标作为附加的节点特征。这为每个节点提供了一个“结构指纹”,描述了它在图的全局“谐波”中的位置,从而使GNN能够区分那些从纯粹局部视角看可能完全相同的节点。
构建这些模型是一回事;让它们可靠且负责任地工作则是另一回事。两种常见的失效模式困扰着实践者。
第一种是过平滑。如果我们将GNN做得太深(堆叠太多层),实际上就是让“闲聊”持续太久。经过多轮与邻居的平均化之后,所有节点的特征向量可能会收敛到一个单一的、无信息的值。节点特征的复杂织锦会模糊成一片均匀的灰色。模型变得无法区分节点,其在训练和测试上的准确率都会骤降。这是一种欠拟合:模型过于简单,无法捕捉到必要的模式。
第二种是过拟合。当模型对训练数据学习得“太好”,记忆了噪声和虚假相关性而非底层信号时,就会发生过拟合。一个浅层GNN如果被赋予“作弊码”——比如为每个节点提供一个独一无二的one-hot ID——可以通过简单地记住每个训练节点ID的标签来达到近乎完美的训练准确率。但当面对新的、未见过的节点时,它没有任何可泛化的知识,性能便会崩溃。
最后,当GNN被用于对人做出决策时——预测信用风险、推荐医疗方案或在安防情境中标示个体——我们便从一个技术挑战转向了一个伦理挑战。一个黑箱模型是无法问责的。我们需要可解释性。这主要有两种形式。事后方法试图通过例如识别对预测影响最大的关键邻居子图来解释一个已训练模型的决策。虽然这很有用,但这种方法存在风险,因为解释可能会泄露关于某人社交关系的隐私信息。
一种更稳健的方法是构建内在可解释模型。这些模型的架构被约束为以人类可理解的概念进行“思考”。想象一个GNN,为了做出最终预测,它必须首先明确计算诸如“是密集连接社群的一部分”或“充当两个群体之间的桥梁”等概念。这种透明性使得更有意义的审计和问责成为可能。但这也不是万能药。一个透明的模型也可能以透明的方式不公平,忠实地学习并应用历史数据中存在的偏见。构建不仅强大、可理解,而且公平、负责任的模型,仍然是该领域任何科学家或工程师的终极挑战和最深沉的责任。
既然我们已经熟悉了图神经网络的运作机制——这些从关系中学习的巧妙计算引擎——我们就可以踏上一段旅程,去看看它们在哪些地方施展魔法。你可能会倾向于认为这只是喜欢画圈和线的计算机科学家的一个小众工具。事实远非如此。真正的乐趣和力量,来自于意识到图不仅仅是抽象的数据结构;它们是描述宇宙的一种语言。
从分子中原子的精妙舞蹈到人类知识的浩瀚网络,再到驱动我们文明的工程系统,关系就是一切。在这个新时代,科学家和工程师的真正艺术在于学会将世界看作一个图,而这样做的回报是一个能够以尊重系统内在结构的方式进行推理的工具。让我们来探索其中的几个世界。
我们从最小的尺度开始,在化学和材料的世界里,这里的规则是用量子力学和统计物理的语言写成的。一个看似简单的图结构,如何能在这里帮助我们呢?
思考一下药物发现这一宏大挑战。药物分子本质上是一个微型机器,被设计用来嵌入蛋白质复杂的机械结构中以改变其功能。几十年来,化学家们在纸上用二维图来表示分子。将此直接转化为图是很自然的想法,其中原子是节点,化学键是边。然后可以训练一个GNN来预测分子的属性,比如它与目标蛋白的结合亲和力。
但在这里我们遇到了一个优美而微妙的难题。自然界不是平的。许多分子具有手性,意味着它们以两种形式存在——“左手”和“右手”版本——它们互为镜像,就像你的双手一样。这两种被称为对映异构体的版本,可能具有截然不同的生物效应。thalidomide的悲剧故事就是对此的严酷提醒。一个标准的GNN,在简单的原子和键的二维图上操作,对这种区别是视而不见的!左手分子的二维图与右手分子的二维图是相同(同构)的。一个被构建为对原子标记不变的GNN,根据其设计,将会为两种形式产生完全相同的预测。如果一种形式是救命良药,而另一种是有害的,我们这个天真的GNN将是危险而无知的。
解决这个悖论的方法不是抛弃图,而是丰富它们。我们必须构建能够看到世界真实面貌的模型:在三维空间中。这催生了一类卓越的模型的开发,称为E(3)等变GNNs。这些网络不仅仅将三维坐标作为输入;它们的整个架构被设计为尊重三维空间的基本对称性。当你在空间中旋转或平移一个分子时,其结合能的标量预测不应改变——这是一个物理属性,与我们选择的坐标系无关。一个等变GNN通过其设计保证了这一点。它的内部向量特征会随着分子的旋转而精确旋转,但最终的标量输出保持不变。这是深度学习与构成所有物理学基础的对称性原理的深刻结合,使我们能够构建出能以更高保真度评估三维配体与三维蛋白质口袋匹配程度的模型。
当我们从小药物分子扩展到巨大的蛋白质时,你可能会担心计算成本。一个蛋白质可以有数千个原子。一个有 个节点的图最多可以有 条边。幸运的是,大自然是仁慈的。维持蛋白质结构的力主要是局部的。每个氨基酸残基只与少数空间邻居相互作用。当我们将蛋白质建模为残基图时,得到的图是极其稀疏的。边的数量 与节点数量 呈线性而非二次方关系。这是一个至关重要的属性,因为GNN层的计算成本与边的数量成正比。这种自然的稀疏性使得将GNN应用于预测B细胞表位位置等复杂属性在计算上成为可能,这对于设计下一代疫苗至关重要。
从分子,我们可以跃升到材料。晶体是无限重复的原子晶格。我们如何预测其宏观属性,比如它的强度或在应力下的变形方式?在这里,我们同样可以定义一个图,其中原子是节点,边连接邻居。但为了捕捉物理特性,我们必须更聪明。晶体的各向异性屈服应力取决于其相对于施加载荷的方向以及优选的“滑移系”——晶体内部原子最容易滑移通过的平面和方向。我们可以将这种物理知识直接编码到图上。对于代表两个原子之间化学键的每条边,我们可以添加描述该键相对于每个滑移系和外部加载方向的特征。然后,GNN接收这个注入了物理信息的图,并学习将这种微观排列映射到我们关心的宏观属性的复杂非线性函数。它成为了一个数据驱动的模型,但又深受力学定律的启发。
尺度再往上,我们来到了生命细胞的世界,这是生物学的基本单位。近期的*空间组学*革命使我们能够测量单个细胞的基因表达,同时记录它们在组织中的位置。这为我们提供了关于器官、肿瘤或发育中的大脑的细胞景观前所未有的画面。但这是一幅包含数百万数据点的图景;我们如何理解它?
我们再次求助于图。我们可以将组织表示为一个“细胞图”,其中每个细胞是一个节点。如果两个细胞是物理邻居,则可以用一条边连接它们。一种定义“邻居”的自然方法是使用Delaunay三角剖分,它连接那些对应Voronoi区域共享边界的细胞。每个节点的特征是高维的基因表达向量。然后,GNN可以学习不仅基于细胞自身的基因表达,还基于其邻域环境来对细胞进行分类。这使我们能够识别复杂的空间模式,例如肿瘤中免疫细胞浸润的区域,这是一个关键的诊断和预后标志物。
我们可以将GNN中的消息传递机制看作是一个受控的扩散过程。在每一层,细胞的表征变得更像其邻居的平均值。这具有低通滤波效应,使特征平滑化。如果我们试图识别组织的大片连续区域,比如大脑皮层的不同层次,这种平滑正是我们想要的。它强化了区域内的共同信号,使细胞的表征更加相似,从而有助于分类。然而,同样的过程也带来了风险:过平滑。如果我们堆叠太多GNN层,信息扩散得太远,不同但相邻区域的细胞表征就会模糊在一起,抹去了我们希望找到的边界。
解决方案是另一个受人类认知启发的绝妙想法:注意力。图注意力网络(GAT) 学会为来自不同邻居的消息分配不同的权重。如果一个细胞位于皮层I层和II层之间的边界上,它可以学会减少对来自另一层邻居消息的关注,即使它们在物理上很近。这使得模型能够在保留清晰边界的同时,仍然整合上下文信息,让我们两全其美。
图的力量并不仅限于模拟物理世界。它延伸到人类知识的抽象世界和我们构建的复杂系统。
庞大的生物医学信息网络已被整理成知识图谱(KGs),其中节点代表药物、蛋白质、疾病和副作用等实体,带类型的边代表它们的关系(例如,“治疗”、“结合”、“导致”)。这些知识图谱是结构化人类知识的宝库。GNNs提供了一种在这些知识上进行推理的方法。对于像计算药物重定位(为现有药物寻找新用途)这样的任务,GNN可以“行走”在图上,学习识别那些对人类来说可能不明显但有前途的新Drug -> treats -> Disease路径。这主要可以通过两种方式实现:一是利用知识图谱的结构来定义GNN自身的消息传递路径,从而对模型施加关系归纳偏置;二是在下游模型中,首先使用一种算法将图结构提炼成每个节点的密集向量嵌入,然后将这些嵌入作为丰富的初始特征。前者是一种可以泛化到新实体的归纳方法,而后者(使用浅层嵌入)通常是直推式的,仅限于训练期间见过的实体。这一选择凸显了我们在如何利用结构化知识方面存在深刻的哲学差异。
这种在结构化数据上学习的范式已深入到工程领域。在电子设计自动化(EDA)中,现代计算机芯片的设计是一项艰巨的任务。电路逻辑,或称网表,是一个巨大的超图,其中节点是逻辑门,超边是连接多个门的导线(nets)。这些门在硅片上的物理布局是一组坐标。GNN可以将这种组合的拓扑和几何信息作为输入,以在昂贵的制造过程开始之前预测关键性能指标,如信号时序或布线拥塞。模型学习了决定性能的连接性与物理布局之间错综复杂的相互作用。
最后,让我们考虑构成我们社会支柱的大型信息物理系统(CPS)——电网、水网和交通系统。这类系统的“数字孪生”可以表示为一个图,使用GNN来预测其行为并检测潜在的故障。但在这些高风险应用中,一个预测是不够的;我们要求得到解释。如果一个GNN预测即将发生停电,我们需要知道为什么。在这里,图范式提供了一个优雅的解决方案。可解释人工智能(XAI)技术可以识别导致该预测的输入图中影响最大的部分。这个解释本身就是一个小的、连通的子图——一组特定的发电机、变压器和输电线,它们的状态共同指向即将发生的故障。这个解释不仅仅是一个特征列表;它是系统内部一个连贯的、结构化的机制。
从分子的镜像特性到大脑的结构,从发现新药到设计更快的计算机芯片和确保我们的电网安全,图的语言和图神经网络的推理能力提供了一个统一的框架。它们让我们能够构建模型,这些模型不是从孤立的数据点中学习,而是从支配我们周围世界的丰富的关系、对称性和物理约束网络中学习。而这段旅程才刚刚开始。