中科大成果详情页设计,拿下图学习"世界杯"单项冠军!
由中科大王杰教授团队(MIRA Lab)提出的首个具有最优性保证的大语言模型和图神经网络分离训练框架,在国际顶级图学习标准 OGB(Open Graph Benchmark)挑战赛的蛋白质功能预测任务上斩获「第一名」,该纪录从 2023 年 9 月 27 日起保持至今。
OGB 是目前公认的图学习基准数据集"标杆",由图学习领域的国际顶级学者斯坦福大学 Jure Leskovec 教授团队建立,于 2019 年国际顶级学术会议 NeurIPS 上正式开源。
最近,该论文发表在人工智能顶级期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI 2024)。
TPAMI 是目前计算机类别中影响因子最高(影响因子 20.8)的期刊之一。
该方法引入了一个十分新颖的图神经网络的逆运算,并提出标签反卷积算法来快速近似它,进而构建一个等价的损失函数,从而消除了传统语言模型和图神经网络微调方法的学习偏差。
论文和代码均放出。
引言
图广泛应用于许多重要领域,例如引文网络、商品网络和蛋白质相互作用网络。在许多实际应用中,图中的节点具有丰富且有用的属性信息。例如,引文网络中的节点(论文)、商品网络中的节点(商品)以及蛋白质相互作用网络中的节点(蛋白质)分别包含着标题 / 摘要、商品的文本描述和蛋白质序列等重要信息,这些信息对下游任务只管重要。而近年来兴起的许多强大的预训练模型是从这些复杂属性中捕获节点特性的重要工具之一。
为了同时编码这些属性和图结构,一个常见的架构是将预训练模型与图神经网络 GNN(Graph Neural Network)串联集成在一起,其中预训练模型作为节点编码器 NE(Node Encoder)对属性进行编码。如下图所示,该架构通过节点编码器将这些复杂的节点属性变成定长的低维嵌入,再将其作为节点特征输入到图神经网络以结合图结构信息。
然而,作为 NE 的预训练模型本身大量参数且 GNN 的邻居爆炸问题(neighbor explosion),两大训练难题的叠加让直接端到端联合训练 NEs 和 GNN 在实际中并不可行的。研究者们开始研究分离 NEs 和 GNNs 分离训练的范式,即先固定 NEs 的参数训练 GNNs 一定步数(GNN 的训练阶段),再固定 GNNs 的参数训练 NEs 一定步数(NE 的训练阶段),两步交替迭代进行。
本工作对现有的 NEs 和 GNNs 分离训练的范式进行研究,指出了现有工作在 NE 训练阶段,它们没有考虑 GNN 中的特征卷积,导致它们提出的近似损失函数与原始联合训练的目标函数并不等价,存在显著的学习偏差,进而无法收敛到最优解(详见原论文举的反例)。
为了应对这一挑战,我们提出了一种有效的标签正则化技术,即标签反卷积 LD (Label Deconvolution),通过对 GNN 逆映射得到一种新颖的、可扩展性强的近似标签。逆映射有效地将 GNN 纳入 NE 的训练阶段以克服学习偏差,进而产生了与联合训练等效的目标函数。于是我们也进一步证明了 LD 收敛到了最优目标函数值,为提出的 LD 方法提供了理论保证。通过实验验证,LD显著优于当下最先进的方法,在国际顶级图学习标准 OGB(Open Graph Benchmark)挑战赛的蛋白质功能预测任务上斩获「第一名」,该记录从 2023 年 9 月 27 日起保持至今。
背景介绍大规模属性图上的节点表示学习重点研究了具有丰富有用的节点属性的图上的节点表示学习,其中是所有节点的集合, 是所有边的集合。由于原始节点属性通常是高维的文本、图像或蛋白质序列,常用的解决方法是从中提取出维的节点特征,如下所示:
式中表示节点编码器(NE)的参数。由于大型的预训练模型(如:用于蛋白质序列的 ESM2, 用于文本的 Bert)具有强大的特征提取能力,故将其作为节点编码器 f。
为了进一步编码图结构,图神经网络将节点特征和邻接矩阵作为如下输入:
式中:表示的第 i 行,θ 表示图神经网络的参数。若,则,否则。GNNs 输出节点表示 H。
为了简单起见,我们定义如下记号 . 给定一组节 B,令
表示由组成的矩阵,所有,其中为 M 的第 i 行。给定一个向量函数,令表示一个矩阵函数,其中。
可扩展的图神经网络结合预训练节点编码器的难点
大多可扩展的图神经网络可分为基于数据采样和基于模型结构的两类思想。
图采样
为了计算节点的小批量 B 中的节点表示,一种常见的解决方案是对由 B 构造的子图进行如下采样:
其中。
然而,现有图采样方法中使用的 |G ( B ) |明显大于预训练 NEs 中使用的 mini-batch 的大小。如果进一步减小现有图采样方法中 |B| 或 |G ( B ) | 的大小来对齐 mini-batch 的大小,它们的性能会显著下降,如下所示。
在本实验中,预训练 NEs 最大 batch 的大小不超过 12,明显小于 |G ( B ) |。所以,通过图采样对 NEs 和 GNNs 进行联合训练是难以实现的。
从 GNN 中分离特征卷积
为了避免 GNNs 特征卷积时的内存和时间开销,一些可扩展的 GNNs(例如 GAMLP 和 SAGN)首先将特征卷积从 GNNs 中分离出来。然后基于固定节点特征对特征卷积进行一次预处理。然而,由于节点特征是可用 NEs 学习的,这种想法对于 NEs 和 GNNs 的联合训练仍然是难以承受的。
预训练节点编码器结合图神经网络的常见训练范式:分离训练框架
给定节点标签 Y,优化问题为
。为了避免特征卷积严重的可扩展性问题,现有的分离训练框架提出交替优化θ 和 β:
式中 L 为真实目标函数的损失函数 , L' 为 L 的近似。
GNNs 的训练阶段(优化 β)
当 NEs 的参数 β 固定时 GNNs 是可扩展的,可直接使用上述的图采样或者特征卷积分离技术来优化 GNNs。
NEs 的训练阶段(优化 β)详情页设计
现有的独立训练框架忽略了 GNNs 中的特征卷积来设计新的损失函数 L',例如自监督损失或监督损失并具有可扩展的线性层。
值得注意的是,NEs 的训练阶段不涉及公式中 GNNs 的参数 θ。我们的方法 LD 和 GLEM 基于不同的 motivation,具体来说,LD 旨在恢复 GNN,而 GLEM 旨在提高伪标签
的质量,在测试节点
上进行半监督学习。因此,我们忽略了对 Y 的改进,并假设 LD 和 GLEM 中的节点标签 Y 是相同的。
标签反卷积
针对分离训练框架中忽略 GNN 特征卷积的问题,小程序美工我们提出了一种简单高效的标签正则化技术,即标签反卷积(Label Deconvolution,LD)。设节点标签为 Y,如果任务是半监督的(指图中的部分节点标签是缺失的),即可根据预训练的 NEs 推理得到的固定节点特征训练 GNNs。
LD 是一个分离训练框架,分别对 GNNs 和 NEs 进行训练。我们将 NEs 的训练阶段表述为:
式中:GNN-1 为 GNN 的逆映射。我们称为反标签。在 NEs 的训练阶段参数 θ 是固定的,LD 的核心思想是对
进行预处理,以避免在 NEs 的训练阶段执行多次增加内存和时间开销的操作。因此,mini-batch 的训练目标为:
其中 B 是节点的 mini-batch。
由于非线性 GNN 的逆映射很难精确计算,所以我们推导 GNN 的有效近似来替代。接下来介绍 GNN 的频谱公式,将线性特征卷积与 GNN 分离。然后通过 LD 参数化具有相似表达的逆标签,进一步避免了线性特征卷积的逆映射。
基于频谱设计的 GNNs
受到频谱滤波器的启发,近来出现了许多高效的 GNNs 架构。LD 的推导也是基于频谱的 GNNs,即:
其中
是执行线性特征卷积的多项式谱滤波器,是归一化的相邻矩阵,
是非线性多层感知器。权重要么是可学习的,要么是固定的。如 [ 2 ] 所示,基于频谱的 GNN 可以在一些温和的假设下产生任意节点预测。这些假设也适用于许多真实世界的图数据。因此训练目标变为:
上述方程保留了 GNNs 的可扩展的非线性变换,并预处理了图扩散矩阵
的逆矩阵。值得注意的是,在 NEs 的训练阶段包含了 GNNs 参数 θ 的一部分。这种结合显著减轻了 NEs 和 GNNs 联合训练的学习偏差,同时不影响可扩展性。
标签反卷积
为了进一步避免线性特征卷积的逆映射,我们提出了一个可训练的标签反卷积来生成逆标签 Y ( γ ) 。标签反卷积旨在用 γ 参数化 Y ( γ ) ,使得 Y ( γ ) 的表达能力类似于,即:
这样,训练目标变为:
通过我们提出的带 γ 的重新参数化方法隐式地纳入了参数。其核心思想受到 Cayley-Hamilton 定理的启发。下面首先介绍两个有用的引理。
引理 1. 设矩阵 M 的特征多项式为。若矩阵 M 可逆,则 M 的逆矩阵为:
引理 2. 若矩阵 MN ∈ Rn × n 以表示成一个次数小于 n 的矩阵多项式,即:
由此引出命题:
命题 1. 若可逆,则表示为矩阵幂的线性组合,即:
因此,我们将逆标签 Y ( γ ) 参数化为:
其中 N 是一个超参数,变量是可训练参数。
直观上来看,i-hop 标签是 k-hop 邻居中标签的(加权)平均值。对于一个 N 层 GNN,节点的预测(表示)不仅依赖于它的特征,而且依赖于其 N 跳邻居的特征。类似地,节点的特征不仅对其预测有贡献,对其 N 跳邻居的预测也有贡献。因此,i-hop 标签可以有效缓解NEs 训练阶段的学习偏差。
逆标签的小批量版本为:
式中 B 为节点的 Mini-Batch。
下面总结了 LD 算法的伪代码。
NEs 不同损失函数的比较
现有的分离训练框架提出了各种损失函数来逼近
,导致联合训练产生学习偏差。我们总结了在节点标签和图结构方面的学习偏差。图 5 展示了联合训练、LD、GIANT 和 GLEM 的损失函数。LD将图结构与节点标签融合生成逆标签,保持了与联合训练相似的学习行为。然而,GIANT 和 GLEM 忽略了图结构或节点标签,导致了显著的学习偏差。
兼职美工网站虽然 LD 和联合训练有着相似的学习行为,但 LD 在特征存储上比联合训练更高效。具体来说,为了计算 mini-batch 节点 B 数据上的损失,LD 的 NE 以 O ( |B| ) 的内存复杂度对 B 中的属性进行编码。然而,联合训练的 NE 对大小为 G|B| 的采样子图中的属性进行编码,产生比 LD 更大的内存复杂度 O ( G|B| ) 。
下面展示了 NEs 训练阶段不同训练方法的复杂性以及 NEs 的监督信号。LD 和 GLEM 是所有方法中速度最快、存储最高效的算法。且与 GLEM 相比,LD 在 NEs 的监督信号中还考虑到了图结构。
实验结果
团队对广泛使用的开放图基准数据集 OGB(Open Graph Benchmark)中的ogbn-axiv、ogbn-product和ogbn-protein进行实验,其图数据分别为引文网络、协同购买网络和蛋白质关联网络。
如下所示,LD 在不同 GNN backbone 的三个数据集上的表现都显著优于所有的 baseline。
逆标签分析
逆标签 Y ( γ ) 是真实标签与 i 跳邻居标签的加权和。图 8 绘制了微调过程中的权重 γ i 的变化过程。逆标签往往是真实标签或者 i 跳邻居中 i 较小的标号。这是因为真实标签和 i 较小的 i 跳邻居标签仍然是所有标签中对节点分类最重要的监督信号。此外,i 较大的 i 跳邻居标签存在过平滑问题,即随着 i 的增加,i 跳邻居标签可能趋于不可区分。值得注意的是,权重 γ i不收敛到平凡解,其中。这说明其他跳数的标签对节点特征提取是有帮助的。
为了进一步比较逆标签和真实标签,我们在图 9 中展示了节点属性的相似度和标签的相似度。我们从 ogbn-arxiv 数据集中随机选择了几对具有高度相似文本(即文本相似度大于 0.6)但标签不同(节点 0 和 1 , 2 和 3 , 4 和 5)的节点。我们使用TF-IDF 算法和余弦相似度分别来评估文本相似度和标签相似度。图 4a 中每对节点都具有较高的相似度,但不同对中的节点相似度较低,我们对其进行独立选择。图 4b 和 4c 表明,逆标签为具有相似文本的节点提供相似的监督信号,为具有不同文本的节点提供不同的监督信号。然而真实标签无法实现这一特性。由此可见,逆标签通过降低图结构中的标签噪声来保留真实语义属性。
作者介绍:
石志皓,2020 年获得中国科学技术大学电子工程与信息科学系学士学位。现于中国科学技术大学电子工程与信息科学系的 MIRA Lab 实验室攻读博士研究生,师从王杰教授。研究兴趣包括图表示学习和 AI4Science。他曾以第一作者在 TPAMI、ICLR 等期刊、会议上发表论文,曾受邀在 ICLR 2023 做接受率约为 8% 的 Spotlight 报告。
路方华,2023 年获得上海大学机械设计与自动化专业学士学位。现于中国科学技术大学电子工程与信息科学系的 MIRA Lab 实验室攻读硕士研究生,师从王杰教授。研究兴趣包括图表示学习和自然语言处理。
论文地址:https://www.computer.org/csdl/journal/tp/5555/01/10678812/20b3hKWQ3Ru
代码地址:https://github.com/MIRALab-USTC/LD
参考文献:
[ 1 ] Zhao J, Qu M, Li C, et al. Learning on large-scale text-attributed graphs via variational inference [ J ] . arXiv preprint arXiv:2210.14709, 2022.
[ 2 ] Wang X, Zhang M. How powerful are spectral graph neural networks [ C ] //International Conference on Machine Learning. PMLR, 2022: 23341-23362.
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
点这里� � 关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
特别声明:以上内容(如有图片或视频亦包括在内)来源于网络,不代表本网站立场。本网站仅提供信息存储服务。如因作品内容、版权和其他问题需要同我们联系的,请联系我们及时处理。联系方式:451255985@qq.com,进行删除。