WWW 2024 – 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

为了减轻标注成本并在少样本学习中增强鲁棒性,基于自监督任务的预训练成为了一种有前景的方法,同时提示学习(prompting)被提出用于缩小预训练任务和下游任务之间的目标差距。

尽管现有工作已经对基于提示的图学习进行了一些初步探索,但它们主要利用单一预训练任务,导致从预训练数据中学习的通用知识有限。因此,本文研究者提出了 MultiGPrompt,一种新型的多任务预训练和提示学习框架,用于利用多个预训练任务以获得更全面的预训练知识。

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

论文题目:

MultiGPrompt for Multi-Task Pre-Training and Prompting on Graphs

论文链接:

https://arxiv.org/pdf/2312.03731.pdf

代码链接:

https://github.com/Nashchou/MultiGPrompt

一、摘要

图可模拟网络中对象间的关系,从而促进一系列网络应用的发展,如网络分析和内容推荐。最近,图神经网络(GNNs)已成为图表示学习的主流技术。然而,它们在端到端监督框架内的有效性显著地与特定任务的有标签数据量相关。

为了减轻标注成本并在少样本学习中增强鲁棒性,基于自监督任务的预训练成为了一种有前景的方法,同时提示学习(prompting)被提出用于缩小预训练任务和下游任务之间的目标差距。

尽管现有工作已经对基于提示的图学习进行了一些初步探索,但它们主要利用单一预训练任务,导致从预训练数据中学习的通用知识有限。因此,在本文中,我们提出了 MultiGPrompt,一种新型的多任务预训练和提示学习框架,用于利用多个预训练任务以获得更全面的预训练知识。

首先,在预训练中,我们设计了一系列预训练标记(pretext token)以使多个预训练任务协同合作。其次,我们提出了一个由组合提示(composed prompt)和开放提示(open prompt)组成的双重提示机制,以利用特定预训练任务和全局预训练知识,从而指导少样本场景中的下游任务。最后,我们在六个公共数据集上进行了广泛的实验以评估和分析 MultiGPrompt。

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

二、方法

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

2.1 多任务预训练

本章中,我们讨论了多任务预训练的第一阶段。 任何基于图的预训练任务都可以在我们的框架中使用。为了不失一般性,在我们的实验中,我们利用了三个著名的预训练任务,即 DGI 、GraphCL 和链接预测 。我们的目标是在预训练标记(pretext token)的指导下,以协同的方式聚合多个预训练任务的损失。

2.2 预训练标记 Pretext Token

不同的预训练任务往往关注图上的不同特性,其损失函数也侧重于反应不同的方面。因此直接将多个预训练任务的损失函数直接聚合会由于不同任务间的互相干扰,导致结果不佳。

为了避免任务间干扰,我们利用了预训练标记(pretext token)。在图的上下文中,图编码器的不同层会反应图的不同特征,因此对不同的预训练任务具有不同的重要性。 我们为每个预训练任务引入了一系列预训练标记,以修改图编码器的输入层、隐藏层和输出层。

具体来说,考虑一个图 ,一个总共有 层的编码器,和 个前置任务。如图2(a) 所示,我们提出了 组预训练标记,表示为 。每个 表示第 个前置任务的 个预训练标记,每层(包括输入层)一个预训练标记:

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

其中, 是一个可学习的向量,代表修改图编码器第 层的第 个预训练任务的预训练标记,对于 和 。这总共给出了 个前置标记,我们在图 3 中展示了它们如何应用于修改一个预训练任务的不同层。

接下来,给定任意预训练标记 ,让 表示在将前置标记 应用到图编码器的其中一层后得到的输出,如下所示。

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

其中 表示其其中一层已被 修改。更具体地说,一个预训练标记 将通过元素对位相乘修改图编码器的第 层为 ,其中我们将前置标记 与 的每一行逐元素相乘。随后,当 l<L 时,下一层将被生成为

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

最后,对于第 个预训练任务,我们生成一个特征矩阵 来计算任务损失。 我们进一步聚合 L 1 个嵌入矩阵,以获得第 k 个任务的整体嵌入矩阵:

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

2.2.1 预训练损失函数

为每个预训练任务设计了特定预训练标记后,我们的多任务预训练可以协同获取与每个预训练任务相关的特定信息。在获得第 个预训练任务的特征矩阵后,我们可以计算相应的任务损失 ,其中 表示图编码器的模型权重。然后,我们将所有 个预训练任务的损失聚合在一起,形成多任务预训练阶段的总体损失函数:

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

2.3 下游提示学习

为了不仅利用特定任务的预训练知识,而且还利用整个预训练模型中的全局跨任务知识,我们提出了一个双重提示机制,包括一组组合提示 和一组开放提示 。组合提示旨在通过可学习混合的预训练标记将与训练任务任务特定知识转移到下游任务。同时,开放提示促进全局跨任务知识的转移。组合提示和开放提示以与预训练标记相同的方式应用于预训练图编码器的不同层,如图3所示。

2.3.1 组合提示

组合提示 修改了预训练图编码器的第 层。然而, 并非直接可学习,而是由同一层中的 K 个预训练前置标记的可学习组合构成,如下所示。

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

其中 是一个将 个预训练标记“组合”在一起的函数,例如线性组合或神经网络,而 表示该函数的可学习参数。因此,组合提示旨在学习特定任务的预训练知识的精确混合。

2.3.2 开放提示

类似于组合提示,一个开放提示 修改了预训练图编码器的第 层。然而,与组合提示不同, 是直接学习的,而不是由预训练标记组成。通过这种方式,开放提示不会提取任何特定预训练任务的预训练知识,而是全面地关注全局预训练模型。

三、实验

我们在六个基准数据集上进行了全面的实验,以评估所提出的在少样本节点分类和图分类任务上的有效性。

3.1 少样本学习表现

我们展示了1-shot节点分类和5-shot图分类的结果。

3.1.1 1-shot节点分类

结果呈现在表2中。我们观察到以下结果:

首先, 在所有四个数据集上都超越了所有基准,表明其在多任务预训练整体策略中的优势。我们后续进行了一系列消融实验,以评估特定设计的重要性。

其次,预训练方法(DGI/InfoGraph, GraphCL)通常优于监督学习方法(GCN, GAT),因为前者组利用了预训练模型。这些结果突显了从无标签图中获得通用知识的重要性。

最后,“预训练,提示”方法,如 GraphPrompt 和我们的 ,可以进一步胜过没有提示的预训练方法,证明了基于提示的学习尤其在少样本设置中的优势。

3.1.2 5-shot节点分类

我们进一步进行图分类实验,并在表2中展示结果。图分类的趋势与节点分类结果中观察到的趋势大致一致,这支持了 (以及更广泛的基于提示的学习范式)在节点和图层级任务上的通用性。

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

3.2 消融实验

为了全面了解 中每个部分的影响,我们进行了两项消融实验分析。第一项分析研究了多个预训练任务的效果,第二项分析则将 与使用不同提示的变体进行对比。

我们首先从三个只使用单个预训练任务的基本变体开始:只使用 DGI/InfoGraph(DGI)、GraphCL 和链接预测(LP)。这三个基本变体在下游微调期间只简单地使用分类器,不使用任何提示。

我们进一步比较了三个更高级的变体,即 DGI 、GraphCL 和 LP ,它们具有与 完全相同的框架和双重提示设计,但只使用一个预训练任务。

参考图5,我们观察到 始终优于使用单个预训练任务的所有变体,无论是否使用提示。这一发现强调了利用多个预训练任务的价值。

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

接下来,对于多任务预训练,我们通过移除我们双重提示中的关键设计来分析 的几个变体,包括使用预训练标记、组合提示和开放提示。这些变体及其相应结果在表3中列出。结果证实了每个独立设计的作用,如下分析结果。

首先,采用预训练标记和组合提示是有益的。值得注意的是,变体 5 通常优于不使用复合提示的变体 1 和 3。然而,仅使用预训练标记,如变体 3与变体 1 相比并没有稳定的改善,这意味着前置标记与复合提示结合使用效果最佳。(注意复合提示是建立在前置标记之上的,没有后者就无法单独工作。)

其次,省略开放提示会导致性能下降,这在变体 2 和 4 相对于变体 1 和 3 的更高准确率中显而易见。这表明通过开放提示利用全局跨任务知识的重要性。

最后,包括组合提示和开放提示的双重提示设计证明是有益的,帮助 达到最优性能。

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

四、总结与展望

在这篇论文中,我们探索了图上的多任务预训练和提示,旨在涵盖来自多种前置任务的全面知识范围。我们提出的方法 设计了一系列预训练标记,以协同方式利用多个预训练任务。

此外,我们引入了一个包括组合提示和开放提示的双重提示机制,以利用特定预训练任务的知识和全局跨任务知识。最后,我们在六个公共数据集上进行了广泛的实验,并证明 显著优于各种最先进的基准。

而本文提出的多任务预训练与提示学习框架也或许为图上大模型的实现提供了一条实现路径。在大语言模型中,往往使用单词掩码这一通用的预训练任务,并通过提示将预训练知识迁移到下游任务。

但由于图数据的复杂拓扑结构,使得单一的预训练任务往往不能充分反映图中的信息,而本文的多任务预训练通过结合多种预训练任务学习图的各方面知识,从而可被视为一个通用的图预训练范式,而下游的双重提示也为知识迁移带来了优秀的表现,从而与大语言模型的形式更加接近,或许会成为通往图大模型的路径。

Illustration From IconScout By Delesign Graphics

-The End-

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

扫码观看!

本周上新!

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。

社区上线500 期talk视频,3000 篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

>>> 添加小编微信!

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。

公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,

欢迎发送或者推荐项目给我“门”:

WWW 2024 - 通往图大模型的路径?中科大和新大提出图上多任务预训练和提示学习方法

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。