AFGSRec:一种自适应融合全局协同特征的社交推荐模型

来源:优秀文章 发布时间:2023-03-10 点击:

蔡晓东 曾志杨

(桂林电子科技大学 信息与通信学院,广西 桂林 541000)

序列推荐方法把用户的购买信息构造成与时间相关的交易序列,再从中挖掘购买行为之间的关联性,捕获用户的交易偏好。传统的基于马尔可夫链的序列推荐方法大多只能建模用户交易行为之间的短期关联信息[1],导致推荐结果不够准确。Hidasi等[2]首次将门控循环单元(GRU)[3]应用到序列推荐系统上,可同时捕获用户交易行为之间的长短期依赖,提高了系统的推荐准确率。随着注意力机制[4]的发展,Li等[5]采用编解码的方式,利用注意力机制同时捕获了用户交易偏好和序列行为特征。此后基于循环神经网络(RNN)和注意力机制的序列推荐系统得到了飞速发展[6-8]。尽管这类方法取得了较好的推荐结果,但忽略了用户交易行为之间的转换关系。为了弥补该不足,Wu 等[9]采用门图神经网络[10]建模用户交易序列,捕获了交易物品间的转换关系,提升了模型的推荐效果,但这种建模方法是无差别的。Wang 等[11]认为用户的交易偏好不仅与当前的交易序列有关,还与用户全局交易信息有关,捕获全局交易中的关联特征可以提升推荐准确率。随着知识图谱的发展,异质图[12]也受到了越来越多研究者的关注。文献[13-14]将用户全局交易信息建模到异质图中,但忽略了全局交易信息对用户偏好的动态影响。此外,在社交平台上,用户的交易行为不仅与个人偏好有关,还会受好友偏好的影响,如用户A 想看喜剧电影,A 的好友收藏的同类型电影往往会吸引到A。为了捕获这种社交影响,Song等[15]将社交网络引入序列推荐系统中,证明了在序列推荐系统中引入社交网络可以提高系统的推荐准确率。Gu 等[16]在文献[15]的基础上,引入图神经网络来学习用户交易物品之间的转换关系,但节点特征捕获方法也是无差别的。Chen等[17]提出了完全基于图神经网络的SERec模型,用于捕获用户偏好和社交影响,但也忽略了全局交易信息对用户偏好的影响。

虽然以上各种序列推荐方法都取得了不错的推荐效果,但还存在一些问题需要解决:①没有同时考虑全局交易信息和好友偏好对用户当前偏好的影响,且全局交易信息对用户偏好的影响应该随着偏好的变化而变化;
②传统的图神经网络一般只能无差别捕获用户交易行为之间的转换关系;
③随着互联网的发展,存在平台数据增多导致模型训练速度慢、训练效果不好的情况。

为了解决上述问题,本文基于SERec 模型[17],在文献[11,14,17-20]的启发下,提出了一种自适应融合全局协同信息的社交推荐模型AFGSRec。首先,设计了一种基于选择机制的门图神经网络,用于捕获用户当前序列下的交易偏好;
接着,设计了一种自适应融合方法,以动态捕获全局协同特征对用户当前偏好的影响,帮助系统更好地理解用户最终的交易偏好;
然后,将动态周期学习率用于模型训练,以缓解数据集大导致模型训练困难、训练速度慢的情况;
最后,在Gowalla 和Delicious 数据集上进行了相关实验,并与SERec模型[17]进行了对比,以验证本文提出模型AFGSRec 的有效性和鲁棒性。

在社交平台上,用户交易行为不仅与个人偏好有关,还受好友偏好的影响,因此可以将本文研究的基于社交网络的序列推荐系统定义为:用户集U=(u1,u2,…,uM),交易物品集I=(i1,i2,…,iN),社交网络G=(U,E),E为节点之间的社交网络连接,E中的边(u1,u2)表示u1与u2之间是好友关系。任一用户u所有的交易序列记为Su=(),T为序列总数,u的序列T中的所有交易信息按时间戳标记为=(),t为序列T中的交 易 行为。AFGSRec的目的是利用用户和用户社交网络中的交易信息为用户推荐下一次最想要交易的物品。

2.1 模型框架

本文提出的AFGSRec模型框架如图1所示,基于注意力机制的异质图神经网络用于捕获用户全局协同特征和不同节点之间的社交影响,基于选择机制的门图神经网络用于捕获用户当前偏好,偏好自适应融合方法用于捕获全局协同特征对用户偏好的影响,最后对用户推荐商品。

图1 AFGSRec模型框架Fig.1 Frame of AFGSRec model

2.2 基于注意力机制的异质图神经网络

文献[11]指出,用户的当前偏好不仅与近期序列有关,还与全局交易信息有关,全局交易信息是指用户所有的历史交易信息。文献[14,17]利用异质图建模用户全局交易信息,取得了不错的效果,在此启发下,本文利用文献[17]中的异质图神经网络来捕获用户全局协同特征和不同节点之间的社交影响,其中全局协同特征代表用户所有历史交易信息中的关联特征。异质图中的节点包括用户节点U和U的所有历史交易节点I,节点之间的边(uk,uv)表示用户uk和uv之间是好友关系,它的权重定义为1。物品之间的转换关系定义为用户交易行为的顺序,如(io,iq)表示先交易io后交易iq。转换关系(io,iq)、用户与物品间的交易关系(u,i)与(i,u)的权重分别定义为w1、w2、w3,表示发生这些关系的次数。利用基于注意力机制的异质图神经网络可以学习到用户节点和物品节点的嵌入表示,整个学习过程如下:

2.3 基于选择机制的图节点特征学习

在序列推荐系统中,用户最后一次交易的嵌入常被视为最符合用户当前偏好,用于选择序列中的重要交易特征[9,17,21-23]。Ma 等[18]提出了用于捕获用户交易偏好的个性特征门,受此启发,本文利用用户最后交易的嵌入Vlast设计了一种基于选择机制的个人交易偏好捕获方法,如图2 所示,具体过程如下。

图2 选择机制原理图Fig.2 Schematic diagram of the selection mechanism

将用户u的当前交易序列建模到序列交易图g=(B,E)上,节点集B表示用户交易过的物品组成的集合,E表示节点之间的有向边组成的集合,如BmBn表示用户先交易物品m,后交易物品n,每条边上的权重定义为发生这种交易转换的次数wm→n。以往的图神经网络大多以物品的初始化向量作为图节点的初始状态进行信息聚合,为了捕获更多物品间的协同关联信息,本文用物品节点的嵌入hli作为序列交易图中各节点的初始状态Vi。在信息聚合方面,本文在文献[9,17]的基础上设计了一种新的聚合方式:首先,把序列图g中任一节点i的出入邻居数分别定义为、,通过式(5)计算出入邻居中的关联特征信息fi,其中wj→i为节点i对应入边的权重,wi→j为节点i对应出边的权重,Win和Wout为可训练的参数矩阵,Vj为节点j的嵌入表示;
然后,通过式(6)-(9)更新各个节点的嵌入,并通过式(10)、(11)中的选择机制,利用Vlast自适应地选择符合当前序列特征的节点转换关系,动态聚合各个节点的最终嵌入表示hi,其中σ( )为Sigmoid激活函数,Wa、Wr、WH、Wg、ba、br、bH、bg分别为可训练的参数矩阵和偏置向量,⊗为哈达码乘积,Q是所有元素为1的矩阵。

2.4 偏好自适应融合方法

近年的序列推荐研究中几乎都忽略了用户全局交易中的协同特征对用户偏好的影响,部分研究即使捕获了协同特征,也没有考虑它与用户偏好之间的动态关系。由于全局协同特征是从用户的所有交易信息中捕获,而用户的偏好是动态变化的,所以全局协同特征对用户的影响也应该随着用户偏好的变化而变化。受文献[20]中特征融合的启发,本文设计了一种偏好自适应融合方法,以动态捕获全局协同特征对用户当前偏好的影响,帮助系统更准确地理解用户最终的偏好。

首先,设计了一个动态融合单元Fi,在GRU中,遗忘门可以有选择地记住和遗忘一些特征信息,Fi也通过类似的门控机制来达到动态融合的效果。对于序列交易图中的每一次交易,与hi按如下公式进行融合:

式中,W1、W2为可训练的参数矩阵,b为偏置向量,为捕获了全局协同特征后的节点嵌入表示。Fi中的门控机制可以从全局特征中抽取与序列节点特征hi相关的特征信息,所以自适应融合方法可以根据用户偏好的变化来捕获全局协同特征对用户当前偏好的影响。

在序列推荐中,最后一个交易物品常被视为最符合用户偏好[9,17,21-23],因此,本文采用最后一个物品的嵌入表示h"c作为选择标准,对整个序列的交易物品进行注意力聚合,得到用户当前偏好p,即

式中,Wi、Wt、V为可训练的参数矩阵和参数向量。

为了捕获社交好友对用户偏好的影响,本文将异质图中包含了社交影响的与用户当前偏好p进行拼接,得到用户最终的交易偏好pfinal,即

式中,Wp、Wu是维度变换矩阵。

2.5 基于周期动态学习率的模型训练

神经网络在训练过程中,通过梯度下降法找到一组最合适的权重参数,使模型的损失函数最小[24],即

式中,θτ为第τ次迭代计算后的参数值,λ为学习率,Dτ为参数梯度。从式(18)可以看到,学习率在梯度下降中发挥着至关重要的作用,它决定了梯度的下降速度,如果学习率设置得较大,模型很可能跳过最优解,最终在最优解的上下振荡;
如果学习率设置得过小,模型的收敛速度会非常缓慢。文献[25]认为,损失下降难的原因大多来自于模型中的鞍点(也是梯度为0的点),当学习率较小,模型一旦陷入鞍点,将很难跳出,导致模型训练效果差。学习率取不同值对模型训练损失的影响如图3所示,可以看到,只有合适的学习率才能保证模型学得又快又好。

图3 学习率对模型的影响Fig.3 Effect of learning rate on model

在以往的模型中,学习率常通过网格搜索法来确定,即在给定范围内找到一个相对值,这类方法需要花费大量的时间,并且在后期的训练过程中,当学习率的设定值不足以跳过鞍点时,模型难以达到最佳的推荐效果。文献[19]指出,在模型的训练过程中,增大学习率虽然在短期内会让模型发生较大的波动,但长远看这可以有效地提升模型的训练速度,当模型陷入鞍点时,增大学习率可以帮助模型很快跳出。受此启发,本文将周期动态学习率应用到本文推荐模型的训练中,以解决因数据集大导致模型训练困难的问题。文中的动态学习率按三角周期变化,从最低值线性增加到最高值,再从最高值降到最低值为一个周期,如图4所示,其中上下边界表示模型训练过程中学习率能到达的最大值和最小值。

图4 动态周期学习率示意图Fig.4 Schematic diagram of dynamic cyclical learning rate

为得到最终的推荐结果,本文先用点积计算用户偏好与候选物品之间的概率分数,再通过Softmax函数得到推荐概率分布,即

损失函数定义为yj和的交叉熵,即

式中,yj是用户下一次交易项的真实概率分布,对于Top-K推荐,只需取概率分布中的前K个作为结果推荐给用户。

3.1 实验数据集

本 文 在Gowalla[17]、Delicious[17]数 据 集 上 进 行实验,这两个数据集都包含了社交网络和用户序列化的交易信息,能很好地模拟基于社交网络的序列推荐。Gowalla 数据集中用户交易次数多且社交关系较为复杂,可以很好地验证模型的性能。直观上看,虽然Delicious数据集上的总数据较少,但在平均交易信息和平均社交网络复杂度上与Gowalla 数据集相差很小,因此也能很好地验证模型的性能。并且,在小数据集上,模型的训练时间更快,更方便模型性能的调整。本文采用文献[23]的方法对Gowalla 数据集进行处理,采用文献[15]的方法对Delicious 数据集进行处理。对每个数据集,取60%的数据作为训练集,剩下的分别取20%作为验证集和测试集,按照文献[5-6,9]的数据处理方法对数据进行过滤和增强,得到各数据集信息如表1所示。

表1 两个数据集信息Table 1 Statistics of two datasets

3.2 评价指标及参数设置

本文采用推荐系统常用的命中率(HR)@K[14]和平均倒数排名(MRR)@K[5]作为模型的评价指标。HR@K关注推荐Top-K中符合用户交易偏好的物品的比例,值越大,推荐效果越好。MRR@K关注推荐Top-K中符合用户交易偏好的物品的排名,值越大,物品排名越靠前。为了验证模型的鲁棒性,文中的K分别取为10和20。本文实验系统配置如下:Ubuntu18.02, GTX2080Ti 显 卡, PyTorch1.4.1,Python3.6,Batchsize、物品嵌入和用户嵌入维度都设置为128。周期动态学习率的上、下限分别设置为0.01、0.000 01,周期值与训练轮数Epoch 都设置为20,其他参数与文献[17]保持一致。

3.3 模型结果对比分析

为了证明本文模型AFGSRec 的有效性,将AFGSRec的实验结果与3个基线模型(①SR-GNN[9],首次将图神经网络应用到序列推荐系统;
②DGRec[15],首次将社交网络应用到序列推荐系统;
③SERec[17],完全用图神经网络捕获用户偏好和社交影响)进行了对比,结果如表2 所示。从表中可以发现:SR-GNN 首次用图神经网络来捕获用户交易物品之间的转换关系,它的推荐效果不及同样用图神经网络建模用户交易序列的SERec,这是因为SERec融入了用户社交关系,故其推荐效果更好;
DGRec 首次将用户社交关系融入到序列推荐中,用循环神经网络捕获社交网络中的交易偏好,它的推荐效果优于只捕获用户偏好的SR-GNN,次于同样捕获了社交影响的SERec,这可能是因为DGRec中的循环神经网络难以捕获到用户交易行为之间的转换关系,而SERec 中的图神经网络可以,故SERec的推荐效果更好;
本文模型AFGSRec在两个数据集上的推荐效果均超过了最优模型SERec,在Gowalla数据集上,HR@10、HR@20分别提升了1.91%和1.15%,MRR@10、MRR@20 分别提升了5.05%和4.83%;
在Delicious 数据集上,HR@10、HR@20 分别提升了2.45%和1.19%,MRR@10、MRR@20 分别提升了4.84%和4.32%,说明本文模型是有效的。同时可以看到,不管K等于10还是20,AFGSRec 模型的推荐效果对比之前的最优SERec都有提升,说明AFGSRec模型具有较好的鲁棒性。

表2 K取不同值时4个模型的实验结果对比Table 2 Comparison of experimental results among four models with different values of K

3.4 扩展消融实验结果分析

3.4.1 组件的有效性

为了验证文中所提组件(选择机制、自适应特征融合、周期动态学习率)的有效性,本文利用控制变量法设计了关于三者的扩展消融实验。其中,AFGSRec-wSPI 表示去除基于选择机制的图节点特征学习方法,采用文献[17]中无差别的图节点特征捕获方法;
AFGSRec-wAFC 表示去除自适应特征融合,只利用用户近期交易信息来捕获用户偏好;
AFGSRec-wCYC表示去除周期动态学习率,采用网格搜索法来确定学习率的大小。在相同的参数下,扩展消融实验结果如表3 所示。从表中可以看到:①当去掉选择机制后,AFGSRec-wSPI的HR和MRR均有所下降,说明了选择机制的有效性。相比于无差别的图节点捕获方法,基于选择机制的AFGSRec可以自动选择与当前序列相关的特征信息,在捕获物品复杂转换关系的能力上更胜一筹,所以用户的当前偏好表达得更准确。②当去掉自适应特征融合后,模型AFGSRec-wAFC 的HR 和MRR 都有所下降,说明了自适应特征融合的有效性。自适应特征融合考虑了全局协同特征与用户偏好之间的动态关系,能帮助系统更准确地理解用户最终的偏好,从而提高系统的推荐效果。③当去掉周期动态学习率后,模型AFGSRec-wAFC 的HR 和MRR 也有所下降,这说明基于周期动态学习率的方法比网格搜索法更有效。去除周期动态学习率,对Gowalla 数据集上的实验结果的影响较大,说明周期动态学习率在数据多的数据集上能发挥更好的作用。④不管K等于10还是20,AFGSRec-wSPI、AFGSRec-wAFC和AFGSRec-wCYC模型的HR和MRR的值都不如模型AFGSRec,说明每个小组件都是不可缺少的,缺少每个组件都会导致模型不同程度的性能下降,只有三者组合才能使模型发挥最优的性能。

表3 组件的有效性实验结果Table 3 Validity experimental results of each component

3.4.2 自适应特征融合对用户偏好的动态影响

为了证明全局协同特征对用户偏好的影响是动态变化的,除了自适应动态特征融合(AFC)方式外,本文还设置了相加和拼接两种静态融合方式(即SUM 和CAT),并设计了基于这两种融合方式的模型,在其他组件一样、参数相同的条件下进行了对比实验,结果如表4 所示. 从表中可以发现,3 种融合方式中,AFC 在两个数据集上的实验结果基本上达到了最好,其他两种方法次之,这说明用户当前偏好与全局协同特征之间的关系是动态变化的,单一地将这两者相加或拼接,并不能完整地捕获全局协同特征对用户当前偏好的影响。

表4 3种特征融合方式的实验结果对比Table 4 Comparison of experimental results among three feature fusion methods

3.4.3 动态周期学习率对模型训练的影响

为了从训练角度直观地展示动态周期学习率对模型训练的影响,本文将AFGSRec 和去除周期动态学习率的AFGSRec-wCYC 模型在不同数据集上的训练损失绘制成图,结果如图5 所示。从图5(a)可以看到,在数据较多的Gowalla 数据集上,使用了周期动态学习率的AFGSRec 模型的训练损失明显小于AFGSRec-wCYC。从图5(b)中可以看到,在数据较少的Delicious数据集上,AFGSRec在后半部分的训练损失也小于AFGSRec-wCYC,这说明周期动态学习率在处理鞍点的能力上更强,它可以有效地提升模型的训练效果。从图5 中的折线走势看,动态周期学习率还可以提升模型的收敛速度,尤其是在数据较多的Gowalla 数据集上,这种效果更为明显,这也说明了动态周期学习率可以有效缓解因数据集大导致模型训练困难的情况。

图5 AFGSRec 和AFGSRec-wCYC 在两个数据集上的损失比较Fig.5 Comparison of loss between AFGSRec and AFGSRecwCYC on two datasets

本文提出了一种基于社交网络的序列推荐算法AFGSRec,该算法在Gowalla 和Delicious 数据集上的实验结果都明显优于当前比较模型。其中,基于门控机制的序列图节点嵌入方法可以有效地过滤与当前序列无关的特征信息,更准确地捕获到交易物品间复杂的转换关系;
自适应偏好融合方法可以动态地捕获全局协同特征对用户当前偏好的影响,帮助系统更好地理解用户最终的交易偏好;
周期动态学习率可以同时提高模型的推荐准确率和收敛速度。虽然本文的研究取得了一定的成果,但本文在异质图中只融入了用户社交网络和历史交易信息,未能融入其他更多的有效信息,同时本文也未能考虑到用户序列交易中时间特征信息。未来将考虑把更多的用户属性和物品信息加入到异质图中,以捕获更多的协同信息和更准确的社交影响,也将考虑捕获序列交易中的时间信息,以进一步提升模型的推荐效果。

猜你喜欢 全局动态神经网络 国内动态卫星应用(2022年7期)2022-09-05Cahn-Hilliard-Brinkman系统的全局吸引子数学物理学报(2022年4期)2022-08-22国内动态卫星应用(2022年3期)2022-05-23量子Navier-Stokes方程弱解的全局存在性数学物理学报(2022年2期)2022-04-26国内动态卫星应用(2022年1期)2022-03-09神经网络抑制无线通信干扰探究电子制作(2019年19期)2019-11-23动态环球慈善(2019年6期)2019-09-25基于神经网络的中小学生情感分析电子制作(2019年24期)2019-02-23落子山东,意在全局金桥(2018年4期)2018-09-26基于神经网络的拉矫机控制模型建立重型机械(2016年1期)2016-03-01推荐访问:协同 全局 社交
上一篇:硅藻土改性沥青砂浆力学性能研究
下一篇:漆黄素对高糖诱导视网膜Müller细胞氧化应激炎症反应的作用

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有