融合知识图谱特征学习的微博推荐的研究∗

来源:优秀文章 发布时间:2023-04-07 点击:

夏振宇 季 旺

(江苏科技大学计算机学院 镇江 212003)

社交网络的的蓬勃发展在最近几年尤为明显,作为互联网信息媒体一类重要服务,如YouTube,Twitter还有新浪微博等,它们需要响应海量用户的服务请求,还要实时响应用户的个性化服务,虽然基于协同过滤的推荐系统在一定程度上解决了推荐系统落地的问题,但是遗留的稀疏性和冷启动问题至今得不到很好的解决[1]。知识图谱由此应运而生,解决了大数据下推荐系统的复杂问题,带来了一定的技术革新。

知识图谱就是有基本的单元三元组构成的(h,r,t),意思及时实体h通过关系指向r指向实体t,其中每个实体或概念用一个全局唯一的ID 来标识,每个属性一键值对刻画了实体的内在属性,而关系用来连接两个实体刻画它们之间的关联[2]。知识图谱特征学习是比较常见与推荐系统的结合方式,知识图谱特征学习为知识图谱中每个实体和关系学习到一个低维向量,同时保持途图中原有的结构或语义信息,DKN[3]作为一种知识图谱特征学习在推荐系统中得到了很好的应用,通过历史访问以及标题单词和知识图谱之间的关联预测用户是否点击下一个新闻,来给用户更精确地推荐可能感兴趣的新闻。DKN 模型的核心是基于CNN 句子特征提取,通过知识图谱的知识提取对标题每个单词em⁃bedding,然后得到标题中每个单词的embedding,最后得到每个单词的上下文embedding,通过这3个通道信息实现对新闻模型的提取,通过KCNN[4],把实体的embedding 和实体的上下文embedding 映射到一个空间里,映射的方式可以选择线性方式将其类似于RGB 图片卷积方式使用两个filter进行卷积通过最大池化将其结果整合为新闻的特征表示向量,根据不同话题兴趣模拟用户历史点击,最后用softmax函数输出正则化影响权重[5],由于是针对文本失效性,DKN 作为一种基于内容的模型适合做一些博文点击预测,融合了知识图谱和深度学习,从语义层面和知识两个层面对新闻之间的隐含关系,对于候选文章使用attention 机制[6]动态学习历史点击的表示展现出了知识图谱在推荐系统上显著的优越性。

本文将DKN 模型应用推荐到用户微博博文上,并对DKN 的embedding 进行优化,利用优化过的DKN 模型实现微博上的个性化推荐,根据实验结果表面,优化后的DKN 模型可以很好地实现微博个性化推荐,相比传统的协同过滤的模型有很好的预测表现。

2.1 知识图谱

随着信息科学的发展,智能信息处理愈发重要,互联网平台上的数据指数级增长,伴随着信息爆炸,以谷歌为代表Google 的知识图谱[7]可以理解超过5 亿个实体以及35 亿个属性和关系。国内百度等都在自己庞大的数据基础之上构建各自的知识图谱,如百度知心以及阿里基于商品的知识图谱,发展知识图谱是大势所趋。知识图谱[8]旨在描述真实世界中存在的各种实体或概念其中,每个实体或概念用一个全局唯一的ID 来标识,每个属性一键值对刻画了实体的内在属性,而关系用来连接两个实体刻画它们之间的关联。知识图谱通常分为通用知识图谱和专业知识图谱[9],通用知识图谱主要应用于智能搜索领域如中文知识图谱,专业知识图谱描述的目标是特定行业如金融知识图谱,汽车知识图谱等与通用知识图谱相比较其描述范围有限。在本文工作中,知识图谱用一种由三元组以及三元组之间相互的链接形成的一个网状知识库来表示。主要用的是ownthink知识图谱。

2.2 基于知识图谱的推荐算法

相关研究者者将知识图谱应用于推荐领域并取得了较好的效果。Hong 较早地提出将知识图谱引人到推荐系统中[11]。Oramas 等通过DBpedia 丰富历史数据集的语义信息,从而提升推荐效果[12]。Gu 更进一步优化旅游知识图谱隐含的语义反馈信息,优化了隐式语义反馈的路径算法[13],Tang 通过融合商品知识图谱和用户评论通过基于路径的特征处理[14]对数据集进行挖掘,以捕获项目之间的复杂关系,也得到了很好的效果。

2.3 基于知识图谱的Embedding

知识图谱的嵌入(KGE)[15]旨在将实体和关系进行Embedding 表示,类似于Word2Vec,将字或词表成Embedding 信息,然后根据是系统和关系的Embedding 信息进行预测,常见的KGE 模型分为基于翻译的模型和基于路径的模型[16],传统的模型有TransE,TransH,TransD 模型,TransE 认为属于翻译模型,将三元组实例(h,r,t)中关系rleation 看作是实体head 到实体tail 翻译,通过调整h,r,t使(h+r)尽可能与t相等,TransE[17]采用最大间隔法,最小化定义一个距离函数d(h+r,t),用来衡量h+r和t之间的距离,目标函数L下:

其中d(x,y)表示向量x与y的距离,可以是曼哈顿距离也可以是欧氏距离,γ表示边界超参数,[x]+表示当x<0 时取0 的值。其中S是知识库中的是你换及训练集,S"是负采样三元组通过替换h或t所得而随机生成,这样梯度更新只需要更新计算距离d(h+r,t)和d(h"+r,t")。

不过transE 算法模型在处理自反关系以及多对一,一对多,多对多关系会使得一些不同的实体具有相同或者相似的向量,原因在于出现多个关系中的同一个实体表示是相同的,Wang 提出的TransH模型就解决了这个问题,对每一个关系定义一个超平面W和一个关系向量d,h",t"是h,t在w上的投影于是我们原先定义在transE中的d(h+r,t)为对于平面W我们可以用法向量表示,我们假设w为平面W的法向量并加约束条,所以我们知道h在w上投影为

通过相似的可以知道t"=t-tw=t-wTtw所以可以合并得到函数:

最终得到目标函数L:

除此之外还有基于语义的匹配模型[18]使用类似于基于相似度的评分函数评估三元组概率,将实体和关系映射到隐语义控件进行相似度度量,构造一个二分类模型,将h,r,t输入到网络中,这样可以通过概率来确定知识图谱是否存在。

3.1 DKN框架

推荐系统的初衷是解决互联网信息过载的问题,给用户推荐其感兴趣的问题,当然微博个性化推荐仍然存在几个待解决的问题。一个是时效性,众所周知,微博的更新速度以及时效性堪比信息直播,第二个微博博文通常是140 字的限制所以语言都是相对浓缩的信息实体,第三就是微博用户有很明显的兴趣和倾向,一个用户阅读了一个微博会属于某个微博话题或主题,所以利用用户历史微博去预测候选的微博是微博推荐系统的关键,Deep Knowledge-aware Network(DKN)模型加入文章之间的知识层面就解决了这个问题,可以更加精确推荐微博用户可能感兴趣的博文。如图1 可见,DKN有两个输入网络,一个是候选的微博博文集合,用户历史点击的话题序列。输入数据通过KCNN 来图区特征,之上一个attention 层,计算候选的微博与用户历史访问之间的attention 权重,在顶层拼接两部分向量然后依次来计算用户点击该微博的概率。

图1 DKN大致框架结构

3.2 KCNN模型

知识抽取(Knowledge Extraction,KE)[19]是从结构化(例如关系数据库、XML)和非结构化(例如文本、文档、图像)源中创建知识。产生的知识需要采用机器可读和机器可解释的格式,并且必须以便于推理的方式表示知识,知识抽取是知识图谱和推荐系统结合的重要流程,我们以某用户的一个微博为例子“#足协表态将稳妥推进归化球员工作#上观:归化球员因实力更强,短期肯定会占据本土球员的位置,长期还会对中国足球青训产生致命影响。一旦归化球员泛滥,中国足球的根基也会动摇,直接全球购买归化球员就好了,中国足球还辛辛苦苦搞青训做啥?”新政一出,已有球迷发帖:“如果中国国家队召入全部归化球员,全部首发,那我们唯一效力欧洲的留洋球员@武磊7是不是都没位置了?”#国际足联通过归化球员新政#”,去除一些不规则的表情和符号通过Entity-Linking 技术消除歧义,根据已有的知识提取流程将博文中涉及的实体链接在一个step之内所形成的子图,然后利用基于距离的翻译模型TransE,或者TransR 等得到子图中每个实体的embedding,最后得到话题中每个单词对应的实体embedding,过程如图2所示。

图2 知识提取流程

由于知识图谱通过特征学习的方法得到向量保存了大部分结构信息,不过还是会存在信息丢失,于是DKN 模型通过每个实体相连的实体em⁃bedding 平均值来进一步刻画每个实体;
我们假设实体e在知识图谱的邻居集合可得:

图3 KCNN模型架构

其中函数g表示线性变换或非线性变换,这样我们就可以得到微博博文的输入W:

使用两个不同的filter[20]方式卷积得到类似关于h激活的子矩阵,通过最大池化,最后整合得到输出的特征表示向量如下:

3.3 改进的用户兴趣预测模型

传统的DKN 模型通过深度学习的注意力机制,由于不同的新闻话题兴趣可能是不同的注意力机制通过模拟用户点击微博对候选话题微博的不同影响程度,采用如下公式来计算:

候选微博tj,用户i的历史点击新闻两者进行连接,在使用DNN 函数H进行计算最后采用函数输出正则化影响权重,我们利用TransE的变种方法TransM 在知识嵌入时还可以表示实体之间关系变得权重大小,并且传统的Attention 机制,给定的embedding,直接给定item embeding 可以用来做点积或者通过权重矩阵,优化后的Attention机制如图4所示,将输入element wise[21]差值向量合并起来作为输入,然后传给全连接层,最后得出权重,嵌入和池化村按组操作的方式,将元素稀疏特征映射到定长表示向量,然后将所有向量连接在一起获得整体表示向量,这样我们会发现损失的信息更少,深度兴趣网络(DIN)获得用户的定长表示向量,通过将所有嵌入向量集中到用户行为特征组上来产生兴趣,如式(11)。此表示向量保持不论候选微博是什么,对于给定用户而言都是相同的。这样有限维度的用户表示向量,表达用户的不同兴趣将成为瓶颈。为了使其足够强大,一种简单的方法就是扩大嵌入向量,不幸的是会增加大量学习参数。在有限的情况下会导致过度拟合训练数据并增加计算和存储的负担。与传统模型相比,DIN[22]引入了一种新颖设计的局部激活单元,并保持其他结构不变。特别,活单元应用于用户行为功能作为加权总和池执行以自适应地方式计算用户行为功能,放弃输出使用softmax进行归一化,对数似然函数定义为

图4 优化后的兴趣注意力机制

其中S是大小为N的训练集,其中x是网络y∊{0,1}为标签,p(x)是网络输出在softmax 层之后,代表预测的概率单击样本x。由于特征对应的embedding矩阵是巨大的,模型参数过多,直接上传统的L2 正则也不现实,于是提出新的正则化方式,其中K 表示特征空间维度,B 表示batch-size,从而决定是否对特征id 对应的embedding 向量加上正则化。

1)实验环境和实验数据集

本文实验环境如下:

操作系统:Windows 10 64位操作系统。

CPU:Intel Core i5-8265U 1.80GHz。

内存容量:8GB。

对比两组人员糖化血红蛋白检测(HbAlc)、空腹血糖水平(FPG)以及口服葡萄糖50 g筛选测试糖耐受量水平(GCT);
同时对比不同检测方式在妊娠期糖尿病中的诊断情况[3]。

IDE:Pycharm及Python3.7。

本文所使用的数据集是来自新浪微博API 公开数据集和ownthink公开的知识图谱。

2)评价指标

对构建的模型进行评估非常关键,AUC常常用的点击率模型上面,代表模型预估样本之间的排序关系,正负样本之间预测gap 越大,auc 越大。但是AUC计算如果在线上出现新样本,线下没有见过会造成AUC 不足,阿里曾提出改进AUC 评价指标,提出新的AUC 指标,新的AUC 计算公式如下:

3)实验参数设置

表1 实验参数设置

4)结果分析

本文采用DKN 模型+改进后的用户兴趣预测注意力机制。最后对本文构建的评价模型进行实验,通过与其他融合特征学习的推荐模型对比,得到以下试验结果。

从实验结果可以看出,本文采用的DKN 模型明显优于传统的基于协同过滤的与推荐系统模型,并且在改进注意力机制下的整体算法综合指标相较于传统的DKN 模型有着大幅度提升。基于DKN模型+TransM 训练的改进方法对总体预测效果最好,分类的准确性也相对更高。无论是哪种知识图谱embedding 方式,在使用改进的用户兴趣预测模型都有着良好的效果,可见DKN+DIN+TransM是比较好的推荐模型。

表2 不同模型的测试结果对比

本文针对传统DKN 模型,并在传统DKN 模型的attention 机制进行改良,对算法模型的评价指标进行了优化和更新,可以更好地体现推荐算法的综合性能,本文主要分析的DKN 模型主要用于点击率类的推荐模型,在深度学习作用下,可以通过有效的概率来推断出用户点击的概率主要应用于新闻,微博,广告头条等个性化推荐,解决了信息爆炸下微博如何准确进行个性化推荐的问题,针对用户兴趣实现对用户的兴趣的建模做出相应的推荐,进一步提高DKN 在推荐系统下的使用,使知识图谱与深度学习相结合的推荐系统越来越收到欢迎和普及。

猜你喜欢图谱实体向量向量的分解新高考·高一数学(2022年3期)2022-04-28聚焦“向量与三角”创新题中学生数理化(高中版.高考数学)(2021年1期)2021-03-19绘一张成长图谱少先队活动(2020年12期)2021-01-14前海自贸区:金融服务实体中国外汇(2019年18期)2019-11-25实体的可感部分与实体——兼论亚里士多德分析实体的两种模式哲学评论(2017年1期)2017-07-31补肾强身片UPLC指纹图谱中成药(2017年3期)2017-05-17两会进行时:紧扣实体经济“钉钉子”领导决策信息(2017年9期)2017-05-04振兴实体经济地方如何“钉钉子”领导决策信息(2017年9期)2017-05-04主动对接你思维的知识图谱领导科学论坛(2016年9期)2016-06-05向量垂直在解析几何中的应用高中生学习·高三版(2016年9期)2016-05-14推荐访问:图谱 融合 特征
上一篇:基于DNA,甲基化数据的扰动算法评估网络构建稳定性∗
下一篇:推进能源安全与转型,加强全球治理与合作

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有