基于领域特征提纯的多领域文本分类

来源:优秀文章 发布时间:2022-12-07 点击:

马式琨,滕 冲,李 霏,姬东鸿

(武汉大学 国家网络安全学院 空天信息安全与可信计算教育部重点实验室,湖北 武汉 430072)

文本分类是自然语言处理领域最基础的任务之一,被广泛应用于社交媒体中的情感分析[1]、对话机器人中的意图识别[2]、信息检索中的新闻分类[3]等众多任务。针对文本分类任务,基于深度学习的方法已经展示出了惊人的效果,然而这些方法需要大量的标注数据来训练模型,非常消耗人力资源。为了缓解该任务对大量数据的依赖,多领域的文本分类方法应运而生。

由于不同领域的数据特点并不一致,普通的文本分类方法只能够单独地在某一领域的数据上进行训练,训练好的模型不容易迁移到其他领域。如“刺激”这个词对于电影评论领域来说是一个积极的评价,而对于心理治疗领域来说则往往伴随着负面含义。然而,不同领域的数据即使存在差异,它们之间依然拥有大量的通用特征,如何利用这种通用特征来提升模型在不同领域数据上的效果是一个值得研究的问题。

现有的解决这类问题的方法主要分为两种,分别是领域迁移[4-5]和多领域文本分类[6]。领域迁移方法假设某些领域拥有丰富的训练数据,并把这些领域定义为源领域,通过利用从源领域学到的知识来帮助拥有少量资源的目标领域提升分类效果。而不同于领域迁移方法,多领域文本分类的做法是,利用所有领域的标注资源来同时提升系统在所有领域上的效果。

对于多领域文本分类,Wu等人[7]为每一个领域训练一个私有特征抽取器以学到领域私有信息(私有特征),并让所有领域数据共享一个特征抽取器来捕捉领域间的共享信息(共享特征),并将它们组合起来以提升多领域文本分类的效果。然而这种机制很难保证共享分类器和私有分类器能够学到高质量的共享特征和私有特征,尤其是共享特征抽取器可能只学到一部分领域的共享特征。为了解决这类问题,Chen等人[8]提出了一种多项式对抗网络(Multinomial Adversarial Networks,MAN),通过减少不同领域之间的特征分布差异,获取跨领域的共享特征。

然而,MAN无法彻底地区分开共享特征和领域私有特征。为此,受到Qin等人[9]的启发,我们在MAN的基础上使用正交投影的方式,通过让共有特征向量和私有特征向量正交,从而让两种特征区别开来。如图1所示,通过正交投影,从原始的共享特征中可以剥离出正交共享特征和正交领域特征,其中正交共享特征与原始的私有特征正交,而正交领域特征与原始的私有特征平行。然而正交领域特征可能与原始的私有特征有着相反的方向。

图1 基于正交投影的特征提纯以及正交领域特征对原始的私有特征的积极影响(左)与消极影响(右)

为了利用正交领域特征,我们提出了一种基于门控机制的特征融合模块,从而减少正交领域特征对私有特征的消极影响,提高特征利用效果。基于以上方法,本文提出了一种基于正交投影的多领域文本分类模型(Orthogonal Projection Network,OPN),该模型包含特征抽取层、特征融合层、预测层三个部分。特征抽取层包含共享特征抽取器和私有特征抽取器,使用卷积神经网络(Convolution Neural Networks,CNN)抽取共享和私有两种上下文特征;
特征融合层使用正交投影层获得正交共享特征与正交领域特征,再通过基于门控机制的融合模块将正交共享特征、正交领域特征以及私有特征融合在一起;
预测层包含领域分类器和文本分类器,领域分类器通过正交领域特征对样本的领域进行分类,文本分类器则通过融合后的特征表示进行文本的情感分类。

本文的创新点和贡献主要有三个方面:

(1) 提出了一种基于正交投影的多领域文本分类模型(OPN)。该模型通过正交投影来分离得到正交的共享特征和领域特征,提升模型在多领域文本分类任务上的效果;

(2)提出了一种基于门控机制的特征融合模块,能够有效融合领域特征、正交领域特征和正交共享特征;

(3) 该模型在多领域文本分类数据集Amazon和FDU-MTL上,相较于多个基线模型,显著提升了文本分类准确率。

1.1 文本分类

文本分类是自然语言处理中的一项基础任务,循环神经网络(Recurrent Neural Networks,RNN)通常在文本数据上拥有良好的特征抽取能力。Tang等人[10]使用双向长短时记忆网络(Long Short-Term Memory Neural Networks,LSTM)来建模上下文表示,并将目标词语的表示融合进去以实现对目标词语的情感分类。Wang等人[11]则将RNN与残差网络进行结合来提升模型在文本分类上的效果。

不同于循环神经网络对序列数据建模,卷积神经网络可以通过不同尺寸的卷积核捕捉N-gram特征。Kim[12]提出了TextCNN模型,使用具有不同大小卷积核的CNN对文本特征进行抽取,然后使用池化层将特征聚合后再进行分类。由于CNN无法捕捉长距离依赖特征,Johnson等人[13]提出一种金字塔CNN模型,通过一个深层的CNN网络来捕捉文本中的全局特征。

注意力机制也被广泛应用于文本分类任务中。Yang等人[14]提出了一种层次注意力结构模型,用于文档级的文本分类。Lin等人[15]提出了一种基于自注意力机制的模型以抽取句子表示,并具有一定的可解释性。Ma等人[16]则证明了注意力机制在情感分析任务中的作用。

1.2 多领域文本分类

多领域文本分类首先由Li等人[6]提出,他们使用多个领域的训练数据,分别在特征级别和分类器级别上进行融合,从而实现情感分类。Wu等人[7]使用一个共享分类器来学习所有领域数据的共享特征,并为每一个领域的数据构建一个私有的分类器以学习领域私有特征。Liu等人[17]认为共享特征容易被领域私有特征和其他领域的噪声干扰,因此提出了一种基于对抗训练的多任务学习框架来保证两种特征互不干扰。Liu等人[18]提出了一种基于图神经网络的多任务学习框架,使得不同的任务之间可以进行交互,在多领域文本分类上卓有成效。Chen等人[7]提出一种多项式对抗网络,通过最小化多个分布间的F散度,保证模型在不同领域数据上抽取共享特征时的一致性,从而实现模型对领域共享特征的抽取,使其对不同领域更具普遍性。然而,这种方式依旧不能最大限度地分离两种特征。因此,模型采用正交投影的方式进一步让两种特征表示正交,然后将其进行重组,从而提升模型的多领域文本分类的效果。

本文提出了基于特征提纯的多领域文本分类模型,图2展示了模型的整体架构。模型自底向上共分为三个部分:
特征抽取层、特征融合层、预测层。本节将介绍各个模块的结构设置以及训练的细节。

图2 模型架构

2.1 特征抽取层

图3展示了共享特征抽取器和私有特征抽取器的详细结构。给定一个句子X,由N个词{x1,x2, …,xN}组成,其中xi表示句子中的第i个词。在输入模型之前,先使用词向量矩阵将所有单词转变为对应的词向量{x1,x2,…,xN}。然后使用CNN来抽取共享上下文特征表示si,如式(1)所示。

si=σ(Wsxi:i +k -1+bs)

(1)

其中,σ为ReLU激活函数,Ws与bs为相关的权重矩阵与偏置向量,k为卷积核的尺寸。

图3 共享/私有特征抽取器

经过卷积之后,可以得到对应的特征序列{s1,s2,…,sN -k +1},然后使用最大池化来对特征序列进行降维,得到最终的共享特征表示s,如式(2)所示。

s=Maxpool({s1,s2,…,sN -k +1})

(2)

同样地,使用另一个CNN模块和最大池化操作来得到私有特征表示p,如式(3)、式(4)所示。

其中,Wp与bp为相关的权重矩阵与偏置向量。

2.2 特征融合层

由于共享特征表示s并不能完全分离领域特征,如图4所示,蕴含的领域特征并不一定会对当前样本的分类产生积极影响,因此我们认为对共享特征s进行提纯并与领域私有特征p重新融合,对模型分类有着积极影响。基于以上目的,本文使用正交投影的方式对共享特征表示s中的领域特征进行分类。

图4 正交投影模块(以二维空间为例)

正交投影模块的细节如图4所示,首先获得s在p上的投影,即正交领域特征s*,然后得到s在p正交方向上的投影s′,即正交共享特征,如式(5)、式(6)所示。

其中Projection函数的公式为:

(7)

由此,原来领域特征s被分离成两种正交的特征表示,即正交领域特征s*和正交共享特征s′。

图5 特征融合模块

因为正交领域特征s*可能会对领域特征p有消极影响,我们设计了一种基于门控机制的特征融合模块进行特征的融合重组,其结构如图5所示。门控机制可自动地控制正交领域特征s*的信息流入,起到了一定的信息过滤效果,从而能够保证特征融合的效果。门控机制的公式如式(8)、式(9)所示。

其中,Wg,bg分别为可训练的参数矩阵与偏置向量,“⊙”为元素级别的点积操作,“[;]”为拼接操作。最终将h′与s′进行拼接,得到最终的分类表示h=[h′ ;s′]。

2.3 预测层

预测层包括领域分类器和文本分类器。领域分类器主要对样本所属的领域进行分类,通过带有Softmax的线性层即可得到最终的领域概率,如式(10)所示。

(10)

其中,Wd,bd为可学习的矩阵与偏置向量。

文本分类器同样为带有Softmax的线性层,对于领域d有:

(11)

2.4 模型训练

对于文本分类与领域分类,使用最小化交叉熵损失函数来训练模型。对于文本分类,其损失函数为:

(12)

其中,C为类别数量。

对于领域分类,其损失函数为:

(13)

其中,M为领域数量。

对于有标注的数据,其总的损失为两种损失之和,而对于无标签的数据,其损失为领域分类的损失函数。因此,模型可以利用无标签的数据来优化模型。最终的损失函数为:

L=Lp+γLs

(14)

其中,γ为超参数,用来平衡文本分类和领域分类的损失。

3.1 实验数据

为了验证本文所提出的模型,本文采用两种多领域的情感分析数据集,分别为Amazon评论数据集[4]和FDU-MTL数据集[17]。

Amazon评论数据集广泛应用于多领域的情感分类任务。由于该数据集中的样本已经被预处理成了多种特征,失去了文本的序列信息,因此CNN和RNN等模型不适合用于特征抽取。为了公平比较,本文采用与Chen等人[8]相同的设置,将特征抽取层的CNN替换为多层感知机(Multi-layer Perceptron,MLP),并将每个样本表示为5 000维的特征向量。该数据集共包含四种领域:
Book、DVD、Electronics和Kitchen。其中每个领域分别有2 000条样本,每条样本被标注为积极或消极两种情感标签,其具体情况如表1所示。

表1 Amazon数据统计

FDU-MTL数据集同样来自于Amazon评论,不同于之前的Amazon评论数据集,该数据集包含了原始的评论文本信息,并涵盖了16种不同的领域数据:
Books,Electronics,DVD,Kitchen,Apparel,Camera,Health,Music,Toys,Video,Baby,Magazine,Software,Sports,以及来自IMDB和MR的电影评论。每个领域的训练集含有大约1 400条样本,验证集含有200条样本,测试集含有400条样本,其中的样本被标注为积极或消极两种情感。另外,每个领域还包含了大概2 000条未标注数据,其具体情况如表2所示。

表2 FDU-MTL数据统计

3.2 参数设置

我们在开发集上进行超参数调节,具体的超参数调节范围和最优值如下:
本文使用Adam优化器优化模型参数,batch大小为16(从8、16、32、64中选择),学习率设置为1e-4(从1e-3、5e-4、1e-4、5e-5中选择)。为了避免过拟合,dropout的概率设置为0.5(从0.1、0.2、0.3、0.4、0.5、0.6中选择)。γ参数设置为0.1(后文有对不同γ值做的消融实验)。对于FDU-MTL数据集,本文采用200维的GloVe词向量[19]来初始化模型中词嵌入的参数。此外,我们还补充使用预训练模型BERT[20]作为特征抽取器,此时BERT的学习率设为1e-5(从5e-5、1e-5、5e-6中选择)。根据MAN[7]的实验设置,将CNN的卷积核尺寸分别设为3,4和5,每个尺寸的卷积核数量为200。

3.3 基线模型

●RMTL[21]是一种基于最小化正则函数的多任务学习方法,可以通过一种特殊的核函数来建模多个任务之间的关系。

●MTLGraph[22]是一种基于图正则化的多任务学习框架。

●CMSC-LS,CMSC-SVM,CMSC-LR[7]由领域特有的分类器和领域共享分类器组成,分别通过最小化均方损失、合页损失和对数损失进行优化。

●MT-CNN[23]是一种基于卷积神经网络的模型,除查找表由多个领域共享外,其他模块为领域独有模块。

●ASP-MTL[17]以LSTM作为编码层,使用对抗训练和正交约束的方式帮助共享特征与领域特征互不影响。

●IC-MTL[18]为每个领域使用LSTM作为编码器,然后通过一种消息传播机制使得多个任务之间可以进行消息传递。

●MAN[7]是多项式对抗网络,通过降低多个领域间的特征分布的差异来学习共享特征。

●BERTMasker[24]是一种基于BERT的多领域分类模型,该模型通过遮蔽与领域相关的词实现领域无关句子表示的抽取。

4.1 主要实验结果

表3展示了基线模型与OPN在Amazon评论数据集四个领域上的实验结果及它们的平均准确率。从表3可以看出,在单任务学习模型上,基于神经网络的方法MLP比传统的机器学习方法效果更好,其中MLP比传统机器学习方法如LR在平均准确率上高了1.0%。其次,多任务学习模型在该数据集上的效果均好于单任务学习模型,这说明多任务学习模型学习到的不同领域的共享特征有助于不同任务的分类。另外,本文所提出的模型OPN在Book、DVD、Electronics和Kitchen四个领域数据集上的准确率达到了83.0%、84.3%、87.8%和88.9%,相比当前最好模型MAN分别提升了0.1%、0.3%、0.8%和0.4%,平均准确率提升了0.4%,这说明本文提出的基于正交投影的特征融合方法能够更有效地区分领域特征与共享特征,重新融合后的特征更有利于模型分类。

表3 Amazon评论数据集实验准确率结果 (单位:
%)

续表

表4展示了基线模型与OPN在FDU-MTL数据集16个领域数据的实验结果及它们的平均准确率。从表4可以看出,在单任务学习模型中,CNN的平均准确率相较于BiLSTM高出了1.7%,其原因可能是大部分文本相对比较简单,其情感的表达只依赖于特定的词组,而不需要上下文特征,因此CNN模型能够得到更好的发挥。其次,与Amazon评论数据集上的实验结果一致,多任务学习模型效果要好于单任务学习模型。其中MT-CNN仅共享了词嵌入部分,因此该模型的效果不如其他模型。ASP-MTL使用不同模块来分别提取共享特征和领域私有特征,并且采用了对抗训练和正交约束来区分共享特征和领域特征,所以能达到更好的效果,平均准确率达到了86.1%。而IC-MTL则通过实现不同任务之间的通信来提升多任务的效果。MAN是之前的最优模型,平均准确率达到了88.4%,然而本文提出的OPN的平均准确率达到89.2%,比MAN提升了0.8%,证明了本文方法的有效性。另外,我们与最新的基于BERT的基线模型BERTMasker进行了对比,OPN+BERT的平均准确率提升了0.4%,进一步证明了本文方法的有效性和适用性。

表4 FDU-MTL数据集实验准确率结果 (单位:
%)

续表

4.2 消融实验

本文在FDU-MTL数据集中的Books,Electronics,DVD和Kitchen四个领域数据进行了消融实验来验证所提模块的有效性,具体结果如表5所示。

表5 消融实验结果 (单位:
%)

从表5可以看出,在去除门控机制后,仅使用拼接的方式合并特征,模型在四个领域上的准确率分别产生了0.5%,0.6%,0.4%和0.2%的下降,充分说明基于门控机制的特征融合可以有效过滤低效特征带来的影响。在去除正交投影后,模型在四个领域上的准确率也有了一定幅度的下降,证明了正交投影能够进一步分离特征,为模型带来积极的效果。其次,通过除去特征融合层,即同时去除门控机制和正交投影,模型效果大幅下降,在四个领域上的准确率分别下降了1.0%,1.1%,1.4%和1.0%,证明了特征融合层的重要性。除此以外,在去除正交领域特征后,模型的效果相比只去除门控机制反而提升了0.4%,0.2%, 0.1%和0.1%,说明门控机制对于正交领域特征与私有特征的融合至关重要,门控机制能够有效降低消极的正交领域特征对私有特征带来的影响。另外,去除正交共享特征后,模型的准确率下降程度最大,其在四个领域数据上分别下降了1.7%,1.1%,1.7%和1.3%,说明共享特征对于多领域的文本分类来说是一种非常关键的特征。

图6 不同γ数值对模型性能的影响

图6展示了γ从0到0.5不断变化时模型的平均准确。可以看到,在γ为0时,模型只有文本分类而没有领域分类,此时模型效果严重下降。模型在γ为0.1时达到最好效果,随后γ越大,模型效果越差。

4.3 数据量对模型性能的影响

为了进一步验证数据量对模型的影响,本文使用20%、40%、60%、80%和100%的FDU-MTL数据对OPN以及去除特征融合层的OPN-特征融合层进行训练,并在FDU-MTL测试集上进行验证。其结果如图7所示。

图7 OPN及OPN-特征融合层在FDU-MTL不同比例数据量上的平均准确率

从图7可以看出,随着数据量的增大,模型的效果也随之提升,然而去除特征融合层后的OPN的效果始终低于原始的OPN模型,这进一步验证了特征融合层对模型的重要性。值得注意的是,随着数据量的提升,OPN与去除特征融合层后的OPN模型之间的差距逐渐缩小。换句话说,去除特征融合层带来的负面影响在小规模数据集上更显著。

本文提出了一种基于多任务学习的多领域文本分类模型。该模型为每一个领域分配一个单独的特征抽取器用于抽取私有特征,同时所有领域数据共享一个用于抽取共享特征的特征抽取器。为了融合两种特征,本文使用正交投影的方式分离共享特征,再通过基于门控机制的特征融合模块与私有特征进行融合,进一步对特征进行了提纯。与现有模型相比,本文提出的模型在Amazon评论数据集和FDU-MTL数据集上的平均准确率得到了显著提升,达到了最优。另外,通过消融实验,本文证明了提出的每个模块对模型性能提升,都是有益的。最后,本文还验证了数据量对模型性能的影响,发现特征融合层在小规模数据集上效果提升更显著。

在今后的工作中,主要从以下三个方面来进一步优化模型:
①增加多个任务间的信息交互,构建更合理的多任务学习模型;

②增加注意力模块,使共享特征与私有特征抽取器分别注意不同的上下文。

猜你喜欢 分类器准确率分类 少样本条件下基于K-最近邻及多分类器协同的样本扩增分类现代电子技术(2022年15期)2022-07-28学贯中西(6):阐述ML分类器的工作流程电子产品世界(2022年4期)2022-04-21乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析健康之家(2021年19期)2021-05-23多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析健康之家(2021年19期)2021-05-23不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨医学食疗与健康(2021年27期)2021-05-13基于朴素Bayes组合的简易集成分类器①计算机系统应用(2021年2期)2021-02-23颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察健康体检与管理(2021年10期)2021-01-03按需分类小天使·一年级语数英综合(2017年11期)2017-12-05教你一招:数的分类初中生世界·七年级(2017年9期)2017-10-13说说分类那些事少儿科学周刊·儿童版(2017年3期)2017-06-29推荐访问:领域 提纯 特征
上一篇:基于POI的街道类型精细化识别和分布特征研究——以福州主城区为例
下一篇:古典学术何以成为阐释学的资源——以儒学阐释意识和阐释行为为中心*

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有