基于BERT的民间文学文本预训练模型

来源：优秀文章发布时间：2023-01-25 点击：

陶慧丹，段亮，王笳辉，岳昆

(1.云南大学信息学院，云南昆明 650500；
2.云南大学云南省智能系统与计算重点实验室，云南昆明 650500)

民间文学以“讲唱”形式构成庞大的文本知识体系，融入大量神话、故事与歌谣，是特殊的社会生活方式的汇总。有效提取民间文学信息有助于学者研究民间文学文化，将民间文学文化与商业融合能推动经济发展、激发商业价值。传统民间文学资源与计算机技术有效结合才能凭借新的载体焕发新活力。因此，结合计算机技术对民间文学文本进行数据整理、挖掘和开发具有重要意义。

预训练模型能够学习文本中的隐含知识并用语言模型进行表示[1]。大量研究表明，预训练模型有利于提高下游自然语言处理(Natural Language Processing，NLP)任务的性能[2]，对知识图谱[3]等实际应用有巨大的推动作用。Devlin等提出预训练模型BERT[4](Bidirectional Encoder Representations from Transformers)在NLP任务上表现优异。然而，传统预训练模型是由通用领域文本训练而成，无法直接应用于生物医学[5-7]、金融[8]和视觉语言[9]等特定领域文本。此外，BERT的字隐蔽策略是对输入序列随机隐蔽，民间文学文本中随机隐蔽不能有效地学习到注释词语与句子的关系、建模句子的关键信息和注释句的重要特征。如何利用计算机技术有效地处理民间文学文本，还存在以下挑战：

(1)特定领域文本与通用领域文本间的巨大差异。民间文学文本语言简洁、表达细腻、内容丰富[10]，会有不断重复语句加强情感表达，而且包含大量专业名词和相关领域的常识性知识。许多词语与现代汉语词语含义相差较大，存在古今异义和一词多义等问题；
许多拟人、比喻等修辞手法，蕴含丰富的情感，加大了预训练模型学习民间文学文本深层语义的难度[11]。

(2)BERT随机隐蔽策略不适用于民间文学文本。BERT中所有字的隐蔽概率相同，忽略民间文学文本中注释脚注的重要性。民间文学人名、地名等名词较长，仅对字进行隐蔽会导致词语语义信息的缺失，难以识别词与词的边界。

因此，该文结合BERT及民间文学特定领域语料开展预训练，得到民间文学文本的预训练语言模型MythBERT，主要贡献包括以下几个方面：(1)利用民间文学文本的注释增强预训练语言模型，将注释脚注中的解释词语替换原句抽象词语，缓解民间文学文本与通用领域文本差异大、一词多义、古今异义、指代关系和隐藏关系等问题；
(2)利用民间文学文本的注释增强预训练语言模型，考虑全词隐蔽方法(Whole Word Masking)，重点关注脚注的注释词语，减小BERT隐蔽的随机性，有利于学习词语语义信息；
(3)利用情感分析、语义相似度、命名实体识别和问答四个下游任务对民间文学预训练模型微调，改善实体难以识别边界和修辞手法中复杂情感表达的问题；
(4)使用BERT模型的初始权重，减少了重新训练预训练模型带来的巨大开销，并有助于理解民间文学通用知识。在民间文学文本数据集上的实验验证了MythBERT的有效性。另外，对不同下游任务进行了测试，进一步证明了MythBERT对不同任务的性能都有显著提升。

预训练模型按照训练文本语料库可以分为通用领域文本和特定领域文本两类。

1.1 通用领域文本预训练模型

通用文本预训练模型使用大规模无标注语料库进行训练以获得文本深层双向语义表示，并通过微调直接应用于特定NLP任务中。BERT是最具有代表性的预训练模型，大部分模型在此基础上对隐蔽策略、预训练任务、生成任务等进行改进。目前通用文本的预训练模型大部分是BERT和基于BERT的变种。BERT-WWM(讯飞)[12]在预训练时使用全词隐蔽策略，以词粒度进行隐蔽；
SpanBERT[13]对随机的相邻分词使用掩码，导致预测掩码困难。RoBERTa(Facebook)[14]使用精细调参、动态掩码机制等，实验证明BERT的下一句子预测任务意义不大；
XLNet[15]使用排序语言模型学习双向上下文语境，解决预训练-微调阶段标记不一致的问题，以大量参数为代价换取效果，提升效果有限；
ALBERT[16]引入句子顺序预测，解决BERT的下一句子预测任务低效的问题。ERNIE(1.0)[17]引入三个阶段屏蔽策略知识，改善了结构化知识问题；
ERNIE(THU)[18]引入知识将实体向量与文本表示融合，但构建知识图谱需要耗费大量的资源。MT-DNN(微软)[19]利用多个任务微调共享层和任务特定层的参数，但规模巨大、超参数太多不便于调参，需要较多的时间和硬件资源。

双向语言模型使用某种网络作为特征抽取器，将两个不同方向上抽取到的文本表示简单拼接，缺点是只利用了上文或者下文单一的信息，不能同时利用上下文双向信息[20]；
隐蔽语言模型作为预训练任务，对堆叠多层的Transformer结构难度较低，导致模型无法有效率的学习，并且存在训练阶段有MASK标记和微调阶段无MASK标记文本不一致的问题，自然语言生成任务中性能较低；
排序语言模型保留自回归语言模型的优点，捕获上下文语境，解决训练阶段和微调阶段存在不一致的问题。特定领域的民间文学文本与一般文本在语言表达上存在差异，通用文本预训练模型不能学习专业领域语料库中的术语和表达，无法在特定领域的NLP任务中获得高性能。

1.2 特定领域文本预训练模型

在生物医学领域，BioBERT[5]使用生物医学领域的文章和摘要预训练，评估生物医学任务，有助于其理解复杂的生物医学文献；
ClinicalBERT[6]使用大量临床记录和出院总结文本，提高临床NLP任务的性能；
SCIBERT[7]使用大量生物医学领域论文和少量计算机科学领域的论文预训练，评估生物医学NLP任务，有助于学习专业领域名词；
在金融领域，FinBERT[8]使用金融新闻和财经文章预训练，增加预训练任务，评估NLP任务，捕捉金融领域语言知识和语义信息；
在多模态领域，VL-BERT[9]将视觉和语言作为输入，在大规模的概念标注数据集和纯文本语料库训练，评估视觉NLP任务，提高对视觉-语言线索的融合和对齐能力。因此，对特定领域语料预训练，有助于识别特定领域的专有名词、捕捉常识性知识和语义信息，提高特定领域下游任务的性能。

随机隐蔽会忽略民间文学文本中注释脚注的重要性，对字进行隐蔽导致词语语义信息的缺失。因此，该文采用改进掩码方式的方法，将民间文学注释中的注释释义词语重点隐蔽，通过注释增强语言模型的学习理解能力。传统的语言模型都是基于通用的现代语言语料库无监督训练而来，而民间文学文本中，联合注释加以理解，有助于预训练模型学习更好的语义表示。

2.1 模型结构

根据BERT输入规则，给定民间文学文本数据集序列A=x1,x2,…,xm，输入序列B=y1,y2,…,yn，增加句首和句子分隔的特殊标记得到[CLS]x1,x2,…,xm，[SEP]y1,y2,…,yn,[SEP]，[CLS]表示句首，[SEP]表示句子分隔符。面向民间文学文本的BERT预训练模型结构如图1所示，在BERT模型上改进了文本输入预处理方式，对应的Token Embeddings也变成MASK后的字向量。利用民间文学注释词语(即书籍文本中对难词、难句加以解释的脚注)进行中文分词，对词语MASK标记替换。将注释句定位到原文句子尾部，利用注释句对照原句，便于模型加深理解语义。重点关注注释词语，构造预训练任务所需要的训练数据，即[MASK]标记替换得到[CLS]x1,x2,…,xm，[SEP][MASK],[MASK],…,yn,[SEP]，[MASK]表示词隐蔽替换。将输入文本序列中每一个字对应的字向量、分段向量和位置向量相加得到输入向量，输入至多层双向Transformer网络，通过自注意力(Self-attention)机制学习文本表示，对其上下文信息进行编码，以预测输入文本中被MASK后的词语信息。

2.2 数据预处理

提取民间文学文本注释句中的实体名词便于分词。将注释句分为指代关系注释、古今异义注释和其他注释三种情况，书籍中的注释根据注释序号“①、②、…”依次定位到对应民间文学文本的原句末尾。另外，将指代关系注释和古今异义注释中实体名词替换成注释中的实际意义名词。对预处理后的注释数据添加一个N标记，有助于判断是否是注释句，对注释句中的词语进行掩码。

由于民间文学文本中的注释句不多，该文提取注释名词作为字典，对民间文学文本分词，在百度百科和新华词典数据集中搜索分词后有具体意义的实体名词释义。对一词多义的名词释义进行筛选，留下正确的注释并添加到民间文学文本对应句子末尾。

2.3 民间文学文本预训练模型

BERT的字隐蔽策略是对输入序列随机隐蔽，所有的字隐蔽概率相同。民间文学文本中随机隐蔽不能很好地学习到注释词语与注释句的关系、建模句子的关键信息和学习到注释句的重要特征。因此，MythBERT对BERT隐蔽语言模型的随机隐蔽策略进行改进，对普通词语的隐蔽策略不变，重点关注注释句中的释义词语。

2.3.1 民间文学文本预训练

该文使用官方的BERT-base(中文)预训练模型的初始权重对民间文学文本语料库预训练。将添加注释处理的民间文学文本数据，经过中文分词后作为数据输入，使用词语隐蔽语言模型，对BERT的隐蔽语言模型中的隐蔽策略进行改进，重点关注注释句中的释义词语。MythBERT相关符号及含义如表1所示。

表1 符号及含义

(1)普通词语隐蔽策略。MythBERT和BERT使用的隐蔽策略类似，对输入序列中15%的词语替换。其中，替换的词语有80%的概率替换成[MASK]标记，10%的概率替换成随机词语，10%不进行替换。该文对普通词只是将字隐蔽改为词隐蔽，BERT的随机概率并未改变。

(2)注释词语隐蔽策略。如果当前处理的句子是民间文学文本原句(即不含N标记)，则对50%的概率的注释词语替换成[MASK]标记，另外50%不进行替换。

MythBERT隐蔽策略具体步骤见算法1。

算法1：MythBERT隐蔽策略

输入：A=x1,x2,…,xm,B=y1,y2,…,yn

输出：词向量T=T0,T1,…,Tm+n+3

步骤：

1.sentence←分词(A,B)

2.FORi=1 TonDo

3.IFt>Maxmask THEN

//t控制序列最大MASK的个数

4. break

5. END IF

6. IFA∈Notes ORB∈Notes THEN

//注释句则不做MASK替换

7. break

8. END IF

9. IF sentencei=普通词语 THEN

10. 普通词语隐蔽策略

11.END IF

12.IF sentencei=注释词语 THEN

13. 注释词语隐蔽策略

14. END IF

15.t←t+1

16.END FOR

2.3.2 微调MythBERT

MythBERT与BERT的微调过程相同，对于每个下游任务，只需要将各个任务对应的输入和输出送入MythBERT结构中。使用民间文学预训练模型只需要将文中模型替换原来的中文BERT预训练模型，不需要更改配置和词汇表文件。该文在以下四个有代表性的民间文学文本挖掘任务上对MythBERT进行微调。

(1)民间文学情感分析对带有强烈情感色彩的文本分析和推理。民间文学文本中带有大量的比喻、拟人的修辞手法，生动形象地表达主人公的情感色彩。以四句民间文学文本作为一条数据，分为积极、消极或中性的情感，标签依次为1、-1和0。

(2)民间文学语义相似度根据输入的两个句子A和B，判断其语义是否相似，意图是否相同。以任意两句作为一条数据，将文本中的比喻、拟人都判断为语义相同。例如：“可惜我们相差太远”和“好像大刀和斧头”判为语义相同，标签记为1，否则记为0。

(3)民间文学命名实体识别。民间文学文本涉及到大量特定领域的专有名词，识别人、地点、组织是一件非常具有挑战的事情。采用BIO标注方法，将命名实体分为人物(PER)、地点(LOC)、组织(ORG)和未知实体(UNK)四类，未知实体包括动物、植物、工具等。以句子作为输入，文本和标签分开存在文件中。

(4)民间文学问答。从民间文学文本中给出一个问题和一段包含答案的段落，问答任务输出预测文章答案的跨度。将输入的问题和段落表示为一个单独的序列，句子A表示问题，句子B表示段落。微调时，起始向量S∈RH,结束向量E∈RH。第i个单词作为答案跨度开始的概率Pi是Ti和S之间的点积，然后经过Softmax变化得到，如公式(1)所示。

(1)

用户通过问答任务可以根据自己想要了解的民间文学知识进行提问得到解答。

该文使用BERTBase(L=12，H=768，A=12)对民间文学文本进行预训练，L表示layers层数(即Transformer块数)，H表示隐藏层，A表示自注意力机制的头数。本章将介绍民间文学预训练模型在4项NLP任务上的测试结果。为了进行公平的预训练模型比较，每个模型都使用相同的超参数，预训练时各个模型的初始学习率都设为2e-5，句子最大长度为128。微调时初始学习率为5e-5，最大长度为128。

3.1 实验设置

(1)数据集。采用云南大学文学院提供的民间文学文本数据集《云南少数民族古典史诗全集》、《傣族民间故事选》、《娥并与桑洛》和《千瓣莲花》等，共计25.3万条句子。

(2)测试任务。针对情感分析、语义相似度、命名实体识别和问答任务设置不同评价指标。先进行人工标注，再按照8∶1∶1随机划分训练集、验证集和测试集防止过拟合，具体任务数据集如表2所示。评价指标所用到的计算公式如式(2)～式(5)所示。TP表示正确分类到该类的总数，TP+TN表示正确分类的总数，TP+FP表示预测分类到该类的总数，TP+FN表示该类的总数。准确率ACC表示被预测正确的样本概率；
精确率Precision表示预测为正确的样本，有多少是真正的正样本。召回率Recall表示标记为正的样本，有多少被预测为正。F1值表示预测答案与真实答案部分一致的匹配程度。

表2 测试任务数据集条

(2)

(3)

(4)

(5)

(3)实验环境。实验基于Win10操作系统，采用的CPU为Intel酷睿i9-10850K，GPU为NVIDIA TITAN V。开发语言Python3.6，采用深度学习框架Tensorflow 1.11。

3.2 对比模型

选取中文民间文学数据集，对比BERT、BERT-WWM、RoBERTa及该文提出的MythBERT。

(1)BERT[4]：预训练阶段使用隐蔽语言模型和下一句预测任务，MLM模型对15%的token进行mask标记，80%以[MASK]标记代替，10%以随机token代替以增加噪声，10%不改变原始token。

(2)BERT-WWM[12]：如果一个完整词的部分子词被掩码，则同属完整词的其他子词也会被掩码。

(3)RoBERTa[14]：使用精细调参、动态掩码机制等，将预训练的文本复制10份，每一份随机掩码。同一文本会有10种不同的掩码方式，每个序列被掩码的词不断改变。

3.3 实验结果

将BERT、BERT-WWM、RoBERTa和MythBERT预训练模型分别在以下四个下游任务上进行了对比，所有对比模型都在原模型上对民间文学语料库预训练后得到。为了进行公平比较，对每个数据集，训练和微调时都使用相同的超参数。该文分别测试超参数epochs分别取2、5、8、10、25、50、100时对下游任务准确率、精确率和F1的影响。四个民间文学自然处理任务结果如表3所示。

表3 四个民间文学自然语言处理任务结果

(1)情感分析。

MythBERT在情感分析上取得了最好的效果。民间文学验证集准确率达到83.5%，对比BERT、BERT-WWM和RoBERTa分别提升了1.5个百分点、2.5个百分点和1.5个百分点；
测试集准确率达到89.8%，分别提升了1.8个百分点、1.0个百分点和0.5个百分点。因此，MythBERT有助于捕捉民间文学文本中的内在情感。

不同epochs的情感分析准确率如图2所示，epochs=2时，MythBERT和RoBERTa的准确率比BERT和BERT-WWM高的多。随着epochs的增加，各个模型的准确率差距缩小，BERT和BERT-WWM收敛较慢。MythBERT在各个epochs的取值时，情感分析的准确率都是最高的。

(2)语义相似度。

MythBERT在语义相似度上取得了最好的效果。民间文学验证集准确率达到82.4%，相较于BERT、BERT-WWM和RoBERTa分别提升了4.4个百分点、4.0个百分点和2.8个百分点；
测试集准确率达到96.8%，分别提升了2.0个百分点、1.6个百分点和1.2个百分点。因此，MythBERT有助于学习民间文学文本中的句间关系。

不同epochs的语义相似度准确率如图3所示，MythBERT不断增大epochs后，逐渐稳定在96.8%附近。MythBERT在各个epochs的取值时，语义相似度的准确率都是最高的，比其他模型更能学习句间关系。

(3)命名实体识别。

MythBERT在命名实体识别上取得了最好的效果，有着明显的提升。民间文学验证集F1值达到68.3%，相较于BERT、BERT-WWM和RoBERTa分别提升了1.7个百分点、1.0个百分点和1.8个百分点；
精确率达到64.7%，分别提升了2.5个百分点、0.9个百分点和2.6个百分点。测试集F1值达到66.0%，分别提升了1.0个百分点、0.8个百分点和4.0个百分点；
精确率达到61.8%，分别提升了1.8个百分点、1.1个百分点和5.4个百分点。实验结果表明词MASK策略可以更好地识别词与词的边界，有助于NER任务的提升。

不同epochs命名实体识别F1值如图4所示，MythBERT的性能在不同epochs时均优于其他模型。epochs=5时，MythBERT逐渐收敛，有着上升的趋势。而RoBERTa的性能大部分时候远低于其他三个模型。RoBERTa虽证明去掉NSP任务效果更好，但对代词多，命名实体复杂和句子关联密切的民间文学文本，NSP任务至关重要。MythBERT在预训练时额外增加随机MASK注释词语，因此，模型训练收敛，需要更多的epochs。

(4)问答。

民间文学测试集F1值达到36.6%，比BERT、BERT-WWM和RoBERTa分别提升了4.9个百分点、2.4个百分点和4.9个百分点，MythBERT与其他模型相比有着显著的提升。推测与命名实体识别任务的提高有关，答案大多来源于实体名词，且词语隐蔽策略都比BERT有着明显的提升效果。

不同epochs的问答F1值如图5所示，当epochs为2时，MythBERT性能大大领先于其他模型。随着epochs不断增大，其他模型也相继收敛，逐渐逼近MythBERT。但MythBERT在各个epochs值都仍然优于其他模型。

该文提出了一种基于注释增强的民间文学文本预训练模型MythBERT，该模型改进了BERT的隐蔽语言模型策略，对民间文本中的注释词语进行重点关注，并通过情感分析、语义相似度、命名实体识别和问答这四个下游任务对民间文学预训练模型微调。在上述四个任务上的实验验证了MythBERT的有效性，尤其是在命名实体识别和问答任务上有较大提升。提出的方法能以较低成本构建民间文学领域的预训练模型，该思路也可应用到那些具有较多注释的文本中，如文言文书籍等。该文的下游任务还集中在民间文学数据集，在数据集规模、预训练语言模型对比、下游任务对比、模型性能评价指标等各个方面还有待拓展。

猜你喜欢民间文学语义词语济慈长诗《拉米娅》中的民间文学“母题”英美文学研究论丛(2022年1期)2022-10-26容易混淆的词语国际医药卫生导报(2022年18期)2022-09-29真实场景水下语义分割方法及数据集北京航空航天大学学报(2022年8期)2022-08-31中国民间文学艺术发展现状与保护中华手工(2021年1期)2021-09-26找词语小天使·一年级语数英综合(2020年4期)2020-12-16——李福清汉学论集》">《神话与民间文学
——李福清汉学论集》民间文化论坛(2020年6期)2020-03-09“吃+NP”的语义生成机制研究长江学术(2016年4期)2016-03-11情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析人间(2015年21期)2015-03-11一枚词语一门静传奇故事(破茧成蝶)(2015年7期)2015-02-28汉语依凭介词的语义范畴长江学术(2015年1期)2015-02-27推荐访问:民间文学模型文本

上一篇：基于Contig的单面基因组片段填充问题研究
下一篇：大数据挖掘的分类算法应用——以XGBoost为例

推荐文章

推荐内容

优秀文章推荐文章

优秀文章热门文章