油气领域科技信息查重技术研究与应用∗

来源：优秀文章发布时间：2023-04-07 点击：

陈泽段友祥

（中国石油大学（华东）计算机科学与技术学院青岛 266580）

随着国家国力的提升和科技力量的稳步增强，科技立项数目迅猛增加，但是随之而来的重复立项问题也日趋严重［1］。重复立项严重浪费国家或相关领域科研资源。为促进科学立项，迫切需要进行重复立项查重。目前已有的科技信息查重检测手段［2~6］，无法有效研究和分析管道科技项目信息相似的特性指标和要素，需要探索契合管道科技领域特性的查重方法，建立基于计算机应用技术的科技信息查重检测系统。现有查重方法如向量空间模型（VSM）［7］或SimHash［8~9］，由于词汇间的相互独立，仅视为基于字符的相似度评价方法，而基于知网［10］、同义词词林［11］或词向量［12］方法可涉及到词汇语义层面。

为更好适应面向领域的科技信息管理中的相似度计算问题，本文提出了下面的技术研究路线。1）构建领域同义词词林。鉴于领域科技文本的专业性，专业词汇词组的相似度衡量是首要解决的难题。特别是在领域限制的情况下，有限的专业词组数目以及专业词组的稳固性，使得创建成为可能。2）利用知网与同义词词林结合［13~14］进行非领域词汇粒度语义相似度计算。3）探索基于句法依存信息的词汇相似度融合方法。分析获取句子依存结构信息，并利用依存路径刻画句子语义，基于路径结构进行词汇相似度融合，弥补文本相似度计算中未能考虑结构信息的不足。

2.1 依存句法结构

在依存句法理论［15］中，“依存”指词与词之间支配与被支配的关系，这种关系不是对等的，而是有方向的，处于支配地位的成分称为支配者，而处于被支配地位的成分称为从属者。依存句法结构建立起由支配词和从属词通过依存信息联结而成的从属关系。句子依存信息是多组形如“支配者-关系类型-从属者”的三元组。根据依存信息可生成依存关系图G=(N,E)，其中顶点集合为N，边集合是E。满足：∀e∊E,∃ni,nj∊N(i≠j)，使得e=(ni,nj)。

本文使用哈工大LTP分析模块进行句子分词、词性标注、句法分析等操作，获得句子的依存结构信息。

2.2 同义词词林

《同义词词林》是梅家驹等［16］于1983 年编纂而成。同义词词林是以树状形式将所有词语编织在一起，将所有词语分为大类、中类和小类。为了更细化各个词语之间的语义关系，将小类又细分为词群和原子词群。于是，同义词词林可表示为5 层树状结构，结构如图1所示。

图1 同义词词林5层树状结构

2.3 知网（HowNet）

知网是1988 年由董振东先生［18~19］建设的一个汉语常识库［20］。参考文献［10］在仅考虑义原上下位关系的前提下，把两个义原节点路径长度作为义原相似度判定的标准，并经过简单关系变换，具体计算如式（1）：

其中，pi和pj表示两个义原，dis(pi,pj)是pi和pj在义原层次体系中的路径长度。α是一个可调节的参数，本文设置为1。

而义项是由义原通过四类描述构成，所以两个义项si,sj的相似度由四描述的相似度sim1,sim2,sim3,sim4按式（2）计算：

其中：βi(1 ≤i≤4 )为各部分权重，且有β1+β2+β3+β4=1,β1>β2>β3>β4，本文设置为β1=0.6,β2=0.2,β3=0.1,β4=0.1。

sim1(si,sj)是语义表达式中第一义原相似度；

sim2(si,sj)是义原集合间相似度，通过基于二分图最大权匹配算法求得加和均值；

sim3(si,sj)是对多对“属性-值”集合的相似度。一般在属性一致的前提下才能进行属性值相似度判定。

sim4(si,sj) 多对“属性-值”的特征集合，特征的属性是一个关系义原，特征的值是一个集合，该集合的元素是一个基本义原，或一个具体词。

对于两个非领域词汇wi,wj计算相似度，假设wi,wj所具有的义项数目分别为n,m，最终wi,wj的相似度是各个义项的相似度之最大值，计算如式（3）：

3.1 构建领域同义词林

领域词林构建的核心思想与通用词林［16］的构建一样。面向《中华人民共和国石油天然气行业标准_Y5510_92 油田化学常用术语》、《油气田及管道腐蚀与防护工程基本词汇》等直接抽取本领域常用的一级专业词汇词组，将一级专业词汇词组导入文本，利用词语共现关系进行二级词汇摘取。通过筛选与判断，共摘取859 个领域词汇词组，作为构建领域同义词林的重要来源。对以上摘取的八百余项词汇词组进行分类，共分三大类一百一十多小类（长期维护变化，细分小类增加，深度加深）。大类分为实体类、操作类、特性类，每个大类节点下，小类数目各异，做到领域词汇词组分类的正确与细化。

3.2 词汇语义相似度计算

假设要计算比较的词对是w§,wj，它们的语义相似度记作sim(wi,wj)。

1）若w§,wj均属于领域专业词汇。需依据领域词林树进行相似度计算。按文献［17］提出的方法计算词汇语义相似度，首先计算w§,wj路径长度d以及最近公共父节点深度h。然后基于d,h，按式（4）计算词汇语义相似度。

规定若d=0 ，则sim(wi,wj)=1 ；
若h=1,sim(wi,wj)=0。

2）若w§,wj一个属于领域专业词汇，另一个不属于，则sim(wi,wj)=0；

3）若w§,wj均不属于领域专业词汇，依据文献［13］所提出的融合规则进行相似度计算。具体如下。

若w§,wj均属于知网、词林共有，则基于词林计算相似度，即按式（4）计算得到s1，基于知网义原计算相似度，即按式（3）计算算得到s2，取sim(wi,wj)=0.5s1+0.5s2；

若w§,wj均属于知网不属于词林，则基于知网义原计算相似度，即按式（3）计算得到sim(wi,wj)，或w§,wj均属于词林不属于知网，则基于词林计算相似度，即按式（4）计算得到sim(wi,wj)；

若w§属词林而wj属知网，在词林中寻找wi同义词集合{wi1,wi2,…,wik} ，依次与wj基于知网义原按式（4）计算相似度sim(wil,wj) ，取

3.3 依存路径的相似度计算

依存图中有且仅有一个节点与ROOT 直接相连，它是整个句子的核心动词。依存路径P定义为从句子核心动词开始，到所有叶子节点之间所经过的一系列节点n∊N与边e∊E组成的集合。路径相似度对比，需考虑两个方面：词汇相似度与依存关系权重。

词汇相似度计算采用3.2节提出的方法。句子结构复杂，依存关系权重采用文献［21］中的研究结果对依存关系进行赋权值。依存关系权重值如表1。

表1 依存关系权重值表

定义路径pi,pj的相似度SIM(pi,pj)计算公式如式（5）：

3.4 文本粒度的相似度计算

文本di的依存路径集合，文本dj的依存路径集合。利用3.3节依存路径相似度计算方法，计算可得两份文本依存路径集合相似度结果矩阵Mn×m。

定义文本di、dj相似度计算公式如式（6）：

4.1 词汇语义相似度分析实验

1）数据集

目前评测词语相似度算法优劣标准普遍采用MC30词对集［22］。该词对集让多位受试者面向多组词对进行人工评测，取评测均值作为最终相似度结果。MC30 词对集由10 组高相似性、10 组中相似性、10 组低相似性总计30 组词对构成。本文随机抽取词对集中10 组词对，并加入10 组领域专业词对进行多种方法的词汇相似度对比实验。

2）对比实验结果

分别采用基于知网、词林、本文方法对1）得到的20组词进行相似度计算实验，实验结果如表2。

表2 词汇语义相似度计算实验结果

本文方法、知网、词林实验结果与人工评测结果的皮尔逊系数如表3。

表3 多方法皮尔逊系数

4.2 文本语义相似度实验

1）数据集

文本实验数据集分为通用文本数据集与油气领域科技项目书，其中通用文本数据集为西安科技大学中文语义相似度测试集［23］。通用文本数据集采用文本对排列方式，共计12747 对。每对文本均已人工标注相似度，相似度值范围［0~5］，0 代表语义不相干，5 代表语义完全一致。本文随机选取100 份油气领域科技项目书作为实验数据，进行基于本文方法的科技信息文本粒度相似度计算实验。本文将在以上两类文本集进行多方法实验对比，验证本文方法的可行性，基于正确率作为评价指标，进行最终实验效果比较。

2）对比实验

本文引入正确率作为文本粒度相似度测评标准，具体如式（7）：

其中sim(di,dj)是文本di与文本dj之间相似度，结果范围在0~1 之间，放大5 倍与［0~5］的相似度标签进行对比。由于相似度标签为离散数值，规定计算结果与标签之间差值的绝对值不超过1 则视为结果可信。统计所有可信结果的数目，与通用文本数据集总记录数N（12747）的比值，即为最终正确率。在1）得到数据集上，进行了多组相似度计算比较实验，实验结果如表4。

表4 文本语义相似度实验结果

4.3 实验结果分析

从词汇语义相似度实验结果表2、表3可看出，本文方法的词汇语义计算效果最好，在加入领域词林后，能很大程度上解决专业词组相似度计算正确率低的问题。本文方法的皮尔逊系数最高，可达0.89，达到实用水平。而基于知网或词林的语义相似度计算方法虽能在通用领域词汇语义计算上取得不错效果，却在专业词组语义相似度计算上存在巨大不足。

从文本粒度语义相似度计算实验结果表4 可知，本文提出的依存路径词语相似度融合方法在通用文本数据集上具有较高准确率。对比传统文本相似度计算方法，特别是在领域限定情况下，本文方法具有明显优势，证明本文方法有效可行。

由于本文方法构建领域词林，在科技信息数据集上实验结果最高且大幅度领先其他方法，最终结果为71%左右准确率，具备领域专用特性，本文能在一定程度上满足企业科技信息查重应用需求。

科技信息查重是科技信息管理中的重要内容，对于发挥投入经费效益，维护良好的学术风气等具有现实意义。但是由于专业领域的差异性很大，通用的查重算法还存在一些不足，为此，本文提出了词汇语义相似度与依存路径的融合的技术路线，并且搭建领域同义词词林，解决了领域词汇词组的相似度计算问题，提高了计算结果的可信度。实验结果表明，本文提出的方法有效、可行，并将该方法应用到企业科技信息管理查重平台的开发中，达到了预期目标。

猜你喜欢语义词汇领域本刊可直接用缩写的常用词汇中华胰腺病杂志(2021年1期)2021-02-26一些常用词汇可直接用缩写山东医药(2020年34期)2020-12-09语言与语义开放教育研究(2020年2期)2020-03-312020 IT领域大事记计算机世界(2020年50期)2020-01-15领域·对峙青年生活(2019年23期)2019-09-10本刊可直接用缩写的常用词汇中华胰腺病杂志(2019年4期)2019-08-29“社会”一词的语义流动与新陈代谢中国社会历史评论(2016年2期)2016-06-27“上”与“下”语义的不对称性及其认知阐释现代语文(2016年21期)2016-05-25新常态下推动多层次多领域依法治理初探中共南宁市委党校学报(2015年4期)2015-02-28肯定与质疑:“慕课”在基础教育领域的应用中国音乐教育(2014年7期)2014-02-06推荐访问:油气技术研究科技信息

上一篇：专访虎扑CEO殷学斌从内容、社区文化，走向群体认同
下一篇：基于DNA,甲基化数据的扰动算法评估网络构建稳定性∗

推荐文章

推荐内容

优秀文章推荐文章

优秀文章热门文章