子话题及词汇关联视角下的新兴领域热点主题演化研究*

来源:优秀文章 发布时间:2023-04-24 点击:

刘晋霞 侯倩倩 杜 静 柴福厚 张 丽

(太原科技大学经济与管理学院 太原 030024)

当前中国正在逐步完善氢能相关的政策体系,加快我国氢能产业各环节的发展进程,其中制氢环节作为整个氢能产业链的基础和产业大规模发展的前提,成为了极具发展前景的新兴领域。科学高效地识别领域的研究热点,揭示热点演化过程及变化规律,有利于支撑新兴领域的学科知识体系,为科技工作者提供前瞻性知识服务。但制氢等新兴领域存在文本量不够充足等问题,对演化研究的展开造成了一定阻碍。本文提出一种先整体识别热点,后切片分析演化的方法,在把握领域整体的热点研究态势的基础上,从热点主题的子话题关联以及主路径的词汇关联两个视角来分析其结构演化和内容演化过程,在单个主题层面把握各时间窗内的热点转移关系和研究重点,实现了主题演化精细化的表达,也为新兴领域的热点演化工作提供了一定的参考和借鉴。

当前对学科或领域进行的演化分析研究通常是基于主题发现展开的,通过从时序变化的角度对主题进行关联来揭示领域的演化轨迹。不同的主题挖掘方法所得结果,其语义特征和外在表现等均存在较大差异,其演化表现形式也各有不同[1],由此可将主题演化分析大致分为三类。

一是基于引文分析的演化方法,主要包括共被引分析和耦合分析。Small利用共被引分析,通过对设定时间窗的高被引论文进行聚类并跟踪其发展变化,来分析领域的演化历程[2]。Zhao等利用作者文献耦合分析探讨了情报科学领域的研究活力,并认为将作者文献耦合分析与共被引分析结合,能够更好地分析领域发展状况及其演化[3]。基于引文分析的演化方法不利于观测文本内容的微观特征和语义关系,且文献引用关系的形成具有一定时滞性,以此来揭示领域主题的演化过程并不充足。

二是基于词汇分析的演化方法,主要包括词频分析和共词分析。傅柱等基于词频分析,通过领域关键词的词频分布梳理了研究领域的热点和知识结构,并对国内外研究现状进行了对比分析[4]。Huang等结合共词分析、共分类分析以及主路径方法分析了3D打印领域的技术演化过程[5]。基于词汇分析的演化方法具有简单高效的特点,但未关注到文本的语义关系,仅以关键词的频次统计或共现关系来描述领域发展过程中主题的变化过程是不全面的。

三是基于主题模型的演化方法。王伟等以众筹项目的在线评论为语料,识别各时间窗口评论的主题,通过主题关联分析主题的状态演化结果和强度演化结果[6];
Suominen等利用LDA模型,在专利数据分析的基础上对企业研发方向展开预测[7]。基于LDA主题模型的演化方法,从语义层面进行文本分析,以挖掘文本的潜在主题信息,很大程度弥补了引文分析和词汇分析等传统方法的不足,较好地保留了文本内部关系,有利于对演化过程的微观发展动态进行解读,更符合本文的研究实际。

综上可知,引文分析和词汇分析等方法由于本身存在的局限性,其研究结果的准确性和科学性还有待完善。而基于主题模型的演化研究也多是对文本进行时间切片后展开热点识别与演化分析,这种方法对发展时间较短,文本量不够充足的制氢等新兴领域来说,可能会导致各时间窗的主题重复,热点识别结果的代表性不强,无法科学地呈现领域热点的演化过程。因此,本文基于LDA主题模型构建了热点主题识别指标体系来整体识别热点,并引入Word2Vec工具对热点主题展开了演化分析。

2.1 研究思路

为有效分析制氢领域的热点演化规律,梳理各热点主题在每个时间窗口的演化脉络,本文以我国制氢领域的核心中文期刊文献为数据源,先构建热点主题识别指标体系对整体语料库进行热点主题识别,再进行时间切片抽取各时间窗主题,进而展开热点主题的演化分析。通过识别并关联热点主题在相邻窗口的子话题得到各热点主题的结构演化关系。选取热点主题下高概率且有代表性的关键词作为主路径词汇,引入Word2Vec对各子话题下的关键词和主路径词汇进行词向量训练,通过关联主路径上相邻时间窗口的子话题关键词得到各热点主题的内容演化关系。总体研究框架如图1所示。

图1 研究框架图

2.2 关键技术

2.2.1热点主题的识别指标体系

本文认为热点主题HT(Hot Topic)是在所研究时间跨度内具有较高影响力水平和受关注程度,且受关注程度具有良好发展态势的主题。由此本文构建了指标体系来识别热点主题。

基于LDA模型输出的文档-主题概率分布可以得到各个主题属于每篇文档的概率,当这个概率大于或等于10%时,这篇文档就是该主题的一个支持文档[8]。主题在某年的支持文档数即该主题在当年的发文量,利用主题发文量的变化来度量主题的影响力水平和受关注程度,即构建构建主题影响力指标TII(Topic Influence Index)和主题关注度指标TAI(Topic Attention Index)。

第一,主题影响力水平的度量。

a.新颖度指标。NI是根据主题的年龄对主题的新颖程度进行度量的指标。当主题出现后,随着时间推移,主题的新颖度逐年降低,因此主题的新颖度值是一条下降的曲线。一个主题在t年的新颖度计算公式为[9]:

(1)

其中FY为主题的起始年(First Year),将主题的支持文档按时间切片降序排列,逐年检查该年的支持文档数是否为0,当为0时,该年份加一年即可得到主题的起始年。

b.成熟度指标。MI是某一时间片t下主题的累加支持文档数与主题从起始年至当前年的总支持文档数之比,是对主题的成熟程度进行度量的指标。固定一个当前年,随着时间的推移,主题的累加支持文档数增加,其与主题从起始年至当前年的总支持文档数之比也随之升高。因此不同当前年的成熟度曲线都是一条上升的曲线。主题i在t年的成熟度计算公式为:

(2)

其中Sumd(t)是主题i在t年的累加支持文档数,Sumd(i)是主题i在当前年的累加支持文档数。

(3)

第二,主题受关注程度的度量。

(4)

其中N(i)表示主题i在t年的支持文档数,N(t)表示t年的文档总数。

b.关注度发展态势。用kTAI衡量主题受关注程度的发展态势。kTAI是对TAI进行线性拟合所得拟合直线的斜率,当kTAI>0时说明主题关注度呈上升趋势,具有良好的发展态势。

例 2 考虑文献[18]中例3,运用同样方法,将系统(9)—(10)用于图像恢复问题。图3为像素64×64的原图,图4为图3经图像滤波器滤波后所观测到的图像。滤波器为规模和标准差分别为7×7和3的高斯滤波。此时B为该标准高斯滤波生成的稀疏矩阵,b为图4依照文献[18]中例3中的方法拉成的列向量。取X、Θ如例1所示,设

2.2.2热点主题的结构演化

本文从热点主题的子话题关联视角来分析热点主题的结构演化关系。Callon认为主题结构是学科领域主题内各个部分间的联系、层级、分布等关系[10]。Palla等在探索社群演化时提出了“新生、消亡、合并、分裂、增长、收缩”6种复杂网络演化形式[11]。众多学者以这六种演化形式来分析领域的演化[12]。由于本文是从时间维度反映主题在连续时间窗的演化轨迹,考虑主题在不同时间窗的延续性而不考虑其强度,因此对反映主题强度的增长与收缩关系不进行呈现,利用不同时间窗口的子话题的新生、继承、合并、分裂、消亡的关联关系来反映热点主题内各个部分间的关系,体现其结构演化过程。

a.子话题识别。通过寻找各时间窗内与热点主题具有较高相似度的主题得到各热点主题的子话题。对整体文本进行时间切片和主题抽取,获得各时间窗的主题信息,再计算热点主题与各时间窗主题的相似度,将相似度大于阈值的主题认定为该热点主题在该时间窗下的子话题。

在获取各热点主题的子话题后,对相邻时间窗口的子话题两两计算其相似度,判断子话题间的关联关系来表征各热点主题的结构演化轨迹。同时对子话题进行标识,以便在结构演化中直观的展示热点转移脉络。对于同一热点主题在不同时间窗下的子话题,其各类关联关系如图2所示。

图2 子话题关联关系

b.子话题关联关系的判定。本文选择余弦相似度算法对子话题进行关联,其计算公式如式(5),余弦值越接近1表明两个向量越相似。通过将主题特征向量化,构建词典并建立向量空间来计算两两子话题间的相似度,当相似度大于阈值时认为这两个子话题具有关联关系,连接相邻时间窗内具有关联关系的子话题,从而获得热点主题的结构演化关系。

(5)

2.2.3热点主题的内容演化

本文从热点主题的词汇关联视角来分析热点主题的内容演化关系。通过LDA模型输出的主题-词概率分布获取热点主题及其各子话题下的关键词,选取热点主题下的主路径词汇,并关联主路径上相邻时间窗的子话题关键词,进而选取原料、工具、方法、影响因素四个方面来分析热点主题的内容演化。

a.主路径识别。主路径词汇体现了主题演化整体态势的细化方向,从词汇角度反映了演化的主要内容。因此本文选取热点主题下高概率且有代表性的关键词作为主路径词汇,计算主路径词汇与第一个时间窗下该热点主题的子话题关键词的相似度,并将该时间窗下与主路径词汇具有关联关系的词汇在可视化图中进行保留。将相邻时间窗内具有关联关系的词汇连接起来就构成了热点主题的内容演化关系。对各热点主题的内容演化过程,采用桑基图的形式进行可视化演示。

b.词汇关联关系的判定。对于词汇关联关系的判定,即词汇间相似度的计算,本文利用Word2Vec中的Skip-Gram模型,对文本集进行词向量训练,并通过负采样方法提高训练速度,通过训练将文本内容转换为K维向量,用词向量的相似度表示文本语义上的相似度。通过Word2Vec中Skip-Gram模型的训练,将各子话题的关键词及各热点主题的主路径词汇转换为词向量,对两两词向量进行相似性度量。找到第一个时间窗下与主路径词汇相似度高于阈值的词汇,同理找到第二个时间窗下与第一个时间窗所选词汇相似度高于阈值的词汇,依次计算得到各时间窗下词汇的关联关系,从而得到各热点主题的内容演化结果,其中每个时间窗的词汇,是由该时间窗下热点主题的子话题关键词构成。

3.1 数据获取与处理

本文以制氢领域的核心中文期刊为数据源。由于2000年以前该领域发文量极少,因此不计入统计。检索时间跨度为2000-2020年;
检索平台选择中国知网(CNKI);
使用高级检索,文献类型选择期刊;
期刊来源限定为SCI、EI、核心期刊、CSSCI、CSCD;
检索主题为“制氢”。共检索得到3 315篇期刊文献,删除寄语、新闻、动态等非学术类文献,将其以Refworks格式导出题录信息,并进行去重和删除缺失项操作,最终得到2988条有效文献记录。

对这2988条有效文献记录,首先选取每篇文献的标题、摘要和关键词进行信息合并,将其作为模型训练的文档语料;
其次使用中文分词组件Jieba的精确模式对文档语料进行分词,并进行停用词处理;
最后将文献中的关键词进行汇总,形成自定义词典,以提高分词效果。

3.2 热点主题识别

为进行热点主题的演化分析,首先进行热点主题识别。对预处理后的整体语料库进行主题抽取,使用python3作为开发平台,选用sklearn库中的LDA主题模型,其算法实现主要基于变分推断EM算法,其中参数α和β使用默认值,文档迭代次数设为1000次,通过计算困惑度(perplexity)发现当主题数为18时,perplexity值最小,故设定最优主题数K为18。通过LDA模型输出的文档-主题概率分布计算各主题的支持文档数,进而计算热点主题识别的各项指标,筛选出同时满足影响力条件和关注度条件的热点主题,并进行主题标识。最终获得制氢领域的4个热点主题,分别是Topic5光催化分解水制氢技术,Topic8甲醇制氢技术,Topic11光催化剂性能及其制备,Topic16光伏发电制氢技术。

3.3 时间切片

为进一步展开研究,分析各热点主题的演化过程,本文根据文档的时间顺序并平衡每个时间窗的文档数,使各时间窗的文档数量基本相当。从而将全部文档划分为6个时间片的数据集,即2000-2005年、2006-2008年、2009-2011年、2012-2014年、2015-2017年、2018-2020年,分别通过LDA训练抽取主题,根据困惑度来确定各个时间窗的最优主题数量。

图3为6个时间窗口的困惑度变化曲线,通过困惑度的取值变化情况,找到其最小值或拐点处对应的主题数作为模型的最优主题数。根据图3找到各时间窗下的困惑度最小值,得到第1至第6个时间窗的最优主题数分别为9、12、16、14、20、7。

3.4 热点主题的结构演化分析

通过公式(5)进行相似度计算并设定阈值,阈值过高无法保证热点主题在各时间窗口的延续性,阈值过低则无法有效反映各时间窗口的研究侧重点。因此本文基于已有研究的阈值设定并结合研究实际,将相似度阈值设为0.2,从而得到各热点主题的子话题,并进行子话题关联,最终得到各热点主题的结构演化结果如图4所示。通过图4可以发现,我国制氢领域的热点主题在各时间窗内存在明显的演化现象,其中热点主题Topic11体现了子话题新生、继承、合并、分裂、消亡的全部关联关系。因此以热点主题Topic11为例进行重点探讨,分析其在各时间窗口的子话题演化过程。

图4 各热点主题的结构演化结果

热点主题Topic11为光催化剂性能及其制备。从第1个时间窗至第2个时间窗,体现了子话题的分裂。性能优良的光催化剂是光催化技术的关键,其中负载型光催化剂能够有效解决催化剂粒径小等应用问题,廖振华等分析了负载型光催化剂的主要制备方法和研究进展,并探讨了影响催化剂活性的因素,如载体的结构、孔径、比表面积等[13]。制氢催化剂载体作为负载型光催化剂的重要部分,成为了光催化的一个细化方向。另一方面,可见光制氢技术作为一种利用一次能源制氢的方式,具有简单、高效的特点,且不产生能源转换的浪费。黄文娅等综述了可见光利用方面的研究进展,认为光催化技术的实用化取决于可见光的利用效率[14],可见光制氢成为了光催化技术的主要发展路径,是光催化的另一个细化方向。

从第2个时间窗至第3个时间窗,体现了子话题的继承与消亡。光催化剂的性能是影响可见光制氢效率的主要因素,开发具有良好可见光响应性能的光催化剂,对充分利用太阳能,提高制氢效率非常必要。田蒙奎等阐述了可见光制氢的机理,对开发可见光响应的光催化剂展开了研究,分析了实现可见光化的各种手段[15],光催化剂在可见光制氢研究的基础上,成为了可见光制氢的主要继承方向。另外,制氢催化剂载体虽然能够有效提高催化活性,但在实际应用中,与催化剂的其他改性方法相比,催化剂负载的实用性和经济性还存在不足,其受关注程度逐渐消减,因此在其后的时间窗中制氢催化剂载体不再是重点研究内容,该子话题消亡。

从第3个时间窗至第4个时间窗,体现了子话题的分裂。经过多年的研究积累,光催化剂的结构、改性等均取得了较大进展,但制氢效率低仍是其主要问题。通过研究光催化机理可以发现影响制氢效率的主要因素。于秀娟等采用溶胶-凝胶法合成制备了胱氨酸改性的TiO2可见光催化剂,并分析了其催化机理,从而考察改性TiO2在可见光下的催化性能[16],通过合成带隙低、性能好的光催化剂可以解决光源利用率低等问题。因此光催化剂一方面细化为光催化机理,通过研究光催化机理来提高光催化效率,另一方面细化为了光催化剂合成以解决光源利用率低等问题。

图5 热点主题11的内容演化结果

从第4个时间窗至第5个时间窗,体现了子话题的分裂、合并与新生。“光催化剂材料”与“复合催化剂活性”既是“光催化机理”也是“光催化剂合成”的细化方向。光催化制氢的机理就是使水在电子-空穴对的作用下发生电离,从而生成氢气和氧气,在这个过程中,光生电子和空穴的复合会降低催化剂活性,从而影响反应速率。熊婷等在光催化机理的基础上,合成制备了Ag/AgCl/BiOIO3的三元光催化剂,并通过对比发现其对电子和空穴的分离能力增强,具有优异的光催化性能[17],因此减少电子-空穴的复合,提高其分离效率的研究是光催化机理研究的重要内容,“光生电子空穴”成为了“光催化机理”的一个细化方向。同时,高效耐用的催化剂还需具有优异的导电性,将其应用于电解水反应,可提高电催化性能,对电解水制氢也大有裨益。何洪波等通过光催化与电解过程的耦合,提出并实现了光催化辅助电解水制氢过程[18],因此“电解水制氢”也是“光催化剂合成”的一大细化方向。除此之外,这一时间段还出现了“制氢催化剂制备”这一新生子话题,说明在光催化机理与光催化剂合成的研究基础上,制备具有更好应用效果的催化剂已成为一个新的研究重点。

从第5个时间窗至第6个时间窗,体现了子话题的分裂、合并。“复合光催化剂”与“催化制氢性能”既是与复合催化剂活性研究密不可分的重要部分,也是制氢催化剂制备的主要研究方向,因此两者是“复合催化剂活性”与“制氢催化剂制备”的两个细化方向。张根等采用热处理方法制备了Bi4Ti3O12/g-C3N4复合光催化剂,考察了不同g-C3N复合量对催化剂活性的影响,通过与单相Bi4Ti3O12相比,发现复合光催化剂的光催化性能有所提升[19]。由此可见,复合光催化剂的研制和提高催化制氢的性能已经成为了研究重点。

3.5 热点主题的内容演化分析

选取热点主题下高概率且有代表性的词汇作为主路径,得到各热点主题的主路径词汇如表1所示。通过Word2Vec训练将主路径词汇及子话题关键词转换为词向量,由此计算相邻时间窗口词汇间的相似程度。利用gensim包构建Skip-Gram模型,选取维度参数feature_number为50,滑动时间窗口为4,负样本数为5。对训练得到的词向量进行相似性度量,经多次实验,本文取经验阈值为0.6,即当两个词汇间的相似度高于0.6时,这两个词汇具有关联关系。

表1 各热点主题的主路径词汇

从热点主题的演化主路径出发,将词汇分为原料类、工具类、方法类、影响因素类,分析每条主路径上的词汇在不同时间段的变化情况,并用桑基图对其进行可视化呈现。同样以热点主题Topic11为例,其内容演化如图5所示。其中左侧第一列为热点主题的主路径词汇,其后同一纵列内的元素块表示该时间窗下与前一时间窗具有关联关系的子话题关键词,且各词汇仅在其首次被关联的时间窗内进行保留展示。词汇节点分属的类别如表2所示,词汇间连线的粗细表示其相似度的大小。

表2 各词汇节点分属的类别

热点主题Topic11的内容演化路径集中于光催化活性、光催化制氢、光催化性能以及光催化材料。光催化活性主路径的词汇演化以工具类、方法类和原料类词汇为主,演化过程较单一。初期词汇演化为碳纳米管载体,碳纳米管比表面积较高、热稳定性好,具有优良的物理和化学性能,使其作为催化剂载体成为了提高催化活性的重要工具。其后的词汇演化围绕着生物制氢展开。碳纳米管可作为催化剂载体制备催化剂,并应用于生物制氢过程中;
葡萄糖作为底物,是影响微生物产氢的关键原料;
甘油是生物柴油的副产物,是水蒸气重整生物甘油制氢的关键原料。尖晶石则是水蒸气重整制氢的重要催化剂,通过合成比表面积大、结晶度高、难还原的尖晶石催化剂,能够很大程度提高催化效率。

光催化制氢主路径与光催化性能主路径的词汇演化均以影响因素类词汇为主,如催化剂的粒径、光生载流子、比表面积等均会影响催化性能和产氢速率。粒子越小,电子和空穴复合几率越小,同时粒径的减小会使比表面积增大,提高光的吸收效率。其他词汇则主要体现了提高光催化活性的工具与方法。抑制光生载流子的复合主要通过沉积贵金属、掺杂金属或非金属离子、复合半导体以及光敏化等途径,另外通过修饰光催化剂的表面也可增加比表面积,从而提高光催化活性。水热法则可以改善催化剂的形貌和结构,是提高催化剂性能的重要方法。

光催化材料主路径的词汇节点类型较为丰富,以二氧化钛为代表的半导体是主要的光催化材料,可以通过金属离子掺杂、非金属离子掺杂等方式对二氧化钛基材料改性来提高其反应效率。另外层状氧化物与以二氧化钛代表的光催化剂相比,具有能够抑制逆反应的突出优点,但其也存在稳定性较差的缺陷,还需进一步深入完善。近年来关于可见光催化剂的研究重点开始转变为寻求新型催化材料,通过贵金属沉积、掺杂、半导体复合、染料敏化等手段展开研究。光催化材料的带隙与可见光能量的匹配,光催化材料的能带位置与反应物电极电位的匹配已成为亟待解决的关键问题。

当前各新兴领域发展势头良好,具有着潜在的经济增长点和无穷的增长潜力,对新兴领域的热点主题进行演化研究有助于发现其技术创新前沿和关键课题,提升科研效率,支撑科研决策。为解决新兴领域演化分析中文本量不够充足的问题,本文从子话题关联和词汇关联两个视角出发,在识别热点主题的基础上,对文本进行切片,从而描绘了各热点主题在时间序列上的形成、发展过程。通过子话题关联揭示了热点主题的结构演化,分析了其在不同时间窗的研究侧重点和热点转移关系;
通过识别热点主题的主路径并在语义层面进行词汇关联,揭示了热点主题的内容演化,描绘了热点主题在词汇粒度上的演进脉络。本文提出的热点主题演化分析方法,丰富了单个主题层面的演化研究,为文本量不够充足的新兴领域的演化研究提供了借鉴。但本文仅使用了期刊文献,未考虑专利等文献数据,下一步可结合多源数据进行领域的演化分析。

猜你喜欢光催化剂制氢热点热点加油站服务指南(2022年6期)2022-07-28赢创全新膜技术有望降低电解水制氢的成本上海建材(2020年12期)2020-04-13可见光响应的ZnO/ZnFe2O4复合光催化剂的合成及磁性研究陶瓷学报(2019年6期)2019-10-27热点车迷(2019年10期)2019-06-24结合热点做演讲快乐语文(2018年7期)2018-05-25Pr3+/TiO2光催化剂的制备及性能研究浙江农业科学(2016年11期)2016-05-04制氢工艺技术比较当代化工研究(2016年5期)2016-03-20高活性Al-LiBH4-Bi铝基复合制氢材料电源技术(2015年11期)2015-08-22BiVO4光催化剂的改性及其在水处理中的应用研究进展应用化工(2014年11期)2014-08-16g-C3N4/TiO2复合光催化剂的制备及其性能研究应用化工(2014年8期)2014-08-08推荐访问:热点 演化 视角
上一篇:初中生物“学生参与”课堂构建策略探究
下一篇:基于生命周期理论的弱信号三维度演化过程模型研究*

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有