大数据挖掘的分类算法应用——以XGBoost为例

来源:优秀文章 发布时间:2023-01-25 点击:

田 威

(常德职业技术学院,湖南 常德 415000)

近年来,大量研究资料表明,高校“00后”中有相当一部分人存在心理问题,且数量逐年上升,关注、解决高校学生存在的这种问题刻不容缓。据统计,独生子女、留守儿童经历、家长对子女的教育等因素都会对学生的心理健康产生很大的影响。常德职业技术学院对学生的心理普查非常重视,对于有问题的学生会积极予以干预辅导和教育。但是当前学院对学生的心理普测仍然采用传统的问卷调查方法,即通过组织全院学生填写SCL-90量表,筛查结果往往不尽人意。原因如下:(1)筛查结果不准确,学生在填写问卷答题时,刻意隐瞒、随意乱填或者当时环境因素不好都会造成调查结果出现较大的偏差,而且问卷答题只能收集某一时刻学生的心理状态,缺乏时效性。(2)心理问题是一个相对动态的过程,对有潜在心理问题的学生没有办法进行及时辅导。(3)老师需要组织全院学生,且要保证学生在一个相对比较理想不受外界干扰的环境中填写,成本比较大[1]。

为了解决上述问题,本文从大数据和数据挖掘的角度,使用XGBoost分类算法,设计了学生心理健康问题预测应用,应用对比调查问卷具有高准确率、低成本等优点,能识别出有潜在心理问题的学生,还能够根据学生的特征数据变化不断自适应优化,保证高准确率。

XGBoost算法采用了集成思想,将多个弱分类器逐步迭代,集成组合在一起形成一个强分类器,是梯度提升决策树(GBDT)的一种高效实现。相对于GBDT,XGBoost具有能并行学习的优点,快速实现迭代运算。同时,算法也设置了惩罚因子来防止过拟合,具体算法步骤如下。

优化目标函数:l(yi,yi')=(yi-yi')2

每棵决策树逐步迭代,形成一个强分类器。

决策树如果叶子节点太多,会增加过拟合的风险,通常目标函数还需加入正则项Ω(ft)来对决策树进行剪枝。

式中,γ为正则化强度;
T为叶子节点个数;
w为叶子节点权重。

加入正则化项后要优化的完整目标函数为

分别记gi,hi为l的一阶和二阶导数

最终求出目标函数最优解为

根据上式,作为树分裂结构的分数,分数越高,则树的结构越优异,最终获得最优的树结构。算法的停止取决于预设的树深度或者分裂后的结果值小于某个阈值[2]。

2.1 模型训练

高职院校往往由于传统业务系统存在信息孤岛问题,管理人员仅仅只能看到学生的一维数据,如通过教务系统,管理人员只能查看到学生的学籍、学分、挂科、处分、考生评价等信息,无法获取学生综合管理系统、一卡通消费、上网行为、社交评论等信息数据。本文基于学校搭建的数据中台,在数据高度共享的前提下构造数据集,采用XGBoost分类算法实现对学生的自动分类。模型训练基本实现流程如图1所示。

图1 模型训练流程

2.2 数据准备

通过数据中心,获取了教务系统、学生综合管理系统、一卡通平台、网络行为管理日志、微信企业号等多个业务系统中学生的多维度信息数据,并对其中某些字段缺失的数据、文本类型数据和异常数据进行预处理,通过特征转换,最终构造学生个人画像特征[3]。学院健康教育中心按照心理问题严重程度,统计出一级问题学生831人、二级问题1 105人、三级问题1 487人、心理状况良好人数11 056人,将以上数据作为模型样本。

2.3 模型实现

本文基于XGBoost的python实现。将一级、二级、三级、良好的学生分别标识为A,B,C,D。通过数据中台抽取学生特征并进行特征转化。

学生学籍特征:性别、专业、民族、所属省份、生源地区、户籍性质、家庭经济情况等,这些特征均属于离散类特征,对这类特征进行one-hot编码,如性别特征转化如表1所示。

表1 性别特征转化

其他特征则类似编码。

学生教务特征:成绩、处分次数、是否恶意评价教学等。对于成绩特征,以优、良、不及格来取值,然后将各科成绩按照取值次数进行汇聚计算,学生教务特征具体如表2所示。

表2 学生教务特征

处分次数属于连续性特征,以正常数值表示即可,是否恶意评价则按照上述离散类特征处理。

学生事务特征:学生请假、学生个人操行分、宿舍缺勤、班级排名等。

学生一卡通特征:图书借阅、消费情况等。

上网行为特征:学生上网时长、App使用类型等。

最终,特征转换编码规则为:对于无序离散类特征采用one-hot编码,对于有序离散类特征通过数值大小作为标识,再进行归一化,对于连续性特征,进行归一化。

随机将数据集按照7∶3分为训练集和测试集,模型评价指标采用多分类F1-score,通过交叉验证选取模型参数如表3所示。

表3 模型超参数选择

2.4 模型结果分析

通过XGBoost算法模型在测试集进行测试,结果如表4所示,从表中可以看出模型对心理健康状况良好和存在一级问题的学生预测准确率分别为98.00%和96.78%,对二级问题的学生预测准确率相对较低。模型总体识别的准确率远远优于SCL-90量表调查问卷的结果。通过分析结果,对模型识别的特征重要性进行排序,如图2所示。其中,是否有留守经历、是否单亲家庭、成绩的特征重要性所占权重最大。同时,可以通过模型计算出学生属于各分类的概率,将概率接近分类阈值的学生划分为该类下有潜在心理疾病风险的学生,让心理辅导老师对学生提前进行干预辅导[4-5]。

表4 测试集识别准确率

图2 特征重要性排序

本文通过运用数据中心,打通了各业务系统信息孤岛,获取了学生在各个业务系统多维度数据,采用XGBoost算法从分类的角度,设计了预测模型,相对于采用SCL-90量表的测评,能高效识别出有心理问题的学生,极大地降低了学校管理的成本,并且模型数据具有一定的可解释性,心理老师也可以根据数据为学生进行个性化干预辅导。但是模型对二级问题的预测还存在比较大的误报率,后续还应该多分析数据,挖掘学生有效特征,提升模型的准确率。

猜你喜欢 准确率分类特征 根据方程特征选解法中学生数理化·中考版(2022年9期)2022-10-25离散型随机变量的分布列与数字特征中学生数理化(高中版.高考数学)(2022年3期)2022-04-26分类算一算数学小灵通(1-2年级)(2021年4期)2021-06-09乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析健康之家(2021年19期)2021-05-23不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨医学食疗与健康(2021年27期)2021-05-132015—2017 年宁夏各天气预报参考产品质量检验分析农业科技与信息(2021年2期)2021-03-27颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察健康体检与管理(2021年10期)2021-01-03不忠诚的四个特征当代陕西(2019年10期)2019-06-03教你一招:数的分类初中生世界·七年级(2017年9期)2017-10-13说说分类那些事少儿科学周刊·儿童版(2017年3期)2017-06-29推荐访问:为例 算法 数据挖掘
上一篇:基于BERT的民间文学文本预训练模型
下一篇:神泉喷彩唱风流,特色古镇写春秋——朔城区神头镇综合发展掠影

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有