基于K-Medians,的学习质量评价方法研究

来源:优秀文章 发布时间:2023-04-09 点击:

冯 广 陈 卓 罗时强 邱凯星 伍文燕

(广东工业大学 自动化学院,广东 广州 510006)

随着教育数据的爆发式增长以及信息挖掘技术的日益成熟,许多研究人员开始深度分析教育数据背后隐藏的含义。将人工智能算法与教育结合起来,依托机器学习、神经网络等方法对学生进行学习质量评价逐渐兴起,如何更科学准确地评价学生成为一个研究热点,另外,学科特征与学生某种行为模式背后隐藏的原因有何种关系给研究提供了新的视角。根据研究结果,反作用于教育,并为教学方法或者教育政策提供依据,是研究的最终意义。

目前学生综合学习质量评价仍存在以下缺点:①评价的对象主要针对某学科的成绩,参考的数据不丰富;
②评价方式仅进行简单的一次成绩排序评价,固定静态地描述学生;
[1]③评价的结果无法进行科学的应用,即评价结果所蕴涵的信息极少,难以进一步应用。为此,本文提出了一种基于K-Medians 的高维聚类评价方法。研究过程首先对评价方法和K-Medians 算法进行了说明,随后通过实例阐述该方法的应用,并在此基础上与其他评价方法对比,呈现了一种可联合多种评价数据、评价更科学、评价结果蕴涵信息丰富的学生综合学习质量评价方法。

目前,根据学生的客观表现数据延伸出了多种评价方法。阿什顿·安德森(Ashton Anderson等[2]对学习者的学习类型进行聚类,探究成绩与不同课堂参与度之间的规律,并评估学习绩效。Chen等[3]融合灰度关联理论(GRA)、K-Means 聚类算法、模糊推理与模糊关联规则四种智能运算方法,构建了学习效果评价系统,改变了以往只考虑最终学习结果的终结性评价。有研究通过聚类来挖掘学习者的信息,然后分析能够直接反映用户行为的有效模式,并且提出了基于协同管理的模型,来评价学习过程。[4]吕赛鸫等[5]采集云南师范大学计算机课的教育数据,依据聚类分析的原理,确定了十项指标来探讨聚类在教学评价中的应用。张瑜等[6]针对高校评价存在指标设置不合理、评价结果运用不科学等问题,提出基于学生学习成效的高校教学质量评价。刘美玲等[7]将考试成绩进行聚类,找到同一类学生的相似特点,给教学改进提供依据。综上所述,教育教学评价正朝着评价内容更丰富、评价指标更合理、评价方法更科学的趋势发展。

(一)文献资料法

通过搜集整理学习质量评价方向和聚类算法方向的文献资料展开系统研究,整理总结出有关学习质量评价的内容,发现研究对象的性质和特点。

(二)案例分析法

依据研究目标,使用UCI 机器学习库提供的数据,以葡萄牙某中学学生为例,通过优化后的多维聚类算法分析,得出科学性更强的学生综合学习质量评价,给后续教学管理提供一定的指导。

基于K-Medians 的学生综合学习质量评价方法是与传统的评价方法相对的一种智能评价方法。该方法可以联合多个评价指标,不只是成绩决策,还可以加入行为特征、性格特征等其他指标,学生综合学习质量评价的结果则通过观察高维聚类结果得出。学生所处的簇即为学生获得的评价等第,使学生作为多元评价的个体,在整个参与评价群体中的评价等第能够直观展现。无论使用何种评价方法,要使评价有存在的意义,需要向获得评价结果的人提供有效用的信息。基于K-Medians 的评价方法能够达到这个目标,在联合多个评价指标后,其评价结果蕴涵了多种指导信息。基于K-Medians 的评价方法示意图如图1 所示。

图1 评价方法示意图

(一)算法概念

K-Medians 算法是K-Means 算法衍生出来的变种,其算法逻辑与K-Means 接近,也是解决聚类问题的一种算法,常用作二维聚类,属于非监督学习类别。与K-Means 的区别在于K-Medians 是用数据集的中位数来计算数据的中心点,不再选用均值,这样的优势是针对数据集出现噪音特别大的点时,中心点选取受影响极小。

(二)算法原理

K-Medians 算法的基本原理是通过避免孤立点,取每一簇数据的中位点作为聚类中心,然后计算剩余的点与初始聚类中心的距离,再按照距离进行聚类操作,分配数据点,继续排序重新计算聚类中心点,直到中心点停止改变。[8]

(三)数据点分布计算

学生的表现数据有多个维度,当算法应用在三维状态下,需要优化距聚类中心距离(曼哈顿距离)的算法,优化后的曼哈顿距离如式(1)所示,式中p 表示三维空间中两点间曼哈顿距离,(xi,yi,zi)表示空间中第i 点。

理论上,该算法维度能够继续向更高维延伸,其更高维空间中的曼哈顿距离可通过继续增加坐标维度来计算。通过使用曼哈顿距离代替常用的欧氏距离,使计算机在运行较大计算过程时付出代价更低,并且在一定程度上减少在开平方运算中取近似值产生的误差。

(四)算法流程

优化后的K-Medians 算法流程如图2 所示。基本的运行逻辑为读入数据后找到初始聚类中心,随后开始第一次循环分配数据点,然后再次迭代更新数据聚类中心并分配数据点,当达到迭代次数后,输出最后高维聚类结果。

图2 k-medians 算法流程图

(一)数据预处理与检验

对于科学实验,数据质量保障是基础,需要保证数据的准确性、完整性、一致性。当数据存在着部分数据缺失的问题时,本研究采用忽略有缺失值样本的方法解决问题。实验原始数据与葡萄牙某中学学生相关,数据集涵盖了学生考试成绩、社会、个人行为、学校、家庭等多种特征数据。其中本次研究的主要使用属性字段说明如表1所示。

表1 属性字段

在SPSS 平台导入.csv 型数据集,进行预处理之后的数据包含了147 名学生的相关特征。共计588 条属性词条数据。

数据集的基本属性统计信息报告如图3 所示,对所有学生特征提取后,继续分析数据标准差、中位数、最小值、最大值、方差等基本属性。以Pro G 为x 轴、math G 为y 轴,z 轴表示内外性格倾向指数,代表个体投影到三维空间内,可以看到仅有极少数个体离散度大,个体分布近似符合正态分布,投影结果如图4 所示。

图3 数据基本属性统计

图4 投影结果

(二)应用历程

该评价方法中的高维聚类目标是要把读取到的学生教育数据点依据某些原则聚至相符合的簇。实例中的数据包含学生相关科目成绩和内外性格倾向正负程度特征,每一特征使用一维度数据来表示。通过程序运算得到高维聚类结果。整个实验过程如图5 所示,采集外部数据,数据预处理之后的学生特征数据置于内存中,随后传递给优化后的聚类算法进行运算,最后得出一个多语义信息融合的学生综合学习质量评价结果。

图5 实验过程图

对高维聚类过程中数据变化进行研究分析,基于非监督学习范畴,起始聚类中心如表2 所示。起始聚类中心有两点,其坐标分别为(10,5,4)和(16,14,6)。最终聚类中心坐标如表3 所示。

表2 起始聚类中心

表3 最终聚类中心

使用MATLAB 对高维聚类结果进行直观展示,如图6 所示,由图可知本次评价将学生分为了两簇,且两簇之间的边界明显,有很好的区分度,即两簇学生特征差异最大化。

图6 高维聚类结果

(三)实验结果检验

学生综合学习质量评价结果的质量,与KMedians 算法的高维聚类效果有关。对于高维聚类效果的评价指标分为两种,内部评价指标和外部评价指标。本文使用CH(Calinski-Harabasz)内部评价指标[9]分析高维聚类效果的优劣,高维聚类效果与CH 指数呈正相关。CH 指数的索引计算如式(2)所示。

这里的B 和W 是簇散布矩阵之间和簇内的散布矩阵,也可称为协方差矩阵,n 为样本数,K为簇类别数。公式意义是生成最大层次结构级别用于指示数据中正确的分区数。集群之间的离差矩阵B 的迹可以写成式(3)。

其中nk是聚类k 中的点数,z 是整个数据集的质心。集群内散布矩阵W 的迹可以写成式(4)。

因此CH 指数可表示为式(5)。

CH 系数检验结果如图7 所示,纵轴表示CH 指数,横轴表示聚类中心个数,显然可得最佳CH 系数-聚类簇数坐标(134,2)。因此本实例中的聚类结果是有效的,并且评价结果稳定,同时使用该检验方法避免了很多聚类算法有效性评估需要依据已知分类标签的问题。

图7 CH 系数检验结果

(四)评价结果展示

根据综合学习质量评价方法的设定,本实例中147 名学生被分为了两个簇,学生所属的簇代表了该生综合学习质量的优劣等第,即评价结果,每名学生评价等第如表4 所示,从表中可以直观看出学生所属的簇集,其中簇集1代表“较优”等第分布,簇集2 代表“一般”等第分布。

表4 学生评价等第

由上文的高维聚类结果还可得到本次评价结果分布图,三个评价维度指数分布与高维聚类中心有关,如图8 所示。从图中能够简便获取评价结果所蕴涵的指导信息,由于内外性格倾向与学生的社会特征和家庭特征有关,在图中看出内外性格倾向低的实例对象,其各科成绩较好,符合常理,并且内外性格倾向低的学生,更擅长学习数学,反之则更擅长语言学习。分布于B 段(簇集1)的学生个数较多,说明该年级的总体学习质量一般。依据该分布图,教师能够针对性改进教学策略,学生可以及时自省学习缺陷。

图8 评价结果分布

由评价结果可见,采用高维聚类分析的方法可以对学生的多个特征进行最佳聚类,找出一簇同学的共同特征,发现某些科目与行为特征、性格倾向之间的隐藏联系。根据强针对性的高维聚类结果,学习质量评估改变以往只看成绩的状况,利用机器学习的方法得出了科学的、具有高符合度的、多维度语义信息融合的评价结论。

相比较其他学者在学习效果评价研究中使用的层次分析、灰度关联理论(GRA)等方法,高维聚类分析在评价的公正性、便捷性、直观性上具有较大优势,与传统评价方法相比,基于KMedians 的高维聚类评价方法弥补了评价简单粗暴的缺点,且评价的结果被赋予了多种指导信息。本文所提方法与层次分析法、GRA 法、传统评价方法对比结果如表5 所示,可以看出KMedians 高维聚类评价方法能够较公正、客观地评价学生综合学习质量,且运算步骤简便,并且评价结果易于观察和理解。

表5 优势对比

大数据与数据挖掘等技术的创新给我国智慧教育的高质量发展提供了强大的动力。2020年,中共中央、国务院印发《深化新时代教育评价改革总体方案》,方案中提出了多项有关教育评价的原则,这些原则覆盖了评价的全过程。然而,目前学生学习质量评价在评价数据、评价方式、评价结果等方面仍存在不足。

着眼于智慧教育背景与教育评价模式改革和创新,本文提出了基于K-Medians 的高维聚类评价方法,阐述了该评价方法的原理,并通过一个实例展示了高维聚类方法在学生综合学习质量评价中的应用。对学生来说,该方法使学习质量评价结果的公平性、精准性、普惠性得到了提高;
对教师来说,通过科学运用该方法的评价结果,能够向学生实施个性化教育。最终,实现了教师教学质量的提高和学生学习成效的提升双赢。

未来工作主要还需从以下两点进行改进:一是丰富数据类型,本文仅采用离散数值型数据,实际中,图片数据或者视频流也蕴涵着丰富的教育信息,有待更深层次挖掘;
二是优化改进算法,增强评价算法的可解释性,使广大师生认可评价结果。

猜你喜欢高维聚类算法有向图上高维时间序列模型及其在交通网络中的应用数学杂志(2022年4期)2022-09-27基于MapReduce的改进Eclat算法成都信息工程大学学报(2019年4期)2019-11-04基于K-means聚类的车-地无线通信场强研究铁道通信信号(2019年6期)2019-10-08Travellng thg World Full—time for Rree阅读与作文(英语初中版)(2019年8期)2019-08-27进位加法的两种算法小学生学习指导(低年级)(2018年11期)2018-12-03基于矩阵模型的高维聚类边界模式发现自动化学报(2017年11期)2017-04-04基于高斯混合聚类的阵列干涉SAR三维成像雷达学报(2017年6期)2017-03-26一种改进的整周模糊度去相关算法现代防御技术(2016年1期)2016-06-01基于Spark平台的K-means聚类算法改进及并行化实现互联网天地(2016年1期)2016-05-04基于改进的遗传算法的模糊聚类算法智能系统学报(2015年4期)2015-12-27推荐访问:评价 质量 方法
上一篇:文化润疆视域下提升新疆高校思想政治理论课教学质量路径探析
下一篇:高职院校工科专业课程思政实践研究——以建筑材料课程为例

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有