基于信息熵的网络安全入侵检测系统设计

来源:优秀文章 发布时间:2023-02-27 点击:

吴亚楠, 王斌

(南方电网数字电网研究院有限公司, 广东, 广州 510000)

现今时代,互联网为社会带来了极大的影响,推动社会进入了高速发展阶段。同时,互联网的出现,也为当今社会带来了更多的便捷。由于互联网自身存在的特性,其产品与技术迭代速度极快,导致互联网用户数量呈现爆发式激增。在用户应用互联网的过程中,产生了海量的数据信息,例如股票交易、通信传输、消费购物等。随着网络规模的不断扩张,网络攻击手段也在不断更新,在海量数据信息产生的过程中,数据信息安全问题也逐渐显现。

近几年,全球网络安全事件逐年递增。从2016年开始,网络信息泄露事件呈倍数增加,不但雅虎、顺丰这种公共网络受到了黑客攻击,连政府机要部门、科研机构、高等院校等私有网络也受到了威胁,造成了数十亿用户信息的泄露,用户信息面临着极大的危险,更有甚者遭到了网络诈骗,损失了大量的财产资源。在如此严峻的网络安全背景下,传统网络安全防御手段已经无法满足社会各个领域的需求,网络安全入侵检测系统应运而生,其能够自动地将网络入侵威胁检测出来,并做出相应的防御或者破解操作,以此来保障网络用户信息的安全[1]。

就现有研究成果来看,现有网络安全入侵检测系统存在着误报率高、检测率低的缺陷,无法满足现今网络安全的需求,故提出基于信息熵的网络安全入侵检测系统设计研究。信息熵是一种对信息量的描述,能够度量信息的分散与集中程度。通过信息熵能够更好分析网络信息在各个测度上的变化,从而提升网络安全入侵检测性能,为网络安全提供更加有效地保障。

对于网络安全入侵检测来说,单纯组合算法效果非常有限,故设计科学的、合理的架构,将多种算法有效地融合在一起,才能够起到更好的网络安全入侵检测效果[2]。依据网络安全入侵特点,基于信息熵构建网络安全入侵检测系统架构,如图1所示。

图1 网络安全入侵检测系统架构

如图1所示,网络安全入侵检测系统架构由网络信息采集模块、网络信息特征提取模块、聚类降低维度模块及网络安全入侵检测模块组成。采集网络信息,通过2v-gram技术提取网络信息特征向量,根据信息熵聚类降维算法将高维数据转换成低维数据,通过SVM分类器设定入侵设局阈值,得到网络安全入侵检测结果。以图1构建的网络安全入侵检测系统架构为基础,设计系统各个功能模块,具体如下所示:

1.1 网络信息采集模块

该模块采用Jpcap网络抓包中的Winpcap库来获取网络信息数据包[3]。Winpcap库由网络、内核与用户层构成,在采集网络信息后,依据ACSⅡ表将数据包转换为十进制形式,如图2所示。

图2 网络数据包结构图

图2的网络数据包主要包含两部分,分别为首部与数据。其中,首部中存在20个字节是固定的,而数据部分则是所需的网络信息。将网络信息按照ACSⅡ表进行转换,方便后续模块的使用与处理[4]。

1.2 网络信息特征提取模块

网络信息采集模块获取的网络信息属于高维数据,并且包含大量的冗余数据,为了简化网络安全入侵检测过程,提取网络信息特征[5]。

此研究采用n-gram语言模型的2v-gram提取数据包中的有效信息,从而获取有效网络信息的出现频率矩阵。n-gram语言模型出现频率主要是通过滑动窗口(长度为n)来测量获得的。窗口滑动步长为1字节,在数据包上进行顺序滑动,同时计算256n个有效网络信息的出现频率。通过上述描述可知,n越大,网络信息特征的结构信息量越大[6]。为了解决上述网络信息特征结构信息量大的问题,测量有效信息中彼此分离v个位置的字节对出现频率,从而更加有效地提取网络信息特征。滑动窗口大小设置为6,字节对间距v设置为4,首尾字节共同组成2v-gram字节对,记为{G,g},并将其转换为十进制形式,记为{71,103},以此为基础,构造网络信息出现矩阵,计算网络信息出现频率矩阵[7]。

假设网络有效信息为B=[b1,b2,…,bl],n-gram语言模型为β=[β1,β2,…,βn],需要注意的是n

(1)

式中,l-n+1表示窗口在网络有效信息集合上滑动的总次数[8]。

依据式(1)结果计算2v-gram字节对出现频率,表达式为

(2)

若字节对间距v>0,式(2)计算结果可以看作为从β1开始,到βv+2结束的(v+2)-gram分布的边际概率[9]。

(2) 检测率数据表

依据上述流程可知,网络信息特征提取程序如图3所示。

(a) 2v-gram出现矩阵

1.3 聚类降低维度模块

以上一模块获取的2v-gram出现频率矩阵为基础,基于信息熵聚类算法对网络信息进行降低维度处理。

基于信息熵聚类降低纬度处理网络信息,能够通过有限步骤实现局部最优聚类结果。另外,互信息损失不会受到簇重新分配的影响。在迭代过程中,每一次迭代过程均降低目标函数值,促使算法能够在有限迭代次数下获取局部最小值。目标函数可以看作为簇内平均JS散度,算法将其最大化,故获得的簇是高度分离的。

上一模块采用2v-gram技术提取了2562个网络信息特征,由于维数影响,很难构造准确的入侵检测分类器,故基于信息熵对网络信息特征进行聚类降低纬度处理,具体过程如下所示:

假设聚类数量为k,随机将网络信息特征划分为k个簇,采用迭代方式使特征从k个簇中的一个移动至另一个,直至聚类处理信息损失小于阈值τ为止[10]。信息熵聚类算法具备着提升聚类内部JS散度的特性,经过信息熵聚类算法后,网络信息特征空间维数从1减少至k。

原始网络信息特征空间中,向量xi的第j个特征反映的是文档di中词簇wj的出现频率,记为f(wj/di),则k维特征空间中,文档di表示方式为

(3)

式中,f(wh/di)表示的是文档di中词簇wh的出现频率。

设定信息熵聚类算法目标函数为

=I(C;w)-I(C;wC)

(4)

式中,πj等于p(wj),KL表示的是散度距离度量,I(C;w)-I(C;wC)表示的是互信息损失。

簇类后验概率计算公式为

(5)

将式(5)计算结果代入算法目标函数中,重复进行迭代计算操作,直至目标函数数值小于互信息损失阈值为止,至此完成了网络信息特征的聚类降维处理,为后续网络安全的入侵检测提供更精确、更简单的数据支撑。

1.4 网络安全入侵检测模块

该模块主要是依据上一模块获得的网络信息特征构造单类SVM入侵检测分类器,依据组合规则融合单类SVM入侵检测分类器,执行组合入侵检测分类器即可获得网络安全入侵检测结果[11]。

单类SVM入侵检测分类器在原始特征空间中分离出所需信息,采用高斯函数映射构造一个超平面,满足式(6):

(6)

式中,W表示分离超平面的正交向量,ρ表示边界,h表示训练模式总数,C表示原始网络信息特征空间中未被分离部分,ξi表示惩罚被拒绝模式的松弛变量,φ(xi)表示第i个训练模式。

通过求解式(9)即可获得分离超平面,则单类SVM入侵检测分类器决策函数为

(7)

式中,I表示指示函数,ai表示计算系数,由式(6)提供。

若fsvc(z)=1,则表示模式z为目标类;
若fsvc(z)=0,则表示模式z为入侵类[12]。

(8)

则依据式(8)计算结果制定网络安全入侵检测判定标准为:若yavg(x)<θ,则网络信息x为入侵类;
若yavg(x)≥θ,则网络信息x为目标类,其中θ指的是预定义阈值。

网络安全入侵检测流程如图4所示。

如图4所示,利用获取到的网络信息特征构造超平面,设计单类SVM入侵检测分类器决策函数,为计算入侵类的概率分布,将不同单类SVM入侵检测分类器进行融合,得到检测分类器yavg(x),设定网络安全入侵阈值θ,若yavg(x)<θ,则表明该网络信息为入侵信息,反之则为目标信息。

图4 网络安全入侵检测流程图

通过上述功能模块设计,实现了网络安全入侵检测系统的运行,为网络、用户安全提供了更加有力的保障,也为入侵检测研究提供一定的参考。

为验证设计系统的网络安全入侵检测性能,采用Linux系统C语言编程软件与MySQL数据库进行测试,具体测试过程如下所示:

2.1 测试环境搭建

测试环境是保障测试顺利进行的前提与基础,因此依据测试需求搭建测试环境。其中,测试硬件环境如图5所示。

图5 测试硬件环境

从图5可以看出,测试硬件环境主要由服务器、计算机、交换机以及数据库构成。服务器A与服务器B是硬件环境中的关键部件,其参数配置情况如表1所示。

表1 服务器参数配置表

2.2 测试数据准备

测试数据采用美国麻省理工学院实验室DARPA数据集,其包含实际攻击程序,并提供了大量的评估数据。此测试在DARPA数据集中提取10种网络安全入侵程序,具体如表2所示。

表2 网络安全入侵程序表

2.3 测试结果分析

依据上述搭建的测试环境,准备入侵程序来进行网络安全入侵检测测试,通过误报率与检测率反映系统入侵检测性能,具体测试结果分析过程如下。

通过测试获得测试结果如表3所示。

表3 测试结果表

每种入侵程序测试进行100次,根据实验数据计算系统误报率以及检测率。如表3(1)所示,设计系统误报率范围为10.10%~20.10%,远远低于现有系统;
如表3(2)所示,设计系统检测率范围为75.46%~82.15%,远远高于现有系统。

通过上述测试结果可知,与现有系统平均数值相比较,本文所设计系统误报率下降了10.88%,检测率上升了28.07%,充分表明本文所设计系统网络安全入侵检测效果更好,能够为网络安全提供更加有效的保障。

本文研究引入信息熵聚类算法,设计了新的网络安全入侵检测系统,实验验证得出该系统极大地降低了误报率,提升了检测率,为网络安全提供性能更好的系统支撑,也为入侵检测研究课题提供了一定的参考资料。

猜你喜欢 信息熵分类器聚类 基于信息熵可信度的测试点选择方法研究军民两用技术与产品(2022年1期)2022-06-01基于K-means聚类的车-地无线通信场强研究铁道通信信号(2019年6期)2019-10-08基于差异性测度的遥感自适应分类器选择电子技术与软件工程(2017年14期)2017-09-08基于实例的强分类器快速集成方法计算机应用(2017年4期)2017-06-27基于高斯混合聚类的阵列干涉SAR三维成像雷达学报(2017年6期)2017-03-26一种基于信息熵的雷达动态自适应选择跟踪方法雷达学报(2017年6期)2017-03-26基于Spark平台的K-means聚类算法改进及并行化实现互联网天地(2016年1期)2016-05-04基于改进的遗传算法的模糊聚类算法智能系统学报(2015年4期)2015-12-27基于信息熵的循环谱分析方法及其在滚动轴承故障诊断中的应用振动工程学报(2015年1期)2015-03-01基于层次化分类器的遥感图像飞机目标检测航天返回与遥感(2014年5期)2014-07-31推荐访问:网络安全 入侵 检测系统
上一篇:多因素影响下步进接触电压场路耦合模型及分析
下一篇:基于单值中智集的改进VIKOR法及其应用

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有