云计算下大规模网络流量异常检测仿真

来源:优秀文章 发布时间:2023-04-14 点击:

罗宏芳,王春枝

(1. 湖北工业大学工程技术学院,湖北 武汉 430068;
2. 湖北工业大学计算机学院,湖北 武汉 430068)

由于计算机网络规模的扩大,数据量也随之增长,直接导致网络被滥用的情况增加,以上问题会对网络流量的稳定性造成巨大影响,使得计算机网络安全性能大大下降[1,2]。现如今计算机网络均添加云计算功能[3],使得计算机运算以及网络资源容量大大提升,也提高了用户的访问量,这导致网络流量的波动幅度较大,因此,为了网络安全,网络流量异常波动的检测必须受到重视。

孟永伟[4]首先分析网络流量数据的特征属性,基于特征属性得出属性矩阵,同时通过数据的相似性得出邻接矩阵,结合两种矩阵建立出网络流量异常检测模型,对模型进行求解实现大规模网络流量异常检测。董书琴[5]等人在小批量梯度下降算法的基础上对流量数据SDA(堆叠降噪自编码器)开展训练,根据噪声数据和原始数据向量之间的偏差得出流量特征,并依据流量特征对数据进行训练得出异常网络流量检测分类器,实现大规模网络流量异常检测。以上方法在对大规模网络异常流量进行检测过程中没有对流量数据进行组合融合处理,导致流量无法被准确区分,影响异常流量检测效果。为了解决上述方法中存在的问题,提出面向云计算的大规模网络流量异常检测方法。

对云计算空间中的大规模网络流量进行分组[6],分别对流量数据进行特征提取[7]、聚类分组[8]以及分组融合处理,生成最详细的分组结果,这样处理后的流量数据可提升检测结果的准确率,流量特征提取的目的是为数据聚类分组提供特征分组向量,方便大规模流量数据聚类。

2.1 流量数据特征提取

常规的流量数据特征提取方法由于定义过于模糊,所以特征提取的结果主观性过强[9,10],为了解决该问题,利用DWT(离散小波变换)分解原始流量数据,提取出其中的隐藏时频特征,进而详细地描述出网络流量数据特征。

DWT信号处理方法是通过母小波得出零均值函数,将其视为小波,进而完成初始流量数据序列的卷积处理。假设母小波为γA,B(t),则母小波的展开式为:

(1)

式中,A代表流量数据的缩放参数,B代表流量数据的位移参数,t表示母小波,t表示信号处理时间。

其中,参数A和B的计算公式分别为

(2)

式中,j和k均代表常数。

将原始流量数据标记为s(t),并对式(1)进行离散化处理,通过离散小波函数对原始信号进行转换,转换后的原始流量数据表达式为

(3)

则离散小波λj,k(t)的表达式为

(4)

(5)

式中,AM,k代表M级分解的缩放函数的系数,γ(·)代表M级分解的缩放函数,Fj(t)代表近似系数与M级的详细系数之间的函数关系。

根据式(5)可将原始流量数据s(t)分解出近似系数与M级的详细系数,由此总结出不同的小波以及级别得出的分解信号系数也不尽相同,不同的系数会得出不同的DWT特征提取结果[11],其中包含着最优结果。但由于计算量过大很难找寻出最优结果,经大量研究发现,异常网络流量数据通常会变为低维流特征,所以想要选取出异常流量仅仅提取低维流特征即可,将网络流量数据的实时数据以及以往两次流量数据的差分值,视为流量数据聚类的特征即可,得出流量的特征向量表达式为

G=(Vl,Vl-Vl-1)

(6)

式中,V代表大规模网络流量值,l代表流量数据采样的时间。

2.2 流量数据聚类分组

利用BIRCH(利用层次方法的平衡迭代规约和聚类)算法对大规模网络流量数据进行聚类[12],通过扫描全部流量数据特征构建出初始化的特征数,假设特征树为CF,其表达式为

(7)

当目标数据添加到邻近的节点中,且该节点的半径大于固定阈值,该节点就会被分割,当聚类特征树构建完成后,根据聚类特征对数据进一步聚类即可得到最详细的分类结果。

2.3 流量数据分组融合

由于聚类分组的流量结果不能很好地处理一个用户属于多个分组的情况,因此,上述的聚类结果和实际情况存在一定差异,较为相似的网络流量数据特征易分类到同一组,还需对其进行修正,为解决这一问题得出下列分组融合策略[13]。

1)在对数据分组开始前将全部流量进行初始化处理,将处理完成后的流量全部划分到一组中。

2)生成一组聚类数据后,提取出该组与其它组的交集,将其中最大交集的新分组添加到目前分组中。

3)合并完成后其中若还有存在被重新分组的流量数据,则将这一部分数据列为一组即可,进而完成所有数据聚类融合。

针对云计算下大规模网络流量数据的异常检测,选用NMF(非负矩阵分解)[14,15]为检测方法,该方法的检测步骤共分为三步,分别为建立常规子空间、生成残余矩阵和异常检测,在上述分组的流量结果的基础上进行网络流量的异常进行检测。

3.1 建立常规子空间

假设原始流量矩阵为X,其表达式为

X=[X1,X2,…,Xi]

(8)

式中,Xi代表矩阵中的第i个网络流量实际位置的测量值列向量。

在原始流量矩阵中,可将Xi视为在d维空间中的一点,因为其带有低维特性,所以网络流量矩阵可通过R维子空间进行描述,在该空间中对矩阵X实施NMF处理后即可生成R维子空间的基向量,其集合矩阵表达式为

U=[U1,U2,…,Uj]

(9)

式中,Uj代表矩阵中的基向量。

矩阵U中每个维度的基向量均获取了时变形式,则矩阵X在维度R空间中的系数向量矩阵表达式为

W=[W1,W2,…,Wi]

(10)

在R维子空间中齐聚式(8)、(9)、(10)即可构建出正常的子空间。

3.2 生成残余矩阵

根据上述子空间重构大规模网络流量矩阵X,继而得到全新的流量矩阵,其表达式为

=[U1,U2,…,Uj][W1,W2,…,Wi]

(11)

矩阵中的噪声和异常部分的流量表达式为

(12)

各个流量测量周期中的残余流量是检测流量是否异常的基础[16,17],即大规模网络流量测量周期的残余流量。

3.3 异常检测

假设网络流量第q个测量周期的结果为

Xq=(Xq1,Xq2,…,Xqi)

(13)

通过NMF处理[18]后Xq可以改写为

(14)

若将流量采样测量周期的均值、标准差以及极差视为统计信息,此时利用Shewhart控制图[19]描述异常与正常数据之间的差别更为明显,将异常的流量视为异常采样点,否则为正常采样点。Shewhart控制图实质上是将目标数据视为正态分布,根据目标数据的均值以及标准差,得出数据发生变化的界限判断出网络流量是否出现异常,从而完成网络流量异常检测。

(15)

式中,Hi代表第i个采样点的极值。

则控制图的控制界限表达式为

(16)

式中,d3和d2均代表根据规则计算得出的测量值,CL、UCL和LCL均代表控制图的界限,E(H)代表极值的计算函数。

当采样值的结果超过式(16)的界限即可检测出大规网络的异常流量。

为了验证面向云计算的大规模网络流量异常检测方法的整体有效性,现对本文方法、利用残差分析的网络异常流量检测方法和基于深度特征学习的网络流量异常检测方法进行异常流量检测精度和检测指标评价的测试,测试结果如下所示。

4.1 实验数据来源

实验所用数据来自WIDE Project数据集(http:∥mawi.wide.ad.jp/mawi/),该数据集中包含某条骨干网络的网络流量,里面一共涉及7个采样点,且时间跨度较大。在该数据集中抽取一定数量的正常流量数据与异常流量数据,运用SPSS仿真软件对数据进行处理。实验中,保证三种异常流量检测方法的实验环境均一致。

4.2 实验结果分析

1)异常流量检测精度

在实验数据集中抽取异常流量数据,形成5个样本集,分别定义为样本1~样本5,每组样本中包含的异常类别数量分别为30个,20个,15个,40个以及55个,三种检测方法检测得到的异常类别数量与实际值越接近,说明检测结果精度越高,如图1所示。

根据实验结果可知,本文方法与实际流量异常类别数量完全相同,说明本文方法可百分百检测出不同种类样本下的异常流量类别,检测精度较高,其次是残差分析方法,该方法可检测出大部分的网络异常流量,但针对数量较少且不易被发现的异常流量很难检测出,深度特征学习方法的检测结果更差,由此证明本文方法的检测效果更好。这是因为本文方法在对网络异常流量进行检测过程中将海量数据进行分组处理,且保证数据分组的精度,从而降低整体计算复杂度,从而提高检测能力。

图1 三种方法的异常流量检测精度

2)异常流量检测指标评价

为了进一步验证本文方法的异常流量检测效果,现选取2个指标在上述实验环境下利用三种方法进行检测。

指标分别为召回率以及F1值,召回率是指每组样本中被正确检测出来的异常流量占异常样本的比值,其计算公式为:

(17)

式中,TP代表正确检测的样本数量,FN代表被错误检测出的样本数量。

F1值的计算公式为

(18)

式中,P代表检测精度。

根据以上计算公式得出三种方法的召回率以及F1值,其结果如图2和图3所示。

图2 三种方法的召回率

根据图2和图3中的实验结果可知,本文方法的召回率以及F1值均高于残差分析方法和深度特征学习方法,说明本文方法的异常流量检测效果更好。

图3 不同方法的F1值

云计算可容纳海量数据,可保证计算机数据库的完整,但网络流量在运行过程中的运算资源以及网络资源较大,为防止流量异常造成的网络拥堵或网络崩溃的情况,提出面向云计算的大规模网络流量异常检测方法,该方法首先对网络流量数据进行分组,在此基础上,利用NMF异常流量检测算法对大规模网络流量进行异常检测。解决了异常流量检测效果不佳的问题,避免因为聚类融合导致的同一流量无法区分情况的产生,提升了网络异常流量检测的精度与效果。

猜你喜欢网络流量分组聚类基于多元高斯分布的网络流量异常识别方法淮阴师范学院学报(自然科学版)(2022年3期)2022-09-22基于神经网络的P2P流量识别方法微型电脑应用(2021年3期)2021-03-31基于K-means聚类的车-地无线通信场强研究铁道通信信号(2019年6期)2019-10-08分组搭配小学生学习指导(低年级)(2019年3期)2019-04-22怎么分组小学生学习指导(低年级)(2018年9期)2018-09-26AVB网络流量整形帧模型端到端延迟计算北京航空航天大学学报(2017年7期)2017-11-24分组小学生导刊(低年级)(2017年1期)2017-06-12基于高斯混合聚类的阵列干涉SAR三维成像雷达学报(2017年6期)2017-03-26一种层次初始的聚类个数自适应的聚类方法研究电子设计工程(2015年6期)2015-02-27自适应确定K-means算法的聚类数:以遥感图像聚类为例华东师范大学学报(自然科学版)(2014年6期)2014-02-27推荐访问:仿真 网络流量 异常
上一篇:基于分形理论的异质网络中局部离群点检测
下一篇:一种两层异构网络通信的智慧路灯管理系统设计

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有