基于人工智能技术的物联网大数据挖掘算法

来源：优秀文章发布时间：2023-02-10 点击：

（江苏电力信息技术有限公司，江苏南京市，210000）封晶孙澄宇董平赵南

物联网技术的飞速发展，推动着大数据挖掘的变革，信息挖掘逐渐从整体化挖掘对象转变为分布式、碎片化的挖掘模式。为实现物联网中海量信息的有效利用，以及促进数据挖掘的集中化发展，提出了具有前瞻性的人工智能大数据挖掘算法，在智能化时代背景下对于我国工业经济的发展和建设具有重要作用。

1.1 数据模型树构建

为满足物联网动态特性以及用户信息获取的准确度，需要构建数据模型用于无法物联网中用户的行为。首先，基于模型树的特征，对物联网中的用户数据进行扫描，以保证数据的全面性。其次，根据物联网网络节点构建用户数据集。最后，从数据集中提取数据量较大的节点，然后进行数据挖掘，针对其他数据节点主要采用排序方法进行处理[1]。基于上述网络节点选择方法，可以获取不同周期的节点数据模型树。

1.2 物联网数据特征检测

构建数据模型树虽然可以明确数据挖掘内容和范围，但是无法保证模型关联度的准确性以期获取的挖掘结果。因此，需要采用数据特征提取算法分析大数据特征，并根据数据属性，获取数据价值维度。假设大数据挖掘集为D，数据集维度为d，则根据大数据属性可以获取大数据属性集合W。

如果数据挖掘子空间为S，则数据属性集合将包含子空间S，并且子空间S中的对象为0∈D。基于数据离群特征，可以获取子空间S中数据对象的邻域（0,S），该邻域为非均匀分布状态。如果在子空间S中随机提取一个对象，那么其离群概率则为Id（0,S）。从数据属性方面来看，该集合中子空间中心位置即为数据对象0，由此得出子空间离群概率距离公式为：

式中：d为距离；
Id（0,S）为离群概率。

由于物联网大部分的数据都为不均匀分布，因此需要利用理算数据标准距离与密度的近似值表示离散数据特征：

基于离散特征λ可以获取物联网中离散数据分布情况。针对上述数据值的获取，可以采用信息熵检测方法，在待测数据集Y中，对数据y的分布特征进行分析，基于概率函数p可以获得y数据信息熵E（y）：

根据信息熵计算结果，可以对待测数据进行排序。并按照从大到小的排序方式，提取出多个信息熵较大的数据作为聚类中心对剩余数据进行检测。数据聚类中心距离计算公式为：

式（4）中，a、b为随机提取的聚类中心，并将其作为核心，对所有数据信息熵进行计算后获得聚类阈值。如果聚类中心距离小于阈值时，则需要重新选择聚类中心，并重复式（4）计算过程中，直至聚类距离计算结果大于阈值为止[2]。

1.3 特征数据的标准化处理

在数据特征检测过程中通常会产生噪声数据或数据量纲差异较差，该情况会影响大数据挖掘质量和效率，因此为保证数据分析的准确性，需要采用标准化方法对检测数据进行处理。

在数据标准化处理过程中，利用标准差对数据进行计算，可以进一步强化数据的特征，有利于保证大数据挖掘的质量。除了利用标准差对数据进行标准化处理外，还可以利用数据平均偏差Gα进行计算，计算公式为：

利用上述公式对特征数据进行标准化处理后，可以提高大数据挖掘算法抗干扰性。数据标准差Yα、数据平均偏差Gα、数据均值α计算公式为：

式中，m为迭代次数。在对数据进行标准化处理后，需要采用人工智能技术对大数据进行挖掘。

1.4 基于人工神经网络的大数据挖掘

BP神经网络（以下简称BP网）具有多层传输结构，并且其各层神经元数量可以随意设定，因此将其作为大数据挖掘的主体结构，并将经过标准化处理的数据传输至BP网中[3]。由于BP网结构存在的一定的特殊性，因此需要计算数据信息熵，并求出其平均值E，然后将其作为物联网各层的连接权值ω，其计算公式为：

式中：ω为连接权值；
Hi为属性熵值，E为信息熵平均值。

在获取到BP网连接权值后，需要根据图2分析流程，对物联网中的数据进行挖掘。

图1 BP网挖掘流程

从图2可知，基于人工智能的物联网大数据挖掘算法，融入了遗传学习算法，并配置了以网络结构和网络分类能力为核心的大数据分类器。利用遗传学习算法对大数据挖掘进行优化，然后输出满足大数据挖掘条件的数据[4]。

2.1 获取数据集

为验证基于人工智能技术的大数据挖掘算法的性能，通过仿真实验方法对算法应用效果进行检验。首先，选择具有3500个二维特征的数据，并将其构成数据集。

数据被划分为15类，并且每个数据聚类模糊系数均为1.7，传递点数量为2。为使数据向量维度值保持在0～1之间，需要去除每个维度中参数最小的值，并计算最大值与计算结构之间的商值。该计算过程主要是对数据进行正则化处理。在本次仿真实验中，共设置四个数据集，数据集大小为10%、20%、25%、50%。

2.2 性能指标

在本次仿真实验中主要采用RI和F-measure作为判断人工智能大数据挖掘算法的重要指标，Fmeasure是一种常用的大数据挖掘性能评价指标，其计算公式为：

式中：F为计算结果；
R为召回率；
P为精度。

计算结果的准确性通常取决于精度和召回率。其中精度具体是指大数据挖掘过程中精准参数所占据的比例；
召回率具体是指具有特定类特性的数据数量。I、j量类数据的召回率与精度计算公式为：

大数据挖掘的质量也可以利用RI指标对其进行评价。首先，计算出数据集X聚类参数和实际聚类参数CT。其次，对无序数据点（xi，xj）进行定义，划分出RI值的集合FP、TP、FN、TN。

RI计算公式为：

利用公式（11）对RI指标进行计算，可以获取到取值范围在0～1之间的参数，如果RI指标趋近于1，则实际计算结果与挖掘结果相似度越高，并且挖掘算法精度也越高；
如果RI指标趋近于0，则实际计算结果与挖掘结果相似度较低，并且算法精度也较低。

本文基于人工智能技术，通过特征数据提取、特征数据检测、特征数据标准化处理等方式，在获取和处理挖掘数据信息熵后，融入遗传学习算法对信息熵平均值进行计算，该算法能够进一步提高物联网中大数据挖掘的质量和效率。BP网和遗传学算法的融入，不仅提高了大数据对数据集的处理能力，而且也解决了大数据挖掘过程中信息传递错误的情况。通常仿真实验，验证了基于人工智能技术的大数据挖掘算法在RI结果和F-measure结果确实有所改进，同时也证明了人工智能技术在大数据挖掘中的应用，有利于促进大数据挖掘的持续发展。

猜你喜欢信息熵计算公式数据挖掘电机温升计算公式的推导和应用防爆电机(2022年4期)2022-08-17改进支持向量机在特征数据挖掘中的智能应用九江学院学报(自然科学版)(2022年2期)2022-07-02基于信息熵可信度的测试点选择方法研究军民两用技术与产品(2022年1期)2022-06-01探讨人工智能与数据挖掘发展趋势大众投资指南(2021年35期)2021-02-16数据挖掘技术在打击倒卖OBU逃费中的应用浅析中国交通信息化(2020年1期)2020-07-272019离职补偿金计算公式一览表中国眼镜科技杂志(2019年9期)2019-11-11基于信息熵赋权法优化哮喘方醇提工艺中成药(2017年7期)2017-11-22谈拟柱体的体积高中生学习·高二版(2017年9期)2017-10-25一种基于信息熵的雷达动态自适应选择跟踪方法雷达学报(2017年6期)2017-03-26软件工程领域中的异常数据挖掘算法电子技术与软件工程(2016年24期)2017-02-23推荐访问:人工智能联网算法

上一篇：智慧城市建筑的摄影测量和遥感技术
下一篇：基于二阶锥松弛的三相不平衡配电网最优潮流研究*

推荐文章

推荐内容

优秀文章推荐文章

优秀文章热门文章