一种基于改进SSD的特殊服饰识别

来源：优秀文章发布时间：2022-12-06 点击：

朱书霖，吴新春，成鑫才

西南交通大学信息科学与技术学院，四川成都，611756

在当前时代，信息的获得、加工、处理技术以及应用都有了飞跃发展。人们认识世界的重要知识来源就是图像信息。随着计算机视觉技术在不断发展与进步。计算机在一些领域上已经可以通过获取的各种图像信息理解并且进行分析。同时目标检测如今已经成了计算机视觉的主要研究领域之一[1]。目标检测是指能够精确定位一些图像或者场景中的目标的技术[2]。

对于我国来说，随着经济的发展，城市化进程的加大，治安水平也在不断提高，但针对一些特定的场合，由于其经济水平和科技水平较低，其治安情况仍相对于其他地方较低。因此对于这些地方来说仍然可能存在有危害社会安全的行为发生的可能。对于这些地区来说，人员组成复杂，现代科技普及较少。同时虽然现在天网系统较为普及，但是监控摄像头一般只能在案发后进行刑事追责，而很难起到实时报警的作用。

基于卷积神经网络的目标检测算法是如今最流行的目标检测方法，主要包括目标检测器(single shot multiBox detector，SSD)[3]，You Only Look Once（YOLO）[4-7], Regions with CNN features(RCNN)[8-10]。其中YOLO和SSD属于单阶段目标检测算法，而RCNN属于双阶段目标检测算法。单阶段的目标检测算法采用了回归分析的思想，省略了候选区域生成阶段，直接得到目标分类和位置信息。双阶段检测算法将检测问题划分为两个阶段，首先产生候选区域，然后对候选区域分类。其中双阶段算法识别准确率高，但是计算复杂度过于庞大。对于单阶段目标检测算法来说，YOLO V1 、YOLO V2物体识别准确率相对SSD较低，同时YOLO V3、YOLO V4计算量相对较大[11]，本文在SSD的基础上进行轻量化网络设计，从而大幅度减少目标检测模型的计算量，同时保证整个模型的精度。

1.1 SSD网络结构

SSD的主体网络结构采用的是VGG16网络结构（VGG16是由Oxford的Visual Geometry Group提出的，整个网络结构是由13层卷积层加3层全连接层），但是对VGG16网络结构进行了更改，舍弃了VGG16的三个全连接层，采用了两个卷积层代替。此外SSD在VGG网络的最后端，新增了4个卷积块。

如图1所示，SSD采用特征金字塔中各个层所提取的特征来对不同尺度的目标进行检测。通过对Conv4_3、Conv7_2、Conv8_2、Conv9_2、Conv10_2、Conv11_2各个卷积层所提取的特征点进行预测，从而得出目标物体的先验框。再通过非极大值抑制（Non-Maximum Suppression，非极大抑制值是对相邻先验框提取出目标识别概率最大的一个先验框，并且抑制概率较小的先验框）。得到了最后的检测结果。

图1 SSD网络结构图

1.2 模型概述

改进SSD模型借鉴了SSD与Mobilenet V1-SSD的思想，在原有SSD模型基础上使用了Mobilenet V1的思想，对整个网络进行了轻量化的设计。并且通过对不同的特征层进行预测，得到不同特征层分别的先验框，最后通过非极大值抑制法删除掉冗余的先验框，得到精准的检测结果。

1.3 基本原理

1.3.1 多尺度预测

改进SSD算法通过对特征金字塔中不同维度的特征图进行多尺度目标检测，从而完成对整张图像的目标检测。改进SSD算法采用的特征图大小为{4、6、6、6、6、6}。同时其对应的先验框数量分别为{4、6、6、6、6、4}。

1.3.2 非极大值抑制

通过多尺度预测，会产生大量的冗余的先验框。通过非极大值抑制使用交互比判断冗余的候选框，对于两个交互比大于模型所设的阈值时，对置信度较低的候选框进行删除，同时保留较高的候选框。

1.4 网络结构

改进SSD模型基于VGG16模型进行轻量化设计，详细网络结构如图2所示。

图2 改进SSD网络结构

2.1 数据准备

对于特殊服饰，现有数据集均未有各种服饰的数据，因此本文主要采用了以下三种方法完成数据集的构建。一部分是采用网络爬虫，爬取互联网上的图片，再进行筛选得到的图片，另外一部分则是选择在网上搜索纪录片，通过将视频导出为图片再进行筛选，最后一部分来自已有数据集的图像增强。

（1）网络爬虫。如果将互联网比喻成一张网，那么网络爬虫就是可以在网上爬来爬去得小虫子，通过网页的链接地址来寻找网页，通常通过网站的某一个页面开始读取网页的内容，最后在该网页中找到其他链接地址，从而寻找下一个网页，最后抓取完该网站所有网页。

（2）纪录片导出。通过网上搜索相应的纪录片，录制其视频，再通过Adobe Premiere Pro软件将录制好的视频通过每1秒一帧导出成图片，再通过手动筛选出不符合需求的图片。

（3）图像增强。针对部分服饰种类实际数据的采集场景是有限的，因此采取一些数据增强的方法可以有效扩展数据集数量，同时也可以防止目标检测模型学习过程中出现的过拟合现象。现有的图像增强方法大致可以分为空间变换、色彩失真等几种方法。

最后通过以上三种方法构了一种特殊服饰专用的数据集，该数据集共有医生、警察、藏族、藏传佛教、普通人五种类别。最后生成的数据集总共有图片2271张，并在实验时候将数据集分为训练集2037张，测试集234张两个部分。

3.1 实验环境

本文实验硬件环境为Nvidia Geforce GTX 2080Ti，软件环境为CUDA 10.1.243，Cudnn 7.6.5，Windows 10，Tensorflow2.1。

3.3 结果与讨论

对于模型的评估，采用了文献[20]中描述的mAP（一种计算不同的类别的平均精确度的方法）方法评价了该方法的性能。其结果如图3所示，各个服饰的PR曲线如图4所示。

图3 特殊服饰数据集mAP率

图4 各个服饰的PR曲线

该模型对于未穿特殊服饰的普通人的检测相比特殊服饰的人员检测率有着较大的波动，这是因为相对于穿着特殊服饰的人员来说，普通人的衣服未有比较普遍的图像特征，同时数据集中缺乏各种各样的普通人服饰。但是对于本系统的主要目的是检测特殊服饰人员，因此该系统仍然能够完成所需要完成的任务。模型的部分检测结果如图5所示。

图5 各服饰检测结果图

根据图5，使用本文所提出的算法能够较为精确地识别出各种特殊服饰，从而完成检测的需求。

为了进一步保障一些特殊地区的安全需求，本文提出了一种改进SSD算法，并且基于该模型对识别几种特殊服饰进行了训练与检测。可以看到本文所提出的模型能够较好地完成所需完成的任务，同时由于其主体结构全部采用深度可分离卷积，大量地减少了其计算量，从而能够部署到各个终端系统中。

猜你喜欢先验网络结构网页康德定言命令的演绎是一种先验演绎吗?——论纯粹知性与实践理性在先天原则证成方面之异同社会科学战线(2022年1期)2022-02-16基于暗通道先验的单幅图像去雾算法研究与实现客联(2021年9期)2021-11-07先验想象力在范畴先验演绎中的定位研究海外文摘·艺术(2020年22期)2020-11-18基于HTML5静态网页设计魅力中国(2018年5期)2018-07-30搜索引擎怎样对网页排序中学科技(2016年7期)2017-05-16试论分布式计算机网络结构分析与优化科学与财富(2016年15期)2016-11-24带通信配网故障指示器故障监测方法及安装分析科技视界(2016年18期)2016-11-03先验的风岁月(2016年5期)2016-08-13非常规突发事件跨组织合作网络结构演化机理研究软科学(2014年8期)2015-01-20网页智能搜索数据挖掘的主要任务智能计算机与应用(2007年4期)2007-08-25推荐访问:识别改进服饰

上一篇：构建课程知识图谱的重要性研究——以“数据结构”课程为例
下一篇：硬塑料包层光纤构成的多功能光纤传感器

推荐文章

推荐内容

优秀文章推荐文章

优秀文章热门文章