论文学习笔记-M2Detx

来源:高一 发布时间:2020-08-30 点击:

 论文学习笔记-M2Det 论文学习笔记-M2Det 原文:https://blog.csdn.net/sinat_37532065/article/details/87385302

  『写在前面』 Single-shot 目标检测新模型,使用 multi-level 特征。

 作者机构:Qijie Zhao 等,北京大学&阿里达摩院 文章标题:《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid》 原文链接:https://arxiv.org/abs/1811.04533 相关 repo:https://github.com/qijiezhao/M2Det

  https://github.com/tadax/m2det

 摘要 提出多级特征金字塔网络 MLFPN • 基于提出的 MLFPN,结合 SSD,提出一种新的 Single-shot 目标检测模型M2Det • 在 MS-COCO benchmark 上,M2Det 的单尺度版本和多尺度版本 AP 分别达到41.0 和 44.2

 介绍 为了解决目标实例的尺度变化问题,主流做法有两种:

 • 一是在测试阶段使用图像金字塔(如 Cascade RCNN),即将原始图像进行一系列缩放,毫无疑问这会大幅增加内存和计算开销;

 • 二是在从输入图像提取出的特征金字塔上进行检测,该方法可以同时用于训练和测试阶段中,相对开销较小,易于集成,适合 end-to-end。

 如下图所示,文中列举了四种风格的特征金字塔:SSD 型、FPN 型、STDN 型,以及本文所提出的 MLFPN 型。并总结了前三种特征金字塔的缺点,主要有两点:一是均基于分类网络作为主干提取,对目标检测任务而言特征表示可能不够;二是每个 feature map 仅由主干网络的 single level 给出,不够全面(一般来说,高层特征利于进行分类,低层特征利于回归目标位置)。

  • SSD 型:使用了主干网络的最后两层,再加上 4 个使用 stride=2 卷积的下采样层构成; FPN 型:也称为 U 型网络,经过上采样操作,然后对应融合相同的 scale; • STDN 型:基于 DenseNet 的最后一个 dense block,通过池化和 scale-transfer操作来构建; • MLFPN 型:本文新提出,整体思想是 Multi-level&Multi-scale,下文详述。

 为了更好地解决目标检测中尺度变化带来的问题,本文提出一种更有效的特征金字塔结构 MLFPN, 其大致流程如下图所示:首先,对主干网络提取到的进行融合;然后通过 TUM 和 FFM 提取更有代表性的 Multi-level&Mutli-scale 特征;最后通过 SFAM 融合多级特征,得到多级特征金字塔用于最终阶段的预测。

 所提方法 M2Det 使用主干网络+MLFPN 来提取图像特征,然后采用类似 SSD 的方式预测密集的包围框和类别得分,通过 NMS 得到最后的检测结果。

 MLFPN 详解 如上图所示,MLFPN 主要有 3 个模块组成:

 1)特征融合模块 FFM; 2)细化 U 型模块 TUM; 3)尺度特征聚合模块 SFAM. 首先, FFMv1 对主干网络提取到的浅层和深层特征进行融合,得到 base feature; 其次,堆叠多个 TUM 和 FFMv2,每个 TUM 可以产生多个不同 scale 的 feature map,每个 FFMv2 融合 base feature 和上一个 TUM 的输出,并给到下一个 TUM作为输入(更高 level)。每个 level 的输出如下公式所述;

 最后,SFAM 通过 scale-wise 拼接和 channel-wise attention 来聚合 multi-level&multi-scale 的特征。

 特征融合模块 特征融合模块 FFM FFM 用于融合 M2Det 中不同级别的特征,先通过 1x1 卷积压缩通道数,再进行拼接。具体而言:

 1. FFMv1 使用两种不同 scale 的 feature map 作为输入,所以在拼接操作之前加入了上采样操作来调整大小; 2. FFMv2 的两个输入的 scale 相同,所以比较简单。两种 FFM 的细节如下图所示。

 化 细化 U 型模块 型模块 TUM

 TUM 使用了比 FPN 和 RetinaNet 更薄的 U 型网络。在上采样和元素相加操作之后加上 1x1 卷积来加强学习能力和保持特征平滑度。TUM 中每个解码器的输出共同构成了该 TUM 的 multi-scale 输出。每个 TUM 的输出共同构成了 multi-level&multi-scale 特征,前面的 TUM 提供 low level feature,后面的 TUM 提供high level feature.TUM 的细节如下图所示:

 尺度特征聚合模块 尺度特征聚合模块 SFAM SFAM 旨在聚合 TUMs 产生的多级多尺度特征,以构造一个多级特征金字塔。在first stage,SFAM 沿着 channel 维度将拥有相同 scale 的 feature map 进行拼接,这样得到的每个 scale 的特征都包含了多个 level 的信息。然后在 second stage,借鉴 SENet 的思想,加入 channel-wise attention,以更好地捕捉有用的特征。SFAM的细节如下图所示:

 网络配置 M2Det 的主干网络采用 VGG-16 和 ResNet-101 MLFPN 的默认配置包含有 8 个 TUM,每个 TUM 包含 5 个跨步卷积核 5 个上采样操作,所以每个 TUM 的输出包含了 6 个不同 scale 的特征。

 在检测阶段,为 6 组金字塔特征每组后面添加两个卷积层,以分别实现位置回归和分类。

 后处理阶段,使用 soft-NMS 来过滤无用的包围框。

 实验部分

 贴一张效率 VS 精度的对比图。

推荐访问:学习笔记 论文 M2Detx
上一篇:酒店年度工作总结,2
下一篇:中南大学土木工程材料课后习题及答案

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有