视频分割中局部记忆语义特征增强算法

来源：优秀文章发布时间：2022-12-05 点击：

王美童，毛琳，杨大伟

(大连民族大学机电工程学院，辽宁大连 116605)

视频语义分割是为每一视频帧逐像素分配类别标签的过程。与图像语义分割相比，视频是图像的集合，由于场景中运动物体时刻变化，导致分割不稳定，使得实现高质量视频语义分割任务极具挑战。深层帧间语义特征准确性对分割结果至关重要，对此国内外大量学者展开研究。

目前主流视频语义分割网络采用AlexNet[1]、VGG[2]、GoogLeNet[3]和ResNet[4]等作为主干进行特征提取，但在特征提取过程中，一些表示高频边缘轮廓的信息无法完整保留[5-7]。基于光流计算的方法利用光流信息进行特征融合获取更准确的特征表示，利用相邻两帧之间光流计算结果增强当前帧分割[8]。Gadde等[9]提出Netwarp模块，在金字塔场景解析网络(Pyramid Scene Parsing Network，PSPNet)[10]池化层前后插入Netwarp模块，利用光流将前一帧特征迁移到当前帧，起到特征增强作用。Zhu等[11]提出深度特征流网络(Deep Feature Flow，DFF)，只提取关键帧特征，对非关键帧计算其与关键帧的光流从而减少计算量，但光流计算成本较大，同时容易将关键帧冗余特征传递到当前帧。基于长短期记忆网络[12](Long-Short Term Memory，LSTM)的方法学习如何在时序上将多帧信息融合地更好。Nilsson等[13]提出时空转换器门控循环单元(Spatio-Temporal Transformer Gated Recurrent Unit，STGRU)，将多帧的语义分割图通过GRU传递到当前帧，只对分割后的结果进行处理，结合多帧未标注信息使分割结果语义一致性增强。Sistu等[14]提出多流全卷积网络(Multi-Stream Full Convlution Network，MSFCN)，使用ResNet-50作为基线编码器，利用LSTM对FCN[15]编码器进行时间处理，将当前帧和过去帧的编码融合，但LSTM嵌在编码器和解码器之间，对主干网络提取的特征直接进行处理，忽略了主干网络提取特征的不充分性。Li等[16]提出注意力引导网络(Attention-Guided Network，AGNet)，自适应加强帧间和帧内特征，通过提高时间连续性实现精准分割。Wang等[17]提出时空记忆注意力网络(Temporal Memory Attention，TMANet)，利用记忆和自注意力建立时间关系，引入时间记忆注意模块捕捉时间序列的特征关系。Paul等[18]提出局部记忆注意网络(Local Memory Attention Network，LMANet)，网络主干使用改进后的高效残差结构(Efficient Residual Factorized ConvNet，ERFNet)获得更深层次的性能增益，使用局部注意力机制访问内存中的特征。上述研究中利用了光流、LSTM、注意力机制等对主干输出特征进行不同形式处理，但忽略了特征在传递过程中产生偏差的问题，导致在解码分割中不能得到精细的边缘轮廓和具体结构特征。

针对目前视频语义分割算法中帧间语义特征传递偏差问题，本文提出局部记忆语义特征增强算法(Local Memory Semantic Feature Enhancement Algorithm，E-LMA)，借鉴八度卷积(OctConv)特征分频处理思想[19]，将卷积层输出特征映射看作不同频率信息的混合。使用OctConv在相应的频率空间上做不同卷积处理，形成频率之间的信息交互，使网络能有效处理高、低频分量，增强记忆帧和查询帧的特征表达能力，能够更准确地比较相邻帧之间的相似信息，从而提升分割准确性。

1.1 局部记忆语义特征问题分析

为减小帧间语义特征传递偏差，构建视频语义分割网络，该网络以编码-解码架构为基础，输入视频帧经主干网络提取特征可表示为

X=F(I)。

(1)

式中：I表示输入主干网络的视频帧；
F表示卷积和最大池化计算过程；
X表示主干网络输出特征图。经池化和下采样操作过滤边缘纹理信息，特征图趋于平滑状态，特征图表达不够清晰。

(2)

式中：M(Memory)表示记忆；
Q(Query)表示查询；
C表示通道数；
H×W表示特征图的空间尺寸大小；
G1和G2表示通道数为128、卷积核为3×3的卷积计算。

定义2：KM(i,j)和KQ(p,q)为表示空间位置的特征向量，(i,j),(p,q)∈{1,…,H}×{1,…,W}，记忆和查询配对相似度可以表示为一个4维张量C(KM,KQ)∈RH×W×R×R，则C的计算过程为

C(KM,KQ)=KM(i,j)TKQ(p,q)。

(3)

式中，通过匹配K(Key)访问和组合存储在V(Value)中的丰富语义特征。

目前基于时空记忆(Space-Time Memory)[20,21]方法利用图像全局特征构建帧间全局记忆，视频目标在给定位置的内容更可能在记忆帧的相似位置找到，因此采用记忆帧中局部特征构建精确的局部区域记忆。

(4)

式中：R表示局部记忆区域大小，R≤H,W；
m、n表示第s个目标位置；
P表示局部记忆语义特征匹配结果；
⊗表示元素相乘。

在特征匹配的过程中，由于经主干编码得到的特征丢失高频边缘，导致帧间的语义特征在传递过程中出现偏差，尤其是当运动目标移动速度过快时，特征匹配可能出错导致分割结果不准确，在不同类别间引入错误的相关性，使分类不准确，降低分割精度。为解决这一问题，将编码输出的混合特征映射到频率域进行分解。E-LMA局部记忆语义特征增强算法结构如图1。

图1 E-LMA局部记忆语义特征增强算法结构

E-LMA算法分开处理低频和高频信息，使用OctConv在高频和低频信息之间建立有效联系，将处理后的特征图与记忆特征和查询特征融合，有助于捕获更多全局信息，输出增强后的特征。增强后的高频边缘特征改善了特征图在匹配过程中出现的局部记忆特征丢失问题。本文提出一种高效的方式访问包含在内存中正确边缘位置的相关特性，为分割解码器提供了高质量的特征图，有效提升分割准确性。

1.2 局部记忆增强方法

在局部记忆语义特征增强模块中引入OctConv，OctConv特征增强模块如图2。采用先分离再融合的思想从特征图中分离出高频和低频特征，并调整各频率分量权重。先对特征的高频边缘区域进行增强，其次基于高频增强结果恢复低频结构特征，使输出特征图包含更多高低频信息，有效提高对低频和高频的信息利用[22]。

图2 OctConv特征增强模块

YL=fk1(XL)+fk3(ga(XH))；

(5)

YH=fk4(XH)+gu(fk2(XL))；

(6)

YHL=fk4(YL)+gu(fk2(YL))。

(7)

式中：fk1、fk2、fk3和fk4表示卷积操计算；
ga表示平均池化；
gu表示上采样；
HL表示频率更新方向；
YHL表示将输出的高频特征YL再次分解为高低频分量。

(8)

2.1 实验设置

硬件配置为NVIDIA GeForce 1080Ti显卡，在Ubuntu16.04操作系统中，采用Pytorch1.9.0深度学习框架进行训练和测试网络模型。以Cityscapes[23]为基准数据集，该数据集包含50个不同城市街道场景，共19个类别，11 900张连续视频帧用于训练，验证集中2 500张图片用于测试。采用Adam优化器，批尺寸设置为8，设置初始学习率为0.000 2，训练周期为50个epoch。与LMANet算法参数设置保持一致，记忆大小设置为4，搜索区域R设置为21。

2.2 评价指标

为评价分割结果的准确性，以平均交并比(Mean Intersection over Union, mIoU)作为视频语义分割评价指标，mIoU越大表示像素预测值与真实值的交集越大，分类预测结果越准确。mIoU的计算过程为

(9)

式中：(α+1)表示类别数目；
i表示真实类别；
j表示预测类别；
pij表示像素值真实为i类但被预测为j类；
pii表示将像素真实值i预测为i；
pji表示将像素预测值j预测为真实值i。

2.3 仿真分析

E-LMA算法在保持LMANet算法结构不变的基础上，将OctConv分别并联在记忆特征和查询特征支路上，将卷积特征映射分解为两组不同的空间频率，并在其对应频率上进行不同的卷积处理，视频语义分割对比结果见表1。

表1 语义分割结果对比

实验结果表明，在相同批尺寸、迭代周期和学习率设置下E-LMA算法mIoU为73.65%，相比LMANet算法提高了0.37%。在Cityscapes数据集19个类别中，E-LMA算法在每个类别上的mIoU见表2。

表2 Cityscapes数据集仿真结果 %

由表2可以看出E-LMA算法对自动驾驶场景中的某些目标，如地面、公共汽车、交通杆等10个类别的分割结果提升明显。对比原始算法，E-LMA算法无论是针对摩托车、火车等移动目标还是栅栏、墙等不动目标的分割结果都更接近真实场景，表明E-LMA算法使用OctConv将空间域变换到频率域进行分解，能有效增强目标边缘特征，减小帧间语义特征传递偏差，进而提升分割准确性，应用在自动驾驶领域有明显优势。

为验证OctConv在频率域上对编码输出记忆语义特征具有增强作用，针对OctConv的不同级联方式对Cityscapes数据集进行消融，在相同实验环境下全面比较，结果见表3。

表3 不同级联方式对Cityscapes数据集的仿真结果

OctConv将特征映射张量分解成低频分量和高频分量，其中采用单层低频分量L丢失了图像细节信息，不能提升网络性能；
采用单层高频分量H忽略了图像内容信息，无法起到特征增强作用。本文提出采用高低频复用方式，将低频部分L的采样提高到原始空间分辨率，与高频部分L连接，进行卷积处理，高低频间形成信息交换，在不改变图像高频细节特征的基础上恢复低频结构特征，使网络能够以一种高效的方式匹配正确记忆特征，提高识别性能。三层级联方式HLL能起到特征增强作用，但级联层数越多，高低频复用次数越多，无法保证达到最好效果。因此，E-LAM算法采用两层级联HL方式，在节约计算成本的同时补偿高频边缘特征，使目标边缘特征更清晰，进而改善局部记忆语义特征丢失问题。

为直观比较输入视频帧经主干网络提取特征和经OctConv特征增强的前后效果，记忆特征和经OctConv增强的边缘特征可视化结果如图3。

a)原图 b)LMANet算法 c)E-LMA算法图3 局部记忆特征可视化对比

图3a列为原始视频中的连续三帧，图3b列为经LMANet算法卷积层输出特征的可视化结果，图3c列为经E-LMA算法OctConv增强后的可视化结果。第1行，街景中斑马线细节更加清晰；
第2行，建筑物边缘与天空分界处更加明显；
第3行，建筑物与地面连接处轮廓更加突出。由此可以验证，在连续视频帧中，E-LMA算法增强了高频边缘特征，改善了特征匹配过程中出现的局部记忆特征丢失问题。

编码输出特征经增强后能更好地融合不同边缘位置的语义表示，使网络在后续处理中能让分割结果语义一致性更强，为分割解码器提供了更好的输入，改善了局部记忆特征丢失问题。LMANet与E-LMA分割结果如图4。

a)原图 b)LMANet算法 c)E-LMA算法 d)真值图4 LMA与E-LMA分割结果对比图

图4a列为当前帧，图4b和图4c列分别为LMANet和E-LMA算法的最终分割结果，图片右下方突出显示了局部记忆特征增强后的对比结果，图4d列为真值。第2行b列中对自行车轮胎的分割结果明显缺失了一部分，而在第2行c列中E-LMA算法减小了帧间语义特征传递偏差，缺失的部分得以还原。第4行c列中人和摩托车两个不同类别目标存在重叠现象，E-LMA算法与LMANet算法相比更接近真实场景。E-LMA算法能有效增强目标边缘特征，对移动目标、交通工具等表现出更好的分割效果。

本文提出一种局部记忆语义特征增强算法E-LMA，该算法通过补偿高频边缘细节信息增强局部记忆特征，减小帧间语义特征传递偏差，进而改善不同类别目标之间分割不准确问题。与LMANet算法相比，E-LMA算法提高了重叠目标分类预测的准确性，对边缘特征有显著提升能力。E-LMA算法在交通场景下对车辆、道路、交通杆等目标轮廓分割精度更高，适用于自动驾驶和智能机器人等视觉感知领域。在未来工作中，将进一步提高记忆特征和查询特征相似性计算，提高当前帧分割质量。

猜你喜欢边缘卷积语义基于全卷积神经网络的猪背膘厚快速准确测定农业工程学报(2022年12期)2022-09-09真实场景水下语义分割方法及数据集北京航空航天大学学报(2022年8期)2022-08-31一种基于卷积神经网络的地磁基准图构建方法北京航空航天大学学报(2021年9期)2021-11-02基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02一种并行不对称空洞卷积模块①计算机系统应用(2021年9期)2021-10-11一张图看懂边缘计算通信产业报(2016年44期)2017-03-13汉语依凭介词的语义范畴长江学术(2015年1期)2015-02-27在边缘寻找自我雕塑(1999年2期)1999-06-28走在边缘雕塑(1996年2期)1996-07-13边缘艺术雕塑(1996年4期)1996-07-12推荐访问:语义算法分割

上一篇：Microencapsulated,essential,oils,combined,with,organic,acids,improves,immune,antioxidant,capacity,and,intestinal,barrier,function,as,well,as,modulates,the,hindgut,microbial,community,in,piglets
下一篇：岩石三轴力学教学实验装置研制及教学应用1)

推荐文章

推荐内容

优秀文章推荐文章

优秀文章热门文章