基于深度三维形变的单张3D人脸重建算法

来源:优秀文章 发布时间:2023-01-23 点击:

杜召彬 崔霄

长期以来,3D人脸重建技术一直是计算机视觉和光学成像等领域的研究热点,在人脸识别[1-2]、视频编辑[3]和虚拟化妆[4]等方向有着广泛的应用前景[5-8].

目前,自动化程度最高、应用最广泛的3D重建方法是基于统计模型的三维人脸形变模型(3D Morphable Model,3DMM)[9],近年有许多学者致力于这方面研究[10-11].例如:文献[12]针对非正面人脸转化为正面人脸图像通常会出现转换前后语义不一致的问题,即局部区域扭曲现象,提出了一种基于三维形变模型(3DMM)的人脸姿态矫正方法,从而通过该方法可以生成自然的人脸正面图像;文献[13]首先对2D人脸图像标准化,使用光照信息和对称纹理重建人脸自遮挡区域的纹理,然后依据2D-3D点对应关系从标准化的2D人脸图像获取相应的3D人脸纹理,结合人脸形状和纹理信息,最终得到3D人脸重建结果;文献[14]提出一种基于multi-level损失函数的弱监督学习模型,结合传统三维人脸形变模型(3DMM),直接从大量无标签的二维人脸图像中学习3D人脸特征信息,从而提出了基于单张二维人脸图像的3D人脸重建算法.

针对传统3DMM方式存在过约束,以及不能提供足够的灵活性来表示高频变形的问题,本文将非线性3DMM与神经网络相结合,提出了一种基于深度3DMM的3D人脸重建算法.

1.1 线性三维形变模型

三维形变模型(3DMM)是一种使用面部几何形状和反射率来表示人脸的参数化模型.本文借鉴文献[15-16]的方法,利用主成分分析法(Principal Component Analysis,PCA)来描述3D人脸空间:

(1)

(2)

于是,可以运用3DMM来合成新的面部视图.首先,利用弱透视投影模型进行图像处理:

V=RS,

(3)

(4)

1.2 双通路神经网络

基于全局的3DMM模型通常对噪声和不匹配具有较强鲁棒性,但却存在过约束的现象,不能提供足够的灵活性来表示高频变形.为了有效改进这方面的不足,本文构建了双通路神经网络来实现对几何形状和反射率的自动解码.

发挥局部路径与全局路径相结合及其在图像合成中的成功经验[17],应用于3D人脸重建.解码器的总体结构如图1所示,其中一个由分步卷积层和5个上采样步骤组成的全局路径用于全局推断,另一个由若干子网络构成的局部路径用于生成人脸不同部位的细节,包括眼睛、鼻子和嘴等.局部路径的引入,在以下两个方面具有明显优势:一是由于上采样步骤较少,局部路径能够更好地表达图像信息的高频细节;二是局部路径中每个子网络都可以学习部分特定的过滤器,这比全域路径的计算效率更高.

如图 1所示,本文将4个局部路径综合输出到单一的特征张量中,然后通过连续的卷积层来整合全局路径与局部路径信息,并生成最终的反射率/形状.此外,不同于其他3D人脸重建方式[18-20],本文算法不设固定的关键信息点,3DMM将通过局部路径与全局路径相结合的方式生成人脸反射率和3D人脸空间形状.

图1 双通路神经网络示意Fig.1 Schematic diagram of dual-path neural network

1.3 非线性三维形变模型

在线性3DMM中,对每个形状、反射率分量的分解均可以看成是系数和PCA主成分之间的矩阵乘法.但从神经网络的角度来看,可将其看作是一个没有激活函数的全连通层的神经网络[21-22].为了增加模型的表达能力,本文将浅层网络扩展到深层架构,设计了一种将3DMM模型与深度神经网络相结合的非线性三维形变模型.

如图2所示,本文使用两个深度神经网络分别将形状、反射率参数解码为3D人脸形状和反射率.为了使框架端到端可训练,这些参数由编码器网络估计.在基于物理的渲染层的辅助下,3个深度网络联合起来,最终自动实现单张3D人脸重建的目标.

图2 基于深度3DMM的3D人脸重建架构示意Fig.2 Schematic of 3D face reconstruction based on deep 3DMM

FS(ES(I)),FA(EA(I))),

(5)

式中:K(·)是3D重建的损失函数,将其定义为

K=Krec+λLKlan+λregKreg,

(6)

1) 三维形变重建损失

对于重建损失有很多的方式,其中最直接的方式是用l1或l2损耗在像素空间中比较图像.为了更好地处理异常值,本文采用了鲁棒性较强的l2,1,其中RGB颜色空间的距离基于l2,求和则基于l1范数以加强稀疏性[23-24]:

(7)

式中:ν是二维人脸图像网格覆盖的像素集合.

(8)

式中:C是神经网络层φ上的一个子集;φj(I)是处理I时得到的第j层维数为Wj×Hj×Cj的激活函数.

于是,最终的三维形变重建损失是由图像和特征重建损失组成的加权平均值:

(9)

式中:λf是权重系数.

2)三维形变标注损失

为了有助于实现更好的三维形变,本文构建了一种标注损失,测量估计和二维图像与三维形变之间标注的欧氏距离:

(10)

式中:U∈R2×68是事前标注的二维图像标记信息;d是存储与标记的二维图像信息对应的68个3D顶点索引向量.由于三维形变标注损失只影响与关键点相关的顶点[25-26],本文将三维形变标注损失仅应用于编码器E,以防止学习不需要的信息.

3)三维形变正则化损失

为了确保3D重建的合理性,并能真实地反映形态、反射率和光照等因素,本文添加了一些正则化损失项:

Kreg=λsymKsym+λconKcon+λsmoKsmo,

(11)

式中:Ksym是反射率对称约束;Kcon是反射率保持约束;Ksmo是形状平滑约束;λsym,λcon,λsmo是权重系数.

① 反射率对称约束

借鉴Tran等[25]利用顶点的UV空间关系将S和A分别表示为AUV和SUV.考虑人脸的对称性,在此设定了反射率对称约束:

Ksym=‖AUV-flip(AUV)‖1,

(12)

式中:flip(·)是水平图像翻转函数.

② 反射率保持约束

使用反射率对称约束可以帮助修正人脸图像中的全局阴影.然而,面部细节如酒窝等,也将嵌入反射率通道中.为了进一步消除反射率通道的阴影,遵循假定反射率为分段常数的视网膜皮层理论[27-28],本文在其梯度的两个方向上施加稀疏性约束:

(13)

③ 形状平滑约束

对于三维形变,本文通过对所有顶点位置添加拉普拉斯正则化来实现平滑约束:

(14)

本文算法训练中选择了两个公开可用的人脸图像数据集:AFLW数据集[29]是一个二维人脸图像数据集,每个图像有多达21处标记,每个标记有一个可见性标签.文献[29]选择了一个偏航角均衡分布的AFLW子集,包括3 901张用于训练的图像和1 299 张用于测试的图像,本文也使用相同的子集对算法进行训练和测试.AFW数据集[30]包含205张图像,每张人脸图像有6处标记,每个标记有一个可见性标签.对于每张人脸图像,提供检测到的包围框.由于AFW数据集图像数量相对较少,本文仅使用该数据集进行测试.

本文算法仿真使用CPU:Intel Core(TM) i5-8250U;
RAM:16 GB;
显卡:Geforce GTX 独立GPU的硬件设备,基于Pyorch深度学习框架实现,采用ResNet-50网络模型,将最后一层全连接层设为314,神经网络采用Adam方法优化参数,学习率设为0.001,batch size设为16,10个epoch共训练101 360 次迭代,3D重建的损失函数权重λL,λreg分别设为2.6×10-2和4×10-3,三维形变正则化损失项中的λsym,λcon,λsmo分别设为0.25、0.45和0.3.

以二维人脸图像作为输入,运用本文算法进行3D人脸重建,重建效果如图3所示.由图3可知,本文算法能够准确获取二维人脸五官信息,3D重建效果图能够还原二维人脸特征,达到了预期效果.

图3 本文算法3D人脸重建效果Fig.3 3D face reconstruction renderings based on the proposed algorithm

为了公平比较本文算法相对于传统3DMM算法的改进优势,针对三组不同视角的二维人脸图像,分别使用两种算法进行3D人脸重建,3D模型如图 4所示.使用传统3DMM算法[25,31]进行重建,由于单张二维图像数据类型单一、训练数量以及线性基数量较少,得到的3D人脸纹理来自3D模型的平均人脸纹理[32],加之传统3DMM算法存在的过约束现象,不能提供足够的灵活性来表示高频变形,使得3D重建图像的整体平滑度不够,纹理失真明显,缺少目标人脸的真实细节信息.使用本文算法进重建,通过局部路径与全局路径相结合的方式,能够改善传统3DMM算法高频变形表达能力的不足,获取面部区域的纹理细节,能更好地表现人脸眼睛、鼻子、嘴巴等区域的细节信息,最大程度地还原二维人脸细节,同时更好地保留人脸图像的光照信息.

图4 算法改进仿真分析Fig.4 Simulation analysis of algorithm improvement

为了检验本文算法,通过对比仿真3DDFA[33]和DeFA算法[34],来分析本文算法在3D人脸重建方面的比较优势.3D重建算法间的性能比较,通常采用归一化平均误差(Normalized Mean Error,NME)作为指标,归一化平均误差是指根据人脸包围盒的大小进行归一化,如式(15)[35]所示:

(15)

对比实验中,分别将3种算法的3D人脸重建模型与二维样本图像的PCA主成分进行密集对齐,以点对面距离归一化平均误差作为横坐标输入,以处理不同二维图像的累计数量作为纵坐标输入,拟合出算法累积归一化平均误差变化曲线,对比仿真结果如图5所示.图中,本文算法对应归一化平均误差曲线的均值为2.03%,3DDFA算法对应归一化平均误差曲线的均值为2.46%,DeFA算法对应归一化平均误差曲线的均值为4.36%.可以看出,本文算法的3D重建归一化平均误差(NME)比3DDFA算法[33]的3D重建结果降低17.48%,比DeFA算法[34]的3D重建结果降低53.44%,应用效果有明显的改善.

图5 算法比对归一化平均误差Fig.5 Comparison of normalized average errors

图6为本文算法与3DDFA算法、DeFA算法的可视化结果.可以看出,由于3DDFA和DeFA算法都在3D重建中引入了一些伪迹[25,32],使得人脸重建看起来不自然,相比较本文算法的3D重建形状更为平滑、自然.

图6 3D人脸重建效果比对Fig.6 Comparison of 3D face reconstruction performances

针对传统3DMM迭代拟合过程中存在过约束、不能提供足够的灵活性来表示高频变形等问题,本文在分析线性三维形变模型的基础上,构建双通路神经网络实现了几何形状和反射率的解码,将浅网络扩展到深层架构,设计了一种将3DMM模型与神经网络相结合的非线性三维形变模型,从而提出了基于深度3DMM的3D人脸重建算法.算法采取局部路径与全局路径相结合的方式,使得每个子网络都可以学习特定细节信息,在比全域路径获得更高计算效率的同时,能够更好地表示人脸面部的高频细节信息.从算法比对和仿真实验结果可知,本文算法误差更低,进一步改善了传统3DMM算法在高频变形表达能力方面的不足,通过模型拟合可以实现高保真的3D人脸重建.

猜你喜欢 反射率人脸形状 利用镜质组反射率鉴定兰炭与煤粉互混样的方法解析冶金能源(2022年5期)2022-10-14——缺陷度的算法研究">商品条码印制质量检测参数
——缺陷度的算法研究条码与信息系统(2022年3期)2022-07-05车灯反射腔真空镀铝反射率研究汽车电器(2022年6期)2022-07-02有特点的人脸少儿美术·书法版(2021年9期)2021-10-20一起学画人脸小学生必读(低年级版)(2021年5期)2021-08-14基于地面边缘反射率网格地图的自动驾驶车辆定位技术汽车文摘(2018年2期)2018-11-27三国漫——人脸解锁动漫星空(2018年9期)2018-10-26火眼金睛小天使·五年级语数英综合(2016年12期)2016-12-09分一半小朋友·聪明学堂(2015年7期)2015-11-30长得象人脸的十种动物奇闻怪事(2014年5期)2014-05-13推荐访问:形变 重建 算法
上一篇:Analysis,of,the,Criteria,for,Judging,Unfair,Competition,in,Data,Crawling
下一篇:LaneSegNet:一种高效的车道线检测方法

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有