1、基于投影与深度学习网络的三维人脸特征点定位方法 杜星悦 董洪伟 杨振 江南大学物联网工程学院 摘 要: 标定三维人脸模型特征点对人脸识别、人脸建模等都具有重要作用。针对人脸特征点标定需要手工干预、标定特征点个数少或不准确、标定时间长等问题, 提出了一种基于投影与深度学习网络的人脸三维模型特征点标定法。基于正交投影, 生成人脸三维模型二维深度图与二维特征点位置, 采用以卷积神经网络为主的深度学习网络模型训练测试, 将深度图上特征点映射到三维人脸模型, 实现眉毛、眼睛、鼻尖、嘴巴等重要区域的特征点定位。实验表明, 该方法可自动标定三维人脸模型特征点, 快速、准确预测足够数量特征点位置。关键词: 三
2、维人脸; 特征点定位; 投影; 卷积神经网络; 作者简介:杜星悦 (1993-) , 男, 江苏无锡人, 江南大学物联网学院硕士研究生, 研究方向为模式识别、计算机图形学;作者简介:董洪伟 (1967-) , 男, 江苏淮安人, 博士, 江南大学物联网学院副教授, 研究方向为计算机图形学、计算机视觉、高性能计算、数控技术等;作者简介:杨振 (1990-) , 男, 江苏徐州人, 江南大学物联网学院硕士研究生, 研究方向为模式识别、计算机图形学。收稿日期:2017-06-29Calibration Method of the Three-dimensional Face Model Featur
3、e Points Based on the Projection and Deep Learning NetworkDU Xing-yue DONG Hong-wei YANG Zhen College of the Internet of Things Engineering, Jiangnan University; Abstract: Calibration of the three-dimensional face model feature points has an important role on face recognition, face modeling, and so.
4、Some problems still exist, like that Face feature points need to be manually calibrated, the number of calibration points is small or inaccurate, the calibration time is long, and so on.A feature point calibration method of face 3 Dmodel based on projection and depth learning network is proposed.Fir
5、stly, based on the orthogonal projection, the two-dimensional depth map and two-dimensional feature point position of the human face 3 Dmodel are generated.Then we use the depth learning network model, mainly based on the convolution neural network, to train and test, and map the feature points on t
6、he depth map to the 3 D human model.Finally, we achieve facial key points on eyebrows, eyes, the nose tip and the mouth.Experiments show that this method can automatically calibrate enough 3 Dface model feature points, fastly and accurately.Keyword: three dimensional; face feature point positioning;
7、 projection; convolution neural network; Received: 2017-06-290 引言二维人脸识别技术发展迅速, 但没有很好解决光照、表情等问题。光照条件、姿态变化等因素都对二维人脸精确检测与识别有较大影响。近年, 三维人脸识别技术受到了越来越多关注。相对于二维人脸识别技术, 三维人脸识别技术较容易做到姿态与光照的不变性1-2。随着技术发展, 三维模型获取日趋简化, 促进了三维人脸识别3-4、三维表情识别5-6、三维人脸分割7-8等三维人脸方面的研究。国内外关于三维人脸特征点定位的一些研究包括: (1) 基于曲率进行特征点定位, 曲率是三维研究中重要
8、基本属性之一, 且有欧氏变换不变性, Chang 等9综合利用平均曲率及高斯曲率定位眼眶、鼻尖、鼻梁等人脸特殊区域。基于曲率的三维特征点定位算法缺点是对于数据噪声较为敏感, 除了内眼点以及鼻尖点外, 其余特征点定位效果达不到要求; (2) 王蜜宫等10基于局部形状图的方法, 半径大小选择很关键, 但大小确定较困难, 选择不当直接影响结果精度, 且只能对个别几个特征点进行预测; (3) 利用较成熟二维图像数据人脸特征点定位技术, 辅助定位三维人脸数据特征点, 但此类算法要求三维数据存在二维辅助图像, 无法仅用于三维信息人脸数据。结合上述研究以及解决方法不足之处, 本文提出基于正交投影获得三维数据
9、对应二维深度图与深度学习网络进行三维人脸特征点的定位方法。1 正交投影正交投影理论介绍如图 1 所示, 在右手坐标系中, 观察空间中正交投影矩形观察体, 原点代表相机位置, f 代表远裁剪面到相机面距离, n 代表近裁剪面到相机面距离, p 是该空间中某一个点, p是点 p 投影之后得到的点。图 1 正交投影 下载原图投影之后, 得到:正交投影由于没有统一投影射线目标点, 投影后 x 与 y 不变, 而 z 则变成-n, 跑到投影平面上 (投影平面与近裁剪平面重合) , 没用的信息保存 z, 写为:先在 z 方向建 CVV, 当 z 分别在近裁剪平面、远裁剪平面时, az+b 分别等于-1、1
10、。再将 x 与 y 建 CVV, 可以反推正交投影矩阵如下:用正交投影矩阵:可以得到空间三维坐标所对应二维坐标以及其对应深度值大小, 即三维模型可以生成相应深度图像。三维模型如图 2 所示, 正交投影生成对应深度图像如图 3 所示。图 2 三维人脸 下载原图图 3 三维人脸对应的深度图像 下载原图2 深度学习卷积神经网络深度学习卷积神经网络算法, 采取局部连接与权值共享方式, 网络结构除了输入与输出层, 还包括中间卷积层、抽样层、全连接层。当网络输入层是多维图像时, 卷积神经网络避免了传统复杂的特征提取与数据重建过程, 优点更为明显。其在二维图像处理上有众多优势, 如网络能自行抽取颜色、形状、
11、纹理等图像特征, 具有良好鲁棒性、运算效率等。输入若干由 d 维人脸构成图像 xR, p 维目标输出变量 Tg (x) R, 深度学习卷积神经网络学习出一个从图像到目标值的映射函数:F:xT。映射 F 是复杂的非线性函数, 各层网络作用可看作最小化以下目标函数:式 (1) -式 (3) 中, F=f 1, f2, , fk, fi是深度网络中第 i 层的映射函数, 一般是 sigmoid 函数, a i是第 i 层的特征表示。前 k-1 层为神经元节点, 末层节点激活函数, 得到目标输出估计值。3 算法3.1 流程本文方法流程主要分为训练及测试。(1) 训练。 (1) 标定三维模型特征点位置;
12、 (2) 对三维模型进行正交投影; (3) 获得深度图像 (包括三维特征点所对应二维坐标位置) ; (4) 深度网络训练:以卷积神经网络为主要结构 (样本是深度图的值, 标签是特征点二维坐标) 进行训练。(2) 预测。 (1) 输入三维模型进行正交投影获得深度图像 (不包括特征点位置) ; (2) 使用已训练好的深度网络对深度图像进行特征点二维坐标预测; (3) 输出二维坐标一一反投影到三维坐标, 在三维模型上得到特征点位置。其中, 本文检测人脸特征点位置目前标记为左眼中心、左眼内侧、左眼外侧、右眼中心、右眼内侧、右眼外侧、左眉外侧、左眉内侧、右眉外侧、右眉内侧、鼻尖、嘴巴上侧、嘴巴下侧、嘴巴
13、左侧、嘴巴右侧共计 15 个特征点, 如图 4 所示。可自由增加训练样本特征点个数, 以预测更多特征点。图 4 15 个特征点标记位置 下载原图3.2 正交投影与透视投影对比本文之所以采用正交投影, 存在合理性。平面投影一般分为正交投影及透视投影。透视投影是视锥观察体, 基本原理如图 5 所示。透视投影会据物体离视点远近缩放物体, 深度值会发生一定扭曲。扭曲深度值作为实验数据无法反映真实深度, 所以选择正交投影而非透视投影。图 5 透视投影 下载原图3.3 深度网络架构本文深度网络架构主要由卷积神经网络构成, 先是输入层, 经过 3 层以卷积层、池化层为主网络结构, 然后是 2 层全连接层,
14、最后是计算损失层。各层网络主要参数如下:第一层卷积层:kernel size=5, stride=1;下接 ReLU 层;第一层池化层:kernel size=2, stride=2。第二层卷积层:kernel size=5, stride=1;下接 ReLU 层;第二层池化层:kernel size=2, stride=2。第三层卷积层:kernel size=3, stride=1;下接 ReLU 层。然后下接 2 个全连接层, 参数 num_output 分别为 500、30。本文深度网络架构主要由卷积神经网络构成, 与传统机器学习方法 (如 SVM、随机森林等) 相比, 深度学习对图像
15、有强大特征提取能力, 取得特征更加丰富, 取得效果会有一定程度提升。另外, 由于本文数据量很大, 若使用传统机器学习方法, 训练会非常耗时, 而深度学习网络依赖更加成熟 GPU 加速技术, 在缩短训练时间上有很大优势。4 实验4.1 实验数据实验数据库采用 bfm 数据库, 库中每个三维人脸包括 53 490 个点及 106 400 个三角面。训练 200 个三维人脸人脸, 每个人脸绕着 xyz 轴在一定范围旋转加上平移得到 50 个不同姿势下深度图像, 增加训练样本大小。再在库中选取 200 个三维人脸进行后期测试。4.2 实验结果硬件条件为显卡 gtx960, 本文运用 GPU 加速并行架
16、构。GPU 近年来发展迅速, 可以极大提升计算速度。在投影阶段 GPU 加速示意图如图 6 所示。正交投影200 个三维人脸时间, 计算时间单 CPU 模式下约 2h, GPU 模式下约 15min, 提高10 倍左右。图 6 投影阶段 GPU 并行处理 下载原图训练卷积神经网络, 迭代 50 000 次, 在 GPU 模式下训练时间为 25min 左右, 效率比 CPU 模式下快很多。4.3 结果分析使用 GPU 并行技术, 大幅缩短训练时间, 是本文方法优势之一。另外, 从测试实验结果中选取 3 个三维人脸, 特征点结果预测结果如图 7、图 8、图 9 所示。实验表明, 运用本文方法来预测
17、人脸, 三维人脸特征点定位结果准确。图 7 人物 1 预测结果 下载原图图 8 人物 2 预测结果 下载原图图 9 人物 3 预测结果 下载原图5 结语本文方法利用基于三维人脸模型正交投影生成合理深度值的二维深度图像, 结合卷积神经网络强大的图像特征提取及拟合能力, 解决了三维人脸特征点需人工手动定位以及标定三维特征点耗时长等问题。由实验结果可见, 本文方法训练及测试时间短, 三维特征点定位准确, 并且可增加三维人脸预测特征点数目。本文实验预测了 15 个关键特征点, 可通过扩充训练库人脸关键特征点数目, 预测大于 15 个三维人脸特征点。参考文献1吕士文, 达飞鹏, 邓星.基于区域改进 LB
18、P 的三维人脸识别J.东南大学学报:自然科学版, 2015 (4) :64-68. 2王健, 高媛, 秦品乐, 等.基于改进的 LBP 算法的三维人脸识别J.计算机工程与设计, 2016 (12) :234-238. 3邓星, 达飞鹏, 杨乔生.基于自适应人脸切割的三维人脸识别算法J.东南大学学报:自然科学版, 2016 (2) :34-38. 4刘述木, 杨建, 陈跃.保角特征结合改进差分进化算法的三维人脸识别J.计算机应用研究, 2016 (6) :304-308. 5李江, 冉君军, 张克非.一种基于降噪自编码器的人脸表情识别方法J.计算机应用研究, 2016 (12) :329-332
19、. 6黄建, 李文书, 高玉娟.人脸表情识别研究进展J.计算机科学, 2016 (S2) :132-135. 7XUN GONG, GUOYIN WANG.Automatic 3Dface segmentation based on facial feature extractionC.IEEE International Conference on Industrial Technology, 2006:1154-1159. 8贾晖, 耿国华, 周明全, 等.基于区域离散曲率的三维网格分水岭分割J.计算机工程与应用, 2015, 51 (11) :182-186. 9CHANG K I, BOWYER W, FLYNN P J.Multiple nose region matching for 3Dface recognitlon under varying facial expressionJ.IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28 (10) :1695-1700. 10王密宫, 陈锻生, 林超.基于局部形状图的三维人脸特征点自动定位J.计算机应用, 2010 (5) :121-124.