1、基于二度冗余网络的人脸识别 张园林 李晓峰 黄飞虎 四川大学计算机学院 四川大学视觉合成图形图像技术国家重点学科实验室 摘 要: 在人脸识别的研究中, 使用传统的深度学习方法需要大量的训练数据和很深层次的神经网络, 为此, 提出一种通过两个冗余的网络分支协同工作的神经网络设计。首先, 该网络在输入层对图像数据随机进行多种仿射变换, 模拟生成多组数据, 用于扩大数据量;然后, 通过一系列的卷积操作和两个相互独立的子网络分支, 进行人脸特征预提取;最后, 将这两个网络分支拼接到一起, 再通过全连接生成最终需要的人脸特征向量。在训练阶段, 需要注意先对两个独立的网络分支单独训练, 使用 softma
2、x loss 和 triplet loss 协同监督, 当它们具有较好的收敛效果时再同时训练。通过实验, 冗余网络相较于非冗余网络, 在LFW 公开库和在线实时测试中, 识别率分别提升了 1.46%和 5.56%, ROC 曲线的效果都得到了可观的提升。关键词: 人脸识别; 深度学习; 神经网络; 冗余; 模式识别; 作者简介:张园林 (1992) , 男, 安徽合肥人, 硕士研究生, 主要研究方向:图形图像处理、计算机视觉;作者简介:李晓峰 (1973) , 男, 湖北襄阳人, 副教授, 硕士, 主要研究方向:图形图像处理、视觉合成、人脸识别;lixiaofeng2009 scu. edu.
3、 cn作者简介:黄飞虎 (1986) , 男, 四川广安人, 博士研究生, 主要研究方向:计算机视觉、机器学习。收稿日期:2017-01-10基金:国家重大科学仪器设备开发专项 (2013YQ490879) Face recognition based on double-redundant networkZHANG Yuanlin LI Xiaofeng HUANG Feihu College of Computer Science, Sichuan University; National Key Laboratory of Fundamental Science on Synthetic
4、 Vision, Sichuan University; Abstract: In the research of face recognition, traditional deep learning methods need massive data for training and very deep layers of neural network. Therefore, a neural network with two network branches working together was proposed. Firstly, the image data on input l
5、ayer was processed by affine transformation to produce simulating data for data base enlargement. And then, the face features were aextracted through a series of convolutional operations and two independent double-redundant subnets. At last, these two sub-nets were concatenated to obtain a face feat
6、ure vector by inner product layer. In the training phase, two redundant nets were trained independently, softmax loss and tripllet loss were used to loccaboratively supvised until they almost convergent. Compared with non-redundant network structure, experimental result on LFW data base and online r
7、eal-time test show that the recognition rate is improved by 1. 46% and 5. 56% respectively, and ROC curve is better in this network.Keyword: face recognition; deep learning; neural network; redundancy; pattern recognition; Received: 2017-01-100 引言人脸识别在安防领域的重要作用, 使其成为近年来的研究热门1。人脸识别就是对图片中检测到的人脸图像进行特征提
8、取, 然后将提取到的特征与已有的人脸图像数据库中的数据进行比对, 期望找出与之匹配的人脸, 达到身份识别的过程2。早期常见的人脸识别方法包括 Bledeso 提出的基于几何特征的方法, Nefian 和Hayes 引入的隐马尔可夫模型方法, Sirovitch 和 Kirby 提出的基于主元分析 (Principal Component Analysis, PCA) 的统计方法, 还有神经网络方法也被Kohoncn 应用于人脸识别的领域3-4。多个角度的人脸图片可以包含更多的人脸信息, 因此人脸识别的正确率上也更高5-6。不同姿态的三维人脸识别可以克服姿态、表情、光照因素的影响, 所以比一般的
9、二维人脸识别有着很大的优势7-8。如今, 得益于 Hinton 提出的深度信念网络 (Deep Belief Network, DBN) 9与显卡运算性能大幅提升以及图像数据量的井喷, 使得研究人员可以用大量的数据去训练层次更深的神经网络。这就是深度学习能够达到比较好的性能的原因。目前, 在人脸识别领域, 已有很多的科学研究者使用深度学习的方法, 并取得了突破性的进展。Google 的 Face Net 在利用了海量的人脸数据训练之后, 可以达到惊人的 99.65%识别精度10。中国科学院的山世光团队开源的 Seeta Face 人脸识别引擎中的 Seeta Face Identificati
10、on 模块也有着97.1%的识别率11。深度学习方法在人脸识别研究上的效果, 对训练数据量和神经网络的层次都有着很高的要求。可是在现实研究中, 前者受限于可供训练的数据获取困难, 后者在迭代时需要更大的计算量和更长的训练周期。为了解决这两个问题, 本文使用冗余的网络分支进行训练, 使两个分支共同工作, 相互调节, 从而达到更好的识别效果。1 冗余的人脸识别神经网络二度冗余人脸识别网络分为三个子网络, 第一个子网络是人脸特征预表示子网络, 它提取人脸特征作为第二个子网络的输入;第二个子网络是二度冗余子网络两个相同拓扑结构的子网络;最后的子网络是全连接子网络, 它的作用是将二度冗余子网络的输出经过
11、处理, 得到一个 128 维的特征向量并输出, 作为整个网络提取的最终人脸特征。人脸特征预表示子网络和二度冗余子网络都包含若干个卷积单元 (convolution unit) 和一个池化 (pooling) 层, 每个卷积单元包含有卷积 (convolution) 层、批量归一化 (batch normalization) 层、尺度 (scale) 层、Re LU (Rectified Linear Unit) 激活函数。卷积操作可以提取人脸图像中的特征, 归一化会提高训练速度, 线性激活函数有利于训练更深层次的神经网络。图 1是一个卷积单元的拓扑。图 1 卷积单元拓扑 下载原图除了上述的卷积
12、单元, 在人脸特征预表示子网络和二度冗余子网络中额外添加了池化层, 它有益于进行降维和防止过拟合。同时, 对于这两个子网络的设计, 本方法引入了何凯明的残差网络, 每隔两个卷积单元, 就将浅层的卷积单元与深层的卷积单元合并起来, 这样可以减少训练误差12。在人脸特征预表示子网络中, 将输入的图像数据, 经过多个卷积单元的处理后, 得到一个特征向量, 并将其作为输出传入二度冗余子网络中。两个冗余子网络内部的拓扑结构完全相同, 都是由若干卷积单元和一个池化层组成, 但是却相互独立, 它们分别对输入的特征进行进一步的加工, 各自输出一个 128 维的特征向量。全连接子网络首先会通过一个连接 (con
13、catenation) 层, 将两个冗余子网络输出的特征向量连接为一个 256 维的特征向量, 再用两个全连接 (inner product) 层和一个归一化 (normalization) 层, 获得一个 128 维的人脸特征向量, 也就是最终输出的结果。整个神经网络的拓扑如图 2 所示。图 2 二度冗余网络拓扑 下载原图2 训练二度冗余网络的训练过程比一般的非冗余网络要更为重要, 这是由冗余子网络分支的独立性决定的。为了弥补人脸图像数据量的不足, 在训练的每一次迭代初始, 输入层对每幅图像都随机进行仿射变换。这样, 在每一次迭代中, 输入的图像都有了些许差异, 起到了扩充数据量的效果;同时
14、为后续的二度冗余子网络的独立训练的可行性提供了基础。2.1 两个训练周期整个训练周期可以分为两个阶段。第一阶段时, 对于二度冗余子网络中的每一个单独的分支, 在训练的初期都可以看作是单独训练的。具体做法是在分支 1训练时, 将分支 2 的学习率设为分支 1 的 1%, 这样分支 2 的训练过程会对分支1 的参数进行微调, 而又不至于过多干扰到分支 1 的学习。同样地, 对于分支2 单独训练时, 也采用类似的操作。这个阶段只有整个网络的前两个子网络参与了训练, 而且第二个子网络的两个冗余网络分支的训练是相对独立的, 并且对两个冗余的网络分支分别作监督。当二度冗余子网络的两个分支子网络各自的收敛效
15、果较好时, 可以进入训练的第二阶段。此时, 将人脸特征预表示子网络的学习率锁定为 0, 二度冗余子网络的两个分支不再单独训练, 而是同时进行训练, 并且将它们的输出合并起来, 作为第三个子网络的输入。在这个阶段, 由于网络第一部分的学习率为 0, 所以即使二度冗余子网络的两个分支同时训练, 也不会相互干扰对方, 即它们是相互独立训练的。换而言之, 就是这个阶段, 已经不需要进行人脸特征预处理了, 而是只对后两个子网络进行训练。2.2 监督函数在神经网络在训练中, 需要有监督函数的干涉。本文同时使用了 softmax loss13和 triplet loss10两种监督函数。因为人脸识别本质上是
16、一个多分类的过程, 而 softmax loss 是可以将目标向量分为多个类的函数, 可以满足需求, 因此本文网络用它监督最后一个全连接层。基于度量学习的误差函数 triplet loss 的作用是使得同一个人的不同人脸图像的特征更相似, 而使得不同人的人脸图像的特征更不同, 可以用来监督最后的归一化层。在本文的网络中, 赋予两个监督函数不同的权重, 让它们协同工作。3 实验3.1 实验数据库在实验中使用中国科学院公开的中国科学院自动化所 (Institute of Automation, Chinese Academy of Sciences, CASIA) 数据库14, 以及自采集数据库作
17、为神经网络的训练集, 共计 18 870 人, 393 753 张人脸图片。马萨诸塞大学发布的 LFW (Labeled Face in the Wild) 人脸数据库15, 该数据库包含 5 749 个不同的人, 13 233 张图片数。从中选取了 3 000 对正样本, 3000 对负样本作为测试集。同时, 还进行了历时 5 d 的在线实时人脸识别验证门禁的测试, 该测试包括了 362 人共计 8 127 次出入记录。3.2 实验环境本文训练和 LFW 数据库测试实验所使用的硬件配置为英特尔酷睿 i7-4790K (4.0 GHz) 处理器, 16 GB 随机存取存储器 (Random-A
18、ccess Memory, RAM) , 显卡为英伟达 GTX1080;系统环境为 Windows 10 操作系统, CUDA (Compute Unified Device Architecture) 8.0 并行计算库, Caffe (Convolutional Architecture for Fast Feature Embedding) 网络训练工具16。在进行在线实时测试时, 使用的硬件配置为英特尔酷睿 m3-6Y30 (1.52 GHz) 处理器, 4 GB RAM;系统环境为 Windows 10 操作系统。3.3 实验结果及分析对 Seeta Face 的人脸识别模块、传统的
19、非冗余网络以及冗余网络在 LFW 上和在线实时测试表明, Seeta Face 的识别率要优于非冗余的单支网络, 但是略低于冗余网络;使用冗余网络训练的模型识别率相较于非冗余网络, 提升效果明显。具体识别率实验结果如表 1 所示。表 1 不同算法下的识别率对比 下载原表 对于人脸的识别部分结果如图 3 所示, 其中包括识别正确与识别错误两个部分。图 3 识别结果示例 下载原图受试者工作特征 (Receiver Operating Characteristic, ROC) 曲线可以直观地衡量一个模型的质量, 冗余网络和非冗余网络的 ROC 曲线如图 4 所示。从图4 中可以看出, 冗余网络的各项
20、指标均优于非冗余网络。图 4 ROC 曲线图 下载原图4 结语本文使用了两个拓扑结构相同的独立分支子网络进行人脸识别, 通过在每轮迭代中将图像进行仿射变换, 扩充数据量和保持每轮迭代的独立性。在训练过程中保持二度冗余子网络两个分支的独立性, 从而实现两个分支协同工作, 完成人脸识别工作。在 LFW 公开库和在线实时的测试表明, 此方法的识别效果要优于传统的单支非冗余网络。但是此方法的局限性表现在训练阶段, 需要人工干预二度冗余子网络的两个分支的训练。参考文献1肖军.人脸识别技术在公安领域内的应用研究J.计算机科学, 2016, 43 (S2) :127-132. 2ZHAO W, CHELLA
21、PPA R, PHILLIPS P J, et al.Face recognition:a literature surveyJ.ACM Computing Surveys, 2003, 35 (4) :399-458. 3吴巾一, 周德龙.人脸识别方法综述J.计算机应用研究, 2009, 26 (9) :3205-3209. 4LI X W, CHEN G L, ZHANG H Y.The methods of face recognition:a surveyJ.Applied Mechanics&Materials, 2013, 380/381/382/383/384:3483-3486
22、. 5吴迪, 吴限, 秦瀚.基于回归函数的多角度人脸识别算法研究J.声学技术, 2015, 34 (2) :172-175. 6DU M, SANKARANARAYANAN A C, CHELLAPPA R.Robust face recognition from multi-view videosJ.IEEE Transactions on Image Processing, 2014, 23 (3) :1105-1117. 7LUO J, GENG S.A review of recent advances in 3D face recognitionJ.Proceedings of SP
23、IE-The International Society for Optical Engineering, 2015, 9443 (12) :411-421. 8潘仁林, 达飞鹏, 邹红艳, 等.基于面部曲线弹性匹配的三维人脸识别方法J.图学学报, 2014, 35 (3) :358-367. 9HINTON G E, OSINDERO S, TEH Y W.A fast learning algorithm for deep belief netsJ.Neural Computation, 2006, 18 (7) :1527-1554. 10SCHROFF F, KALENICHENKO
24、D, PHILLBIN J.Face Net:a unified embedding for face recognition and clusteringC/Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Washington, DC:IEEE Computer Society, 2015:815-823. 11LIU X, KAN M, WU W, et al.VIPLFace Net:an open source deep face recognition SDKJ.Fr
25、ontiers of Computer Science, 2017, 11 (2) :208-218. 12HE K, ZHANG X, REN S, et al.Deep residual learning for image recognitionC/Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Washington, DC:IEEE Computer Society, 2015:770-778. 13KRIZHEVSKY A, SUTSKEVER I, HINTON G
26、 E.Image Net classification with deep convolutional neural networksC/Proceedings of the 25th International Conference on Neural Information Processing Systems.Redhook:Curran Associates Inc, 2012:1097-1105. 14YI D, LEI Z, LIAO S, et al.Learning face representation from scratchEB/OL. (2014-11-28) 2017
27、-03-01.https:/arxiv.org/pdf/1411.7923.pdf. 15HUANG G, MATTAR M, BERG T, et al.Labeled faces in the wild:A database for studying face recognition in unconstrained environmentsR.2017-01-01.http:/ 16JIA Y, SHELHAMER E, DONAHUE J, et al.Caffe:Convolutional architecture for fast feature embeddingEB/OL. (2014-06-20) 2017-03-01.https:/arxiv.org/pdf/1408.5093.pdf.