1、基于 LBP 与卷积神经网络的人脸识别 王大伟 陈章玲 天津大学应用数学中心 摘 要: 卷积神经网络在人脸识别上有较好的效果, 但是其提取的人脸特征忽略了人脸的局部结构特征.为了提取更加全面的人脸特征, 提出一种基于局部二值模式 (local binary pattern, LBP) 与卷积神经网络相结合的新方法.首先, 提取人脸图片的 LBP 特征图像, 然后把 LBP 图像与原 RGB 图像结合作为网络输入数据, 并且使用随机梯度下降法训练网络参数, 最后用训练得到的网络模型对人脸图片进行识别.通过在 LFW (labeled face in the wild) 人脸识别数据库上的实验表明
2、, 在卷积神经网络中加入 LBP 图像信息可以提高人脸识别的准确率.另外, 当增加训练数据时, 提出的方法得到的识别率会进一步提高, 更说明提出方法的有效性.关键词: 局部二值模式; 卷积神经网络; 人脸识别; 深度学习; 特征提取; 作者简介:王大伟 (1992) , 男, 硕士研究生, E-mail:.收稿日期:2017-04-05Face recognition based on LBP and convolutional neural networkWANG Da-wei CHEN Zhang-ling Center for Applied Mathematics, Tianjin U
3、niversity; Abstract: Convolutional neural network (CNN) has achieved promising results in face recognition, but it ignores the local structure features of faces when it extracts face features. In order to extract more comprehensive face feature, a new method based on local binary pattern (LBP) and c
4、onvolutional neural network was presented. At first, LBP feature maps were extracted from face images. Then, the combination of LBP images and RGB images were input to convolutional neural network, and optimize network paramenters using stochastic gradient descent method. At last, the trained CNN mo
5、del was used to recognize unseen face samples. On LFW face database, the experimental results show that the proposed method has a better recognition performance. In addition, when more training sets were added, the face recognition was higher than before, which showed the effectivity of that method.
6、Keyword: local binary pattern; convolutional neural network; face recognition; deep learning; feature extraction; Received: 2017-04-05人脸识别一直是生物识别领域的研究热点, 在计算机、数学、模式识别等学科都有广泛的研究, 同时在国防安全、身份认证、监控、机场检查等领域有重要的研究价值.传统的人脸识别流程包括 4 个阶段:人脸检测、人脸对齐、特征提取和人脸分类.其中最重要的阶段是特征提取, 特征提取的好坏直接影响分类的准确率.在限制环境下, 传统的特征提取方法,
7、例如局部二值模式1 (Local Binary Patterns, LBP) 和局部相位量化2 (Local Phase Quantisation, LPQ) , 在人脸识别上有比较好的结果.然而在非限制环境下, 由于人脸图片的复杂性, 会导致较大的类内差异, 用传统的特征提取方法做人脸识别会有不理想的效果.后来, Wolf3等人改进了 LBP 算法, 将其与 Gabor 结合, 此种方法在人脸特征表示中有不错的效果, 但是该方法在特征提取的过程中介入了过多主观因素, 过度依赖于人工选择.近年来, 得益于大规模训练数据和端对端学习框架, 深度学习越来越受人们的关注.卷积神经网络是深度学习中非常
8、重要的一种方法, 在图片分类、物体检测、人脸识别上有非常好的结果.在大规模视觉识别任务中, 卷积神经网络是通过卷积、池化、激活函数等一系列运算自动学习强大表示能力的特征.面对越来越复杂的数据, 出现了越来越深的网络结构, 从最初的 5 层卷积 Le Net 网络4, 到后来 19 层的 VGG 网络5和 24 层的 Goog Le Net 网络6, 甚至出现了 1000多层的 Res Net7网络.为了学习更强的特征表示, 不断产生新的激活函数, 例如 Re LU8、Maxout9等.为了学习更加有区分性的特征表示, contrastive loss10和 triplet loss11被提出,
9、 他们的目的是让学习的特征类内更紧致, 类间更可分.然而, 由于训练样本非常大, 这种训练技巧需求的样本对或者三元对的数量变得异常大, 并且不易得到理想的样本对或三元对, 所以 center loss12被提出, 它的优势是不用预先处理训练样本.如今卷积神经网络做人脸识别已经相当成熟, 它提取的特征比传统方法提取的特征更有优越性, 在 LFW13数据集上的认证识别率可以超过人眼的识别率.但是用卷积神经网络提取的图像特征忽视了图像的局部结构特征, 难以学习到人脸的局部特征, 而且网络会因为光照等因素学习到不利的特征表示.而传统方法 LBP 纹理特征具有光照不敏感、平移不变和旋转不变性等特点, 可
10、以有效避免卷积神经网络的不足.二者的结合有互补的作用, 可以提高提取特征的区分性.本文提出了一种基于 LBP 与卷积神经网络的新方法.在网络输入原始人脸图像的基础上, 加入了 LBP 人脸纹理信息.卷积神经网络不仅自动学习原始人脸图片的信息, 而且也学习 LBP 纹理信息.实验结果表明加入的 LBP 纹理信息对人脸识别有一定的帮助.1 基本原理1.1 LBPLBP 是一种纹理描述算子, 其基本原理是选取图像的中心像素作为阈值, 通过比较领域内的像素值, 得到一串二进制码, 图像的局部纹理特征便是用此二进制码来描述.具体计算方法是大于等于阈值的像素记为 1;反之, 则为 0.依次读取该二进制码,
11、 然后转化为十进制数, 作为中心点的 LBP 值.为了计算方便, 边缘像素的 LBP 值取原始图像像素值.LBP 算子由下面公式得到:选择原始图像与 LBP 图像结合的原因有三点: (1) 由于 LBP 图像特征具有光照不敏感的性质, 可以克服原始 RGB 图像固有的缺点.如图 1 所示, 不同光照条件下, RGB 图像差异很大, 而 LBP 图像受光照的影响很小. (2) 卷积神经网络提取的人脸特征忽略了人脸的局部结构特征, 而局部二值模式是人脸的局部信息特征, 可以弥补原图像的不足. (3) 深度 LBP 层得到的 LBP 图像与原始 RGB 图像有相同的形状, 可以非常容易通过 Comc
12、at 层结合这两种信息.图 1 RGB 图像与 LBP 图像对比和 LBP 图像对光照不敏感的性质 Fig.1 Conparison of RGB image and LBP image and nature of insensitiveness to light for LBP image 下载原图1.2 卷积神经网络卷积神经网络模型是一种监督学习的网络模型.其基本思想是构建多个卷积层、池化层和全连接层, 通过大规模数据进行训练, 得到大量具有代表性的特征信息, 从而对样本进行分类和预测.卷积神经网络的基本操作有卷积, 池化, 全连接等.卷积的作用是训练较少的参数提取输入数据的特征信息.它和
13、全连接相比最大的优势是网络局部连接, 需要训练的参数量很小, 有利于构建更深更大的网络结构解决更复杂的问题.卷积的计算公式可以用下面公式表示:其中, x i表示输入特征图在 x 位置 i 上的数值, y i表示输出特征图 y 在位置 j上的数值, k i表示卷积核在位置 i 上的参数值, b j表示偏置项, M j表示用于计算卷积操作的输入特征图对应位置的集合, f () 表示激活函数, 通常选用sigmoid 函数或者修正线性单元 (Rectified Linear Unit, Re LU) 激活函数.它们的数学表达式分别为:和池化的作用是缩小特征图的大小.为了加快网络训练的速度和减少运算数
14、据量, 卷积神经网络采用在卷积层后面连接一个池化层来减少数据量.池化操作不仅可以使卷积层提取的特征维度变小, 减少运算数据量, 还可以一定程度上降低网络的过拟合程度, 改善网络性能.池化的计算公式可以用下面公式表示:其中, down 是下采样操作.常用的池化方式有最大池化和平均池化, 最大池化是指取输入特征图的对应区域中的最大值作为输出位置的数值, 即 axie M (xi) .平均池化是指取输入特征图的对应区域中个数值的平均值作为输出位置的数值, 即 ie Mxi/m, m 表示 Mj的个数.全连接层的作用是将一个二维图像的特征图映射到一个一维特征向量上.全连接的计算公式可以表示为:其中,
15、W 是一个矩阵, x 是输入二维特征图的一维向量形式.通过全连接可以把任意维度的特征图映射到指定维度的向量中.1.3 认证度量函数人脸认证测试中, 使用余弦函数作为判断一对人脸图片是否是同一人的标准.设 x1和 x2为一对人脸图片, f 1和 f2为经过深度学习提取的人脸特征, 用下面的余弦函数作为人脸对的相似度 r (x1, x2) :若 r (x1, x2) 大于某个阈值, 则说明网络把两张人脸照片识别为同一人;反之, 则识别为不同人的照片.2 结合方式为了提升人脸识别的准确率, 提出一种不仅学习原始图片信息, 也要学习原始图片的局部二值模式信息的方法.然而, 原始图片信息与局部二值模式信
16、息差异太大, 直接结合效果不好.为了让原始图片信息与局部二值模式信息一致, 让原始图片经过一个核为的卷积层操作, 然后把经过卷积作用后的特征图与局部二值模式信息结合作为卷积神经网络的输入信息.具体的结合形式如图 2 所示, 分两条路处理原始图片, 一边是让输入图片经过 LBP 层提取图片的局部二值模式信息, 然后正则化处理;另一边是输入图片经过正则化处理后进入卷积层.最后通过 Comcat 层结合这两种信息作为卷积神经网络的输入信息.图 2 结合方式 Fig.2 Combination 下载原图输入图片为彩色图片, 假设图像大小为 mn, 用张量表示为 X=R, G, B, 其中 R, G 和
17、 B 是大小为 mn 的矩阵, 它们的数值表示图片三个通道上的像素值.输入图片 X 经过 LBP 层后得到局部二值模式为:其中 RLBP, GLBP和 BLBP表示大小 mn 的矩阵, 它们分别是原始图像 R, G, B 通道的 LBP 值.输入图片 X 经过核为 11 的卷积层后的结果为:其中 Rconv, Gconv和 Bconv表示大小为 mn 的矩阵, 他们是原始图像经过卷积作用后的结果.最后神经网络的输入是 Y 和 Z 的结合即原始图片的局部二值模式信息和单位卷积后信息的结合.这种结合的优势有两点: (1) 图像的 LBP 值 Y 和卷积后特征信息 Z 有不同类型的特征信息, 这两种
18、信息的结合使得卷积神经网络的特征提取更充分. (2) 单位卷积处理原始图像后可以减小原图像的噪声, 更有利于图像的有效特征提取.3 实验3.1 训练数据与测试数据试验中使用的训练数据集是 CASIA-Web Face14, 它包括 10 575 个人约 50 万张人脸图片.测试数据集是 LFW13 (labeled face in the wild) 数据库, 它是一个标准的人脸认证测试库, 包括来自网络上 4 745 个不同人的 13 233 张人脸照片.选取 6 000 个人脸对进行人脸识别, 包括 3 000 个正样本对和 3 000 个负样本对, 通过选取合适的阈值计算出识别准确率.3
19、.2 图像预处理人脸图片在进入网络训练之前需要对其做预处理操作, 目的是减小图像中的无关信息, 增强有用信息的强度.首先, 所有的人脸图片经过人脸检测算法15得到 5 个特征点, 然后使用这 5 个特征点做相似变换对齐人脸图片, 最后剪切并放缩到 11296 像素的 RGB 图像.为了方便处理像素值, 让每个像素值减去 127.5并且除以 128.训练时, 为了增广数据集对输入图片作水平翻转, 得到镜像图片.3.3 网络结构及参数设置我们使用 caffe library16训练卷积神经网络, 实验中用到的网络结构如图3 所示.其中, C 表示卷积层, P 表示池化层, LBP 表示深度 LBP
20、 层, COM 表示结合层.除第一个卷积层使用 11 核外, 其他的卷积层均使用 33 的卷积核.所有 33 的卷积都有补零的处理, 保证卷积后图像尺寸不变.特征提取层 FC 提取的特征维度设为 512.详细的网络结构的参数设置如表 1 所列.网络训练优化由 Softmax loss 和 Center loss12两个损失函数监督.网络训练的 batch 大小设为 256, 初始学习率设为 0.1, 当迭代次数达到 16 000 和 24 000 时, 学习率依次除以 10, 最后迭代 28 000 次结束训练.Momentum 设为 0.9, 权重衰减设为 5e-4.图 3 人脸识别实验的
21、CNN 结构 Fig.3 CNN structure for face recognition experiment 下载原图表 1 网络结构参数设置 Tab.1 Parameter setting of network structure 下载原表 3.4 实验结果与分析为了证实本文提出的方法的有效性, 实验选择公开的人脸数据集 CASIA-Web Face14作为训练集, 选用非限制条件下的人脸库 LFW13进行人脸识别实验.实验中网络训练是在 6 G 内存 NVIDIA Titan GPU 下进行, 训练花费约 24 小时.做了三组实验: (1) 比较了不同输入数据类型对实验结果的影响;
22、 (2) 比较了增加训练集数量对实验的影响; (3) 本文提出方法与其他方法的比较.实验一:让网络的输入分别为原始 RGB 图像, LBP 图像以及 RGB 和 LBP 结合的图像, 用相同的网络结构训练模型, 然后用得到的模型参数在 LFW 测试集上做人脸认证, 得到的结果如表 2 所示.可以发现, 仅仅使用 LBP 图像作为网络的输入得到的人脸认证的识别率比用原始 RGB 图像得到的识别率低, 因为 RGB 图像转化为 LBP 图像时有信息损失.但是, LBP 图像有 RGB 图像不具有的特征, 因此通过结合 RGB 图像和 LBP 图像得到的人脸认证识别率比单独使用 RGB 图像或者LB
23、P 图像得到的识别率要高.此方法有一个缺点:加入 LBP 信息会使网络训练时长变大, 因为提取 LBP 特征花费部分时间.表 2 不同输入类型的识别率比较 Tab.2 Recognition comparation of different inputs 下载原表 实验二:对比增加训练集数量对人脸识别的影响.表 3 是实验结果, 可以发现增加训练样本集时, 使用 RGB 和 LBP 作为网络的输入可以进一步提高识别率.说明增加的 LBP 信息对大数据训练有更强的鲁棒性.表 3 增加数据集的影响 Tab.3 Impact on addition of datasets 下载原表 实验三:与其他深
24、度学习方法的比较.如表 4 所示, Face Net 网络用 2 亿张图片的训练集达到了 99.63%的识别率, Deep ID2+网络用 25 个小网络融合达到了99.47%的识别率.本文用比较小的数据集 (90 万张) 和单个模型达到了较好的识别效果 (98.33%) , 并且从实验可以发现, 用提出的方法在增加训练数据集时可以极大提高人脸识别率.表 4 与其他方法的比较 Tab.4 Comparation with other ways 下载原表 4 结论本文提出了一种 LBP 与卷积神经网络相结合的人脸识别方法.LBP 算子提取的人脸图片具有光照不敏感和局部纹理特征.通过让网络的输入增
25、加 LBP 局部结构信息, 卷积神经网络可以提取更具有区分性的人脸特征.在 LFW 人脸库上的试验结果表明, 这种方法有助于提高人脸识别的准确率, 并且对于更大的训练集, 效果更佳明显.本文提出的方法是对人脸识别的研究, 在数字识别、物体识别等其他的图像识别应用中同样可以使用本文提出的方法.因此, 下一步的工作可以尝试把这种方法应用到其他应用中.参考文献1Ahonen T, Hadid A, Pietikainen M.Face recognition with local binary patternsJ.Computer Vision-eccv, 2004 (1) :469-481. 2A
26、honen T, Rahtu E, Ojansivu V, et al.Recognition of blurred faces using local phase quantizationJ.Pattern Recognition, 2008 (2) :1-4. 3Lior W, Tal H, Yaniv T.Effective uncon-strained face recognition by combining multiple descriptors and learned background statisticsJ.IEEE Pattern Analysis and Machin
27、e Intelligence, 2011, 33 (10) :1978-1990. 4Le Cun Y, Boser B, Denker J S, et al.Backpropagation applied to handwritten zip code recognitionJ.Neural Computer, 1989, 1 (4) :541-551. 5Simonyan K, Zisserman A.Very deep convolutional networks for large-scale image recognitionJ.Co RR, 2014, (3, 5) :1409.1
28、556. 6Szegedy C, Liu W, Jia Y Q, et al.Going deeper with convolutionJ.CVPR, 2015 (1) :1-9. 7He K, Zhang X, Ren S, et al.Deep residual learning for image recognitionJ.CVPR, 2016 (1) :770-778. 8Nair V, Hinton G E.Rectified linear units improve restricted boltzmann machinesJ.Proceedings of the 27th Int
29、ernational Conference on Machine Learning, 2010, (3) :807-814. 9Goodfellow I J, Warde-Farley D, Mirza M, et al.Maxout networksJ.International Conference on Mechine, 2013 (1) :1219-1327. 10Hadsell R, Chopra S, Le Cun Yann.Dimensionality reduction by learning an invariant mappingJ.2006 (2) :1735-1742.
30、 11Schroff F, Kalenichenko D, Philibin J.Facenet:Aunified embedding for face recognition and clusteringJ.CVPR, 2015 (1) :815-823. 12Wen Y D, Zhang K P, Li Z F, et al.A discriminative feature learning approach for deep face recognitionJ.ECCV, 2016 (1) :499-515. 13Huang G B, Ramesh M, Berg T, et al.La
31、beled face in the wild:A database for studying face recognition in unconstrained environmentsJ.Technical Report 07-49, University of Massachusetts, Amherst, 2007 (1) :95-105. 14Yi D, Lei Z, Liao S, et al.Learning face representation from scratchJ.Ar Xiv preprint ar Xiv, 2014 (2) :115-123. 15Sun Y, W
32、ang X, Tang X.Deep convolutional network cascade for facial point detectionJ.2013 IEEE Conference on Computer Vision and Pattern Recognition, 2013 (5) :3476-3483. 16Jia Y, Shelhamer E, Donahue J, et al.Caffe:Convolutional architecture for fast feature embeddingJ.Proceedings of the ACM International Conference on Multimedia, 2014 (5) :675-678.