基于肤色检测与卷积神经网络的手势识别.doc-道客多多

资源描述

1、基于肤色检测与卷积神经网络的手势识别杨红玲宣士斌梁竣程赵洪莫愿斌广西民族大学信息科学与工程学院摘要：针对光照变化、背景噪声等复杂环境对手势识别的影响, 提出了一种基于 YCb Cr 空间肤色分割去除背景结合卷积神经网络进行手势识别方法。首先根据人体肤色在 YCb Cr 颜色空间中的聚类效果, 采用基于椭圆模型的肤色检测方法进行手势分割;然后对分割后的手势图像提取骨架与边缘相融合的手势特征图;再通过深层次的 Alex Net 卷积神经网络结构, 对经过融合的手势特征图进行识别。实验结果表明, 针对复杂的背景环境, 该算法具有较强的鲁棒性, 在不同数据集下对手势的平均识别率提升了

2、 4%, 可以达到 99.93%。关键词：肤色检测; 手势分割; 特征提取; 卷积神经网络; 手势识别; 作者简介：杨红玲 (1991-) , 女, 硕士研究生, 主要研究方向:图像处理与识别。作者简介：宣士斌 (1964-) , 男, 教授, 主要研究方向:图像处理, 图像处理与识别。作者简介：梁竣程 (1982-) , 男, 本科, 主要研究方向:计算机网络。收稿日期：2017-05-22基金：广西自然科学基金 (2015GXNSFAA13911) Hand gesture recognition based on feature fusion and convolutional neu

3、ral networkYang Hongling Xuan Shibin Liang Juncheng Mo Yuanbin School of Information Science and Engineering, Guang Xi University for Nationalities; Abstract： To reduce the influence of the complex environment such as illumination changes and background noise to hand gesture recognition, an YCb Cr b

4、ased space color segmentation model is used to remove background, and Alex Net convolution network is employed to achieve hand gesture classification in this paper. Based on the human skin color clustering in the YCb Cr color space, the method of skin detection based on elliptical model is used to e

5、xtract gesture image. Then it extracts the gesture feature map fusing the skeleton and edge features from the segmented gesture images. Based on results of the features fusion of gestures, the Alex Net convolution network with deep level structure is employed to recognize the gesture image. The expe

6、rimental results show that the proposed algorithm has strong robustness against the complex background environment, and the average recognition rate is improved by 4%, reaching to 99. 93%.Keyword： skin detection; gesture segmentation; feature ertraction; convolutional neural network; gesture recogni

7、tion; Received： 2017-05-220 引言近年来深度学习在计算机视觉应用的高速发展, 给新的人机交互方式带来更多的机遇, 为了让机器人通过“看到”、“听到”等方式去完成相应的动作, 就需要让机器人明白人的指令。手势作为传递指令的一种重要交互方式之一, 基于深度学习的手势识别技术成为现在非常热门的研究课题, 得到了很多科研工作者的关注。目前手势识别一般分为两步, 首先从复杂的背景环境中将手势分割出来, 然后对分割的手势进行识别, 因此在复杂背景下由于背景、环境、光照等外界条件的变化会给手势分割带来一定的困难, 而分割效果的好坏也会对识别有一定的影响。常见的手势分割方法大多是基于

8、肤色聚类的特性1, 应用颜色信息获取手势部位的所在区域, 如基于 HSV 颜色空间的肤色检测, 但是该方法对于光照变化比较敏感;基于高斯模型的肤色检测, 该方法能在简单的背景下能取得很好的检测效果;基于椭圆模型的肤色检测则能很好地适应光照的变化和复杂背景, 因本文算法在手势分割阶段选取该模型进行肤色检测。而对手势分割后的识别方法也有很多, 如基于神经网络的识别方法具有较强的识别分类识别能力的分类能力, 但是如果采用神经网络层数一般较浅, 很容易出现过拟合的现象2-3;基于几何特征的识别方法通过提取手势结构、边缘、轮廓等特征进行手势识别, 具有良好的稳定性, 但是不能通过提升样本量的同时进行识别

9、率的提升4-6;基于隐马尔科夫模型的识别方法虽然具有描述手势时空变化的能力, 但是该方法的识别速度却不尽如人意7。随着深度学习在计算机视觉方面的迅速发展, 基于深度学习的卷积神经网络的方法受到越来越多研究者的关注, 其独特的局部感知、权重共享、深度层次化结果、自动特征提取过程给手势识别8-9带来新的思路, 但是该方法对数据集的获取、网络结构的选择却有着一定的要求, 若能获取较为干净的手势图像, 选择更加深层次的网络结构, 会使得学习的特征更加具有分类能力。因此针对复杂环境下的静态手势图像, 提出了一种基于肤色分割与卷积神经网络相结合进行手势识别的方法。该方法首先对比人体肤色在各颜色空间中聚类效

10、果, 选取对光照环境变化不太敏感的椭圆模型在 YCb Cr 空间进行肤色检测实现复杂背景环境下的手势分割, 同时针对分割图像中可能存在非手势区域的问题, 采用最大类间方法去除图像中非手势区域, 然后获取手势图像进行骨架与边缘相融合的特征图, 再通过采用深层次的 Alex Net 卷积神经网络结构, 对融合的特征图像进行训练, 获取手势分类模型, 从而实现复杂背景环境下的手势识别。实验证明该方法具有良好的识别效果, 在不同数据集下对手势的平均识别率提升了 4%, 达到 99.93%。1 基于卷积神经网络的手势识别本文算法的输入为采集得到的原始手势图像, 将原始图像通过滤波、去噪等预处理后进行手势

11、分割。手势分割是根据人体肤色在颜色空间中具有良好的聚类效果, 通过椭圆模型的肤色检测方法, 提取包含手势区域的二值图像, 然后获取图像中最大连通区域作为手势区域。手势识别对分割提取的手势区域进行分类识别。首先通过对分割后的手势图像进行骨架与边缘特征提取, 获取这两种特征相融合的特征图, 再采用深层次的 Alex Net 卷积神经网络结构, 对融合的手势特征图像进行学习训练, 获取分类模型对手势进行识别, 判断手势所代表的含义。算法的输出为对各类手势进行识别的相对概率, 具体的算法流程图如图 1 所示。图 1 手势识别算法流程图下载原图由于手势识别过程输入的采集图像中非人手背景的存在会对手势识

12、别造成一定的影响, 因此本文提出了一种基于肤色分割与卷积神经网络相结合的手势识别方法, 通过肤色分割一定程度上减少背景对手势识别的干扰;然后获取分割图像中的最大连通区域作为手势图像;最后通过卷积神经网络对分割后手势的骨架与边缘相融合的特征图像进行分类, 获取识别结果。1.1 基于肤色模型的手势分割由于肤色能在颜色空间中表现出良好的聚类效果, 基于肤色模型的手势分割方法能把感兴趣的手势部分从复杂的背景中提取出来。由于图像采集设备获取的图像通常为 RGB 形式, 相互之间存在着一定的相关性, 亮度稍稍地变化就会对肤色分割产生巨大变化, 并不适合进行肤色分割, 而经过大量的统计结果发现, 在将皮肤信

13、息映射到 YCb Cr 空间时, 肤色像素点会在 Cb Cr 二维空间中近似形成椭圆分布, 因此将 YCb Cr 作为手势分割的颜色空间, 并采用基于椭圆模型的方法进行肤色分割。通过判断某点在 YCb Cr 空间的坐标 (Cb, Cr) 是否在椭圆内来区分肤色与背景。椭圆方程具体参数如下所示:其中, Cx=109.38, Cy=152.02, b=14.03, =2.53, ecx=1.60, ecy=2.41, a=25.39;椭圆模型的肤色检测结果如图 2 所示。图 2 基于 YCb Cr 空间的椭圆模型肤色分割效果图下载原图由于肤色检测中会受到类似肤色的颜色背景的影响分割出一些非手势区

14、域, 因此本文通过对各个连通区域进行统计, 获取图像中的最大连通区域, 排除肤色检测结果图像中的非人手区域, 实现对手势更加精确地分割。1.2 基于卷积神经网络的手势识别随着深度学习的快速发展, 其在图像识别领域也有了广泛的应用。基于深度学习的图像识别与传统方法相比, 有着更加精确的识别精度和速度, 因此本文采用基于深度学习的方法来进行手势识别, 构建深度卷积神经网络结构, 通过有监督的学习方法获取手势分类模型, 进行识别手势。1.2.1 基于多特征融合的手势输入由于手势变化的复杂性, 虽然分割后的二值图像能够很好地排除影响手势识别的背景信息, 但是人们在进行手势识别时往往更加关注手势本身所代

15、表的含义而忽略整体手势的信息。为了提高手势识别的准确率, 提取手势分割后图像中的本质信息, 引入基于二值手势图像 (如图 3 (a) 所示) 的骨架特征与边缘特征相融合后的特征图像作为卷积神经网络的输入图像。骨架作为物体的一维表示, 能够保持原物体的几何、形状、拓扑信息, 是一种优良的形状描述符, 能够有效地描述物体。因此, 骨架广泛应用于计算机图形图像学、计算机几何学等众多领域。手势骨架作为一种对于手势本质信息表示方法, 能够很好地描述手势所代表的物理含义, 可以将手势骨架信息作为一类手势识别的特征描述, 手势骨架提取结果如图 3 (b) 所示。虽然单一的手势骨架特征能够很好地解释手势所代表

16、的含义, 但是所含有的关键信息却有一定的缺陷。因此, 进一步利用形态学算子提取手势二值图像的边缘 (如图 3 (c) 所示) , 获取具有更好解释效果的手势边缘图像, 然后将其图手势骨架图像相结合作为卷积神经网络的输入, 获取更好的识别效果, 融合结果如图 3 (d) 所示。图 3 多特征融合效果图下载原图1.2.2 基于深度卷积神经网络的手势识别卷积神经网络 (CNN) 具有三个最基本的特征:局部连接、权值共享和下采样, 通过局部连接和权值共享减少训练参数, 同时通过下采样来提升模型鲁棒性的同时减少训练参数, 因此根据卷积神经网络的特征, 其一般包含两个特殊的网络神经元层:卷积层和下采样层

17、。本文采用 Alex Net 的网络结构, Input Layer为输入层, 具体为 6464 的手势特征融合图像, Layer1Layer5 是卷积层, Layer6Layer8 为全连接层, Output Layer 为输出层, 输出层神经元有 3 个, 分别代表手势类别:石头、剪刀、布。卷积核和各偏置等参数的初始值均随机产生, 输入样本后通过前向传播和反向传播算法对网络进行训练来更新参数。手势识别的卷积神经网络结构如图 4 所示。图 4 手势识别的卷积神经网络结构下载原图卷积滤波实质就是用卷积核在图像矩阵中滑动遍历, 卷积核与图像上相对位置的元素作乘积, 将所得结果相加得到一个结果值,

18、最后通过激活函数获得卷积结果。当卷积核滑动遍历整张图像后, 结束特征提取, 获取一个新的图像特征矩阵。再通过下采样图像特征矩阵进行降维, 减少计算量, 同时避免特征过多导致出现过拟合, 增强网络结构对位移的鲁棒性。具体的卷积和下采样计算如下所示:其中 ai, j表示经过卷积后第 i 行第 j 列元素;x i, j表示图像的第 i 行第 j 列元素;w m, n表示卷积核中第 m 行第 n 列权重;w b表示卷积核的偏置项;f 表示激活函数, 为 RELU 函数;b 表示 p*q 样本区域经过下采样后的特征值;P 为下采样函数, 一般为 Max Poling 或 Mean Poling, 本文

19、中采用 Max Poling。2 实验结果和分析2.1 实验结果对本文提出的方法在两个数据库上进行验证, 第一个数据库是在室内场景采集的手势图像数据库, 用来评判算法的性能, 在采集的手势数据库中, 通过普通的摄像头拍摄不同环境、不同旋转角度下的 3 种类别的手势图像各 100 张用于算法性能的测试;第二个数据库采用 Thomas Moeslunds Gesture Recognition Database, 在该数据库中对建立的基于手势分割与卷积神经网络的手势识别模型进行验证。本文从拍摄的各类手势图像中选取 2 000 个训练样本和 200 个测试样本。通过手势数据集, 分析不同的训练次数与

20、手势识别率和误差的关系, 如图 5 所示。从图 5 中可以看出训练次数较少时, 手势的识别率较低, 网络需要训练较多的次数才可以达到较好的识别效果。这是因为, 在训练次数较低时, 由于手势的复杂性, 并不能提取出具有高效分类的网络参数, 使得训练的误差仍然很高, 当训练进行到一定程度时, 网络参数就不会发生太大的变化, 误差趋于稳定, 网络的识别率趋于稳定。图 5 训练次数与手势识别率和误差的关系下载原图2.2 实验对比分析为验证本文算法的性能, 通过本文获取的实验结果的识别率, 与国内其他学者的手势识别效果进行比较, 表 1 显示了手势样本在不同方法下的识别率和时间消耗对比。表 1 本文方

21、法与其他方法识别性能的比较下载原表通过对比可以发现, 本文算法获取的识别率相对较高的原因在于以下两点: (1) 本文中采用椭圆模型进行肤色分割获取包含手势区域的二值图像, 然后通过求最大连通区域的方法, 获取干净的手势图像; (2) 本文中采用相对文献5-6更加深层次的卷积神经网络, 同时将手势图像的骨架和边缘的融合特征图像作为网络的输入, 能够描述手势所代表的物理含义, 从而获得更好的识别效果。当然本文的不足之处在于复杂的网络结构使得识别时的耗时量会有一定的增加, 但是由于其耗时量已经缩短在毫秒级, 因此并不会因为耗时量对算法的实现产生更大的影响。3 结论本文基于不同的背景环境, 提出了

22、一种基于肤色分割与卷积神经网络结合的方法进行手势识别。采用肤色分割去除背景对手势识别的干扰, 同时通过获取分割后最大连通区域的方法排除类似肤色的烦扰, 得到更加干净的手势二值图像, 最后通过具有较高分类能力的 Alex Nex 卷积神经网络结构对手势的骨架和边缘的特征融合图像进行学习训练, 获取分类模型进行手势识别, 从而解决了传统识别方法中训练方法复杂度高、训练参数多、识别率低等问题。下一步将通过改进网络结构或者改进分割算法进一步降低其在手势识别中的误识率, 从而实现复杂环境下的动态手势识别。参考文献 2STERGIOPOULOU E, PAPAM-ARKOS N.Hand gesture

23、recognition using a neural network shape fitting techniqueJ.Engineering Applications of Artificial Intelligence, 2009, 22 (8) :1141-1158. 3江立, 阮秋琦.基于神经网络的手势识别技术研究J.北京交通大学学报, 2006, 30 (5) :32-36. 4Liu Yun, Yin Yanmin, Zhang Shuijun.Hand gesture recognition based on HU moments in interaction of virtua

24、l realityC.International Conference on Intelligent Human-Machine Systems and Cybernetics.IEEE, 2012:145-148. 5董立峰, 阮军, 马秋实, 等.基于不变矩和支持向量机的手势识别J.微型机与应用, 2012, 31 (6) :32-35. 6隋云衡, 郭元术.融合 Hu 矩与 Bo F-SURF 支持向量机的手势识别J.计算机应用研究, 2014, 31 (3) :953-956. 7MURTHY G R S, JADON R S.Hand gesture recognition Usin

25、g Neural NetworksC.Advance computing Conference, IEEE, 2010:134-138. 8王龙, 刘辉, 王彬, 等.结合肤色模型和卷积神经网络的手势识别方法J.计算机工程与应用, 2016, 53 (6) :1-7. 9操小文, 薄华.基于卷积神经网络的手势识别研究J.微型机与应用, 2016, 35 (9) :55-57. 10STERGIOPOULOU E, PAPAMARKOS N.Hand gesture recognition using a neural network shape fitting techniqueJ.Engineering Applications of Artificial Intelligence, 2009, 22 (8) :1141-1158. 11江立, 阮秋琦.基于神经网络的手势识别技术研究J.北京交通大学学报, 2006, 30 (5) :32-36. 12蔡娟, 蔡坚勇, 廖晓东, 等.基于卷积神经网络的手势识别初探J.计算机系统应用, 2015, 24 (4) :113-117.

展开阅读全文