1、基于人脸 68 特征点中两组特征值进行微笑强度分析 麻皓东 王天昊 北方工业大学电子信息工程学院 摘 要: 针对现有的学生综合评价体系过于主观, 本文介绍了一种基于 Opencv 和 Dlib库的人脸提取 68 个特征点进而提取特征值分析学生笑容强度的设计。Opencv负责人脸识别并提取, 获取人脸 68 个特征点并计算点间特征值;Matlab 用于数据分析和构造函数, 进而为学生界定笑容强度。关键词: Opencv; 人脸识别; 特征点; 构造函数; 作者简介:麻皓东 (1992-) , 男, 北京人, 硕士研究生, 研究方向:人脸识别算法。收稿日期:2017-10-26Based on t
2、he Two Sets of Eigenvalues in the Feature Points of Face 68 to Analyze the Intensity of the SmileMa Haodong Wang Tianhao Electronics and Information Engineering, North China University of Technology; Abstract: In view of the existing students comprehensive evaluation system is too subjective, this p
3、aper introduces a method based on Opencv and Dlib library to extract 68 feature points and extract the eigenvalues to analyze the students smile intensity design.Opencv is responsible for recognizing and extracting faces, capturing 68 feature points and calculating inter-point eigenvalues;Matlab is
4、used for data analysis and constructors to define smile intensity for students.Keyword: opencv; face recognition; feature points; constructor; Received: 2017-10-260 引言在大数据时代, 人们对智能视频分析技术越来越看重。智能视频分析依赖于视频算法对视频内容进行分析, 通过提取视频中关键信息, 进行标记或者相关处理, 并形成相应事件和告警的监控方式, 人们可以通过各种属性描述进行快速检索。智能视频技术借助处理器的强大计算功能, 对视频
5、画面中的海量数据进行高速分析, 获取人们需要的信息。随着近几年国家教育的蓬勃发展, 学生对教师授课的课堂评价以及教师对学生的综合评价显得尤为重要。当前的学生综合评价不排除有的教师对学生评价非常主观, 同时学生对教师的评价更容易带有个人的感情色彩。因此, 可以通过智能化教室的视频技术, 对学生上课时的面部表情进行分析。本文对学生上课过程中的笑容强度进行分析, 为今后判断笑容与课堂的相关性进行铺垫。对学生笑容强度的分析以及笑容等级的时间覆盖直接关系到学生对于课堂的专注度, 同时也反映出教师对于课堂生动活泼性的把控。本项目的研究满足如下几个特点:1) 课堂录制过程中不影响教师学生的上课活动。2) 课
6、后对于视频的剪辑与分析耗时短。3) 有助于教师课后对学生专注度进行评价, 同时也有助于教师对于课堂内容进行改善。1 方案设计首先, 在学生上课的科技教师搭设好录像设备, 每个学生前方有一个独立的摄像头 (确保不影响学生听课) , 每个摄像头都连接到视频采集的服务器, 所有当天采集的视频都收录到服务器硬盘中。然后在课后, 在根据视频内容剪辑出学生微笑的视频。用第一组程序将剪辑出的视频按照每一帧截取的方式, 把视频中学生脸部部分截成 jpg 格式的图像。每个同学按照姓名学号独立存取每一帧笑容截图;再用第二个程序将每个学生的每一帧截图按帧号排布好的每一帧图标上面部的 68 个特征点, 在输出 68
7、个特征点坐标的同时, 计算出需要的几个点间距 (特征值) 并写入到和图片帧号相对应的 txt 文本中。最后一步, 将输出的计算有每一帧特征值的 txt 文件用 Matlab 程序读取并生成函数图像。观察函数图像走势并与实际对应帧号的截图进行对比分析, 从而界定笑容强度。本系统方案流程图如图1 所示。图 1 系统方案流程图 Fig.1 System program flow chart 下载原图2 视频中人脸识别截取在对上课后录制的视频进行截取后, 把所有笑容视频按照人名命名好。用Opencv 程序对视频进行每一帧截的方式截图1。一是将视频分解成一帧一图;二是为了在视频截图的基础上以 40040
8、0 的像素规格, 直接截出脸部图像, 排除其他无关因素。在截取过程中, 在程序中加入了归一化的过程, 这只是第一步归一化, 确保每张人脸截图的面部大小和画面比例视觉上一样大。根据视频截取好的图片全部按照人名视频名称存储到相应的文件夹中。3 系统主要输出模块对这些图片进行 68 个特征点的标注处理, 以及在特征点基础上的特征值的计算和输出。首先, 每张人脸图片都会被标记 68 个面部特征点, 同时输出每个点的横纵像素坐标。在处理每张图片的时候, 还要把相关特征值输出到对应以帧数命名的 txt 文件中。面部特征值经过大量的测试与对比发现, 学生笑容强度的表现与内眼角和同侧嘴角的距离还有两嘴角间的距
9、离会有一定联系2。如图 2所示, Opencv 程序读取截好的其中两帧图片并在图片上标注面部的 68 个特征点。图 2 在现有的人脸截图上标注 68 个特征点 Fig.2 In the existing face shot marked 68 feature points 下载原图3.1 特征值从众多其他文献中总结发现3-7, 当下在光照归一化不稳定的情况下, 特征点间距是最优秀的特征值, 要强于面部由于笑容引起的褶皱阴影。如图 3 所示, 在人脸模型上标注了一些重要的特征点, 表 1 中列出了一些有效的特征值。在总结的 18 个特征值中, 第 12 到第 16 条特征值是最有用的。f12、f
10、13 代表两侧眼角到同侧嘴角的距离, f16 代表嘴角间距离, f12:dis3948 (39 号特征点到 48 号特征点的距离) f13:dis4254, f16:dis4854, f14、f15 代表嘴角到鼻尖的长度, dis3348, dis3354。经过程序上的测量和比对, f12、f13 的值会随着笑容强度的增加而减小, f16 也就是嘴角间距显然会随着笑容强度的增加而增加。表 1 面部一些有效特征值 Table 1 Facial some eigenvalues 下载原表 图 3 人脸一些特征部位标注 Fig.3 Facial features some of the site m
11、arked 下载原图观察 Matlab 生成的函数图像发现 f12、f13 的平均值与 f16 的值会随着笑容强度的增加而趋近相等。由于个别测试会出现偶然现象, 需进行多组测试来验证这种判断笑容强度的算法。如图 4 为可以观察出当前暂定结论的函数图像。3.2 归一化图像的归一化是重中之重。在截取学生笑容视频的时候, 调用 Opencv 自带库中归一化模块进行归一化处理, 标定了脸在截图的大体位置, 同时确定了图片的像素规格是 400400。但是, 由于光照问题以及脸距镜头前后位置变化的问题, 这种归一化只完成到归一化进程的 80%。并且, 由于要测的是面部特征点之间的距离, 所以面部大小统一的
12、归一化尤为重要。而刚刚第一步的截图归一化无法确保所截出来的人脸大小完全相等, 也就是说截图呈现出来的学生的面部大小会随着上课时学生面部到摄像头的距离而改变, 进而影响了输出的特征值结果, Matlab 仿真出来的函数图像会产生大量毛刺甚至是大规模噪声。如图 5 所示, 如果仔细看个别几张图的人脸大小还是会有比较大的区别, 这就是产生大量噪声的隐患。从数学角度来讲, 要把学生每一帧截图中左内眼角到左嘴唇的距离统一在一个位面上, 就要将每张图片输出的左内眼角到左嘴角的距离 dis3948除以一个每帧笑脸图片中的一个距离定值。人在笑的时候, 鼻尖到鼻梁上方的距离是基本不变的, 从图中可以看到只要再把
13、每组所求特征值除以这个鼻尖到鼻梁上方的距离就可以做到最后的归一化了。鼻尖到鼻梁上方的距离 dis2730也就是说后面输出的 f12 到 f16 都是在原有输出距离的基础上除以一个 dis2730, 这样就实现了每一张图的特征值大小统一。4 结论通过大量测试与统计发现, 当学生面部表情普通时, f12、f13 的值远大于 f16的值, 即嘴角的开度值远小于嘴角到同侧内眼角的距离。所以光靠 f16 的值 (嘴角开度) 来决定学生笑与不笑甚至是笑容强度肯定是不准确的, 因为人在悲伤或者做其他表情的时候嘴角的开度也会产生变化。所以将嘴角与同侧内眼角的间距加进来至关重要。当人面部表情呈现笑容的时候, 嘴
14、角不但会打开同时多数人在笑的时候嘴角还会上扬, 这就使嘴角到同侧内眼角的间距缩小。而通过我们的测试, 不论男女, 中小学生在笑容强度逐渐增强的时候, 他们的嘴角开度与嘴角到同侧内眼角距离会逐渐接近并趋于相等。所以在 Matlab 程序中加入了求 的函数。在得到 Matlab 输出的函数图像后, 又去对比视频截图。如图 6 所示学生面无表情的时候大概是第 1 到第 50 帧, 图像中显示的f12、f13、f16 均是总体趋势水平。当 50 帧往后, 学生面部表情产生变化, 开始微笑, 此时看到 f12、f13 的值会骤然下降, 同时 f16 的值会 2f 16f 12+f 13M=上升。当看到
15、70 帧左右的时候, 学生的笑容近似最大化, 此时 f12、f13的平均值与 f16 的值会十分接近。此时来看下 f16 与 f12、f13 平均值的比值。M 值在 50 帧之前都是区域平缓, 当学生开始微笑也就是 50 帧左右往后, M 值会上升, 在笑容最大的时候, M 值会定格在 1 左右。如图 7 所示, 可以观察 M 值随笑容的变化。如果把笑容定级为 5 个级别的时候, 可以把当前最大笑容定级为 4 级, 原因是在 4 级以上还有学生肆无忌惮开怀大笑的时候同样也有收录。在 M 值从大约 0.75 到 1 之间可以再把笑容细微地分为 4 级, 在学生开怀大笑的时候 M 值会大于 1,
16、大于 1 的级别定为 5 级也就是笑容最大值。如图 6 可以看到学生表情从平淡到大笑的过程。2f 16f 12+f 13M=图 4 用 Matlab 根据输出的数据生成的函数图像 Fig.4 Uses Matlab to generate the function image based on the output data 下载原图图 5 截图程序按照帧号所截人脸 Fig.5 Screenshot program according to the frame number cut face 下载原图图 6 学生表情变化过程 Fig.6 Student expression changes p
17、rocess 下载原图图 7 Matlab 生成的特征值组成的函数图像 Fig.7 Matlab generated eigenvalues of the function image 下载原图图 8 最后生成的笑容强度评定 Fig.8 Last generated smile strength assessment 下载原图参考文献1王福斌, 李迎燕, 刘杰, 等.基于 Open CV 的机器视觉图像处理技术实现J.机械与电子, 2010, (6) :54-57. 2杨闻闻, 王忠华.课堂教学视频分析与诊断系统的设计与探究J.计算机与数字工程, 2011, 39 (9) :183-186.
18、3Q Ye, J Dong, Y Zhang.3D Human Behavior Recognition based on Binocular Vision and Face-hand Feature, Optik, 2015, 126 (23) :4712-4717. 4Q Ye, R Gu, Y Ji.Human detection based on motion object extraction and head-shoulder feature, Optik, 2013, 124 (19) :3880-3885. 5Q Ye, JF Dong, YM Zhang.Human moti
19、on analysis based on silhouette and centroid displacement, 2013 2nd International Conference on Measurement, Instrumentation and Automation, ICMIA2013, 1139-1144. 6Q Ye, JF Dong, YM Zhang.Real-time human skeleton extraction based on video sequences, 3rd International Conference on Frontiers of Manufacturing Science and Measuring Technology, ICFMM2013, 1410-1414. 7M Pantic, LJM Rothkrantz.Expert system for automatic analysis of facial expressionsJ.Image&Vision Computing, 2000, 18 (11) :881-905.