1、人体下肢应激微反应自动识别 王昊鹏 冯显英 张明亮 山东警察学院 山东大学高效洁净机械制造教育部重点实验室 山东行政学院 摘 要: 由于现有的动作识别方法不能直接用于人体微反应动作识别, 本文基于人体下肢微反应动作特点, 构建了一种时空金字塔韦伯局部描述子并设计了基于字典学习的人体下肢微反应自动识别算法。该方法利用时空金字塔韦伯局部描述子提取每一类人体下肢微反应动作特征, 使用主成分分析法对特征降维;然后, 建立每一类动作子字典并将子字典串联形成总的动作字典;最后, 通过实验分析了金字塔级数 L, 降维后每类动作特征维数 dPCA, 每类动作子字典原子个数 nAtom, 以及稀疏阈值 C 等参
2、数对识别结果的影响, 并确定最优参数值 L=3, dPCA=30, nAtom=40, C=10。实验结果表明, 提出的算法对 10 种人体下肢微反应动作的识别率均在 0.830.91 之间, 平均识别率达到 0.86, 高于其他动作识别算法。设计的算法更适用于人体下肢微反应动作分类, 并可有效提高分类识别率。关键词: 人体下肢; 应激微反应; 动作识别; 自动识别; 时空金字塔韦伯局部描述子; 作者简介:王昊鹏 (1981-) , 男, 山东济南人, 博士后, 讲师, 2004 年、2008 年、2014 年于山东大学分别获得学士、硕士、博士学位, 主要从事智能检测与控制方面的研究。E-ma
3、il:whp-whp-作者简介:冯显英 (1965-) , 男, 山东济宁人, 博士, 教授, 1987 年、1992年、1998 年于山东工业大学分别获得学士、硕士、博士学位, 主要从事数字化制造技术、智能检测与控制方面的研究。E-mail:收稿日期:2017-02-08基金:国家自然科学基金资助项目 (No.51405194) Automatic recognition of micro-expressions action for human lower limbWANG Hao-peng FENG Xian-ying ZHANG Ming-liang Shandong Police C
4、ollege; Key Laboratory of High Efficiency and Clean Mechanical Manufacture, Ministry of Education, Shandong University; Shandong Academy of Governance; Abstract: Because the existing motion recognition method couldnot be directly used in human microexpression action recognition.A spatio-temporal pyr
5、amid Weber Local Descriptor (STPWLD) was constructed and an automatic recognition algorithm of human lower limb micro-expression action based on dictionary learning according to characterize human lower limb micro-expression action was designed.With the method, the features of human lower limb micro
6、-expression action was extracted by the STPWLD.Then, the dimensions of STPWLD feature were reduced by the principal component analysis.Furthermore, the sub-dictionaries of human lower limb micro-expressions action wasestablished and these sub-dictionaries were connected in series to construct a gene
7、ral action dictionary.Finally, the influence of the parameters of the algorithm on the recognition results was analyzed, and the optimal value of these parameters was determined.It shows that the optimal value of pyramid scales is 3, the optimal feature dimension of each action after dimension reduc
8、tion is 30, the optimal number of atoms in each action dictionary is 40 and the optimal value of sparse threshold is 10.The experimental results indicate that the recognition rates of the proposed algorithm for 10 kinds of human lower limb micro-expression actions are all between 0.830.91, and the a
9、verage recognition rate is 0.86, higher than that of other algorithms.The algorithm is suitable for the classification of human lower limb micro-expression actions and improves the classification recognition rate effectively.Keyword: human lower limb; micro-expression; action recognition; spatio-tem
10、poral pyramid weber local descriptor; dictionary learning; Received: 2017-02-081 引言心理应激微反应 (Micro-expressions) 1是指人在受到有效刺激的瞬间表现出的不受思维控制的真实反应, 简称微反应。微反应是人类经过长期进化而遗传继承下来的一种生物本能反应, 无法通过人主观地表演“装”出来, 因此通过分析人的这些细微行为痕迹, 可以逆推人的精神系统状态和情绪, 从而得出人的真实心理。微反应识别可广泛应用于公安机关破案、商业谈判和心理咨询等领域2。由于微反应具有发生频率低、持续时间短和动作幅度小等特点
11、, 通过人工来识别微反应不仅识别难度大, 误识别、漏识别也较多, 而且需要对识别人进行较长时间地识别训练, 因此利用图像处理技术进行微反应的自动识别来有效提高微反应识别的准确性, 已成为当前研究的热点。人的微反应主要体现在面部表情、四肢动作和躯干姿态等 3 方面3。其中对面部微表情识别的研究4开展得最广泛, 成果较多且识别精度较高, 对四肢动作和躯干姿态微反应识别的研究相对较少, 这是因为人体是非刚性物体, 其四肢和躯干具有复杂多变的动作和姿势, 尤其是四肢和躯干的微反应动作非常隐蔽且不同类型的微反应本身具有较高的相似度, 再加上背景、光照、着装、遮挡等因素的干扰, 使得对四肢动作和躯干姿态的
12、识别成为目前计算机视觉领域中最难且最具有挑战性的问题之一5。Doan6等利用 Kinect 传感器获取手部 RGB-D 图像, 构造三层金字塔特征描述符, 并使用支持向量机进行手部动作的分类;Marcos7等对面试中的人体进行视频监控, 用光流法描述被监控人的躯干和上肢运动, 并进行动作识别, 从而实现对被监控人的心理状态的推断;Yang8等利用人体步行时重心的变化规律对下肢关节点进行特征描述及精确定位, 实现了对人体步态的识别;Kwak9等设计了一种利用累计运动信息进行人体动作识别的方法, 首先逐帧提取人体目标轮廓, 然后计算相邻帧间人体轮廓的差分图像, 再将差分图像进行累积, 最后用这种累
13、积信息来描述人体的动作特征。这种方法能有效识别小幅度抬手和提腿等动作;蔡加欣10等利用 Procrustes 形状分析表达人体轮廓特征, 建立人体姿态字典, 实现了对人体行为的识别。这些动作识别方法虽然都取得了较高的识别率, 也进行了成功地应用。但人体四肢和躯干的微反应动作比这些识别方法所能识别的动作幅度更小且持续时间更短, 故现有的动作识别方法不能直接用于人体微反应动作识别。针对这些问题, 本文设计了一种针对坐姿状态下人体下肢微反应动作的识别方法, 在分析坐姿状态下人体下肢微反应动作特点的基础上, 使用一种时空韦伯局部描述子提取下肢微反应动作特征, 构造动作特征字典, 求解测试视频在动作特征
14、字典下的稀疏表示, 利用最大聚集 (Maxpooling) 计算测试视频对应每一类动作的重构误差, 将测试视频归类到具有最小重构误差的类, 从而实现微反应动作的识别。2 人体下肢微反应动作描述2.1 人体下肢微反应动作分析本文所讨论的人体下肢微反应动作主要是指双腿和双脚的动作, 有些手脚共同作出的微反应动作如双手抱膝等不在本文讨论范围内。坐姿状态下, 人体下肢常见微反应动作可归纳为 7 种, 分别为晃脚、转向脚、翘脚、踮脚、锁脚、双腿交叉和双腿叉开, 其动作特征和情绪含义如图 1 和表 1 所示。图 1 各种下肢微反应动作 Fig.1 All kinds of human lower limb
15、 micro-expression action 下载原图表 1 人体下肢微反应动作特征 Tab.1 Features of human lower limb micro-expression action 下载原表 通过图 1 和表 1 的动作特征描述可知, 坐姿状态下人体下肢的微反应动作复杂多变。有些微反应动作是一种姿态的保持, 例如双腿交叉, 动作过程是双腿双脚伸直上下叠着交叉起来, 动作做完后, 下肢会保持这种姿态一段时间;有些微反应动作是一种周期性重复动作, 例如单脚晃脚动作, 以脚跟 (或脚掌) 支撑, 脚掌 (或脚跟) 一下下点地, 每次点地加抬起是一次动作过程, 只点地一次不算
16、单脚晃脚微反应, 只有周期性地重复点多下才算。2.2 基于时空金字塔韦伯局部描述子的人体下肢微反应动作特征提取韦伯定律源于心理学研究, 认为大脑受到刺激时所感知的刺激强度与原刺激值的比值是一个常数。受韦伯定律的启发, 陈杰11等提出了韦伯局部描述子 (Weber Local Descriptor, WLD) , 将其用于描述图像局部纹理特征并取得了良好的效果。WLD 除了被用于图像纹理识别外, 还被广泛应用于人脸识别、表情识别、性别识别和种族识别等方面12-13。在这些应用中都是将 WLD 用于单幅图像, 但微反应动作由于其动作幅度小, 很难通过关键帧的姿态进行判定识别。2007 年, Zha
17、o14等为了克服局部二值模式 (Local Binary Patterns, LBP) 在序列图像处理上的不足, 提出了 LBP-TOP (Local Binary Patterns from Three Orthogonal Planes) 方法, 将 LBP 扩展到时空 3 个正交平面, 获取到序列图像在时空域的运动特征。张轩阁15等将 LBP-TOP 用于微表情识别, 取得了较高的识别率。与 LBP 算子一样, WLD 算子也是用于描述图像局部细节, 能够捕捉细微的显著特征, 对图像较大区域的宏观特征描述能力较差, 不同的是WLD 算子对图像局部强度变化的描述能力要优于 LBP 算子。受
18、此启发本文提出一种时空金字塔韦伯局部描述子 (Spatio-temporal Pyramid Weber Local Descriptor, STPWLD) , 将视频图像 I (x, y) 序列视为时空域的 3 个正交平面 XY、XZ 和 YZ, 如图 2 所示。图 2 图像序列三正交平面时空金字塔 Fig.2 Three orthogonal planes space-time Pyramid of image sequence 下载原图在每一个平面内, 利用金字塔将平面划分为 L 级大小不同的区域, 计算第 li (i=0, 1, , L-1) 级每个区域的 WLD 特征, 对直方图进行
19、归一化 (设归一化系数为 =1/4) 处理后, 将每一级每一个区域的直方图串联在一起得到该平面的 PWLD 直方图, 将 3 个平面的 PWLD 直方图串联在一起得到最终的 STPWLD 特征, 如图 3 所示 (以第 8 类动作为例) , 图中为第 8 类动作 (翘脚) 视频样本中的部分视频帧及其 STPWLD 特征直方图, 金字塔级数 L=3。特征维数为:其中:T i为 WLD 算子主要梯度方向的个数, M i为 WLD 直方图的段数, S i为 WLD 直方图每段的子区间个数。图 3 第 8 类动作及其 STPWLD 特征直方图 Fig.3 The eighth type action
20、and STPWLD feature histogram 下载原图STPWLD 特征的计算复杂度为:其中:L 为金字塔级数, m i、n i和 ti (i=0, 1, , L-1) 分别为每一级金字塔X、Y、和 Z 边中需计算 WLD 特征的区域个数, C 0是一个常量, 表示计算每个WLD 特征所进行的加、除以及求反正切等运算的个数。WLD 特征, 由差分激励 和方向 两部分构成, 计算公式为:其中:v s00和 vs01分别为滤波窗口 f00和 f01与像素点 xc及其周围 33 邻域的卷积, x i表示中心像素点 xc的第 i 个邻域像素, n 表示邻域像素个数, 取值为8。像素点 xc
21、的方向 (x c) 是指 xc的梯度方向, 为:其中:v s11和 vs10分别为滤波窗口 f11和 f10与像素点 xc及其周围 33 邻域的卷积。3 基于字典学习的人体下肢微反应动作识别3.1 字典学习与稀疏表示字典学习的任务是对于给定的某一类测试数据, 设计一个字典, 使得该类数据能在该字典上被稀疏表示。所谓稀疏表示是一种通过用少量原子线性组合来表示一个信号的方法。对于给定的测试数据 Y 可以利用一个稀疏的系数矩阵 A 和一个字典矩阵 D 表示, 并要求 A 尽可能稀疏, 则称 A 是 Y 的稀疏表示。K-SVD算法是最常用的字典学习算法之一16, 其目标方程描述如下:从误差逼近角度,
22、式 (5) 可改写为:其中:YR 为训练样本矩阵, 其每一列是一个训练样本;DR 为要学习的字典;AR 为稀疏系数矩阵;a i为 A 的第 i 列; F表示矩阵的 Frobenius 范数;约束项中的 0表示系数矩阵中非零元素个数, 代表了稀疏程度;C 为稀疏阈值。K-SVD 算法采用迭代的方式求解式 (5) 中的优化问题, 每次迭代时首先固定字典求解稀疏系数, 然后固定稀疏系数求解字典。其中求解稀疏系数最常用的算法是正交匹配追踪 (Orthogonal Matching Pursuit, OMP) 17算法。3.2 基于字典学习的人体下肢微反应动作识别算法假设人体下肢微反应动作共有 K 类,
23、 对于第 k 类动作, 从其所有测试视频中提取时空金字塔韦伯局部特征 Y, 利用 K-SVD 算法学习 Y 的字典 Dk, 对每一类动作进行字典学习, 则整个人体下肢微反应动作字典 D 可通过串联每一类动作字典的方式获得:10 类动作总的字典如图 4 所示。图 4 全部 10 类动作的动作字典 Fig.4 Action dictionary of all ten types of action 下载原图构建好人体下肢微反应动作字典 D 后, 对给定测试视频 Y=y ii=1 (T 为视频帧数) 中的任一帧 y i利用式 (6) 求解其在字典 D 下的稀疏表示。得到y i的稀疏表示后, 其对应的
24、第 k 类重构误差 rk (y i) 可表示为:其中: k (ai) 用于将稀疏矩阵的向量 ai中所有不与第 k 类对应的行置 0。利用重构误差进行动作分类, 首先对全部 K 类动作计算测试视频所有帧对每一类动作的重构误差的和, 将其标记为测试视频对该类动作的重构误差;然后在全部 K 类动作中寻找重构误差最小的类, 将测试视频标记为该类动作, 即:整个识别过程总结如下:提取视频的 STPWLD 特征;利用式 (1) 建立每一类动作的 STPWLD 特征子字典;利用式 (6) 将子字典串联成总的动作字典;利用式 (5) 计算视频在字典下的稀疏表示;利用式 (7) 计算视频对每类动作的重构误差;利
25、用式 (8) 对视频进行分类。4 实验结果与分析4.1 实验样本与实验设计目前在心理应激微反应自动识别研究中较常用的数据库主要有 METT 数据库、SMIC 数据库和 CASME 数据库, 这些数据库均为各研究团队自行设计开发, 且均为微表情数据库。由于尚未发现公开的、较为权威的人体肢体微反应数据库。因此, 本文实验所用视频样本均为自行拍摄采集, 共有 10 类微反应动作, 动作名称、特征及编号如表 1 所示。选择 10 名被测试人, 每名被测试人分别做表 1中的 10 种微反应动作, 每种动作做 10 遍, 整个视频样本集共 1 000 段视频, 采用德国 Basler acA1280-60
26、gc 摄像机 (视频分辨率为 1 2801 024pixel, 帧速率为 60f/s, 时长为 3s) 拍摄。本文算法中, 对识别精度产生影响的参数主要有生成 STPWLD 特征时的金字塔尺度、特征的维数、字典学习时字典原子的个数和稀疏阈值的大小。本文将对这4 个参数进行实验比较, 并采用留一法交叉验证对样本进行识别并统计识别率 (Recognition Rate, RR) , 识别率定义如下:其中:RR k为第 k 类动作 (k=1, 2, , K) 的识别率, RR avg为全部 K 类动作的平均识别率。4.2 金字塔级数对识别率的影响在计算 STPWLD 特征阶段, 将视频时空域 3 个
27、平面每个平面均分为 L 级金字塔, 每级金字塔的 (M i, Ti, Si) 均设为 (6, 8, 10) , 特征维数可由式 (8) 计算得到;在字典学习阶段, 设置动作字典 D 中每个子字典的原子个数为 40, 稀疏阈值 C 为 10。金字塔级数 L 与 10 类动作的平均识别率关系如图 5 所示。图 5 金字塔级数 L 与平均识别率 RRavg 的关系 Fig.5 Relationship between scale of pyramid and average recognition rate 下载原图从图 5 中可以看出, 当 L=1 (即单尺度) 时 RRavg仅为 0.82, 这
28、是因为单尺度所提取的特征是整个视频的时空韦伯特征, 无法很精确地表达视频的局部时空韦伯特征;随着 L 值的增大 RRavg有了明显提高, 并在 L=3 时达到了最高值 0.89, 这说明三级金字塔尺度最能合理表达视频的局部时空韦伯特征;当 L 继续增大, RRavg反而降低, 这是因为尺度划分过小, 无法正确表达视频的局部时空结构。因此本文取 L=3。4.3 特征维数对识别率的影响根据式 (1) 可知随着金字塔级数 L 的增加, 特征维数指数级增长, 大大增加了计算的复杂性, 因此需要对特征进行降维。本文采用主成分分析法18 (Principal Component Analysis, PCA
29、) 对特征进行降维。首先设置金字塔级数 L=3, 提取出 STPWLD 特征, 然后使用 PCA 对特征降维, 最后进行字典学习, 算法的相关参数设置与 4.2 节相同, 降维后特征维数与 10 类动作的平均识别率关系如图 6 所示。图 6 特征维数 dPCA 与平均识别率 RRavg 的关系 Fig.6 Relationship between feature dimension and average recognition rate 下载原图从图 6 中可以看出, 在10, 30区间内, 随着 dPCA的增加 RRavg显著提高, 这是因为降维后特征过少, 无法准确表达动作的全部特征;当
30、 dPCA超过 30 后, RR avg稳定在 0.870.88 之间, 这说明使用 30 维以上的特征就可以较为准确地表达动作的全部特征, 因此本文取 dPCA=30。4.4 字典原子个数对识别率的影响设置金字塔级数 L=3, dPCA=30, 算法的其他相关参数设置与 4.2 节相同, 每类动作子字典原子个数与 10 类动作的平均识别率关系如图 7 所示。图 7 字典原子个数 nAtom 与平均识别率 RRavg 的关系 Fig.7 Relationship between dictionary atomic number and average recognition rate 下载原图
31、从图 7 中可以看出, 在 nAtom在20, 60区间内 RRavg有一定波动, 其中 nAtom=40和 nAtom=50 时 RRavg最高, 达到 0.88, 本文取 nAtom=40。4.5 稀疏阈值对识别率的影响设置金字塔级数 L=3, dPCA=30, nAtom=40, 算法的其他相关参数设置与 4.2 节相同, 稀疏阈值与 10 类动作的平均识别率关系如图 8 所示。图 8 稀疏阈值 C 与平均识别率 RRavg 的关系 Fig.8 Relationship between sparse threshold and average recognition rate 下载原图从
32、图 8 中可以看出, 在 C 在5, 15区间内 RRavg虽然有一定波动, 但波动幅度很小, 最低 0.85, 最高 0.88, 这说明在5, 15内识别率对参数 C 不敏感, C可任意取值, 因此本文取 C=10。4.6 dPCA、n Atom和 C 交互作用对识别率的影响各参数中, L 反映了视频的时空结构, 不适合过大过小, 在 L=3 的前提下, dPCA、字典 nAtom和 C 在取值范围内具有一定的相互影响, 因此需分析各参数间相互作用对识别结果的影响。通过图 68 可以看出, d PCA在30, 100范围内、nAtom在40, 50范围内、C 在5, 15范围内时, 平均识别
33、率 RRavg较稳定, 因此设置 dPCA分别为 30、65 和 100, nAtom和 C 对识别结果的影响如图 9 所示。图 9 dPCA、nAtom 和 C 对识别结果的影响 Fig.9 Impact of dPCA、nAtomand Con recognition rate 下载原图图 9 dPCA、nAtom 和 C 对识别结果的影响 Fig.9 Impact of dPCA、nAtomand Con recognition rate 下载原图4.7 不同被测试人对识别率的影响考虑到不同被测试人做微反应动作的差异, 因此需分析被测试人的差异对识别率的影响, 设置参数 L=3, Mi=
34、6, Ti=8, Si=10, dPCA=30, nAtom=40, C=10。不同被测试人做不同微反应动作的识别率结果如表 2 所示。表 2 的每一个单元格为 1 个被测试人做 1 种微反应动作 10 遍的平均识别率, 每一行合计为同一被测试人分别做 10 种微反应动作的平均识别率。从表 2 中可以看出, 每一个被测试人做每一种微反应动作 10 遍的平均识别率几乎均在 0.8 以上, 只有极个别的为 0.7, 同一被测试人分别做 10 种微反应动作的平均识别率在 0.840.89 之间, 这说明本文设计算法对不同被测试人微反应动作的识别率不敏感, 一致性较好, 可用于对不同被测试人微反应动作
35、的检测。表 2 不同被测试人对识别率的影响 Tab.2 Effect of different subjects on recognition rate 下载原表 4.8 本文提出算法与其他算法的识别对比为进一步验证本文提出算法的有效性, 分别使用文献10、15设计的算法和本文提出的算法对 3.1 节采集的视频样本集进行分类识别。文献10提出了一种基于姿势字典学习的算法, 通过人体的姿态特征实现动作识别, 文献15提出了一种光流与 LBP-TOP 特征结合的算法, 用于识别人体面部微表情, 这两种算法分别在 Weizmann、MuHAVi-MAS14 和 CASMEII 等数据库中取得了不错的识别率10,15 (由于文献10使用的数据库 Weizmann、MuHAVi-MAS14 和文献15使用的数据库 CASMEII 与本文自建数据库的动作特点不同, 对文献10和15中算法的参数进行了优化, 文献10算法中的参数优化为轮廓点序列长度L=100, 稀疏阈值 C=5, 字典原子个数 n=18, 高斯函数参数 =5, LPP 维数 20;