1、 基于关键点梯度特征描述的人体行为识别算法摘要:提出一种新的人体行为识别方案并进行了算法实现。通过对视频序列在空间上高斯滤波,在时间轴向上 gabor 滤波,提取出视频序列的关键点,对每个关键点邻域 2020 的区域使用梯度位置朝向直方图进行描述,描述的序列可以表征视频序列的特征。与其他人体行为识别算法比较,不需要标记特定的特征区域和比较耗时的聚类算法,构建单个支持向量分类器即可达到好的识别率,算法简单有效。关键词:关键点检测; 梯度位置朝向直方图; 人体行为识别;支持向量机引言基于视觉人体运动的分析在智能监控、高级人机交互、虚拟现实和基于内容的视频检索分析等方面有广泛的应用前景和潜在的经济价
2、值,已经成为计算机领域中备受关注的研究方向1 。行为识别可以看作是在空间中时变数据的分类问题,即将测试序列和标记的典型行为的参考序列进行相似性度量,但是人体运动同一行为速度、方向和尺度有可能有变化,好的算法应该能处理相似行为模式在时空中的微小变化。从对人体行为的特征选取,人体行为识别方法可分为 2 方面:结构化的数据特征(如人体的轮廓序列,人体的躯干分布和人体的局部区域的时间特征)和非结构化的数据特征(如图像人体区域的角点检测、行为序列的关键点检测) 2 。从这两方面看,前者多借助于图像图形处理的方法,而后者多借助于原始信号处理的方法。本文采用非结构化的数据特征,原因在于其关键点检测没有像图像
3、图形处理那么复杂。用时空关键点表征视频序列,在研究初期存在许多对静态图像的关键点提取3 ,对在视频中的时空关键点检测较少。直到2005 年 laptev 等人提出基于 harris and frstner 兴趣点算子的时空关键点检测器4 ,虽然这种方法检测到一些时空关键点,但是只产生了少数稳定的关键点不足以描述复杂视频序列的特征。同时 dollr 等人提出一种基于分离线性滤波器集合的时空关键点检测器5 ,这种方法不仅使得人体局部区域表征人体复杂的运动模式,而且在关键点的临近视频块中可以生成大量的描述子。ke 等人提出了时空测定体积的特征扫描视频序列,这种方法通过运动矢量检测关键点,而运动矢量需
4、要对光流密集的估计,计算量大不能满足通用的实时性6 。oikonomopoulos 等人把在空间图像上的特征区域扩展到时空情景中,2 个时空特征点集通过chamfer 距离比较,得到较好的实验结果7 8 。由上文可知基于分离线性滤波器集合的时空关键点检测器,具有描述复杂人体行为的模式的优势和产生丰富的特征描述子的特性,在最近的研究得到了进一步的扩展应用。文献6,8中,利用分离线性滤波器集合得到关键点,获取关键点区域的梯度信息,然后在区域的立方体中获得特征描述,再将这些立方体中的特征聚类,使用svm(support vector machine)或 lda(latent dirichlet al
5、location)进行分类得到较好的人体行为分类结果。但是文献6特征学习需要关键点的标记,文献8中运用的聚类算法对多类人体行为非常耗时。1 本文算法介绍本文实现了一种新的简单有效的人体行为识别算法,不需要预先标记特定的特征区域,也不需要比较耗时的聚类算法预分类。首先使用分离线性滤波器将视频序列中的人体行为运动剧烈的关键点提取出来,然后在这些关键点的 2020 的区域中使用梯度位置朝向直方图进行描述,描述序列可以构成描述一种行为的特征向量,使用基于核函数的 svm 多分类器,取得良好的识别结果。算法流程如图 1 所示。图 1 算法流程图 2 视频序列中人体行为关键点检测关键点的检测最初是用于图像
6、的匹配,而且随后发展成为图像匹配一种主要的方法。但是对静态图像的关键点的检测与对视频序列的关键点检测有很大区别。前者只是检测静态图像的边缘和角点,反映静态图像中不确定目标对象的关键点(如 sift,scale invariant feature transform) ,而后者检测的是视频序列中确定人体行为的运动关键点。本文应用的是分离线性滤波器对视频序列的人体行为进行检测。分离线性滤波器本质是多个滤波器联合处理相关数据信息。对于视频序列的人体行为,可以用多各不同尺度高斯滤波来处理视频序列每一帧图像,即所谓的空间信息滤波,用 gabor 滤波来处理空间相同位置时间不同的视频数据信息。本文所用的高
7、斯滤波函数为:g(x,y;)=122e(x2+y2)/22 (1)式中:(x,y)为视频图像空间的坐标; 为高斯滤波的尺度。在时间上的滤波函数用一维gabor 正交对函数:hev(t;)=cos(8t/)et2/2 (2)hod(t;)=sin(8t/)et2/2(3)式中:t 为时间的维数; 为 gabor 滤波的尺度。分离线性滤波器对视频数据处理会得到输出响应,响应函数:r=(i*g*hev)2+(i*g*hod)2(4)对于视频片段取固定的空间滤波尺度和时间滤波尺度,每个帧图像的每个像素点都会得到输出响应,为了简便取每一帧最大的输出响应为关键点的所在位置。那么这样是否能表征人体行为的特征
8、,在 weizmann 行为数据库中以 shahar 的 10 种行为视频作为检测对象。这十种行为是:弯腰、四肢伸展跳跃、跳跃前行、原地跳跃、跑、侧行、单腿跳行、走、单臂挥动、双臂挥动。如图 2 所示,图中的白点为检测到的关键点,实验时把视频片段的所有帧关键点叠加到一帧图像中,可以看到有非常明显的行为模式,但是有的关键点检测到人体运动范围以外,统计得到这部分点不到 5%不影响整体行为模式的表达。图 2 人体动作关键点检测 3 关键点区域梯度特征描述在检测确定人体行为的关键点后,近一步需要确定人体行为特征向量。特征向量的提取主要分为 2 个步骤:人体图像帧关键点区域梯度位置朝向直方图的获取;特征
9、向量的选择和归一化处理。获得梯度位置朝向直方图,首先要计算图像关键点及其领域的像素点的梯度。图像的梯度可使用 2 个滤波器(-1,0,1)和(-1,0,1)t对图像进行水平和垂直方向进行滤波,获得水平和垂直方向的梯度。由于人体运动状态时刻变化,所以图像帧容易受到噪声的影响。在进行梯度计算时首先要做相关的平滑处理,而进行关键点检测时空间滤波使用高斯滤波本身就相当于给图像帧做平滑处理,这里直接应用即可。根据图像各点在水平和垂直方向上的梯度值 dxi和 dyi,计算出各点梯度的幅值 mi 和方向 i。mi=d2xi+d2yi (5)i=tan1(dyi/dxi)(6)考虑到视频图像中人体行为有效梯度
10、信息都集中在人体运动最剧烈的像素附近,关键点区域可能完全落在人体运动区域外没有意义的区域。因此,为降低局部噪声的影响,去除关键点区域图像局部细小的波动特征,需要对梯度的幅值进行限定。为计算梯度朝向直方图,图像中梯度的方向角也被归并为 8 个方向。得到关键点区域梯度后,假设一个序列长度 l, 可以确定 l 各区域。使用区域内各点的梯度作为权向量,计算各区域内不同梯度朝向的直方图 hk:hk=j=1,2,8j,iqlmi (7)式中:l 为关键点区域的数目;ql 表示第 l 各区域内所有的像素点;j 为并归后当前梯度方向。最后将各个视频图像帧人体行为区域的梯度朝向加权直方图进行归一化处理,通过各个
11、值除以直方图的最大值,映射到0,1区间内作为该区域的特征向量。整个人体行为可以用序列各关键点区域特征联合描述。为保留行为的空间和时间信息,将各个区域的特征向量按固定顺序排列成一个行向量:d=h1,h2,hl(8)描述整个人体行为的特征向量的维数为 ln,n 为梯度朝向的归并数目9 。4 人体行为的多类识别支持向量机具有完美的数学形式、直观的几何解释和良好的泛化能力,解决了模型选择与欠学习、过学习问题以及非线性问题,避免了局部最优解,有效地克服了“维数灾难” ,且人为设定参数少,便于使用,已经成功的应用于许多分类、识别和回归问题10 11 。设给定样本集 xirn,输出分类结果 yi1,1,i=
12、1,2,l 和核函数 k(xi,xj)。k 对应特征空间 z 中的内积,即(xi),(xj) =k(xi,xj) 。变化 :xz 将样本从输入空间映射到特征空间。设计基于 svm 的分类器就是在 z 中寻找一定意义下的最优超平面 w,(x) b=0。具体来说就是样本集在 z中线性可分,使得分类间隔最大,求条件:yi( w,(xi) b)1,i=1,2,l 时下式的解:minw,b,12w2(9)当样本在 z中线性不可分时,使分类间隔和分类错误达到某种折中。求条件:yi(b)1i,i0,i=1,2,l 时下式的解:minw,b,12|w|2+cli=1i(10)式中:i 为松弛变量;c为正则化参
13、数。本文中取核函数为高斯径向基函数:k(xi,xj)=exp(xixj2/2)(11)以上针对 2 类的分类过程,要实现多类人体行为的分类,需要构建基于 svm 的多分类器。构造若干个 svm 二值分类器是解决多值分类的最基本的方法,这类方法目前主要有 2 种分支算法,1 对多(one against rest ,简称1 a r )算法和 1 对 1(one against one ,简称 1 a 1) 算法。1 a r 算法定义:对于 n 类问题,构造 n 个 2 类分类器,第 i 个分类器用第 i 类训练样本作为正的训练样本,将其他类的训练样本作为负的训练样本,此时分类器的判决函数不取符号
14、函数,最后的输出是 n 个 2 类分类器输出中最大的那一类。本文实验就是基于此方法构建的 svm 的人体行为分类器。5 实验结果分析本文实验使用 weizmann 行为数据库对算法进行分析测试,weizmann 行为数据库包括 9 个人体的 10 种行为,每个人体有 10种行为的视频片段。这些视频片段长度不一致,如果取视频序列的整体提取特征会使得特征长度不一致,而且人体的行为在运动有一定的重复性。所以取多少维的特征向量和最优分类器参数(c,)影响着分类计算的时间和分类器的泛化能力。根据人体行为的时空连续性,取特征区域的数目 l 从 10 到 33(选取最佳区域数目) 。在进行分类参数选择时,将
15、样本分随机的十组,设定(c,)的搜索区间为(c:0.0011 000,:0.0011 000),进行交叉比对测试,通过所有交叉检验准确率(cva,cross vali dation accuracy)平均值最高的分类器的(c,)的值作为最优参数。实验取训练样本 200 个,测试样本 100 个,表 1 为各种行为在特征区域的数目 l 为 10,20,30 和最优参数(c,)下最高识别率。表 1 中 l 为特征区域的数目,sbl 为识别率,xw 为行为种类。由上表兼顾计算量实验取 30 个特征区域,最优参数(c,)取各识别情况下均值即(0.98,1.23) ,重新构建分类器平均识别率可达 81%
16、以上,识别的平均时间在 0.2 s 左右。在识别过程中一些行为模式比较复杂如跑与侧行涉及到的身体运动不是一个关键点能够表达的,所以识别率比较低,影响平均识别率下降。但是算法有较明显的优势,与文献3,5 6 识别算法比较,关键点特征选取不需要标记特定的特征区域; 与文献5,8识别算法比较,不需要耗时的聚类算法进行特征的预处理,构建单个支持向量多分类器即可达到较好的识别率。6 结语本文提出了一种新的人体行为识别方案,首先使用分离线性滤波器将视频序列中的人体行为运动剧烈的关键点提取出来,无需特别的标注。然后在这些关键点的 2020 的区域中使用梯度位置朝向直方图进行描述,描述序列可以构成描述一种行为
17、的特征向量,无需对这些特征向量聚类,直接使用基于核函数的 svm 多分类器,取得良好的识别结果。在下一步工作中,将需求更加可靠的特征取代梯度特征描述,降低特征向量维数,提高算法性能。表 1 不同特征区域的数目下各种行为识别测试对比%xwsbll102030bend1008880jack60100100jump569196pjump409699run648589side709598skip586578walk789497wave1558892wave2889599参考文献1凌志刚,赵春晖,梁彦,等.基于视觉的人行为理解综述j.计算机应用研究,2008,25(9):2570 2578.2蔺广逢,张
18、二虎,顾桓,等.基于功率谱密度的人体运动状态检测 j.计算机应用,2008,28(5):1269 1271.3schmid c, mohr r, bauckhage c. evaluation of interest point detectors j. international journal of computer vision, 2000, 2(37): 151 172.4laptev i. on space time interest points j. international journal of computer vision, 2005, 64(2/3): 107 123.
19、5dollaka r p, rabaud v, cottrell g, et al. behavior recognition via sparse spatio temporal features c/ proceedings of 2nd joint ieee international workshop on visual surveillance and performance evaluation of tracking and surveillance. s.l.: ieee, 2005: 65 72.6ke y, sukthankar r, hebert m. efficient
20、 visual event detection using volumetric features c/ proceedings of the tenth ieee international conference on computer vision. los alamitos: ieee computer society, 2005: 166 173.7oikonomopoulos a, patras i, pantic m. human action recognition with spatiotemporal salient points j. ieee transactions o
21、n systems, man, and cyberne tics, part b: cybernetics, 2006, 36(3): 710 719.8niebles juan carlos, wang hong cheng, li fei fei. unsuspervised learning of human action categories using spatial temporal words j. international journal of computer vision, 2008, 79(4): 299 318.9云廷进,郭永彩,高潮.基于图像局部区域梯度特征描述的红外人体识别算法j.光学技术,2008,34(3):441 444.10guo g d, li s z. content based audio classification and retrieval by support vector machines j. ieee trans. on neural network, 2003, 14(1): 209 115.11胡国胜,钱玲,张国红.支持向量机的多分类算法j.系统工程与电子技术,2006,28(1):127 132.