1、第 8 卷 基于 PCA 算法的人脸性别鉴别 2011 年 5 月作者简介:柳华(1984) ,女,山东乳山人,烟台南山学院软件工程学院,教师基于 PCA 算法的人脸性别鉴别柳华 (烟台南山学院, 山东烟台,265713)摘 要:人脸的性别分类是指根据人脸的图像判别其性别的模式识别问题。本文首先通过主成份分析(PCA ) 算法求出训练样本的特征子空间,测试样 本和训练样本分别向特征子空间 投影,分 别得到一组坐标系数做为待识别的特征。最后利用最近邻准则进行性别鉴别。在人 脸数据库 ORL(Olivetti Research Laboratory)进行实验,实验结果得出,基于 PCA 算法的人脸
2、性别识别,识别 性能好,是一种有效的性别鉴别方法。关键词:性别识别;PCA 算法;ORL 人脸数据库中图分类号: TP391.41 文献标志码:AGender Classification Based on PCA for Facial ImagesLIU Hua(Yantai Nanshan University, Yantai,Shandong,265713) Abstract: Gender classification is a pattern recognition problem of deciding the gender according to the face image.
3、Feature sub-space of training samples is obtained by PCA (Principal Components Analysis).The test samples and training samples are respectively projected to the feature space, recognition features are accordingly gained by a set of coordinates coefficient. The nearest neighbor rule is utilized in ge
4、nder classification.Experimental results on ORL face database show that PCA is well in recognition performance,and is a valid method in gender classification. Keywords: gender classification; PCA algorithm; ORL face database在计算机识别与监控中,计算机视觉发挥着重要的作用,出现了人脸识别和跟踪、年龄估计以及性别识别等研究领域。其中,人脸性别识别是一个重要的研究课题,即利用计
5、算机通过人脸图像信息识别被观察者的性别属性。各国研究人员都对该课题做了相关的研究,他们采用不同的识别方法,其中大多数研究者采用基于神经网络和基于支持向量机的方法 1-4。性别识别作为人机交互的一部分,起着非常重要的作用,该项研究不仅能加强现有的人机交互能力,而且还能在智能环境中对一些有性别要求的特定场所的出入进行性别限制,统计性别信息等。人脸图像在计算机中以高维的矩阵存储,人脸图像上的点用矩阵的行和列标出,该点的灰度等级就是矩阵中相应元素的值,从而,性别识别的问题就相当于对高维的矩阵进行处理,所以,达不到实时识别的要求,速度比较慢 5-6。对于解决这一问题,我们通常采用的方法是利用降维技术,线
6、性鉴别分析(Linear Discriminant Analysis,LDA)和 主成分分析 (Principal Components Analysis, PCA) 7,是常用的两种有效的降维方法。本文采用PCA 算法进行人脸性别识别,PCA算法的原理就是将一个高维的向量通过一个特殊的特征向量矩阵,投影到一个低维的向量空间中,表征为一个低维向量,这样就可以提高性别识别的速度,由于男女性别人脸之间存在差异性,并且男性或女性人脸结构存在相似性,所以在高维空间中人脸图像的分布是存在着某种规律的。因此,在性别识别过程中,PCA算法将人脸图像空间降维到维数22的特征子空间中,这样维数大大减少,并且还保
7、留了原始图像数据的大部分有用的信息,实验结果说明:该算法对表情变化或者轻微倾斜的人脸图像进行性别识别有较强的鲁棒性,并且具有较高的正确识别率和识别速度。1 PCA 算法原理PCA算法是统计模式识别中一个经典的特征提取方法,PCA算法的原理是通过除去数据间的相关性达到降维的目的。在PCA中,一幅人脸图像用一个 n维向量 x来表示, n的大小等于人脸图像的高乘以宽。训练集由进行完规一化后的标准人脸图像来组成。产生矩阵用该样本集的总体散布矩阵即:第 8 卷 烟 台 南 山 学 院 2011 年 5 月(1)10TNiiiy上式中, yi表示第 i个训练样本的图像向量, 表示训练样本集的平均向量, N
8、为训练样本的总数。下一步就是求上式矩阵的特征值和特征向量,然后将特征值从大到小排序,取其前 m个特征值对应的特征向量,由这些特征向量构成特征子空间。这样,原始向量的维数就降低到 m维了,起到了降维的目的,其中,越大的特征值对应的特征向量包含的识别特征越多,能量越大,然后可以将变换后的原始向量投影到特征向量组成的子空间中,得到一组坐标系数,待识别的图像向量也向其投影得到另外一组图像系数,最后通过最近邻准则识别人脸性别。2 基于 PCA 算法的人脸性别鉴别PCA算法用于人脸性别鉴别,首先求的所有训练样本的均值,然后分别求的男,女两类训练样本的均值,下一步对两类训练样本进行规范化,求的规范化后的矩阵
9、的特征向量。这样,就得到了训练样本的特征子空间,然后,将训练样本和测试样本进行规范化再分别朝由训练集生成的特征子空间投影,然后用最近邻准则对性别进行鉴别。下面是该算法的详细过程。首先求得所有训练样本的均值,然后用这个平均值去规范化男女两类训练样本均值。设训练样本图像的高和宽是 m和 n,则训练样本的维数是mn,性别识别问题是两类模式识别问题,所以共有2类,设每类参加训练的样本数是 M,则所有的样本数就是2 M,然后计算所有训练样本的平均值 m, (2)21ix其中 xiR mn 然后计算女的训练样本的均值 m1(3)1Mi男的训练样本的均值 m2(4)21Mix其中 m、 m1、 m2R mn
10、。然后将 m、 m1、 m2转变成列向量。下一步求的训练样本的总体协方差矩阵定义为(5)21()TiiiSm其中 SR mnmn其中:设 X= m1-m, m2-m。计算S的特征值与特征向量,将计算的特征向量标准正交化之后记为 Ui,则 UiR mn2,这样训练样本和测试样本的人脸图像就可以投影到UiR mn2,张成的子空间中分别获得一组坐标系数,该坐标系数就代表了在特征子空间中的位置,在特征子空间中也就是一个点,该点就代表一幅人脸图像,同时,把 UiR mn2中的每个列分量还原重构成图像,特别像人脸,所以该方法也称为“特征脸”方法。由于(5)式中 SR mnmn的维数太大,直接求其的特征值和
11、正交归一特征向量有一定的难度,所以下面利用奇异值分解原理来求解(5)式的特征值和特征向量: (6)21()()TiiiSm奇异值分解原理是通过求解上式 S1的特征值和特征向量来间接获得 S的特征值和特征向量。过程是:首先求的矩阵 S1的2个非零特征值 ,2,iVi为 S1矩阵对应于 的特征向量,那么求矩阵 S的i正交归一特征向量通过下式获得(7)2,iXUii上式中的X的定义与公式(5)中相同。这就是总离散度矩阵 S的特征向量。第三步,用所有训练样本的平均值规范化两类训练样本均值得到的训练样本矩阵 X向特征子空间 Ui投影:(8)TiYX这样就得到了男女两类的投影特征,显然投影特征的维数是2维
12、的,这样就将一个 mn维的训练样本类图像降维到2维空间中了,数据量得到压第 8 卷 基于 PCA 算法的人脸性别鉴别 2011 年 5 月缩,识别速度也会大大提高。第四步,进行测试识别,经过以上步骤得到PCA算法的性别训练的特征子空间,根据PCA的原理首先需要对待测试的人脸图像向量化,转化为列向量,然后再用训练样本的平均值对其规范化。设测试样本为 xT(9)Txm利用公式(8)求出测试样本的投影特征C,再计算C与Y之间的欧氏距离d(10)21,(),(221jiYjjiiiYij表示 i类训练样本投影特征的第 j个元素,Cj表示测试样本投影特征的第 j个元素比较 d(Y1,C)与 d(Y2,C
13、)的大小,若 d(Y1,C)小则判为女性,反之,则判为男性。3 实验结果与分析实验在 Matlab6.5 环境下采用 ORL 人脸数据库的部分样本进行了仿真实验。ORL 人脸库是由英国剑桥 Olivetti 实验室从 1992 年 4 月到 1994 年4 月期间拍摄的一系列人脸图像组成,该人脸库由40 个不同年龄、不同种族的对象组成、其中,35人为男性,5 人为女性。每个对象 10 幅图像共计400 幅灰度图像组成,人脸图像的尺寸为112 92,对象的灰度级为 256 的人脸图像组成,试验中将每幅图像的分辨率转化为 56 46,库中的人脸包括不同光照、不同面部表情和面部遮挡情况下的人脸图像,
14、同时也包括轻微旋转下的人脸图片。该库是目前使用最广泛的标准数据库, ORL 人脸数据库中的部分图像如图 1 所示。图 1ORL 人脸数据库中十个人的人脸图像在实验过程中,选取图 1 中的 5 男 5 女共 10人,每人 10 幅图像作为样本图像数据。训练样本随机产生,在相同实验条件下,从男女两类中每人随机选取 i 张人脸图像作为训练样本 (i=2,4,6),每人剩余 10-i 张作为测试图像来实验。通过采用不同数量的训练样本来测试正确识别率,参加训练的样本数与男、女、和总的平均识别率关系如表 1 所示。表 1 训练样本数与正确率%训练样本数 总识别率 男识别率 女识别率20 96.25 100
15、 92.540 96.66 100 93.360 97.25 100 95实验结果证明,基于 PCA 算法的人脸性别鉴别总体上能达到较高的识别要求,同时通过表 1可以看出随着训练样本的增加, PCA 算法的识别率也随之就越高。同时还可以看出相同的训练样本数的情况下,男性的识别率高于女性的识别率。这个实验结果是偶然还是女性比男性难识别,经查阅文献,研究结果:女性化程度取决于漂亮程度,而男性化程度与漂亮程度无关,并且人脸图像越趋近于平均脸,越漂亮,女性化程度越高,这样的就容易造成错误识别率,这结论能很好的解释这个问题,至于该问题是否还与其他因素有关系,还需进一步研究。4 结论性别分类是一个很具有挑
16、战性的实际问题。本文采用的是基于 PCA算法的人脸性别识别。PCA算法将训练图像和测试图像都投影到 PCA算法得到的特征子空间里,通过这个算法的处理变换,保留下了人脸图像的对性别识别有用的信息,同时也去掉了与性别识别无关的大量的图像的冗余信息,起到了降维的作用,该算法有较高的识别率和识别速度。但是该算法是对人脸的灰度图像进行处理变换的,所以最大的缺陷是对光照很敏感,从而影响识别率,这个问题有待进一步探讨研究,同时,下一步的研究可以采用 PCA提取主成分信息,作为性别分类的特征,然后利用支持向量机(SVM) 、Adaboost 算法进行性别分类,进一步提高识别率。参考文献:1 邓 英, 欧贵文.
17、 基于 HMM 的性别识别J. 计算机工程与应用,2004 (15) : 74-75.2 李小红. 基于积分投影的人脸图像的特征提取J. 计算机仿真, 2004, 21 (12) : 189-191.3 张淑玲, 邹复民 . 基于小波分析的人脸图像特征提取J. 科学技术与工程,2006, 6 (12) : 1 719-1722.4 孙权森,增生根,王平安,等.典型相关分析的理论及其在特征融合中的应用 J.计算机学报, 2005, 28 (9) : 1524 - 1533. 5何国辉,甘俊英.PCA-LDA 算法在性别鉴别中的应用J. 计算机工程,2006,32(19):208-213.6李月龙,尹建芹,李金屏.一种人脸识别的新方法J.济南大学学报:自然科学版,2006,20(4):315-317.7边肇祺, 张学工. 模式识别(第 2 版)M. 北京: 清华大学出版社, 2000.