1、适于人脸识别的 PCA 算法应用研究 蔡羽 徐朝阳 范金龙 江苏科技大学电子信息学院 中国船舶重工集团公司第 723 研究所 江苏科技大学机械工程学院 摘 要: 人脸识别问题涵盖了多个领域如图像处理、计算机视觉和模式识别等, 文中主要研究了 PCA 算法的原理, 并基于 MATLAB 软件平台实现了人脸识别系统。本系统对图像进行预处理后, 用 ORL 人脸库中的部分图像作为样本, 通过 K-L 变换获取训练样本的特征值和特征向量, 从而得到特征脸向量, 然后将测试样本投影到已知的特征脸空间, 计算出坐标系数, 进而得出分类识别的结果。实验证明了本系统有较高的人脸识别率, 具有一定的实际应用价值
2、。关键词: 人脸识别; 主成分分析; 特征子空间; 图像预处理; 作者简介:蔡羽 (1991-) , 女, 硕士研究生, 研究方向为模式识别, 计算机应用技术。收稿日期:2016-11-25Application of PCA algorithm for face recognitionCAI Yu XU Zhao-yang FAN Jin-long School of Electronic and Information, Jiangsu University of Science and Technology; No.723 Institute of CSIC; School of Mec
3、hanical Engineering, Jiangsu University of Science and Technology; Abstract: Face recognition problem covers many fields such as image processing, computer vision and pattern recognition, etc., this paper mainly analyzed the principle of PCA algorithm, based on MATLAB software platform and implement
4、s a face recognition system. After the system of image preprocessing, with part of the image as a sample, ORL face image database by K-L transform for the training sample of eigenvalue and eigenvector, face vector is obtained, and then will test sample projection to the characteristics of the known
5、face space, to calculate the coordinate coefficient, classification results are obtained. The experiment proves that this system has a higher human face recognition rate, has certain actual application value.Keyword: face recognition; PCA; feature subspace; image preprocessing; Received: 2016-11-250
6、 引言人脸作为体现人类身份和传达人类情感的外在渠道, 如何通过人脸获得想要的信息或者达到一定的目的, 一直以来吸引着大量的研究者从人工智能、计算机视觉、心理学等多个角度对其进行研究1。由于生物特征识别不存在因遗忘、被窃取和造假而判定错误的情况, 它更安全、更方便, 具有较强的稳定性和个体差异, 可以说是理想的身份验证依据。生物特征之一的人脸具有很明显的优势, 应用前景广阔。人脸的识别、获取、合成和模拟一直是学术界研究的难点和热点, 也构成了人脸分析与识别的主要内容。为了推进对计算机视觉的研究, 同时满足人工智能应用越来越广泛的需求, 开展人脸识别研究具有重要的意义, 人脸识别目前已成为最具应用
7、潜力的生物特征识别技术之一。1 PCA 的基本理论PCA 是 Principal Component Analysis 的英文简称, 主成分分析的人脸识别方法也称为特征脸法2-3。一幅大小为 MN 的人脸图像, 可以将其看成由像素组成的矩阵, 图像矩阵化后, 人脸图像变成一个 MN 维的行矢量或列矢量, 通常认为这个高维向量为一个随机向量。PCA 方法可以使每幅原始人脸图像变为一个低维的权向量, 让这些数据尽可能多地表达各类模式间的差别, 突出差异性, 并且使它们尽可能相互独立, 保留原始样本中方差最大的数据分量。K-L 变换是建立在统计特性基础上的一种常用的正交变换4-6。K-L 变换的突出
8、优点是相关性好, 是均方误差最小意义下的最佳变换, 通常是一个物体主轴沿特征向量对齐的旋转变换, 使原始数据向量的各个分量间的相关性被消除, 绝大部分有用信息得到保留。SVD 是线性代数中一种重要的矩阵分解, 是矩阵分析中对正规矩阵酉对角化的推广, 在统计学等领域有重要应用7-8。求解高阶矩阵特征值和特征向量的问题转化为求低阶矩阵的问题, 这也是 SVD 定理的意义所在。投影是指从向量空间映射到自身的一种线性变换, 投影变换是将整个向量空间映射到它其中的一个子空间, 并且在这个子空间中总是恒等变换的9。2 人脸识别系统的实现2.1 构建特征脸从已知的人脸数据库中选择每一个人的前 i 张图像,
9、将这些人脸图像作为训练样本集, 其余的作为测试样本集, 归一化人脸图像的大小相同, 假设灰度图像N=mn 维, 可以将图像看成 F 维空间的一点10-12。M 幅人脸图像所构成的训练样本集合可以用一个矩阵形式 X=x1, x2, , xMR (NM) 来表示。假设所有样本的均值向量用 表示, 也称平均人脸, 其表达式为:所有训练样本的协方差矩阵可以表示为三种形式:其中, A=x 1-, x 2-, , x m-, 利用奇异值分解定理, 可以很容易计算出协方差矩阵 YA的特征向量 ui和非零特征值 i, 将特征值 i按从大到小的顺序排列, 即 1 2 M0, 对应的特征向量分别为 u1, u2,
10、 , uM, 为达到进一步降维的目的, 可以根据特征值所占能量的比例大小, 选择前 k 个最大的特征向量构成特征子空间, 即 k 要满足:一般 取 90%, 则特征脸空间为 T=u1, u2, , uk。由表 1 可知, 前 71 个特征值刚好满足要求, 所以 k 取 71 而不是 200。表 1 特征值个数与所占能量的关系 下载原表 2.2 特征脸的人脸识别算法使用特征脸进行人脸识别的过程通常包括训练阶段和识别阶段, 前者是指将每一个已知的人脸图像投影到由特征脸构成的空间上, 后者是通过分类器进行判别分析处理13。具体的算法步骤如下:(1) 如果待识别的人脸图像是未知的, 那么进行识别过程前
11、, 首先将它们进行标准矢量化。(2) 将标准矢量化后的人脸图像投影到由特征脸构成的空间上。(3) 把投影之后得到的人脸用训练脸向量 er表示。(4) 采用最近邻分类器及欧氏距离进行判别分类分析处理。(5) 选择最小距离法对人脸图像进行判断, 判断规则如下:如果 er c, 说明输入的图像包含未知的人脸;如果 er c, 那么说明输入图像为库中第 r 个人的人脸, 其中 c是设定的距离阈值14-16。2.3 重建人脸图像如果要对人脸图像 X 进行重建, 需要将 X 投影到特征空间 U=u1, u2, , uM, M 指非零特征值所对应的特征向量的个数, 计算出投影坐标17:选用一部分特征向量 U
12、 (1:t) 和投影系数 O (1:t) 对原始人脸图像 X 进行重建:其中, 指平均人脸, t (tM) 表示选用的元素个数。选用 ORL 人脸数据库 40 个人的前 5 幅图像作为训练样本集, 其余的 200 幅人脸图像作为测试样本集。人脸图像重建的实验结果如图 1 所示, 每列选用元素的个数 t 分别为 0、40、80、120 和 200 进行重建, 第 1 列都是平均人脸图像, 前 6 幅图像和后 6 幅图像都是 ORL 人脸数据库的同一个人, 所不同的是, 前 6张图像是对训练样本第 24 个人的第 1 幅图像进行重建, 可以看出, PCA 的投影系数可以实现对图像比较好的重建;后
13、6 张图像是对测试样本第 24 个人的第 6幅图像重建结果。图 1 重建的人脸图像 下载原图3 实验及结果分析3.1 实验设计本文采用的数据库是 ORL 人脸数据库, 该库包含 40 个人的人脸图像, 如图 2 所示, 每个人又包含了 10 幅图像, 则数据库中共有 400 幅人脸图像, 图 3 为第24 个人的 10 幅图像。这些采集图像是在不同时间进行的, 同时也包含了不同的表情, 比如是否闭眼等, 装饰也有所不同, 比如是否带眼镜等, ORL 人脸数据库中的人脸图像是大小为 921122 的 256 级灰度图像。图 2 40 个人的人脸图像 下载原图图 3 第 24 个人的 10 幅头像
14、 下载原图在进行人脸特征提取与分类时, 选择不同数目的训练样本进行测试算法的识别率。在同样的实验环境下, 训练样本可以从每一个人中选取前 i (i=1, 2, 3, 4, 5) 幅人脸图像获得, 进行实验的测试图像是剩余的 10-i 幅人脸图像。基于PCA 的人脸识别的部分训练图像和测试图像如图 4-5 所示。3.2 运行结果ORL 人脸数据库中训练样本 200 张图像的部分特征脸如图 6 所示, 图 7 是训练样本集的平均脸。图 4 训练图像 下载原图图 5 测试图像 下载原图图 6 ORL 部分特征脸 下载原图图 7 训练样本集的平均脸 下载原图在识别阶段, 随机输入的是第 24 个人的第
15、 6 张图像, 如图 8 所示, 人脸的识别结果如图 9 所示, 表明这个人脸的识别是正确的, 查询结果是同一个人。本文将识别率作为衡量 PCA 算法性能的指标, 实验首先随机选取第 m 个人, m 取4、8、12、16、20、24、28、32、36、40, 得出这 10 个人的识别率如表 2 所示, 其中当 m 为 4、8、12、16 和 24 时识别率达 100%, 当 m 为 20、28、32 和 40 时识别率达 80%, 当 m 为 36 时识别率达 60%, 并计算出这 10 个人的平均识别率为88%。为了得到系统训练样本个数与识别率和识别耗费时间的关系, 分别从每个人中随机抽取前
16、 5、6、7、8、9 个样本做训练, 即训练样本个数为200、240、280、320 和 360, 并对其做人脸识别测试, 计算出的识别率和识别耗费时间如图 10-11 所示。从图 10 可以明显的看出, 当系统训练样本数为 280时, PCA 人脸识别系统的正确识别率是最大的, 达到 94.17%。另外, 系统训练样本数越大, 识别越耗时, 当训练样本个数为 360, 耗费时间为 10.05s。若将训练样本与识别样本相互交换, 即从每人中随机抽取后 5、6、7、8、9 个样本做训练, 再次进行实验, 识别率和识别耗费时间如图 11 所示。分析图 10 和图11 可知, 系统训练样本数增加,
17、正确识别率总体上是比较高的, 出现识别率降低的现象, 是由于 ORL 人脸数据库中的图像数量较少, 并不能完全表现同一个人的所有姿态。图 8 第 24 个人第 6 幅图像 下载原图图 9 第 24 个人 下载原图表 2 10 个人的平均识别率 下载原表 图 1 0 来自前面图像的训练样本个数与识别率和识别耗费时间的关系 下载原图图 1 1 来自后面图像的训练样本个数与识别率和识别耗费时间的关系 下载原图4 结束语人脸识别是结合了多学科、多领域知识的技术, 利用计算机达到正确有效的人脸识别的目的。本文首先介绍了人脸识别的背景, 分析此课题的任务以及其中的一些关键性技术, 详细介绍了特征脸的产生方
18、法, 并运用这个基本理论, 基于 MATLAB 软件平台设计出人脸识别系统。人脸识别系统的应用将会给人们的生活带来不可思议的惊喜, 未来不需要随时携带各种购物卡以及校园一卡通等, 而是通过“刷脸”来满足消费等需求。可以有很多的人脸识别应用的畅想, 方便人们的生活, 但是必须立足当前, 集中精力攻克人脸识别遇到的新难题, 开发更多新一代人脸识别产品。参考文献1郑崇微.人脸识别方法综述J.山西电子技术, 2013 (2) :95-96. 2MARK S.NIXON, ALBERTO S AGUADO.特征提取与图像处理M.2 版.北京:电子工业出版社, 2010. 3邢永生.人脸识别系统的研究与开
19、发D.长春:吉林大学, 2016. 4王国栋.基于 MATLAB 的人脸识别算法的研究D.呼和浩特:内蒙古大学, 2014. 5赵蔷.主成分分析方法综述J.软件工程, 2016 (6) :1-3. 6高琪.主成分分析方法在图像处理中的应用J.计算机学报, 2011 (3) :98-100. 7刘向东.基于 PCA 算法人脸识别的 MATLAB 实现J.电脑知识与技术, 2016, 12 (12) :193-194. 8Luo M, Bors A G.Principal Component Analysis of spectral coefficients for mesh watermarki
20、ngJ.Signal Processing, 2011 (9) :625-634. 9周达丽.基于主成分分析的特征脸提取及人脸识别实现J.软件导刊, 2012, 11 (5) :162-164. 10马奎斯.实用 MATLAB 图像和视频处理M.北京:清华大学出版社, 2013. 11张小龙, 刘书炘, 刘满华.基于级联支持向量机融合多特征的人脸检测J.计算机应用与软件, 2016, 33 (4) :151-154. 12董恩增, 闫胜旭, 佟吉钢.基于主动视觉的人脸检测与跟踪算法研究J.系统仿真学报, 2015, 27 (5) :973-979. 13华晓彬, 袁明新, 王彬彬, 等.基于肤
21、色正态分布模型的自适应人脸动态检测J.江苏科技大学学报:自然科学版, 2016, 30 (2) :162-166. 14杨定礼, 张宇林, 赵环宇, 等.一种改进的人脸检测方法J.实验室研究与探索, 2015, 34 (2) :111-116. 15杨恒, 张再军, 杨东, 等.融合 YCb Cr:肤色模型与区域标记的人脸检测算法研究J.软件导刊, 2016, 15 (2) :41-43. 16樊慧慧, 王金海.一种复杂环境下的动态多人脸自动检测与实时跟踪方法J.计算机应用研究, 2015, 32 (10) :3183-3186. 17陈佩.主成分分析法研究及其在特征提取中的应用D.西安:陕西师范大学, 2014.