收藏 分享(赏)

联合判别性低秩类字典与稀疏误差字典学习的人脸识别.doc

上传人:无敌 文档编号:169169 上传时间:2018-03-23 格式:DOC 页数:14 大小:211KB
下载 相关 举报
联合判别性低秩类字典与稀疏误差字典学习的人脸识别.doc_第1页
第1页 / 共14页
联合判别性低秩类字典与稀疏误差字典学习的人脸识别.doc_第2页
第2页 / 共14页
联合判别性低秩类字典与稀疏误差字典学习的人脸识别.doc_第3页
第3页 / 共14页
联合判别性低秩类字典与稀疏误差字典学习的人脸识别.doc_第4页
第4页 / 共14页
联合判别性低秩类字典与稀疏误差字典学习的人脸识别.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、联合判别性低秩类字典与稀疏误差字典学习的人脸识别 崔益峰 李开宇 胡燕 徐贵力 王平 南京航空航天大学自动化学院 摘 要: 目的 由于受到光照变化、表情变化以及遮挡的影响, 使得采集的不同人的人脸图像具有相似性, 从而给人脸识别带来巨大的挑战, 如果每一类人有足够多的训练样本, 利用基于稀疏表示的分类算法 (SRC) 就能够取得很好地识别效果。然而, 实际应用中往往无法得到尺寸大以及足够多的人脸图像作为训练样本。为了解决上述问题, 根据基于稀疏表示理论, 提出了一种基于联合判别性低秩类字典以及稀疏误差字典的人脸识别算法。每一类的低秩字典捕捉这类的判别性特征, 稀疏误差字典反映了类变化, 比如光

2、照、表情变化。方法 首先利用低秩分解理论得到初始化的低秩字典以及稀疏字典, 然后结合低秩分解和结构不相干的理论, 训练出判别性低秩类字典和稀疏误差字典, 并把它们联合起来作为测试时所用的字典;本文的方法去除了训练样本的噪声, 并在此基础上增加了低秩字典之间的不相关性, 能够提高的低秩字典的判别性。再运用 l1 范数法 (同伦法) 求得稀疏系数, 并根据重构误差进行分类。结果 针对 Extended Yale B 库和 AR 库进行了实验。为了减少算法执行时间, 对于训练样本利用随机矩阵进行降维。本文算法在 Extended Yale B 库的 504 维每类 32 样本训练的识别结果为 96.

3、9%。在无遮挡的 540 维每类 4 样本训练的 AR 库的实验结果为83.3%, 1 760 维的结果为 87.6%。有遮挡的 540 维每类 8 样本训练的 AR 库的结果为 94.1%, 1 760 维的结果为 94.8%。实验结果表明, 本文算法的结果比SRC、DKSVD (Discriminative K-SVD) 、LRSI (Low rank matrix decomposition with structural incoherence) 、LRSE+SC (Low rank and sparse error matrix+sparse coding) 这 4 种算法中识别率最

4、高的算法还要好, 特别在训练样本比较少的情况下。结论 本文所提出的人脸识别算法具有一定的鲁棒性和有效性, 尤其在训练样本较少以及干扰较大的情况下, 能够取得很好地识别效果, 适合在实际中进行应用。关键词: 低秩类字典; 稀疏误差字典; 结构不相干; 人脸识别; 作者简介:崔益峰 (1992) , 男, 南京航空航天大学仪器仪表工程专业在读硕士研究生, 主要研究方向为图像处理、信号处理等。E-mail:1055319134CYF收稿日期:2017-03-08基金:国家自然科学基金项目 (61473148, U1531110) Face recognition by combining a dis

5、criminative low-rank class dictionary and sparse error dictionary learningCui Yifeng Li Kaiyu Hu Yan Xu Guili Wang Ping College of Automation Engineering, Nanjing University of Aeronautics and Astronautics; Abstract: Objective Face recognition encounters significant challenges, particularly when ima

6、ges from different persons are similar to one another due to variations in illumination, expression, and occlusion. If we have sufficient training images of each person, which can span the facial variations of that person under testing conditions, then sparse representationbased classification ( SRC

7、) can achieve promising results. In many applications, however, the problems of small size of samples and lack of sufficient training images for each person are particularly significant. To solve these problems, this study presents a joint face recognition algorithm between a low-rank class dictiona

8、ry and sparse error dictionary learning based on theory of sparse representation. The low-rank dictionary of each individual is a class-specific dictionary that captures the discriminative feature of an individual. The sparse error dictionary represents intra-class variations, such as illumination a

9、nd expression changes. Method An initial low-rank decomposition dictionary and a sparse dictionary are obtained based on theory of low-rank decomposition. Then, combining theories of low-rank decomposition and structural irrelevance, the discriminative low-rank class dictionary and the sparse error

10、dictionary are trained and subsequently merged as the dictionary that will be applied to the test part. Our method decomposes raw training data into a set of representative bases with corresponding sparse errors to efficiently model face images. We further promote structural incoherence among the ba

11、ses learned from different classes. These bases are encouraged to be as independent as possible due to the regularization on structural incoherence. Additional discriminating capability is provided to the original low-rank models to improve performance. A sparse coefficient is acquired according to

12、the L1 norm method ( homotopy method) . Test samples can be classified based on the reconstruction error. Result Experiments are conducted on the Extended Yale B and AR databases.A random matrix is used to reduce the dimensions of the training samples to shorten execution time. In the Extended Yale

13、B database, which consists of samples with 504 dimensions, 32 training samples are selected from each class. The result of the recognition rate that applies the proposed algorithm is 96. 9%. Among the samples with 540 dimensions and without occlusion in the AR database, 4 training samples are select

14、ed from each class. The result of the recognition rate is83. 3%. For the samples with 1 760 dimensions, the recognition rate is 87. 6%. Among the samples with 540 dimensions and with occlusion, 8 training samples are selected from each class. The recognition rate is 94. 1%. The result of experiment

15、on the training samples with 1 760 dimensions and with occlusion is 94. 8%. The experiments show that the results of the proposed algorithm are better than the highest recognition rates of the SRC ( Sparse representation-based classifier) , DKSVD ( Discriminative K-SVD) , LRSI ( Low rank matrix deco

16、mposition with structural incoherence) and LRSE + SC ( Low rank and sparse error matrix + sparse coding) algorithms, particularly in cases with insufficient training samples.The experiment in which all the occlusion images are used as the training samples and the unobstructed images are used as the

17、test samples is first conducted to illustrate the importance of sparse error bases, and the recognition rate of the proposed algorithm is 43. 6%. then we exchange training samples and test samples and the recognition rate of the proposed algorithm is 83. 1%. The sparse coefficient in the test phase

18、cannot remove interference because the sparse error dictionary lacks the composition of wearing scarves and sunglasses. Consequently, the recognition rate is significantly reduced. When occlusion images are used as training samples and unobstructed images are used as test samples, the interference i

19、s considerably smaller than the interference when wearing scarves and sunglasses although the sparse errors lack the composition of light and expression changes. Thus, the recognition rate is significantly higher than the former. In practical applications, only sparse error bases are sufficient, par

20、ticularly in cases where images are disturbed to a high extent, and the recognition effect can be improved. Conclusion The face recognition algorithm proposed in this study is robust and effective and can achieve an ideal recognition effect, particularly when training samples are insufficient or fac

21、e recognition is disturbed considerably. The algorithm is suitable for practical applications.Keyword: low-rank class-specific dictionary; sparse error dictionary; structure irrelevance; face recognition; Received: 2017-03-080 引言现在的研究表明稀疏表示是一个很好的图像表示模型。其主要思想是用训练信号组成一个过完备字典, 测试信号用字典中较少的原子线性表示。Wright1

22、把稀疏表示运用到人脸识别中并且取得了不错的效果。其算法可以通过解决式 (1) 得到稀疏系数, 即式中, D 是过完备字典, x 是稀疏系数, y 是测试信号。式 (1) 通过字典来求稀疏系数, 说明了字典的质量对于稀疏表示十分重要, 为了提高人脸的识别率, 在目标函数上增加一些约束项, 使得字典具有一定的结构特点, 从而让同一类图像投影到这一类的子空间上。Yang2提出了 Metaface 字典学习方法, 这种方法单独的学习每一类的字典。Jiang3提出了标签一致的 KSVD (K-means singular value decomposition) 算法来训练一个判别性字典, 他将标签信息

23、与字典的各个原子相关联, 使得字典具有结构性。Yang4又提出了 FDDL (Fisher discrimination dictionary learning) 方法, 其运用 Fisher 辨别准则来学习每一类的类字典。显而易见, 学习辨别性字典能够很好地提高人脸的识别率。然而, 在实际应用中, 人脸图像会受到光照以及局部遮挡等因素的影响, 它会影响上述方法的识别效果。因此引入了低秩分解理论, 它将一个受污染的矩阵分解为一个稀疏矩阵和一个低秩矩阵。Ma5利用秩最小原则提出了基于稀疏表示的判别性低秩字典的学习方法 (DLRD_SR) , DLRD_SR 算法通过最小化每一类子字典的秩来分离训

24、练图像中的干扰。Chen6提出了基于结构不相干的低秩矩阵恢复算法来进行人脸识别, 该方法考虑到了训练样本中的干扰, 并且增加了类与类之间的不相关性, 使得训练出来的字典更加具有判别性, 从而提高分类效果。上述的方法都从训练样本中分离了干扰, 对于光照, 遮挡, 表情等干扰具有鲁棒性。受到上述方法的启发, 本文结合了低秩分解和结构不相干来进行字典学习, 其次, 将训练出来的判别性低秩字典和稀疏误差字典结合在一起, 让它们作为测试时使用的字典。与其他的字典学习算法相比, 本文算法有以下 3 个优点:1) 分离了训练样本中的干扰, 使得类字典不受光照, 遮挡, 表情等的干扰;2) 学习了一个有明确判

25、别目的的类字典, 类字典对于分类起到很大的作用, 使得模型更利于识别;3) 本文将判别性低秩类字典以及稀疏误差字典结合成了测试时使用的字典, 从而缓解了当训练样本很少时, 识别率不高的现象。1 相关算法介绍1.1 低秩分解假设训练样本 X 可以被分解成两个矩阵:X=D+E, 其中 D 是低秩矩阵, E 是稀疏矩阵。对于图像来说, E 就相当于图像中掺杂的干扰。低秩分解的目的是从 X中找到 D, 即去除图像中的干扰, 它可以被看作把 X 分解成 D+E, 使得 D 的秩以及 E 的 0 范数之和最小, 其表达式为式中, 用来控制稀疏矩阵 E 所占的权值, 然而式 (2) 是一个 NP 问题, 需

26、要把它转换成等价问题, 即式中, 是低秩矩阵 D 的核范数 (奇异值之和) , 它近似于 D 的秩。式 (2) 中的 代替。根据 Wright7证明的, 低秩和稀疏成分可以被识别, 只要 E 足够稀疏, D 就能从 X 中精确的恢复。此模型假设了 X 中所有样本都来自于同一类的子空间, 采用低秩分解逐类去除训练样本中的稀疏干扰。1.2 重构误差分类算法稀疏表示中最常用的分类算法是重构误差算法, 它是利用每一类的稀疏系数与字典相乘, 然后把每一类得到的结果分别与原始信号相比较, 其中误差最小的那一类, 即为该样本所在的类别。重构误差分类算法步骤如下:输入:测试样本 y, 训练得到的字典 D, 类

27、别数为 C。输出:y 所在的类序号 i。1) 求测试样本的稀疏系数2) 分类end for首先, 利用训练得到的字典 D 来求得测试样本 y 的稀疏系数 x。然后, 把每一类所对应的稀疏系数 i (x) 与字典 D 相乘 (其他位置的稀疏系数置为 0) , 与原信号 y 相减得到误差, 其中误差 e (i) 最小的那一类, 即为测试样本所在的类别, Idenfity (y) 表示样本所在的类别。2 联合辨别性低秩类字典与稀疏误差字典学习的算法传统的基于低秩分解的人脸识别只是将样本进行了低秩分解, 得到去除干扰后的图像作为字典进行分类。为了增加字典的判别性以及考虑到样本较少时识别效果不好问题,

28、本文提出了联合判别性低秩类字典以及稀疏误差字典的学习算法。为了使得训练出来的字典具有判别性, 在低秩分解的基础上增加约束项, 分类时主要起作用是低秩字典, 因此通过约束每一类低秩字典与其他类低秩字典的 Frobenius 范数最小, 增加低秩字典之间的不相关性8, 从而提高的低秩字典的判别性, 增加了每一类低秩字典的独立性。有利于测试阶段的分类, 其目标函数表达式为式中, 第 1 项是数据 Xi的标准的低秩分解形式, 第 2 项通过叠加 Di和 Dj的Frobenius 范数来表示低秩类字典的结构不相干。参数 2用来表示结构不相干和低秩分解之间的比例, C 表示类别总数。通过式 (4) 能够求

29、得具有辨别性的低秩类字典 D 和稀疏误差字典 E。当训练出来了类字典和误差字典后, 以往的方法是直接将类字典作为测试时使用的字典, 测试时还要先将测试样本中的干扰去除, 这样就增加了算法的复杂度。首先, 本文将类字典和误差字典联合起来, 作为测试时所用的字典, 加快了算法的执行速度。其次, 训练时, 只要包含足够的稀疏误差基, 在测试时就能够取得很好地效果, 这就减少了对于训练样本数的需求。其表达式为式中, 表示不受干扰的图像, e 表示图像所受的干扰。利用稀疏误差矩阵 E 和低秩类矩阵 D 作为字典来表示 y, 如果稀疏误差矩阵 E 有足够的面部变化基9, 那么就能通过 l1范数最小化求得比

30、较精确的 和 。求到这两个参数后, 就可以通过重构误差最小来判断出它所处的类别。本文算法步骤如下:输入:训练样本 X=X1, X2, , XCR, 其中 C 为类别数, y 为测试样本, 参数 1, 2。输出:测试样本 y 所在类别。1) 学习低秩类字典和稀疏误差字典2) 学习判别性低秩类字典和稀疏误差字典循环 3 次训练得到字典D E3) 利用 l1范数法求稀疏系数, 本文采用的是同伦法, 测试时用的字典为D E4) 根据重构误差分类求得重构误差最小所对应的类别。3 结构化低秩分解算法实现利用拉格朗日乘子法 (ALM) 能够有效地解决标准的低秩分解问题, 但对于拥有结构不相干约束的低秩分解问

31、题就很难求解。本节提出了利用扩展的 ALM 算法求解上述问题。把目标函数式 (4) 每一类字典的求解等价为式中, B i为 Di的辅助变量。式 (6) 可以理解为在 h (x) =0 的条件下求 f (x) 得最小值。它的 ALM 方程为式中, = (Y i, Zi) 是拉格朗日乘子, 是惩罚参数, 结合式 (6) (7) , 每一类字典的求解的目标函数可以写为本文采用交替方向算法10来求得式 (8) 的最小值。在每次迭代中更新参数的步骤如下:1) 更新参数 Di。为了更新第 k+1 次的第 i 类的低秩成分 Di, 固定其他的变量除了 Di, 即式中, 。式 (9) 可以通过核范数软阈值法1

32、1求解。2) 更新 Ei。为了更新误差矩阵 Ei, 固定其他变量除了 Ei, 即式中, 。式 (10) 利用 l1范数软阈值法11求解。3) 更新 Bi。为了更新辅助变量 Bi, 固定其他变量除了 Bi, 即对式 (11) 进行局部求导可得式中, I 为单位矩阵。4) 更新 Yi, Zi, 。具体公式为通过以上的步骤就能在每次迭代过程中更新参数。结构化低秩分解步骤如下:输入:训练矩阵 X 参数 2以及 (1) , 类别数 C。通过低秩分解得 D0, E0, B0, Y0, Z0, 0。输出:D 和 E。4 实验结果与分析本次实验在 Extended Yale B12和 AR13两个人脸数据库进

33、行, 其中Extended Yale B 主要反映的是光照的变化, AR 反映了表情变化, 光照变化以及遮挡。为了说明本文所提方法的有效性, 将本文算法与 SRC1 (Sparse representation-based classifier) , DKSVD3 (Discriminative K-SVD) , DKSVD14 (Low rank matrix decomposition with structural incoherence) , LRSI5 (Low rank matrix decomposition with structural incoherence) , LRSE

34、+SC15 (Low rank and sparse error matrix+sparse coding) 这 4 种算法进行比较。实验主要的硬件环境:intel Core i3-2130M 处理器, 主 2.10 GHz, 内存 4 GB, Windows 7 操作系统;软件环境 Matlab 2012b。实验中需要设置参数 1, 2, 1表示低秩模型的参数, 理论上需要找到合适的 1使得类字典的秩为 1。根据文献7建议, , 其中 m、n 分别代表输入样本的维度和数目。 2代表低秩矩阵与不相干结构之间的比例。根据文献5中所提, 本文选取 2=0.001。通过计算可以得到两个库的 1分别为

35、0.028 以及 0.023。4.1 Extended Yale B 库Extended Yale B 库包含了 38 个人共计 2 414 幅正面人脸图像, 它们在不同的光照条件下拍摄的, 每个人大约有 64 幅图片, 并且每幅人脸图像的尺寸为192168。实验中, 选取 32 幅图像进行训练, 其余的图像通过训练出来的类字典和稀疏误差字典进行分类。为了加快算法执行速度, 利用随机投影的方式将训练样本以及测试样本进行降维, 实验所采用的维数 504。图 1 从 Extended Yale B 库中随机选取的训练图像 Fig.1 Example training images randomly

36、 selected from the Extended Yale B database 下载原图为了使实验结果具有一般性以及比较性。将其与其他 4 种算法进行比较, 采用一样的输入样本和测试样本以及一样的字典尺寸。实验的结果如表 1 所示。表 1 Extended Yale B 库的识别率 Table 1 Recognition rate on the Extended Yale B 下载原表 由表 1 所示, 本文算法相比于其他算法有着更高的识别率, 它比其他 4 种算法中最好算法的识别率还要高 1%。因为 Extended Yale B 库反映的是光照的变化, 所以本文算法对于光照影响的人

37、脸图像具有很好地识别效果。4.2 AR 库AR 人脸数据库包含 26 个人的共计 4 000 幅正脸图像。每个人有拍摄于 2 个时期的共计 26 幅图像。每个时期有 13 幅图, 其中有 3 幅围了围巾, 3 幅戴了墨镜, 其他的图像是人脸表情不同或是光照不同, 每幅图片的尺寸为 165120 像素。图 2 AR 数据库中一个人的 1 时期的样本图像 Fig.2 Example images from Session 1 of the AR database ( (a) expression changes; (b) illumination changes; (c) sunglasses; (d) scarf) 下载原图

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报