1、基于深度学习的刑侦图像处理新方法 汪东平 涂敏 江西省公安厅 江西警察学院 摘 要: 图像处理已广泛应用于刑侦信息化建设及重要案件破获, 然而, 图像处理算法的鲁棒性与实时性相矛盾一直是刑侦图像处理中的一个难题。针对该问题, 论文提出了基于深度学习的刑侦图像处理新思路, 利用深度学习网络不需要提取复杂特征的, 只需大量的样本信息与高性能运算就能实现较高精度的目标检测及识别优势, 给出了基于深度学习的刑侦人脸识别及行人检测新方法。仿真实验表明, 基于深度学习的刑侦人脸识别能进一步提升人脸识别率, 行人检测算法能在复杂环境下准确、快速检测到图像中的目标, 为提高刑侦破案率奠定基础。关键词: 深度学
2、习; 刑侦图像; 人脸识别; 行人检测; 作者简介:汪东平 (1961-) , 江西铅山人, 男, 江西省公安厅信息中心主任, 高级工程师, 主要从事公安信息化技术研究;作者简介:涂敏 (1967-) , 江西南昌人, 女, 江西警察学院安全管理系主任、教授, 主要从事公安信息化技术、计算机取证技术研究。收稿日期:2017-10-08基金:江西省经济犯罪侦查与防控技术协同创新中心资助项目“基于大数据的网络非法集资风险预警模型研究” (JXJZXTCX-018) Received: 2017-10-08一、引言当前, 公共安全已成为各国重点建设的一个领域, 各种摄像及拍照系统已经无处不在, 然而
3、, 监控和拍照只能得到海量的图像及视频数据, 缺乏有效的智能分析算法, 从而导致公共安全仍然存在突发事件难以预测, 刑事案件难以破获的现象。如何有效利用每天来自不同摄像及拍照工具获取的海量数据是当前公共安全的一大难题1。刑侦图像获取依赖于高空架设的摄像头, 因此图像容易受光照、环境以及噪声等影响, 导致图像拍摄质量不稳定 (某些时候图像清晰, 易于处理;某些时候图像质量较低) , 为案件的破获带来困难。当前的刑侦图像处理面临以下几个难题:一是图像模糊化问题, 由于目标的快速运动 (例如车辆) 、摄像头受风力作用影响而发生的抖动而导致的图像模糊, 如何有效复原模糊图像是个难题。二是针对雾霾天的摄
4、像及抓拍图像, 如何去雾霾以清晰化图像是个难题。三是针对远距离拍摄的人脸及车牌, 如何快速准确识别是个难题。四是针对复杂环境下的多个行人目标, 如何正确检测并识别也需要解决。尽管目前已经有大量的图像及视频处理算法应用于工业及生活中, 然而刑侦图像由于图像获取受环境影响大的问题, 各种算法在刑侦图像应用中都难以取得较好的处理效果, 例如:尽管当前的人脸识别算法在普通室内环境可以达到 99.9%的识别率, 但是刑侦人脸识别率还不到 50%。二、深度学习深度学习2-3 (Deep Learning) 源于人工神经网络研究, 是机器学习研究中的一个新的领域, 它使用包含复杂结构或由多重非线性变换构成的
5、多个处理层对数据进行高层抽象, 通过组合低层特征形成更加抽象的高层表示属性类别或特征, 以发现数据的分布式特征表示, 是一种基于对数据进行表征学习的方法。近年来, 依托海量样本数据和高性能硬件平台发展, 深度学习在计算机视觉、语音识别等研究领域取得的巨大突破, 尤其是在语音识别、人脸识别两个重大领域甚至超过人类的水平。随着信息化技术手段的不断提升, 世界各国在打击刑事犯罪方面的能力都在不断提升。由于我国人口众多, 地域辽阔, 各种刑事犯罪案件多而杂, 因此破解刑事案件对信息化的依赖程度非常高。当前, 我国各大城市已经布置了海量的摄像机及抓拍探头, 公安系统每天获取的数据相当庞大, 而如何有效利
6、用这些数据并从中挖掘有用信息以提升破案效率是亟待解决的难题。随着深度学习的快速发展, 解决这一难题成为可能。由于深度学习依赖于海量的样本数据, 而公安系统恰好具备这一条件, 因此利用深度学习提高图像处理质量并有效识别目标是公安刑侦信息化领域的前沿课题。典型的深度学习 (卷积神经网络) 框架如图 1 所示。三、基于深度学习的刑侦图像处理新方法(一) 基于深度学习的刑侦人脸识别随着计算机视觉和人工智能技术的快速发展, 生物识别技术越来越受到人们的重视, 由于人脸具有普遍性、直观性和唯一性等优点, 所以人脸识别技术已广泛应用于安防监控, 为进一步预防犯罪和侦查犯罪提供有力保障。传统的人脸识别方法主要
7、包括对人脸拓扑结构进行相似度度量的几何结构法4、将高维人脸特征映射到低维子空间的子空间方法5、结合人脸整体和局部信息的局部特征方法6等, 他们虽然在特定环境中取得了不错的结果, 但识别精度很难达到实际应用要求。近年来, 学者们将深度学习引入人脸识别系统, 结合海量人脸样本的训练, 极大提高了人脸识别算法的准确率和泛化能力, 突破了人脸识别的应用瓶颈, 取得了前所未有的实用价值。基于深度学习的人脸识别技术, 主要涉及人脸检测、人脸跟踪、人脸关键点定位、人脸识别以及人脸属性提取等关键技术。在人脸检测方面, Tiny Face、Faster RCNN-Face 等深度学习算法很好地解决了光照、姿态、
8、遮挡等影响人脸检出率的因素, 在 FDDB 人脸检测测试集比传统 VJ、LBP、HAAR 等算法准确率高出近 20%, 真正满足了实际常见抓拍率要求。在人脸识别方面, 2014 年 Facebook 的 Deep Face 深度学习网络, 第一次在 LFW (Labeled Face in the Wild) 数据库上接近人类的识别水平, 揭开了深度学习在人脸识别上的序曲。之后, 从经典的 Deep ID 系列到 Face Net, 再到各大公司科研机构的其他深层网络, 基于深度学习的人脸识别技术 LFW 数据库上超过人类的识别能力。基于已有的技术, 针对刑侦图像环境复杂, 人脸受环境影响较大
9、的问题, 我们提出了一种基于深度学习的人脸识别方法7, 该方法通过一种新的自动编码器来优化传统的交替乘法器, 从而使原始能量分解到各个子单元中, 优化了分配任务。该方法利用了无监督的特征学习方法, 在训练中, X=x 1, .x2R 表示 R 中的 n 个数据样本, W d=wd1, .wdkR 为学习字典, z 1, .znR 表示稀疏编码矢量, W C为潜在权重矩阵, 所以对于每一个输入的样本 xj均可用Wdzj来近似, 编码函数 f (x;WC) 由 XZ 的映射得到, 其中 WC=wc1, .wck, 所以对于模拟重建的样本可用 XW dZ 进行估计, 对 Wd、Z 和 Wc进行优化处
10、理, 公式如下:其中约束条件为W di 21, i=1, .k, 0 表示稀疏编码矢量, 表示惩罚参数, 表示 Frobenius 范数, 表示逐个样本的 L1范数, 在本次实验中, 各参数的设置如下:f (x;W c) = (1+exp) , =1。图 1 卷积神经网络框架 下载原图利用文献8提出的交替方向乘法方法优化 Z 矩阵, 上述问题简化为:其中约束条件为 Z-U=0, 公式 (2) 中 f (Z) 和 g (Y) 的表达式如下:在后续的迭代更新中, W d, Wc则利用随机梯度下降法进行评估优化, 从而完成最终的深度神经网络设计。将该方法应用于标准人脸数据库测试集 (例如 Yale
11、B 人脸库, 如图 2 所示) , 识别结果较经典的子空间5以及局部特征算法6都有明显提升。我们将该算法应用于刑侦图像中的人脸识别, 在实际运用中取得了较好的识别效果, 根据实际监控摄像头获取的人脸图像, 利用该网络系统对人脸进行识别, 结果如图 3 所示。图 2 基于 Yale B 人脸库 下载原图图 3 实际环境下基于深度学习的人脸识别结果 下载原图(注:第一行为监控获取的人脸图像, 第二行为系统从数据库中识别到的人脸) 上述结果表明, 基于深度学习的人脸识别算法在复杂环境下能准确识别人脸身份, 改善以往算法对人脸姿态的鲁棒性, 提升了该算法的实用性, 确保在刑侦案例中快速锁定犯罪目标,
12、加快案件的侦破, 给安全城市带来更大的保障。(二) 基于深度学习的行人检测公安系统的一个重要研究内容就是目标检测 (例如行人及车辆检测及跟踪) , 利用监控系统快速、准确地检测到可疑目标并跟踪, 对公安系统中的反恐和恶行事件预防以及案犯抓捕等, 都具有非常重要的意义。行人检测作为目标检测的特殊分支, 常用算法包括针对行人提出的 HOG、DPM、ACF 等经典算法9-12, 也包括 R-CNN 等基于深度学习的通用的目标检测算法。其中 R-CNN (Region-based Convolutional Neural Networks) 是第一个真正可以工业级应用的解决方案, 它包含 R-CNN、
13、SPP-net、Fast R-CNN、Faster R-CNN、R-FCN、YOLO、SSD 等一系列算法, 是目前主流的行人检测算法之一。由于深度学习在提高目标检测及跟踪方面具有较大的优势, 利用大量的训练样本可以实现一个鲁棒性较高的网络系统, 而一旦得到训练好的网络, 我们就可以在短时间内实现目标的高精度检测及跟踪。针对这一问题, Szegedy 等人13将深度学习应用于目标检测, 实验结果较传统方法具有明显的优越性。然而, 该方法的缺陷在于智能进行单目标检测, 难以实现多目标检测。为了解决该问题, Erhan 等人14提出了基于深度神经网络的多目标检测方法。该方法利用图像的显著性检测首先
14、得到显著目标, 根据一个单一的深度神经网络以一种不可知的方式构建多个目标模板。基于该算法的思想, 我们根据刑侦图像自身的特点, 将该算法应用于刑侦图像中的目标检测。给出算法的优势在于首先将目标检测作为多目标协调的一个回归问题, 其次对于每一个预测的目标网络给出一个信任度评分以判断预测的目标是否是真是目标。给出的算法目标函数为:其中 F 表示目标函数, 01 是平衡因子, c 是信任度得分, l 是目标定位框的坐标 (包含方框的左上和右下顶点坐标) , x 表示预测到的目标, g 表示人工标记的目标位置, j1, ., M表示目标类数, M 是最大类数目, i1, ., N表示预测到的目标个数。
15、目标匹配函数为:损失函数可表示为:因此, 对目标函数的优化可表示为:根据 iXij=1, 0X ij1, 分别对 l 和 c 求偏导数从而得到最终的优化结果。根据给出的深度网络, 将其应用于视频监控中的行人检测, 结果如图 4 所示。图 4 基于深度神经网络的多目标行人检测 下载原图由图 4 可以看出, 深度神经网络不仅能有效检测到图像中的单个目标, 而且能实现图像中的多目标检测, 且满足系统的实时性要求。四、总结本研究针对传统图像及视频处理算法在刑侦图像分析中的缺陷, 提出了基于深度学习的刑侦图像处理新思路。新的方法将卷积神经网络应用于刑侦图像中的人脸识别及行人检测, 一方面利用卷积神经网络
16、多层运算提高了现有人脸识别算法的精度, 另一方面利用深度网络解决了刑侦图像中的多目标检测问题, 给出的方法对于利用刑侦图像分析技术来提高案件破获率具有重要意义, 由于算法不需要复杂的特征提取及模型匹配运算, 因此能够满足刑侦破案中的实时性要求。参考文献1吴绍忠.基于聚类分析的反恐情报中潜在恐怖团伙发现技术J.警察技术, 2016, (6) :17-21. 2Hinton G E, Salakhutdinov R R.Reducing the dimension ality of data with neural networksJ.Science, 2006, 313 (5786) :504-
17、507. 3Le Cun Y, Bengio Y, Hinton G.Deep learningJ.Nature, 2015, 521 (7553) :436-444. 4Phillips P J, Flynn P J, Scruggs T, et al.Overview of the face recognition grand challengeC/IEEE International Conference on Computer Vision and Pattern Recognition, 2005:947-954. 5Wang X, Tang X.A unified framewor
18、k for subspace face recognitionJ.IEEE Transactions on pattern analysis and machine intelligence, 2004, 26 (9) :1222-1228. 6Ahonen T, Hadid A, Pietikainen M.Face description with local binary patterns:Application to face recognitionJ.IEEE transactions on pattern analysis and machine intelligence, 200
19、6, 28 (12) :2037-2041. 7Aslan M S, Hailat Z, Elafif T, et al.Multi-Channel MultiModel Feature Learning for Face RecognitionJ.Pattern Recognition Letters, 2017, 85 (1) :79-83. 8Boyd S, Parikh N, Chu E, et al.Distributed optimization and statistical learning via the alternating direction method of mul
20、tipliersJ.Foundations and Trends in Machine Learning, 2011, 3 (1) :1-122. 9Gavrila D M.A bayesian, exemplar-based approach to hierarchical shape matchingJ.IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29 (8) :1408-1421. 10Taguchi Y, Agrawal A, Tuzel O.Motion-aware structured
21、light using spatio-temporal decodable patternsC/European Conference on Computer Vision.Springer Berlin Heidelberg, 2012:832-845. 11Tuzel O, Porikli F, Meer P.Pedestrian detection via classification on riemannian manifoldsJ.IEEE transactions on pattern analysis and machine intelligence, 2008, 30 (10)
22、 :1713-1727. 12Gupta S, Girshick R, Arbelez P, et al.Learning rich features from RGB-D images for object detection and segmentationC/European Conference on Computer Vision.Springer International Publishing, 2014:345-360. 13Szegedy C, Toshev A, Erhan D.Deep neural networks for object detectionC/Advances in Neural Information Processing Systems.2013:2553-2561. 14Erhan D, Szegedy C, Toshev A, et al.Scalable object detection using deep neural networksC/IEEE Conference on Computer Vision and Pattern Recognition.2014:2147-2154.