收藏 分享(赏)

基于投影法和caffe框架的身份证分割算法.doc

上传人:无敌 文档编号:174900 上传时间:2018-03-23 格式:DOC 页数:10 大小:139.50KB
下载 相关 举报
基于投影法和caffe框架的身份证分割算法.doc_第1页
第1页 / 共10页
基于投影法和caffe框架的身份证分割算法.doc_第2页
第2页 / 共10页
基于投影法和caffe框架的身份证分割算法.doc_第3页
第3页 / 共10页
基于投影法和caffe框架的身份证分割算法.doc_第4页
第4页 / 共10页
基于投影法和caffe框架的身份证分割算法.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、基于投影法和 Caffe 框架的身份证分割算法 方徐伟 付晓薇 武汉科技大学计算机科学与技术学院 智能信息处理与实时工业系统湖北省重点实验室 摘 要: 身份证的识别关键在于对身份证字符良好的分割提取, 对身份证图像进行预处理, 其中包括:图像矫正、增强、分块处理。结合行列投影、身份证先验知识和Caffe 框架实现对身份证图像的分割。该分割方法有效地解决了数字和汉字混合的分割难题, 取得了较好的分割效果, 提高了字符分割准确率。关键词: 倾斜矫正; 暗通道; 分块; 投影法; Caffe 训练; 作者简介:方徐伟 (1993) , 男, 硕士, 主要研究方向为图像处理, 文字识别等, E-mai

2、l:。收稿日期:2017-04-21基金:国家自然科学基金 (No.61201423, No.61602349, No.61573162) ID card segmentation based on projection method and Caffe frameworkFANG Xuwei FU Xiaowei School of Computer Science and Technology, Wuhan University of Science and Technology; Abstract: Good extraction of the ID card is the key to

3、 ID card identification. First of all, this paper prepares the identity card image, including: image correction, image enhancement, image block processing. Then, this paper combines with the ranks of projection, ID card prior knowledge and Caffe framework to achieve the ID card image segmentation. T

4、he proposed method effectively solves the segmentation of different types of characters, achieves better segmentation results and improves the accuracy of character segmentation.Keyword: tilt correction; dark passage; block; projection method; Caffe training; Received: 2017-04-211 引言随着时代的发展, 在银行, 酒店

5、等地方都需要对人们身份证信息进行登记。以前通过手写方式录入身份证信息会花费大量的人力物力而且效率低下。随着二代身份证中植入芯片, 利用读卡的方式代替了人工, 极大地提高了信息录入的效率, 但是网络时代的快速发展, 人们的大部分活动都可以在网络上进行, 为了信息安全, 各大网络平台都提出了实名认证的要求, 此类非接触式的场景的信息录入不能通过读卡的方式解决, 但是随着图像处理技术和 OCR 技术的发展和成熟, 可以通过图像处理提取身份证图片上的文字, 使用 OCR 技术识别为文本, 这种方法录入身份证信息十分方便快捷。本文重点在于研究如何正确分割身份证文字, 以往对于身份证分割算法主要有两种,

6、一是投影法1, 二是连通域方法2。这俩种方法是通过处理二值图像来进行分割, 存在字符发生断裂现象, 尤其是对于汉字的某些字形结构, 例如左右结构, 左中右结构等, 使用这两种方法分割会使字符发生断裂现象, 由于身份证的地址部分存在字符和数字, 通过投影法或连通域的方法分割文字, 然后通过字形判断再将分割区域合并, 这样容易将断裂文字的偏旁和数字错误合并, 不能达到良好的分割目的。基于上述缺陷, 本文提出了一个更加完善的分割方法, 取得了较好的分割效果, 该方法分为以下几部分:第一, 预处理部分, 首先对倾斜的身份证图像进行倾斜矫正, 然后通过暗通道算法来增强身份证图像的对比度, 最后结合投影法

7、和身份证的分布特点对身份证图像进行分块处理以及对分块后的图像进行二值化处理。第二, 分割部分, 首先通过先验知识和行列投影进行字符行列分割, 然后再对错分的字符块进行合并。由于身份证地址部分存在汉字和数字并存, 容易造成数字和断裂字符的错误合并, 本文通过Caffe 框架3预识别来剔除数字。然后再对断裂字符进行合并。2 图像预处理2.1 图像倾斜矫正对于倾斜的图像需要进行倾斜矫正。矫正的核心在于寻找倾斜角。首先对身份证图像进行中值滤波4, 然后通过边缘检测算法5得到二值化图像, 再求ABCD 的外接矩阵, 最终得到简化模型6如图 1。图 1 简化模型与扫描示意图 下载原图如图 1 所示, AB

8、CD 代表身份证图像, 扫描线向右扫描, 假设扫描线与 AD 得到N 个交点, 与 AB 得到 M 个交点, 则可制定如下定义。取 U4中的 K 组数据作如下运算得到倾斜角:计算 AB, AD 的斜率, 记为 KAB和 KAD。如果|K ABKAD|=1 则进行公式 (1) 计算得到倾斜角 , 否则重新选取 U2, U4数据, 直到满足上述条件, 对实际处理需要设置一个区间范围 , 使|K ABKAD|落在区间内, 本文 取 0.951.05。最终旋转角度判定:矫正后得到结果如图 2、3。图 2 左倾斜矫正 下载原图图 3 右倾斜矫正 下载原图图 2 和图 3 分别是左右倾斜通过该算法处理后的

9、矫正情况, 通过结果可以看出矫正效果还是比较不错的。2.2 图像增强处理对于模糊图像需要进行增强处理, 以往图像增强大多使用直方图均衡化7或者灰度拉伸8等方法, 2009 年何凯明博士提出了暗通道9的算法, 本文通过暗通道算法进行图像增强处理, 得到了良好的效果, 暗通道计算方法如下:其中 (x) 是以像素 x 为中心的一个窗口, c 表示彩色图像的 RGB 通道。根据雾图的形成模型:其中 I (x) 是待处理的图像, J (x) 是处理后的图像, A 是全球大气光成分, t (x) 是透射率。由暗通道的先验理论可知 J0, 假设 A 为已知量, 根据公式 (3) , 公式 (4) , 并结合

10、先验理论推导后可得:当透射率 t 的值很小时, 会导致 J 的值偏大, 使得图像整体偏白, 可设置阈值t0, 当 t 值小于 t0时, 令 t=t0, 得到最终的恢复公式:以上式子的计算需要已知 A 值, A 值通过以下两步求得10:(1) 从暗通道图中按照亮度的大小取前 0.1%的像素。(2) 在这些位置中, A 值即为原始图像 I 中最高亮度的点所对应的值。经过算法处理后, 得到结果如图 47。图 4 暗通道图 下载原图图 5 透射率图 下载原图图 6 原图 下载原图图 7 增强后的图 下载原图图 4 和图 5 分别为计算后得到的暗通道图和透射率图, 结合图 6 和图 7, 可以看出图像对

11、比度有了明显的增强。2.3 身份证图像分块处理为了得到更好的二值化效果, 本文通过对身份证图像进行分块来去除身份证图像上的干扰部分。根据身份证图像排版可将图像划分为横向五小块, 则可制定如下分割方法:(1) 分别求出各个块之间的间距, 选出最大的间距, 最大间距的下边界作为身份证号码部分的上边界, 记为 INtop, 分割出身份证号码部分。(2) 求得身份证号码第一个数字的左边界和最后一个数字的右边界, 取其距离的一半作为分割出头像的左边界, 记为 HIleft。(3) 根据 INtop和 HIleft将身份证图像分为三大块。分割示意图如图 8, 先根据分割线 1 将图分为上下两部分, 再根据

12、分割线 2, 将上部分为两块, 则可去除头像部分。图 8 分割示意图 下载原图3 图像字符分割3.1 训练数字识别模型在地址部分需要通过预识别来剔除数字干扰, 需要训练数字识别模型, 本文利用 Caffe 框架来训练识别模型, 具体步骤如下:(1) 准备图片样本, 分为训练集和测试集。(2) 生成训练集和测试集图片对应的文本标签文件。(3) 将图片转为 Caffe 训练需要的 LMDB 数据文件。(4) 编写训练网络, 配置网络进行训练得到 Caffe 训练模型。(5) 通过训练出的模型和网络识别图片。3.2 行分割经过图像的分块处理后, 去除了头像块, 对于剩下的两块需要进行字符行分割。对于

13、身份证号码块, 通过对块的动态阈值二值化11得到二值化图像后, 再根据投影法得到字符的上边界与下边界的坐标信息即可分割完成, 但是对于姓名所在的块在某些特定的情况下, 投影法会产生误分割。例如, 在地址部分最后一行只有一个字且这个字是上下结构, 通过投影法会被分为俩行。所以需要对投影法的误分割进行合并。具体的分割步骤如下:(1) 对分出的块做滤波处理12。(2) 进行动态阈值二值化。(3) 通过水平投影法确定上下边界坐标。(4) 判断是否是地址部分, 如果不是则根据 (3) 中得到的坐标分割图像, 反之进入 (5) 。(5) 通过先验知识设定行高范围, 判断地址部分第一行文字是否正确分割, 之

14、后得到的每行的高度与第一行进行比较, 如果下面相邻俩行的高度均小于 (通过实验设置, 本文取 50) , 合并这两行后分割, 反之, 直接根据 (3) 中得到的坐标分割。经过行分割后得到如图 9 结果。图 9 行分割结果图 下载原图3.3 列分割行分割后需要对每一行字符进行列分割得到单个字符。本文先根据原图像和二值化后的图像来分别得到位置信息, 结合两部分位置信息来确定最终的分割位置用来去除蓝色字体部分, 然后再根据垂直投影分割出单字符, 具体步骤如下:(1) 通过设定 RGB 的值在原图像上寻找蓝色像素的分布位置, 取其右边界。(2) 在二值化图像上从右向左通过投影法找到姓名栏中最大间距,

15、取其右边界。(3) 取 (1) , (2) 中的两个右边界距离的中点作为分割部位去除蓝色字体。(4) 对于分割出的字体部分进行动态阈值二值化。(5) 根据垂直投影法确定左右边界后分割图像。3.4 错分字符块的处理由于汉字的结构问题, 例如左右结构, 左中右结构, 经过列分割后的可能产生字符断裂, 所以需要对分割出的字符块进行完整性判断, 对判断出的断裂字符需要进行拼接。根据先验知识, 身份证中的字符长宽比例为 11, 以此为基准来判断字符块完整性, 但是对于身份证地址栏, 由于存在着数字会对判断产生干扰, 所以通过 Caffe 框架对数字做个预识别来去除数字, 具体步骤如下:(1) 假设分割后

16、得到字符块 a 个, 将所有分割块存入数组 A。(2) 根据先验知识设置长宽比的范围 1, 2 (实验设置为0.9, 1.1) , 遍历数组, 求出字符块的长宽比 j, j1, a。(3) 如果 i 1, 2, 将 i对应的字符块存入数组 B, 反之取该字符块, 通过 Caffe 预识别判断是否为数字, 如果是将该数字块输出存入数组 B, 数组A 指针前进 1 位, 否则, 取该字符下两个相邻块判断, 如果存在数字块, 合并非数字块, 存储合并后的字符块和数字块到数组 B, 数组 A 指针前移 3 位, 如果不存在数字块, 合并三个字符块, 存储到数组 B, 数组 A 指针前移 3 位, 重复

17、步骤 (3) , 遍历完后得到新的字符块。最终的分割结果如图 10, 所有的汉字都被完整地分割出来。图 1 0 最终分割结果图 下载原图4 实验部分为了验证本文算法的可行性, 通过拍照获取身份证图像 40 幅。在 Window 下Matlab 平台下进行实验比较, 首先进行身份证矫正算法实验比较, 测试结果如表 1、2。表 1 正确矫正情况 下载原表 表 2 各方法检测得到的倾角值 下载原表 Hough 算法是经典的矫正算法, 而且是公认的鲁棒性较好的算法, 通过表 1 结果比较, 在无噪声的情况下, 三种方法矫正情况相同, 但在加入噪声后, 文献6方法受噪声影响大, 由于本文加入对于噪声的滤

18、波处理, 能够较好地保持图片的边缘, 从而使本文方法具有较强的鲁棒性。从表 2 数据分析, 本文方法的误差和误差均值都比 Hough 方法和文献6更小, 由于本文在计算倾斜角的过程中有一个不断校验的过程, 能够使得到的倾斜角结果更加可靠和准确, 所以通过本文方法检测角度具有较高的精确度。在文字分割部分, 本文对 40 幅身份证图像进行分割, 由于本文主要优化汉字和数字混排分割, 所以只给出地址部分的分割结果, 总字数为 705, 分割情况如表 3、4。表 3 分割正确率 下载原表 表 4 部分地址分割结果 下载原表 从表 3 数据可以看出, 文献1-2, 6算法在无倾斜的图像上分割率都较高,

19、但在倾斜图像上做分割时文献1-2分割率大大下降, 然而本文算法通过对图片的去噪, 矫正和增强处理提升了图片的质量, 在分割部分通过阈值判断对分错字符进行修正, 处理后得到的分割率还是比较满意的, 而且不受图片倾斜的干扰。表 4 给出了本文算法处理后的地址分割结果示例图, 可以看出很好地分割了数字与汉字。5 结论本文主要工作是研究身份证分割算法, 优化投影法。在预处理部分首先对身份证图像进行倾斜矫正、增强对比度、分块处理。在分割部分通过 caffe 框架训练识别模型来去除数字, 再结合投影法和先验知识有效地解决了数字和汉字混排分割问题。实验结果发现本文方法能成功运用于身份证信息识别中, 取得了不

20、错的效果, 但是本文方法不适用过度光照不均的图像, 之后需要对图片不均的图像进行归一化处理, 以及提升二值化方法对光照的适应性。参考文献1沈瑛, 范俊波.身份证识别的文字定位算法研究J.计算机应用与软件, 2004 (3) :80-82. 2陈艳, 孙羽菲, 张玉志.基于连通域的汉字切分技术研究J.计算机应用研究, 2005 (6) :246-248. 3徐其华.denny 的学习专栏EB/OL.2017-03-01.http:/ 4黄宝贵, 卢振泰, 马春梅, 等.改进的自适应中值滤波算法J.计算机应用, 2011 (7) :1835-1837. 5Gonzalez C, Castro J

21、R, Melin P, et al.An edge detection method based on generalized type-2 fuzzy logicJ.Soft Computing, 2016, 20 (2) :773-784. 6肖西华, 江志兴, 梁旭, 等.移动平台下的身份证图像字符分割方法研究J.计算机工程与应用, 2015, 51 (24) :201-204. 7徐同莹, 彭定明, 王卫星.改进的直方图均衡化方法J.兵工自动化, 2006 (7) :58-59. 8唐耀飞.图像灰度级拉伸算法的 FPGA 实现J.航空兵器, 2010 (2) :21-23. 9He K

22、aiming, Sun Jian, Tang Xiaoou.Single image haze removal using dark channel priorC/IEEE Conference on Computer Vision and Pattern Recognition, 2009:1-13. 10CSDN.occupy8 的专栏EB/OL.2017-03-01.http:/B 11郝颖明, 朱枫.2 维 Otsu 自适应阈值的快速算法J.中国图象图形学报, 2005 (4) :484-488. 12王耀贵.图像高斯平滑滤波分析J.计算机与信息技术, 2008 (8) :79-82.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报