基于深度学习文字检测的复杂环境车牌定位方法.doc-道客多多

资源描述

1、基于深度学习文字检测的复杂环境车牌定位方法李海燕常富蓉喀什大学计算机科学与技术学院摘要：机动车车牌定位已经成为智能交通、城市生活管理中不可缺少的一项技术, 目前定位设计方法多基于车牌形状、颜色、边缘等特征提出。文字也是车牌包含的重要特征信息之一, 车牌识别的目标是识别车牌中的文字符号, 从这一不同角度考虑, 提出一种基于车牌文字特征检测的车牌定位方法, 该方法应用深度学习技术的卷积神经网络提取车牌文字特征, 生成特征映射图, 作为定位车牌的重要依据。实验表明该方法不需要图像预处理和复杂后续处理步骤, 通用性和鲁棒性较好, 对复杂环境下多方向、多场景车牌定位效果良好。关键词：车牌定

2、位; 卷积神经网络; 深度学习; 复杂场景; 作者简介：李海燕 (1982-) , 女, 汉, 河南开封人, 博士研究生, 讲师, 研究方向为机器视觉、模式识别作者简介：常富蓉 (1985-) , 女, 汉, 山西交城人, 博士研究生, 讲师, 研究方向为复杂网络收稿日期：2017-11-14基金：新疆维吾尔自治区高校科研计划项目 (No.XJEDU2017S043) License Plate Location Based on Deep Learning Text Detection in Complicated BackgroundLI Hai-yan CHANG Fu-rong Sch

3、ool of Computer Sciences, Kashgar University; Abstract： Locating license plate is the core part of intelligent transportation system in city life.The current methods almost base on the shape feature, the color feature, and the edge feature, etc.Attempts to try a different method, which takes into ac

4、count the text itself as the feature of the license plate.Thus, proposes a trained Convolution Neural Network (CNN) to locate the license plate with text detection in the license plate.The experiments demonstrate that the method has better performance in multi-orientation and complicated background.

5、Keyword： License Plate Location; Convolution Neural Network; Deep Learning; Complicated Background; Received： 2017-11-140 引言机动车车牌作为车辆主要识别标志之一, 在智能交通管理中发挥重要作用, 车牌定位和识别也是近年来研究的热点问题。因为特殊使用环境, 车牌上的文字内容在较窄范围内, 文字间尺度变化不大, 独立识别任务已经取得较高准确率1, 车牌定位直接影响车牌整体识别效果。已有车牌定位研究, 多利用车牌颜色特征2-3、角点特征4、边缘特征5-6等。在辨识度高、水平方向、

6、环境影响小的前提下, 车牌识别已成功应用在停车场、检查站管理中, 但在恶劣天气、拍摄角度不固定、背景复杂等众多场景中, 车牌定位和识别仍然是个难题4-5,7。近年来, 卷积神经网络 (Convolution Neural Network, CNN) 在复杂场景下的图像分类、目标识别, 场景分割等任务上, 都取得令人瞩目的成就。国内, 将卷积神经网络方法应用在车牌定位研究上也获得较好的效果4,8。文献4提出用 7 层全卷积的神经网络模型, 寻找车牌左上角、右下角的角点特征, 将两点信息匹配合并得到车牌位置信息;文献8选择 2828 的车牌候选区, 进行灰度化和二值化处理后, 送入两层卷积神经网络

7、的分类器, 判断输入图像是否车牌。直观上, 文字也是车牌包含的一项重要特征信息, 我国现行民用车牌为 92式车牌, 包括中文字符、英文字符和数字等。车牌识别目标最终还是识别文字信息, 车牌定位常见的去铆钉、去边框等操作, 都是为了去除检测结果对识别文字的干扰。本文从这一新角度出发, 利用 CNN 在特征学习方面的优势, 提取车牌文字特征, 作为车牌定位的重要参考信息, 同时通过 CNN 过滤复杂场景下大量非文字干扰信号, 大大减少定位过程图像预处理和后续处理步骤。1 卷积神经网络20 世纪 80 年代, Fukushima 提出了神经认知机9, 是一个层次性结构的人工神经网络, 网络节点局部连

8、接, 被看做是卷积神经网络的最初实现。此后, Le Cun 等将反向传播算法应用于卷积神经网络, 在手写数字的识别10方面取得当时最好结果。近年, 深层卷积神经网络广泛应用在语音识别、计算机视觉等多方面。1.1 卷积层 (Convolution Layer) 图像输入卷积层, 由卷积核提取图像局部特征信息, 卷积核参数初始化可设为随机值。提取到图像局部特征后, 即卷积核参数确定, 卷积核在图像上类似滑动窗口的移动, 对其余位置使用同样局部特征做卷积运算, 得到整张图像对这一特征的映射值, 如图 1 (a) , 输入图像假设为 55 大小, 经一层卷积核为33 的卷积层 (conv_1) 计算,

9、生成 33 大小特征映射图, 再经第二层卷积核为 33 的卷积层 (conv_2) , 生成 11 大小特征映射图。通过使用不同的卷积核, 反复这一过程, 提取图像不同局部特征, 产生多个特征映射图。卷积核的大小决定了特征的局部学习范围, 也叫感受野, 卷积核常设为正方形, 如大小为 33, 55, 即计算 33, 55 像素块内局部特征, 重叠多个尺寸小的卷积核对应到原始图像上能获取较大感受野, 提取到较大范围内局部特征。因为提取局部特征后, 网络使用相同卷积核参数作用在整个图像上, 实现特征共享, 大大减少了网络参数。图 1 卷积层 (a) 、池化层 (b) 数据处理示意图下载原图卷积

10、神经网络计算卷积, 是不断从训练图像中学习局部特征的过程, 叠加卷积层, 例如图 1 (a) 叠加两层卷积层, 相当于再抽象学习图像高一级特征, 参数设置没有人工参与, 学习过程相对稳定。而且卷积核数目众多, 叠加层数足够多时, 卷积神经网络学习到手工设计特征无法描述的图像特征, 因此具有强大提取图像特征能力。1.2 池化层 (Pooling Layer) 经卷积层计算得图像所有特征映射图, 为提取到图像尽可能多的特征, 一般网络设计卷积核数量较多, 所以特征映射图数据量大, 直接计算导致空间、时间复杂度很大。另外, 卷积核设计尺寸相比较于图像非常的小, 以保证局部特征提取全面, 这一设计也容

11、易导致网络训练结果过拟合。因此, 常对图像局部区域特征使用最大化、平均化聚合操作, 即降采样, 称为池化, 见图 1 (b) , 输入 44 大小的图像, 经过第一池化层 (pooling_1) , 池化因子 22, 保留22 大小图像, 若连续池化, 再经 22 的第二池化层 (pooling_2) , 最终保留 11 大小图像。一般池化层连接在卷积层后, 池化层保留的信息即图像部分局部特征, 带来输出尺寸减小、网络位移不变性、缩放不变性增加等诸多优点。上采样也称反卷积, 是池化操作反过程, 常用作增大图像尺寸。2 基于文字检测的车牌定位2.1 方法流程图为尽可能多地保留原始图像信息, 本文

12、方法不对输入图像做大量预处理操作, 例如常见的去噪声、归一化、灰度化等, 实验训练阶段卷积神经网络输入图像学习车牌特征, 测试阶段, 车牌图像送入训练好的卷积神经网络, 产生特征映射图, 根据映射值确认文字位置, 反卷积恢复至原图像尺寸, 二值化处理并结合车牌形状特征, 定位车牌位置, 实验流程如图 2 所示:图 2 车牌定位实验流程图下载原图2.2 卷积神经网络结构早期图像处理技术中, 浅层神经网络提取图像简单特征, 近年来, 深度学习技术的发展, 使得深层神经网络的训练越来越成熟, 可以提取图像高级特征。本文实验采用 VGG16 卷积网络结构11为基础, VGG16 网络包含有 13 个

13、卷积层, 5 个池化层, 交替组合设计, 有利于提取图像文字高层抽象特征。图 3 中以池化层为间隔分 2-3 个卷积层为一组, 每组内卷积核数量一样, 从左到右依次为64, 128, 256, 512, 512。网络卷积核大小一致, 方形 33, 参数均从训练数据中获得。如图 3, 输入图像 224224, 经过 64 个 33 卷积核, 学习得 64224224 特征映射图, 送入 22 最大池化层, 输出 64112112 特征映射图, 依次经后续卷积层, 在第 5 层池化层得到 5121414 特征映射图, 网络各层参数设计详见图 3。至此, 获得定位车牌定位所需文字特征映射值, 试验未

14、采用 VGG16网络模型的后续处理层。图 3 车牌定位卷积神经网络结构图下载原图2.3 卷积神经网络训练卷积神经网络提取特征具体步骤见 2.1 部分, 网络训练过程需要大量已标注车牌数据, 目前国内还没有公开的车牌数据集。文献4收集了 45 000 张包含车牌的卡口数据和监控摄像数据, 进行人工标注车牌角点信息, 经平移、缩放、旋转、添加噪声、去噪声等操作, 扩展到 100 000 张作为卷积神经网络的训练数据, 标注车牌数据准备困难, 工作量大, 成本高。我国车牌文字分为三部分:一位表示省、直辖市的汉字, 一位表示车辆所在地市一级代码的英文字符, 和五位英文字符、阿拉伯数字混排组合。考虑本

15、文使用车牌文字特征定位车牌, 实验使用三个公开文字数据集训练网络, 提取文字特征, 包括一个英文单词数据集, 一个手写数字数据集, 和一个包含英文、中文字符的数据集, 分别是:ICDAR13 (International Conference on Document Analysis and Recognition 2013) , MNIST (Mixed?National Institute of Standards and Technology?Database) , MSTR-TD500 (MSRA Text Detection 500 Database) , 数据集信息如下表 1 所示

16、, 训练数据涵盖了我国标准车牌包含的汉字、英文、数字, 有利于卷积神经网络提取车牌文字特征。表 1 卷积神经网络训练数据集下载原表 3 实验结果及分析因国内还未有公开的车牌数据集, 无法在统一平台比较车牌定位各方法性能, 给出定量精度指标。实验测试图像均来自网络车牌图像, 除了车牌水平方向、清晰、简单背景外, 还专门采集了倾斜角度大、分辨率低、背景包含树木、人物、及多辆车等干扰信息的极端环境车牌图像, 验证本文方法有效性和鲁棒性, 实验前期没有对输入图像进行任何尺度变换、去噪声等预处理, 模拟多设备、多场景取得车牌图像的应用场景。定位测试实验流程结果如图 4 所示:测试图片 (图 4 (a)

17、 ) 进入图 2 训练好的卷积神经网络, 经最后一个池化层后, 生成特征映射图, 定位文字位置 (图 4 (b) ) , 反卷积操作恢复至原始图像大小, 二值化 (图 4 (c) ) , 根据车牌矩形、长宽比范围等信息, 过滤干扰信息, 最终确定车牌位置 (图 4 (d) 、 (e) ) 。图 5 第一行是原始车牌图像, 分别包括多车牌、多车辆、图像模糊、车牌反光等多种复杂场景车牌, 第二行是对应图像特征映射图的二值化结果, 车牌定位比较准确, 在干扰信息多的复杂背景, 得益于卷积神经网络文字检测优势, 在未对实验结果做过多约束、过滤情况下, 依然得到良好定位效果, 证明本文方法不存在手工设计

18、特征局限性、环境适应性差等缺点。图 5 (a) 多车牌重叠, 造成形状不规则, 角点信息不明确等;图 5 (b) 是多车行驶中检测结果;图 5 (c) 雨、雾等恶劣天气使图像模糊;图 5 (d) 车牌带有明显反光干扰, 造成形状特征不全, 类似车牌遮挡情况, 对基于边缘检测、角点检测方法都是难点问题。图 4 车牌定位测试实验流程结果图下载原图图 5 多车牌、有干扰的复杂环境车牌定位下载原图本文还进行了算法通用性实验, 图 6 挑选了有别于常规车牌位置、长宽比、车身装饰干扰、角度倾斜等多场景图像, 这些场景对常规定位方法都极具挑战性。图 6 (a) 包含两个车牌的特殊情况;图 6 (b) 是

19、外国车牌, 车牌形状、文字排布都与我国车牌有较大差别;图 6 (c) 、图 6 (d) 包含有强边缘特征干扰, 且图 6 (d) 车牌方向倾斜角度较大。实验结果表明极端情况下, 本文实验车牌定位基本准确, 方法通用性好。图 6 本文方法通用性实验结果下载原图不受场地、光线限制的场景, 也常导致车牌定位准确率很低, 图 7 第一行车牌拍摄角度随意、图像亮度变化范围广, 对颜色特征、边缘特征为主的车牌定位方法干扰很大。图 7 (a) 场景车身反光严重, 车牌处于较低角度, 并且有倾斜角度;图 7 (b) 几乎是在黑夜、光线极暗场景下, 注意到图 7 (c) 场景地面包含很多方形图案, 对边缘特征

20、、角点特征提取会造成一定困难。图 7 第二行特征映射图的二值化结果也验证了本文方法具有鲁棒性。图 7 本文方法鲁棒性实验结果下载原图以上各极端场景实验结果直观表明, 本文基于车牌文字特征、利用卷积神经网络定位车牌方法, 简单、有效, 并有较强通用性和鲁棒性。4 结语智能交通、城市生活中车牌管理非常重要, 机动车车牌识别首先从检测定位车牌开始, 车牌定位研究已有很多成熟方法。本文实验尝试从不同于现有方法的角度, 考虑车牌文字特征, 利用卷积神经网络检测车牌文字, 实现车牌位置定位, 后续操作步骤简单。实验测试图片均来自网络, 包括低分辨率、模糊、不同国家车牌、多车牌等极端场景, 实验结果证明本

21、文方法适应性强, 在复杂场景下鲁棒性能好。本文实验未考虑场景中存在文字干扰情况, 需要增加过滤条件, 保证车牌定位准确。参考文献1董峻妃, 郑伯川, 杨泽静.基于卷积神经网络的车牌字符识别J.计算机应用, 2017, 37 (7) :2014-2018. 2胡峰松, 朱浩.基于 HSI 颜色空间和行扫描的车牌定位算法J.计算机工程与设计, 2015, 36 (4) :977-982. 3孙红, 郭凯.融合字符纹理特征与 RGB 颜色特征的车牌定位J.光电工程, 2015, 42 (6) :14-19+44. 4罗斌, 郜伟, 汤进, 等.复杂环境下基于角点回归的全卷积神经网络的车牌定位J.数据

22、采集与处理, 2016, 31 (1) :65-72. 5张杰, 张兢, 冯欣, 等.复杂环境的车牌定位方法设计与实现J.通信技术, 2017, 50 (6) :1181-1187. 6钟伟钊, 杜志发, 徐小红, 等.基于字符边缘点提取的车牌定位方法J.计算机工程与设计, 2017, 38 (3) :795-800+813. 7李羊, 曹玉东, 刘艳洋.复杂背景下的快速车牌定位技术研究J.辽宁工业大学学报 (自然科学版) , 2016, 36 (2) :81-86. 8郭克友, 贾海晶, 郭晓丽.卷积神经网络在车牌分类器中的应用J.计算机工程与应用, 2017, 53 (14) :209-2

23、13. 9Fukushima K, Miyake S.Neocognitron:A New Algorithm for Pattern Recognition Tolerant of Deformations and Shifts in Position.Pattern RecognitionJ, 1982, 15 (6) :455-469. 10Le Cun Y, Boser B, Denker J S, et al.Handwritten Digit Recognition with a Back-Propagation NetworkJ.In:Proceedings of Advances in Neural Information Processing Systems 2.San Francisco, CA, USA:Morgan Kaufmann Publishers Inc., 1990:396-404. 11Simonyan K, Zisserman A.Very Deep Convolutional Networks for Large-Scale Image RecognitionJ.Computer Science, 2014.

展开阅读全文