1、基于谱残差与笔画宽度变换的显著性文本检测方法 陈霄 沈洪健 李菲 王希 温长吉 吉林农业大学信息技术学院 吉林农业大学科技出版部 摘 要: 为有效利用 Android 智能终端实现对文本信息的有效识别, 提出一种基于谱残差和笔画宽度变换的显著性文本特征提取方法.首先应用基于谱残差的显著性检测获取显著图;然后利用最大熵判别方法分割并建立显著性文字候选区域;最后通过笔画宽度变换算法在候选区域内提取闭合边缘等宽特征.构建基于 Android智能终端和服务器的 C/S 架构实验平台, 在 MSRA-TD500 文字定位数据库与实验室场景数据库中的实验结果表明, 该算法可较好地获取图像中的显著性文字特征
2、, 在保证运算效率的同时算法性能有所提升.关键词: 谱残差; 笔画宽度变换; Android 终端; 文本特征检测; 作者简介:陈霄 (1983) , 男, 汉族, 博士, 讲师, 从事计算机视觉、机器学习和物联网应用的研究, E-mail:.收稿日期:2017-02-25基金:吉林省教育厅“十三五”科学研究规划项目 (批准号:2016175;2016186) Salient Text Detection Method Based on Spectral Residual and Stroke Width TransformCHEN Xiao SHEN Hongjian LI Fei WANG
3、 Xi WEN Changji College of Information and Technology, Jilin Agricultural University; Department of Science-Technology Publication, Jilin Agricultural University; Abstract: In order to effectively recognize the information of text by using Android intelligent terminals, we proposed a text feature ex
4、traction method based on spectral residual (SR) and stroke width transform (SWT) .Firstly, the salient map was obtained based on salient detection of the spectral residual.Secondly, the maximum entropy discriminant method was used to segment and establish salient text candidate regions in salient ma
5、p.Finally, the SWT algorithm was used to extract characteristics of equivalent width of closed edge in the candidate region.The C/S architecture experimental platform was constructed based on Android intelligent terminal and server, and experimental results on both the MSRA-TD500 text dataset and la
6、boratory dataset show that the algorithm can effectively obtain salient text feature in the image, and the performance of the algorithm is improved when the computing efficiency is guaranteed.Keyword: spectral residual; stroke width transform; Android terminal; text feature detection; Received: 2017
7、-02-25随着智能移动终端设备与网络通信技术的广泛应用, 基于智能终端的搜索服务需求不断扩大, 如基于图片的产品搜索技术、基于音频的音乐搜索技术以及基于文字的智能翻译技术等都得到广泛关注1.在海量数据获取与处理中, 硬件搜索平台计算资源的有限性和搜索算法的鲁棒性问题是移动搜索技术面临的主要问题.因此, 利用有效的搜索算法构建高效移动搜索平台是解决海量数据处理的关键.目前, 针对自然场景中文本检测与识别的研究可归结为三个层次:第一层次是文字特征的筛选与文字定位2-4;第二层次是文本位置识别5;第三层次是文字识别6.第一个层次主要通过自底向上的特征检测方法, 实现对复杂场景信息中文字特征的有效筛
8、选;第二层次通过文本固有特征变化有效实现对文本中每个独立文字的检测;第三层次是根据定位结果通过自顶向下的方法识别文字.其中, 第一层次为后续文字信息的有效识别奠定了基础.本文通过有效算法实现对场景中文本信息的检测, 根据应用环境分析, 构建了基于 Android 智能移动终端的 C/S 架构系统实验平台.通过与自然场景文字识别相比, 利用移动智能终端获取文字图像信息时, 对文本信息有针对性的选择拍摄可降低场景中背景信息的复杂性, 文字位置分布也相对集中并具有显著特性.因此, 本文提出一种基于谱残差 (spectral residual) 和笔画宽度变换检测 (stroke width tran
9、sform) 的显著性文本检测方法.1 基于谱残差的视觉显著性计算模型基于频谱残差的显著性检测方法是以认知科学和信息论为基础建立的.从人的视觉认知角度上看, 场景图像由冗余背景和显著目标组成, 人感知系统的最初级作用就是忽视冗余.从信息论角度上看, 图像信息由冗余信息和显著信息构成, 其中冗余信息由单一或规律变化的部分构成, 显著信息则由变化复杂、无规律的信息构成.所以有效编码假说将场景图像信息 H 分为两部分:其中:H O表示前景信息;H B表示背景信息.Hou 等7通过统计大量自然场景图像频谱的对数发现, 频谱的平均值和频率呈正比关系, 将频谱对数进一步取对数形成的新图像近似一条直线.因此
10、, 根据式 (1) , 显著性可表示为其中 HS表示显著性信息.通过图像频谱信息描述显著性, 即一幅图像的对数振幅谱减去平均对数振幅谱, 二者之差近似为图像的显著性部分:其中:R (f) 表示图像在频域上的谱残差, 即图像的显著信息 (R (f) =H S) ;L (f) 表示图像的对数振辐谱;V (f) 表示图像的平均对数振辐谱:hn (f) 是一个 nn 矩阵, 定义为在求取谱残差过程中, 需计算图像幅度 A (f) 和相位信息 P (f) :其中:A (f) 表示图像 I (x) 的幅度;F 表示图像的二维离散 Fourier 变换;p 表示求图像的相位图像 P (f) .由上述公式可以
11、重构一幅图像, 用来表示原图像各像素的显著性, 称为显著图.谱残差表示为R (f) 能描述一幅图像中的异常区域.将谱残差 R (f) 和相位 P (f) 进行二维离散 Fourier 逆变换, 可获得显著图 S (x) , 表示为其中 F 表示图像的 Fourier 逆变换.2 基于笔画宽度变换融合的文本检测算法文字元素具有笔画宽度的相似性, 并且邻近文字区域内的笔画宽度基本相同, 因此利用笔画宽度可以有效地检测文字.基于笔画宽度变换 (SWT) 原理8是将文字视为一个双边缘闭合区域, 区域内部灰度变化较小.由于是双边缘结构, 因此笔画上有成对的点, 这些点存在梯度方向相反并且幅度值相近的性质
12、, 可根据这些点对的梯度方向差描述文字笔画特征:其中:G i表示点对 i 的梯度方向差; 表示方向角相差范围;C 用于统计满足阈值 的点对数量与总点对数量的比值, C 值越高表示区域内文字的特征越多, 包含文字的可能性越大;相反则越小.3 显著文字检测方法在 Android 智能平台上的应用本文提出一种基于谱残差与笔画宽度变换的显著性文本检测方法, 该方法建立在基于 Android 的智能终端和服务器的 C/S 架构下, 包括硬件智能移动设备平台和文本特征检测方法, 如图 1 所示.图 1 本文算法在 C/S 架构上的实现 Fig.1 Implementation of algorithm i
13、n this paper on C/S architecture 下载原图Android 移动终端通过 Android SDK 运用 JAVA 完成, 服务器端采用 eclipse, tomcat 构建完成, 对于核心算法部分, 采用 C+语言完成.基于谱残差的显著性检测方法运算相对简便, 可有效获取图像显著性信息, 先通过最大熵判别方法对显著性分级并建立显著性候选区域;再利用等宽变换算法在候选区域内提取闭合边缘等宽特征, 对连通域进行标记建立等宽连通图, 从而抑制图像中的背景信息, 有效提取显著性文本信息;将本文方法布置在 C/S 系统中, 图像预处理计算分配在 Android 终端, 复杂
14、运算布置在服务器端, 以充分利用计算资源.检测流程如下:1) 通过智能 Android 终端获取图像, 并在终端完成对图像的 Fourier 变换;2) 将 Fourier 变换结果用于计算图像显著性, 利用最大熵判别方法完成自适应分割9, 实现对显著特征信息的筛选;3) 与 2) 同时将 Fourier 变换结果用于高斯变换和一阶偏导差分, 完成笔画宽度变化的预处理;4) 融合笔画宽度预处理结果和显著性筛选的信息, 通过逐点扫描梯度方向差选取对应闭合笔画特征.基于 C/S 架构的平台由 Android 智能手机和 PC 服务器组成.其中, 手机上搭载Android 4.00.3 系统, 内存
15、为 2GB.服务器由 I7 处理器, 16GB 内存, 搭载Windows7 操作系统的个人 PC 搭建.图 2 为不同算法在平台上运行过程中获取的关键检测结果图像.其中: (A) 为原图像; (B) 为基于 SWT 方法对原图像的文本检测结果; (C) 为基于视觉显著性对原图像的显著文字检测结果; (D) 为本文提出的基于视觉显著性和 SWT 显著文字检测算法对原图像的检测结果; (E) 为在 (D) 图像基础上对背景抑制与分割获得的文字特征.图 2 不同算法获取的关键检测结果图像 Fig.2 Images of key detection results obtained by diffe
16、rent algorithms 下载原图4 实验结果为了验证本文算法的优势, 在基于 C/S 架构的平台上进行实验.选取 90 张图像样本进行批量处理.其中, 根据应用场景人工采集 40 张并标注了 Ground truth, 其余 50 张选自 MSRA-TD50010数据.基于本文方法获取的文字特征如图 3 所示.其中: (A) , (B) , (C) , (D) 4 组图像是在较简单光照环境下本文方法的提取效果; (C) 中图像中 i 字母有缺失, 是由于其颜色差异在显著性检测时被筛选掉所致; (D) 组图像中两个鼠标的 LOGO 显著性不同, 不显著的被筛选掉, 达到了对显著性文字检测
17、的预期. (E) , (F) , (G) , (H) 4 组图像文本信息所处环境相对复杂, (E) 干扰较少但文字较模糊; (G) 受显著性影响, SWT 变换未能筛选掉全部非文字信息; (H) 组图像中, 文字大小差异变化较大, 是由于背景光照干扰较多所致.由图 3 可见, 本文方法对显著性文本特征的检测达到了预期效果.图 3 文字特征提取结果 Fig.3 Results of text feature extraction 下载原图下面用客观数据和运行速度进一步验证算法性能.采用召回率 (recall rate) 和准确率 (precision rate) 作为检验指标, 检验所用的图像样
18、本为实验前选取的 90 张图像.通过计算文本区域提取的准确率 p 和召回率 r 衡量算法的优劣:其中:E 表示算法提取的区域数量;T 表示图像中 Ground truth 标注的文本区域数量;C 表示 E 和 T 的交集.根据文献11的评估方法, 其综合性能表示为其中 表示 p 和 r 的权重, 一般取 =0.5.对比算法为基于显著性分割方法 (SR) 、基于变化宽度变换方法 (SWT) 和本文方法.3 种方法的性能对比列于表1.由表 1 可见, 本文方法基于 SR 和 SWT 方法构建, 因此性能较其他两种方法有所提升, 特别是在综合性能表现上, 但在保证算法特征检测性能提升的前提下, 有一
19、定的运算时间损耗.表 1 3 种方法性能对比 Table 1 Performance comparisons of three methods 下载原表 综上所述, 本文提出了一种融合谱残差显著性检测和笔画宽度变换检测的显著性文本特征检测方法, 并将该方法应用在 Android 智能移动终端的 C/S 架构系统中.实验结果表明, 本文算法性能有所提升, 算法速度和特征检测性能满足预期要求.参考文献1阮文惠, 薛亚娣.基于 Android 平台的图像增强算法J.吉林大学学报 (理学版) , 2015, 53 (5) :1006-1012. (RUAN Wenhui, XUE Yadi.Image
20、 Enhencement Algorithm Based on Android PlatformJ.Journal of Jilin University (Science Edition) , 2015, 53 (5) :1006-1012.) 2Epshtein B, Ofek E, Wexler Y.Detecting Text in Natural Scenes with Stroke Width TransformC/Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE, 2010:2963-2970. 3YAO Co
21、ng, BAI Xiang, LIU Wenyu, et al.Detecting Texts of Arbitrary Orientations in Natural ImagesC/Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE, 2012:1083-1090. 4姜维, 卢朝阳, 李静, 等.基于视觉显著性与文字置信图的场景文字的背景抑制方法J.电子学报, 2015, 43 (1) :62-68. (JIANG Wei, LU Zhaoyang, LI Jing, et al.Visual Saliency and
22、Text Confidence Map Based Background Suppression for Scene TextJ.Acta Electronica Sinica, 2015, 43 (1) :62-68.) 5YAO Cong, BAI Xiang, SHI Baoguang, et al.Strokelets:A Learned Multi-scale Representation for Scene Text RecognitionC/Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE, 2014:4042
23、-4049. 6Neumann L, Matas J.A Method for Text Localization and Recognition in Real-World ImagesC/Asian Conference on Computer Vision.Berlin:Springer, 2010:770-783. 7HOU Xiaodi, ZHANG Liqing.Saliency Detection:A Spectral Residual ApproachC/Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE, 2
24、007:1-8. 8Epshtein B, Ofek E, Wexler Y.Detecting Text in Natural Scenes with Stroke Width TransformC/Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE, 2010:2963-2970. 9ZHANG Zheng, ZHANG Chengquan, SHEN Wei, et al.Multi-oriented Text Detection with Fully Convolutional NetworksC/Computer V
25、ision and Pattern Recognition.Piscataway, NJ:IEEE, 2016:4159-4167. 10CHEN Xiao, ZHAO Hongwei, LIU Pingping, et al.Automatic Salient Object Detection via Maximum Entropy EstimationJ.Optics Letters, 2013, 38 (10) :1727-1729. 11Lucas S M, Panaretos A, Sosa L, et al.ICDAR 2003 Robust Reading CompetitionsC/Proceeding of the Seventh International Conference on Document Analysis and Recognition.Washington, DC:IEEE, 2003:682-687.