收藏 分享(赏)

基于三维模型的二维文档图像提取与识别.doc

上传人:无敌 文档编号:172708 上传时间:2018-03-23 格式:DOC 页数:11 大小:203.50KB
下载 相关 举报
基于三维模型的二维文档图像提取与识别.doc_第1页
第1页 / 共11页
基于三维模型的二维文档图像提取与识别.doc_第2页
第2页 / 共11页
基于三维模型的二维文档图像提取与识别.doc_第3页
第3页 / 共11页
基于三维模型的二维文档图像提取与识别.doc_第4页
第4页 / 共11页
基于三维模型的二维文档图像提取与识别.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、基于三维模型的二维文档图像提取与识别 肖珂 王丽静 童立靖 北方工业大学计算机学院 北方工业大学电子信息工程学院 摘 要: 针对 OCR (optical character recognition) 不能识别三维文本模型的问题, 提出从三维文本模型信息中提取图像数据重构二维图像再进行识别的方法。对三维模型的点云数据进行归一化处理并进行基于视点的投影, 通过提取网格信息的方式计算生成二维图像的分辨率, 将提取的二维图像数据进行整理计算并输出, 实现图像的重构。实验结果表明, 该方法对各种版面类型的文本模型均能提取对应的二维图像, 且该图像文字识别率较高。关键词: 图像提取; 三维模型; 扭曲文

2、档图像; 点云数据; 纹理映射; 作者简介:肖珂 (1980-) , 男, 吉林松原人, 副教授, 硕士生导师, 研究方向为数字图像处理、嵌入式系统等;作者简介:王丽静 (1991-) , 女, 北京人, 硕士研究生, 研究方向为数字图像处理;作者简介:童立靖 (1972-) , 男, 安徽马鞍山人, 副教授, 硕士生导师, 研究方向为数字图像处理、计算机图形学。E-mail:收稿日期:2016-08-08基金:国家自然科学基金项目 (61371142) 2Ddocument image extraction and recognition based on 3D modelXIAO Ke W

3、ANG Li-jing TONG Li-jing College of Computer, North China University of Technology; College of Electronic and Information Engineering, North China University of Technology; Abstract: Three-dimensional (3D) model is unable to be recognized by OCR (optical character recognition) , a method by collecti

4、ng the two-dimensional (2D) date from 3D model and reconstructing the 2D image was proposed.Point cloud data of 3D model were normalized and projected based on the view point location.The 2D image resolution was calculated through the grid information extraction.The 2D image data were extracted from

5、 3D model and output, thus eventually achieving the ultimate image reconstruction.The results show that the proposed algorithm for various types of 3D text model can extract the 2D images and the OCR rate is high.Keyword: image extraction; 3D model; warped document images; point cloud data; texture

6、mapping; Received: 2016-08-080 引言当前 OCR (optical character recognition) 识别的对象主要针对二维图像。在当前计算机视觉技术迅猛发展的大环境下, 三维模型的数据处理与信息提取也成为了研究热点之一。本文就是利用纹理映射1,2的原理间接实现对三维文本模型的 OCR 识别。文献3对三维模型进行点云去噪, 提取三维特征点进行倾斜检测, 在三维模型上解决二维图像中难以处理扭曲文本和倾斜同时存在的问题, 但是该文献尚欠缺对三维文本模型进行文字识别的考虑。文献4通过对文本模型的页面进行竖条状面片切分, 针对面片的扭曲程度进行坐标拉伸, 再将

7、各面片重新拼接, 实现三维扭曲文档的校正功能。最后计算 OCR 识别率部分采用的是对三维模型截屏再进行文字识别的方法, 这一方法势必会对识别结果有很大影响。因此根据当前形势下对三维文档模型的广泛应用, 本文提出利用纹理映射的原理结合仿射变换5-7的方法来解决三维文本模型不能进行 OCR 识别的问题。首先对三维模型的点云数据进行归一化处理并进行基于视点的投影, 然后通过提取网格信息的方式计算生成二维图像的分辨率, 并将提取的二维图像数据进行整理计算并输出, 最终实现图像的重构。实验结果表明, 三维文本模型通过本算法获得的二维图像有较高的文字识别率。1 三维文本模型的分类三维模型数据由点云数据和纹

8、理图像数据组成, 其文件格式主要为 OBJ8和JPG。点云数据描述的是三维模型的空间网格信息9, 纹理图像描述的是纹理映射的像素信息。如图 1 所示, 即为一个三维文本模型的纹理图像。本算法就是将该散乱的纹理图像转化得到完整有序的二维文本图像。图 1 三维文本模型的纹理图像 下载原图当前的三维文本模型主要分为两种不同的三维网格模型:规则三维网格模型和不规则三维网格模型。规则三维网格模型其横竖网格线10近似垂直相交, 点云分布密度均匀。例如由 EVA 扫描仪得到的三维模型, 其网格模型如图 2 所示。不规则三维网格模型其网格线排列无明显规律, 三角网格形状普遍为任意三角形, 且点云分布密度伴随是

9、否存在文字、图像等有效信息而变化, 存在有效信息的区域点云密度较大, 不存在有效信息的区域点云密度较小。例如由 Spider扫描仪得到的三维模型, 其网格模型如图 3 所示。图 2 规则三维模型网格 下载原图本文针对这两类三维网格模型的特点, 在后续计算二维图像尺寸的部分会采用不同的处理方法。图 3 不规则三维模型网格 下载原图2 二维文档图像提取与识别2.1 算法描述本算法使用逆向的纹理映射方法, 首先对三维模型的书本页面信息进行提取, 再对模型数据进行归一化、点云投影的整理计算。然后以三维网格中的每个三角面片为单位, 确定每个面片在二维图像中的位置, 再将像素信息映射覆盖在二维三角面片上,

10、 最终实现二维图像的重构。算法流程如图 4 所示。图 4 算法流程 下载原图2.2 模型数据归一化与点云投影(1) 利用点云数据的深度信息提取页面数据。当点 满足条件 时表示其为书本页面数据。其中 h (xi, yi, zi) 表示点云数据中任意点的深度值, h 0为桌面的深度值, 通过统计每隔 0.1单位距离平面顶点个数, 并将顶点个数最多的平面深度值记作 h0。(2) 模型数据归一化。将三维模型的空间坐标 进行平移归一化, 并使坐标满足条件, , 。归一化模型可简化程序计算且有效避免因计算产生大量的重复坐标点的情况。(3) 点云投影。在书本平面的任意 3 个角取不共线的三点 P1 (x1,

11、 y1, z1) 、P 2 (x2, y2, z2) 、P 3 (x3, y3, z3) , 在平面中选取动点 P (x, y, z) , 该点与其它三点共面, 则其混合积为 0, 如式 (1) 所示。通过 P, P1, P2, P3点可构成唯一平面, 该平面的一般表达式如式 (2) 所示, 其中 A, B, C, D 为系数该平面通过坐标形式表示如式 (3) 所示由式 (2) 可得该平面的法向量为 。书本平面上的任意顶点 M (x, y, z) 与该点在平面上的投影坐标 M (x, y, z) , 满足平行于 平行。则有所以, 点 M满足条件 (5) 条件 (7) 因为点 M (x, y,

12、z) 在平面上, 则该点满足平面方程, 并可得出将式 (8) 分别带入式 (5) 式 (7) 可求解出顶点 M (x, y, z) 基于该平面的投影坐标 M (x, y, z) 。2.3 根据空间网格信息确定二维图像大小通过对空间网格信息的特征提取确定二维图像大小。由于不同扫描仪建立的三维网格不同, 本文首先通过对三维网格信息进行提取, 再以模型中任意一个三角面片的信息数据为对象, 计算所生成的二维图像分辨率。其中三维空间坐标以距离为单位, 二维图像以像素点为单位, 通过数据比例确定二者关系。在此步骤中需要尽可能精确计算出三维模型对应的二维图像尺寸, 这样有助于减少重复点的情况。对于如图 2

13、所示的规则网格模型, 在所有空间网格中选取一个特殊三角形 ABC, 该三角形 ABC 存在任意两点纹理坐标 或 或, 以 为例首先计算三角形两顶点 a, b 间的空间距离 R通过空间距离 R 以及式 (10) 、式 (11) 分别计算该空间距离拟对应的二维图像宽度像素点个数 DPIWidth 和高度像素点个数 DPIHeight其中, (u i, vi) 表示的是像素点在纹理图像中的坐标值, 代表该像素点在纹理图像中的位置比值。SpaceWidth、JPG-Width、BMPWidth 分别表示三维模型的空间宽度、纹理图像宽度和得到的图像宽度。SpaceHeight、JPGHeight、BMP

14、Height 表示高度信息。将 DPIWidth、DPIHeight 的结果分别带入式 (12) 、式 (13) , 求得二维图像的宽高对于如图 3 所示的不规则网格模型, 以三角形 ABC 为例, 任意取两个三角形的顶点 a, b 计算对应二维图像的宽高全文中涉及取整的计算均采用的是四舍五入取整方法。2.4 三角面片像素信息的提取通过对模型数据归一化、点云投影以及根据空间网格信息确定二维图像大小后, 还需要进一步根据三维模型的纹理信息重构二维图像。首先计算二维图像中的位置坐标点信息, 利用二维图像分辨率计算三维模型中所有的顶点坐标在二维图像上的位置信息即二维坐标。然后将三角面片三个顶点的二维

15、坐标和三维模型纹理图像上的像素数据结合, 可得该三角形的仿射变换关系。最后通过该变换关系计算三角面片内的二维坐标点的像素信息, 以重构该二维图像。(1) 计算二维图像中的位置坐标点信息。依据空间坐标宽高和二维图像宽高的对应关系计算求取每一个空间顶点在二维图像上的坐标 , 如式 (16) 所示(2) 利用仿射变换关系求仿射矩阵 H。二维图像中每个三角面片 3 个顶点的位置信息和纹理数据均可得到一个仿射变换矩阵。设仿射变换矩阵为 H, 则其关系应满足式 (17) 进一步可推出式 (18) 依据式 (17) 、式 (18) , 每个三角面片顶点的二维图像坐标 , 以及纹理坐标 , 可计算每个三角面片

16、中 3 个顶点间的仿射变换关系矩阵。(3) 判断三角面片中的任意点所遵从的仿射变换关系。最后根据叉乘计算结果判断点 N 所遵从的仿射变换关系矩阵 H(4) 通过仿射关系对二维图像内的点进行像素填充。三角面片内的像素点遵循以下仿射关系:存在某三角面片, 若已知该三角面片的仿射矩阵 H, 则可将三角形面片内的某平行线转化为另一平行线, 某点映射到某点。因此将三角面片内的点及其边缘线上的点均通过该三角面片的仿射关系矩阵 H 映射到二维图像上, 排列各像素点后完成图像重构。(5) 填充像素缺失点。因像素点精度和三角形边缘判定存在误差, 因此会有个别像素缺失, 得到的图像并不完整。缺失图像的像素形状为长

17、条或点状且像素丢失点排列密度较大。本文利用四邻域法插值, 计算与像素点丢失点 PXi邻近的上、下、左、右 (PX Up, PXDown, PXLeft, PXRight) 4 个像素点值的平均值, 即该空白像素点的像素值, 如式 (20) 所示3 实验结果分析3.1 算法测试环境本算法运行环境为:Inter (R) Core (TM) i7-3770CPU3.4GHz, 8GB 内存, Windows 7 32 位操作系统, Microsoft Visual Studio 2005。使用语言为 C+和 OpenGL。本实验所使用的三维文本模型由美国 Artec 3DEVA 手持式三维彩色扫描仪

18、和美国 Artec Spider 手持式高精度三维扫描仪扫描得到。OCR 文字识别软件采用的是汉王 OCR2.0 版本。3.2 实验结果分析本算法旨在将三维文本模型的散乱纹理图像还原成书本页面原始图像。实验中将本文算法重构的二维图像与屏幕截图得到的图像进行对比来判定实验结果的优劣性。本实验共采集了 60 个样本进行实验。其中版面类型分别为图文混排、中英文混排以及单一语言的书本模型各 20 个, 并通过扫描仪设定纹理大小为 8192*8192, 图 5、图 6 为一对比性实验图像。图 5 经本算法提取得到的二维图像 下载原图图 5 为美国 Artec Spider 手持式高精度三维扫描仪扫描得到

19、的三维图文混排文本模型经过本算法处理后得到的图像。图 6 为三维图文混排模型对应的截屏图像。图 7 为本算法得到的图像进行 OCR 识别的字符信息。对比图 5 和图 6 可知, 本算法得到的目标图像清晰、完整地重现了原模型的文本信息。汉字部分笔划完整, 文本信息准确无误, 图像部分还原度较高。由图 7 中的字符识别信息可以看出, 文字识别准确度也较为准确。本算法在实验中设定扫描仪纹理图像大小为 8192*8192, 本算法重构的二维图像可达 600 万像素左右, 与三维模型通过屏幕截屏得到二维图像的识别率对比见表 1。通过对比可得本算法得到的图像文字识别率略优于截屏图像。所以从整体结果上可以判

20、定本算法能够从三维模型数据中重构二维图像且该图像文字识别率较高。图 6 三维文本模型截屏图像 下载原图图 7 本算法得到的图像进行 OCR 识别的字符信息 下载原图表 1 图像 OCR 识别率对比 下载原表 实验结果表明, 三维模型的点云和纹理数据经过有效的数据提取可转换成二维图像, 且该算法对三维模型样本数据的文字格式、版面类型等限制较小。所得图像版面结构清晰, 文字识别率可达 95%以上。4 结束语根据逆向工程与纹理映射的原理, 本算法通过处理三维文本模型的点云数据和纹理数据, 利用模型数据归一化、点云投影、空间网格确定图像大小等步骤提取二维图像数据, 再使用仿射变换法和插值法补充缺失像素

21、, 最后得到完整的重构二维图像, 并能够较好完成二维图像 OCR 识别, 且间接地提高了三维模型的 OCR 识别率。由于三维模型的点云数据密度较高, 需处理的点云数据量达 10 多万个, 三角面片网格数可达 20 多万个, 像素点个数更有 6700 万之多, 导致本算法程序的实时性有待进一步提高, 因此改进二维图像重构算法的运行效率将是下一步工作的研究重点和研究方向。参考文献1LI Zhanli, LIU Xiaojing, SUN Yu.Texture mapping for irregular surface based on spring-mass modelJ.Computer Eng

22、ineering and Design, 2014, 35 (10) :3545-3548 (in Chinese) .李占利, 刘小靖, 孙瑜.基于弹簧-质点模型的不规则曲面纹理映射J.计算机工程与设计, 2014, 35 (10) :3545-3548. 2WANG Meng, LIU Xiaoping, ZOU Yanni.Spherical texture mapping method for large-scale point cloud dataJ.Computer Engineering, 2015, 41 (1) :218-222 (in Chinese) .王蒙, 刘小平,

23、邹艳妮.大规模点云数据的球面纹理映射方法J.计算机工程, 2015, 41 (1) :218-222. 3TONG Lijing, ZHENG Junchao.A tilt correction method of distorted text images based on point cloud dataJ.Computer Applications and Software, 2016, 33 (6) :176-184 (in Chinese) .童立靖, 郑俊朝.基于点云数据的扭曲文本图像倾斜校正方法J.计算机应用与软件, 2016, 33 (6) :176-184. 4TONG Li

24、jing, CHEN Jing.Distorted document image restoration based on reverse engineeringJ.Computer Engineering and Design, 2016, 37 (4) :964-968 (in Chinese) .童立靖, 陈静.基于逆向工程的扭曲文档图像恢复J.计算机工程与设计, 2016, 37 (4) :964-968. 5WANG Wenying, ZHANG Dongming, ZHANG Yongdong, et al.Fast spatial verification with affine

25、 transformationsJ.Journal of Computer-Aided Design&Computer Graphics, 2010, 22 (4) :201-203 (in Chinese) .汪文英, 张冬明, 张勇东, 等.利用仿射变换的快速空间关系验证J.计算机辅助设计与图形学学报, 2010, 22 (4) :201-203. 6LI Xiangzhen, ZHENG Hong, ZHENG Chen.A robust vehicle occlusion detection method based on affine feature descriptionJ.Com

26、puter Applications and Software, 2011, 28 (10) :250-252 (in Chinese) .李香祯, 郑红, 郑晨.基于仿射特征描述的鲁棒车辆遮挡检测方法J.计算机应用与软件, 2011, 28 (10) :250-252. 7FU Weiping, QIN Chuan.Matching and location of image object based on SIFT algorithmJ.Chinese Journal of Scientific Instrument, 2011, 32 (1) :163-169 (in Chinese)

27、.傅卫平, 秦川.基于 SIFT 算法的图像目标匹配与定位J.仪器仪表学报, 2011, 32 (1) :163-169. 8WANG Jinfeng, YAO Guoqing.OBJ three-dimensional model file format in OpenGL, input and processingJ.Computer Knowledge and Technology, 2011, 7 (10) :2393-2396 (in Chinese) .王金峰, 姚国清.三维模型文件中的 OBJ 格式在 OpenGL 中的输入与处理J.电脑知识与技术, 2011, 7 (10) :

28、2393-2396. 9Tahir Azim, Ewen Cheslack Postava, Philip Levis.Instance-aware simplification of 3Dpolygonal meshesC/IEEE International Conference on Multimedia and Expo.Piscataway:IEEE, 2015:1-6. 10GUO Dongliang, NIE Junlan, WANG Yanfen, et al.Parameterization method for multi-scale regular grid model repairing cracksJ.Journal

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报