收藏 分享(赏)

扭曲图像恢复 计算机软件与应用专业毕业设计 毕业论文.doc

上传人:tkhy51908 文档编号:7157602 上传时间:2019-05-07 格式:DOC 页数:41 大小:3.07MB
下载 相关 举报
扭曲图像恢复 计算机软件与应用专业毕业设计 毕业论文.doc_第1页
第1页 / 共41页
扭曲图像恢复 计算机软件与应用专业毕业设计 毕业论文.doc_第2页
第2页 / 共41页
扭曲图像恢复 计算机软件与应用专业毕业设计 毕业论文.doc_第3页
第3页 / 共41页
扭曲图像恢复 计算机软件与应用专业毕业设计 毕业论文.doc_第4页
第4页 / 共41页
扭曲图像恢复 计算机软件与应用专业毕业设计 毕业论文.doc_第5页
第5页 / 共41页
点击查看更多>>
资源描述

1、苏州大学本科生毕业设计(论文)I目 录前 言 .1第一章 绪 论 .21.1 图像处理概论 21.2 图像处理的研究内容 21.3 图像处理的应用 31.4 本文的研究工作与创新点 4第二章 文档图像处理 .52.1 文档图像的概述 52.1.1 文档图像获取 .52.1.2 文档图像获取中的难题 .52.2 文档图像的处理 62.2.1 图像去色及二值化 .62.2.2 倾斜检测与校正 .62.2.3 版面结构理解 .72.3 扭曲文档图像的处理 82.3.1 基于 2D 文档图像分析 82.3.2 基于 3D 文档模型重建 82.3.3 比较与分析 .92.4 本章小结 9第三章 2D 文

2、档图像扭曲恢复的预处理 .103.1 系统分析与设计 103.1.1 扭曲恢复技术流程 .103.1.2 需求分析与系统设计 .113.2 文档图像预处理 123.2.1 图像去色 .123.2.2 噪声消除 .133.2.2.1 噪声消除的方法 .133.2.2.2 噪声消除的实现 .14苏州大学本科生毕业设计(论文)II3.2.2.3 实验结果与分析 .143.2.3 图像二值化 .153.2.3.1 二值化算法 .163.2.3.2 实验结果与分析 .183.3 本章小结 18第四章 文档图像的扭曲恢复 .194.1 字符和文本行标识 194.1.1 标识的步骤 .194.1.2 标识算

3、法伪代码 .194.1.3 实验结果与分析 .204.2 曲线分割与倾斜校正 .214.3 字符平移 .234.3.1 平移的思想 .234.3.2 平移算法伪代码 .244.3.3 实验结果与分析 .244.4 本章小结 .25第五章 文档图像的后处理 .265.1 断笔修复 .265.2 背景恢复 .265.3 实验结果与分析 .275.3.1 OCR 测试 275.3.2 结果分析 .315.4 本章小结 32第六章 总结与展望 .336.1 课题总结 336.2 后续研究展望 33参考文献 .34作者攻读学士学位期间发表(录用)的论文 .36致 谢 .37苏州大学本科生毕业设计(论文)

4、III摘 要在扫描、复印或者拍摄文档的过程中造成的图像扭曲在文档理解和处理方面是普遍的问题。这种文档图像的扭曲降低了光学文字辨识(OCR)能力,也严重影响了其使用效果。这是文档打印数字化和自动化过程中的主要障碍。本课题的研究工作是对这种扭曲文档图像采用相关的技术进行一定的恢复。本文首先介绍了文档图像的处理技术和当前已有的扭曲恢复技术,然后重点描述了基于 2D 文档图像分析的恢复技术的流程,及解决方案的设计,并付诸于程序实现。实验结果的分析表明,文档图像扭曲恢复后的 OCR 识别率要明显高于恢复之前的。最后我们对课题的研究进行总结和展望。关键词:文档图像,图像处理,扭曲恢复作 者: 指导老师:

5、苏州大学本科生毕业设计(论文)IVAbstractImage warping caused by scanning, photocopying or photographing a document is a common problem in the field of document processing and understanding. Distortion within the text documents impairs OCR ability and thus strongly decreases the usability of the results. This is on

6、e of the major obstacles for automating the process of digitizing printed documents.Our research is using relative methods to restore the warped document images. Document image processing technology and present de-warping methods are firstly presented in this paper. And then, we pay more attention o

7、n the progress of de-warping and its solution design, based on analysis of 2D document image, after which we realize it in our system. Analysis of our experiment result shows the OCR accuracy of de-warped document image is much higher than that of the warped. Finally, we give out a brief conclusion

8、and opinion to our research job.Keywords: document image, image processing, de-warpWritten by Supervised by 苏州大学本科生毕业设计(论文)1前 言随着人工智能和多媒体技术的发展,数字图像处理技术的应用越来越广泛。越来越多的文档被扫描成为数字图像,伴随计算机的普及,为人们的生活、工作和学习提供了方便。同时,在文档被扫描的过程中,数字图像会出现普遍的扭曲和阴影现象。由各种原因造成的扭曲文档图像,无论是对人们的阅读理解还是对文档图像处理的自动化都带来了影响。目前已经出现一些扭曲文档图像的恢复技

9、术。这些技术大致划分为两类 1:基于 2D文档图像分析的恢复技术和基于 3D 文档模型重建的恢复技术。作者认为该分类是扭曲恢复技术分类的主流,多数恢复技术均围绕这一分类展开。文献2-4均是针对分类中的前者进行研究,即从已有的扭曲文档图像出发,通过对扭曲文档的特征分析,找出合适的恢复算法。文献1,5则更多从造成文档扭曲的因素出发,包括硬件设备及扫描对象本身,通过重建文档的 3D 模型并辅以数学分析,找出合理的恢复算法。其中,基于 3D 文档模型重建且可行的前提必须是对象所呈现的模型是规范的,如圆柱状,这样势必对文档对象及其环境加以限制,如书脊平行于扫描光源等。文献6将 3D 文档模型重建与 2D

10、 文档图像分析结合起来,解除一些限制,使其处理对象更加广泛。综上分析,这种基于 3D 模型重建的方法,为了建立规范的 3D 模型、解除各种限制,使加入的处理算法越来越多,从而使整个恢复技术显得更复杂。这会导致至少两方面问题:算法实现的复杂性提高和算法的整体效率降低。因此,它的适用性受到限制,尤其在处理大宗扭曲文档图像时显得不实用。为了达到实用和高效的批处理效率,作者选择分类中的前者,结合当前已有算法和对中文特征的分析,拟设计出一种简单有效的,适用于扭曲的中文文档图像的恢复技术。全文分为六章。第一章绪论,介绍了图像处理的概论和本文所做的研究工作及创新点。第二章文档图像处理,从图像处理引申到文档图

11、像处理,再具体到扭曲文档图像的处理,简要介绍了文档图像的处理技术和文档图像扭曲恢复的两种技术原理。第三章是基于 2D 文档图像分析的扭曲恢复技术,主要介绍了该技术的流程和系统设计,以及扭曲恢复前的文档图像预处理。第四章是文档图像的扭曲恢复,该章是核心章节,也是本文研究工作的创新点,详细介绍了如何对扭曲的文档图像进行一定的恢复。第五章文档图像后处理,是对扭曲恢复后的图像进行信息修复,并对最终处理结果做了测试分析。第六章总结与展望,对本课题的工作进行总结,并对其中的不足及后续的研究作展望。苏州大学本科生毕业设计(论文)2第一章 绪 论1.1 图像处理概论图像处理是指将图像信号转换成数字信号并利用计

12、算机对其进行处理的过程。它最早出现于 20 世纪 50 年代,当时的电子计算机已经发展到一定水平,人们开始利用计算机来处理图形和图像信息。数字图像处理作为一门学科大约形成于 20 世纪 60 年代初期。早期图像处理的目的是改善图像的质量,它以人为对象,以改善人的视觉效果为目的。图像处理中,输入的是质量低的图像,输出的是改善质量后的图像,常用的图像处理技术有图像增强与复原、编码压缩等。1.2 图像处理的研究内容图像处理的研究内容非常广泛,下面对一些常见的研究内容作简要介绍。1、图像变换由于图像阵列很大,直接在空间域中进行处理,涉及计算量很大。因此,往往采用各种图像变换的方法,如傅立叶变换、沃尔什

13、变换、离散余弦变换等间接处理技术,将空间域的处理转换为变换域处理,不仅可减少计算量,而且可获得更有效的处理(如傅立叶变换可在频域中进行数字滤波处理)。目前新兴研究的小波变换在时域和频域中都具有良好的局部化特性,它在图像处理中也有着广泛而有效的应用。2、图像编码压缩图像编码压缩技术可减少描述图像的数据量(即比特数),以便节省图像传输、处理时间和减少所占用的存储器容量。压缩可以在不失真的前提下获得,也可以在允许的失真条件下进行。编码是压缩技术中最重要的方法,它在图像处理技术中是发展最早且比较成熟的技术。3、图像增强与复原图像增强和复原的目的是为了提高图像的质量,如去除噪声,提高图像的清晰度等。图像

14、增强不考虑图像降质的原因,突出图像中所感兴趣的部分。如强化图像高频分量,可使图像中物体轮廓清晰,细节明显;如强化低频分量可减少图像中噪声影响。图像复原要求对图像降质的原因有一定的了解,一般讲应根据降质过程建立“降质模型”,再采用某种滤波方法,恢复或重建原来的图像。苏州大学本科生毕业设计(论文)34、图像分割图像分割是数字图像处理中的关键技术之一。图像分割是将图像中有意义的特征部分提取出来,其有意义的特征有图像中的边缘、区域等,这是进一步进行图像识别、分析和理解的基础。虽然目前已研究出不少边缘提取、区域分割的方法,但还没有一种普遍适用于各种图像的有效方法。因此,对图像分割的研究还在不断深入之中,

15、是目前图像处理中研究的热点之一。 5、图像描述图像描述是图像识别和理解的必要前提。作为最简单的二值图像可采用其几何特性描述物体的特性,一般图像的描述方法采用二维形状描述,它有边界描述和区域描 述两类方法。对于特殊的纹理图像可采用二维纹理特征描述。随着图像处理研究的深入发展,已经开始进行三维物体描述的研究,提出了体积描述、表面描述、广义圆柱体描述等方法。6、图像分类图像分类(识别)属于模式识别的范畴,其主要内容是图像经过某些预处理(增强、复原、压缩)后,进行图像分割和特征提取,从而进行判决分类。图像分类常采用经典的模式识别方法,有统计模式分类和句法(结构)模式分类,近年来新发展起来的模糊模式识别

16、和人工神经网络模式分类在图像识别中也越来越受到重视。1.3 图像处理的应用首次将图像处理成功应用于实际的是美国喷气推进实验室(JPL)。他们对航天探测器徘徊者 7 号在 1964 年发回的几千张月球照片使用了图像处理技术,如几何校正、灰度变换、去除噪声等方法进行处理,并考虑了太阳位置和月球环境的影响,由计算机成功地绘制出月球表面地图,获得了巨大的成功。随后又对探测飞船发回的近十万张照片进行更为复杂的图像处理,以致获得了月球的地形图、彩色图及全景镶嵌图,获得了非凡的成果,为人类登月创举奠定了坚实的基础,也推动了数字图像处理这门学科的诞生。数字图像处理取得的另一个巨大成就是在医学上获得的成果。19

17、72 年英国 EMI 公司工程师 Housfield 发明了用于头颅诊断的 X 射线计算机断层摄影装置 CT(Computer Tomograph)。CT 的基本方法是根据人的头部截面的投影,经计算机处理来重建截面图像,称为图像重建。1975 年 EMI 公司又成功研制出全身用的 CT 装置,获得了人体各个部位鲜明清晰的断层图像。1979 年,这项无损伤诊断技术获得了诺贝尔奖,说明它对人类作出了划时代的贡献。 与此同时,图像处理技术在许多应用领域受到广泛重视并取得了重大的开拓性成就,苏州大学本科生毕业设计(论文)4属于这些领域的有航空航天、生物医学工程、工业检测、机器人视觉、公安司法、军事制导

18、等,使图像处理成为一门引人注目、前景远大的新型学科。1.4 本文的研究工作与创新点在图像处理中,文档图像处理一直是众多学者研究的课题。随着计算机技术的普及,文档扭曲的现象变得越来越常见,如何对扭曲文档图像进行恢复逐渐成为当今图像处理的研究热点之一。本文的工作主要是对扭曲文档图像的恢复技术进行研究。我们结合对 2D 文档图像的分析,参考当前适用于西文的扭曲恢复算法,拟找出一种适合于扭曲状态下的中文文档恢复技术,且该技术不依赖于为保证文档图像质量而做的各种假设。研究过程中,作者进行了大量实验,得到一系列有价值的结论,完成了一定的创新性工作。本文的创新工作主要体现在以下几方面:1、将文档图像扭曲恢复

19、的研究对象从西文转移到中文,对扭曲状态下的中文文档特征进行观察与分析,通过试验比较,找出适合中文处理的相关参数。2、在文档图像扭曲恢复的过程中采用极限的思想,分割文本行基线曲线,我们认为被合理分割的曲线片段是线性的。利用该思想可以将复杂的曲线处理转化为直线处理。3、在文档图像后处理中,针对中文复杂的背景特征,摒弃背景的直接载入,转用简单的均值法处理代替,使得处理后的效果更好。苏州大学本科生毕业设计(论文)5第二章 文档图像处理文档作为信息的载体,在社会生活中占有着十分重要的地位。通常,我们可以把存储在计算机中或纸上的一切具有阅读意义的信息称为文档。为能简便有效地使用和管理信息,自上世纪六十年代

20、以来,人们进行了大量关于文档处理系统的研究。文档可以通过扫描仪、数码相机或文档处理系统进入计算机,转化为文档图像或者电子文档,从而使人们能够方便有效地对其进行存储、管理、传输。2.1 文档图像的概述2.1.1 文档图像获取近年来,数字化文档被广泛应用于办公自动化、数字化图书馆、工业自动化等领域。随着科技的发展,传统扫描仪体积大、效率低、携带不方便等不足之处日益突出,而数字照相机体积小、价位低,可以很容易地携带并结合到手机、 手提电脑以及各种网络设备中去,它还可以远距离地对背景文字及脆弱的珍贵文档拍照, 更适用于无约束环境下的数字化操作。因此,将数字照相机引入文档图像分析已经引起越来越多人的关注

21、。Newman 的调查表明,从报纸上提取段落时,基于 PC 摄像头的 OCR 操作比基于扫描仪的 OCR 操作效率高得多; Fisher 等调查了在战场上用数字摄像机替换士兵携带sheet-fed 扫描仪的可能性。经证实,数字摄像机能够以 200dpi 拍摄整张 A4 文档纸,已经达到 OCR 所要求的分辨率。在过去的 20 年中,基于摄像机的文档分析已经有一定的应用,如自动阅读执照、书籍杂志分类,货运车 ID、公路挂牌、危险标志识别等。2.1.2 文档图像获取中的难题用数字照相机拍摄的文档图像也有新问题需要解决:当文档表面弯曲变形时,数字相机拍到的文字及图形图像将会产生畸变;在扫描仪中,也会

22、出现这一现象。文档图像的变形对后续处理工作,如 OCR 识别、 数字文档的版面分析、格式处理以及文档自动化都带来极大困难,因此必须首先通过图像矫正的方法对这种变形文档进行图像恢复。在 2001 年的数字化项目中,德国代表哲学家 Nietzsche 在 DuisburgEssen 大学对创作于 1865 至 1945 年的文本文档做了数字转换。这次转化的过程既复杂又耗时。很多苏州大学本科生毕业设计(论文)6文档使用德国哥特体(fraktur)活字技术印刷出来,而现在的 OCR 程序对 fraktur 活字识别不很理想,因此常常伴随着人工修改。对于那些质量差一些的以原始影印文件为主的文学来源,数字

23、化过程则需要进一步的人工互动。其中阴影、倾斜和扭曲都会极大的降低 OCR 识别的准确度。2.2 文档图像的处理文档图像处理包含许多方面,下面对一些重要的技术做简要说明。2.2.1 图像去色及二值化存储在纸上的文档,若要输入计算机中,首先要通过扫描仪扫描成为数字图像。它可以是彩色图像,也可以是灰度图像,或者是二值图像,取决于扫描的具体过程。但一般文档处理系统要处理的是灰度图像,而且很多成熟的图像处理算法和工具包也是针对灰度图像的。在进入识别阶段时,识别引擎一般是针对二值图像的。因此,我们必须对输入的图像进行处理,将其二值化。图像的二值化处理就是将图像上的像素点的灰度值设置为 0 或 255,也就

24、是将整个图像呈现出明显的黑白效果。将 256 亮度等级的灰度图像通过适当的阀值选取而获得仍然可以反映图像整体和局部特征的二值化图像。在数字图像处理中,二值图像占有非常重要的地位。首先,图像的二值化有利于图像的进一步处理,使图像变得简单,且数据量减小,能凸显出感兴趣的目标轮廓。其次,要进行二值图像的处理与分析,首先要把灰度图像二值化,得到二值化图像。在我们所研究的文档图像处理这一特定领域中,图像的二值化一般是指将灰度图像转化为只包含黑、白两个灰度的二值图像。文档图像可以看作是由文字、背景、图片三类对象组成,而我们最关心的是文字区域二值化后的结果。图像的这种转换必然会引起信息丢失,因此采用什么样的

25、算法能够最大限度地保留识别时必需的信息(如字符的连通性),去掉不必要的背景信息和噪声,并且执行时间在实际可接受的范围内,是人们一直以来努力研究的问题。2.2.2 倾斜检测与校正文档处理系统要求的处理对象是工整的文档图像,或者倾斜角度已知,否则许多对图像的操作,例如投影分析,图像分割等就无法进行。显然,扫描进计算机的文档图像无苏州大学本科生毕业设计(论文)7法保证一定是正的,因此需要利用倾斜检测和校正的方法对其进行处理。经常采用的倾斜角度检测的方法有:基于文本行的检测方法,投影轮廓分析方法,和 Hough 变换方法等。基于文本行的检测可以用于已知文本行方向(水平或竖直)的文档图像,它利用了对图像

26、中连通体的分析。我们知道,连通体是一个灰度值相同的像素的集合,这个集合中任意两个像素之间都是 8-近邻关系。可以用包含连通体内像素的最小矩形来表示连通体,它描述了连通体的大小和位置信息。如果已知文本行方向,我们就可以将连通体合并成文本行,并用直线逼近。该直线的倾斜角即为文本行的倾斜角。对整幅图像的文本行作同样分析,选出出现频率最高的角度,即可作为图像的倾斜角。投影操作也是一种基本的图像处理方法。将图像按一定方向作投影,可以得到在该方向坐标轴上分布的波形,它描述了图像沿该方向上的黑像素分布情况。如果图像文本行是水平的,那么沿水平方向的投影波形将具有明显的波峰和波谷。基于这一点,我们可以在候选倾斜

27、角度范围内转动图像,直至出现明显的波峰和波谷为止,这时得到的角度就是倾斜角度。Hough 变换方法是在倾斜检测中最常使用的方法,它抗噪声干扰的能力强,并且不受图像间隙干扰。它的原理是将直线从图像空间映射到参数空间。这样就将原图像中的直线映射到参数空间的一点,而原图像中的一点则对应着参数空间的一条正弦曲线。图像空间中任意两点所对应的正弦曲线在参数空间将相交于一点,进而, 通过的直线上的所有点所对应的正弦曲线在参数空间都将相交于这一点。基于这一点,我们将直线检测问题转化为参数空间寻找局部最大值的问题。以上是标准 Hough 变换的基本思想。该方法适于文本行方向预先未知的情况。2.2.3 版面结构理

28、解文档图像几何结构的理解也称为版面拆解,它是文档图像分析中的一个重要问题。版面拆解的目的是生成一个描述文档图像的层次结构:几何结构。它将图像分割成为具有相同特性的区域,为下一步的区域识别和文字识别做好准备。版面拆解的方法一般有如下三种:1.自底向上(Bottom-Up,也称为数据驱动)。这类方法利用图像的局部信息,通过逐步将具有相同属性的区域合并,得到对文档版面的拆解。该方法能处理不同版面的文档和具有一定倾斜的文档,但是一般比较慢。2.自顶向下(Top-Down ,也称模型驱动)。该方法从图像全局出发,逐步对图像进行分割,最后得到图像的几何结构。对 Manhattan 式的版面,该方法快速而且

29、有效;但苏州大学本科生毕业设计(论文)8是对复杂文档效果欠佳。影响自顶向下方法有效性的因素包括文本行位置的随意性,区域形状的不规则性以及文档图像的倾斜等。3.综合方法(Hybrid)则尽量综合上述两种方法的特点,使算法的性能和适应性都得到提高。2.3 扭曲文档图像的处理扭曲文档图像的恢复是当今图像处理的研究热点之一,随着更多学者的加入,目前已出现一些文档图像的扭曲恢复技术。这些技术大致划分为两类:基于 2D 文档图像分析的恢复技术和基于 3D 文档模型重建的恢复技术。2.3.1 基于 2D 文档图像分析基于 2D 文档图像分析的算法,摒弃对扭曲现象的几何模拟,直接对文档图像进行分析,包括倾斜度

30、、文本行、字符或词组特征,然后设计出一种不受文档图像以外因素影响的扭曲恢复技术。该算法不需要清楚的知道扭曲造成的原因。Wu 和 Agam 在其文献7中提出一种方法,该方法在给定角度范围内通过最小化局部累积投影从而检测和跟踪单文档图像中弯曲的文本行。这种算法是从给定区域的左边界(假设左边界是接近垂直的并由人为保证)开始,逐渐跟踪这些弯曲的文本行。这些文本行用于重建可用于恢复扭曲的目标框架。在文献7中这种算法被应用于由数码相机拍摄的低透率的文档。他们没有在文档和相机的成像面的角度上加任何限制。另一方面,利用这种方法所呈现的结果仍然在文档的扭曲区域存在文字的失真。Zhang 和 Tan 在文献8中提

31、出的算法,是通过光明区与从合订本扫描的灰度级文档图像造成的阴影区之间的区别进行弯曲检测的。图像扭曲的部分在阴影区,连接组件的文本行可用近似于二次方程的曲线描述。而在非阴影区域的文本行则可参考近似直线确定。阴影区中两曲线的结合处的相对位置用以参照非阴影区域相应的直线,上下垂直的移动连接组件的曲线,直到其方向与两曲线切线的平均角度相吻合。2.3.2 基于 3D 文档模型重建基于 3D 文档模型重建的算法,主要从造成文档扭曲的因素出发,包括文档及其摆放角度、光源方向、图像获取设备特征等因素。通过综合分析,尝试找出文档理想的 3D 模型从而对扭曲现象进行模拟,再利用已有的数学知识进行恢复。该算法的优势

32、在于可利用已有知识,很好地模拟文档扭曲的几何模型。苏州大学本科生毕业设计(论文)9在文献9中, Cao et. al.针对由数码相机拍摄文档造成的扭曲提出了一种圆通模型。他们的纠正算法仅局限于书形成的圆筒表面的母线平行于成像面的情况,即 3D 文档模型成圆柱状。Zhang et. al.发表的文献 10中提出了一种算法,可以恢复文档扭曲。这种文档扭曲在扫描较厚的合订本时产生的,而且书的脊柱与扫描光线是平行的。可见,现有基于模型算法的局限就在于他们需要很多前提条件。目前还尚没有一种几何模型可以适用于任何形式下扭曲文档图像的识别与自动恢复。2.3.3 比较与分析基于分析的和模型的算法都能提高 OC

33、R 的识别率。结果显示,在第一类算法中纠正过的文本中剩余的弯曲率较高,但其边界适应性仍是明显的优势。由于我们项目中的原始文档经常不可靠,外部因素不确定,加上数字化和处理文档的过程可能处于分布式,因此第二类算法显得不适用。2.4 本章小结本章主要介绍了文档图像处理的相关知识,从文档图像的获取及获取中遇到的难题入手,介绍了文档图像的处理技术,进而引申到扭曲文档图像的处理,并对现有扭曲文档图像的两种恢复技术原理做了简要说明。苏州大学本科生毕业设计(论文)10第三章 2D 文档图像扭曲恢复的预处理本文提出的基于 2D 文档图像分析的扭曲恢复技术,整体分为三步:预处理、扭曲恢复和后处理。其中,预处理将在

34、本章系统分析与设计之后进行介绍;扭曲恢复是本文研究工作的创新点,将在第四章单独进行详细介绍;后处理与最终的实验结果分析将在第五章中作说明。本章从扭曲恢复的前期工作着手,对该技术的流程与设计,以及图像的预处理进行详细描述。3.1 系统分析与设计3.1.1 扭曲恢复技术流程文献2-3对各种基于 2D 文档图像分析的方法进行描述,然而这些方法处理的对象都是西文。众所周知,中文和西文有着很大的区别,因此以上很多方法在处理扭曲的中文文档时不实用。这里从当前处理西文的方法出发,结合扭曲状态下的中文特征,找出一种简单有效的中文文档扭曲恢复技术。技术流程如图 3-1。图 3-1 扭曲恢复技术的流程按照流程,输

35、入的各种扭曲文档图像,经过若干处理后,输出为扭曲校正后的图像。下面围绕各处理过程的用途进行简要说明。1、预处理苏州大学本科生毕业设计(论文)11文档图像预处理,是将种类繁多的格式归一化为程序易处理的位图格式,且处理成为效果较好的二值化图像,为其扭曲恢复做好准备。过程中涉及到格式转换,图像去色及二值化,以及噪声消除等。2、扭曲恢复在扭曲恢复中,我们首先对预处理后的二值化扭曲图像进行分析,采用相关的技术和算法对其中扭曲的文本进行恢复,然后输出。该步主要包含了字符和文本行标识,曲线分割与倾斜校正,以及扭曲恢复等。3、后处理扭曲恢复后的图像有明显的信息丢失,后处理将最大限度的保存处理后的结果,并尽可能

36、的进行信息补充与恢复,主要包括断笔的修复和背景色的载入。扭曲恢复技术的原理及具体实现在第三章至第五章中做了详细描述。3.1.2 需求分析与系统设计1、需求分析(1)目的:对扭曲的文档图像进行一定的恢复。(2)范围:通过照相、扫描、复印等获取的扭曲的文档图像。(3)系统开发环境:操作系统:Window XP professional.开发环境及语言:Visual Studio 2005 、C#2、系统设计(1)用户界面设计图 3-2 用户界面(2)主菜单设计图 3-3 主菜单界面苏州大学本科生毕业设计(论文)12扭曲恢复处理的菜单主要包括预处理(Preprocessing)、扭曲恢复(Dewar

37、ping)、后处理(POstprocessing)以及过程(ProGress),如图 3。 其中,预处理中包含了噪声去除、图像去色、和图像二值化;扭曲恢复包括文本行与字符标识、曲线分割与倾斜校正、字符平移;后处理则是断笔修复及背景载入;过程主要对处理过程的结果进行呈现,具体如图 3-4。图 3-4 过程菜单3.2 文档图像预处理3.2.1 图像去色图像去色就是将图像的颜色信息去掉,转换成灰度图像。由于本课题选取了合理的开发环境,可以容易地将各种格式的图像转换为易于像素计算的位图。然后利用公式(3-1),将彩图转换为灰度图像。Gray = 0.11 * Red + 0.59 * Green +

38、0.3 * Blue (3-1)实验表明,该方法灰度处理的效果较好,如图 3-5-图 3-6。(a) (b)图 3-5 彩色图像的灰度化:(a)处理前 (b)处理后苏州大学本科生毕业设计(论文)13(a)(b)图 3-6 文档图像的灰度化:(a)处理前 (b)处理后3.2.2 噪声消除图像噪声是干扰图像正常显示的无用信息,给图像的处理带来很大的麻烦。因此在图像预处理中都会针对性的将噪声消除。3.2.2.1 噪声消除的方法消除噪声的经典方法很多,下面简要介绍其中的几种:1、均值滤波器它是用一个有奇数点的滑动窗口在图像上滑动,将窗口中心点对应的图像像素点的灰度值用窗口内的各个点的灰度值的平均值代替

39、,如果滑动窗口规定了在取均值过程中窗口各个像素点所占的权重,也就是各个像素点的系数,这时候就称为加权均值滤波。2、自适应维纳滤波器它能根据图像的局部方差来调整滤波器的输出,局部方差越大,滤波器的平滑作用越强。它的最终目标是使恢复图像 f(x,y)与原始图像 f(x,y)的均方误差e2=E( f(x,y)- f (x,y) 2最小。该方法的滤波效果比均值滤波器效果要好,对保留图像的边缘和其他高频部分很有用,不过计算量较大。维纳滤波器对具有白噪声的图像滤波效果最佳。3、中值滤波器它是一种常用的非线性平滑滤波器,其基本原理是把数字图像或数字序列中一点的值用该点的一个领域中各点值的中值代换。其主要功能

40、消除孤立的噪声点,所以中值滤波苏州大学本科生毕业设计(论文)14对于滤除图像的椒盐噪声非常有效。中值滤波器可以做到既去除噪声又能保护图像的边缘,从而获得较满意的复原效果,而且,在实际运算过程中不需要图像的统计特性,这也带来不少方便,但对一些细节多,特别是点、线、尖顶细节较多的图像不宜采用中值滤波的方法。3.2.2.2 噪声消除的实现我们采用了加权均值滤波器对噪声进行消除,参考公式(3-2)。其算法伪代码如下:private Bitmap NoiseRemoving()for (int i = 0; i T) /当前点灰度大于阈值将该点设置为背景色;else将该点设置为前景色;(2)背景预测利用

41、原图及前景图的像素距离进行背景预测,伪代码如下:private Bitmap getBG(Bitmap prebmp, Bitmap frontbmp)for (int i = 1; i T) /公式(3-4 )的两分支nColor = curBmp.GetPixel(i, j);else调用getMotherAndSon()求公式(3-4 )中S(x,y)=1的分支中的分母M和分子S ;根据公式B=S/M,求出背景灰度igray ,并保存;nColor = Color.FromArgb(nColor.A, igray, igray, igray);newBmp.SetPixel(i, j,

42、nColor); /设置当前颜色 (3)二值化由前景图和背景图的估算确定最终阈值,采用公式(3-5)对图像进行二值化,具体代码不再赘述,这里给出声明。另外上述算法调用了函数get33Paras()和getMotherAndSon() ,前者用于求当前点3*3 矩阵的灰度均值和方差,后者主要求公式(3-4 )中S(x,y)=1 的分支中的分母和分子,其声明如下:private Bitmap GatosBianrization(Bitmap preBmp, Bitmap bgBmp, Bitmap frontBmp);private void get33Paras(Bitmap bmp, int

43、x, int y, Double data);苏州大学本科生毕业设计(论文)18private void getMotherAndSon(Bitmap prebmp, Bitmap bmp, int x, int y, int windowW, int windowH, int motherAndSon);3.2.3.2 实验结果与分析实验证明,本文采用的二值化方法在对文档图像进行处理时,时间复杂度较全局阈值二值化要偏高,但其处理效果较好,这对后续字符和文本行标识至关重要。以图3-6(b)作为处理对象,进行实验结果对比,如图3-9。(a)(b)(c)图3-9 文档图像二值化:(a)原图 (b)

44、全局阈值二值化 (c)本文采用的方法3.3 本章小结本章主要介绍了扭曲恢复技术的系统分析与设计,及文档图像的预处理。经过预处理,输入的扭曲文档图像将转化为质量较好的二值化图像,为下一章的扭曲恢复做好铺垫。苏州大学本科生毕业设计(论文)19第四章 文档图像的扭曲恢复本章是整个扭曲恢复技术的重点,也是本文研究工作中的创新点。这里从二值化图像的分析开始,结合对文档特征的观察与分析,经过字符和文本行标识、曲线分割与倾斜校正、以及字符平移的几步处理,完成对二值图像的扭曲恢复。4.1 字符和文本行标识字符标识,是指在文档图像中将具有独立意义的字符用特殊符号表示出来,如英文单词、中文汉字等。实际上,在缺乏词

45、库的情况下完全准确的标识出字符是不可能的。因此只能结合文档特征,通过参数设置标识出尽可能多的独立字符。文本行标识,是指将文档图像中的文本行用特殊符号表示出来。文本行标识的方法很多,如基于直线拟合 13、基于连通性检测 14和基于投影等。本文是通过连通性检测,并用不同颜色对各行各字加以区分。4.1.1 标识的步骤文献15已提出了标识的算法,该算法中的检测参数只适用于西文。本课题处理对象为扭曲的中文文档图像,针对该对象的特点,本文采用基于连通性检测的标识方法,主要参考文献15 和16 ,并在此基础上调整,通过试验对比,找出合适的字符和文本行标识方法。该方法分为以下两个步骤:(1)边界归零。将图像的

46、边界像素归一化为背景色,这种设置类似哨兵,可降低算法实现的复杂性。(2)一次扫描标识。按照从左至右,从上到下原则,从图像的起始像素开始扫描。过程中,利用前景像素的连通性,对当前像素的 8 个相连像素进行判断,若存在一个连通的点,则再对该点进行递归判断,直至 8 个相连像素中均无连通像素为止,后用合适的颜色加以标识。这里,连通像素的参数设置为 3*3 矩阵,也可设置其他参数,即可进行不同大小的文本块标识,若参数合适,可直接将文本行标识出。4.1.2 标识算法伪代码标识算法很重要,因此这将对后续的曲线分割,以及字符平移的影响很大,算法伪代码如下:苏州大学本科生毕业设计(论文)20/ 输入:边界归零

47、图像,标识参数字检测(小)-(大)行检测 / 输出:标志后的图像private Bitmap Label(Bitmap Bmp, int size)初始化标志图像boolBmp;for (int j = 0; j Bmp.Height; j+) /字块标示for (int i = 0; i Bmp.Width; i+ )if (ZBColor.R = 0) /如果为前景色记录当前点curr;如果当前点处理过,或者堆栈中已经含有堆栈,则continue操作;通过调用getConnected()函数将连通性的点压入堆栈Stack;随机生成一种颜色RdColor;while (Stack.Count

48、 != 0) /堆栈不为空将堆栈中的点设置为RdColor;标志图像boolBmp设置为脏标记,标明改点已处理过;else否则设置为原色;4.1.3 实验结果与分析以图 3-9(c)为处理对象进行标识,结果如图 4-1:苏州大学本科生毕业设计(论文)21(a)(b)图 4-1 标识图像:(a)字符标识 (b)文本行标识标识采用的是字符连通性原理,因此参数的设置直接影响到标识的效果。由于汉字的复杂性,在字符标识的过程中,参数过小,容易出现一个汉字被标识为多色(理想情况是一字一色);反之则会出现多个汉字标识为一色,如图 4-2。行标识同样存在这种情况(如图 4-3),如果参数设置合适即可标识出整行

49、。图 4-2 字标识的两种情况图 4-3 行标识的两种情况因此,需要通过不断的调试与试验找出合适的参数。通过试验对比,本文针对字符和文本行标识设置的参数分别为 k=3 和 k=18。4.2 曲线分割与倾斜校正已知文字行方向,将连通体合并成文字行,并用直线逼近。该直线的倾斜角即为文字行的倾斜角。对整幅图像的文字行作同样分析,选出出现频率最高的角度,即可作为图苏州大学本科生毕业设计(论文)22像的倾斜角。该方法是基于统计的原理,用出现频率最高的角度代替所有文本行的倾斜角度。对于接近整体倾斜的文档图像(图 4-4),这种方法是合理的,且处理效率较高。然而对于扭曲的文档图像,甚至扭曲程度较高的图像(图 4-5),该方法适用性就大大降低。图 4-4 倾斜的文档图像图 4-5 扭曲的文档图像还有一种思想则是取该文本行基线曲线上被认为是最有代表性的切线斜率直接代替整个曲线斜率。本文采用极限思想,即当截取曲线的片段小至一定程度时,我们认为截取的片段为直线线段。比起以上两种方法,容易知道,这种极限思想无论是在整体倾斜的情况下还是在扭曲程度比较高的情况下,均比较合理。采用该思想,可将复杂的曲线处理转化为直线处理,因为被截取的片段是被认为是倾斜非

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报