1、2013 高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了全国大学生数学建模竞赛章程和全国大学生数学建模竞赛参赛规则(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参
2、赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从 A/B/C/D 中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名): (论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。以上内容请仔细核对,提交后将不再允许做任何修改。如填写错误,论文可能被取消评奖资格。)日期: 年 月 日赛区评阅编号(由赛区组
3、委会评阅前进行编号):2013 高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):1基于文字特征的碎纸片拼接匹配算法【摘要】破碎文件的拼接在许多领域都有着重要的应用,现有的拼接算法主要针对边界不规则碎纸片,利用边缘形状匹配进行拼接。基于人们的生活习惯和碎纸机的广泛使用,很多情况下文字碎片都有着规则的边界。寻找对于边界规则的碎纸片有效快速的拼接算法是亟待解决的问题。对于问题一,我们首先对碎纸片信息进行预处理,得到每片碎
4、纸片的灰度值矩阵,并将其转化为 0-1 矩阵。由于问题一给出的碎纸片只是纵向切割,其拼接方向仅为水平方向左右拼接,我们抽取每个 0-1 矩阵中的第一列组成左灰度矩阵 ,将其最后一列组成右灰度矩阵 。根据文字排版中的页边距要求,LMRM快速准确的筛选出初始碎片。然后对于左灰度矩阵 中的选定碎片对应的元L素 与右灰度矩阵 的未拼接碎片对应的元素 ,以相关系数大小为依据,XR Y挑选相关系数最大的两列碎片进行拼接,设计了一种相关系数匹配算法,对附件 1、2 给出的碎纸片得到了满意的拼接结果。对于问题二,由于碎片既有纵向也有横向切割,而且碎片较小,在进行拼接时可能遇到某块碎片有多块可备选用的碎片的情况
5、。此时计算机无法通过问题一中的匹配算法进行识别,需要进行人工干预。为了克服这一问题,我们对待拼接的碎片的字高、字宽、间距等边界特征进行了深度挖掘,基于问题一的相关系数匹配算法进行改进,设计了一种深度匹配算法,对附件 3、4 进行了成功拼接。其优点在于能成功的避免有多块可备选拼接碎片的情况下计算机无法识别的难题,避免了人工干预,节省了大量人力和时间。对于问题三,我们在问题二的算法基础上,对碎片双面是否都能匹配进行了验证。由于碎片的正反面未知,待匹配的碎片数量比之前多了一倍,与某些碎片可能匹配的备选碎片也比较多。但是基于双面匹配的特殊性,碎片从左往右横向的排列顺序在正反两面正好相反,因此我们通过深
6、度匹配双面检验算法对附件 5 给出的碎片进行拼接,得到了满意的拼接结果。关键词:文字特征 灰度矩阵 相关系数 匹配算法2一 问题的重述破碎文件的拼接在许多领域都有着重要的应用。传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。随着计算机技术的发展,人们已开发出多种碎纸片的自动拼接技术,这些技术一般利用碎片边缘的尖点特征、尖角特征、面积特征等几何特征,搜索与之匹配的相邻碎纸片并进行拼接。这种基于边缘几何特征的拼接方法并不适用于边缘形状相似的碎纸片。对于边缘形状相同的文字型碎纸片,由于大多数文字文档的文字行方向平行且单一,如果碎片内的文
7、字行在碎片边缘断裂,那么与它相邻的碎纸片在边缘处一定有相同高度、相同间距的文字行,凭此特征可以很容易地从形状相似的多碎片中挑选出相邻碎片。因文字行线的高度特征、间距特征、字迹断线识别比碎片边缘的尖点特征、尖角特征、面积特征等几何特征的识别实现起来要容易得多,并且也是实际可行的。如何利用现有技术,获取碎片文字所在行、列的特征信息,比如文字行的行高,文字行的间距等信息,设计利用这些信息进行拼接的高效算法,有巨大的理论意义和实际应用价值。需讨论以下问题:(1)对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件 1、附件 2 的中、英文各一页文件的碎片
8、数据进行拼接复原。(2)对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(既纵切又横切),建立碎纸片拼接复原模型和算法,并对附件 3、附件 4 出的中、英文各一页文件的碎片数据进行拼接复原。如果复原过程需要人工干预,请写出干预方式及干预的时间节点。(3)对于有双面打印文件的碎纸片拼接复原问题需要解决。请尝试设计相应的碎纸片拼接复原模型与算法,并就附件 5 的碎片数据给出拼接复原结果。3二 模型的假设与符号的说明2.1 模型的假设(1)假设附件中的每个碎片都必须使用,没有多余的碎纸片;(2)全部碎纸片正好可恢复成一篇完整文章,没有缺失的碎纸片;(3)假设每个碎片的形状都一样;(4)假设原文件的文
9、字方向都是沿水平方向从左往右的;(5)假设每个汉字的高度和宽度是一样的,且每两个汉字之间的间距相同,每两行汉字之间的行间距相同;(6)每个英文字母的字号相同,且每两行之间的行间距相同;2.2 符号的说明符号 说明r相关系数M碎片的灰度(像素)矩阵L碎片的左灰度矩阵R碎片的右灰度矩阵X左灰度矩阵的列向量Y右灰度矩阵的列向量注:其他符号已在文章的相应部分给出说明三 问题一的分析与建模3.1 碎纸片的预处理附件 1、附件 2 中分别提供了中文、英文 19 条规则的文章矩形碎纸片,这些碎纸片形成多种切割类型,有些沿文字从中间被切开,有些在间隔处被切开,如果要恢复成原文章,相同类型的碎片才能拼接在一起。
10、根据假设,原文章的文字方向是沿水平方向从左至右的。首先,将给定的碎纸片按文字方向进行排列整理。利用计算机照相技术将碎片导入成为图像文件。然后,我们用4Matlab 软件,根据像素特征将图片转换为对应的灰度值矩阵 ,利用灰度值矩M阵得到两个碎片相关系数,根据相关系数的大小进行拼接。3.2 像素矩阵的建立附件 1 中有 19 个碎片,每个碎片的图像大小为 1980*72 像素。我们用matlab 软件将每张图片转换为 1980*72 大小的矩阵。矩阵中每个数值记录了图片对应像素的灰度信息。如果该对应位置的图像是全白的则数值为 255,全灰的数值为 0,其余的介于 0 和 255 之间。为了简化处理
11、,将矩阵中数字为 255的记为 0,表示灰度为全白,数字不为 0 的记为 1,表示有部分灰度。这样依照题目中碎纸片的编号顺序,对于每张碎片我们可以得到一个 1980*72 阶的 0-1矩阵,称为该碎片的像素矩阵。19 个碎片可以得到 19 个像素矩阵。由于附件1 碎纸片都是纵切的,在实际的拼接过程中,只能在一片碎纸片的左、右两侧按照水平方向进行拼接。这样在拼接过程中我们只会用到碎纸片的左、右两个边缘的信息,反映到该碎片的像素矩阵中,即 的第一列和最后一列的信息。M通过上面的讨论,提取 19 个像素矩阵中每个矩阵的第一列,组成一个 1980*19的 0-1 矩阵,称为碎片的左灰度矩阵 , 提取
12、19 个像素矩阵中每个矩阵的最L后一列,组成一个 1980*19 的 0-1 矩阵,称为碎片的右灰度矩阵 。类似可R以对附件 2 做类似处理,得到相应的各 19 个左灰度矩阵 和右灰度矩阵 。LRM3.3 碎片相关系数的计算两片碎纸片能否成功进行拼接,取决于这两片碎纸片待拼接的边界的信息,即这两片碎纸片待拼接的边界吻合、相似程度。可以用这两片碎纸片的左灰度矩阵 ,右灰度矩阵 中列向量的相关系数按照公式:LMR19801980221()()iiii ii iXYr来计算。相关系数 的变化范围为-1到1。 的值越大,表示这两片碎纸片待拼r接的边界吻合、相似程度越好,拼接成功的可能性越大,反之 的值
13、越小,表r示这两片碎纸片待拼接的边界不吻合、相似程度越差,拼接成功的可能性越小。在进行相关性分析时,要求变量的标准差不为零,对应此题即要求两片碎纸片的左灰度矩阵 ,右灰度矩阵 中列向量都不全为0或不全为1。倘若出LMR5现此类情况则需要进行人工干预或探究更深层次的算法。显然,此题的碎片长度能很好地保证变量的标准差不为零,所以可以应用相关性分析来拼合碎片。以 008 号碎纸片为例,利用如果欲将剩余的 18 条碎纸片拼接在其右端。利用左灰度矩阵 中第九列元素与右灰度矩阵 中列向量按照上述公式计算可LMRM得相关系数 为:r表一 相关系数表编号 000 001 002 003 004 005 006
14、 007 009相关系数0.2555 0.2806 0.0154 0.1945 0.1796 0.2553 0.1910 0.1262 0.0883编号 010 011 012 013 014 015 016 017 018相关系数0.2071 0.1604 0.0401 0.0658 0.7255 0.0010 0.0962 0.1731 0.2852由上表可以得知,008号右边拼接014号纸条的相关匹配效果最好。3.4 模型建立与算法设计3.4.1 初始碎片的选取根据文字排版要求,文章左边留有一定宽度的空格。反应在我们建立的像素矩阵上即矩阵左侧有若干列数字全为 0,反映在灰度矩阵上即为:左
15、灰度矩阵 中必有若干列所有元素全为 0,此列对应的碎片应该排在原文档的第一列。LM因此,根据文章文字排版格式,空格的宽度大约为 11 像素,我们可以从像素矩阵中挑选左边 11 列元素全为 0 的碎片为初始碎片,按照文字水平方向从左至右进行拼接。3.4.2 碎片拼接规则按照上面的分析,我们选取相关系数 的两片碎片进行拼接。(X,Y)Max19801980221(X,Y)()()iiii ii iMaxx其中 、1219780LX1219780RY3.4.3 算法设计6步骤一:记全体未拼接碎片组成的集合为 ,已拼接碎片组成的集合为S, ;S步骤二:令 k=0;步骤三:从左灰度矩阵 中挑选元素全为
16、0 的一列对应的碎片为初始碎LM片,记为 ;kS步骤四:令 , ;kSkS步骤五:记 对应的左灰度矩阵 列向量为 ,记 中对应的碎片右灰k LXS度矩阵 的列向量为 ,计算相关系数;RMY步骤六:令 k=k+1;步骤七:选取使得相关系数 最大的 对应的碎片为 。将 拼(,Y)MaxkSk接在 的右边;1kS步骤八:若 ,则匹配结束。否则,则跳至步骤四。S算法流程图如下:73.5 模型计算结果将附件 1、附件 2 中的 19 条碎纸片信息代入我们模型和算法,利用 Matlab编程,得到结果如下:表二 附件 1 的碎片数据拼接复原结果00801401201500301000201600100400
17、5009013018011007017000006表三 附件 2 碎片数据拼接复原结果8003006002007015018011000005001009013010008012014017016004四 问题二的分析与建模4.1 问题二的分析附件 3、4 中分别提供了中文、英文各 209 条规则的既纵切又横切的文章矩形碎纸片,每个碎片的像素为 180*72,大小仅为问题一中碎片大小的十一分之一。如果原照问题一中的处理方法,由于碎片上文字像素的高度和宽度均有限,在进行拼接时会遇到相关系数相同的几片碎片同时都可以作为备选碎片,如下列情况出现,此时计算机是无法识别的,必须采取人工干预的方法进行拼接。利用人工干预的方法有一定的偶然性,并且会消耗大量的人力和时间。为了解决问题,我们设计一种深度匹配算法,能够有效的避免人工干预。情况 1.003 159 012 076 085 如果要在 003 号碎片右端拼接一块碎片,通过计算相关系数,159、012,076、085 号碎片与 003 号碎片有相同的相关系数,这四片碎片都可