1、图像中的文本检测与识别摘 要这篇文章分析、比较和对比了在彩色图像中文本检测与识别研究的技术挑战、方法和性能。它总结了基础的问题和列举了当解决这些问题时应当被考虑的因素。现有的技术分类不是逐步的就是集成的,而且包括文本定位、验证、分割和识别的子问题是突出的。关于增强退化文本和处理影像文本与多重位向、透视失真和多语种文本的特殊问题也解决了。文本的分类与子分类加插图说明了,基准数据集一一列举了,大多数有代表性的方法的性能也做了比较。这种回顾提供了这个领域余留问题的一种基本的比较和分析。关键词:文本检测;文本定位;文本识别;调查图像中的文本检测与识别1第 1 章 引言2003、2005、2011 和
2、2013 年近期的“健壮的阅读”比赛的出现,连同 2005至 2013 年基于成像的文档分析与识别(CBDAR)的一年两次的国际研讨会表明:在近年来,图像和影像中的文本检测与识别问题已经得到了越来越多的关注。移动设备上的应用程序的出现,包括实时将文本翻译成其它语言的 iPone 和安卓平台,不断刺激更新着在这些问题上的兴趣。这种趋势存在着几个主要的原因,包括越来越多的应用程序的需求。文本是最有表现力的通信方式之一,它可以植入文档或场景中作为交流信息的一种方式。这是通过使它“明显”和/或对其他人可读实现的。大量的 “街景”数据的收集只是一种驱动程序。第二种因素是高性能的带有成像和计算能力的移动设
3、备不断增加的可用性。这为图像的获得和随时随地的处理提供了一个机会,方便在不同环境中识别文本。第三种是计算机视觉和模式识别技术的进步,使得应对挑战性问题更可行。尽管许多科研人员认为光学字符识别(OCR)是一种已解决的问题,但图像文本检测与识别和较低质量或退化数据导致的计算机视觉和模式识别问题一样具有很多相同的障碍。正如目前最先进方法的低检测率(经常低于 80%)和低识别率(经常低于 60%)所暗示的那样,研究还有很大的空间。相比之下,OCR 一般能实现扫描文档的识别率达到 99%以上。复杂的背景、文本布局和字体的变化、光照不均、低分辨率和使用多种语言的环境呈现了比干净、格式良好的文档更大的挑战。
4、解决这些问题需要先进的计算机视觉和模式识别技术的应用。许多检测和识别场景图像文本的方法已被提出,然而我们对过去 5 年中关于这个主题的全面调查却还不清楚。关于文本提取和基于成像的文档分析的两项调查已经在进行了,但大多数文献是在 2003 前发表的。大部分已发布的作品自那时起使当前技术水平有了增量式的进步,因此为未来的工作建立一条基线仍然是重要的。本文尝试通过提供一项文本检测与识别研究的全面的文献调查来建立这条基线。我们总结了问题和子问题、检查了应用程序并分析了挑战。然后我们定义了不同的分类来对比典型的方式和方法。我们也通过在公开的数据集中报告典型方法的性能来突出当前技术水平。本文组织如下:第一
5、章剩余部分总结了问题和过去 10 年的进展。第二章分析了相关的背景。第 3、4、5 章节提出了方法、子问题和相关问题。第 6 章提供了数据集和评估,第 7 章总结了全文包括关于剩余问题和未来方向的讨论。图像中的文本检测与识别21.1 问题的概述尽管文本的识别产生了许多应用程序,但根本的目标还是去确定给定的图像中是否有文本,如果有,就检测、定位和识别它。在本文中,这些根本任务的不同阶段有不同的名字,包括:旨在确定候选文本的图像位置的文本定位,用定位和验证程序确定是否有文本的文本检测,专注于定位与二值化的文本增强。例如文本增强这个任务用于改正失真文本或者在识别之前提高分辨率。其它的参考资料包括了场
6、景文本识别和野外的文本识别,这些都限制了自然场景中的图像文本分析。简单地说,文本检测、定位和识别的基本目标对于“端到端”系统是至关重要的。1.2 过去十年的进展总结早期的文本检测与识别研究是文档分析与检测研究的自然延伸,从扫描页面图像到相机拍摄图像,专注于基本的预处理、检测和光学字符识别技术。近来,每个问题的相互联系的解决方案的实现促进了复杂的计算机视觉和学习方法的应用。将检测和识别任务整合到一个“端到端”的文本识别系统是一种趋势。在早期,研究人员广泛调查视频中的图像叠加文本,将其作为索引视频内容的一种方法。场景文本,特别是视频场景文本,被认为呈现出了一种更困难的挑战,然而对它所做的工作却很少
7、。近来,研究人员已经探索出了方法,结果证明这些方法在不同的配置中捕捉文本,特别是在复杂背景中的附带文本是有效的。这些方法通常起源于先进的机器学习和优化方法,包括无人监督学习、卷积神经网络(CNN ) 、可变形的基于部件的模型(DPMs ) 、置信传播和条件随机域(CRF) 。第 2 章 背景提供关于潜在问题、应用和技术挑战的背景信息对于理解文本检测与识别方法的整体价值是有用的。2.1 图像文本图形文本和场景文本被认为是文本的两种基本类别,其中前者指的是机器打印的图形覆盖的文本,而后者指的是在自然环境中捕捉到的对象上的文本。图形文本通常是机器打印的,在视频中的标题、副标题、注释和网络与邮件中的原
8、生图片上都可以找到。然而,场景文本不仅包括自然场景中的标志、包裹和服装,图像中的文本检测与识别3更有可能包含手写的材料。最近的研究主要集中在场景文本上,并且,为了更准确地描述挑战,进一步区分主要目标是捕捉文本的图像和文本植入场景中的图像是有益的。尽管两者之间是密不可分的,我们还是将前者称作傻瓜文本,而后者为附带文本,如图1所示。2.2 应用在过去的二十年里,对图像和视频已有无数文本相关的应用,可大致分为多媒体检索、视觉输入和访问以及工业自动化。多媒体检索:网络图像里的文本和网页的内容是相关的。视频标题通常注释关于时间发生的地点、时间和人物的信息。在这样的多媒体资源中识别文本和提取关键字增强了多
9、媒体检索。视觉输入和访问:移动设备包括数码相机的扩张促进了成像设备的广泛使用。使用嵌入式模块,移动设备可以自动地输入名片、白板和幻灯片。不用被迫通过键盘输入,用户会觉得更舒适,工作更有效率。自然场景中的信号携带着很重要的信息。自动信号识别与翻译系统使用户能够克服语言的障碍。卡内基梅隆大学研发了一种早期的基于 PDA 的信号识别器,并且最近的平台都包含了苹果的 IOS 和安卓,这些平台可以立即将文本识别和翻译成其它的语言。根据世界卫生组织的记录,全球大约有 3900 万盲人和 2.85 亿视力受损的人。开发个人语音合成设备可以帮助他们理解食品标志、产品与药物标签、货币以及ATM 指令。马里兰大学
10、和纽约城市大学已经开发了针对视力受损人群的文本识别原型。库兹韦尔国家盲人联合会(KNFB)的阅读器已经在移动设备上运行,让视力受损的人能够从室内场景“阅读”文本。工业自动化:识别包裹、容器、房屋和地图上的文本有着与工业相关的广泛应用。比如,邮件分拣系统运用了信封地址的识别;集装箱数量的自动识别提高了物流效率;自动地理编码系统受益于房屋数量和地图文本的识别。2.3 挑战环境的复杂性、灵活的图像采集风格和文本内容的变化造成了各种各样的挑战,具体分类在表 1 中并分析如下。场景复杂性:在自然环境中,有着众多的人造物体诸如建筑物、符号和绘画,这些物体对文本而言有着相似的结构和外观。为增加易读性,文本本
11、身通常是布局严谨的。场景复杂性的挑战是周围的环境使得从非文本中辨识文本变得困难。光照不均:在户外捕捉图像时,由于照明和感觉设备的不均匀响应引起的光图像中的文本检测与识别4照不均是常见的。不均匀光照引入了颜色失真和视觉特性的退化,因此也引入了错误的检测、分割和识别结果。模糊和退化:由于灵活的工作环境和无聚焦的相机,文本图像发生了散焦和模糊。图像/视频压缩与解压的过程也降低了文本的质量,特别是图形视频文本。散焦、模糊和退化的典型影响是它们减少了字符的清晰度并引入不存在的字符,这使得基本的任务例如分割变得困难。纵横比:文本,比如交通标志,可能是简短的,而其它的文本,比如视频字幕,可能是较长的。换句话
12、说,文本有不同的纵横比。检测文本,需要考虑搜索过程的位置、规模和长度,这引入了高计算复杂度。失真:当相机的光轴不垂直于文本平面时,透视失真就会发生,如图 1 所示。文本边界失去矩形形状和字符变形,会减少在无畸变样本上训练的识别模型的性能。字体:斜体的字符和脚步字体可能相互重叠,使得执行分割变得困难。不同字体的字符有着很大的类内变化并形成许多模式子空间,因此当字符类别数量大时会难以执行精确识别。多语言环境:尽管大部分的拉丁文只有十几个字符,但像中文、日文和韩文这样的语言有成千上万个字符类。阿拉伯语的字符是相连的,可以根据上下文改变形状。印地语将英文字母组合成成千上万个能代表音节的形状。在多语言环
13、境中,OCR 扫描文档仍存在着研究问题,而复杂图像的文本识别也更困难。第 3 章 方法在本节中,我们分析了在完整的文本检测与识别系统中常用的两种方法:逐步和集成。如图 2(a )所示,逐步的方法有分离的检测和识别模块,并使用前馈管道来检测、分割和识别文本区域。相比之下,集成方法检测单词的目标中,检测与识别过程和字符分类共享信息,并且/或者使用联合优化策略。一些逐步的方法利用文本识别的反馈过程来减少错误检测,并且一些集成的方法利用预处理步骤来定位感兴趣的区域。二者关键的区别在于后者用识别作为重点这一事实。3.1 逐步的方法逐步的方法有 4 个主要的步骤:定位、验证、分割和识别。定位步骤粗略地分类
14、组件并将它们组成候选文本区域,在验证期间,文本区域再进一步分为文本和非文本区域。潜在的假设是不同的文本区域可能被当做一种统一的模式,因此,必须存在这种模式下特性不变的属性。分割步骤分离字符,这样唯一、准确的图像块轮廓就能为识别步骤保留。最后,识别步骤将图像块转换为字符。在一些方法图像中的文本检测与识别5中,验证和/或分割步骤可以忽略,或者可能包括额外的步骤执行文本放大和 /或矫正。在126中,逐步方法包括检测、跟踪、分割、识别,并且提出了修正,如图3 所示。文本检测通过在原始像素值上训练的卷积神经网络(CNN)实现,并且将本地最大响应被检测的组件组成文本。集成一个跟踪过程来确定定位文本的开始和
15、结束帧。用基于最短路径方法分割步骤来计算分离,这使基于字符识别的 CNN准确。然后用一个语言模型来去除识别歧义和分割错误。Yao 等人开发一种取向健壮、多语言的方法。将笔画像素组成关联组件,这些组件通过用形状、占领比、轴向比、宽度变化和组件密度等组件特性训练的决定森林进行过滤。然后将过滤后的关联组件聚合为分层聚类算法的多重面向链,并通过用包括颜色、密度、笔画和结构的区域特性训练的决定森林分类器验证。传递验证的链通多低秩结构恢复算法增强,然后传递给 OCR 模块来产生识别结果。3.2 集成的方法通过集成方法,字符分类响应被认为是文本的主要线索,而且被文本检测与识别模块共享。这种方法简单地从字符模
16、块过滤响应来捕捉感兴趣的单词。使用字符分类响应作为主要特征需要字符从背景及彼此间的辨识力,这是一种复杂的多类问题。解决方案不仅需要强健的祖父识别模型也需要适当的集成策略,例如整体的匹配、i.e、 “单词定位“、联合优化和/ 或决定延迟。单词定位看起来是通过集成字符和单词模型来匹配带图形补丁的给定词汇中的特定单词。如图 4 所示,Wang 和 Belongie 提出一种通过用面向梯度的直方图特性(HOG )和最近邻分类器(他们后期工作中的随机 Ferns 分类器)来训练单词模型的单词定位方法。然后,他们用多尺度滑动窗口分类来获得字符响应,并用非最大抑制算法来定位字符候选。最后,他们将带有分数和字
17、符候选定位的形象化结构模型作为输入从一个小词典中确定一个特定单词的最优配置。Wang 等人提出结合多层次 CNN 和无人监督学习来训练字符模型,用于文本检测和识别过程。如图 5 所示,他们运行了基于滑动窗口分类器的 CNN 和使用响应来定位候选文本行。然后,他们用束搜索算法集成这些带有字符间距和已定义的词汇的字符响应来识别单词。Neumann 等人提出了一种决定延迟方法,当字符的背景在下一文本行可知时保持每个字符的多次分割知道处理的最后阶段。他们用极值区域和本地特性(颜色、笔画宽度)检测字符分割。在分割的基础上,用分配给每个节点和边缘的相应字符分类器分数构造被检测的图形。这些分数通过他们代表的
18、区域宽度被规范图像中的文本检测与识别6化,并且用动态编程算法来选择得分最高的路径。通过最优路径诱发的区域序列及其标签即这种方法、一个字、一个词或一个非文本区域的输出。3.3 方法的对比分段的方法通常采用粗略到精细的策略,先定位文本候选,然后验证、分割和识别它们。一个有吸引力的特性是大部分的背景都在粗略定位步骤被过滤,这大大地减少了计算成本,因此保证了计算效率。另一个吸引人的特性是在定位步骤估计文本方向时,它处理了定向文本。给定语言独立特性或多语言 OCR 模型,它能处理多语言的文本。缺点是双重的。第一个是从所有步骤集成不同技术时复杂度会增加。第二个是所有步骤优化参数的困难可能会引入误差积累。相
19、比之下,集成方法的目标是在带字符和语言模型的图像中识别特定单词。集成方法能够避免具有挑战性的分割步骤或者用字符与单词识别来优化它,这使它对复杂背景和低分辨率文本比较不敏感。缺点在于当考虑到一个大字符类数量和大量候选窗口时,多类字符分类过程的计算是昂贵的。此外,文字类数量的增加会显着降低检测和识别性能,因此通用性通常局限于都是单词的小词典。第 4 章 文本定位文本定位的目标不仅是精确地定位文本组件而且要尽可能将他们组合成带背景的候选文本区域。对于文本定位来说,连通区域分析(CCA)和滑动窗口分类是两种广泛使用的方法,颜色、边缘、笔画和纹理通常用做特征。4.1.1 方法连通区域分析(CCA ):
20、CCA 可以看做是一种图形算法,基于特征一致、颜色相似度和空间布局的启发,里面连通域的子集合是唯一被标记的。在 CCA 的实现中,语法模式识别方法常用来分析空间和特征一致,并定义文本区域。考虑到重要性语法规则的复杂性,执行带有统计模型的 CCA 是一个新的趋势,利用一个两两空间特性上的演算分类器去学习 CCA 模型。滑动窗口分类器:在滑动窗口分类器方法中,用形态学操作方法、CRF 或图形方法将划分为阳性的多尺度图像进一步组合到文本区域中。这种方法的优点在于简单、自适应的训练-检测结构。尽管如此,当用到复杂分类器方法和需要分类大量窗口时,计算通常是昂贵的。4.1.2 特征对文本定位来说,颜色、边
21、缘/梯度和纹理特征照惯例是要使用到的,而且笔画、点、区域和字符外观特征最近已经开始挖掘了。颜色特征:文本通常产生于一致和可区别的颜色中,因此它可以和背景形成对比。在这个假设下,颜色特征可以用来定位文本。基于颜色的文本定位作为一图像中的文本检测与识别7个有 20 年历史的方法操作起来通常是简单而有效的,尽管它对可严重降低颜色特征的多色字符和不均匀照明敏感。早期基于颜色的文本定位方法是来自 Jain 等人。他们用颜色退化生成颜色层,用聚类算法得到 CCs,并用颜色相似性和组件布局分析将 CCs 连接到文本候选。其它的作品中有表明:用直方图产生颜色层可以提高复杂背景下的鲁棒性。为适应颜色变化,常在转
22、换或结合颜色空间或用混合模型描述中提取颜色特征。Garcia 等人在色相饱和度 -值颜色空间中用 K-means 聚类算法执行文本提取。Karatzas 等人在色相-亮度 -饱和度颜色空间中用分开合并策略提取文本组件。Chen等人提出在 RGB 和强度信道用高斯混合模型定位文本。边缘/梯度特征:基于边缘/梯度方法的集合假设文本展示了与其背景强烈和对称的梯度对比。因此,那些带有大量对称梯度值的像素可以被视为文本组件。在427中,边缘特征被用来检测文本组件,而在12中有使用到梯度特征。Wu 等人提出用高斯微分水平地提取对齐垂直的边缘,如果“短路径”存在于边缘对之间,那么就可以聚合这种方法来产生一致
23、于文本串的缺口。Phan 和Tan 提出将水平地将“梯度矢量流”的对齐组件归和成基于大小的空间约束、位置和颜色距离的文本候选。相比于颜色特征,梯度/边缘特征对不均匀光照和多色字符比较不敏感。它们通过例如人工神经网络或 Adaboost 分类器结合来执行基于文本定位的滑动窗口。然而,当识别带有强大梯度的复杂背景的文本组件时,它们经常会有困难。纹理特征:当字符密集时,文本可以被视为一种纹理。纹理特征,包括傅里叶变换、离散余弦变换、小波分析、LBP 和 HOG 已经被用来定位文本。这样的特征通常与多尺度滑动窗口分类器方法结合来执行文本定位。文本特征对于定位密集字符是有效的,尽管它们可能不检测缺乏明显
24、纹理属性的稀疏字符和场景图像中的指示牌。Li 和 Doermann 开创了带有小波纹理特性的文本定位方法。他们提议使用小波系数的平均值、第二和第三个命令中心时刻与神经网络来分类图像窗口,过滤该图像消极和孤立积极的窗口,并将关联积极的窗口保存为文本。Zhong 等人开创了在 JPEG/MPEG 压缩域中用 DCT 特征的文本定位。他们检测高水平空间强度的图像补丁作为文本组件,将这样的组件聚合成形态学操作区域,并用阀值范围能量验证这些区域。Goto 等人提出用 DCT 特征和 Fisher 判别式来定位场景图像中的文本。Kim 等人采用 LBP 来描述背景文本过渡像素的纹理特性。 Kim 等人提出
25、用SVMs 和纹理模板来执行文本定位。被分为阳性的像素通过均值漂移算法相连。笔画宽度改变发(SWT):SWT 是一个本地的图像操作符,可以计算最有可能包含像素的笔画的宽度。SWT 输出一个地图,在这个地图里每一个元素都对应于一个像素的笔画宽度值。结果表明基于笔画的特性对定位高分辨率场景文本是图像中的文本检测与识别8有竞争力的,特别是当他们与适当的学习方法结合,或用其它线索例如边缘方向差(EVO )和相反边缘对(OEPs)或与时空分析结合放大时。最近,Moslen 等人通过引入基于 Bandlet 的边缘检测器来改善 SWT,这种检测器能放大文本边缘,也能去除嘈杂声和叶子边缘,因而适合低分辨率文
26、本。点和区域特征:采用 Harris 角执行视频文本定位涉及到角点密集存在于文本区域中这一项观察。152中将角点聚合成候选,再进一步用具有几何光学流特性的决策树分类器区别开。基于 MSERS 的文本定位已被广泛探讨。这种方法的主要优势根植于使用MSERs 作为字符/组件候选的有效性。观察发现文本组件通常与背景有明显的颜色对比,并趋向于形成均一的颜色区域。自适应的检测稳定颜色区域的 MSER 算法为定位这些区域提供了一个可行的解决方案。使用修剪算法选择合适的 MSERs 作为字符候选和用混合特性验证候选的方法已经达到了 ICDAR13 竞赛中最先进的水平。混合特性:不同类别的文本有不同的特征。文
27、本对象,例如视频字幕,有密集的字符和强大的梯度,但其它的可能有稀疏的字符但是颜色将它们与周围区别开。文本定位应用混合特性来提高不同文本分类上的鲁棒性。在早期工作中,Jain等人提出使用颜色特征和灰度值变化的结合。在近期工作中,Lee 等人提议使用来自梯度、伽柏滤波器能量、小波系数方差和边缘间隔的混合特性。聚合 16 个空间尺度上的特性并传递给分类算法。4.2 文本验证文本定位步骤通常会引入误报,因为对分类来说一小块组件/补丁可能没有包含足够的信息。文本定位后,文本区域的整体特征可用于精确分类和验证。基于知识的方法:关于颜色、尺寸与空间的共识和轮廓投影的先验知识已经被用来实现文本验证。在2 中,
28、水平阀值和垂直投影被用于验证文本候选。在7中阀值用于边缘区域/文本区域、文本快宽度和文本快高度。在 80、115、141中,阀值用于轮廓投影、字符距离、平直度和边缘密度。在92中,纵横比用于验证定位文本区域。在68 中,语法规则用于边缘计数、水平轮廓,关联组件高度与宽度。22中使用到了区域对比、结构、对齐和字符识别结果的语法规则。73中使用到了最小边界矩形(MBRs )的长宽比、文本像素的比例和 MBRs 中的背景像素。基于验证的知识是简单和直观的。然而,将文本的先验知识翻译成定义良好的语法规则是困难时。如果规则是严格的,那么他们可能无法保持不能遵守所有规则的文本。如果规则是松散的,那么他们可
29、能会引入许多错误的检测。图像中的文本检测与识别9特性鉴别方法:执行文本区别使用了各种特性,包括结构、强度、形状特性、小波、LBP、和 HOG 纹理描述符、伽柏笔画和混合。用于文本区别的先决条件是从不同纵横比的图像区域中提取特征,这些条件都归一化到相同的维度。获得归一化特征的一种方法使提取独立于区域纵横比的全局特征,如图 6(a)所示。另一种是将图像区域划分为不同尺寸的相同数量的子区域,如图 6(b)和 6(c)所示,并从子区域中提取相同维度的区域特征。Ye 等人提出了提取全局小波和交叉线特征来标示文本。运用向前搜索算法选择特性并训练 SVM 分类器从候选中识别真正的文本。159中运用内核 SV
30、M 训练有关高度与宽度比、可靠性值、笔画宽度和梯度变化的全局特征来区分文本。在68中,对于文本验证,用多层感知器(MLP)结合并训练边缘、梯度和纹理特性。163 中,提取强度、均值与笔画方差和边界框纵横比特征代表 CCs。再将来自 CCs 的特征传递给 k 均值分类算法。Yi 等人提出为文本区别步骤将文本区域划分成子区域,如图 6(b)所示。用不兼容的伽柏过滤器的最大值定位感兴趣的像素,然后提取面向直方图、梯度和笔画宽度的基于子区域的统计特性,并用 SVM 进行分类。Koo 等人提议将每个组件拆分成八个平方子区域,再用多层感知分类器从这些区域中提取和分类以下特征:1)前景像素的数量,2)垂直白
31、黑转换的数量,和 3)水平黑白转换的数量。对文本/非文本分类他们使用来自所有子区域的分类响应的平均值。4.3 文本分割在用 OCR 模型识别被检测的文本区域之前,某些方法使用二值化、文本行分割和字符算法获得精确的边界字符。分割已经被定义为最具挑战性的问题之一,最近的方法通常集成分割步骤和识别步骤,或使用词匹配以避免分割问题。4.3.1 文本二值化二值化操作提取文本像素并删除背景像素。有关自适应阀值的算法14, 121、概率模型35, 149和群集 63, 73, 147已经运用在这个问题上。自适应阀值方法根据各自的地方特色分割文本,因此可以适应不同的背景。然而,对于文本通常与背景融合的退化文本
32、来说,选择可靠的阀值是困难的。既然如此,在给定可能采样大量的前景像素来建立模型这种背景下,可以运用高斯混合模型35,148, 206。受解决图像分割问题的 CRF 模型成功的启发,Mishra 和 Lee 制定了最佳框架的文本二值化问题,并用一个能量最小化标记文本像素。在185,中,Lee 等人提出用一个两级 CRF 模型标记文本区域的相干组,这个文本区域是基于分割字符的层次空间结构。图像中的文本检测与识别10在视频中国提取退化文本时,集群方法使首选的。在54,63中,Thillou等人利用多种颜色指标和聚类提取文本像素。他们还用从Log-Gabor中获得的空间信息来补充颜色指标。在中,Wak
33、ahara等人利用“聚类与分类”策略从背景中提取退化文本。他们通过K-均值聚类生成局部图像,将每个局部图像划分成一系列“单字符类”图像,计算SVM 响应,最后用最大SVM响应作为局部文本选择一个局部图像。当用OCR软件和 ICDAR文本识别基准评估各种二值化方法时,采用局部二值化生成种子像素和用图形切割算法执行最终的分割的方法实现了最先进的性能187.。4.3.1 文本行分割文本行分割的功能是将多个文本行转换成单一文本行的多个区域。对于水平文本,文本组件的投影轮廓分析,如图7所示(第一行) ,代表了一种单一但有效的方法23, 82, 115。然而,对于倾斜或透视失真的文本,在估计文本方向前,投
34、影概要分析方法使无用的随着框架分析方法的出现,文本行分割得到了最近的一次进步141。从连接组件中提取文本骨架,如图 7 所示(第二行) ,并将文本行定义为这个骨架上的一条从一个交点到另一个终点或交点的连续路径。对应于文本行的“路径”不包括任何其它的中间点。鉴于这些定义,可以使用骨架分割算法将一个文本区域分割成文本行。4.3.2 字符分割字符分割将一个文本区域分割成多个单字符区域。垂直投影概要分析是一种早期的字符分割方法。然而,当退化和字符粘连存在时,这种方法对于确定一个最优投影阀值通常是困难的。用高阀值,可能会错过了真正的分割,如图 8(左上)所示,然而用低阀值,可能会检测到许多错误的分割,如
35、图 8(右上)所示。自适应的方法,包括自适应形态学操作、群集、和最优化方法,一直在稳步发展。Phan 等人调查了字符分割的梯度向量流特征和最小成本路径优化方法,如图 8(第二行)所示。双行程路径搜索算法被应用于向前搜索定位潜在的分割和向后方向删除错误的分割,即那些通过的字符。4.4 字符识别文字识别将图像区域转换成字符串。在最近的研究中,单词识别一直是文本识别的中心,因为词汇在底层特征和高层语言先验方面是用统计模型恰当配制的。这与心理学研究是一致的,当研究人类视觉认知时,单词是基本的单位55。看来在较高层次,例如从句或句子,识别文本很少被研究,因为他们比单词更难被处理。事实证明由于语言的先验在
36、字符层次识别退化文本是困难的。图像中的文本检测与识别114.4.1 字符识别识别一种字体的字符,经常会使用到一般特征,例如伽柏特征,和简单分类器,例如线性判别分析(LDA)27。然而,当呈现多个字体或失真字符时,类内多样性使得模拟同类字符变得困难88,30, 58, 132, 170。一种解决方案是让每个类有指定的分类器170, 183。其它方案包括使用无人监督123或典型学习207调整字符、区分特征池205、图像矫正算法132 或可变形模型195。Sheshadri等人170 运用模范SVM 识别场景图像中的失真字符,这使用于每个分类器的个体决策和依赖于决策校准的个体决策达成系统的一致。用S
37、VM分数的两种决策校准和仿射变换估计来处理不同的失真。他们的方法实现了Chars74k数据集的最先进性能。基于隐式模型的部分开发了失真字符识别192, 195。Shi 等人195提出就用基于模型的可变形部分(DPMs)和滑动窗口分类器来定位并识别场景图像中个的字符。字符被分为两部分,每部分用惩罚参数在本地域中移动。在 Chars74k 数据集中训练的 DPMs 有效地识别失真和带有各种字体的字符。关于字符识别,207 中提出了一种名为 Strokelets 的学习表示法。Strokelets 捕捉多尺度下字符的结构特点,从本地基元,例如小节、弧度和拐角到整个字符。一个名为 Bag-of-Str
38、okelets 的直方图特性是通过将 Strokelets 分箱而成形加工的,并用识别的随机森林训练的。4.4.2 单词识别考虑到退化和/或失真的文本,如图9所示,对于一个识别模型对相同字符分配不同的标签来说不是不寻常的。这是特别常见的失真或对特定字体缺乏训练数据100。在这种情况下,字符分割与字符识别可以和语言先验用优化方法,包括贝叶斯推理方法25, 57, 64,100、整数规划145 、马尔可夫36, 83,119, 206、CRF161, 195和图模型56,70, 141, 143, 123, 158, 189 ,进行整合。Weinman 等人提出了一种概率推理方法100:集成相似度
39、、语言先验和词汇识别来识别场景文本。推理过程是通过稀疏信念传播进行的,这是一种通过降低弱支持假设间的依懒性的用于缩短消息的优化方法。他们的方法已被证明对于消除不可恢复的识别错误和提高准确性是有效的。Mishra 等人161提出了一种利用自底向上(字符)和自上而下的(语言)文字识别线索的框架。他们用滑动窗口分类器来获得本地最大字符检测,并用 CRF模型能量函数共同模拟检测的强度和它们之间的相互作用。Shi 等人提出用 DPMs来检测和识别字符,然后在潜在字符位置上为字符识别建立一个 CRF 模型来合并分类分数、空间约束和语言先验(图 10) 。现已探索出高阶语言模型(n-grams )来实施识别
40、精度。在 165中,单词识别是通过在字符外观和语言模型的共同分布下估计最大后验(MAP)实现的。MAP图像中的文本检测与识别12推理是用加权有限状态传感器(WFSTs)执行的。大字典也被用来执行高阶语言模型162。大字典的使用不仅促进若字符检测,而且也执行了识别非字典单词,例如商业名称和街道名称178。4.4.3 “端到端”识别给定具有复杂背景的图像作为输入,一个端到端识别系统体现了定位、检测和识别功能,将图像中所有的文本区域转换成字符串。考虑一个小词典,单词识别为实现端到端识别提供了一个有效的策略。单词识别的动机是“整个大于部分” ,并且它的任务看起来是用字符和单词模型118, 179在一个
41、带有图像补丁的给定词典中匹配特定单词。然而,考虑到一个公开的词典,由于搜索空间大,文本识别策略是行不通的。在这种情况下,系统要求强健的字符表现173, 202、大规模的语言模型202, 204和复杂的优化策略 189, 206。在118中,Wangle 等人提出了基于字符响应最优配置、字符布局和词典的单词识别方法。在179 中, Goel 等人提出了一种单词定位方法,将词典转换成合成的字图像的集合,然后用加权动态时间扭曲(wDTW)方法将文本识别任务转换成从词典图像集中检索最佳配置的问题。Neumann 等人引入了一种端到端的集成基于面向笔画特征的字符检测和识别的方法。笔画是通过用一组面向 b
42、ar 的过滤器卷积图像梯度场检测的。字符被检测并识别为图像区域,该区域包含了相对位置中的特定方向的笔画。采用动态编程来优化识别响应、字符间距和 3-gram 语言先验,即字符三元组。Weinman 等人 206提出了一种端到端的方法,对于文本检测使用结合的方法,对于文本二值化使用概率的方法,并且用半马尔科夫模型共同优化字符分割与单词识别。最近的一个大型词典端到端文本识别系统:Google PhotoOCR202,利用了深度学习的实质性进展、大规模语言模型和细致工程。利用两种结合方法定位文本,并采用束搜索算法优化分割、定位和语言先验。在多达两百万的例子中训练深神经网络字符识别器,并利用超过一万亿符号的语料库学习语言模型。这个系统是用 29 种语言测试的,包括拉丁语、希腊语、希伯来语和四个斯拉夫字母语言,并且展示了最先进的性能。