1、1. 什么是 OCR?OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是 OCR 最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个 OCR 系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
2、2.OCR 的发展历史:早 在 60、 70 年 代 , 世 界 各 国 就 开 始 有 OCR 的 研 究 , 而 研 究 的 初 期 , 多 以文 字 的 识 别 方 法 研 究 为 主 , 且 识 别 的 文 字 仅 为 0 至 9 的 数 字 。 以 同 样 拥 有方 块 文 字 的 日 本 为 例 , 1960 年 左 右 开 始 研 究 OCR 的 基 本 识 别 理 论 , 初 期 以数 字 为 对 象 , 直 至 1965 至 1970 年 之 间 开 始 有 一 些 简 单 的 产 品 , 如 印 刷 文 字的 邮 政 编 码 识 别 系 统 , 识 别 邮 件 上 的 邮
3、政 编 码 , 帮 助 邮 局 作 区 域 分 信 的 作 业 ;也 因 此 至 今 邮 政 编 码 一 直 是 各 国 所 倡 导 的 地 址 书 写 方 式 。 中 国 在 OCR 技 术 方 面 的 研 究 工 作 起 步 较 晚 , 在 70 年 代 才 开 始 对 数 字 、英 文 字 母 及 符 号 的 识 别 进 行 研 究 , 70 年 代 末 开 始 进 行 汉 字 识 别 的 研 究 , 到1986 年 汉 字 识 别 的 研 究 进 入 一 个 实 质 性 的 阶 段 , 不 少 研 究 单 位 相 继 推 出 了 中文 OCR 产 品 .3.工作流程:一 个 OCR 识
4、 别 系 统 , 其 目 的 很 简 单 , 只 是 要 把 影 像 作 一 个 转 换 , 使 影 像 内 的图 形 继 续 保 存 、 有 表 格 则 表 格 内 资 料 及 影 像 内 的 文 字 , 一 律 变 成 计 算 机 文 字 ,使 能 达 到 影 像 资 料 的 储 存 量 减 少 、 识 别 出 的 文 字 可 再 使 用 及 分 析 , 当 然 也 可节 省 因 键 盘 输 入 的 人 力 与 时 间 。 从 影 像 到 结 果 输 出 , 须 经 过 影 像 输 入 、 影 像 前 处 理 、 文 字 特 征 抽 取 、 比对 识 别 、 最 后 经 人 工 校 正 将
5、 认 错 的 文 字 更 正 , 将 结 果 输 出4.影像输入:欲 经 过 OCR 处 理 的 标 的 物 须 透 过 光 学 仪 器 , 如 影 像 扫 描 仪 、 传 真 机 或 任 何 摄影 器 材 , 将 影 像 转 入 计 算 机 。 科 技 的 进 步 , 扫 描 仪 等 的 输 入 装 置 已 制 作 的 愈来 愈 精 致 , 轻 薄 短 小 、 品 质 也 高 , 对 OCR 有 相 当 大 的 帮 助 , 扫 描 仪 的 分 辨率 使 影 像 更 清 晰 、 扫 除 速 度 更 增 进 OCR 处 理 的 效 率 。 影 像 前 处 理 : 影 像 前 处 理 是 OCR
6、系 统 中 , 须 解 决 问 题 最 多 的 一 个 模 块 ,从 得 到 一 个 不 是 黑 就 是 白 的 二 值 化 影 像 , 或 灰 阶 、 彩 色 的 影 像 , 到 独 立 出 一个 个 的 文 字 影 像 的 过 程 , 都 属 于 影 像 前 处 理 。 包 含 了 影 像 正 规 化 、 去 除 噪 声 、影 像 矫 正 等 的 影 像 处 理 , 及 图 文 分 析 、 文 字 行 与 字 分 离 的 文 件 前 处 理 。 在 影像 处 理 方 面 , 在 学 理 及 技 术 方 面 都 已 达 成 熟 阶 段 , 因 此 在 市 面 上 或 网 站 上 有不 少 可
7、 用 的 链 接 库 ; 在 文 件 前 处 理 方 面 , 则 凭 各 家 本 领 了 ; 影 像 须 先 将 图 片 、表 格 及 文 字 区 域 分 离 出 来 , 甚 至 可 将 文 章 的 编 排 方 向 、 文 章 的 提 纲 及 内 容 主体 区 分 开 , 而 文 字 的 大 小 及 文 字 的 字 体 亦 可 如 原 始 文 件 一 样 的 判 断 出 来 。 文 字 特 征 抽 取 : 单 以 识 别 率 而 言 , 特 征 抽 取 可 说 是 OCR 的 核 心 , 用 什么 特 征 、 怎 么 抽 取 , 直 接 影 响 识 别 的 好 坏 , 也 所 以 在 OCR
8、研 究 初 期 , 特 征抽 取 的 研 究 报 告 特 别 的 多 。 而 特 征 可 说 是 识 别 的 筹 码 , 简 易 的 区 分 可 分 为 两类 : 一 为 统 计 的 特 征 , 如 文 字 区 域 内 的 黑 /白 点 数 比 , 当 文 字 区 分 成 好 几 个区 域 时 , 这 一 个 个 区 域 黑 /白 点 数 比 之 联 合 , 就 成 了 空 间 的 一 个 数 值 向 量 ,在 比 对 时 , 基 本 的 数 学 理 论 就 足 以 应 付 了 。 而 另 一 类 特 征 为 结 构 的 特 征 , 如文 字 影 像 细 线 化 后 , 取 得 字 的 笔 划
9、 端 点 、 交 叉 点 之 数 量 及 位 置 , 或 以 笔 划 段为 特 征 , 配 合 特 殊 的 比 对 方 法 , 进 行 比 对 , 市 面 上 的 线 上 手 写 输 入 软 件 的 识别 方 法 多 以 此 种 结 构 的 方 法 为 主 。 对 比 数 据 库 : 当 输 入 文 字 算 完 特 征 后 , 不 管 是 用 统 计 或 结 构 的 特 征 , 都须 有 一 比 对 数 据 库 或 特 征 数 据 库 来 进 行 比 对 , 数 据 库 的 内 容 应 包 含 所 有 欲 识别 的 字 集 文 字 , 根 据 与 输 入 文 字 一 样 的 特 征 抽 取 方
10、 法 所 得 的 特 征 群 组 。5.对比识别:这 是 可 充 分 发 挥 数 学 运 算 理 论 的 一 个 模 块 , 根 据 不 同 的 特 征 特 性 , 选 用 不 同的 数 学 距 离 函 数 , 较 有 名 的 比 对 方 法 有 , 欧 式 空 间 的 比 对 方 法 、 松 弛 比 对 法( Relaxation) 、 动 态 程 序 比 对 法 ( Dynamic Programming, DP) , 以 及 类神 经 网 络 的 数 据 库 建 立 及 比 对 、 HMM( Hidden Markov Model) 等 著 名 的方 法 , 为 了 使 识 别 的 结
11、果 更 稳 定 , 也 有 所 谓 的 专 家 系 统 ( Experts System) 被 提 出 , 利 用 各 种 特 征 比 对 方 法 的 相 异 互 补 性 , 使 识 别 出 的 结 果 ,其 信 心 度 特 别 的 高 。 字 词 后 处 理 : 由 于 OCR 的 识 别 率 并 无 法 达 到 百 分 之 百 , 或 想 加 强 比 对 的正 确 性 及 信 心 值 , 一 些 除 错 或 甚 至 帮 忙 更 正 的 功 能 , 也 成 为 OCR 系 统 中 必要 的 一 个 模 块 。 字 词 后 处 理 就 是 一 例 , 利 用 比 对 后 的 识 别 文 字 与
12、 其 可 能 的 相似 候 选 字 群 中 , 根 据 前 后 的 识 别 文 字 找 出 最 合 乎 逻 辑 的 词 , 做 更 正 的 功 能 。 字 词 数 据 库 : 为 字 词 后 处 理 所 建 立 的 词 库 。6.人工校正:OCR 最 后 的 关 卡 , 在 此 之 前 , 使 用 者 可 能 只 是 拿 支 鼠 标 , 跟 着 软 件 设 计 的 节 奏 操 作 或仅 是 观 看 , 而 在 此 有 可 能 须 特 别 花 使 用 者 的 精 神 及 时 间 , 去 更 正 甚 至 找 寻 可 能 是OCR 出 错 的 地 方 。 一 个 好 的 OCR 软 件 , 除 了
13、有 一 个 稳 定 的 影 像 处 理 及 识 别 核 心 , 以降 低 错 误 率 外 , 人 工 校 正 的 操 作 流 程 及 其 功 能 , 亦 影 响 OCR 的 处 理 效 率 , 因 此 , 文字 影 像 与 识 别 文 字 的 对 照 , 及 其 屏 幕 信 息 摆 放 的 位 置 、 还 有 每 一 识 别 文 字 的 候 选 字 功 能 、拒 认 字 的 功 能 、 及 字 词 后 处 理 后 特 意 标 示 出 可 能 有 问 题 的 字 词 , 都 是 为 使 用 者 设 计 尽 量少 使 用 键 盘 的 一 种 功 能 , 当 然 , 不 是 说 系 统 没 显 示
14、出 的 文 字 就 一 定 正 确 , 就 像 完 全 由 键盘 输 入 的 工 作 人 员 也 会 有 出 错 的 时 候 , 这 时 要 重 新 校 正 一 次 或 能 允 许 些 许 的 错 , 就 完 全看 使 用 单 位 的 需 求 了 。7.结果输出:有 人 只 要 文 本 文 件 作 部 份 文 字 的 再 使 用 之 用 , 所 以 只 要 一 般 的 文 字 文 件 、 有 人 要 漂 漂 亮亮 的 和 输 入 文 件 一 模 一 样 , 所 以 有 原 文 重 现 的 功 能 、 有 人 注 重 表 格 内 的 文 字 , 所 以 要 和Excel 等 软 件 结 合 。
15、无 论 怎 么 变 化 , 都 只 是 输 出 档 案 格 式 的 变 化 而 已 。 如 果 需 要 还 原 成原 文 一 样 格 式 , 则 在 识 别 后 , 需 要 人 工 排 版 , 耗 时 耗 力 。8.OCR 与中文识别:1) 资 料 录 入文 献 资 料 的 数 字 化 录 入 , 一 般 分 为 : 1 纯 图 像 方 式 。 2 目 录 文 本 、 正 文 图 像 方 式 。 3 全 文 本 方 式 。 4 全 文 索 引 方 式 。 文 本 方 式 和 图 像 方 式 的 混 合 体 。 2) 识 别 过 程书 本 级 : 中 文 , 英 文 ; 简 体 , 繁 体 ;
16、版 式 级 : 竖 排 , 横 排 ; 有 无 分 栏 ; 行 切 分 字 切 分 识 别 : 真 正 的 OCR 识 别 过 程 , 图 像 信 息 还 原 成 文 本 信 息 后 处 理 : 人 工 干 预 , 主 要 集 中 在 前 四 个 阶 段 。 3) 识 别 结 果 决 定 因 素1 图 片 的 质 量 , 一 般 建 议 150dpi 以 上 2 颜 色 , 一 般 对 彩 色 识 别 很 差 , 黑 白 的 图 片 较 高 , 因 此 建 议 ocr 的 为黑 白 tif 格 式 3 最 重 要 的 就 是 字 体 , 如 果 是 手 写 识 别 率 很 低 。 国 内 OC
17、R 识 别 简 体 差 错 率 为 万 分 之 三 , 如 果 要 求 更 高 的 精 度 需 要 投 入 更大 的 人 工 干 预 。 繁 体 识 别 由 于 繁 体 字 库 的 不 统 一 性 ( 民 国 时 期 的 字 库 和 现 在繁 体 字 库 不 统 一 ) , 导 致 识 别 困 难 , 在 人 工 干 预 下 , 精 度 能 达 到 90%以 上( 图 文 清 晰 情 况 下 ) 。9.OCR 识 别 技 术 解 决 方 案 :OCR 概念早在 1929 年就已经产生,但因为我国在 OCR 技术方面的研究工作起步较晚,所以在此之前,人们对 OCR 要么完全陌生,要么只能和市场上
18、与扫描仪捆绑的 OCR 软件普及版联系起来。先进技术从实验室走向市场都要经历一个长期的过程,对于并非一项新技术的 OCR 而言,这个过程则更为漫长。这固然涉及到市场普及的问题,但也和过去 OCR 产品实用程度低、功能单一有很大的关系。但在近年来,这种现象正逐步改变。有一些信号表明,中国信息化建设日益高涨的呼声已经为 OCR 领域带来了一些新的变化。这种变化不仅表现在技术的革新与进步,更表现为用户对于信息化的内涵和技术发展趋势有了非常明显的了解愿望。尤其在今年,一直以技术为主导的 OCR 产品,正悄然掀起一场以应用为导向的市场变革。 变革露峥嵘这场变革是如何产生的,变革的背后究竟蕴含着哪些因素呢
19、?首先,我国的信息化建设,是一项浩大而又艰巨的工程。在经历过从无到有的过程后,终于朝着由弱至强的方向高速发展。而在高速发展的过程中,技术毫无疑问是其中最核心的推动力。从 80 年代开始,OCR 的研究开发就一直受到国家“863“计划的资助,在清华的吴佑寿教授、丁晓青教授、中科院的刘昌平博士、李明敬博士等人不懈努力下,已经取得了巨大发展。我国在信息技术领域付出的努力,已经有了初步的回报。目前,印刷体 OCR 的识别技术已经达到完全实用的程度,即使对印刷质量较差的文字的识别率也达到 95%以上。而结合尖端技术的专业版 OCR 更是具备了批处理功能,性能更加优化。经过科学家们和企业的共同努力,现在的
20、 OCR 技术终于迎来了一个技术的成熟期,这就为 OCR 应用市场的瓜熟蒂落提供了雄厚的技术支持和保障。其次,OCR 技术本身的实用性使得其应用领域十分广泛,同时行业信息化的发展也带动着行业更深层次的信息化需求。以前,我国 OCR 技术主要应用在通用市场,而在今日,网络时代的特征正在影响着 OCR 应用市场的前进步伐,政府、公司、家庭、个人均是网络时代的组成部分,个人资料电子化、商务办公自动化等需求的呼声也越来越高。目前从行业需求来看,金融、电子政务、保险、税务、工商等行业对信息识别的需求已越来越广泛,促进了识别技术的大规模应用。而个人消费者对资料电子化、手写识别技术等需求拓展了 OCR 识别
21、技术在这一领域的应用之路。再者,与目前 OCR 应用市场的发展空间相比,广大用户的需求并没有得到充分的满足。面对这样崭新的市场变化和消费者的需求,市场还有许多潜力等待厂商去挖掘。这对于 OCR 产品厂商来说,既是机遇也是挑战。各大厂商自然闻风而动,各类 OCR 产品不断推出,产品形态日益丰富,十分有利于 OCR 产品市场的快速扩张,为这一市场的启动起到相当的促进作用。因此我们可以看出,随着 OCR 技术的进一步成熟,依靠 OCR 识别正确率的提高和应用扩展的推动力,应用领域的不断扩展,OCR 市场容量正逐步做大。搭台唱戏,“应用“为先巨大的社会信息化需求使 OCR 应用市场在今年已经拥有了一个
22、良好的开局,继上半年 OCR 技术在应用方面取得较大突破之后,这种持续上升的态势在下半年得到了更深层次的延续,尤其是人们通过非典意识到的资料电子化的重要作用为 OCR 市场的跃进式发展提供一个良好的契机。同时国内厂商在下半年也纷纷继续挖掘 OCR 市场潜力,加快了中国信息化建设步伐。目前 OCR 技术在个人信息管理、办公自动化、电子出版物、网络资源、各种大型文献资料管理数据库、数字化图书馆等领域的应用中均表现活跃,而以三大板块为主的 OCR 应用市场也显示出迅速攀升的良好势头。首先是最早开发的 OEM 市场进一步成熟,市场需求稳步提升。这一市场主要面向与硬件相捆绑的设备,如扫描仪等,其次是个人
23、零售市场继续升温。如文字识别领域的领军企业清华紫光文通推出的名片识别系统 e-card 引起了用户广泛关注;另外,行业应用市场的持续扩张,以 OCR 识别为核心技术研发的产品正在成为行业用户的采购热点。从今年 OCR 产品应用的发展来看,我们可以看到主要分为两条主线:其一,OCR 在行业上的应用,一直以来这是最主要的应用。以清华紫光文通为例,它的 TH-OCR 已经在金融、税务、图书馆等行业进行了应用,而且涉及的行业越来越广泛。尤其在今年,紫光文通的 TH-OCR Asia 版高性能中日韩文档识别理解重构系统凭借其在技术上的领先性及在识别上的准确性,获得了由国家科学技术部、国家税务总局、国家商
24、务部、国家质检总局和国家环保总局五部联合认证的“国家重点新产品“奖项。据悉,文通 TH-OCR Asia 版是首次获得此项殊荣的 OCR 产品。另外,在微软最新发布的 office 2003 中的东方文字识别(中文简、繁体,日文、韩文)配装的也是文通的 OCR 技术。与此同时,紫光文通紧随行业发展步伐,针对新形势打出 “应用牌“,不断推出针对性的产品与解决方案。例如针对重点又是难点的老旧报纸数字化工作,文通推出报纸数字化制作系统,专门对老旧报纸进行数字化的制作,提供了从报纸扫描、文字识别,到光盘检索出版、发布的一整套完整的报纸数字化解决方案,有效的解决了这一长期困扰人们的难题,使得报业信息化进
25、程更为顺畅。其二,OCR 正逐渐褪去神秘的面纱,由一种高高在上的技术转化为在与人们生活密切相关的领域上的应用。从今年紫光文通的名片识别系统 e-card 和身份证识别系统“e 验通“的推出,嵌入式手写识别技术在手机、PDA 上的应用,“小灵鼠“手写识别技术在 PC、笔记本电脑上的应用,都可以看到这类与个人消费者密切相关的应用产品,在专业的 OCR 领域引起的强大震撼。其中,尤其值得一提的是,紫光文通今年成功地把 OCR 技术移植到数字移动产品上,推出了与数码相机相结合的“慧视“屏幕文字图像识别系统,为数字移动产品的应用开阔了一片全新的领域。用户可利用数码相机、数码摄相机等设备把感兴趣的文章,看
26、不懂的外文资料拍下,传入电脑,再通过 OCR 以十分成熟的版面分析及超强的识别核心对各种图像信息加以识别,变成可编辑的材料,还可配合翻译软件对材料进行翻译阅读。不仅如此,紫光文通在下一步还准备将 OCR 技术应用到嵌入设备中,如手机等。这一切都说明 OCR 的应用领域越来越广泛,与人们的日常生活越来越贴近,为广大消费者带来的无疑将是更大的惊喜和便利。随着近年来信息化浪潮的不断高涨,已开创了一个全新的行业应用时代。如今,随着应用软件的开发日益成熟,只要拥有了核心技术,就可以去调整在各行业的应用。以市场实际需求为出发点,从而带动全新的实际应用为导向的发展潮流。因此如何把技术优势转化成市场优势,使市场优势紧贴市场上的实际需求,成为企业制胜的最关键因素。作为厂商,必须充分发挥自身的优势打造自身独有的竞争优势。在这个用户需求决定市场发展的时代,只有拥有强大的产品开发能力和市场拓展能力,只有牢牢把握用户的需求心理,主动创造用户的需求应用,才能在竞争日趋激烈的市场中为自己赢得更大的生存与发展的空间,才能走在时代的前端,领航 OCR 未来。可以肯定的是,经过众多专家或专业人士的努力,及国家在信息产业领域的大力资助,将使 OCR 更加深入到网络的各个领域,会有更多的新品种奉献给广大用户,OCR 技术将会有一个质的飞跃,未来 OCR 产业将走进自己的黄金时代。-