1、高速单证扫描识别系统企业在运营和办公当中会产生大量的各种票据、单证、机要文件以及档案资料等等,日积月累,各类单证档案的打印、整理、装订和归档都成为难题,需要花费大量的人力和物力。传统的手工库房管理或简单的手工录入计算机管理已经无法满足企业各层次人员调阅、查询和再利用等各方面的要求。如何实现各类单证文档的高效录入、查询和可靠保管已成为企业快速发展中面临的一大难题。随着汉字 OCR 识别技术和条码识别技术的成熟,为这一难题的解决提供了技术保证。同采公司结合多年的自动识别技术和信息技术积累,利用先进的 OCR 识别技术和条码识别技术,研发出具有领先水平的“AutoScan 高速单证扫描识别系统” ,
2、对解决企业繁杂的单证档案管理提供简单、方便并且高效的解决方案。整套系统提供了文件扫描、影像录入、影像存储、数据核查、影像查询和打印等多种功能的应用模块。主要应用于企业的单证档案电子化管理,比如物流公司单证管理、银行凭证管理、保险公司的投保单管理、税务机关纳税人资料管理、金融和邮电系统客户资料电子化管理等,并且已在实际应用中取得良好的效果。AutoScan 高速单证扫描识别系统利用高速扫描仪将纸张、票据、单证、文件和档案资料转换成电子影像信息,用以代替纸张、票据等的传统存储方式,并提供灵活方便的检索、管理功能,是政府、工商、金融、税务、医院、科技等行业实现单证管理电子化管理的好帮手和好管家。系统
3、特点A. 智能的自动操作真正实现一键操作,操作简单B. 强大的扫描功能通过扫描仪扫描实现单证档案影像的高速采集,支持自动进纸的高速扫描仪,达到比普通平板扫描仪快几倍甚至十几倍的扫描速度;也可以具体需求可以选用不同档次的扫描仪。可以对“皱”、“脏”、“破”、“胶带”的单证进行扫描。C. 快速的单证录入采用 OCR 识别技术或流水识别的方法自动建立凭证种类的精确索引,可大大减少手工录入的工作量。D. 清晰的影像文件提供图像矫正,滤色,字体加深、变浅,剪切黑边等行之有效的图像修补技术,可以得到更好、更清晰的影像文件。E. 先进的影像存储采用国际先进的影像压缩技术,影像文件占用的存储空间更小,一般一张
4、运单图片文件在2025K;系统支持多种存储介质,可将影像文件存放在光盘塔、光盘库或磁盘阵列上,使用数据容错功能,可以得到很高的安全性。F. 高效的后台处理高速扫描,自动识别条码,一次可以扫 50 张,用时不到一分钟;单张凭证的后台处理(包括扫描和进行 OCR 识别)时间最多 2 秒,单据种类的自动识别的成功率基本达到 100%,对于各种需监督的数据(账号、金额等)OCR 自动识别的成功率达到 90%以上。另外要提供手工补录、特殊处理、重要凭证核对、重点监督等功能。100%识别单证条码,并自动辨认条码受损的单证。G. 强大的应用设置功能强大的应用生成器,不同的用户可以根据自己的需要自定义索引字段
5、,方便灵活;而面向行业的解决方案则面面俱到,以行业应用为基础,具有更强大的功能。H. 可靠的质量检验系统自动检查影像文件的清晰程度,是否丢页及索引信息是否正确等各种情况,大大降低日常管理工作及其他因素造成的失误,提高电子化数据的可靠性。I. 快速的影像查询查询者通过各种索引的组合条件对影像文件进行查询,并可以随时显示影像文件,系统查询软件提供快速有效的检索机制。 经过 OCR 自动识别的凭证查询能实现快捷方便的查询;能通过各种索引要素的自由组合进行模糊查询J. 方便的打印功能查询者通过各种索引的组合条件检索到影像文件后,可以随时打印当前页或全部影像文件,系统软件的打印功能配备高速网络打印机可以
6、在单位的任何地方快速有效的打印影像原件。优立慧科单据扫描存档和审核系统系统实现的主要功能1、批量扫描录入功能:本系统能够高速扫描不同规格、不同质地的单据。在高速扫描时能够避免不漏页、不折页、不损页; 批量高速单据扫描并行多扫描仪图像扫描扫描图像自动命名超声波防重叠页图像处理独立扫描作业2、单据自动分类:单据包括多种类型,单据扫描后需要对这些单据进行分类。正确分类后才能批量对每类单据进行快速信息提取和归档;3、能够按使用的需要设定单据上的信息提取区域,并将提取区域内的信息进行正确的字符识别和转换;4、 提供综合的校对功能(自动校对和手工校对),并最大程度地进行系统自动校对;5、单据信息提取功能:
7、通过预置、分类、图像处理、字符识别等技术,对各类单据的数据信息进行有效分类提取,解决了人工录入的难题;6、 提供单据辅助审核功能:包括汇总数据正确性审核和业务审核7、 单据图像存档/查询功能:可对表单电子图像建立精确索引,方便客户按进行快速、无纸化检索功能:图像索引建立、按时间、按区间、按人、按单位、按单据类型四、系统工作流程单据扫描存档和审核系统是使用计算机、高速文档扫描仪和配套的具有先进字符识别技术内核的工作流软件对单据进行存档和代替手工进行复核、审核处理的系统。系统由高速文档扫描仪、单据处理服务器、共享的磁盘阵列、单据扫描存档和审核系统软件及前台终端组成。系统依托计算机网络实现单据处理的
8、数据传递;依托现有的计算机进行单据的处理。系统的工作过程是:由高速文档扫描仪对单据实行高速的无叠页扫描;扫描后的单据以图像(以数字)方式存储在共享的磁盘阵列中。单据处理服务器从共享的磁盘阵列中按人份取出扫描后的单据图像。对单据图像进行图像处理后,根据预置的定义对单据图像进行高速自动分类,对特定识别区域内的字符进行识别和信息提取。单据处理服务器根据企业提交的预录入数据(企业报盘)对每个人份的收据进行自动校对。对没有提交预录入数据的企业报送的单据进行人工校对。前台工作人员对未通过自动校对的收据进行人工校对。单据处理服务器以校对后的数据为依据对每个人份的汇总表进行自动复核。自动复核未能通过的汇总表转
9、入人工复核。复核后的所有单据图像都将被编排索引并归档。机构的工作人员从数据库中检索归档的单据图像并进行审核。系统的工作模式是:以工作流的方式独立完成扫描、校对、复核、审核工作。按任务批次以流水线的方式完成各部分的任务。每个岗位的任务相对固定,可根据任务的难易安排层次不同的人员。由于任务单一,每个岗位的人员可以更熟练地操作。六、系统应用特点高速、大容量的单据数字化;自动、高速、批量、无叠页的单据扫描;对单据的自动分类;单据区域内信息的自动识别和自动提取;自定义识别区域;计算机辅助校对和计算机辅助复核;工作流的作业方式;各工位操作的独立性(扫描、校对、复核、审核);新型业务的快速定制和扩展功能(对
10、新使用的表单 24 小时内完成定制,融入系统)字符识别自我训练功能; 五、实施单据自动处理系统的受益分析对比表:略从表中我们可以看出,在机器方式下只有校对和审核是必须有人参预的,其他任务都可由机器完成。而在手工方式下,所有任务都必须由手工完成。而且建档和检索又是手工很难完成的。而采用优立慧科表单信息智能采集技术,不但能减少录入人员,节约行政费用;而且能减轻工作负荷,提高审查的正确率,从而大大提高工作效率,改善政府形象。企业文档扫描服务数字加工流程:易通物流公司使用的 HP 7000n 扫描仪,一名员工进行数百张单据的电子化存储,仅需不到十分钟就可完成。电子文档相比传统的纸质保存,不仅实现了更加
11、安全的备份,而且可以在电脑中直接查询,非常方便。扫描仪的扫描技巧 不少用户在购买扫描仪后,常常会发现扫描图片的品质不太理想,实际上,出现这种情况,主要的还是与用户使用扫描仪的技巧密切相关。准备工作要做好普通用户在使用扫描仪之前,很有必要对扫描仪的基本原理做个初步的了解,这样将大大有助于正确合理地使用扫描仪。扫描仪获取图像的方式是将光线照射到待扫描的图片或文档上,光线反射后由感光元件 CCD(Charge Coupled Device,电荷耦合元件)或CIS(Contact Image Sensor)接收,由于图像色彩深浅不一,致使反射光强度也各不相同,感光元件可以接收各种强度的光,并转换为二进
12、制的数字信号,最后由控制扫描的软件将这些数据还原为显示器上可以看到的图像。 为了将图像客观真实地反映出来,必须保证光线能够平稳地照到待扫描的稿件上,笔者建议大家在扫描前可以先打开扫描仪预热 5 至 10 分钟,使机器内的灯管达到均匀发光状态,这样可以确保光线平均照到稿件每一处。此外,不要因扫描仪的倾斜或抖动影响到扫描品质,用户应尽量找一处比较平坦、稳定的地方放置,一些用户为节约办公空间而直接将扫描仪置于机箱上方的做法万万不可取。现在,佳能公司的 N 系列扫描仪都实现了直立扫描,配有专用扫描仪支架,有效的节约了办公空间。此外,扫描前仔细检查玻璃上方是否有污渍,若有一定要用软布擦拭干净,以免影响扫
13、描效果。预扫步骤不可少 为了节约扫描时间,一些用户贪图方便,常常忽略预扫步骤。其实,在正式扫描前,预扫功能是非常必要的,它是保证扫描效果的第一道关卡。通过预扫有两方面的好处,一是在通过预扫后的图像我们可以直接确定自已所需要招描的区域,以减少扫描后对图像的处理工序;二是可通过观察预扫后的图像,我们大致可以看到图像的色彩、效果等,如不满意可对扫描参数重新进行设定、调整之后再进行扫描。 限于扫描仪的工作原理,扫描得到的图像或多或少会出现失真或变形。因此,好的原稿对得到高品质的扫描效果是格外重要的,而品质不佳的原稿,即使通过软件处理可以改善扫描效果,但终究属亡羊补牢的做法。至于那些污损严重的图像,无论
14、如何处理也无法得到期待的效果,因此,一定要尽量使用品质出色的原稿扫描。对一些尺寸较小的稿件,应尽量放置在扫描仪中央,这样可以减少变形的产生。使用多大的分辨率 很多用户在使用扫描仪时,常常会产生采用多大分辨率扫描的疑问。其实,这还得由用户的实际应用需求决定。分辨率越高意味着可以获得更多的图像细节,更清晰的效果,更完美的色彩还原力,但同时也意味着扫描得到的图像文件增大而且不易处理。对应用较多的 Internet 而言,网站上的图片分辨率通常在 75dpi 左右,这意味着使用 100dpi 分辨率进行扫描已绰绰有余,而用于印刷的图片的分辨率一般为 300 至 400dpi,因此要想将作品通过扫描印刷
15、出版,至少需要用到 300dpi 以上的分辨率,当然若能使用 600dpi 则更佳。如果想将扫描后的作品通过打印机打印出来,则必须综合考虑打印机的分辨率才能决定。根据实际使用经验,一台打印分辨率为 1440dpi 的打印机,大约只需以 360dpi 分辨率扫描图像即可得到不错的打印效果。这是因为打印机与扫描仪的工作原理和分辨率的含义完全不同的缘故。 应用广泛的 OCR 相信不少朋友购买扫描仪很大部分用途是为了减少文字输入工作量,提高工作效率。因此,OCR 就成了扫描仪最常被使用的功能之一。通过软件识别扫描文档上的汉字、英文,甚为方便且有效。因此,除了掌握正确的扫描方法外,选择合适的 OCR 软
16、件也极为重要。目前常用的 OCR 软件大多是与扫描仪捆绑销售的,比如佳能扫描仪的RosettaStone、Omnipage 等。尽管 OCR 软件可以自动识别汉字,但要达到高效准确也需要众多应用技巧。 首先,扫描文档时需使用黑白模式,同时也要注意这种模式下的 Threshold 值(阈值,表示一个参数范围,大于或小于这个范围都不能产生效应),这是决定何种程度的黑色可被扫描仪视为黑点,这样可以简便地将文字的黑与背景干扰的黑分辨出来,如果调整得当,可加快扫描速度。这个值的调整可以在扫描图像的色调值(tone value)统计直方图(Histogram)中,先区分出两个或以上的波峰,然后将 Thre
17、shold 在两者之间调整,便能找到具备不错区分效果的位置。如果认为这种方式较麻烦,还有另一个简便方法,通过文字大小来决定分辨率。一般来说,200 或 300dpi 的分辨率可以得到相当不错的效果。如果待扫描的文字比报刊文字还要小,可以将分辨率提高,从而得到可放大的扫描文档,提升识别率。 当用户需要扫描厚度较大的杂志时,若直接扫描,难免会发生内文因无法完全摊开而导致部分文字不清晰及扭曲失真的情况,这样的结果是 OCR 软件无法正确识别的,大大降低识别率。怎么办呢?用户不妨在扫描前,将图书拆成一页页的单张,然后再进行扫描。对于一般的报纸,由于本身即是单张形式,因此不存在上述问题,但由于报纸面积通
18、常较大,无法一次扫描,因此预扫时事先框选扫描范围,一次扫描一块区域,这样的辨识效果会大大提高。 透射稿及其它印刷品 除了扫描普通的反射稿外,用户有时也需扫描透射稿。透射稿包括幻灯片(正片) 、负片两种。由于一般的扫描仪是针对反射稿扫描设计,因此在扫描透射稿时建议使用具有胶片扫描功能的佳能全能 D660U、FB1210U、D1230UF、D2400UF 及专用胶片扫描仪 FS 4000US。DigiScan 单证扫描识别系统DigiScan 是一套用于表单扫描、识别的系统。它通过扫描将传统资料转换为电子文档,并通过 OCR 识别技术自动建立索引,识别完成之后,系统会根据识别结果将所有图象划分为不
19、同文档,并提供文档间的导航工具条,用于文档之间的切换,同时,弹出一个新的浮动窗口,供校对识别结果。在确认识别结果之后可以根据识别结果建立索引导入数据库系统进行管理,也可以供业务、服务等相关部门进行网上查询。如果结合 DigiForm 电子表单系统,可传输影像文件到 DigiForm,使系统能够自动打印表单原始资料,大大减轻了人工操作。 本系统通过建立一系列模板,可为每种资料提供不同的工作参数。工作时,首先按照模板设置进行批量扫描,之后进行 OCR 自动识别,并根据模板设置的不同区分方式自动将批量资料进行区分。识别结果为关键索引,根据该索引对影像文件进行管理,也可以提供接口以方便DigiForm
20、 电子表单系统调入影像进行打印。 工作流程如下: 扫描-OCR 识别-建立文件索引- 图像传输 - 数据库管理 主要特性支持自动进纸的高速扫描仪,达到比普通平板扫描仪快几倍甚至十几倍的扫描速度。 对扫描影像自动进行去污、纠偏等操作,最大限度地还原原始资料。 支持以文件直接载入的方式进行操作,并可在扫描时备份临时文件,保证在意外事故发生时将损失减小。 扫描或载入文件之后,可手工对影像顺序、质量等进行调整、控制。 通过模板的概念设定系统的工作参数,保存方便。 根据模板设置自动对影像进行识别,并自动建立索引信息(表单号)。 提供识别结果的校验功能,确保识别结果的正确性。 结合 DigiForm 电子
21、表单系统,可将本系统的图像资料传输到 DigiForm,使电子表单系统打印时能自动打印表单原始资料,减轻人工操作。 完善的用户管理机制,以保证系统的安全运行。 系统操作界面应用实达 DigiScan 数码扫描系统主要应用于企事业单位的单证电子化,如保险公司的投保单电子化管理,企业财务资料电子化管理,税务机关纳税人资料电子化管理、金融和邮电系统客户资料电子化管理等。 原始记账凭证经临柜有关部门封包后送事后监督部门,事后监督先对凭证进行有效性审核,审核有不符合要求的凭证登记差错,将通过的凭证录入事后监督系统作为事后的流水与临柜流水进行逐笔核对,然后根据事后的流水记载事后分户帐,科目发生额,总账,将
22、事后的帐与临柜的帐进行逐笔核对,有不符的记录登记差错表。监督完成后再将凭证分类封装,送档案管理中心管理。 长期以来,银行档案管理工作因管理手段落后而一直困扰着银行界,各类档案的打印、整理、装订和归档需要花费大量的人力和物力。同时各类凭证的事后监督与归档的分离也浪费了大量的人力和物力,随着银行帐务处理集中化模式的出现,如何实现凭证的高效录入、查询和可靠保管已成为银行界面临的一大课题。随着国内汉字 OCR 技术的成熟,为这一课题的解决提供了技术保证。 档案光盘缩微暨事后监督系统是集银行档案原件录入、光盘存储、自动管理、智能检索、事后监督于一体的计算机辅助管理、帐务监督系统。它利用图像数字化技术设备
23、(如摄像机、高速扫描仪)将临柜的传票的影像录入计算机系统,并采用手工录入、流水识别等手段建立凭证索引,通过电话、传真和计算机等多种途径进行档案查询,同时将流水识别结果与 OCR 识别结果校验后生成的数据作为事后监督的流水,并将此流水与临柜的流水进行批量核对,记载分户帐及总账,同时与临柜分户帐与总账进行核对,从而真正实现了对银行凭证的事后监督与归档的自动化,以及档案的长期保存、智能查询和科学管理。 北京汉王公司利用全面领先的 OCR 技术优势,为银行系统提供了先进而完整的解决方案,在大量的实际应用中取得了良好的效果。 2、实现的目标: 实现业务过程的自动: 凭证影像的高速采集: 所有储蓄凭证均通
24、过扫描方式实现凭证影像的高速采集。根据银行的具体需求可以选用不同档次的扫描仪。 使凭证索引的建立自动化: “汉王 OCR 票据表格单据识别系统”采用 OCR 识别技术或流水识别的方法自动建立凭证种类的精确索引,可大大减少手工录入的工作量。 利用 OCR 技术实现凭证重要数据的自动采集: 对那些重要的需监督的数据(账号、金额等),利用 OCR 技术提取凭证中用户填写的实际数据,与流水识别取得的临柜帐务数据进行核对,生成待监督数据文件,提供给储蓄事后监督子系统,进一步完成储蓄的事后监督。本系统采用了国内居领先地位的汉王 OCR 技术,技术成熟可靠,在多家金融机构得到了应用,系统达到了实际应用的水平
25、。 整个后台自动处理要快速有效: 单张凭证的后台处理(包括扫描和进行 OCR 识别)时间最多 2 秒,单据种类的自动识别的成功率基本达到 100%,对于各种需监督的数据(账号、金额等)OCR 自动识别的成功率达到 90%以上。另外要提供手工补录、特殊处理、重要凭证核对、重点监督等功能。 凭证查询功能强大、方便快捷: 经过 OCR 自动识别的凭证查询能实现快捷方便的查询、通过局域网或 DDN,X、25 专线对服务器的硬盘或光盘库或 MO 上的数据进行查询;能通过各种索引要素的自由组合进行模糊查询;利用SOCKET 传递数据包,网络流量小,安全可靠。 严密的事后监督: 根据“汉王 OCR 票据表格
26、单据识别系统”提供的数据作为事后的流水,记载事后的分户帐、科目发生额、总账,事后帐内部的发生额借贷平衡、余额借贷平衡、总分平衡,以及事后帐与临柜帐之间的流水账逐笔勾对,分户逐笔勾对和总账的逐笔勾对,可以实现流水勾对的自动化、快捷化。 独特的差错管理: 事后监督的目的是发现临柜业务的差错。因此,差错管理是事后监督非常重要的功能。事后与临柜帐务不一致时,事后跟临柜要将所有发现的差错记录下来。差错管理模块录入监督票据的非计算机差错信息,如票据残缺、假票、字迹模糊、金额涂改等差错信息,以及经计算机监督后的差错信息如流水核对不符、分户核对不符、总账核对不符等。根据差错信息产生差错报告供上级部门分析,并产
27、生差错通知单通知临柜修改。 功能齐全的事后监督: 处理方式上以流水批量处理为主,同时支持单笔的手工录入;业务种类上支持对公、储蓄、信贷、交换业务和凭证管理业务。 二、系统实现原理: 系统原理图: * 银行前台在进行业务时应按照相关要求规范用户的填写; * 对凭证进行业务分类整理和集中,然后批量扫描录入; * 在后台进行 OCR 识别/流水识别,直接从凭证影像中提取重要数据,自动建立凭证索引; * 对一些未能识别的凭证进行手工补录、特殊处理、重要凭证核对、重点监督等功能。 * 生成待监督文件,为事后监督系统提供监督数据; * 后台处理和事后监督子系统连接,共同完成自动的事后监督。 三、系统实施方
28、案: (一)系统示意图: (二)凭证处理方式: 分为三种类型:自动处理、手工录入、扫描存档。 1、自动处理: 处理对象:前台上机处理业务的凭证。 自动处理过程如下: 银行前台在进行业务时应按照相关要求规范用户的填写;同时按照相关规定打印相关流水信息。扫描录入: 对凭证进行批量扫描。 流水识别: 利用 OCR 技术,在凭证扫描后识别凭证影像中的机打数字,提取临柜帐务数据,建立凭证索引。待监督数据 OCR 识别: 对那些重要的需监督的数据(账号、金额等),利用 OCR 技术提取凭证实际数据,与流水取得的临柜帐务数据进行核对,然后生成待监督数据文件,提供给储蓄事后监督子系统,从而完成储蓄的事后监督。
29、 手工补录: 对流水识别失败或 OCR 识别失败的凭证,以及需要人工特殊处理的凭证,由系统自动把凭证影像显示在屏幕上供操作员查看,进行手工补录凭证要素和人工核对。 生成事后待监督文件: 把凭证要素如交易码、账号、金额、摘要、币种、所号等,整理生成事后待监督文件,每个所每天一个文件,提供给事后监督子系统进行监督。 事后监督: 具体的事后监督工作由银行事后监督子系统完成。内容有:监督大机流水数据和事后待监督文件,上传监督结果;全部所上传监督结果结束后(出于他代本的考虑),批量更新分户帐、总账。将总账和大机返传总账核对。 2、手工处理: 手工处理对象:不适合进行流水识别或 OCR 识别的凭证。对此类
30、凭证,仅通过手工录入所需的全部要素。 3、扫描存档: 扫描存档处理对象:不需要事后监督,不需要建立详细索引,只需扫描凭证采集其影像,并建立批量索引,达到光盘缩微的目的的凭证。 四、凭证处理(汉王 OCR 在银行业务中的适用范围) (一)对私业务: 以“监督要素”识别所有对私业务凭证、单据,结合手工补录、特殊处理,建立索引,输出到事后监督文件。 (二)对公业务: 识别所有对公业务凭条、单据,并输出到事后监督文件。 五、业务处理流程: (1)扫描录入: 由于储蓄凭证具有数量大、纸质好、种类单一等特点,采用高速度、高分辨率的扫描仪作为凭证影像采集的工具,操作简单,处理迅速,且可以成批录入。如配置一台
31、每分钟 60 页扫描仪,一天即可以录入近 3 万张凭证,充分利用了计算机快速自动处理的能力,大大减少了人力的投入,提高了效率。扫描所得的凭证影像清晰度好,分辨率高(可达 400DPI),方便了此后的流水识别、OCR 处理,根据需要,还可以打印出还原度很好的复制件。 在前台批量扫描录入前,指定本批凭证的处理模式(自动处理、手工处理、仅存档),扫描时进行版面理解,记录其版面类型。 (2)处理分流: 后台处理时根据前台指定的处理模式进行处理分流:自动处理,手工处理,不处理。 (3)交易码设置: (4)版面设置: 交易码设置完成后再进行版面设置,为交易码和版面类型建立对应关系,这种对应关系可能是一对一
32、、一对多、多对多。然后为每种要进行 OCR 处理的版面指定处理区域。 (5)流水识别: 传统的凭证索引建立方式是手工录入,即通过录入操作员对照凭证影像,手工输入各个凭证要素,建立凭证影像的精确索引,方便查询。这种索引建立方式速度慢、效率低且容易出错,跟扫描录入的高速和可靠极不相称。 自动方式建立凭证精确索引: 流水识别: 流水识别方式不需在前台临柜打印条码。流水识别是通过 OCR 识别凭证上机打的数字(这些数字包含了流水号、所号、交易码、账号、金额等信息),从而取得凭证的要素,以此作为凭证的要素。 流水识别可以识别凭证上打印的所有所需数据,也可以只识别所号和流水号。采用前一种方式,不需与银行流
33、水数据配对即可建立精确索引,并且因为识别所得的是临柜数据,所以还可以监督银行大机的流水数据是否被篡改。采用后一种方式,则还需与银行流水数据进行配对(通过所号、流水号),然后建立索引。 流水识别的优缺点: 流水识别的优点:不需要修改前台打印程序、不增加前台处理时间、在实验室中识别率很高,和条码识别相仿。缺点:抗干扰能力差,所以在实际应用中,对凭证的清洁、凭证的打印要求很高,要识别的机打数字需打在固定的空白位置,无自校验,识别结果不能保证正确,识别速度比条码识别慢。 (6)OCR 识别: 传统的储蓄事后监督,也是让监督操作员对照凭证影像,靠手工重新录入全部凭证要素,以此作为监督依据,对银行大机中的
34、账务数据进行监督。这种方式同样存在速度慢、效率低、容易出错的缺点。 利用目前的高新技术OCR,直接从凭证影像中提取金额、账号等重要数据,代替人的手工录入,与条码识别/流水识别紧密结合,实现建立事后副本帐、完成事后监督的工作。 OCR 处理是采用目前国内处于领先地位的汉王公司的 OCR 手写体、印刷体识别技术,能识别不同人写的千差万别的手写体汉字和数字,应用于本系统,识别凭证影像中储户填写的信息,如大写金额、小写金额、账号、存期、日期、证件号等,可以代替手工录入。为了达到较高的识别率,可能需要修改凭证的版面印制,以利于 OCR 识别。经过对银行产生的实际凭证进行的大量测试,在我们的努力下,实际应
35、用时可以达到 85%以上的识别率。 OCR 处理一般使用性能较好的 PC 机,OCR 处理程序一经启动会自动扫描数据库中的凭证影像,发现有需 OCR 处理而未处理的,提取到本地进行处理。 OCR 的主要处理内容为识别小写金额,识别得出的金额还要与流水识别所得的金额进行核对,核对成功,则 OCR 识别成功。这样处理是为了避免误判。 (7)手工补录: 流水补录、OCR 补录、特殊处理、手工录入的凭证集中进行统一处理,由交易码决定要录入的内容。 (8)生成事后监督文件: 事后监督文件是后台自动处理和事后监督子系统的接口。只有该所的所有凭证都已处理完毕,才能生成后督文件,生成之前,还要进行重要凭证的统
36、计核对。 (9)事后监督: 缩微电子凭证的查询 已经归档的电子凭证均可以按日期、账号、摘要、凭证号、金额要素中任意组合或特有要素进行查询,也可通过粗索引进行批量查询。 六、模块设计: 本流程按照实现功能的不同划分为 5 个模块,分别是前台录入模块、后台自动处理模块、中心管理模块、查询模块、事后监督模块。 本稿摘自影像采集系统方案 1 客户需求分析1.1. 项目背景现阶段公司主要使用 AscentCapture 进行日常业务单据的采集工作,由于存在动态的单据类型调整和阶段性的扫描量增大的情况,所以需要一个可以快速搭建和部署简洁方便的备用图像采集系统,来填补这部分空缺。1.2. 客户需求客户要求备
37、用系统需包括以下六个功能模块:一、是图像采集部分,主要包括图像的扫描,图像参数的设置,图像预处理功能;二、是表单识别部分,主要负责对采集到系统中的图像进行分类,识别文件类型等;三、是单据处理流程部分,采集到系统中的单据需要经过质量检查、录入索引等步骤后,才可以提交到服务器;四、是单据类型管理部分,主要负责系统要处理的单据的样本页定义,索引、截取签名档的区域定义,类型条码值定义,批次类的设置等;五、是中央信息发布服务器部分,主要负责中央服务器系统的配置信息发布到全国各个扫描工作站,以及对各个扫描工作站的监控和管理;六、是数据导入到 ContentManager 功能,因为目前使用的数据全部是保存
38、在 CM中的,所以要求系统可以将发布到总部服务器的图像和索引信息自动导入到 CM 系统。1.3. 业务过程介绍现有的业务单据采集过程:前端销售和服务人员把单据送到数据加工中心来采集加工,处理完成后发布到 CM 系统,供其它业务应用程序查看图像和调用索引信息。具体操作流程如下:销售和服务人员把需要处理的业务单据装箱送到加工中心;单据准备人员整理单据的顺序,标记废弃单据(折叠整份单据),标记无用页面(在无效单据页面画 X),粘贴条码类型;单据准备人员把准备好的单据给扫描人员,按照每份大约 50 页左右的纸张分份;扫描人员整理单据,剔除折叠的单据,把单据放到扫描仪扫描;扫描人员在扫描界面,查看刚刚扫
39、过的页面,如果图像有折角或者模糊或者偏斜等不合格图像,可以重新扫描,把打 X 的页面或者空白页删除;扫描人员提交批次;质量检查人员看到提交过来的批次,打开批次,检查单据的 Barcode 条码类型和单据是否匹配,如果不匹配重新指定类型,如果发现选错类型的单据可以移动到正确的类型下或者重新选择类型;质量检查人员如果发现空白的或者打 X 的页面,也可以直接删除;质量检查人员如果发现漏扫,在该单据图像文档上标识,注释漏扫,然后把该批次挂起;如果发现保险单号不清楚,手工在单据表单上修改,然后标识单据,注释为重扫,然后把该批次挂起;扫描人员如果发现有挂起的批次,在 QC 界面,把需要重扫的图像重新扫描,
40、需要插入的图像插入进去;质量检查人员检查无误,提交批次给录入索引人员;索引人员检测到有需要录入索引的批次,打开批次,切换文档,自动弹出索引录入窗体,录入保单号,保存;索引人员录入完毕后,提交批次;索引完毕提交的批次,在服务器上进行,区域标记提取,信息类型转换等过程,导入到 CM 系统使用;如果发现发布的数据有错误,可以直接修改,也可以把该数据删除,把单据表单送回数据加工中心要求重新加工。1.4. 业务流程图2 SmartCapture 产品解决方案2.1. 系统架构2.1.1. 系统架构描述SmartCapture 影像采集系统主要分成如下三个部分:客户扫描端:图像扫描、图像处理、质量检查、索
41、引录入等过程;数据上传部分:把打包出来的批次文件,利用 FTP 工具上传到数据中心;CM 导入部分:把上传到数据中心的数据导入 CM 系统。 2.1.2. 系统架构图2.2. 系统运作从系统最终使用的情况来讲,主要有两方面的功能:一是针对最终用户的扫描处理及业务流程部分,二是针对系统运作部分的系统管理及配置部分。2.2.1. 扫描处理及业务流程部分这部分主要由最终用户使用,包括从扫描到发布的处理过程,功能点列表如下:图像扫描1) 录入存仓号码2) 设置扫描参数3) 选择扫描参数模板4) 设置图像处理5) 输入预定义的批次索引如:险种类型等6) 设置空白页移除7) 表单识别8) 自动分类扫描检查
42、1) 检查扫描完成的图像2) 进行简单的图像处理如:纠偏、橡皮擦等3) 删除图像页面4) 插入、追加、替换扫描等质量检查1) 图像查看的放大、缩小、放大镜、切割等2) 对质量不合格的图像设置失败3) 对再加工完成的图像设置成功4) 提交到图像重新扫描5) 提交到录入索引6) 选择表单类型7) 页面排序等录入索引1) 为索引字段的表单录入索引2) 索引自动同步整个 Case3) 修改索引值4) 索引字段区域自动放大5) 索引校验6) 发布批次2.2.2. 系统管理及配置部分文档类定义1) 表单类型定义2) 表单索引区域及签名档区域定义3) 索引字段定义、索引字段属性设置4) 表单条码值与名称设置
43、批次类的定义1) 设置批次的索引字段并选择类型和默认值;2) 索引字段的类型分预定义和自定义两种:预定义的无需用户干预,自定义的要求用户在扫描批次的时候填写;3) 为批次类选择要包含的文档类;4) 设置批次类的状态是发布或者停止使用;5) 设置用来划分不同 Case 的标记表单;6) 设置批次类的名称和优先级。批次类的发布1) 批次类的发布通过两种方式,一种是测试机到正式服务器的操作,先把批次类到出为数据包文件,然后在服务器上导入;2) 一种是 DMIS 分发系统,自动把服务器上的批次类的设置同步到各地的扫描工作站。日志1) 业务流程日志记录一个批次由扫描生成一直到导入 CM 系统的整个过程各
44、个环节发生的时间,有关联的操作者工作站点等信息;2) 错误处理日志记录系统的边界溢出或者操作错误,对未知错误记录错误发生的模块及时间,等待操作员处理。系统监控1) 批次列表可以监控整个系统正在运行的所有批次的状态,是属于哪个环节,批次生成的时间,扫描的站点等信息;2) CM 导入监控可以查看到目前等待处理的批次列表,批次导入过程的时间,导入的索引字段内容等;3) 数据上传监控可以查看数据在上传到数据中心的时候的情况,包括数据上传的队列,数据上传的时间,数据包大小等。2.2.3. 系统硬件建议配置客户端硬件需求:Intel Pentium III 500 MHz CPU 或等效配置512MB 内
45、存或以上硬盘空间:64M(推荐留有足够的缓存空间用于图像浏览)1024 x 768 像素屏幕区域 256 色显示或以上网络接口:10M/100M操作系统需求:Microsoft Windows 2000 Professional /XP/Windows 2003支持 TWAIN / Kofax 驱动的扫描仪服务器端硬件需求:Intel Pentium III 800 MHz CPU 或等效配置512MB 内存或以上(推荐 1G 内存)硬盘空间:1G 本地硬盘空间,额外需要 300 兆 C 盘或系统盘的硬盘空间用于存储安装文件、临时文件和软件处理时的工作空间1024 x 768 像素屏幕区域真彩
46、色显示并口或 USB 接口(供 SmartCapture 硬件键使用)网络接口:10M/100M操作系统需求:Microsoft Windows 2000 Server 或 Advanced Server with SP4 or MSWindows 2003 ServerMSDE or Microsoft SQL Server 7.0/20002.3. 方案部署建议2.3.1. 网络拓扑图2.3.2. 部署内容介绍系统部署的时候,在总部的服务器部署 SmartCapture 影像采集系统的服务器,FTP服务器,DMToCM 导入服务、DMIS 服务;在扫描站点,根据业务流程角色,分为扫描、质检
47、、索引发布等,该流程可以分开部署也可以由一人在同一台机器完成。扫描站点需要安装的软件包括:SmartCapture扫描端、FTP 上传工具、 Barcode 条码识别插件等。首期运行的扫描线,建议放在广州营业总部,方面项目管理人员参与和项目实施过程中的沟通交流比较方便。扫描线部署结构图:后续的扩大部署,在中心的服务器上部署 DMIS 服务,负责发布批次类定义信息到各个扫描线,需要增加扫描线的地方需要安装的内容包括:SmartCapture 网络版(客户端和服务器端)、FTP 上传工具。3 公司及产品简介3.1. 公司简介集团始建于 1985 年,总部设在香港,在大陆有超过 600 名员工,在全
48、国各地有 15个办公室和 20 多个技术支持中心,为销售的软件和硬件提供及时完善的服务。3.2. 公司产品介绍公司旗下有完整的产品线,主要业务从硬件的扫描仪、存储到软件的图像采集、内容管理等。公司从 1993 年开始代理 Kofax 的产品,包括 VRS、Acent Capture 等,负责这些产品在香港和大陆市场的实施和定制开发。鉴于国外产品几乎都在不同程度上,存在难以完全适应本地用户使用的问题,一方面由于技术中心在国外,技术支持困难;另一方面业务逻辑差异,造成操作过于复杂,使用不便。在 2002 年,集团软件部推出了自主研发的针对国内企业市场的图像采集处理软件 SmartCapture,本
49、地化的开发模式可以为客户提供更快捷、更完善的服务;强大的开发实力可以提供各种定制开发,一方面使产品可以更全面的满足用户的业务需求,另一方面可以更符合用户的使用习惯。由于 SmartCapture 软件简便易用的操作方式和灵活多样的定制开发服务,使SmartCapture 软件在推出的短短几年时间内就赢得了大量客户的认可,在金融、通讯和物流等行业取得了广泛推广应用。经过一段时间的积累,在 2005 年,SmartCapture 开始走进保险行业,主要客户有中国人寿、深圳平安保险;2006 年的保险行业主要客户有中国人民财产保险公司、中国出口信用保险公司;到 2007 年,有更多的保险公司选择我们的产品,包括:太平人寿、人寿养老保险、香港 ING 等。