收藏 分享(赏)

文本获取与处理.ppt

上传人:Facebook 文档编号:3817844 上传时间:2018-11-19 格式:PPT 页数:59 大小:2.91MB
下载 相关 举报
文本获取与处理.ppt_第1页
第1页 / 共59页
文本获取与处理.ppt_第2页
第2页 / 共59页
文本获取与处理.ppt_第3页
第3页 / 共59页
文本获取与处理.ppt_第4页
第4页 / 共59页
文本获取与处理.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

1、第2章 文本获取与处理,主讲教师 胡永斌,2,本章主要内容,2.1 文本的基本知识 2.2 文本信息的采集方法 2.3 文本信息处理 2.4 超文本标记语言 2.5 文本处理工具软件,数据单位,计算机存储数据时的最小单位是位(bit),一个bit可以存储一个二进制数。存储数据的基本单位是字节(Byte),简记为B。规定一个字节等于8个位,即1Byte=8bit。一个字节可以保存一个英文字符,一个汉字要占用两个字节。 计算机的存储器是以字节为单位,每个字节都有一个地址编码,通过地址找到某个字节来存取数据。由于二进制的原因,存储容量的倍数用“千“表示,“千“等于1024。1KB=1024B;1MB

2、=1024KB;1GB=1024MB;1TB=1024GB。,4,2.1 文本的基本知识,在计算机中,文字和数值都是用二进制编码表示的,文字信息、数值信息、符号信息统称为文本信息。对于具备中英文处理能力的计算机来说,文本信息则主要由ASCII码表所规定的字符集(包括字母、数字、特殊符号等)和汉字信息交换码所规定的中文字符集中的字符组合而成,习惯上把前者称为西文字符,而把后者称为中文字符。计算机处理文字信息主要包括输入、编辑、存储、输出等。,5,2.1.1 西文字符,西文字符是指由ASCII码表所规定的字符集,包括字母、数字、特殊符号等。ASCII是英文American Standard Cod

3、e for Information Interchange的缩写,意为“美国信息交换标准代码”。1、字符编码(ASCII码):用7位二进制数表示,共能表示27=256个不同的字符,包括了计算机处理信息常用的26个英文大写字母AZ、26个英文小写字母az,数字符号09、算术与逻辑运算符号、标点符号等。在计算机中,每一个西文字符均对应一个ASCII码,例如,字母A的ASCII码值为十进制数65,小写字母a的ASCII码为十进制数97。,6,7,2、字符外观及存储:每一个字符的外形可被绘制在一个M x N的方格矩阵中,如又图(a)所示。在图中,笔画经过的方格有点用1表示,未经过的方格无点用0表示,这

4、样形成的0、1矩阵成为字符点阵。若M=N=8,可依水平方向按从左到右的顺序将0、1代码组成字节信息,每行一个字节,从上到下共形成8个字节,如右图(b)所示。这就是字符外观的点阵编码,用点阵编码存储字符外观。,(a)大写字母A的方格矩阵,(b)字符点阵及十六进制编码,8,3、字符显示过程将所有字符的点阵编码按照其在ASCII码表中的位置顺序存放,就形成了一个字符点阵库。从ASCII码转换成字符点阵的功能称为字符发生器。通过字符发生器完成字符的显示过程。,9,2.1.2 中文字符,中文字符(即汉字)是指由汉字信息交换码所规定的中文字符集,全称为“信息交换用汉字编码字符集”,是我国国家标准总局于19

5、81年5月1日颁发的,也称为国标码集,标准名简写为GB2312-80,共收入了6763个汉字,682个数字和图形符号,并规定一个汉字的编码用两个字节表示,称此编码为汉字内码。国标GB18030-2000,收录了27000个汉字。中文字符处理的过程:首先将所有的汉字在给定的方格内绘制出点阵图像,然后按照0、1矩阵形成字节编码,再将所有汉字的点阵字节编码按照其在汉字码表中的位置顺序存放,形成汉字点阵字库。,10,2.1.5 文本与超文本文件,3种类型的文本文件:,1、无格式文本文件 只存储文字信息本身,文字以固定大小和风格输出,因而也称为纯文本,通常保存为.txt类型的文件。 2、格式文本文件 不

6、仅包含文字信息,还包括文字的字号、颜色、字体以及其他用于规定输出格式的排版信息 。编辑这类文件,可设置文本的字体、字号、颜色、字形(正常、加粗、斜体、下划线、上标、下标等)、字间距、行间距和段间距等。格式文本要用功能较强的字处理软件来编辑,如MS Word和金山WPS等。,11,图2-7 格式文本,12,3、超文本文件超文本文件是建立在非线性的超文本概念基础上的,它将文本内容按其内容含义分割成不同的文本块,再按其固有的逻辑关系通过超链接组织成非线性的网状结构,从而提供了一种符合人们思维习惯的联想式阅读方式。纯粹的超文本文,图2-8 超文本文件的逻辑结构定义,件是由超文本标记语言(HTML)和被

7、分割的不同文本块按照HTML规定的格式要求组成的。,13,图2-9 (a) 超文本文件实例 (b) 浏览效果,用超文本描述语言定义的超文本文件需要用相应的浏览器浏览才能按照其非线性组织方式阅读内容。图2-9给出了一个具体的超文本文件实例和浏览效果。 当超文本文件中的内容不仅包含文本块,而且还包含图片、声音、视频、动画等多种媒体信息,且通过超级链接实现各种媒体信息的组合使用时,这种超文本文件就又被称为超媒体或超媒体文件。,14,表2-2 常用文本文件存储类型说明表,2.1.6 常用文本文件存储类型,15,2.2 文本信息的采集方法,1、键盘输入:主要的输入方法。通过键盘,英文信息可直接输入;中文

8、信息则通过不同的中文输入编码来完成。 2、手写输入:一种非常人性化的中英文输入法,适合于不习惯键盘操作的人群和没有标准英文键盘的场合 3、语音输入:语音输入是通过计算机中的音频处理系统(主要包括声卡和麦克风),采集处理人的语音信息,再经过语音识别处理,将说话内容转换成对应的文字完成输入。 4、OCR输入:是指用扫描仪将印刷文字以图像的方式扫描到计算机中,再用OCR文字识别软件将图像中的文字识别出来,并转换为文本格式的文件,完成文本信息的输入。,文本的获取技术,1. 输入法的分类:包括键盘输入法、手写输入法和语音输入法等。 2.键盘输入法按编码原理可分为: 音码输入法,如全拼、智能ABC、拼音加

9、加、智能狂拼、谷歌输入法、搜狗输入法、QQ输入法等; 形码输入法,如五笔、郑码等; 音形码输入法,如二笔、自然码、一笔等;,模式识别(pattern recognition)是指借助计算机,就人类对外部世界某一特定环境中的客体、过程和现象的识别功能(包括视觉、听觉、触觉、判断等)进行自动模拟的科学技术。 文本识别技术 语音识别技术 手写识别技术,文本的获取技术,3.文字识别输入光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。常见软件包括汉王OCR,清华紫光OCR,尚书OCR等。,文本

10、的获取技术,4.语音识别输入语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取、模式匹配及模型训练三个方面。,4.语音识别输入推荐软件IBM ViaVoice Pro 简体中文版Microsoft SDK 语音识别软件,文本的获取技术,5. 手写识别(Handwriting Recognize)输入法手写识别是指将在手写设备上书写时产生的有序轨迹信息转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程,手写输入是人机交互最自然、最方便的手段之一。随着智能手机、掌上电脑等移动信息工具的普及,手写识别技术也进入了规模应

11、用时代。 手写输入法需要配套的硬件手写板,在配套的手写板上用笔(可以是任何类型的硬笔)来书写录入汉字,不仅方便、快捷,而且错字率也比较低。,汉王手写板,汉王手写电脑领航系列A12A,ipad,24,2.3 文本信息处理,2.2.1 格式文本处理格式文本是由文本信息、文本属性信息以及文本版面信息等三部分内容组成。文本信息是格式文本的内容,是主体部分;文本属性信息、版面信息用来表现和反应文本的形式。内容与形式的适当搭配,是格式文本处理的基本要求。格式文本处理的主要目的是为了出版发行(包括打印、电子发行等)。除了创意和设计风格外,格式文本处理在技术方面有以下几方面的基本内容:,1、版面格式设置 版面

12、布局:主要指文本版面的上、下、左、右四周的边距。以及页眉、页脚、页码等内容的定位,最后确定可排版的版心区域。如图2-15(a)所示,25,图2-15 格式文本的版面格式, 版面风格:主要指版心区域文字的排列方向(横向、纵向)和纸张类型(空白纸、横格纸、方格纸)等内容。如图2-15(b)(c)(d)(e)所示。,26,2.文字属性编辑,文本中的文字属性包括文字的字体(Font)、字号大小(Size)、风格(Style)、定位(Align)、颜色(Color)等内容,属性编辑就是通过相应的操作实现对这些属性值的设置和修改。 (1)字体,计算机中的字体由安装的不同字库来提供,通常都安装在Window

13、s系统下的Fonts目录中。除了英文字体外,Windows系统还提供了许多中文字体,主要包括宋、仿、黑、楷、隶书、行楷、幼圆等近20种。,图2-16 部分中文字体,27,系统还提供了一些标志符号库,其中存放了许多装饰性标志或符号,需要时可以象使用文字一样使用这些标志符号。,图2-17 Wingdings2字体范例,28,(2)字号:汉字的大小通常用规定大小的字号来描述,分为初号、小初号、一号、二号一直到八号,初号字最大,八号字最小。西文字符通常则是直接给出字符的大小,以“磅”(Point)为单位,最小字为5磅,最大字为72磅。 “磅”值越大,字就越大。表2-3给出了汉字字号与“磅”以及毫米之间

14、的对应关系。,29,(3)风格:具体风格选择有:普通、加粗、斜体、下划线、字符边框、字符底纹和阴影等。 (4)颜色: (5)定位:文字的定位主要有:左、右对齐、居中、两端对齐以及分散对齐等设置,使用时根据需要加以选择。 2.非文本内容排版 非文本内容如图片、表格、数学公式、文本框等,合理使用和处理这些内容,不仅可实现版面的文、图、表等表现形式的综合利用,还能将格式文本应用于科技资料处理中,增加格式文本的表现力和说明力。 需要特别强调的是,文本版面及文字属性设置虽然是格式文本处理的主要途径和重要内容,但文本内容的正确性、准确性、翔实性、权威性等更为重要。所以要在保证内容质量的前提下再追求形式的多

15、样,这是任何文本处理的最基本原则。,30,2.2.2 超文本处理 超文本处理是在格式文本处理的基础上,充分发挥超文本的非线性网络结构的优势,集成多种媒体信息于一体,设计处理灵活方便的交互操作,实现交互式联想阅读。 1、文本设计 主要包括内容设计、结构设计、交互操作设计三个方面。 (1)内容设计 文本内容设计强调内容的精简、适当,不能繁琐 。 对于那些希望引起人们关注的文本内容,更应在位置和显示方式上作特殊处理,必要时可通过超级链接在新窗口打开整个文本阅读。,31,(2)结构设计指根据超文本的非线性网络特点,按照文本内容的内在逻辑关系,将要表现的文本内容分成若干相对独立的文本块,并为每个文本块设

16、置检索关键词,以便更好地反映他们之间的联想关系。,32,(3)交互操作设计 指通过超文本中的菜单、按钮、超链接等机制实现检索词与文本块的链接关系以及导航功能,从而实现网状文本结构的搭建,如图2-19所示。,33,2、选择合适的字体和风格,选择合适的字体是不仅是一个技术问题,更是一个艺术创意。设计建议:中文字体要在考虑艺术性的基础上,考虑人的文字使用习惯,正式场合应用的文本要符合有关标准要求。英文字体,应当尽量选择清晰易读的字体,避免使用难以识别的装饰型字体。 同一文本内容应采用尽可能少的字体,在必要时可利用斜体和加粗来调整显示效果;文本块的行间距要调整到令人愉悦的水平,太拥挤会给阅读带来很大困

17、难。 文本标题应选择更显眼或者更清晰的字体,可通过改变颜色或增加背景效果等凸显标题。还可使用阴影样式。,34,3、图形文字和动画文字,图形文字和动画文字可为文字赋予更多的效果和艺术内涵,插入到文本中后可增加文本的表现力和艺术效果。处理图形化文字主要有三种途径: 1)用图象处理软件制作“艺术字”,如下图;,图2-20 图形文字举例,2)用动画制作工具设计制作相应的“动画字”或“3D字”;3)通过图符/字体设计软件重新设计自己独特的专用图标或符号。,35,4、通用符号和图标,符号是以独立的图形为形式的浓缩文本。可以传递有意义的信息。处理超文本时,适当选择一些常见通用的符号或图标来替代文字内容,会产

18、生比文字本身更简洁直观的作用。比如各种交通标志、禁烟标志、生活中各种注意标志等。需要说明的是,应尽量避免使用只有自己才明白的符号和图标。下表给出了几个通用图标(播放器按钮)及其对应的含义。,36,5、导航与路径,导航可由整个系统中的多层菜单组成,用户通过操作本层菜单进入下层菜单或浏览文本内容或返回上层菜单。 6、特殊字符处理,图2-21 选择特殊字符,扩展字符集中的字符无法通过键盘直接输入,比如注册符号“”和摄氏温度符号“”。如果文本处理中遇到无法输入,的特殊字符,则可通过处理软件所提供的“插入字符”功能,通过打开字符集并选择所需字符来实现。,37,7、HTML文件,超文本 (HTML )文件

19、是由一种被称为超文本标记语言(HTML)的标准文件格式来存储的。在HTML文件中,可以通过标记符(tag)对文件中的文本进行标记,以便规定字样、大小、颜色以及其他属性。当使用浏览器阅读该html文件时,浏览器就会将这些标记符之中的文字按照各自的标记符所代表的含义进行处理,显示出正确的效果。在HTML语言中,还有很多描述超文本页面排版的各种标记符,比如定义超链接、定义表格、嵌入其它媒体(声音、图片、视频、动画)等。,38,2.4 HTML超文本标记语言,2.4.1 相关概念, HTTP:英文全称为Hypertext Transfer Protocol(超文本传送协议),用来定义www网的资源访问

20、方式。 URL:英文全称为Uniform Resource Locator(统一资源定位器),用来指定网上信息资源的地址,其具体格式为:协议:/主机地址:端口/路径/文件名。例如: http:/ HyperLink:超级链接,用于按URL格式链接www网络资源。 HTML版本:目前使用比较普遍的HTML版本是4.0版,可支持不同种类的语言,为信息检索工具提供更有效的检索及更高的网页质量。,39,2.4.2 HTML文件,1、文件元素和标签的概念一个HTML文档通常由文档头(head)、文档名(title)、表格(table)、段落(paragraph)和列表(list)等成分构成,通常把这些成

21、分称为文件元素(element),它们是超文本文件的基本构件,并且使用超文本标记语言规定的标签(tag)来标识。每个HTML标签分开始和结束两种,开始标签由3部分组成:左尖括号“”,结束标签是在开始标签的“”后添加符号“/”。开始标签和结束标签通常是配对出现的。 某些文件元素还可以包含相应的属性(attribute)。,40,2、HTML文档的结构,从文本角度看:HTML文档本身是一种无格式的文档,也称为ASCII文件,可以使用任何一种文本编辑器来编写。从HTML的语法看:每个HTML文件都是由标签开始,以标签结束。每个HTML文件都由两部分组成:文档头(head)和正文(body),并分别用

22、 和 来作标记。文档头标签 之间所包含的是与整个文档相关的文件元素定义,如文档的的标题(title)。正文标签 之间含有用各种HTML标签作标记的段落、表格、和其他文素组成的实际文档。,41,本章2.1.5节中的图2-9(a)给出了一个简单的HTML文档,具体文本内容如下:,42,2.4.3 HTML标签和属性,1、标签HTML的标签很多,按功能可分为文件结构、字体字号、字型变化、段落定义、图像定义、版面排列、表单输入、表格定义、超链接等几类,所有标签都遵守以下基本格式:,2、属性属性是用来定义HTML标签所含特征的一组参数,用来表现HTML的灵活性。,43,3、应用举例,【例 1 】利用 标

23、签定义无编号列表。,图2-32 标签的显示特性,计算机科学生物工程工商管理浏览该文件,显示样式如图2-32所示。,44,【例 2】 用 定义有编号列表。网络游戏开放时间:18:30-23:30 门票价格:会员20元,非会员60元。条件限制:18岁以上成年人结算方式:现金或其他信用卡均可说 明:会员卡优惠浏览该文件,显示样式如图2-33所示。,45,图2-33 标签的显示特性,46,2.4.4 超链接,链接是HTML的一个最强大和最有价值的功能,它是指文档中的文素或者图象与另一个文档、文档的一部分或者一幅图象链接在一起。 要把一个多媒体文档(文本、图片、声音、视频、动画或超文本文档)或文本中的一

24、部分与对应的检索信息建立链接关系,主要有3种链接方式,下表给出了每种方式的具体格式与链接说明。,47,2.4.5 定义表格,在HTML文档中,经常用表格来布局超媒体的页面内容。一张表格有许多表素(table element)组成, HTML为表格规定了表素标签和属性,表2-6和3-7分别给出了它们的标签和属性。,48,表格的标签和属性也是随着设计过程,由超文本设计工具自动产生的,一般不需要自己从头编写表格定义代码。,49,2.4.6 转义字符序列,用来解决HTML中已经被定义了相应功能含义的字符在文本内容中的正常使用问题而采用的一种变换技术。例如,符号“”已经被定义成标签的开始和结束符号,因此

25、当正文内容中出现这两个语法符号时,就会产生符号冲突问题。此时,可采用转义字符序列技术,定义这些字符的转义字符串,当解释程序遇到这类字符串时就将其解释为真实的字符,这样就可以有效地解决此类问题。,50,2.4.7 其他超文本标记语,1、DHTML:动态超文本标记语言,允许用户在网页中加入有趣的图形图像及交互功能,而无需网页访问Web服务器。2、XML:扩展的标记语言,它允许网页开发者自己定义标记以及使用预先定义的标记。 3、XHTML:扩展的超文本标记语言,它包括了HTML和XML的特性。 4、WML:无线标记语言,它是XML的一个子集。WML允许网页开发者设计专门用于WAP浏览器的网页。 5、

26、VRML:虚拟现实模型语言,它是一种三维造型和渲染的图形描述语言。,51,2.5 文本处理工具软件,2.5.1 文本处理软件概述超文本和超媒体概念的引入,使得文本处理从单一的无格式文本迅速发展到格式文本和超文本的阶段。目前的文本处理工具软件主要分为三类:1.无格式文本编辑工具:主要完成文字输入和内容编辑功能。 2.格式文本编辑工具:除了完成文本输入和内容编辑功能外,还增加了对文本内容的格式、风格、版面以及其他非文本内容的处理。2.超文本编辑工具:在前两种处理功能的基础上,采用不同版本的超文本标记语言来描述超文本中的各种属性和非线性结构。,52,2.5.2 Word 字处理软件,Word字处理软

27、件是MicroSoft公司开发的办公套件MS Office中专门用来进行文字处理的软件产品,操作简单直观,文字处理功能强大,可运行于计算机平台和PowerMac平台。,图2-42 MS Word 2003中文版主界面,主要功能有:1.内容编辑 2.图文混排 2.排版功能 4.表格功能 5.特殊功能,53,2.5.3 常用的超文本设计软件FrontPage MS FrontPage 是微软公司推出的超文本编辑工具软件,最大特点就是具有和MS Office 其他软件同样的操作界面和操作设计习惯,因此,使用者很容易上手操作。同MS Office的其他产品一样,目前国内较为流行的MS FrontPag

28、e产品是2003简体中文版。 MS FrontPage 2003版在页面布局设计、代码编程、数据驱动、网站发布以及网站维护等方面,均增加了新的功能,因此,FrontPage 不仅是一个超文本编辑软件,更是一个在动态超文本设计方面具有较强功能的动态超文本开发工具,广泛应用于网页设计、网站开发和电子出版等领域。,54,2.5.4 典型的超文本设计软件DreamWaver,Dreamweaver 是Macromedia公司开发的一个可视化的网页设计和网站开发工具,目前的最新版本是Macromedia Dreamweaver MX 2004。Dreamweaver能创建基于Web数据库的动态Web应用

29、,支持ASP、ASP.NET、ColdFusion Markup Language (CFML)、JSP以及PHP等服务器语言。,55,2.5.5 超文本设计工具软件的综合应用超文本设计是目前文本处理的最高境界,它是技术、艺术、想象和技巧的综合运用。设计者若有多丰富的想象空间,就会产生相应的技术支持需求。并通过多种工具软件的综合使用来完成。,不同的超文本设计工具各有特色; 设计者不可能在全面掌握某工具软件之后才开始设计; 超文本的设计过程需要集成其他各种媒体信息,如声音、图片、视频、动画等。,基于以上原因,在超文本设计过程中,最好综合使用不同的编辑工具,以便取长补短,提高超文本的处理效率,并取

30、得让自己满意而投资方意想不到的处理效果。,56,本章小结,通过本章学习,应掌握以下知识点:1)计算机中的文本包括西文字符和中文字符,不管哪种字符,均有标准编码字符和扩展编码字符之分,通常所说的文字处理,强调地是标准编码(ASCII码和国标汉字码)字符的处理。2)计算机中没有的字符可以通过造字程序或其它字体设计程序来设计,然后可与相应的字体库或输入法相连接,然后在系统中使用。3)Unicode编码是为了解决世界各国文字编码不统一的问题而制定的统一编码标准,该标准中收集了18000多个汉字。但目前的软件系统还没有完全支持Unicode。,57,4)文本信息的采集方法除了普通的键盘输入外,还有语音输

31、入、手写输入和OCR扫描识别输入等多种方法。5)超文本处理的基本内容包括文本内容设计、文本结构设计、交互操作设计等,超文本设计的目标就使用恰当的表现形式以及简便易用的交互操作展现多媒体信息的内容。图形化文字和动画文字是丰富和活跃超文本形式的主要途径。6)HTML超文本标记语言是通过各种标记和属性来描述超文本信息的,通过超文本可集成、组织各种媒体信息,从而形成超媒体。,58,7)超文本文件是由文件头和文件体两大部分组成,并分别用和标记来标识,整个文件内容,包含在标记中。8)超文本处理通常是在超文本编辑工具软件的支持下来进行的,而目前的超文本编辑工具大多都提供可视化的桌面设计功能,因此,没有必要直接编写HTML代码来完成;了解HTML语言的目的是为了阅读或修改超文本文件。,实验内容,1.请写出你最喜爱的文本输入法,并分析其技术特性; 2.请扫描一张A4纸,并使用汉王ocr识别软件识别其文字; 3.利用IBM语音识别软件尝试对荷塘月色进行语音输入; 4.下载高中课文祝福 的文本,并对其按照课本进行排版。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报