1、第四章文本和表格信息加工 4.1文字及其处理技术,汉字起源于象形文字,至今仍然保留了象形文字的特点。,汉字的造字法有四种:象形、指事、会意、形声。,这是一个指事字。从字体上看,就是本 字倒过来。上部为树头,下部为树梢, 在树梢上加一小横,就表示这里是树梢。 因此,末的最初的意义是树梢。,象形,指事,体验文字处理技术,金文明为日月幷照之会意字。,会意,东巴文字现代活着的象形文字,体验文字处理技术,东巴文字,历史上使用的文字处理技术,手写,刻字,雕版印刷,活字印刷,机械式 打字机,计算机 文字处理,计算机文字处理,只能处理英文,体验文字处理技术,文字信息的数字化文字的获取,键盘编码输入通过键盘直接
2、输入文字,并保存为文本类型文件。扫描输入通过OCR技术将图形中的文字内容识别出来,并以文本形式存储。步骤: 扫描(分辨率要达到300dpi) 进行文字识别 文本编辑修改语音输入手写输入,目前计算机上使用的汉字编码主要有三种。,输入码 (外码),机内码 (内码),输出码 (字型码),用于输入汉字的编码,用于存储汉字的编码,用于输出汉字的编码,熊,如国标码(GB)和 BIG5码,汉字的编码,1、汉字输入码的分类:,音码,形码,混合码,按照汉字的读音(即拼音)进行编码。 如:全拼双拼、拼音加加、紫光拼音、智能ABC 。,按照汉字的字型进行编码。一般采用字根法和笔画法。 如:五笔字型(王码)、郑码、表
3、形码。*王码的发明人:王永民,将汉字的字形和字音相结合的编码方法,称音形码或结合码。此编码以音为主,以形为辅,音形结合。 如:自然码。,常见的是:国标码(GB)和BIG5码*GB2312、GB18030(中文简体) 国标码是汉字信息交换的标准编码GB-2312是中国大陆的字体编码标准,在1981年由中国国家标准总局发布,包含6763个简体汉字及682个符号,是目前在中国大陆最普遍使用的字体编码。 GB-18030是中国大陆新的字体编码标准,在2000年由国家质量技术监督局及信息产业部联合发布,它与GB-2312兼容,包含27532个汉字及884个符号。 *BIG5 :台湾香港地区普遍使用的一种
4、繁体编码,俗称“大五码”,2、汉字的机内码(内码),汉字的编码,3、输出码(字型码):字模(点阵、向量),储存这个字型码需要88=64位二进制, 即8个字节(1字节=8位二进制),输出码(字型码)的种类,点阵数越大,显示汉字的效果越好,需要的存储容量也越大。,如图:表示一个汉字的字形用1616点阵输出,那么表示这个汉字需要用到的字节数是_.,计算方法:16*16/8 由于8个二进制位为一个字节,因此1616点阵的一个汉字需用32个字节来存放。这32个字节中包含的信息就构成了一个1616点阵汉字的字模。,随堂练,例:“春”字在计算机中的处理过程。,(二)字处理软件*常用的字处理软件:,字处理软件的基本特征,1、GUI(图形用户界面)界面:简单易学,2、功能丰富:个性选择80:20规则 书P63表4-3我们要做的是学会基本操作,然后根据需要灵活运用 帮助系统自学提高,3、变化迅速:易于迁移 我们应该学会一般方法,触类旁通,关注如何应用。 根据自己的实际需要选择最有利于完成任务的处理软件。,文本信息加工例子,作业,1、体验神奇的东巴文字 2、加工“再别康桥”这首诗,要求用到艺术字、图片等素材,加工完毕后上传至教师机,提交作业。,