分享
分享赚钱 收藏 举报 版权申诉 / 80

类型汉字信息处理与汉字输入法.ppt

  • 上传人:11xg27ws
  • 文档编号:5861702
  • 上传时间:2019-03-20
  • 格式:PPT
  • 页数:80
  • 大小:986.50KB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    汉字信息处理与汉字输入法.ppt
    资源描述:

    1、第章 汉字信息处理与汉字输入法,据统计,全世界使用汉字的人数约占世界总人口的36%。虽然汉字是世界上使用人数最多的文字之一,但早期的计算机是不能处理汉字信息的。拼音文字如英文,其单词可以由为数不多的字母通过不同的排列来构成。因此,用计算机来处理就比较简单。而表意文字如汉字,其构成词的符号是独立的。不但符号数量多,而且结构复杂,计算机处理起来就比较困难。,自20世纪60年代以来,日本、中国及其他一些国家相继开展了汉字信息处理的研究。1974年,我国将汉字信息处理研究课题“748工程”列为国家重点工程,研制汉字精密照排系统和汉字情报检索系统。20世纪70年代末到80年代初,我国在汉字基本属性、编码

    2、和存储、输入与输出设备和汉字应用系统等方面的研究取得了迅速的进展。尤其是激光精密照排系统已达到世界领先水平,微型机汉字信息处理技术进入了实用阶段,使我国计算机应用的深度和广度都向前迈进了一大步。,. 汉字信息处理的基本问题. 微机汉字信息处理系统的构成和使用4. 3 拼音码输入法,第章 汉字信息处理与汉字输入法,. 汉字信息处理的基本问题,4.1.1 文字信息的计算机处理过程要用计算机来处理文字,必须解决如何把文字输入计算机并在计算机中存储起来,进行适当处理之后再输出文字等问题。首先要解决用0、1代码串表示文字符号的问题,也就是前面提到的编码问题。,以英文信息的计算机处理为例,英文字符的编码标

    3、准是ASCII码,即美国信息交换标准代码。这是七位的二进制代码,它是美国国家标准学会(ANSI)为计算机的信息交换提出的标准,后来由国际标准组织(ISO)确定为国际标准字符编码。为了和国际标准兼容,我国根据它制定了英文字符编码国家标准,即GB1988。其中除了将货币符号置换为人民币符号外,其他都与ASCII码相同。,计算机的键盘原本就是为英文输入设计的,只要按照字母击键,就可以输入英文。键盘的译码电路按照所击的键产生英文字符的ASCII码,输入到计算机的内存中。为了对输入的文字进行编辑加工,必须使用相关的应用软件,如Word 2000、WPS 2000,或其他文字处理软件。经过编辑的文本仍然以

    4、ASCII码表示。输出时,这些代码必须转换成字符字形的点阵,以便显示或打印。因此,计算机必须存储每个英文字符、数码以及标点符号的点阵信息。这些点阵信息构成了所谓“字模库”。字模库的点阵以有点或无点来表示文字和符号。,文字、符号的点阵信息由显示器或打印机输出时,必须通过相应的驱动程序,将点阵信息转换为显示器、打印机的电子或机械的操作。文字信息的计算机处理过程如图4.1所示。,图4.1 文字信息的计算机处理过程,汉字信息的计算机处理过程与英文信息处理过程是类似的。不过,由于汉字信息的特点,以及要考虑与英文信息处理系统兼容等问题,处理的难度更大。我国经过多年的研究,汉字处理的基本问题已经解决。,4.

    5、1.2 汉字编码标准为了用0、1代码串表示汉字,在汉字系统或通信系统之间交换信息,必须给每个汉字规定一个统一的代码。这就是汉字的交换码。1981年5月,我国国家标准总局颁布了信息交换用汉字编码字符集(GB 2312-80),作为汉字交换码编码的国家标准,简称国家标准汉字编码,或国标码。收进该标准的字符共有7 445个。其中一级汉字3 755个,二级汉字3 008个,共计6 763个。一、二级汉字约占近代文献汉字累计使用频度的99.99%。为便于查找,一级汉字按汉语拼音顺序排列;二级汉字一般不易熟记它们的发音,故按部首和笔画排列。另外还包括常用符号、序号、GB 1988图形字符集、日文假名、希腊

    6、字母、俄文字母、汉语拼音、注音字符、制表符号等。,返回首页,累计使用频度不足0.001%的汉字数量接近1万个。为了满足计算机实际应用的需要,我国在GB 2312-80的基础上扩大收字的范围,制定了“汉字内码规范”GBK,包含了20 902个汉字,又称为扩展的国标码。在Windows 95/98和其后的Windows 2000中,装入了GBK的全部汉字和符合GBK和GB 2312-80的输入法。由于汉字的字符多,一个字节八位二进制代码不足以表示所有的常用的汉字。为了不与西文的ASCII 码混淆,在微型机汉字系统中,国标码的每个符号都用两个字节(十六位)代码来表示,并作为转换为机内码或其他汉字处理

    7、代码的依据。,1. 国标码 汉字国标码就是GB 2312-80为汉字规定的代码,也称为交换码。国标码是汉字编码的国家标准。在GB 2312-80代码表中,纵向分为093,共94行;横向也是093,共94列。行与列分别用七位二进制码表示,第一字节表示行,第二字节表示列。其值都从0100001到1111110。这正是ASCII 码的可打印字符的编码。其范围为十六进制的217E。汉字国标码是将第一字节和第二字节连写而得到的。由于二进制形式太长,通常用十六进制表示。 例如: 汉字 第一字节 第二字节 十六进制 区位码啊 0110000 0100001 3021 1601保 0110001 010001

    8、1 3123 1703播 0110010 0100101 3225 1805,图4.2给出了GB 2312-80代码表(局部)。b7 第 b6 二 b5 字 b4 节 b3 b2 b1 第一字节 位 b7 b6 b5 b4 b3 b2 b1 区 16 啊阿埃挨哎唉哀皑 17 薄雹保堡饱宝抱报 18 病并玻菠播拨钵波 19 场尝常长偿肠厂敞图4.2 GB2312-80代码表(局部),2. 区位码国标码还可以表示成区位码的形式。在GB2312-80代码表中,将行号称为区号,列号称为位号,分别有94个区和94个位。将汉字置于其中,由区号与位号标识出汉字在代码表中的位置。区号与位号都用两位十进制数表示

    9、,不足两位的前面补零。每个汉字或符号的区号和位号连起来就组成这个汉字或符号的区位码。这样,每个汉字或其他符号都可以用位十进制数表示。因此,区位码可以用来作为汉字输入的编码。,在区位码表中,19区为字母、数字、特殊图形符号等;1015区是未定义的空区;1655区为一级汉字区;5687区为二级汉字区。例如,“啊”字的区位码是1601,“保”字的区位码是1703,“播”字的区位码是1805,等等。区位码与国标码之间有一定的对应关系:将区位码的区号和位号分别由十进制转换成对应的十六进制数,然后加上十六进制数2020H(H表示2020为十六进制数码),就得到对应的国标码。例如,“啊”字的区位码是1601

    10、,分别将区号和位号转换成对应的十六进制数得1001H,再加上2020H就得到“啊”字的国标码为3021H。,3. 机内码 汉字机内码是在计算机内部实际用来表示汉字的代码。不同的计算机系统使用的机内码是不同的。在微型机中,多采用两字节代码作为机内码。在大、中型机中,多采用三字节或四字节代码作机内码。制订机内码必须考虑下列因素:汉字与西文易于区别;中、西文兼容;码长短,每个汉字所占字节数少;与国标码有较简单的对应关系,便于信息转换。,目前,多数微机汉字系统的机内码是以国标GB 2312-80规定的双七位代码为依据,经一定转换后用两个字节表示一个汉字。每个字节的最高位均为,以此作为汉字的标记,以便于

    11、与ASCII码编码的符号相区别。由国标码转换为机内码的规则是:将十六进制的国标码加上8080H,就得到对应的机内码。 如“大”字的区位码为2083,国标码为3473H,机内码为3473H+8080H=B4F3H。将B4F3H 化为二进制数得:1011010011110011,这就是在计算机中实际使用的机内码的二进制形式。8080H等于二进制的1000000010000000,国标码加上8080H,可以保证机内码每个字节首位均为。,返回首页,4.1.3 汉字输入方法汉字输入是指将汉字转换成对应的机内码,并送入计算机存储起来。由语音转换成文字输入计算机的技术目前还不成熟。通过光学字符阅读器 (OC

    12、R-Optical Character Reader) 可以将印刷体汉字作为图形点阵输入,然后进行字符识别,把汉字点阵转换成对应的机内码。这种方法已经达到实用阶段,但是设备较昂贵。因此,常用的汉字输入方法是键盘输入。根据键入技术来分类,汉字的输入大致可分为整字、字素和编码三大类。大键盘整字输入采用一字一键的输入方法。这种方法需要特制的大键盘。在普通汉字系统上几乎不用,只是在专业系统(如电子照排)等某些特定的场合使用。,字素键入直接利用ASCII码标准键盘,把字素刻在键帽上,将汉字分解后按一般的笔顺键入。编码输入是用得最普遍的一种方法。它用ASCII码标准键盘输入汉字。由于汉字字数多,键盘的键数

    13、目少,因此要用几个键的组合来表示一个汉字。这种组合称为汉字输入编码。目前国内、外提出的汉字输入编码方案不小于500种。不同的编码方案对应于不同的输入方法,这些方案各有千秋。编码长度、规则的复杂程度、重码率等因素决定了不同编码方案的优劣。实际上流行的汉字编码输入方案只有十几种。如拼音码、自然码、表形码、郑码、五笔字型码、国标区位码、首尾码、仓颉码以及电报码等。,以汉字字型特征来编码的方案俗称“形码”。形码编码规则往往较复杂,与阅读文稿时大脑的思维习惯(读出声音)不甚符合,要求用户熟悉汉字笔划、偏旁部首,且要经过较长时间的训练才能熟练使用。形码比较适合于以“看打”(边看文稿边输入)为主的专业录入人

    14、员。以语音特征来编码的方案俗称“音码”。音码适合于“想打”(边构思边输入)和“听打”(口授输入),但要求汉语发音标准。音形混合的编码方法虽然较全面地利用了汉字提供的信息,但用户使用时,一时要想到汉字的读音,一时又要辨认汉字的字型,不但易疲劳,速度也难以提高。,在汉字编码输入研制初期,以单个汉字的编码输入为主。重码少、单字输入速度快的方法,如五笔字型、区位码、电报码等,其学习负担往往较重。而较简单易学的输入方法如拼音码,往往重码较多,输入速度较慢。但是,自从汉字输入方法由单个汉字的输入发展到以词和词组为单位的输入后,重码大为减少,输入速度和实用程度大为提高,各种输入方法之间速度的差别也在缩小。,

    15、值得一提的是音码中的拼音输入法有了较大的发展,实现了以词为单位甚至以句子为单位的输入,实现了高频词先见、在线造词和词组等功能,使拼音输入法做到得心应手、运用自如。由于拼音输入法符合汉语拼音规范,学习负担轻,适合于普通用户。对于个人机用户而言,工作时多数是边想边打,对速度要求只要高于手写输入即可,选择输入法时应把适合“想打”、学习负担轻放在首位。从这个角度看应以学习拼音输入法为好。拼音输入与原有的知识基础相衔接,适应我国文字改革的方向,对于拼音基础较好的年青一代而言,尤其应大力提倡。,形码中的郑码为著名语言学家郑易里先生所发明,是20世纪90年代优秀汉字输入法之一。郑码编码规则简明,符合我国语言

    16、文字规范,容易掌握。其编码方法适应性广,不但可以给大陆通用的简体汉字编码,也可以给港、台流行的繁体汉字编码,还可以给日本、韩国所使用的汉字编码。1994年用郑码完成了电脑大汉字库6万个汉字的编码,每字最多用4个英文字母表示。在微软公司与我国电子部共同推出的Windows 95/98(中文版)和Windows NT国际中文版中,装入的唯一的形码就是郑码。,不论哪一种输入方案,在具体实现时都要有软件的支持。输入法软件将键盘输入的编码转换为国标码,再转换为机内码,就可在计算机内存储、处理。目前汉字的编码输入研究还在继续之中。不过研究的重点已经从编码方案本身转向软件技术和设计,试图通过更好的软件技术和

    17、设计来做到重码少、适应面广、学习负担轻。在汉字编码输入方面,我国已经走在世界的前列。,返回首页,4.1.4 汉字字模库汉字输出的方式有两种:显示和打印。不论哪一种输出方式,都是把一个汉字看成一个二维图形,并把笔划离散化,用点阵来表示汉字。点阵的每个点位只有两种状态:有笔画上的点或无笔划上的点。这就可以用一位二进制代码来表示。该位取值为1表示 “有点”,取值为0表示 “无点”。那么,一个二进制代码串就可以表示点阵的一行。若干个代码串就表示整个汉字的点阵信息。在具体实现时,点阵上取值为1就显示或打印一个“点”,否则不显示或打印。如汉字“梅”就可用图4.3所示的点阵图来表示。,图 4.3 汉字的点阵

    18、表示,描述一个汉字点阵信息的二进制代码串称为汉字的“字模”,其作用跟铅字印刷所用的字模相当。所有汉字和各种符号的点阵信息就组成汉字的“字模库”(简称字库)。显然,要实现近8 000个常用汉字和符号的显示和打印,字库要占很庞大的存储空间。例如1616点阵的汉字库(包括一级和二级汉字)就需要约240KB 的存储空间。2424 点阵的汉字库需 580KB,精密字库所需的存储空间更大。常用的几种汉字点阵类型的参数见表4.1。,表4.1 汉字的点阵类型 点阵类型 点阵参数 每个汉字(行列) 占的字节数 简易型 1616 32 B 普及型 2424 72 B 提高型 3232 128B 精密型 4848

    19、288B,字库可以存放在磁盘(软盘或硬盘)上,称为软字库。它不需要对硬件进行改动。每次开机时,将字库从磁盘调入计算机的内存中,供显示用。这样做查找速度快,但要占用机器的内存空间。由于微型机的内存容量已经大到128M以上,装入软字库不成问题,因此软字库得到普遍使用。另一种方法是把字库装在可擦除只读存储器 (EPROM) 或只读存储器 (Mask-ROM)里,这就是所谓硬字库,俗称“汉卡”。把汉卡插到微机扩充槽内,作为机器的一个扩充ROM存储区使用。这种方法已经很少使用。,返回首页,4.1.5 汉字显示输出从键盘输入的汉字经过键盘管理模块,变换成机内码。然后经字模检索程序,查到机内码对应的点阵信息

    20、在字模库的地址,从字库中检索出该汉字点阵信息。利用显示驱动程序将这些信息送到显示卡的显示缓冲存储器中。显示器的控制器把点阵信息整屏顺次读出,并使每一个二进制位与屏幕的一个点位相对应,就可以将汉字字形在屏幕上显示出来。如果显示彩色,则还要附加色彩信息。以上工作过程可用图4.4表示。,图4.4 汉字显示原理,一般在PC机的图形模式下用1616点阵显示一个汉字。满屏能显示多少个汉字取决于显示器的分辨率。目前PC机的显示器起码使用VGA卡,显示25行汉字(每行40字)效果已经不错。使用更高分辨率更大屏幕尺寸的显示器相当普遍。,4.1.6 汉字打印输出PC机利用原有的打印机接口,配接具有图形打印功能的打印机,配上相应的汉字打印软件(驱动程序),就可以实现汉字打印输出。无论是针式打印机、喷墨打印机或激光打印机,都是将汉字分解为点阵,在输出时将汉字字模点阵作一定转换后用不同的方法打印到纸上。汉字打印的工作原理如图4.5所示。先将欲打印的汉字机内码送到内存的打印缓冲区。然后从中逐个取出机内码,通过字模检索程序从字模库中检索出该汉字的点阵信息,存入内存的字模缓冲区中。通过字模变换程序转换点阵信息,使之适合打印机输出。然后由接口卡送到打印机的打印数据缓冲区。等一行汉字的打印信息全部到齐(激光打印机则等待一页打印信息到齐),打印头就开始打印。打印数据不断送往打印数据缓冲区,直到全部数据送完为止。,

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:汉字信息处理与汉字输入法.ppt
    链接地址:https://www.docduoduo.com/p-5861702.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开