VC++程序设计.doc-道客多多_道客多多docduoduo.com

资源描述

1、第 1 章中文信息处理技术概论1.1 信息处理的实质1.1.1 信息和信息技术1信息在信息技术领域，信息是指对事物之间相互联系、相互作用的状态的描述。信息的性质有普遍性、无限性、相对性、转移性、共享性、变换性、动态性、转换性。信息的传播及利用可以追溯到古代的烽火台、飞鸽传书，近代的邮政、电报、电话以及现代的计算机、计算机网络、互联网、无线通信等等。人类认识世界的过程，实际上就是获得外部世界信息并对这些信息进行加工的过程；而改造世界的过程，则是由认识主体把加工所形成的信息(目标和策略)反作用于外部世界、并不断按照策略信息来引导外部事物达到目标的过程。因此，人类认识世界和改造世界的过程本质上就是

2、一个信息处理过程。一个完备的控制系统必然也是一个完备的信息处理过程。信息的基本功能是作为生存的要素、社会的资源、认识的向导、实践的指南、决策的依据、控制的基础、智慧的源流、系统的灵魂。2信息技术信息技术就是用以扩展人的信息器官功能的技术。人的信息器官及其功能分别是：感觉器官完成获取信息功能；传导神经网络完成传递信息功能；思维器官完成加工和再生信息功能；效应器官完成使用信息功能。信息技术的基本内容就是所谓的信息技术四基元，即感测技术、通信技术、智能技术及控制技术。信息系统的工作流程如图 1-1 所示。图 1-1 完备的信息系统的工作流程信息是自然环境和人类的一切活动所产生的各种状态和消息的总称

3、。人们很早就已知道信息这一概念。从定性的意义上说，人们在得知某个消息后，他在事前认为消息中所包含的事件发生的可能性愈小，则认为这个消息给他带来的信息量愈大。可见信息的量值与中文信息处理技术原理与应用2事件的随机性有关。信息在人类社会活动的各方面都很重要。但是，在科技不甚发达的时代，信息的作用及其利用价值被限制在较低的程度上。例如，信息技术的一种手段为传递，在电信技术发明以前，人们只能用人工通信，或者其他简单的表示方式或各种约定来传递信息。而电气通信技术的发展，从电话电报到传真、电视，从有线通信发展到无线通信，直到微波、光纤通信、卫星通信，信息的传输速率大大提高，性能也在改善，但只限于传输信息。

4、信息技术的另一方面为信息处理技术。20 世纪 40 年代发明了电子计算机，开始只是利用它处理数值运算，但是很快就意识到可以利用数据代表广义的信息，从而发展了数据信息处理这一意义深远的应用技术。利用计算机处理数据信息，不只是作单纯的信息传输，而主要是对信息按某种规律做某种意义的加工，使它适应某种特定目的的需要。例如，气象预报中的信息处理，结合信息传感技术，对采集到的原始信息按预先设计的数学模型进行处理，得出的结果可以作为气象预报的资料。对信息进行加工处理离不开计算机技术，所以信息处理这一术语就和计算机技术联系在了一起。用计算机处理或加工信息，扩大了信息的利用范围，使信息的利用价值也大为提高。这一

5、意义深远的科技成果的应用，使信息日益成为现代社会科技进步、经济发展、人类文明进程所不可缺少的社会财富。它和物质、能源被列于同等重要的地位，被看作现代人类社会生存和发展的三大要素。科技进步的国家已经建立起强大的信息产业，并仍在高速发展，在整个国民经济中的份额日益增大。信息处理技术在人类文明和科学技术现代化的进程中正在发挥重要的作用。广义的信息涉及多种范畴。例如，一些自然现象所包含的各种信息；人类社会活动，如政治、经济、军事、文化、商业等活动所产生的各种信息；科学技术和生产活动，如揭示自然和物质结构的奥秘，从事地质研究、探矿等产生的各种信息。它们涉及人们生存的环境和从事科研、生产、生活等活动的一切

6、方面。在这些含义丰富的信息中，信息的表示形式又是多样性的。例如，信息可以有数据、文字、声音、图形等多种形式，这称为信息的多元化表示。用计算机处理多元化信息，是信息处理技术的范畴。根据信息处理技术的发展情况，可以分为传统的信息处理和通信技术，以及现代的信息处理技术。传统的信息处理指狭义的信息处理，如信息的存储和检索；传统的通信技术只是完成信息的传输或转移；而现代化的通信技术(即广义的信息处理技术)则兼有信息处理和信息传输的功能。传统的信息处理技术在近十多年来有了很大的发展。这要归功于微电子技术和计算机技术的飞速进步。微电子技术的进步体现在超大规模集成电路的技术水平日益提高，各种大容量存储器芯片和

7、具有复杂逻辑运算功能的集成电路芯片日益增多，并迅速推广使用。计算机技术的进步体现在计算机硬件性能价格比的大幅度提高，微型机和以微型机技术为基础的各种终端设备的日益普及。这些因素大大推进了信息处理技术的实用化进程。另一方面，计算机软件技术也有很大进步，例如，软件工程、第四代程序设计语言和各种先进的软件工具的实用化，数据库管理系统等各种公共支持软件技术的进步和普及。人工智能软件技术的发展以及各种应用软件的开发和利用，不仅使数据和文字信息处理技术更加完善，应用更为广泛，而且开拓了信息处理技术的新的应用领域，如图像信息处理、模式识别、语音识别和语音合成、自然语言处理、语言的翻译等高技术领域。传统的通信

8、技术以传输模拟信号为主，自从数据通信技术出现之后，经计算机存储和第 1 章中文信息处理技术概论 3处理的信息可以在两台或多台计算机或数据处理设备之间互相传输，从而增强了信息处理和传输的能力，特别是互联网时代的到来，更扩展了信息处理技术的范畴。1.1.2 文字信息处理信息的表示形式是多样的。那么，当前人们最关心什么形式的信息？根据 IBM 公司的调查，当前人们最关心的仍是文本信息。在多元化的信息中，文字信息是一种最通用、最普遍的表示形式。各种信息的特点如何？各种信息的表现形式如何？各有什么特点？视频、音频的特点是表现形式直观，表达的信息易于被不同层次的对象接受。超视声频和其他形式的信息现在还

9、鲜有用于计算机处理的例子。其中，文本信息的特点是易于传播、所需存储空间小。但是由于世界各国语言文字存在较大差异，交流的群体受到限制。现在的公文、文件、信函、报表、各种印刷出版物等绝大多数都使用文字的形式来记录。文字也是一个国家或民族文化的象征，在社会和历史的发展中有着特殊的地位。计算机从处理数据发展到处理文字信息，代表了应用技术上的一个重大进展，否则计算机的应用将局限在一个较狭小的范围内。文字信息处理的应用范围非常广泛，从编辑文稿、建立文件档案资料、排版印刷到行政管理、办公室自动化，凡是需要用文字表达信息的应用场合，都可以利用文字信息处理技术。随着个人计算机应用的普及，以这类计算机为基础构成的

10、文字处理机目前已有了很大的发展。文字处理机依据其应用的不同要求，可以设计成不同的档次。使用最为普遍的一种是便携式的文字处理机，或称为电子打字机，其使用范围正在日益扩大。和传统的机械式打字机相比，电子打字机具有编辑功能丰富、灵活的独特优点，并且可以提供一定数量的文件存档，价格也在逐渐降低，今后有望能逐步取代机械式打字机。高档次的文字处理机更具有传统的机械式打字机无法比拟的优点。随着微型机性能和软件技术水平的不断提高，文字处理机的功能也会不断扩展。如高级的文字处理机可以利用计算机人工智能，在字、词处理的基础上增添语法和句法处理、书面和自然语言处理等新功能。随着高技术的开发和工业生产的发展，文字处理

11、技术的推广应用前景是乐观的。文字信息处理的实质，是先把文字信息数字化，即用一个固定的数码代表一个字母或文字。例如，在英文信息中，以 26 个字母作为文字信息处理的单位，因此要对 26 个字母逐个地确定代替它的数码。在汉字的情况下，一般是以一个整字作为文字信息处理的单位，因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code )。在计算机内部处理文字信息时，就像处理数据一样对待。处理完毕后，再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能，使文字信息处理也能够分享计算机技术的这一独特优点，从而实现文字信息处理的高效化。计算机之所以能有较高的运算和处理能力，

12、是由于它利用了电子处理技术以及二进制数运算这一法则。计算机中的运算器，利用半导体器件的两个状态(通和断)的变化，代表二进制数字串中的一个二进制数位上的“1”或“0”的变化，从而能够高速地执行二进制数的数值或逻辑运算。实际上，计算机无论做数值的或任何种类信息的运算或处理，最基本的运算操作就是这种二进制数的演算。中文信息处理技术原理与应用4在本节中先讨论英文信息的处理。英文信息处理技术中，要考虑以下各种字母、数字和一些必需的符号： A，B ，C，，X，Y， Z，共 26 个字母，包括大写和小写形式，共 52 个字母。 0，1，2，9，共 10 个阿拉伯数字。 +，= ，，！，?，，( ，，

13、共 32 个图形符号。用于计算机动作控制的控制符号，共 34 个。以上共计 128 个字母、数字、符号统称为字符。对于这些字符，应制定统一的字符代码标准，以便各种不同型号的计算机系统都遵守这一标准，从而使各个计算机系统之间能够互相交换信息。对于字符代码的标准，在 20 世纪 60 年代已由美国国家标准局制定了美国国家标准信息交换码(英文缩写为 ASCII，这是一种用 7 位二进制数表示的代码，7 位二进制数共可得到 128 种编码即 27=128，正好分配给 128 个字符)。实际上每个字符使用一个字节(byte)的信息量，而一个字节包含 8 位二进制数，实际使用其中的 7 位，尚留出一位，

14、作为每个字符信息的奇偶校验位。国际标准组织(ISO)依据美国标准的 ASCII 码，制定了英文字符编码的国际标准，即ISO 646，为世界各国的计算机产业界从事计算机设备的工业生产以及信息处理技术的国际化、通用化提供了依据。中国在 1975 年由当时的第四机械工业部颁布了依据 ISO 646制定的 7 位字符的编码标准(代号为 GB1988)，其中除了个别货币符号有改动外，其余内容完全相同。文字信息处理的全过程大致包含如下三个环节：(1)文字信息的输入。通常是通过键盘把组成英文词汇的各个英文字母逐个地输入。这一过程中，键盘的作用是把输入的每个字母、数字或符号转换成它们所对应的代码，供下一步信息

15、处理用。键盘同时也是使用或操作计算机的人和计算机系统之间的界面。因此，键盘要设计得方便人们的使用和操作，以提供良好的人机界面。(2)文字信息的处理。文字信息处理包括多种不同的处理要求。例如，在文稿的编辑操作中有对文字(或文字中包含的字母)的增、删、改操作；有对若干个字、整个句子或整段文字的增、删、改操作。在对文字串的处理中，有分类、合并、比较、排序、检索以及对齐等操作。这些种类的操作都可以通过预先编制相应的处理程序来实现。(3)文字信息的输出。文字信息处理完毕后，要把处理结果的代码信息转换成文字的形式输出，输出方式包括显示和打印。为此，在计算机系统中要存储有关文字的字形信息。计算机中存储的文字

16、字形，是以点阵式字形的形式表示的。通常，英文字符信息用 57或 79 的点阵表示，如图 1-2 所示。这样的字形点阵信息和计算机中二进制数的存储相对应，即有笔画经过的点用二进制数 1 表示，无笔画的点用二进制数 0 表示。因此，在计算机中存储的字形信息实际上也是一串二进制数。在英文信息处理系统中，字形信息的存储问题比较容易解决。因为只需存储大、小写 52 个字母，10 个阿拉伯数字，加上一些图形符号，共 94 个字符。用容量不大的存储器芯片，即可解决全部字符点阵信息的存储。计算机输出处理结果时，根据每个字符的代码计算字形信息在存储器中的存储地址，按照这一地址读出字符的点阵信息，供显示器或打印机

17、输出。显示器和打印机是用于输出信息处理结果的设备，输出的结果应符合人类的需要和习第 1 章中文信息处理技术概论 5惯。对于字符显示器，标准的显示格式是每帧显示 24 行，每行 80 个字符。打印机的种类图 1-2 英文字符的点阵表示较多，目前使用较普遍的有针式打印机、喷墨打印机和激光打印机。针式打印机是一种普及型的打印机，现在主要用于票据打印。喷墨和激光打印机比较常见，并具有较高的打印质量。关于显示器和打印机的技术特性，将在第 5 章中做详细介绍。1.1.3 中文的文字信息处理的特点中文是联合国六种工作语言之一，是中国 56 个民族所使用的主语言，也是世界上 1/5以上人口的主语言。汉字是中

18、国 30 种文字中使用最广的文字，方块汉字是其基本表现形式。与英文相比较，中文的特点表现在字、词、语块、句子、句模和篇章等以下七个方面。(1)中文字的特点：字多。一级汉字有 3755 个，可覆盖现代所用汉字的 99.9%，二级汉字有 3008 个，一、二级汉字可覆盖现代所用汉字的 99.99%以上，最常用的汉字有560 个，940 个常用字，700 个次常用字，扫盲标准有 1500 个字，占现代常用字使用频度(参见王还，常宝儒现代汉语频率词典 16)的 95%，一般用字形 20 902 个 (ISO/IEC 10646(UCS)，汉字字模已有 10 万字头，

19、但人们估计现代有 15 万字头。大学毕业生一般可认识 4 千汉字，中文系毕业生可认识 5 千字左右，极少数专家可认识 9 千字。形美。中文字由象形字变化而来，是一个二维结构图形，形态多样、美观、自然。音少。不同的发音只有 410 余种，加上四声变化，总共 1295 种。义众。每个字常有 25 种意义，多的达 69 种意义。同一个汉字在不同情况下使用，可以代表多种含义。类难。同样的字在不同情况下用作不同类型。序隐。字的排列顺序不如英文字母确定、明显。(2)中文词的特点：定义糊。能够独立运用的有特定的音、形、义的最小句法单位(印欧语系中最小的句法单位是语素morpheme)(参见高家莺、范可育、费

20、锦昌现代汉字学 18)。词类混。中文词在不同用法中类型变化较多，相对西文词来说，词类容易混。切分难。中文句子、词是由中文单字所组成的，而字与字，词与词之间并无分隔符，不容易进行字与词的切分。词频集中。常用词，包括常用单字词的使用频度很高，覆盖面较大，相对集中。词长短。中文词含义丰富，但比较简练，长度相对英文词较短。词义众。中文词的含义较多，一词多义比较普遍。识别易。常用词的构成比较有规律，中文信息处理技术原理与应用6相对容易识别出。如四字词(例如成语)，两字词，单字词等。构成与复合便。中文词可以通过中文单字进行灵活地组合，组词方便。组句活。中文词可以通过灵活组合形成中文句子。词库多。中文词量

21、大，不同行业有不同词库。(3)中文语块(即语义块)乃是能够自由造句的基本语义构成单位。语义块是句子的语义构成成分和单位，它不同于传统语言学的短语。语义块是语义，即语言深层的定义，而短语是语法，即语言表层的定义。语义块这一概念的提出便于描述句子的构成。语义块分为主语义块和辅语义块两大类，前者是句义的“必不可少”的成分，后者是句义的“可有可无”的成分。主语义块有 4 种：特征 E、作用者 A、对象 B 和内容 C，其中特征语义块E 决定句类。辅语义块有 7 种：方式 Ms(Means)、工具 In(Instrument)、途径 Wy(Way)、比照 Re(Refer)、条件 Cn(Conditio

22、n)、因 Pr(Premise)、果 Rt(Result) (参见苗传江著HNC 理论的句类 21 )。(4)中文句的特点：切分难。句乃能独立交际的最小完整语法单位，要完整切分出来有一定难度。句型多。句子的句法结构模式称为“句型”，这是从句法的平面对句子进行分类。中文句子的句型变化较多，可以达到不同的语言效果。简练。相对于英文，在中文句子中不需要用冠词等来进行修饰，比较简练。重意合。中文句子的组句比较重视字、词在意义上的合适搭配。(5)句模：句子的语义结构模式称为“句模”，这是从句子的语义平面对句子进行分类。句模的特点是数量不多，不足 200 个(参见胡裕树著试论句子类型的研究 22、杨成凯著

23、句法、语义、语用三平面说的方法论分析 23)。(6)中文篇章的特点：简练。构成中文篇章有不同语言单位，其语言描述精炼，表达力强。文体众多。中文发展历史悠久，有诗歌、散文等多种文体形式。(7)中文与英文最大的不同在于中文表述较为简练，节省了词的分隔符、性、数、格、时态、形态等的变化，动词可省掉语句的安排，省音节。中文语序多为聚焦型，英语 1/2为发散型。国内有一种观点，认为中文的特点可用 3S 表示，即简(Simple)、短(Short)、直(Straight)。但又有三大问题：同音字太多，四声变化与南腔北调。一般情况下，中文文字指在中国广泛使用的汉字。要用计算机处理汉字信息，必须对汉字的特点进

24、行更加详细的分析。1汉字的特点汉字的主要特点是它属于象形文字，字量大，字形复杂，和西文国家广泛使用的拼音文字有显著的区别。西文的特点是用少数结构简单的字母用线性规则排列组成单词。汉字不仅构成的笔画多，而且它是一种二维结构的图形，比起西文单词的线性排列结构要复杂得多。由于这些特点，在汉字编码方法输入计算机的问题上造成不少困难。国内外有不少学者从研究汉字编码的角度出发，致力于把汉字拆分成基本笔画、字根或字元，希望从这些分析中找出汉字结构的规律性，从而归纳出一套简明而容易掌握的组字规则或编码规则。这些工作虽然已得出一些成果，但未能达到令人满意的程度。也就是说，由于汉字独特的字形结构，不容易把它们拆分

25、成一些基本笔画、字根或字元的简单(线性)组合，因而也不易得到简明的编码规则。这就是汉字输入编码问题难度大的根源所在。汉字的字量大，据统计，中国的汉字总数超出六万个。但是，不同的汉字在不同历史时期、不同的专业领域第 1 章中文信息处理技术概论 7中使用时，其频度的差别是很大的。按照中国在 1974 年对国内使用的现代汉字综合使用频度的统计，要求覆盖率达到 99.99%的情况，所需要的汉字量约在六七千个左右。中国在 1979 年制订颁布的信息交换用汉字编码字符集基本集 (GB 23121980)中，共收入了 6763 个汉字。这个数量就是根据上述对现代汉字综合使用频度的统计资料作为依据而定的。

26、这 6763 个汉字又分成两级，第一级为常用汉字，共 3755 个；第二级为次常用汉字，共 3008 个，对这 6763 个汉字用计算机技术加以区分，按最小信息冗余的原则，每个汉字至少需要用 13 位二进制数来表示(2 13=8192)，由于目前的计算机系统一般以字节为单位进行空间的分配和管理，实际上是用两个字节(即 16 位二进制数)表示一个汉字信息交换码，或简称汉字交换码。2汉字输入技术由于汉字字量大、字形复杂等特点，汉字输入技术成为中文信息处理上的一个主要难题。把汉字输入计算机的主要方法目前仍是利用键盘、通过汉字编码方法输入。汉字编码输入方法有两大类，一类是整字编码法，把六千多个汉字，采

27、用某些规则排出它们的流水号，顺次排列在键盘上。使用整字编码的键盘是一种专门设计的汉字(整字)键盘，造价较高，因此这种输入方法不易推广。另一类是按汉字的字形或发音特征，或利用汉字的形、音特征相结合的编码方法。由于把汉字拆分成笔画、字根或字元，或按发音的音、韵、调等作为编码的依据，所使用的码元较少(和汉字的字数相比)，因此这类编码方法绝大多数就利用英文字符系统的通用字符键盘作为输入工具，这种键盘不仅造价低，而且和字符系统在输入设备上的通用性好。因此，这种编码方法目前得到广泛的应用。目前，汉字编码方法的种类很多，仅是国内提出的汉字编码方案就有 500 种之多。然而，真正得到用户接受并能推广应用的尚不

28、到其中的 1/10。汉字编码输入方法是类主要的人机界面，所以要经过认真考查和评测，优选出技术指标较高、并且能为广大用户接受的汉字编码输入方法。利用字符键盘通过汉字编码的输入方法，不论编码方案的技术指标有多高，一般来说，其输入速度和计算机的信息处理速度相比，总是很低的，因此，用键盘输入汉字的环节，过去有“瓶颈”之称。除了利用键盘输入汉字的方法外，近几年来，由于计算机硬、软件技术的进步，若干种智能化的输入方法开始得出研究成果，有的已开始走向实用化，例如，联机手写汉字识别输入，在图形输入板上写汉字，可以不按严格的笔顺次序，计算机可以对输入的汉字加以识别，给出它的标准代码。但这种输入方法的速度决定于手

29、写汉字的快慢，并且不能潦草，因此速度并不快。另一种智能化的汉字输入方法是光学汉字识别(OCR)，目前主要是对印刷体汉字进行识别，原稿上的印刷体汉字经光学扫描后，通过二值化处理(即摸数转换行字切分等预处理过程)送入计算机，由程序把送入计算机的字模信息和原先存在计算机中的标准字模信息进行比较，判定和识别输入的汉字，这种方法的识别速度较高。对于一般质量的文稿，目前 OCR 产品的汉字识别准确率已达 95%以上，个别系统可达 98%以上，并可实现对中文、英文和数字符号的混合识别，基本进入实用阶段，并在不断发展之中。另一种智能化的输入方法是汉语语音识别输入。用标准普通话的汉字发音，结合词汇输入，经计算机

30、识别后，给出相应汉字的代码。目前普通微型机能识别的测评词汇量达 1000 个以上，经改进可望在若干年后开发出声控打字机、能接受汉语输入中文信息处理技术原理与应用8的汉字终端等产品。因而，在中文信息的输入技术上可以有多种选择，相互配合形成一套较完整的输入体系。第 1 章中文信息处理技术概论 93汉字字形的存储前面已经指出，汉字结构不仅笔画多，而且是基本笔画或字根的二维空间组合，除了对汉字编码造成困难外，也对汉字字形的存储提出较高的要求。计算机中存储汉字字形，也是用点阵方式来表示。和结构简单的英文字符相比，点阵式汉字字模要求用较高的点阵密度来表示。最小的汉字字模点阵表示要求用 1516 点阵，字

31、形质量稍好些的要 2424 点阵。这样的点阵密度，一个汉字字模便要占用较大的存储量，总数为六、七千个汉字要求有很大的字模库存储容量。在发展汉字信息处理技术的早期(20 世纪 70 年代中、后期)，由于当时集成电路存储器芯片的容量较小，价格也贵，汉字字模的存储曾经是中文信息处理技术的一个棘手问题，当时也曾设法采用过存储字根或字元、用软件方法来组成完整汉字的方法，以节省汉字库的存储容量；还曾一度广泛使用磁盘等软字库方法存储汉字。这些方法虽然局部地解决了存储的问题，但在汉字字形质量和汉字输出速度等方面都受到影响和限制。20 世纪 80 年代以来，特别是近几年内，由于半导体超大规模集成电路存储芯片的存

32、储容量迅速提高，单位存储容量的价格下降，使汉字字形信息的存储问题得到基本解决。例如，用于存储汉字字形信息的 ROM(只读存储器)芯片，目前常用的有 1 兆位、2 兆位、4 兆位等几种。对于 1516 点阵的汉字，存储全部国家标准基本集(GB 23121980)两级汉字只需一片 2 兆位的 ROM 芯片。这样的汉字字模库不仅成本低，容易制作，而且体积小，使用、安装方便，容易普及应用。对于不同的使用条件，汉字字模的质量规格也有不同的要求。上述 1516、2424 点阵的汉字，属于目前常用的针式打印机(分辨率为 79 点/ 毫米)印出的较低质量的字模规格。若使用较高分辨率的打印机，印出同样大小的汉字

33、，则点阵规格必须相应地提高。因此，需要设计 3232、4040、4848 等点阵规格的字模。此外，若考虑要求印出大小尺寸不同的汉字，则对于同一种分辨率规格的打印机，也要配备几种不同点阵规格的字模。以上介绍的是通用型的汉字字模，主要用于印制一般的中文文件、报表。除了通用型的汉字字模外，尚须考虑文字质量很高的精密型汉字字模，它们的用途是利用计算机技术排版印刷。两种字模的主要差别在于它们的点阵规格。通用型字模要求的分辨率一般在7.0811.8 点/毫米的范围内；而精密型字模的分辨率则要求在 27.440 点/ 毫米的范围内。两者差别很大。对于通用型字模，目前一般采用逐点存储的方法；而精密型字模，由于

34、其信息量太大，即使目前存储器芯片的应用已较普及，但是仍有必要采用压缩信息的技术，以减小字模信息所需的存储空间。4汉字的输出技术和字符的输出要求相比，输出汉字字形要求输出设备的分辨率较高。对于汉字显示规格，目前最常用的是 1516 点阵的汉字字模。为了和英文字符的显示格式相兼容，每行显示 40 个汉字，一帧 24 行汉字，若加上 12 行提示信息，一帧的总行数为 2526 行。因此，要求显示屏的分辨率为 640420 像素以上。若要显示 2424 点阵的字模，则显示屏的分辨率必须达到 1000700 像素。对于汉字打印设备，常用的分辨率有 7.1、9.4、11.8、15.7 点/毫米(180、2

35、40、300、400 点/英寸 )。通常，7.1、9.4 点/ 毫米属于低档打印机品种，如针式汉中文信息处理技术原理与应用10字打印机，热感式汉字打印机；11.8、15.7 点/毫米属中、高档打印机，如简易激光打印机，液晶开关式汉字打印机等。1.2 汉字编码的种类与中文信息处理过程中汉字编码的变换和英文字符系统相比，中文系统内汉字代码的种类较多，可以归纳出以下若干种类的汉字代码。1汉字键盘码利用汉字编码方法，从键盘上产生的汉字代码称为汉字键盘码。例如，用汉字整字输入方法，所产生的是汉字键盘上某个汉字所对应的坐标码。一般这一坐标码虽然也由两个字节表示

36、，分别代表 X 和 Y 的坐标值，但并非两个字节的汉字信息交换码。必须用译码的方法把它变换成汉字信息交换码。若是用各种汉字编码方案产生的汉字键盘码，由于所用的码元数较少，一般每个汉字平均须击键 3.54 次以上，所得键盘码长度就大，而且一般情况下，不同汉字的键盘码是不定长的，信息冗余度也大，更有必要把它们压缩和译码，变换成双字节的汉字信息交换码，以便进入计算机系统。2汉字交换码汉字交换码是一种用于系统间或计算机通信的汉字信息交换码，它是中文信息处理技术的基础标准，有关它的来源及其和 ASCII 码的关系已在前面提及。另外，也可采用近年来开始流行的 Unicode(即通用单一编码或国际通用码)代

37、码。关于 Unicode 与 Unicode 汉字代码将在 1.5 节详细介绍。3汉字内部码由汉字交换码加上标识信息后形成。根据不同的使用环境和条件，汉字内部码的形式有多种。之所以有汉字内部码这一代码形式，是由中英文兼容技术的要求所引起的。同样，根据不同的标准，如 GB 23121980 或 GB 180302000、ISO 10646、GB 13000 或Unicode 工业标准，具体汉字的内部码可以有不同的代码定义，但目前，系统中汉字内部码一般采用流行的双字节代码形式。4汉字地址码中文计算机中汉字字形信息一般存放在称为汉字字模库的存储器内。这一存储器实际上是一种单元号连续的存储介质，每个汉

38、字字模存放在字库中某一确定的地址，这一地址信息就称为地址码。输出汉字时，先要把汉字内部码变换成相应汉字的地址码，再由地址码交换成该汉字的字形信息。5汉字字形码中文计算机系统中，存储在系统内的汉字字形信息提供汉字字形码，由它通过输出设第 1 章中文信息处理技术概论 11备把汉字内部码转换成汉字字形输出。6汉字控制码在英文字符系统中，常用的控制符有 34 个，根据需要可以扩充。在中文系统中，为控制某些汉字设备的动作，可以从扩充的控制符中加以定义，作为专用的控制符使用。在中文信息处理过程中，上述各种汉字代码变换的流程实际上反映了整个信息处理过程，如图 1-3 所示。图 1-3 中文信息处理过程中汉

39、字代码的变换流程1.3 中英文兼容技术在计算机系统技术方面，要考虑系统能够输入、输出，并能处理中文信息。从原理上来说，可以独立地设计一个专用于处理中文信息的计算机系统。这是因为，不论是英文字符或是中文的汉字信息，在计算机内部，都已转换成二进制的代码表示。惟一的差别在于英文字符是用一个字节代表一个字母、数字、或图形符号；而汉字则用两个字节代表一个汉字信息。因此，凡是英文字符能实现的信息处理功能，汉字信息也能实现。但是，由于历史原因，中文信息处理系统不宜单独地自成系统，而是在国际通用的英文字符系统的基础上开发。这是由于不论是系统的硬件设备还是系统软件，通用的英文计算机系统已有了相当的发展。若撇开原

40、来英文字符系统的硬、软件环境基础，独立地开发中文计算机系统，在技术上并非不能实现，但是这样做，工作的起点就很低了。大量已成熟的、国际上通用的各种软件资源就不能加以利用，限制了系统功能的发展。而且也不利于和国际上的标准技术相兼容。因此，开发中文信息处理技术必须走和国际通用技术相容的道路，这样做也可以站在较高的起点上开发中文信息处理系统，收到事半功倍的效果。这项技术可称为中英文兼容技术，它的出发点是完全保留并利用原来英文计算机系统的一切硬、软件功能，在此基础上，再增加中文信息处理功能，把中文信息和英文、数字信息的处理功能兼容于同一系统中，并不损失原英文系统的功能，使系统能方便地处理中、英文混合的信

41、息流。在原英文系统的基础上扩充中文信息处理功能，在设计上会受到一定约束。例如，为了达到中、英文信息兼容的目的，汉字的代码(即汉字信息交换码)要遵守英文、数字系统字符代码体系的数据格式。同时，要利用计算机原有的系统软件兼容中、英文两种代码，又要求系统能明确地区分两种代码，以便在信息输出时，系统能对两类信息在逻辑上区分开，分别进行处理。以上第一点要求是容易达到的，因为汉字信息交换码的设计是根据标准字符代码(即 ASCII)扩充而来。ASCII 共包括 94 个字符，用两个 ASCII 码交叉组合成汉字信息交换码，共 9494=8836 个，汉字基本集实际使用了其中的 6763 个。它们都是七位二进

42、制信息表示的代码，区别是英文字符用单字节表示；而汉字则用双字节表示。第二中文信息处理技术原理与应用12点要求是中文信息处理所特有的条件，因为无论单字节的字符代码和双字节的汉字代码，都是七位二进制信息，进入系统后，若不加其他的标识信息，则对二者便无法加以区分。因此，汉字信息进入系统后，应对汉字代码添加相应的标识信息。加上标识信息后的汉字交换码，称为汉字内部码。例如，在微型机系统中，目前常用的汉字内部码的表示方法，就是对每个汉字交换码的双字节中，每个字节的最高位(原来未使用)置 1，作为汉字代码的标识。这是一种最简便易行的添加汉字代码标识信息的方法。当然，在使用范围上也有一定的限制。例如，一些中、

43、大型计算机系统，以及在网络通信环境中，要用字节的最高位作奇偶校验的情况下，就不能用这种简便的汉字内部码标识方法，而必须考虑设计其他形式的标识信息。自 Windows 95 版本以后的 Windows 操作系统开始使用 Unicode 作为统一的英文数字字符和汉字字符的编码，经过这样的改进，汉字信息处理实质上跨上了一个全新的台阶。虽然双字节(DBCS)足以解决中英文字符混合使用情况，但对于不同字符系统而言，必须经过字符码转换，非常麻烦。例如中英文混合情况、日文、韩文等等。为解决这个问题，Apple、Xerox 、Microsoft、IBM、Novell、Borland 等多家公司联合起来制订了一

44、套可以适用于全世界所有国家的字符码，称为 Unicode。Unicode 的特点是：不管哪一国的字符码均以两个 byte 来表示(如采用 UCS-2)，例如“A”的 Unicode 码是 16 进制 41 和 00 的组合，即 4100，高位 41(转换为 ASCII 码即是65=A)。Windows NT/2000 以 Unicode 来表示字符集，例如，Microsoft SQL Server 中产生的SQL 文件可以选择以 Unicode 或普通格式来保存，如果以 Unicode 保存，则在Windows95/98 平台上许多软件均无法正确读出其格式。综合上述情况，可以归纳出中文信息处理

45、系统技术的特点和要求，主要有以下四个方面：(1)要解决使计算机系统能输入和输出汉字信息的问题。(2)要解决信息量很大的汉字字形在系统内的存储的问题。(3)系统技术上，要解决中英文信息的兼容问题，要求系统能处理中、英文混合的信息流。(4)中文信息处理系统技术必须走和国际标准相兼容的道路，以便中文信息处理能共享原英文系统所开发的各种硬、软件资源。1.4 ASCII 体系的汉字内码1.4.1 概述在我国计算机产业的发展过程中，PC 机是被作为重点而优先发展的。 PC 机上大多采用双字节编码体系，从双字节的内码体系看主要有下列几种方式： (1，1)两个高位置为“1”。 (l，0)第一字节高位置为“1”

46、，第二字节高位为“0”。第 1 章中文信息处理技术概论 13 (1，1/0)第一字节高位置为“1”，第二字节高位为“l”或“0”。如图 1-4 所示，目前中国国内使用的汉字内码编码都在下半平面，以便于在处理时与西文单字节相区别。调查表明，在汉字内码的编码体系上，目前主要的区别不在于采用双字节表示还是多字节表示，因为双字节表示已形成主流；而在于如何处理、对待 C1 集。C1 集占据了从 80H 到 9 FH 的 32 个字符空间。狭小的空间与大字符集的分配有尖锐的矛盾。将当前的各种内码体系与 C1 集的关系联系起来可分为两大类：未占用 C1 区的模式覆盖 C1 区的模式1.4.2 未占用

47、C1 区的编码方式下面是现存的未占用 C1 区的几个内码编码方案： CCDOS(1，1)(如图 1-5 所示) VAX/VMS(1，1/0)(如图 1-6 所示)图 1-5 CCDOS 编码图 1-6 VAX/VMS 编码 STONE 打字机(1，0)(如图 1-7 所示) UNIX 使用的内码 EUC(Extended UNIX Code)(1)EUC 码及其表示为了能使用单字节 ASCII 码集以外的字符集，MNLS 在进程和文件级都支持多达四个单字节和多字节的代码集。驻留在 I/O 设备上的字符集的外部字符代码集在处理期间被映射为系统使用的内部代码集表示形式，这些内部代码集被称作扩展

48、UNIX 代码(EUC)，包括常被指图 1-4 汉字内码编码体系图 1-7 STONE 编码中文信息处理技术原理与应用14定作为 ASCII 字符集的基本代码集(set0 )和指定作为用户可选字符集的三个辅助代码集(set1 到 set3)。代码集用 EUC 表示形式的最高有效位(MSB)和单个换档字符来区分，它们的组合简化了四个代码集的每一个内部编码模板的定义。在字节的标准表示形式中，每个字节的MSB 是最左边的那一位。表 1-1 是四种 EUC 内部代码集的表示法。单字节的基本代码集的表示形式中 MSB 置为 0。三个辅助代码集的每个字节的 MSB 都置为 1。set2 和 set3 进一

49、步用单个换档字符2(SS2，用十六进制的 8E 表示)和单个换档字符 3(SS3，用十六进制的 8F 表示)来区分。这种编码策略与国际标准 ISO 2022 一致。表 1-1 EUC 代码集表示法代码集 EUC 表示法代码集 0 0XXXXXXX代码集 11XXXXXXX1XXXXXXX1XXXXXXX1XXXXXXX1XXXXXXX1XXXXXXX代码集 2SS2 1XXXXXXXSS2 1XXXXXXX1XXXXXXXSS2 1XXXXXXX1XXXXXXX1XXXXXXX代码集 3SS3 1XXXXXXXSS3 1XXXXXXX1XXXXXXXSS3 1XXXXXXX1XXXXXXX1XXXXXXX除基本、辅助代码集外，内部 EUC 表示还包括空格、删除字符、两个控制字符集和未指定的代码，如表 1-2 所示。表 1-2 EUC 特殊控制字符的表示控制字符 EUC 表示空格(Space) 00100000删除(Delete) 01111111控制字符集 0(C0)

展开阅读全文