1、汉字编码字符的发展史汉字编码是中文信息处理的基础,因此,了解汉字编码字符的发展对学好中文信心处理是很有必要的。首先是 GB 码。 GB 码 全称是GB2312-80 信息交换用汉字编码字符集-基本集,1981 年 5 月 1 日由国家 标准总局发布实施,通行于我国大陆地区,新加坡等地也使用此编码。国标码包含有简化汉字,符号,字母,日文假名,共 7445 个字符。其中,包含了 6763 个汉字,并分作两级:一级为常用字,3755 个,按照拼音排序;二级为次常用字,3008 个,按照部首排序。一个字符的国标码由两个部分组成,分别是该字符的区号和位号。GB 码规定共有 94 个区,每个区中有 94
2、个位,因此,编码 空间为:94 * 94 = 8836 个码位。GB2312-80 的公布、各种汉,字输入法和汉字编辑软件的研制成功,使计算机处理中文信息变为现实。GB2312-80 是第一个汉字信息技术标 准,也是我国信息技术领域内重要的基础标准,更是 目 前 国 内 所 有 汉 字 系 统 的 统 一 标 准 。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。继 GB2312 之后, 1983 年 10 月,台湾国家科学委员会、教育部国语推行委员会、中央标准局、行政院共同制定了通用汉字标准交换码,后经 修订于 1992 年 5 月公布,更名为中文标准交换码,通行于台湾、香港地区的
3、一个繁体字编码方案,俗称“大五码”,也就是BIG5。 BIG5 码是双字节编码方案,其第一字 节在 A0FE 之间,第二字节在 407E 和 A1FE 之间。BIG5 收录 13461 个汉字和符号,包括:符号 408 个,编码位置 A140-A3BE。常用字 5401 个,编码位置 A440-C67E,包括台湾教育部颁布的常用国字标准字体表的全部汉字 4808 个,台湾教科书常用字 587 个,异体字 6 个。次常用字 7652 个,编码位置 C940-F9D5,包括台湾教育部颁布的次常用国字标准字体表的全部汉字 6341 个,罕用国字标准字体表中使用频率较高的字 1311 个。BIG5 是
4、目前台湾、香港地区普遍使用的一种繁体汉字的编码标准。就在 ISO/IEC 10646-1 为世界各民族文字统 一编码架起桥梁时,为了取得电脑时代的“书同文”,我国等同采用此标准制定了 GB 13000.1-1993。该标准于 1992 年公布,采用了全新的多文种 编码体系。收录了 1986 年重新发表的简化字总表和 1988 年公布的现代汉语通用字表的全部规范汉字,完全兼容 GB2312-80 标准,与国际标准ISO/IEC10646-1 对应 接轨,并包含了台湾 BIG5 编码中的所有汉字,共有汉字和偏旁 21003 个。由于其新的编码体系与现有多数操作系统和外部设备不兼容,所以它的实现仍需
5、要有一个过程,目前还不能完全解决我国当前应用的迫切需要。GBK 编码是中国大 陆制订的、等同于 UCS 的新的中文编码扩展国家标准,其 编码方案的标准名称是汉字扩展规范 GBK 1.0,它是由全国信息技术标准化技术委员会制定 1995 年 10 月制订、同年 12月正式发布的。该编码是在 GB2312-80 标准基 础上的内码扩展规范,使用了双字节编码方案,其编码范围从 8140 至 FEFE(剔除 xx7F),共 23940 个码位,共收录汉字 21003 个、符号 883 个,并提供 1894 个造字码位,简、繁体字融于一库,完全兼容 GB2312-80 标准,支持国际标准 ISO/IEC
6、10646-1 和国家标准 GB13000.1 中的全部中日韩汉字,并包含了 BIG5 编码 中的所有汉字。因此, GBK 字库是缓解人名和地名等冷僻字的“当然之选”。为了适应信息处理技术快速发展的需要,1998 年 10 月,在多方面的努力下,标准起草组经过反复斟酌和验证,提出了标准制定原则与 GB 2312 信息处理交换码所对应的事实上的内码标准兼容,在字汇上支持 GB 13000.1 的全部中、日、 韩(CJK)统一汉字字符和全部CJK 扩充 A 的字符,并且确定了编码体系和 27484 个汉字,形成兼容性、扩展性、前瞻性兼备的方案。即 GB 18030-2000。其全称是信息技术信息交
7、换用汉字编码字符集基本集的扩充,于 2000 年 3 月发布。GB18030 是最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准, 该标准采用单字节、双字节和四字节三种方式对字符编码 。GB18030 编码空间约为 160 万码位,科学的编码方案,创造了丰富的码位。单字节编码 129 个码位,双字节编码 23940 个码位,四字节编码 1587600 个码位,总编码空间超过 150 万个码位,目前已编码的字符约 2.6 万。随着我国汉字整理和编码研究工作的不断深入,以及国际标准 ISO/IEC 10646 的不断发展,GB18030 所收录的字符不断增加。以上便是汉字编码字符的大致发展过程,