ImageVerifierCode 换一换
格式:DOC , 页数:8 ,大小:42.50KB ,
资源ID:4747490      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-4747490.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(汉字编码标准中的类推简化.doc)为本站会员(gnk289057)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

汉字编码标准中的类推简化.doc

1、类推技术标准说一说汉字编码技术标准中的类推简化1. 引言随着通用规范汉字表发布,一场宣传已经展开,随之也有一些争论出现。争论中一个重要问题,或焦点性问题:是应该实行有限制的类推,还是无限制的类推?这个问题不仅仅是语言文字学里的理论性争论,它密切关联着电脑的实际使用。实际上,此次的字表已经继续类推出一批电脑汉字编码中没有的汉字,即新造了一批电脑外字,160 余个。这将带来一系列不良后果。由于汉字编码技术标准是新事物,其产生历史不过仅仅三十多年,又具有较强的技术性,领导机构管理者、广大公众对其了解较少。本文将对此做简要但也是较为完整的介绍。2. 文字编码技术标准的产生世界上最早的文字计算机编码技术

2、标准是 ISO6461973(约 40年前) 。这是一个关于拉丁字母文字的国际编码标准。编码的字符包括拉丁字母、数码以及标点等其他符号,总计 94 个可见图形字符,及一些起控制作用符号共计 128 个,占用 7 位二进制位。此标准的前身是美国国内的编码技术标准,1960 年代的版本中只有大写字母,没有小写字母;后来补充大写字母,又被称为 ASCII 字符集。这个ISO646 或者说是 ASCII 字符集,成为世界信息技术界最重要的技术标准。它决定了拉丁字母文字信息的表达、存储、加工、以及传输,保障了一大批西方文字、科技语言、程序语言在全球范围的电子化流通。这个信息化的、电子化的字符集,取代了历

3、史久远,在工业时代、机械化时代成功广泛应用的,以纸质印刷形式为主的字母表 ,成为文字规范的新形式、新手段。以此为基础的英文信息处理电脑化的成功,极大地刺激了、推动了世界各国文字处理技术的电脑化浪潮。3. 中国汉字编码技术标准的初期,简化字无限制类推阶段中国的第一个汉字计算机编码技术国家标准是 GB23121980(刚刚 33 年) 。这是在国际性文字处理电脑化浪潮初起时期的一项开创性工作。主持者是一位比王选还年轻十来岁的青年技术工作者。该标准的语言文字学依据,自然靠向语文学家请教,遵循了当时语文界的主流认识。它不包含任何一个繁体字。这个标准并不完美,甚至还有错字出现。但正是这个标准的适时推出,

4、保障了中国汉字电脑化浪潮有了一个可用的基础,对汉字的电脑化迅猛但有序的发展作出了重大贡献,曾经被授予科技重奖。这个国家标准GB23121980,收字仅仅 6763 个,不包含任何繁体字。标准实施过程中,同时设计了五个称为辅助字符集的编码标准,总计约四万余汉字,以实现对汉字文献的完整表达。其中,第二、第四辅助集,是经过无限制类推简化得到的,不包含任何繁体字。而第一、第三、第五辅助集,是与前者并立的繁体汉字系统集,其中不包含任何简化字。这种思路,自然来自当时语文界的主流认识。其政策依据是简化字总表的说明(1964 年 5 月)。在类推简化字表的说明中指出:“汉字总数很多,这个表不必尽列。”表中未列

5、出的字,在实际使用中需要用到时,“凡用第二表的简化字或简化偏旁作为偏旁的,一般应该同样简化”。4. 简、繁体两个并立的六个编码字符集为什么没有获得应用?上述六个编码字符集,除了基本集外的那五个,基本没有怎么投入应用,也少为人知。原因可能是:把汉字区分为并立的、或平行的两个独立系统的认识不符合实际,不符合潮流。人们发现:在中华古籍印刷中,并非需要一律地、完全地翻译成现代白话(一律用简化字) ;而用繁体字印刷时,那辅助集二、四根本没有用。实际上是白白地类推简化出两个编码字符集。1980 年代,汉字电脑化潮流迅猛、神奇、精彩。那些说汉字字量大、结构复杂的无法克服的缺点的认识,已经大大地失去了市场。就

6、连著名汉字改革家周有光先生,在他那简化十戒中也说“简化常用字好;简化罕用字不好” ,明确地不再支持无限制地类推简化。台湾的繁体字系统,及大陆的简化字系统,同样成功地、精彩地实现了电脑化。简繁体汉字电脑处理效率几乎完全没有什么差异。这使越来越多的人相信中华民族新的书同文终将到来。周有光先生欣然题词“书同文是 21世纪必须实现的目标” 。这就使得基本集、二辅助集、四辅助集联用的、彻底的、完整的简化字方案失去了群众基础和社会基础。5. 放弃无限制类推、具有简繁体共存优点的编码标准产生1980 年代初期汉字电脑化浪潮,迅猛、神奇、精彩。这让国人重新燃起汉字复兴、民族新的书同文的梦想。1986 年,中央

7、高层决定把文字改革委员会更名为语言文字工作委员会 ,同时提出:“今后,对汉字的简化应持谨慎态度,使汉字的形体在一个时期内保持相对稳定,以利于社会应用”。这实际上给停止无限制类推提供了政策依据。由于文字处理技术产品的广大市场,特别是迅速发展的中国市场,吸引了西方信息产业巨头及国际标准化组织关注,而汉字问题是其中的一个重要关键。这给中国联合台、港、澳专家与日、韩专家合作研制简、繁体汉字,中、日、韩汉字兼容的编码技术标准提供了机会。这种编码标准是国际标准化组织主持的几乎包含世界现行大多数文字的、大字量、多用途的全新结构的编码标准的一部分。该项目进展顺利,于 1993 年国际标准化组织发布第一个版本,

8、即 ISO106461993;几乎同时中国发布符合此国际标准的中国国家标准 GB130001993.。该标准收字 20902 个,是简、繁体,中、日、韩兼容的。从完整表达汉字文化的角度出发,从不断完善简繁体汉字关系的多种可能性做好准备出发,该标准收入了已经产生的简化字及对应的所有繁体字,收入了一度宣布为异体字的那些字。没有再实行类推简化,即保留了大量金字旁、言字旁、而没有对偏旁再做简化。由于这个标准是全新结构,一时间没有可用的操作系统及文字处理软件支撑,所以 GB130001993 实际上没有马上得到使用。经过两年的努力,一个与 GB23121980 为子集又与 GB130001993 兼容的

9、 GBK1(汉字编码字符集扩充) ,于 1995 年开始推行应用。中国和华人世界,开始使用简繁体兼容的汉字系统。由于它与 GB23121980 极好的兼容性,大多数用户,于不知不觉中开始享用着电脑信息新技术的便捷。2000 年的 GB18030 是这个GBK1 的扩展版本,又称 GBK2,收汉字 27484 个。它是简繁体兼容的,但也是停止了无限制类推简化的。即它收入当时已经产生的简化字,没有自己再造新的简化字。这个 GB18030 是国家的强制性技术标准。正是它支撑了中国行行业业跨入了数字化、网络化、信息化的全新时代。6. 无限制类推简化是电脑外字不断产生的最重要原因此次字表里的新造电脑外字

10、,主要是类推简化字。我们就从字表里,找 5 个出来吧。样式:序号 对应繁体字 新类推简化字4004 熰 (火区)注:由于计算机里没有这些新简化的字,所以括号里只能列出部件组合。这一类外字,我们已经发现近一百多个。下面再给出另外 4 个。6547 澫(氵万) 6551 詝(讠宁) 6560 塸(土区) 6564 埨(土仑)这些字,国家语委已经通过字表称它们是通用规范汉字,是那宝贵的 8105 个之一。但你在自己的电脑上,输入一下看,无论你用什么输入法,都打不出它们来,只能打出这些字对应的繁体字。例如,可以打出繁体的 熰 ,但打不出简化了的:(火区) 。这几个新类推后果字就是电脑外字 。显然地,是

11、因为从 GB130001993起,GBK11995,GBK22000,都没有再无限制类推;此期间,文字改革家们再继续无限制类推简化,就制造了外字。对于外字 ,计算机根本无法表达;包括无法输入、无法显示、无法编辑加工、无法传输,.商务印书馆现代汉语词典中新造的外字;许多出版社、印刷厂新造的外字,也基本上是这种类推简化字。7. 汉字已经跨入了电脑时代早在 1994 年,汉字就已经跨入了电脑时代。其根据是铅字打字、铅字排版印刷、印字四码电报成功地被电脑化新设备取代;铅字退出历史舞台。汉字电脑处理效率已经反超英文。这个事实完全没有被认识、被承认。从“汉字五千年”和“汉语拼音 50 年”两次纪念活动看,

12、主流语文界仍然把近百年来看作是统一的现代,是汉字一直落后的时代,仍然是需要继续汉字改革的时代。确实地,在铅字时代,汉字处理设备及处理效率,显著地比英文的落后、低效、繁难。这是明显的、外露的、直观的、感性的,在不同党派、不同专业、不同年龄的人群中几乎没有异议。但在电脑时代,由于汉英兼容,核心技术被封装在芯片、光盘、U 盘里,汉英处理设备及其效率的比较,变得模糊、内敛、隐秘、不直观、理性,不同人之间,特别是语文界与技术界之间,认识上存在巨大差异。主流语文界认为只有拉丁字母最适合计算机;汉字电脑处理比英文还是落后、低效、繁难,主张继续汉字改革。而信息技术界,认为汉字不再落后、不再繁难,汉字改革应该终

13、止。语言文字界与信息技术界之间的这种认识差异,正是两个时代差异的反映。语言文字界的一些人,对汉字电脑处理成就迟钝、麻木、视而不见;对许多电脑技术常识知之不多或知之甚少。语言文字界主流认识脱离了、背离了时代潮流。8. 字表与编码技术标准:两个时代的纠葛这里字表专指通用规范汉字表 ;泛指它与其前的五表:第一批异体字整理表 , 简化字总表 , 印刷通用汉字字形表 ,现代汉语常用字表 , 现代汉语通用字表 。这里的编码技术标准专指GB18030 ,泛指它与其前的其他汉字编码技术标准。文字处理的电脑化、智能化、数字化、网络化,是新时代的一个显著特征。这种新形势带来一个重要变化就是:汉字和技术产生了空前密

14、切的联系;汉字规范越来越依赖技术标准;规范不仅仅是面对人的,也是面对海量的仪器设备的。1994 年,汉字处理全面地进入了电脑时代。打字、排版印刷、远程通讯都实现了电脑化(参见【1】九。1)汉字处理,从比英文显著的落后、低效、繁难,变得几乎全面反超英文(参见【1】九) 。这之后,编码技术标准是最重要的汉字规范的事实就变得十分突出了。这种技术标准与传统的人类专家通过会议、研讨制定出来的书面文件(法规条文、字词典、常用字表、通用字表、.)有重大区别。我们称传统的专家们制定的这种书面文件为“专家同人约定” ,简称“约定” ,其代表是各种字表 。称新的技术标准为“技术标准” ,简称“标准” 。 “约定”

15、通常主要是针对人的,由有关人员执行,执行后果强烈依赖于人的态度、素质、意愿。而“标准”则即针对人,也针对设备,通常是大量甚至是海量设备。它的后果相对说来,对有关人员的态度、素质、意愿的依赖大为减轻。 “约定”通常并不十分严格、确切,有时有所含混、不明确;其正确性靠执行的人。而“标准”必须严格、确切、毫不含混。我们称“标准”的这种性质为可操作性。而“约定”通常操作性不强。标准的可操作性是极其重要的属性,因为它是要由没有意识、没有思维的仪器、设备(而且通常是海量的)去执行的。汉字处理的电脑化、智能化、数字化、网络化,使得标准化成为规范的新形式,也是高级形式。标准才是最重要、最有效的规范化手段,是能

16、够管理、限制、控制海量设备的最重要的东西。信息时代, 字表仍然起作用,但其相对重要性下降。并且有一点特别重要的新要求:它不能违背、违反技术标准。任何专家、高级管理者,甚至权威乃至领袖,都不能以“一己之见” 、 “一己之利”改变标准。标准只能以一定程序进行修订,并且通常要涉及海量相关设备的改造,也一定涉及大量人力、资金、甚至能源、材料的投入。就此而言,技术标准对汉字行为的限制,远远大于历史上任何信息工具的作用;也远远大于任何个人、机构的影响力。可惜地是,技术标准作为汉字规范的新形式、高级形式的事实,远没有被认识,被承认。2001 年立项,延续十余年的通用规范汉字表制定进程中,居然在任何文件、材料、谈话、访谈中(包括最新的字表文本、 字典 , 解说 ,访谈及大量文章) ,都只字不提技术标准,特别是自 2000 年起实施的强制性编码标准 GB18030。并且还公然地违背强制性标准。十余年、四千余人参与的巨大项目,居然见不到技术标准的影子。这说明中国语文界与当今中国信息化进程是多么地疏离,多么地不合拍,多么地格格不入,甚至是背道而驰。作者 理科教书匠:许寿椿

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报