字形整理与对应转换.doc-道客多多

资源描述

1、字形整理与对应转换说明：本文把以简化字总表、第一批异体字整理表和印刷通用汉字字形表等为基础标准的，在简化整理过程中被确定为简体、正体或新字形的汉字，称为新式汉字；把与新式汉字相对的，即在简化整理过程中被确定为繁体、异体或旧字形的，但现今仍在港澳台等地通行或读古书时还需要使用的汉字，称为老式汉字。 1“规范”应是新式汉字的规范制定规范汉字表，应以大陆现行的新式汉字为根据，这本该是毫无疑问的。但是，面对某些企图推倒新式汉字，主张恢复到 20 世纪 50 年代以前的状态的各种观点，却又不得不再说上几句。新式汉字已经通行了半个世纪，已深深扎根于广大民众之中，成为了 12 亿民众日常生活习惯的一部

2、分，要让他们放弃这种习惯，肯定会不得民心。新式汉字完全能够胜任书写现代汉语白话文的职责，并不像某些人所认为的那样，妨碍了文学思想的发展和发挥。半个世纪以来，用新式汉字书写、印刷的各种文化成果，已经成为众多图书馆的主流馆藏，一旦废除，其代价将无法估量。如果稍加适当整理，能够与老式汉字一一对应的话，新式汉字既不会成为继承古代文化遗产的障碍，也不会成为两岸文化交流的障碍，更不会成为汉字信息化处理的障碍。 2 新老汉字应该“一一对应 ” 字形整理是一项宏伟的系统工程，需要考虑的问题很多，新老汉字的“一一对应” 问题，就是其中之一。以往由于没有把“一一对应 ”作为字形整理的目标之一，造成了一定数量

3、的“非对称繁简字”和“ 非对称异体字 ”（“成因”之一），从而给当前的汉字信息处理和汉字使用带来了许多不便。彻底消除异体字和繁简字，建立一个既没有异体又无所谓繁简的汉字字形规范，无疑是我们的最终目标，然而在当前我们还不得不面对许多人还在使用老式汉字的情况下，清除那些严重影响对应转换的非对称繁简字和非对称异体字，进而打通新式汉字与老式汉字的对应关系，才是最为要紧的事情。一一对应，是我们必须面对 “一国两制”之社会现实需要。有香港人士认为，简化字不便学习的主要原因，就是与繁体字不能一一对应。如果能够一一对应，熟悉了繁体字的港澳台同胞，就很容易学会简体字。因此，只有一一对应，才能照顾到港澳台同胞

4、的用字习惯，才能方便地进行两种文本的相互转换；只有能够方便地相互转换，才便于相互沟通、相互学习；只有便于相互沟通、相互学习，才能加快认同感的产生，才能加速港澳台同胞接受新式汉字的步伐。只有让他们具备了高度的认同感，“内服” 地而不是强迫地接受了新式汉字，才能实现真正意义上的“书同文” 。秦始皇为了“书同文”而不惜 “焚书坑儒 ”的做法，在当今社会中是行不通的。从长远看，只有在充分了解、逐步学习的过程中，才能培养出感情，才能达到自觉认同的境界。等到新式汉字为广大港澳台同胞高度认同时，实现真正意义上的书同文，也就不在话下了。就拿汉语拼音方案来说，尽管台湾当局曾竭力阻挠，但还是被台湾同胞接受了，关键

5、就在于汉语拼音方案有很高的国际认同度。试想，只要新式汉字的国际认同度大大提高，大大超过了老式汉字，汉语拼音方案的今天，也许就是新式汉字的明天。阅读古书，继承文化遗产，也迫使我们不得不面对老式汉字。传统的文化典籍都是用老式汉字印刷的，要继承文化遗产，就必然面对古书，就必须要学习老式汉字。这虽然不是普通人民大众的事，但毕竟有一大批人要从事这项工作。有人可能会认为，我们可以把古代文献典籍都翻译成现代文，大家就不用再学习老式汉字了。然而，要真正实现这一“宏伟蓝图”并不那么轻而易举。据报道，国家古籍整理出版规划部门的一位工作人员，在向记者介绍古籍电子出版物时说：目前在古籍数字化整理方面，国家还没有新

6、政策出台，因为有些特殊的技术障碍。首先，繁体字没有国家统一标准，哪些该保留，哪些不能再用尚未最终确定。其次，繁体如何转换成简体成为一个研究课题，目前高校古委会与北京大学合作做这方面的研究，如何使这种转化符合国家语言文字工作委员会的要求还在探讨之中。第三是字库容量问题，比如康熙字典中有些文字不能在电脑上显示。古籍电子出版物原本投入很大，出版社要付稿费，要占市场，而他们还得面临繁简转化和造字的难题，畏难情绪是显而易见的。即便能够实现，都翻译成现代文后，必然会丢失许多历史文化信息，譬如语言文化信息等。譬如我们要查证一个汉字是从何时开始出现和使用的，由于受到非对称繁简字、非对称异体字的烦扰，根本无法

7、如愿以偿。例如在旧文献中明明意思不同的“穀” 与“谷”、“後” 与“后” 、“鬥” 与“斗”等字，在新式汉字的文本中都变成了“谷” 、“后”、 “斗”等字，因此，要想查找“穀”、“ 後” 、“鬥”等字的来历，根本就没有可能。据说有一位在国内出过好些书，发表过好些文章的专家写了一篇题为“男尊女卑在汉语和德语中的对比”的稿子，立论是：汉字中，从“ 女”、从“母” 的字多含贬义。这本来无可厚非，但他却举了“毒” 字为例，并说：“从母，贬义”。实际上老式汉字的 “毒”字下边并不是个“母” ，而是个“毋”。汉字简化后，把这两个部首合一，都写作“母”，因此造成了这样奇怪的“研究结果 ”。这说明，通过现代文

8、本来了解古代文化，若作粗略的了解还是可以的，若要仔细研究的话，还是真正的古代善本、真迹才靠得住。要想做一个古代文化通，不学会老式汉字，恐怕是不大可能的。而要想使现代人能够很方便的学会老式汉字，将新老汉字一一对应、相互转换，无疑是最佳选择。总之，“一一对应”，是我们高效、优质地学习和研究古代文化遗产的必然要求。只有一一对应，现代人才不会被错综复杂的对应关系所羁绊，才能顺利跨过老式汉字的门槛，才能方便地转写各种古文化遗产。 “一一对应 ”，也是汉字信息化处理的必然要求。汉字信息化处理过程中使用的电脑字库，也要求新老两种汉字体系能够一一对应、相互转换。由于不能一一对应、相互转换，给字库的编制带来

9、了说不尽的烦恼。有人说，繁简转换问题只存在于人际之间，不存在于电脑方面，这实在是“井底之见” 。现在内地通行的字符集主要有两个：一个是收 6763 汉字的信息交换用汉字编码字符集基本集（GB231280），一个是收 20902 汉字的汉字内码扩展规范（GBK）。前一个字符集只能输入简体字，与之配套的还有一个专收繁体字的信息交换用汉字编码字符集辅助集（GB/T1234590）。原则上后者是将 GB231280 中的简化字用相应的繁体字替换而成，这些替代的繁体字具有与被替代的简化字相同的编码。关于繁体字替换简化字的原则，GB/T1234590 注明：“本标准原则上按照简化字总表中所列繁体字与简

10、化字的对应关系进行替换。”“GB2312 中，由于 60 年代汉字简化被精简的字有103 个，这些被精简的字根据繁体字处理系统的需要增补于 8889区。”其实这一表述不完全准确，大约有三分之一左右并未将繁体字形放在 8889 区，而是将简化字形放在了 8889 区。例如：“丰”与“豐”，汉字简化时精简了 “豐”字，以“丰”字替代，而 GB/T12345将被精简的“豐” 字，作为 “丰”的繁体，置于 23-65，而将“丰” 字置于88-19。（路灯塔）所谓 103 个“被精简的汉字”，只是就 6763常用字的范围而言的，就 7000 通用字的范围而言，应该是 132 个（见下文非对称繁简字总表）

11、，更未包括被精简（废除）的大量异体字。例如，“昇 ”和“陞”，作为“升” 的异体字，被停止使用，GB/T12345 亦未收录。对于只简化了其字义的某一个或几个义项的，如“干乾、后後、伙夥、么麽、于於、余馀、折摺、征徵” 等，GB/T12345 的处理则显得比较混乱。例如 GB/T12345 将“伙” 置于27-79，“夥”置于 66-23，与 GB2312 编码相同，即以“伙”对应“ 伙”，以”夥”对应“夥” 。另一种情况是，GB/T12345 将“後” 置于 26-83，对应 GB2312 的“ 后”，将“ 后”置于 65-65，对应 GB2312 的“後” ；将“徵”置于 53-87，对应

12、 GB2312 的“征” ，将“征”置于 65-71，对应 GB2312的“徵”，显然不甚恰当。这些问题的存在，都是与新老汉字不能一一对应密切相关的，并非计算机专家们水平差，如果妥善解决了一一对应的问题，一切问题都将迎刃而解。第二个字符集（GBK）是一个向下与 GB2312 编码兼容，向上支持 ISO10646.1 国际标准的承上启下的标准。ISO10646 是国际标准化组织 ISO 公布的一个编码标准，即 UniversalMultiple-OctetCodedCharacterSet（简称 UCS），大陆译为通用多八位编码字符集，台湾译为广用多八位元编码字元集，它与 Unicode 组织

13、的 Unicode 编码完全兼容。 ISO10646.1是该标准的第一部分体系结构与基本多文种平面。我国 1993 年以 GB13000.1 国家标准的形式予以认可（即 GB13000.1 等同于ISO10646.1）。ISO10646 是一个包括世界上各种语言的书面形式以及附加符号的编码体系。其中的汉字部分称为“CJK 统一汉字” （C指中国，J 指日本，K 指朝鲜）。而其中的中国部分，包括了源自中国大陆的 GB12345、现代汉语通用字表等法定标准的汉字和符号，以及源自台湾的 CNS11643 标准中第 1、2 字面（基本等同于这个字符集的推出基本能应付通用汉字的信息化处理问题，为了解决更

14、大范围内的汉字信息化处理问题，ISO/IEC10646 中日韩统一编码汉字 UnifiedIdeographsExtensionB（四万余字）也已经定稿，并从IRG 上交 ISO（国际标准化组织）WG2 、SC2，2001 年 8 月 1 日呈报 ISO 秘书处，纳入 ISO/IEC10646-2：2001 发布出版。此前，ISO/IEC10646-1：2000 已于 2000 年 10 月 5 日出版公布。这样，ISO/IEC10646 所收入汉字（包括各种字体变形）已超过七万个，有人认为，除甲骨文、篆文外，已能很好地满足世界各地汉字使用的需要。但这是指研究方面，就社会的应用而言，目前大陆仍

15、已 BIG-5 编码为主，并没有接受 GBK 规范的迹象。问题还在于，字库虽然大了，由于一一对应的问题并未解决，两岸又没有一个统一的规范字表，致使 CJK 中大量充斥着互不被对方承认的不规范字。这在GBK 规范中也有反映。例如，有大量的应该类推简化的汉字并没有配上相应的简化字，例如“騇” 、“騲”、“騬”等字，就没有与之对应的“马” 字旁。当用电脑写作时，如果遇到这类字，只得另外造字。然而手工造字，不仅费时费力、效果不佳，而且不能与他人共享和上交流。这无疑给汉字的信息处理和交流带来了不便。问题更大的是，由于简化字和繁体字不能一一对应，在简化字文本和繁体字文本相互转换的时候，无法实现完全自动化

16、，有时不得不亲自动手，逐个判断处理，大大影响了汉字信息处理的效率。计算机虽然号称“无所不能”，实际上它只适合于有规则的东西，面对毫无规则的繁简关系，任何软件都难以做到尽善尽美。譬如 MicrosoftOffice2000 等软件，虽然有智能化的繁简字转换功能，能根据上下文作出相应的用字选择，但其转换是以预先设定的词语搭配为前提的，凡设定之外的搭配就无能为力。如果实现了有规则的一一对应，所有与繁简转换相关的问题，将变得易如反掌。总之，只有妥善解决了一一对应问题，两岸的汉字字库才能实现没有障碍的相互转换，才能让软件专家们从繁简转换的烦恼中解脱出来，从而可以腾出更多时间去做他们更应该做的事情。如果

17、实现了一一对应，就可以消除那些“你有我无、我有你无”的非对应字，从而使整个字库的总量瘦身减肥，汉字的信息处理和信息交流也将变得更为方便。 3 非对称繁简字的问题可以妥善解决打通新式汉字与老式汉字的对应关系，需要解决的问题主要有两项：非对称繁简字问题；非对称异体字问题。有许多大陆人，在使用繁体字时常闹出许多笑话，如把“写字板” 繁化成“寫字闆”，把“皇后”繁化成“皇後”等，病根就在繁简字不能一一对应上。正如董琨先生所言：有的人不明白有的字繁简转换并非单一对应关系，于是随意代替。如内地一个京剧团到台湾演出，把武松写成武“鬆” ，武松的“松” 成了肉松的“鬆” 。不知道这本来就是两个字，而不是一

18、繁一简。要显得有文化，结果弄巧成拙，贻笑大方。对此，本人曾做过初步的调查和研究，编制了非对称繁简字对照表（见语文建设通讯（香港）第 53 期），提出了一个非对称繁简字的调整方案（见语文建设通讯（香港）第 65 期）。现择要概述如下：非对称繁简字总表根据我们的调查统计，在 7000通用字范畴内，共有非对称繁简字 117 组。大体上可以分为：一个简体对应几个繁体的；一个简体对应一个繁体，但意义和用法不尽相同的；一个繁体作部分或分头简化的。具体汉字见下表：其中，以下 13 组不能正确地“繁转简” ，其余 104 组不能正确地“简转繁”：讎（仇、雠）、兒（儿、兒）乾（干、乾）閤（合、阁）夥（

19、伙、夥）藉（借、藉）剋（克、剋）瞭（了、瞭）麼（么、麽）蘋（苹、Pin2）餘（余、馀）摺（折、摺）徵（征、徵）在 117 组繁简字中，同音代替类占了绝大多数。譬如，“只有”的“ 只” 和“一隻” 的“隻”；“ 頭髮”的“髮”与“ 发展”的“发” ；“後來”的“後”与“ 皇后” 的“后” ；“干戈”的“ 干”与“才幹”的“ 幹”等等。上古时，字数少，又没有字典，写作时找不到确当的字，用读音相同的字来代替，这就是令人头痛的“同音假借” 。字的发音是变化的，不同字的发音经历着不同的变化。几百年前读音相同的字，几百年后就可能相差很大，而使人难以看出它原来是哪个字的代用品。我们今天读上古的文学作品，

20、文字是其中很大的障碍：很多的字，在不同的文章、不同的段落中的意思不同，因为他们是其他字的代用品。后来字数多了，有了字典，字的读音和意思渐渐地固定下来，借代就越来越少了。即便是多音字，他们的读音和字意也是相对稳定的。尽管如此，一字多音，从来就是汉字中难弄的部分，精于文字的人都有意避免它。后代的人再用同音字来借代，就是正字法上的错误了，章太炎把它叫做“借声” ，我们今天则叫做 “别字”。汉字简化时，把很多意思毫不相干而仅仅读音类似的几个字，用一个笔画较少的字来顶替，实际上是在人为地制造“别字” ，因此，在权衡各种利弊的情况下，恢复某些字的本来面貌，是很有必要的。整理的步骤和方法建议按以下具体步骤和方法进行整理：

展开阅读全文