1、1课题名称:儿童汉字学习规律的研究及小学语文教材等级字表的研制课题批准号:DBA010171课题类别:教育部重点课题课题拨付经费:3.2 万元学科分类:教育心理课题鉴定时间:2009 年 1月课题负责人:舒华 北京师范大学主要成员: 伍新春、张大成、邢红兵、郝美玲、李 虹 2摘 要附件一研究总报告儿童汉字学习规律的研究及小学语文教材等级字表的研制本课题中, 我们对小学生语文课本中的汉字的结构、特点及其分布进行了详尽的分析,结合小学课本中汉字信息的统计特点分析,并通过行为实验和计算机模拟研究系统探讨了儿童汉字学习的发展过程, 儿童大脑中的词典结构和字词识别特点的变化, 影响儿童汉字学习和阅读发展
2、的重要因素。在建立的数据库、编码和分析方法的基础上,我们对小学汉字的许多特征,如出现频率、声旁家族、形旁家族、声旁表音、形旁表义、汉字笔画和部件等的特点等进行了分析,并提出了语言材料数据库研究是了解儿童汉字学习过程的一条很好途径。 在正常语文教学条件下 , 儿童在学习字词和阅读的同时 , 也发展了各种元语言学意识, 如汉字正字法意识、形旁意识、声旁意识、语素意识等, 这些元语言学意识的发展是儿童汉字学习和阅读能力发展的重要前提, 在教学中强调元语言学意识可能对改进和加速汉字教学有重要影响。本课题的研究成果不仅对人类认知和语言获得的性质和机制等一般问题的揭示有重要的理论意义, 另外, 成果而且也
3、对建立有学习和自组织能力的计算机自然语言理解模型、语文和阅读教学等一些相关领域的研究有重要的启发和推动作用。内容结构图一、研究问题二、研究背景和文献综述三、研究程序四、研究内容、结果和讨论I. 小学课本汉字的频率特征分布与汉字学习I.1 汉字频率在各年级中的分布I.2 汉字频率对儿童识别和学习的影响II. 小学课本汉字的笔画和部件特征分布与汉字学习3II.1 各年级汉字的笔画特征分布II.2 汉字的部件特征分布II.3 笔画和部件在汉字学习中的作用III. 小学阶段的形声字特征分布与汉字学习III.1 形声字及其在小学阶段的分布III. 2 小学儿童形声字的学习IV. 小学低年级课本字表编制的
4、启示IV.1 小学低年级儿童的认知特点及汉字学习的影响因素IV.2 小学低年级课本中的汉字分布特点五、研究反响六、参考文献七、附录正文一、研究问题书面词汇学习是儿童阅读发展的第一步。自 20 世纪六十年代以来,语言心理学家对儿童词汇获得过程从多方面进行了大量的研究, 。研究表明,儿童在学前已发展了大量的口头词汇, 在头脑中建立了大量语音与语义的联系, 识字初期儿童面临的主要任务是要建立大量字形与字音、字义之间的联系, 把已掌握的口头词汇转化为书面词汇。书面词汇学习是不可能全部靠简单记忆或强化作用的, 儿童学习过程中需要逐步了解语言文字系统的字形、语音与语义之间的关系,即学习中包含某种一般规则的
5、抽取。 英语儿童词汇发展的研究表明, 儿童的词汇学习不仅与认知因素有关, 而且很大程度受词汇的使用频率、构词法规则、词汇的表音、表义规则性等语言文字的统计学特性的影响。另外,儿童词汇的掌握还与学习的方式有关,学习中如果能够有意识地引导儿童形成对认识到语言文字的构成规律的认识,儿童的学习效率和效果就会大大提高。课本是儿童学习最重要的工具之一,各册课本中新字词的引入顺序、方式直接影响儿童的学习过程,例如,字词的概念难度(口语熟悉性) 、韵律、字词的读音和表义规则性、重复性、生字密度等许多因素都会影响儿童的学习效率。因此,科学地编排课本受到各国教育界、出版界的高度的重视。本课题是根据认知心理学和心理
6、语言学的理论,利用、汉语语言文字的特点, 借鉴4汉语及其它语言儿童阅读学习规律的理论研究成果,通过深入的小学汉字数据库统计、儿童汉字学习研究与计算机模拟等途径,对科学编制科学的小学识字汉字等级字表进行了深入研究。课题的主要内容包括以下几个方面:1、常用汉字的分类、使用频率、组词功能及结构分布的研究 对现行小学语文课本中汉字的笔画、正字法结构、字类(独体和合体字,象形、指事、会意和形声字等) ,及其分布特点进行了数据库分析。对汉字的常用部件、部件的组字频率、部件位置频率、部件功能等特点及其分布进行了数据库分析。2、形声字的特点及其分布的研究 对形声字的分析主要集中在以下三方面:字频及其分布特点;
7、声旁的数量、使用频率、声旁的位置频率、声旁表音规则性及其在不同频率汉字中的分布;形旁的数量、使用频率、形旁的位置频率、形旁表义规则性及其在不同频率汉字中的分布。对形声字的字频及其分布特点进行分析。对形声字声旁的数量、使用频率、声旁的位置频率、声旁表音规则性及其在不同频率汉字中的分布进行分析。对形声字形旁的数量、使用频率、形旁的位置频率、形旁表义规则性及其在不同频率汉字中的分布进行分析。3、影响儿童汉字学习的重要因素的研究 分析了影响小学不同年级儿童汉字学习的因素,特别是总结出了一些重要的汉语元语言学意识发展的时间和顺序, 例如,儿童语音意识、正字法意识、声旁规则性意识、声旁一致性意识、形旁意识
8、、语素意识等元语言学意识的发展特点及规律。通过儿童在汉字读音、听写、组词任务中的正确率和错误分析等方法,了解了汉字笔画数、部件结构、字词概念难度、生字重复率等对儿童汉字掌握的影响。探讨了拼音和课外阅读在汉字学习中的作用。 4、汉字等级字表的编制和教材中引入汉字的方式的研究 我们在综合汉字分析的结果和儿童认知研究发现的基础上,提出了汉字等级字表编制的原则,并初步确定了不同类型汉字的引入和教法。在前期的汉字分析和儿童认知研究工作总结基础上提出汉字等级字表编制的原则,探讨不同类型汉字的引入和教法。二、研究背景和文献综述在现代信息社会中, 如何加速儿童语言和文字学习的过程和提高儿童的阅读能力的问题受到
9、各国心理学家、教育学家的高度重视。自 20 世纪六十年代以来,语言心理学家对儿童词汇获得过程从多方面进行了大量的研究,研究表明,书面词汇学习是不可能全5部靠简单记忆或强化作用的,儿童学习过程中需要逐步了解语言文字系统的字形、语音与语义之间的关系,即学习中包含某种一般规则的抽取。元语言学意识、尤其是语音意识在拼音文字国家儿童词汇学习和阅读发展中的重要作用,被认为是近几十年来心理语言学研究中最重要的发现之一,语音意识的发现改变了许多国家的课堂词汇教学方式。英语儿童词汇发展的研究还表明, 儿童的词汇学习不仅与认知因素有关, 而且很大程度受词汇的使用频率、构词法规则、词汇的表音、表义规则性等语言文字的
10、统计学特性的影响。另外,儿童词汇的掌握还与学习的方式有关,学习中如果能够有意识地引导儿童形成对语言文字规律的认识,儿童的学习效率和效果就会大大提高。课本是儿童学习最重要的工具之一,各册课本中新字词的引入顺序、方式直接影响儿童的学习过程,例如,字词的概念难度(口语熟悉性) 、韵律、字词的读音和表义规则性、重复性、生字密度等许多因素都会影响儿童的学习效率。因此,科学地编排课本,例如,按照儿童的年龄特点精心地选择课文内容和形式、根据语言文字规律与儿童认知规律选择课本中学习的词汇以及词汇学习的方式、顺序等,受到各国教育界、出版界的高度的重视,而依靠迅速转化科研成果实现课本的更新和改革是提高出版质量和占
11、有市场的趋势。二十世纪八十年代以来,我国心理学家在儿童汉字学习和阅读发展方面开展了许多的研究,研究发现,儿童上学后开始发展汉字正字法意识、声旁意识、形旁意识、语素意识等等,这些汉语元语言学意识在汉字识别、学习、记忆中起重要作用。语文教学研究表明,科学的字词结构教学,对儿童形成汉字规律的认识有很大帮助。小学生大量阅读不仅有利于儿童学习知识,开阔眼界,活跃思维,而且有利于儿童通过大量运用熟悉汉字、掌握字的读音、意义、以及在不同情况下的使用,是最好的扩展儿童词汇的数量和质量的途径。汉字识字教学研究在我国已有很长的历史,新中国成立以来,我国教育学界、语言学界、心理学界对小学识字教学进行了大量的研究,但
12、是, 小学语文教学中存在的识字教学周期长、负担重、学习效率低的问题仍然未得到根本解决。基于经验的语文、识字教学和改革很难从根本上改变小学识字教学效率不高的现状,给汉字识字教学带来的革命性的变化。儿童书面词汇学习是一个涉及多学科的研究领域,需要综合语言文字规律、儿童认知规律、语文教学规律等多方面的研究成果。成功的识字教学的改革,需要建立在汉字系统的规律、儿童认知规律和语文教学实践紧密结合的实验研究的基础上。本课题是一个多学科的综合研究,研究中我们将运用认知心理学、心理语言学、汉6语语言文字学和计算语言学的理论和研究方法,紧密结合小学语文教学实践, 充分借鉴汉语及其它语言儿童阅读学习规律的研究成果
13、,通过深入的儿童认知实验研究、汉语语言文字结构分析和数据库研究,在汉语语言文字规律和儿童汉字认知规律的基础上,进一步深入探讨儿童汉字学习、阅读发展的规律,提出编制小学语文教材等级字表的原则和应考虑的因素。三、研究程序本课题是根据认知心理学和心理语言学的理论、汉语语言文字的特点, 借鉴汉语及其它语言儿童阅读学习规律的理论研究成果,尤其是我们在多年儿童汉字学习实验研究和教学研究的基础上,通过深入的小学汉字数据库统计分析、儿童汉字学习研究与计算机模拟等途径,对影响儿童学习汉字的因素和小学识字汉字等级字表的研制进行了深入研究。研究的方法如下:1、小学语文课本字库分析;1) 对北京语文课本(1986)的
14、全部汉字、和全国五套小学语文课本的全部课文录入计算机,并对所录入的文本进行了分词和初步的编码,建立了小学语文课本汉字数据库;。上述五套教材是:包括北京师范大学出版社 1999 出版的九年义务教育五年制小学试用课本 、 。 北京出版社 1998 出版的九年义务教育六年制小学试用课本 、 。人民教育出版社 1998 年出版的九年义务教育六年制小学教科书 、 。广东教育出版社 1991 年出版的九年义务教育六年制小学试用课本和江苏教育出版社 2001 年出版的九年义务教育六年制小学课本 。2) 对小学语文课本用字进行了多种编码和综合分析,包括各年级汉字的笔画数、部件数、正字法结构、字类(独体和合体字
15、,象形、指事、会意和形声字等)的分布特点;汉字的常用部件、部件的组字频率、部件位置频率、部件功能等特点及分布;对各年级形声字的字频、声旁、形旁的数量、声旁、形旁的位置频率、声旁表音规则性和一致性、形旁的表义性、及其以及在不同频率汉字中的分布等进行了数据库分析。2、儿童元语言学意识的发展和汉字学习规律的研究:71) 儿童汉字学习及其影响因素的实验研究 运用汉字命名、再认、识别书写等技术方法,进行了一系列实验研究,探讨了影响小学儿童汉字学习和记忆汉字中效果的各影响因素,如它们是声旁规则性和一致性意识、形旁意识、正字法意识和语素意识等元语言学意识, 。我们还对这些元语言学意识的发展阶段和特点进行了深
16、入的探讨。儿童的正字法意识、声旁意识、形旁意识的发展及其在汉字识别中的作用进行了探讨。2) 汉字学习的计算机模拟研究 利用自组织特征映射模型的生理和心理合理性,建立了汉字学习的计算机模型, 。在小学语文课本数据库分析的基础上,训练了二、四、六年级的三个自组织模型,模拟了儿童词汇获得中形声字命名的声旁规则性及其发展。使用计算机模拟的方法,探讨了汉字频率和声旁家族对儿童汉字读音发展的影响。四、研究内容、结果和讨论我们从小学语文课本中汉字的频率特征分布与儿童汉字学习、小学语文汉字课本汉字的笔画和部件特征分布与儿童汉字学习、小学语文汉字课本中的形声字的特征分布与儿童汉字学习、小学低年级语文课本中汉字的
17、分布特点及其对字表编制的启示等几个方面汇报本课题的研究内容和研究结果:I. 小学语文课本中汉字的频率特征分布与汉字学习小学生在小学期间要学习多少汉字?如果我们计算汉字的字种数,或者说计算不同字的个数,大约在 3200 字左右。但实际上每个汉字在小学课本中出现可能不止一次,因此小学期间课本中出现的总字数,或者说小学生阅读的汉字总数会更多。我们对 5 套小学语文教材进行了统计,包括发现 “五四”学制教材总编委会编著、北京师范大学出版社 1999 出版的九年义务教育五年制小学试用课本中包含的汉字字种数为 3265 个,汉字总数为 146457 个。北京教育科学研究院基础教育教学中心编著、北京出8版社
18、 1998 出版的九年义务教育六年制小学试用课本中包含的汉字字种为 3306 个,汉字总数为 160342 个。人民教育出版社小学语文室编著、人民教育出版社 1998 年出版的九年义务教育六年制小学教科书中包含的汉字字种为 3237 个,汉字总数为 150497 个。九年义务教育教材(沿海地区)编写委员会编写的、广东教育出版社 1991 年出版的九年义务教育六年制小学试用课本和张庆、朱家珑主编、江苏教育出版社 2001 年出版的九年义务教育六年制小学课本中包含的汉字字种均为 3188 个,而汉字总数分别为 137103个和 108051 个。从上面的统计可以看出,小学生在小学阶段应该学习的汉字
19、字种数在3200 字左右,而课本中出现的总字数约在 10 万到 16 万之间,平均每个汉字使用次数达 43次之多。从字频统计结果看,小学汉字的使用情况是不均衡的。常用字的频度很高,罕用字的频度很低。 我们 以北京出版社的教材为例,对小学各年级所学生字的数量及其占小学总生字量的比率以及平均频率以及平均频率进行了统计分析(Shu, Chen, Anderson, Wu, & Xuan, Shu, et al. , 2003) , 。以北京出版社的教材为例,统计结果见表 I-1 和表 I-2。从两个表中可以看出三年级以前的识字任务比较重,学习的生字约占总生字量的 66%。随年级的升高,课本中所学的生
20、字数量减少,阅读量增加,生字的频率急剧下降。这主要是与中年级后语文学习重点转向阅读理解,阅读课文中引入的低频字迅速增加有关。同时教师和教材编写者也希望这一阶段的学生能独立地学习生字( Wu, Li, & Anderson,Wu et al. 1999)。表 I-1 小学各年级出现的汉字以及占所有汉字的比例年级 一年级 二年级 三年级 四年级 五年级 六年级 总计生字数 436 709 541 358 323 203 2570占总生字比例.17 .28 .21 .14 .13 .08 1.00I.1 汉字频率在各年级中的分布各年级课本中如何选择引入的汉字?目前我国小学课本中,总体来说,引入生字的
21、先后是与字频有关的。常用字通常在小学课本中出现较早,出现频率较高;不常用字一般在课本中出现较晚,出现频率较低。我们根据上海交通大学(1988)研制的汉字信息字典,将汉字分成高频字、次高9频字、中频字和低频字四个等级,。其中高频字指每百万次出现一百次以上的字;次高频字指每百万次出现十次到一百次之间的字;中频字指每百万次出现一次到十次之间的字;低频字指每百万次出现一次以下的字。这个统计是来自成人广泛的阅读材料,包括报纸、小说、杂志等。我们使用汉字信息字典中的信息统计了小学各年级课本中的不同频率段的汉字占生字总量的比率(Shu, et al. , 2003) 。以北京出版社的教材为例,结果发现,一年
22、级以高频字为主,占到该年级全部生字的 79%。二年级的次高频字有了很大增加,高频字和次高频字占到该年级全部生字的 93%。三、四年级的中频字有增加,分别占到该年级全部生字的14%和 17%。而五、六年级包含了更多的中频和低频字,两类字分别占到该年级全部生字的 37%和 45%。总的来说,低年级课本中以高频、次高频字为主,随着年级的升高,在识字总量中高频字数量减少,低频字数量增多。高年级所学的字中,次高频字和中频字占主要部分,低频字有较大幅度的增加。具体统计结果如表 I-2 所示。表 I-2 不同频率的汉字在各年级识字量中的比例年级一 二 三 四 五 六 平均高频字 .79 .59 .40 .2
23、4 .21 .10 .45次高频字 .19 .34 .42 .53 .43 .46 .38中频字 .02 .06 .14 .17 .27 .33 .13低频字 .00 .01 .04 .06 .10 .12 .04平均频率 1129 387 212 100 76 44 370*注: 平均频率的单位为千分之一,因此表中的 1.00 表示百万次出现一千次,.02 表示百万次出现二十次。本文的其他表中平均频率的含义相同。结合表 I-1 和表 I-2 我们发现,虽然小学高年级儿童所学的生字数量减少了,但是生字的频率降低了,难度加大了,平均频率从一年级的每百万次出现 1129 次下降到六年级的每百万次仅
24、出现 44 次。由此可见高年级儿童的学习任务加重了,因此该阶段的儿童需要借助10各种元语言学意识的帮助才能顺利完成识字任务。I.2 汉字频率对儿童识别和学习的影响从汉字识别的角度来说,大量研究表明,频率是汉字加工中最重要,也是最稳定的影响因素。高频字加工速度快、错误率低;低频字加工速度慢,错误率高。每个汉字都有字形、字音和字义这三个方面,在心理词典中,汉字的这三个方面互相联结,联结的强度取决于汉字的出现频率。高频字由于出现次数较多,因此形音义三方面的联结较强,因此看到字形就会自动激活字音和字义形,所以很多成人的研究发现在汉字命名(彭聃龄、王春茂,1997;舒华、张厚粲,1987;Seidenb
25、erg, 1985) 、真假字判断(彭聃龄、王春茂,1997) 、语义分类(刘友谊,2006)等任务中都出现了很强频率效应。在产生任务中同样存在很强的频率效应,在听到一个音节后,频率高的汉字比频率低的汉字容易激活,例如,“艰”的频率比“皂”的频率高,听到/jian1/后激活“艰 ”的时间比听到/zao4/后激活“皂”的时间短得多(周海燕,2004) 。从掌握的角度来说,重复对汉字的掌握是非常重要的。著名的艾宾浩斯遗忘曲线表明,遗忘在学习之后马上开始,而且急剧下降,随着时间的进展,遗忘的速度减慢(黄希庭,1988普通心理学 ) 。因此为了提高儿童对字词的学习效果,在汉字首次出现后,应在随后的课文
26、中有计划地安排生词的出现次数,以巩固儿童对所学汉字的学习效果。对那些在小学课本中出现较早,但在随后的课文阅读中出现频率较低的字是需要特别注意的。因为它们更容易被遗忘、混淆等。在一项对六年级儿童 2500 字听写的前期研究中,我们对学生的听写正确率及其在不同频率,不同年级学习的汉字的正确率进行了分析(栾辉、张大成等,2001) 。从结果中可以看出(见表 I-3) ,六年级儿童对汉语常用字听写的总体正确率为74。从分类上说,他们对低年级学习的字比高年级所学习的字的听写正确率更高,如对一年级学的汉字听写正确率为 0.87,而对六年级学的汉字的听写正确率仅为 0.60。另外,他们对高频字比对低频字的听
27、写正确率高,如对高频字的听写正确率为 0.78,而对低频字取得的听写正确率仅为 0.57。如果将频率与年级综合起来看,一个值得注意的结果是六年级学生对那些在小学一年级课本中就已经出现,但在 1-12 册小学课本中出现频率很低的汉字的掌握是最差的,这些低频字的正确率仅为 0.48。这进一步表明汉字的出现频率对儿童的书写掌握是很重要的。11表 I-3 不同频率、在不同年级学习的生字的听写正确率一年级 二年级 三年级 四年级 五年级 六年级 合计高频 0.91 0.83 0.73 0.71 0.59 0.67 0.78中频 0.79 0.76 0.64 0.58 0.58 0.61 0.67低频 0
28、.48 0.66 0.64 0.49 0.50 0.45 0.57合计 0.87 0.79 0.68 0.61 0.57 0.60 0.74从六年级儿童听写结果可以看到,使用频度高的字,掌握得就好,随着频率降低,正确率也逐渐降低,这体现出记忆与重复对儿童学习汉字的影响,作为一种复杂的文字系统,汉语字形与字音、字义之间没有必然的联系,使用频率高,形音义的联结就被不断的地重复,对学习和记忆汉字是非常必要的。同时,汉字学习时间也影响着汉字听写的成绩。一般来说,六年级儿童在较低年级学过的字,听写正确率较高,在较高年级学过的字听写正确率较低。然而一个例外是,一年级所学的低频字正确率是最低的。这也从另一个
29、侧面说明大量重复的重要性,儿童在低年级学习的字相对简单,多为中高频字,儿童在以后的学习中使用的次数多,书写的成绩就好,而低年级学习的低频字由于在以后的学习中得不到必要的重复,汉字形音义的联结弱,正确率反而最低。因此,在汉字书写过程中,记忆是起作用、有益于儿童汉字学习的,足够的重复,加强了记忆的联结,而联结的巩固,最终促进了儿童对汉字字形的掌握。从教学实践上来说,这预示着现行课本教学进度的安排,老师教学的策略,应该适应这个特点:低年级课本应尽量编排中高频字,老师在教学过程中,也应对生字、尤其是低年级所学过的不常用低频字给予足够的重复。然而,我们这里所说的字词出现频率高不等于简单、多次重复。人在识
30、别每一个字词时,都有一个识别阈限。当我们看到一个字词时,字词的各种特征就会不断地被抽取,当累积的特征高于识别阈限,字词就被识别了。高频字词和低频字词的识别方式有所不同,由于以前在书本中多次接触,高频字词的识别阈限较低,需要比较少的特征线索就可以识别。 ;低频字词的识别阈限较高,需要积累更多的线索才能识别,例如字的字形、声旁、形旁、曾出现在哪些句子中等信息都会帮助识别低频字词。我们所说的字词出现频率高,一方面是使得儿童与它们“多次见面” ,增加熟悉性,降低了识别的阈限。另一方面,儿童在12许多不同的句子、课文、语境中见过这些字词,可以帮助儿童对这个字词建立丰富的语义、语音联系,这有助于在字词识别
31、时更有效地搜索和提取字词的读音和意义。这种作用是不能通过反复抄写、背诵等途径达到的。II. 小学课本汉字的笔画和部件特征分布与汉字学习汉字最明显的特点是它的视觉复杂性:笔画多、部件多、大量的基本单元(相对于 26个字母) 、结构复杂, 这些特点对小学儿童的学习汉字产生重要影响。我们对小学课本中汉字的笔画和部件特征分布,及其与儿童汉字学习的关系进行了系统的探讨。II.1 各年级汉字的笔画特征分布笔画是汉字最小的结构单位,笔画的书写形状叫做笔形。通行的分类方法是把汉字的笔形分为“横、竖、撇、点、折”五个大类,这种分类方法将“提”归入“横” , “竖钩”归入“竖(丨) ”, “捺”归入“点”等。有的
32、学者(张静贤,1992)把汉字笔形分成两类:基本笔形和派生笔形,基本笔形包括“横、竖、撇、点、捺、提”6 种,派生笔形包括横折、横撇、横钩等 25 种。汉字字形的一个重要特点是汉字的笔画数,一般来说,汉字的笔画数被看作是汉字复杂性的一个指标。笔画数是指一个汉字中的笔画总数,汉字的笔画数最少的只有一画,比如:“一” 、 “乙” 。多的可达 48 画(龘 d) , 汉语大字典中收录的笔画最多的字由四个“雷”构成,读 bng,共 52 画。邢红兵等对 GB13000.1 字符集中 20902 个汉字进行了统计。从统计结果看出,汉字的笔画数差别很大,最少只有 1 画,在 20902 汉字中,最多有48
33、 画。不同笔画的汉字的分布也是不均衡的,在 3500 个常用字中和 7000 通用字中,9 画字最多,而超过 10000 字以后,12 画字最多,可见随着汉字数的增加,汉字的平均笔画略有增加。我们对小学汉字的笔画数进行了分析,描述了不同笔画的汉字的分布情况,从结果中我们可以看出,最简单的汉字仅 1 画,最复杂的汉字是“矗” ,有 24 画之多。虽然不同汉字的笔画数相差很多,但是在小学所出现的这些汉字中,大约 95的汉字的笔画均少于 15画。大部分汉字的笔画数处于 7 到 12 画之间(见图 II-1) (Shu, et al. , 2003) 。13Figure 1. Distribution
34、 of characters as a function of strokes1 174895133201261312317277223235149988344351214 9 2 2 1 10501001502002503003501 2 3 4 5 6 7 8 9 10 1112 1314 1516 171819 2021 2223 24Number of strokesNumberofcharacters图 II-1 小学课本汉字的笔画分布如果我们观察汉字视觉复杂性与年级的关系,从表 II-1 可以看出,汉字视觉复杂性的总体发展趋势是随着年级的升高而增加,视觉简单的汉字(指 1-6 画的
35、汉字)在课文中的比例随着年级升高而下降,而视觉复杂的汉字(指 13-24 画的汉字)在课文中的比例随着年级的升高而升高。一年级课本中,45%的汉字是在 1-6 笔画之间。二年级课本中,7-12画汉字占的比例最大,达到 65%。7-12 画汉字在以后各年级的比例相对稳定,这部分汉字的比例远远超过其他笔画数汉字的比例。表 II-1 不同年级所学汉字的视觉复杂性年级笔画数一 二 三 四 五 六 总计1-6 画 .45 .20 .15 .10 .07 .11 .19147-12 画 .48 .65 .68 .67 .68 .64 .6313-24 画 .07 .15 .18 .23 .25 .26 .
36、18平均笔画数 7.37 9.22 9.80 10.29 10.57 10.56 9.45汉字笔画数的多少不是完全任意的,是有一定规律性的。总的来说,汉字笔画数是随着字的出现频率的降低而增加。我们采用一种“移动窗口”的技术来直观描述频率与汉字笔画数之间的关系。首先,我们把小学汉字数据库(Shu et al, 2003)中所有的汉字均按频率高低以降序排列。然后,我们设定分析数据的窗口大小是一个窗口 50 个汉字。自变量是汉字的频率,也就是每 50 个字的平均频率取对数以后的值(ln) 。因 变 量 是 汉 字 的 笔 画 数 ,即 某 一 窗 口 50 个 汉 字 的 平 均 笔 画 数 。 我
37、 们 每 分 析 完 一 个 窗 口 的 50 个 汉 字 后 , 将 窗 口 移 动 到下 一 个 频 率 较 低 的 汉 字 , 窗 口 中 的 第 一 个 频 率 较 高 的 汉 字 被 减 掉 , 增 加 一 个 新 的 频 率 较 低的 汉 字 , 然 后 重 复 计 算 频率和汉字笔画数之间的关系。计 算 结 果 表 现 出 频率和汉字笔画数之间关系的 规 律 性 , 汉 字 的 笔 画 数 随 字 的 频 率 的 升高 而 降 低 ( 见 图 II-2) 。 这 表 明 , 常 用 的 高 频 的 汉 字 笔 画 一 般 较 少 , 不 常 用 的 汉 字 笔 画 较 多 。频率
38、和汉字笔画数之 间 是 一 种 较 强 的 线 性 关 系 ( R2 = .856, F = 14,942.0, p.001 ) 。 结 果 表 明汉 字 的 平 均 频 率 随 着 年 级 的 升 高 而 降 低 , 汉 字 的 笔 画 数 随 着 年 级 的 升 高 而 增 加 , 说 明 随 着年 级 的 升 高 , 教 材 中 的 汉 字 越 来 越 难 了 , 不 仅 使 用 度 下 降 , 而 且 视 觉 复 杂 性 上 升 。Ln Adjusted Frequency1086420-2Number of Strokes14121086420图 II-2 小学课本中汉字频率与笔画的
39、关系15II.2 汉字的部件特征分布笔画是汉字最小的书写单位,一些笔画按照一定的规则组合起来就构成部件。部件是一种相对固定的、具有组配汉字功能的构字单位。部件按照不同的标准可以分成不同的类型:按部件的笔画数分类,可以分为单笔部件(如“一” 、 “乙”等)和复笔部件(如“士” 、“重”等) 。按部件能否独立成字,可以分为成字部件(如“吉”中的“口”和“河”中的“可” )和非成字部件(如“同”中的“冂”和“病”中的“疒” ) ;按照部件的构字层次,可以分为基础部件(也叫“单纯部件”或“末级部件” ,如“男”中的“田”和“力” )和合成部件(如“想”中的“相” ) 。基础部件是指不再拆分的部件,我们
40、通常所说的汉字部件就是指基础部件。部件可以重复出现在不同的汉字中。根据一个汉字中部件数量的多少,汉字可以基本分为独体字和合体字两大类。仅由一个部件组成的汉字是独体字,由两个或两个以上部件组成的汉字是合体字。根据邢红兵(1998)对“现代汉语研究语料库系统” (孙宏林、孙德金、黄建平、李德钧、邢红兵,1996)的统计分析,在 4868 个汉字中,三部件字最多,占38%,两部件字和四部件字分别占 25%和 22%,单部件字只占 4.5%。单部件字、两部件字、三部件字和四部件字约占“语料库”总字数的 90%。从汉字部件的构字角度来看,每个部件的构字能力和使用情况是不同的。邢红兵(1998)对汉字部件
41、的构字和使用情况进行的分析发现,汉字部件在构字能力上是不均衡的,比如构字能力最强的的部件“口”所构成的汉字数为 3847 个,占全部 20902 汉字的18%多,构字能力最差的部件往往只构成一个汉字,比如 “书” 。 复杂的三千,以致几万个汉字由约 600 个基本部件组成(傅永和,1990) 。这样,汉字不是由笔画的任意组合构成的,而是由一些特定的最小的不能再拆分的单位 ,部件,组成的。这些不能再拆分的最小单位是有限的,例如, “口” 、 “日” 、 “目”是汉字的部件,而“ ”则不是汉字的部件。掌握汉字中“合理”的部件对汉字学习时非常重要的。现代汉字中合体字占 90%以上。合体字是由多个部件
42、组成的汉字。有些部件的位置在汉字中是固定的,如“扌”只能出现在一个字的左边,不可能出现在一个字的右边;而“刂”只能出现在一个字的右边,不可能出现在一个字的左边。然而还有一些部件既可以出现在一个字的左边,又可以出现在一个字的右边,或者出现在更多的位置。如“口” ,既可以出现在一个字的左边(如,哄) ,又可以出现在一个字的右边(如,知) ,还可以出现16在上面(如,呆) 、下面(如,杏)或外围(如,圆) 。很多情况下,这些大部分部件会有一个“优势”的位置,或者说,这些部件在合体字中有一个高频出现的位置。如“禾” ,在绝大多数合体字中出现在左边,但也可能出现在右边,上面或下面。掌握部件的位置特征和不
43、同部件之间的组合关系对汉字学习也非常重要。II.3 笔画和部件在汉字学习中的作用汉字是由笔画和部件组成的,因此笔画和部件是汉字的结构单位。语言学家胡裕树(1987)就曾说过:“笔画是现代汉字成形的最小单位。部件由笔画组合而成,它是合体字的结构单位。 ”张静贤(1992)也强调部件是汉字最基本的结构单元。傅永和(1990)则认为笔画是独体字的结构单位,部件是合体字的结构单位。那么在人的头脑里,汉字的基本单位是什么呢?当阅读汉字的时候,书写汉字的时候,和学习新汉字的时候,人们是以什么为基本单元进行阅读、书写或学习的呢?心理学家对成年熟练读者进行了大量的研究,研究结果表明,笔画和部件同样也是人的头脑
44、中汉字表征与加工的基本单位(彭聃龄、王春茂,1997;张武田、冯玲,1992) 。彭聃龄和王春茂(1997)通过两个实验探讨了不同笔画数和部件数的汉字的命名反应时。在一个实验中,他们控制汉字的部件数,比较了低频少笔画、低频多笔画、高频少笔画、高频多笔画四类字的命名时间。结果发现,无论高频字还是低频字,少笔画字的命名都显著地快于多笔画字。表明笔画数效应的存在,笔画是识别汉字的一个基本单元。在第二个实验中,研究者控制汉字的笔画数,比较了低频一个部件、低频两个部件、低频三个部件、高频一个部件、高频两个部件、高频三个部件六类字的命名时间。结果发现,在高频字上,部件数的效应是不显著的。部件数的效应主要表
45、现在低频字上,一个部件数、两个部件数的汉字的命名都显著地快于三个部件数的汉字。表明部件也是识别汉字的一个基本单元。将部件作为基本的加工单位和记忆单位,有重要的心理学意义。人短时记忆的容量在5-7 个单位之间,而 80多的汉字笔画数超过 7,因此利用笔画记忆汉字几乎是不可能的。而现代汉字中,单部件字、两部件字、三部件字占“语料库”总字次的 90%(邢红兵,1998) ,以部件作为记忆单位则使记忆的组块加大,而使记忆的容量减小了。更重要的一点是,构成全部汉字的部件不到 600 个,掌握了这些部件及其组合规则,人就可以记忆和识别无限多的汉字了。汉字还具有一定的内部结构,除独体字外,大部分汉字都可以拆
46、分为 2 到 5 个部件,并且这些部件必需按照一定的规则结合起来,才能成为人们能接受的汉字,即通常所说的17“正字法” ,使文字的拼写合于标准的方法。例如,大多数部件都有其合理的,典型的位置。当一个合体字中的部件出现在不可能的位置上时,它不符合正字法,我们称其为非字。当一个合体字中的部件出现在可能的位置上,但字典中没有这种部件组合的汉字时,我们称其为假字。II.3.1 小学儿童正字法意识的发展早在 80 年代,正字法对熟练阅读者汉字识别的影响已经在多个实验中得到了证实。随着研究的深入,研究者发现汉语儿童的正字法意识是在学习汉字的过程中逐渐发展起来的,并且正字法意识在字词识别、学习生字词和阅读发
47、展中起着重要作用。 儿童从什么时候开始就能掌握部件的位置知识呢?在一个早期研究中,我们通过真假字判断任务考察了这个问题,考察的对象是北京一、二、四、六年级共 143 名小学生。任务是要求儿童判断给出的一系列项目是不是真实存在的汉字 (Shu & Anderson, 1999) 。这些项目中一半是真字,一半是人造的字。人造的字包括三种类型:(1)符合正字法的假字,即部件是正确的且出现位置也是正确的假字;(2)含有假部件的非字,即部件是错误的,但是出现的位置是正确的;(3)部件所处位置错误的非字,即部件是正确的,但出现位置是错误的。结果发现,一年级学生较早掌握了部件位置知识,当部件出现在不可能的位
48、置上时,他们可以较好地运用知识判断汉字为“假字” 。对部件正确性的知识发展较晚,当含有汉字系统中没有的“部件” ,但位置没有明显违反时,他们判别的正确率是随年级发展的。图 II-3 中可以看到,一、二年级学生对“部件错误”的项目的判断处于概率水平,说明他们还不能应用有关汉字部件的知识进行判断,仅仅依靠猜测做出判断;而四年级和六年级学生对这类项目判断的正确率下降。说明学生学习了越来越多的汉字以后,逐渐掌握了汉字系统中存在的“真实”部件。这种知识是非常重要的,例如,在写字中使可选择的笔画组合数大大减少。研究结果表明低年级儿童就已经发展出最初步的正字法位置知识,并且这种知识随着他们阅读经验的增加而逐
49、步发展。对汉字中“合理”的部件和部件位置的认识可以使汉字学习变得更容易。0 1 2 5 18图 II-3 小学各年级儿童假字判断任务的正确率II.3.2 正字法意识在儿童书写学习中的作用我们的另一项研究发现,儿童从不会读写发展到熟练读写的过程中,部件表征的形成在这一过程中起着至关重要的作用。在一项延迟抄写研究中,我们给一、二、四年级儿童短暂呈现一个汉字,然后将字移走,要求儿童把刚才呈现的汉字写下来(钱云,2003) 。根据儿童在延迟抄写汉字时所采用的单元,我们把儿童所犯的错误分成以下三种类型:与笔画有关的错误:指儿童仅写出了目标字的一部分,且部件不完整;或者只是一些笔画的随机组合,看不出任何部件特征;例如, “ ”;不精确部件错误:指儿童写出了汉字中不存在的部件;例如, “ ”;精确部件错误:写出了汉字中存在却非目标部件的另一个部件。例如, “ ”。 。我们假设与笔画有关的错误是一种低水平的错误,表明儿童还没有建立起部件的表征。精确部件错误是一种较高水平的错误,表明儿童已经在心理词典中建立了部件的表征。虽然儿童写出来的字是错的,但是组成这个字的部件是