1、现代汉语词量与分级,思考,一、现代汉语的词量有多大? 二、包括哪些词语? 三、分几“级”合适?每级界限在哪? 四、词级划分依据的标准和方法?,当代最具影响力的两个常用词表:现代汉语频率词典,8548条 对外汉语教学词汇大纲,8822条,“语法、语音是有系统的,词汇是一盘散沙。”最初实践,对现代汉语词典的计量研究,近几年的实践: 现代汉语常用词表,商务印书馆,2008年11月 “对外汉语1500常用词”,见中国语言生活状况报告2006,王铁琨主编,商务印书馆,2007年8月。(收入国家汉办主编国际汉语通用课程教学大纲外语教学与研究出版社,2008年4月) “基础教育3000基本词”,见中国语言生
2、活状况报告2007,王铁琨主编,商务印书馆,2008年11月。,一、现代汉语的词汇量有多大?,对词典的考察 对词表的考察 对大规模真实语料的考察,从词典来考察“词汇量”,1.现代汉语词典的词汇 规范型词典全面反映语言的词汇体系,就要对词语作全面收录,不因某些词语无需查检而不收。 规范型词典对民族共同语词汇的记录是全面的,但不是穷尽的(在理论上和实践上都是不可能的)。现汉是一部中型词典,它在收词上既是全面的,又有较强的选择性。选词的依据,主要不是看查考的需要,而是看词语在语言使用中出现的频率。晁继周、单耀海、韩敬体:关于规范型词典的收词问题,见现代汉语词典学术研讨会论文集,商务印书馆,1996年
3、版,第70、72页。,现汉词条61000: -单字条10700(4000) -方言词2600 -科技术语60000*0.2=12000 -书语词3800 =31900 从严计算,32000-40000之间。,在现汉的语文词周围存在一条宽阔的接壤词汇带: 1.方言词:现代汉语方言大词典共41卷,收41个方言点的词汇,平均每个点收词8000条,其总数达30万条以上。汉语方言大词典20万条 2.术语词、行业词:数十个学科、行业,以每个2000计,有数十万条。 3.新词语:近30年间,30000余条,每年约1000条。 4.文言词:辞源10万条,汉语大词典非现代词。,方言词与普通话词语的区分:拇指 大
4、拇指 大拇哥,行业词与普通话词语的区分:招标、投标、竞标、发标、中标、得标 开标、唱标、流标、跑标、串标、围标接听 主叫、被叫,新词语与普通话词语的区分裸露、裸照、裸奔、裸泳、裸尸裸戏、裸晒、裸聊、裸背、裸肩 /裸机、裸眼 / 裸捐、裸退、裸官,书语词与古语词的区分:,从词表来考察“词汇量”,从大规模真实语料来考察“词汇量”,结论: 从对词典的考察来看,属普通话词汇的语文词词量约6万左右。 从对词表和大规模真实语料来看,大概在8-10万左右。 确定词量的关键在普通话词汇与接壤词汇之间如何划界。,二、现代汉语词汇包括哪些词种,那么在6-8万的普通话词汇范围中,包括了哪些词语?试以下面三种为例:现
5、代汉语词典(63000/58000) 现代汉语语义分类词典(83000条/77000) 现代汉语常用词表(56008/55600),交集比较:,交集比较:,结论: 没有一种词汇集具有完全的“认同度” ;没有完整地包含它集或被它集所包含。 不同规模、不同性质、不同用途的词汇集都有着自己“独收子”。 参与比较的词汇集愈多,交集愈小,交集的“普遍性”愈突出。,三、划多少“级”合适?,拟建构“基本词集”: 第一级:3000条 第二级:8000条 第三级:30000条 第四级:60000 - 80000条另有若干附属的专集,词级划分的参考因素:,分布-分布率: 使用-频率-覆盖率: 基础、重要的语义成分
6、: 服务对象、使用范围: 作用与功能,结论: 广分布的词,并不等于高频词;高频率使用词,不等于广分布的词 母语学习者与第二语言学习者的不同; 基础教育学习者与社会使用者的不同;,普遍存在的词不等于使用中的高频词,普遍存在的词不等于使用中的高频词,四、词级划分依据的标准和方法,频次法 分布法 频级法 使用率 使用度 语义分布,分布法与频率法的对比,四套教材词语状况:,分布法与频次分的对比分析,思考一:频次统计法有相当的误导性。频统计法只有在具有大致相当的分布情况下才具有较好的参考性。,思考二:使用度统计法能在一定程度上冲淡频次信息的片面性,但它只适用于频次与分布差别不大的现象适用。对频次高分布窄
7、的词语不能起到足够的校正作用,因为频次畸高的因素仍会严重影响到综合数值。,思考三:词语的分布信息比频次信息有更好的参考价值。分布统计法能更准确地显示词语的通用性、基础性、大众性。,频级法的使用,频级:在调查对象中相同频次的为一个频级。 频级统计法:根据频级调查词语常用度的一种调查方法。适用于大规模语料调查。特别是对于立足于特性不一、容量差异明显的多个语料库之间比较的大规模词汇统计。通常有升序,降序等。,现代汉语常用词表的 词频序号使用的是频级法,由于词语的来源面比较宽,各种语料都有自己的覆盖面与构成特点,词表中的词语不能在每种语料中都得到全部显现。同一个词语在不同语料库中的频次也可能相差较大,
8、因而不同语料库中的具体频次之间缺乏严格的可比性。用频级统计则能较客观地显示每个词语的使用情况。频级就是同一语料库中的所有词语按频次数量的多少排列时体现出来的排位顺序。相同频次的为一个频级。,频级统计分两步施行。 第一步形成不同类型语料的频级:检测语料有“通用语料库”、“人民日报”、“文学作品”三种,这样每一个词语就有了三个不同的原始频级。 第二步形成总语料的频级,就是将每个词语的三种语料的频级之和除以三。 相同频级的词语,根据总频次的多少由高到低排序,相同频次的根据读音的字母升序排列。,频级:相同频次的为一级,由高到低排列。 共同频级:若干个库的频级相加/频级数 总频级 =(频级1+频级2+N)/频级数,语义分布法的测定(一般说的分布是领域分布),思考与练习,如何来确定词量的范围?有那些常用的方法? 确定词量的难度是什么? 确定词量有何意义?,