1、现代汉语常用词表(草案)现代汉语常用词表(草案)1范围本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008 个,形成现代汉语常用词表,给出了词语的词形。本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。 2术语和定义2.1 常用词现代汉语普通话范畴中使用频率高、适用范围广的词语。2.2 词形本规范(草案)指词语的书写形式。2.3 词频在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。本规范(草案)指词语的出现次数。2.4 频级 同一语料调查范围中词频数相同的为一个频级。本词表频级统计
2、分两步:第一步形成不同类型语料库的频级,即原始频级。第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。3研制原则3.1 词和语兼顾原则本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。3.2 系统性和实用性兼顾原则本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“晚季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“残季节”的词语,只
3、收录“残冬”未收录“残春”“残秋”“残夏”。4现代汉语常用词表(草案)说明4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、现代汉语规范词典、现代汉语词典、新华词典等所收词语进行了比对,并查验了该词在人民网人民日报报系网页以及 Google 网简体中文网页、百度网等常用网页上的使用情况。4.2 本表用来检测词频的语料库有:国家语委 “现代汉语通用语料库”中经分词标注的 4 500 万字语料、人民日报2001 年2005 年约 1.35 亿字的分词标注语料和厦门大学的现当代文学作品语料库约 7 000 万字的语料。总共 2.5 亿字。4.3 本表
4、共收录常用词语 56 008 个,包括单音节词 3 181 个,双音节词语 40 351 个,三音节词语 6 459 个,四音节词语 5 855 个,五音节和五音节以上词语162 个。表内条目按频级升序排列,频级相同的按汉语拼音音序排列。4.4 本规范(草案)提供了现代汉语常用词表的音序索引,按汉语拼音音序排列,同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不代表词语的读音规范。频序号 词语1 的2 是3 在4 一5 不6 有7 这8 个9 上10 也11 他12 人13 就14 对15 说16 我17 要18 到19 大20 我们21 多22 把23 来24 等25 年26
5、两27 从28 而29 能30 又31 他们频序号 词语32 以33 时34 没有35 会36 之37 但38 三39 被40 很41 下42 自己43 后44 中国45 并46 使47 向48 已49 出50 用51 新52 所53 里54 给55 她56 更57 次58 最59 于60 可以61 可62 去频序号 词语63 由64 问题65 小66 工作67 让68 其69 你70 这个71 生活72 起73 这样74 天75 它76 高77 做78 家79 已经80 再81 或82 才83 前84 走85 这些86 一些87 却88 二89 条90 位91 起来92 各93 成频序号 词
6、语94 什么95 元96 现在97 社会98 比99 同100 四101 关系102 名103 想104 如105 第一106 因为107 该108 开始109 许多110 内111 时间112 人们113 今天114 国家115 本116 点117 思想118 至119 此120 一定121 如果122 副123 无124 张125 同时126 需要127 月128 则频序号 词语129 重要130 为了131 日132 老133 就是134 作135 五136 人民137 事138 认为139 成为140 像141 北京142 历史143 水144 方面145 情况146 而且147 党1
7、48 学生149 每150 这里151 但是152 孩子153 可能154 发生155 必须156 只有157 外158 要求159 全160 发现161 进行162 特别163 因频序号 词语164 岁165 得到166 件167 文化168 分169 便170 同志171 发展172 即173 日本174 总175 因此176 对于177 领导178 带179 既180 时候181 钱182 自183 政府184 吃185 非186 决定187 进188 还是189 受190 国191 应该192 近193 美194 政治195 话196 公司197 干部198 出现频序号 词语199 开
8、200 一切201 研究202 认识203 写204 十分205 十206 站207 之间208 问209 希望210 快211 虽然212相()213 美国214 知道215 讲216 大家217 学校218 组织219 见220 由于221 正在222 法223 表示224 一样225 活动226 如何227 教育228 书229 据230 城市231 道232 艺术频序号 词语233 经济234 以及235 部236 影响237 太238 其中239 学240 先生241 完全242 连243 主要244 继续245 头246 革命247 之后248 参加249 能够250 住251 上
9、海252 经过253 非常254 低255 甚至256 听257 先258 一直259 学习260 仍261 办262 所以263 代表264 变265 最后266 一起267 万频序号 词语268 所有269 那么270 心271 越272 较273 办法274 路275 有些276 未277 通过278 找279 按280 拿281 解决282 一般283 另284 经285 半286 强287 或者288 时代289 手290 作品291 不断292 以后293 关于294 青年295 各种296 真297 其他298 农民299 那些300 余301 段302 有的频序号 词语303
10、买304 根本305 县306 作者307 者308 请309 叫310 感到311 怎么312 任何313 六314 表现315 反316 存在317 然而318 准备319 送320 约321 比较322 书记323 爱324 单位325 群众326 应当327 王328 早329 女330 门331 个人332 座333 全国334 意义335 花336 条件337 环境频序号 词语338 了解339 搞340 力量341 不仅342 目前343 经验344 产生345 真正346 回347 队348 有关349 字350 会议351 生命352 今年353 努力354 靠355 八35
11、6 市357 类358 共359 意见360 死361 民族362 块363 只要364 文学365 成功366 变化367 句368 管369 你们370 指371 地区372 方频序号 词语373和()374 项375 注意376 当然377 达378 面379 坐380 家庭381 原因382 进入383 病384 介绍385 下来386 事情387 方式388 首389 计划390 人类391 报告392 世纪393 方法394 入395 信396 化397 步398 生399 声400 图401 电话402 能力403 片404 作用405 台406 如此(略)附 录现代汉语常用词表
12、(草案)音序索引词语 汉语拼音 频序号阿爸 18137阿昌族 50849阿斗 42632阿飞 48603阿富汗 3461阿訇 34432阿拉伯数字 35937阿拉伯语 30476阿妈 16220阿门 47913阿 Q 20845阿司匹林 40294阿嚏 54643阿姨 6842啊() 16090啊呀 15418啊哟 23908啊() 28693啊() 18287啊() 5514啊() 1175哎 5497哎呀 8456哎哟 11815哀兵必胜- 53102哀愁 25684哀悼 8091哀告 36418哀歌 40509哀号 29605哀嚎 45194哀叫 35031哀哭 41402哀怜 3503
13、2哀鸣 28081哀戚 46661哀泣 44322哀求 11984哀伤 19763哀思 23975哀叹 26507哀恸 46377哀痛 27828哀婉 32720哀怨 23209哀乐 20602埃 6336埃及 3121挨() 4736挨边儿 53583挨次 40951挨个儿 42370挨户 17735挨肩儿 46979挨近 26596唉() 7474唉声叹气- 24870唉呀 25872挨() 4436挨饿 16362挨批 34907挨整 37482挨揍 36941皑皑 28598癌 10793癌变 35321癌细胞 19156癌症 6730癌肿 44071嗳 9372矮 5267矮墩墩 5
14、3103矮胖 27829矮小 16293矮子 22440艾 9226艾蒿 36593艾窝窝 55566艾滋病 3427唉() 4115爱 323爱不释手 24929爱财如命 - 54115爱称 46662爱答不理 52602爱戴 11712爱尔兰 6977爱抚 19330爱国 2338爱国主义 3990爱好 5492爱河 36942爱护 5862爱将 34908爱克斯光 55082爱怜 23303爱恋 22255爱美 21216爱面子 31481爱莫能助 31595爱慕 18550爱女 29712爱情 2005爱人 5519爱神 30357爱屋及乌 - 47287爱惜 14976爱心 4350
15、爱憎 24550爱憎分明- 33081隘口 39452碍 10576碍口 54644碍难 48993碍事 24816碍手碍脚- 45495碍眼 43825暧昧 17148安 1651安步当车 - 53104安插 27587安抵 45796安定 4956安度 27830安顿 15085安放 15202安分 19045安分守己 - 30358安抚 16334安好 36594安徽 3002安家 21467安检 20603安静 5113安居 15923安居工程 28340安居乐业 - 10051安康 12674安乐 19724安乐死 38044安乐窝 37483安乐椅 44323安理会 4752安谧
16、36770安眠 32861安眠药 21184安民告示 45797安宁 6724安排 613安培 22659安贫乐道 - 46980安琪儿 38213安寝 44324安全 709安全带 19797安全岛 48994安全阀 48251安全感 11863安全帽 30135安全门 42371安全套 23630安全系数 29177安然 11659安如磐石 55849安如泰山 55083安设 42847安身 27022安身立命- 27259安神 34572安生 22441安适 31376安睡 28897安泰 39037安土重迁- 53584安危 10168安慰 3875安稳 14568安息 18762安闲
17、 25466安详 12330安享 33609安歇 38045安心 4180安养 54116安逸 18491安营 36943安营扎寨- 27510安于 24930安葬 17219安之若素 - 43360安置 2645安装 3200桉树 32345氨 11115氨基酸 15442氨气 41641氨水 34573庵 12110庵堂 46088谙练 55567谙熟 36771鹌鹑 29290鞍马 26027鞍马劳顿 - 48604鞍前马后 - 44325鞍子 38627俺 2677埯 51701岸 4679岸然 50468按 279按兵不动 - 27023按部就班 - 25179按键 32346按揭
18、23054按理 30787按例 48995按脉 52135按摩 10229按捺 25943按钮 18863按期 12723按时 5677按说 19355按图索骥 - 39235按压 37125按语 34909按照 634案 1109案板 28985案牍 48605案发 13946案犯 20151案件 1461案卷 23156案例 7184案情 11301案头 18138案由 36095案值 13209案子 6523暗 2609(略)现代汉语常用词表(草案)研制报告一 研制背景为给语文应用和有关政策的制定提供科学的词汇依据,积极服务于汉语规范化、推广普通话,积极服务于中小学语文教学、扫盲教育、汉
19、语教育、中文信息处理和辞书编纂等工作,1998 年 7 月国家语言文字工作委员会批准立项,成立现代汉语通用词表研制课题组。该词表作为国家已经公布的现代汉语通用字表等的配套规范,是我国语言文字规范化、语文教育和研究方面的基本建设项目。研制工作自 1998 年 7 月启动,于 2001 年年底完成并通过了专家鉴定。鉴于 5 年来汉语词语发展变化很大,研究和统计手段又有很大提高,为把词表研制工作做得更加扎实完善,课题组希望对原词表进行修订。2005 年 6 月教育部语信司决定在原词表的基础上进行修订,此项工作由原课题组和新立项的现代汉语通用词量与分级课题组合作进行,共同研制一个常用词表。根据 5 年
20、来语言发展变化的情况和对词条增删调整,按新的统计处理方法确定其常用度并以此重新排序,使之能更真实地反映我国现代汉语词汇系统的概貌。这次修订工作进行了一年半,主要是对词语作了较大规模的增删调整,并根据词频调查结果确定了使用频级。修订的主体工作于 2007 年 1 月完成,之后又根据有关专家和部门的意见陆续作了增补和修改。二 研制过程(一)初稿的形成本词表初稿的研制工作,主要包含下列几方面的内容:(1)搜集有关文献资料,研究前人制订各种词表的经验和教训;(2)比较现有的、在社会上影响较大的辞书的词目,并研究它们的取舍标准;(3)进行社会调查,了解群众使用汉语词汇的具体情况;(4)在把现代汉语规范词
21、典开编时的词目和其他 10 多本词典、词表进行对比后进行增删的基础上,用山西大学和清华大学计算机中心所储存的语料进行词汇覆盖率的检验。对条目的增删,除了利用计算机之外,还进行了人工干预,逐条审核。通过以上工作,形成了总词目为 61 000 多个的“词表”。2000 年 2 月 26日在北京经专家鉴定通过。鉴定委员有陆俭明、陈章太、曹先擢、常宝儒、刘庆隆、林杏光和苏培成,由苏培成主持。(二)词表的修订2005 年春天,为了加快词表研制工作的进度和提高质量,在教育部语言文字信息管理司的组织下,研制组联合苏新春主持的“现代汉语通用词量与分级”课题组对原词表作了修订并再次进行词频统计工作。将“词表”同
22、国家语委研制的“通用语料库”的核心语料库所收词语进行比对。核心语料库约有 15 万多个词语,除去专有名词、行业词语、人名、地名等以外,语文类词语约 10 万个。将“词表”同这 10 万个词语进行逐一比对,按照常用词表既定的收录原则逐条筛选。在审慎分析各词语在通用语料库中词频的基础上,考察社会语文生活中的实际使用情况,经过人工干预增选出约 4 000 多个词语。将“词表”同现代汉语规范词典、现代汉语词典(第 5 版)、新华词典等所收词语进一步比对。排除其中的方言词语、专有名词、行业词语以及现代语文生活中存活率或使用率明显偏低的文言词语,再按照常用词表既定的收录原则进行审核,增补了 500 多个词
23、语。将“词表”同新词语语料库所收新词语进行比对。利用厦门大学研制的新词语语料库,按照课题组既定的收录原则进行筛选,经现代汉语通用语料库检测,增补了 1 000 余个词语。至此,“词表”的词语收录总数扩展到了 66 000多个。对“词表”词语进行综合审读,必要时查验了该词在人民网人民日报报系网页以及 Google 网简体中文网页、百度网等常用网页上的使用情况,作了再次调整(主要是删除尚不具备本表所界定的“常用”规格的词语),另外也考虑到作为常用性词表的词,不宜象一般词典那样因语音或语法的细小差异而将词目作过细的区分。后来在送专家和有关部门审读中,又根据审读意见陆续作了调整和删减。最终形成的现代汉
24、语常用词表,收录词语共 56 008 个。11包括单音节词 3 181 个,双音节词语 40 351 个,三音节词语 6 459 个,四音节词语 5 855 个,五音节和五音节以上词语 162 个。调查所有词语的使用频次。用来检测词频的语料库有三种:第一种是国家语委主持研制的“通用语料库”中经分词标注的 4 500 万字语料。第二种是人民日报2001 年2005 年约 1.35 亿字的分词标注语料。第三种是厦门大学研制的现当代文学作品语料库,约 7 000 万字的语料。总共 2.5 亿字。以上三种语料均作有分词与标注,从中获得词频数据。对以下两种情况作了人工检测。第一种是分词后在该语料中没有出
25、现的词语。做法是将被检词放到未作分词标注的原始语料中以查检字符串的方式调出所有用例进行人工甄别,从而避免原始语料中有词却因软件分词而消失了。在查检时对数量大的语例则用随机抽样的方法抽检。第二种是同形词。对同形异义词在实际语例中进行人工干预,区分意义,分别统计词频。三 研制原则和方法(一)收词原则本词表所称的“常用词”是指以汉语为母语的中等文化程度的人,在社会语文生活中经常见到和使用的现代汉语普通话词语。本词表要求给现当代社会语文生活中通用的、稳定性较强、使用频率较高的汉语普通话词语划出一个范围,作为现代汉语词汇系统的基干部分,从而为语言应用和有关语言文字政策的制订提供科学的词汇依据。在研制中,
26、既注重了书面词语的收集,也兼顾了常用口语词语的考察,还适当收了一些在现代社会大众传媒中时有出现,跟语文生活有所关联的行业性、历史性词语。至于更专业些的词语将另行研制,作为现代汉语常用词表的附表。本词表以收录单音节词和双音节词为主。同时,根据语言交际实际也收录一些使用频率明显较高的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。1.鉴于汉语词语本身在缩略、扩展、拆用,以及跟别的词语组合成新的固定语等方面的灵活性和复杂情况,本词表的词语筛选还贯彻了以下规则:(1)对于带有词根性质的词语(如“群众化”“群众性”中的“群众”)和它们的扩展词形、组合短语,从词语构成的能产性考虑,优先收录
27、带有词根性质的词语,对它们的扩展词形或组合短语,根据实际使用频度和规范状况等有选择地收录,原则上双音节者适当从宽,三音节及其以上者适度从严。(2)对于简缩词语或简称和它们的原形词语,根据实际使用频度和规范状况等做出不同的选择。如:“安理会”“安全理事会”“联合国安全理事会”,收录“安理会”,而不再收录“安全理事会”和“联合国安全理事会”;“福利彩票”和“福彩”,收录“福利彩票”,而不收录“福彩”。(3)可以拆用的四字以上的固定语(多是八字熟语),原则上收录其完整式,而不分别收录拆用式。如:收录“种瓜得瓜,种豆得豆”,不分别收录“种瓜得瓜”和“种豆得豆”。(4)经常出现的双音节结构,如果其中一个
28、组成语素在现代汉语中基本不单用,则把该结构视为词加以收录,如“乌云、李子、鲫鱼、松树”等;如果该结构中有一个成分的意义已经虚化,也视为词加以收录,如“达到、酿成、成为、致以、觉得”等。2.鉴于本词表的研制目的和使用价值,对于确实存活在社会语文生活中、但较为特殊的几类词语,采用以下处理办法:(1)人名。原则上不予收录,但有比喻、借代等引申意义的,适当收录其中稳定而高频的。如“阿 Q”“诸葛亮”等。(2)地名。原则上不予收录,但收录使用频率相对较高的我国各省(及其省会)、自治区(及其首府)、直辖市名称,以及它们常用的别称或简称。(3)国名。只收录我国周边国家以及在社会语文生活中出现频率明显较高的一
29、些国家和城市的名称。(4)我国各历史朝代名称。只收录历史上影响较大、在现当代社会语文生活中出现频率明显较高的朝代名称。(5)党、国家、社会团体和企事业各机构的名称,以及这些机构的领导职务的名称。原则上不予收录,但在现当代社会语文生活中明显稳定而高频的“支部”、有着明确比喻意义的“班长”等,则予以收录。本词表的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“晚季节”的词语,只收录“晚春”“晚秋”未收录“晚冬”“晚夏”;对于“残季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。总之,在词语收
30、录的具体操作中,尽量处理好词语的系统性和词语的常用性的相互关系,特别注意词频的高低,一切从语言使用实际出发。本词表的词语收录,既充分尊重社会语文生活的客观实际,又严格控制不符合规范以及格调低俗的词语,切实起到促进社会语文生活向着规范、文明方向发展的积极作用。本词表所收录的词语,在用字上基本涵盖了现代汉语常用字表中的全部汉字,不超出现代汉语通用字表的范围。凡是独立成词的字,列出单音节词;不能独立成词的字,收录于复音词中。单音节词条中包括了某些只作常用姓氏的字,如“邓”。(二)根据“词频频级排序法”确定词语的使用频度顺序本词表确定词语的使用频度顺序使用的是“词频频级排序法”。由于词语的来源面比较宽
31、,各种语料都有自己的覆盖面与构成特点,词表中的词语不能在每种语料中都得到全部显现。同一个词语在不同语料库中的频次也可能相差较大,因而不同语料库中的具体频次之间缺乏严格的可比性。用频级统计则能较客观地显示每个词语的使用情况。频级排序法就是同一语料库中所有词语按频次数的多少进行的一种排序方法。相同频次的为一个频级。频级统计分两步施行。第一步形成不同类型语料的频级。检测语料有“通用语料库”、“人民日报”、“文学作品”三种,这样每一个词语就有了三个不同的原始频级。第二步形成总语料的频级,就是将每个词语的三种语料的频级之和除以三。总语料的频级共有 2 969 级,1 级为最高,2 969 级为最低。同一
32、频级的词语最多有1 781 条,最少的只有 1 条词语。相同频级的词语,根据总频次的多少由高到低排序,相同频次的根据读音按字母升序排列。四 研制的内容本词表包括“频级序号”“词语”等内容。“频级序号”是根据“频级统计法”排序,其方法详见上文。由于“频级统计法”是根据一个词在三个语料库中的平均频级来决定的,那些总频次相同或相近的词,如果在三个库中分布不匀等,则在“频级”的排名上会稍显排后。(一)用字词表使用的汉字总数为 5 144 个,涵盖了现代汉语常用字表的所有有构词能力的字,并均在现代汉语通用字表的用字范围。词表全部使用规范汉字,即符合第一批异体字整理表(1955 年 12 月22 日中华人
33、民共和国文化部、中国文字改革委员会发布)、简化字总表(1986 年 10 月 10 日经国务院批准国家语言文字工作委员会重新发表)、现代汉语常用字表(1988 年 1 月 26 日国家语言文字工作委员会、国家教育委员会发布)、现代汉语通用字表(1988 年 3 月 25 日国家语言文字工作委员会、中华人民共和国新闻出版署发布)的规定。(二)词形全部词语使用规范词形。对于异形词,执行第一批异形词整理表(GF 10012001 中华人民共和国教育部、国家语言文字工作委员会 2001 年 12 月 19日发布)的规定。对一些仍在使用且有一定使用频率的异形词,则附列在正形词后并用括号表示。在条件成熟时
34、将再进行“附表”的研制。计划中的“附表”包括五部分:(a)常用科技词表;(b)常用方言词(实为方源词)表;(c)常用人名、地名表;(d)常用文言词表;(e)常用字母词表。考虑到字母开头的词语(习惯上称之为“字母词”)在社会语文生活中使用虽较频繁,但多数尚不够稳定,语言学界的认识也不一致,所以本词表没有收录这类词语,将在日后把这类词语列为附表。五 相关资料研制单位:现代汉语规范词典编委会厦门大学中文系研制人:前期研制人员负 责 人:李行健参加成员:陈松岑、季恒铨、余志鸿、谢自立、张卫国、郑宝倩、孙茂松(兼计算机工作)、程荣、叶根祥、刘开瑛(计算机工作)后期修订人员负 责 人:李行健、苏新春参加成员:季恒铨、余志鸿、钮葆、朱振平、程国甡、徐婷、刘扬涛、钟安妮、李连伟 学术顾问:胡明扬、曹先擢、傅永和本词表立项研制过程中,始终得到教育部国家语委的支持。许嘉璐、陈章太、陆俭明、徐通锵、苏培成、韩敬体、晁继周、黄昌宁、李宇明、王铁琨等同志先后参加过制定“词表”的研讨会,给制定工作很多指导和帮助;商务印书馆、语文出版社、外语教学与研究出版社等单位也给予了支持和协助;责编余桂林同志做了不少不可或缺的工作。在本词表出版之际,谨向上述同志和单位表示衷心的感谢!现代汉语常用词表课题组2008 年 6 月 24 日