ImageVerifierCode 换一换
格式:DOC , 页数:21 ,大小:64.50KB ,
资源ID:4215224      下载积分:20 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-4215224.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(《现代汉语语法信息词典》的开发与应用.doc)为本站会员(dreamzhangning)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

《现代汉语语法信息词典》的开发与应用.doc

1、 现代汉语语法信息词典的开发与应用【摘要】现代汉语语法信息词典是为计算机实现汉语句子的自动分析与自动生成开发的一部机器词典,它以数据库文件形式收录了 5 万多条现代汉语的词语,不仅给出了每个词语所属的词类,而且详细描述了它们的各种语法属性。本文介绍这部语法词典的开发历程、内容概要和设计思想,并且举例说明在自然语言处理系统中如何应用这部语法词典。关键词:现代汉语、语法信息词典、机器词典、自然语言处理The Development of Contemporary Chinese GrammaticalKnowledge Base and its ApplicationsZHU Xuefeng YU

2、 Shiwen WANG HuiInstitute of Computational Linguistics, Peking UniversityBeijing 100871, P.R.CPhone :2501892AbstractThe Contemporary Chinese Grammatical Knowledge Base is a machine dictionary,which is developed for automatic analysis and generation of Chinese sentences. There are about 50,000 Chines

3、e words and idioms in the knowledge base represented by database files. The knowledge base not only gives part of speech for each word or idiom, but also describes their various grammatical attributes. The paper introduces the design, the development and the outline of the knowledge base and shows i

4、ts applications in natural language processing systems with examples.Keywods: contemporary Chinese, grammatical knowledge base, machine dictionary, natural language processing 1. 现代汉语语法信息词典的开发历程十年前,中文输入技术的主流还是汉字编码,以词为单位进行输入也只是汉字输入的陪衬。北大计算语言学研究所在 1986 年提出了一个语法规则制导的以语句为单位的中文输入方案,并在一年多的时间内实现了。参考文献1深入浅出

5、地介绍了这个方案的原理与实现技术。这个方法中就包含了一部电子词典,除了词条及每个词的检索特征(拼音、起笔、末笔等)外,还包括词类及细分的子类。这部词典成为现代汉语语法信息词典的基础。作为中国七五攻关项目“自然语言理解与人机接口”中的一个子专题,俞士汶于 1987 年提出了开发“现代汉语词语语法信息库”的计划2 ,把研究重点放在词语语法属性的描述上。恰逢此时,中国著名语言学家朱德熙先生承担了全国社会科学规划领导小组下达的“现代汉语词类研究”的攻关项目。从此,北大计算语言学研究所与中文系的研究者们在朱德熙先生的率领下开始了联合攻关,并结成了稳定的合作关系。1990 年, “现代汉语词语语法信息库”

6、取得了阶段性成果,通过技术鉴定。在讨论八五攻关项目时,以中国工程院院士、中国中文信息学会理事长陈力为教授为代表的中国一批自然语言处理技术专家敏锐地觉察到,为了中文信息处理技术的发展,特别是语言信息处理技术的发展,有必要建立通用的应用开发平台34。这个大型语言工程将现代汉语语法信息词典(以下有时简称为“语法词典”)列为它的一个子专题。从 1991 年起北大计算语言学研究所承担了这个子专题的研制任务。本项研究继承了“现代汉语词语语法信息库”的成果,又经过 5 年的努力,现在本项研究已完成如下任务:(1)制订了现代汉语语法信息词典的规格说明书与开发方略5;(2 )建立了面向信息处理的现代汉语词语分类

7、体系并完成了关于这个分类体系的研究报告6;(3 )明确了词语的收录范围与选词原则7;(4 )探讨了某些词类的子类划分8;(5)语法词典本身的开发,这当然是最繁重、最艰巨的任务。到目前为止,语法词典收录的词语总数为 5 万多条,并且将这 5 万多词都归了类,按照规格说明书填入了语法属性信息,其中百分之七十经过了仔细的、多遍的、不同角度的校对。 按照应用开发平台工程总体组的布署,北大已将语法词典的部分内容提交给其他子专题开发组使用。最近,负责句法规则的研究者告知,语法词典对句法分析提供的语法知识是有价值的,也是相当充分的。对于开发者来说,这当然是莫大的安慰与鼓励。另外,北大计算语言学研究所与中国科

8、学院计算所联合开发“汉英机器翻译模型系统”,与北京通字公司联合开发“面向通用图像码的自然语言生成系统”,与自然科学基金1 项目配合,开发汉语语料库多级标注系统9,这些应用系统利用了语法词典的信息。语法词典为这些应用系统取得阶段性成果也作出了贡献。总之,现代汉语语法信息词典的开发已取得阶段性成果,并且在若干自然语言处理应用系统开发中得到了利用。2. 现代汉语语法信息词典的内容概要2.1 词语的分类词语的分类既是任何一个自然语言处理系统的基础也是语法信息词典开发的基础。因为语法词典既要描述每类词都有的共同的语法属性,又要分别描述各类词特有的语法属性,只有这样,语法信息才会充分、完备,而又不致过于冗

9、余。语法词典的词类体系是在朱德熙先生的语法理论指导下,依据词的语法功能建立的,现代汉语词语可划分为以下 18 个基本词类:名 词(n) 如:书、水、教授、国家、心胸、北京时间词(t) 如:明天、元旦、唐朝、现在、春天处所词(s) 如:空中、低处、郊外、隔壁方位词(f) 如:上、下、前、后、东、西、南、北、里面、外头、中间数词(m) 如:一、第一、千、零、许多、分之量 词(q) 如:个、群、公斤、杯、片、种、些区别词(b) 如:男、女、公共、微型、初级代 词(r) 如:你、我们、这、那么、哪儿、谁 动 词(v) 如:走、休息、同意、能够、出去、是、调查形容词(a) 如:好、红、大、温柔、美丽、突

10、然状态词(z) 如:雪白、金黄、泪汪汪、满满当当、灰不溜秋副词(d) 如:不、很、都、刚刚、难道、忽然介 词(p) 如:把、被、对于、关于、以、按照连 词(c) 如:和、与、或、虽然、但是、否则助 词(u) 如:了、着、过、的、所、似的语气词(y) 如:吗、呢、吧、嘛、啦、呗拟声词(o) 如:呜、啪、叮呤当啷、哗啦叹 词(e) 如:唉、喔、哎哟、嗯、啊括号中的英文字母是各个词类的代码。这 18 个基本词类是被多数语言学家认可的。其中名词、时间词、处所词、方位词、数词、量词可以归并为体词(其主要语法功能是作主语、宾语) ,动词、形容词、状态词可以归并为谓词(其主要语法功能是作谓语) ,代词有一部

11、分属于体词(如:你、我、这儿、哪里等) ,又有一部分属于谓词(如:这样、那么、怎么样等) 。体词、谓词、区别词、副词又合称为实词,而介词、连词、助词、语气词合称为虚词。在实际文本中出现的词语,除了属于以上 18 个基本词类的以外,还存在比基本词类要大的单位,如:成 语(i) 如:空中楼阁、画龙点睛、字字珠玑、一衣带水习用语(l) 如:总而言之、自古以来、跑龙套、摆花架子简称略语(j) 如:北大、数理化、总参、三好、农牧业也存在比基本词类更小的单位,如:前接成分(h) 如:阿(妹) 、老(张) 、伪(指令)后接成分(k) 如:子(桌) 、儿(花) 、头(石) 、式、员语 素 字(g) 如:碧、棉

12、、宾、洁、农、怒非语素字(x) 如:鸳、鸯、葡、萄、咖、啡中文的标点符号(w) 如:。 , 、!“”为了分析实际文本的需要,现代汉语词语功能分类体系共包括了 26 个不同的词语类别。现在已完成了语法词典收录的 5 万词语的归类工作。2.2 语法词典的结构与形态语法词典采用成熟的关系数据库技术,结合使用分类与属性描述两种方法,对 5 万词语建立了分级的语法属性库。每一个库文件都刻划了词语及其属性的二维关系。长期以来,自然语言处理技术都是应用规则系统描述语言的语法规律。这种规则系统抽象程度高,适合于描述词类与词类之间的组合关系。但是自然语言极其复杂,每个词语都有自己的特性,规则系统是难以应付大范围

13、的实际语料的复杂性的。面向实际语料中词与词的同现关系的统计学研究是一个有前途的新方向,但统计的数据量非常大,需要强大的计算机系统甚至超并行计算机系统的支持。语法词典介于上述两种办法之间,是在应用需求与客观条件之间进行权衡与折衷的实际可行的策略。词典中共有 32 个数据库文件。总库 1 个。各类词库 24个(叹词、象声词、非语素字现未另建库)。代词库下又设两个库,即人称代词、指示 / 疑问代词分库,动词库下又设体宾动词、谓宾动词、双宾动词、动结式、动趋式、离合词等 6 个分库。所有词的共同属性容纳在总库中,总库中的属性包括读音、词类、切分标记、姓氏标记等,共计约 20 项。各类词的特有属性填在各类词的库中。以动词为例,动词库中列出了 46 项属性,表 1 是动词属性库中部分属性的样例。表 1. 动词属性库中部分属性的样例词语同形义项助动外内体谓准双宾着了过重叠VVO离合单作谓语单作补语兼类交给体双了理发内了过VVO离可会A见面体着了过VV

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报