收藏 分享(赏)

现代汉语词典第四版三音节新词词义推演分析.ppt

上传人:无敌 文档编号:960152 上传时间:2018-05-07 格式:PPT 页数:18 大小:721.50KB
下载 相关 举报
现代汉语词典第四版三音节新词词义推演分析.ppt_第1页
第1页 / 共18页
现代汉语词典第四版三音节新词词义推演分析.ppt_第2页
第2页 / 共18页
现代汉语词典第四版三音节新词词义推演分析.ppt_第3页
第3页 / 共18页
现代汉语词典第四版三音节新词词义推演分析.ppt_第4页
第4页 / 共18页
现代汉语词典第四版三音节新词词义推演分析.ppt_第5页
第5页 / 共18页
点击查看更多>>
资源描述

1、基于多部词典的目标动词义项标注的困难及解决策略,文章总体安排:,1 引言2 目标动词义项标注项目的介绍3 基于多部词典的目标动词义项标注的困难 31 词典义项的确定性和词义的发展性带来的标注困难 32 词典义项的高精度性带来的困难 33 基于词典的目标动词义项标注的其他一些具体困难 34 前序工作造成的标注困难4 基于多部词典的义项标注困难的解决策略 5 基于多部词典的目标动词义项标注困难的一点启示51 义项标注无法离开“词典”52 义项标注也不能全靠“词典” 53 用于义项标注的动态词典,1 引言,一方面大家都认为词义消歧是自然语言处理中的难点,另一方面许多文章所给的词义消歧的结果却又很高(

2、部分词可达到90%以上),而我们在人工标注过程中发现部分动词标注的匹配率非常低(有的初始标注匹配率仅是18.75%,有的再次标注匹配率仅为35.40%),为什么会有这么大的差距?下文针对我们的项目对基于多部词典的目标动词义项标注的困难进行分析并提出解决策略。,2 目标动词义项标注项目的介绍,目标动词义项标注是我们构建汉语句法语义标注库的第一个阶段,其处理目标是确定目标动词在一个完整的汉语句子中的基本情境意义,并在不同的语义词典中选择恰当的解释。标注时使用的是清华大学开发的“目标动词义项标注工具” ,如下图:,基于三部词典的目标动词义项标注有以下优势:从知网知识库中提取以语义类形式组织的目标动词

3、的事件角色框架信息,可以形成进行相关句子语义角色标注的基本数据集,为下一步工作打下坚实基础。同时采用词林和现汉通可以弥补单一词典收词、释义不全的情况,可以使三部词典查漏补缺,可以反过来给语义资源库建设、词典编纂一些启示。但基于三部词典的义项标注也存在很多困难,下文针对我们项目中遇到的困难提出可行的解决策略。,3 基于多部词典的目标动词义项标注的困难,词义消歧的前提是词汇有歧义,即词汇歧义(lexical ambiguity)。戴维克里斯特尔编的现代语言学词典是这样定义词汇歧义的:由个别词项的多重意义引起的歧义称作词汇歧义(lexical ambiguity),例如I found the tab

4、le fascinating“我发觉那张桌子/图表很迷人”。苏新春对1983年第二版现代汉语词典做了义项统计,其数据如下:现汉共有词目56141个,其中单字词目10540个,复音词目45601条,共有义项68325个,义项最多的为20个,平均每个词1.27个义项;童翔对现代汉语通用字典的统计结果是每个字条的平均义项数为2.38个;Ng and Zelle对WORDNET最常用的121个名词和70个动词进行了统计,其中名词的平均义项为7.8个,动词平均为12个。由以上数据可知,多义词的义项选择是一个普遍问题。,31 词典义项的确定性和词义的发展性带来的标注困难,对词义消歧的两种观点:(一)词义消

5、歧就是从多义词的义项中选出适合语境的那一个义项,如(鲁松等2001,刘挺等2005,金澎等2008) 。 (二)Jurafsky and Martin在Speech and Language Processing认为词义排歧是指审查上下文中的词例并确定每个单词所使用的确切涵义的处理 。 词义消歧到底要达到一个什么目标?是选出词典里的对应义项还是在一个句子的背景下弄清词在这个环境里的意思?如果只是从词典里选出义项那么词义消歧确实可以实现,并且可以达到很高的一致率,但如果词义消歧突破词典里义项的限制,在具体的语境中去确定词汇的意义,其难处可想而知。,我们在项目中认为词义的发展是一个缓慢而又连续的过

6、程,从个体偶用到群体多用再到全民常用,这几个阶段不是能够截然分开的。为了解释词语在语境中的具体含义,反映词语使用的真实情况,并由此把握词义的发展脉络,只要动词在实际语境中的意义与词典中的释义有较大差别,我们就要列为一个新义项,而不管它在语料中的频度,因为现有的语料很有限,不能充分体现词的使用情况。也就是说,无论是修辞用法、活用,还是入句后词义色彩发生变化,我们都将其作为一个新义项来看待,并用一定的文本对其进行适当的描述。,例(一)、回国后,也是坐汽车踩了别人一下,他连忙道歉,那位则根本没听见一般,扔出一句瞎了眼了!三部语义词典对“扔”的解释如下:HN1: throw|扔 - 丢到 抛起 抛球

7、抛撒 抛掷 弃尸 扔出 扔到 扔掉 扔给 扔回 扔进 扔弃 撒网 投喂HN2: abandon|放弃 - 摈弃 丢开 丢弃 丢下 放弃 放权 废弃 废置 割爱 割地 割弃 割让 割舍 荒置 拒斥CL1:Fa150101 - 丢 抛 抛掷 撇投掷 扔 摔 甩 投 投射 掷 拽 掼CL2:Jd110201 - 摈弃 丢 丢掉 丢弃 废 废除 废弃 毁弃 捐弃 排摈 抛 抛撇 抛弃 撇 撇开 撇弃 屏弃 弃 弃绝 弃之如敝屣 扔 始乱终弃 委 委弃 遗弃XHT1:挥动手臂,使拿着的东西离开手XHT2:抛弃,丢,通过分析发现,我们感觉在这个句子中将“扔”标注为“XHT2:抛弃,丢”已经不合适,这样根据

8、项目尊重语言事实的原则,我们给“扔”另立一个义项“说出了(一句话)。”这样做对不对?一个义项发展到什么程度可以引申出另外一个义项?词在某个句子里的具体意思和词典里的义项差别到多大程度就要立新义项?选择义项和另立义项的界限应划在哪?有没有客观的标准?这些问题到目前都没有定论。但正如前面所说:词义的发展是一个缓慢而又连续的过程,从个体偶用到群体多用再到全民常用,这几个阶段不是能够截然分开的。这样,我们既想尊重语言现实,又想找一个客观的选择标准(通常是各种词典),这种目标和现实的纠结导致我们的初始标注匹配率很低。,32 词典义项的高精度性带来的困难,“知网”、词林、现汉通是三本不同性质的词典:“知网

9、”是知识词典,是用义原来表述概念,收中文和英文词各10万多,释义精度很高,对于微小的差别就可能另立一个义项。词林是一部义类词典,收词近七万,释义精度一般, 现汉通收词5万6千多,释义精度较粗。三本词典释义精度不一,义项概括程度不同,如果我们有一本词典里的义项选错,则匹配不成功,这大大加重了我们的项目的困难 。,33 基于词典的目标动词义项标注的其他一些具体困难,(1)不同用途的词典收词、所收义项及对义项的概括程度有差异。如项目中目标动词“设”在“知网”中有2个义项,词林中有3个义项,现汉通中有4个义项,这样在标注时就会遇到某个词典不选择义项的情况。 (2)词典不是固定不变的,而是一直在不断地通

10、过增加新的引申义和词条以适应新的需要。我们对词义消歧的特定目标,决定了任何一本词典都是不够用的。(3)语言是一个发展的过程,对于词类活用、比喻引申、兼类、词汇化、语法化问题,词典不可能全悉解决,而这些问题正是语境论词义消歧的关键。 (4)词典里的义项之间并不是毫无关联,相反,大部分义项由于历时的原因,之间有着紧密的联系,如何对这些差别细微的义项做出区分是词义消歧中的真正难点。 (5)对词典体系不了解往往会造成错误的趋同性。,34 前序工作造成的标注困难,3.4.1 词的切分造成的困难3.4.2 交集问题没有解决好造成的困难如“开/v 发出/v ”3.4.3 词性标注造成的困难3.4.4 语的活

11、用问题:【爬格子】在有格子的稿纸上一格格地写字,指辛勤地写作。,4 基于多部词典的义项标注困难的解决策略,一、新义项的确立要根据词在不同上下文、语境中概念义指示对象的异同,根据概念义表示的特征的异同来确立,当目标动词出现新的搭配词时,我们会特别关注,如果这种用法又不是偶然,即在语料库中还能找到同类的例子,我们便确立为新的义项。 二、三部词典虽然相当于高精度的词典,但毕竟是对同一个词进行解释,有共通性,在标注之前我们先对比三部词典义项的差异,尽量建立三本词典释义间的对应关系,这样只要其中一部词典容易判断,则整个标注也就相对容易。 三、在对具体动词义项标注时我们综合运用搭配特征法,义素分析法,替换

12、法,排除法等。四、针对出现的问题,及时召开研究讨会,不断地修正、完善标注规范和标注手册,根据新的规范、手册及时回过头来修改以前标注不准确的地方。,5 基于多部词典的目标动词义项标注困难的一点启示,51 义项标注无法离开“词典” 基于规则、有监督的学习方法肯定是运用了词典,无导的消歧方法也离不开词典。 我们目前的词义消歧无论采取何种手段都无法离开知识库。当然这个知识库也可以是比词更大的句子库,也可是比词小的义原库,也可以是义类库,但无论是什么样子的,我们都不能离开这么一个知识库,离了这个知识库我们就无法初始赋值、无法评测我们是否达到了词义消歧的目标,在此我们用大家都认同的名称“词典”来指称这个知

13、识库。,52 义项标注也不能全靠“词典”,词义消歧是无法离开“词典”的,但是词义消歧也不能全靠“词典”。目前我们所见的词典都是静态的,词条的数目是固定的,不会自动增加;对词语的解释是概括的,不会自动引申、推演出具体语境中的恰当词义。由于词典收词是固定的,在对真实文本或大型语料库进行词义消歧时,词典里的义项就会显得捕襟捉肘,不只真实文本里的新词语现有的词典无法应对,至于词典里一些未列出的义项以及新的引申义,词典更是无能为力。显然词典收词再多,也无法满足现实的需要,所以词义消歧不能全靠词典。,53 用于义项标注的动态词典,我们没必要在什么是词义这一难题上纠缠,但我们却无法避开词义消歧要达到什么目的

14、,即消歧后的词义是什么?消歧后的词义是词典里的一个义项?还是就是指物?抑或是像我们项目认为的那样?还是其他的说法呢?如果说是词典里的一个义项,那么只要大而全的词典就可以一定程度上实现消歧的目标,并且那种概括性越高的词典越好。如果把消歧后的词义定格在其他类上,那我们有必要再重新审视我们现在的做法。 不过,在现阶段,我们可以把词义消歧的目的具体化,即在不同领域中有不同的词义消歧目的,如在机器翻译领域,就是找出不同语言的词的对应义项,在文本检索中就是找到带有大环境下的搭配特征的那个义项。至于文本推理这样的难题,随着消歧理论、手段的发展,应会有更好的解决方法。 基于上述分析,从长远来看,用于词义消歧的词典应该是一个收词多、释义精度高但各个义项之间又有明确区分并且有一套规则能够自动识别新词、自动推演新义的动态词典。,谢谢各位老师,敬批评、指正!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 实用文档 > 词典

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报