收藏 分享(赏)

多义词甄别的知识库建构与对传统词典义项的改造PPT课件..ppt

上传人:Facebook 文档编号:3776789 上传时间:2018-11-18 格式:PPT 页数:70 大小:222.50KB
下载 相关 举报
多义词甄别的知识库建构与对传统词典义项的改造PPT课件..ppt_第1页
第1页 / 共70页
多义词甄别的知识库建构与对传统词典义项的改造PPT课件..ppt_第2页
第2页 / 共70页
多义词甄别的知识库建构与对传统词典义项的改造PPT课件..ppt_第3页
第3页 / 共70页
多义词甄别的知识库建构与对传统词典义项的改造PPT课件..ppt_第4页
第4页 / 共70页
多义词甄别的知识库建构与对传统词典义项的改造PPT课件..ppt_第5页
第5页 / 共70页
点击查看更多>>
资源描述

1、多义词甄别的知识库建构与 对传统词典义项的改造,厦门大学中文系 国家语言资源监测与研究中心 教育教材语言分中心 苏新春 2009-9-14 北京大学计算语言学研究所,要点:,WST系统介绍 义项库的来源与作用 传统词典义项WSB存在的问题 对传统词典义项的改造,词义标注就是用计算机为真实语境中的每个词选择、确定并标示一个适切、对应的义项。,北大计算语言学所对这一研究进行了卓越的研究。 吴云芳、俞士汶信息处理用词语义项区分的原则和方法(2007) 吴云芳词义消歧研究:资源、方法与评测(2009) 。 国内学者在这一领域发表了重要成果的还有黄昌宁、童翔、李涓子、金澎、卢志茂、刘挺、李生、鲁松、白硕

2、、段慧明、郭涛、杨尔弘、张国清、张永奎等先生。详见吴文(2009),我们开始此项研究的缘起: 承担了国家社科基金课题:基于国家语委“通用语料库”之上的汉语义频词库的开发(04BYY009)。 原课题目标主要是理论探索与数据获求,无意走上了这条不得不走的艰难之道。,主持人:苏新春 主要参加人:李安、卢伟清、洪桂治、蒋媛、曾妍妍、刘海燕 参加人:张蕾、唐师瑶、张玉彪、田立宝、武超杰、王艳春、王珊、石梦苏、王建军、郭佳、徐晓煜、黄挺、刘楠、王天佐、周蕾、张丹丹、刘名、叶醒悦、肖婷华、余龙浩、张其良、赵方、徐婧、栾玉皎等。,2004年以来经历过的阶段: 建设语料库; 讨论理论模型; 提取规则; 修订义

3、项; 验证库;,苏新春、王惠、卢伟清、秦少康,以义项为单位,以义群为纽带,以词义辨析为内容进一步完善机用语言知识库之方案,第六届汉语词汇语义学会议论文集(SINGAPORE COLIPS PUBLICATIONS),2006。 苏新春、李安,计算机多义词自动识别中的语义标注,第9届汉语词汇语义学术研讨会报告论文,新加坡,2008,“现代汉语多义词词义自动标注系统” Automatic Polysemous Sense Tagging of Modern Chinese 简称WST,WST包括以下七个分库: 语料库 义项库 规则库 语法库 语义库 验证库 义频库,1语料库全称为“现代汉语语料库”

4、。 容量达1.9亿字,包括新闻语料、文学作品、教材、科普作品等。义项标注提取规则的来源库,所有词的使用规则的提取都是根据对该库里词语真实状态进行概括、提炼的结果。,2义项库全称为“现代汉语词义标注用义项库”(Word Sense Base for Automatic Polysemous Sense Tagging of Modern Chinese),简称WSB。 包括词8万余条,义项9万余个。有多义词近9千条。主要吸收了现代汉语词典第3版、第5版的内容,个别参考了汉语大辞典,另增加了2万余条语文性词语及部分义项。义项库是词义标注的来源,也是衡量词义标注效果的主要标准,更是寻找词义特征、确定

5、规则时的依据。,3语义库全称为“现代汉语语义分类库”(A Thesaurus of Modern Chinese),简称TMC。 分一级类9个,二级类62个,三级类516个,四级类2086个,五级类12602个。嵌于其中,起帮助识别义项语义特征的辅助作用。在标注工作中能起到鉴别作用的最低可至3或4级类。,4语法库全称为“现代汉语语法信息词典” ,北大俞先生主持研制。起帮助识别义项语法特征的辅助作用。,5规则库全称为“现代汉语多义词词义搭配知识库(Polysemy Word Sense Collocation Knowledge Base of Modern Chinese)”,简称PCKB。

6、是确定一个词在具体语境中使用义项的条件与依据。该库保存了对高频、义项在2-5之间、词频在100以上的3700多条双音节多义词所提取的全部使用规则。为每个词语描绘出具体规则,平均每个词9条规则共27000条。,6验证库全称为“现代汉语词义标注验证库”(Word Sense Tagged Corpus of Modern Chinese),简称WSTC。 是人工标注了义项的语料库,主要作为对词义标注效力进行检验,对规则提取、修订、完善起校正、验测作用的实验库。,7义频库全称为“现代汉语多义词词义频级库”(Polysemous Senses Frequency Rank base of Modern

7、 Chinese),简称PFRD。 是一个动态数据库。最初根据语感、简单语料调查以及词典义项属性标识给义项进行粗糙义频分级,并在词义标注过程中起帮助作用。最后根据标注结果不断调整、细化,最终形成精细、准确的义频调查结果库。,二、义项库的来源与作用,义项库WSB是词义标注时义项选择的来源。但又不仅仅是如此。WSB对研究中的几乎所有环节都起着重要的制衡作用: 机器识别的对象; 提取规则的依据; 标注的对象; 对语料进行识读的语义单位; 标注义项的应用目的;,义项库在整个系统中的作用: 来源于语料库; 延伸至语法库语义库; 衍生出规则库; 服务于验证库; 最后显示于大规模的真实文本语料库。,根据中文

8、信息处理的目的、条件、需求,在改造、完善传统词典义项的基础上来建构机用义项库成为当务之急。 传统词典义项与机用词典义项有何不同? 收录对象?功能与目的?识别能力?识别手段?,义项来源于何处: 传统词典的义项是否符合机用词义标注的需要?,义项底库为现代汉语词典 多义词12400个; 复音多义词8300个; 双音多义词7278; 词频在100次以上、义项在2-5个之间的双音词3774个;,3774个多义词共有义项8608个。 对3774个多义词中的每个词都人工进行了义项特征的提取工作。 词义标注所有工作的重点与难点都集中于下面两个问题:,一、什么样的义项 义项库是否齐备?有无缺损?是否与真实语料相

9、符? 义项如何划分?根据什么标准? 义项分立是否清晰? 二、如何让计算机能识别 义项有无形式特征? 什么样的特征能为计算机所识别?,目前机用词典的义项内容一般都是借用了面向人的传统词典。这是一种取巧,也是不得已而为之的办法。 由于机用词典与传统词典有着完全不同的服务对象,使用环境、识别条件、实现目标也各不相同,将传统词典简单地套用于机用词典肯定会扞格不入,面临着许多的困难。,在词义标注之路上的先行者已经关注到了机用词典的特征问题,并试图寻找解决的问题。如有的认为传统语文词典义项切分太细,应该调整义项粒度;有的主张以用法代替词义辨析(吴云芳、俞士汶,2007)。,在“第十届汉语词汇语义研讨会”(

10、山东烟台,2009-7-25),有多篇论文都以词义标注为题: 肖航的多义词义项关系对语料库词义标注的影响 王宏显等的构建词汇语义关联度人工标注集 王莉等基于语料库的多义动词标注方法研究 乔剑敏等的面向语义标注一致性检验的汉语词义相似度计算 俞士汶、贾玉祥关于隐喻的报告。 都把问题的焦点指向“义项”。,问题还有: 既有词义颗粒太细的问题,也有词义颗粒太粗,甚至义项缺损的问题; 既有义项包含与被包含问题,还有上下位交叉覆盖的问题; 有语料库有义项库无,也有语料库无义项库有,彼此阙如的问题。,三、传统词典义项存在问题分析,存在问题的类型:,(一)义项包含 (二)义项交叉 (三)义项边缘模糊 (四)语

11、义连贯 (五)义项过近 (六)义项过窄 (七)义项缺损 (八)罕用义,(一)义项包含,【封面】线装书指书皮里面印着书名和刻书者的名称等的一页。新式装订的书刊指最外面的一层,用厚纸、布、皮等做成。特指新式装订的书刊印着书刊名称等的第一面。也叫封一。,【噪音】音高和音强变化混乱、听起来不谐和的声音。是由发音体不规则的振动而产生的(区别于乐音)。噪声。,【资产】财产。企业资金。资产负债表所列的一方,表示资金的运用情况。参看资产负债表。 【终点】一段路程结束的地方:站。特指径赛终止的地点。 【支部】某些党派、团体的基层组织。特指中国共产党的基层组织。,(二)义项交叉,【评论】批评或议论:好坏。批评或议

12、论的文章:发表。学术界/n 当时/TIM 这些/r 公正/a 的/u 评论/vn ,/w 立即/d 遭到/v 了/u 江/ALOC 青/ALOC 一/NUM 伙/q 的/u 反革命/n 围攻/vn 。/w,【带领】在前带头使后面的人跟随着。 领导或指挥(一群人进行集体活动)。,(三)义项边缘模糊,【歇息】休息:病刚好,还是几天吧。住宿;睡觉:洗过澡就上床了。 所以/c 在/p 漫长/a 的/u 旅途/n 当中/f ,/w 我们/r 常常/d 选择/v 这块/r 地方/n 落脚/v 歇息/v 。/w,【亲切】亲近;亲密:他想起延安,象想起家乡一样。形容热情而关心:老师的教导。,(四)语义连续,【

13、出门】(儿)外出:他刚,你等一会儿吧。(儿)离家远行:在外丨后时常接到家里来信。方出嫁。例:“出门三天家中遭洗劫”齐鲁晚报2007年02月08日,【摩挲】 ms用手轻轻按着并一下一下地移动:衣裳。 msu用手抚摩。,【同居】同在一处居住:父母死后,他和叔父。指夫妻共同生活。也指男女双方没有结婚而共同生活。大量语例为“男女双方没有结婚而共同生活”,介于两个义项的中间状态。,(五)义项过近,【冰箱】冷藏食物或药品用的器具,里面放冰块,保持低温。电冰箱的简称。 【韵味】声韵所体现的意味:他的唱腔很有。情趣;趣味:这首诗的很浓古塔古树相互映衬,平添了古朴的。,【浴室】有洗澡设备的房间。澡堂。,【救灾】

14、救济受灾的人民:放粮。消除灾害:防洪。查看/v 灾情/n ,/w 慰问/v 受灾/vn 群众/n ,/w 指导/vn 抗灾/vn 救灾/vn 工作/vn 。/w,(六)义项过窄,【出场】演员登台(表演)。 运动员进运动场(参加表演或竞赛)。“有人怕闹事,开始退场,剧团的领导|出场,恳求大家安静。”(戴厚英文集流泪的淮河),(七)义项缺损,【字号】 商店的名称:这家商店是什么?指商店:这是一家老这家名气大。缺“字体的大小”,【装扮】打扮:节日的广场得分外美丽。化装:他算命先生进城侦察敌情。假装:巫婆神仙欺骗人。 缺“打扮出来的模样。” 语例:他这个,哪里是个丁忧的样子。,【庄子】村庄:他是我们里

15、的人。田庄。删“田庄” 缺“人名,战国时期思想家,道家思想集大成者。”,(八)罕用义,造成极低频义项的有多种原因: 方言义 行业义 临时义,【巴结】趋炎附势,极力奉承:上司。方努力;勤奋:他工作很。 【安排】有条理、分先后地处理(事物);安置(人员):工作丨生活丨他当统计员。规划;改造:重新家乡的山河。,【霸道】我国古代政治哲学中指凭借武力、刑法、权势等进行统治的政策。强横不讲理;蛮横:横行丨这人真,一点理也不讲。 【拔腿】迈步:他答应了一声,就跑了。抽身;脱身:他事情太多,拔不开腿。,【激发】刺激使奋发:群众的积极性。使分子、原子等由能量较低的状态变为能量较高的状态。,以上八种情况,除了“义

16、项缺损”“罕用义”外,其他六种都表现为义项划分的困难,直接造成机器对义项认别的困难。 学术界多将其概括为“义项颗粒过细”、“义项边界模糊”。,四、对传统词典义项的修改与完善,原则: 1.对语言现实作全面、客观的反映。(现代汉语、通用程度较高、书面语) 2.依语义高地来划分义项,突出义项特征和典型性,拉开义项之间的距离。边缘义、相邻义就近归类。 (辞书学中的距离说、概括说、频率说、功能说),3.划分义项时以语义为主,语法功能为辅。词义内涵一致,词性与功能稍有区别的不另立义项。 4.基于且适合于计算机的能力和工作条件,注重对义项特征形式的提取。,如“模糊”有a、v两义项 a不分明;不清楚。字迹丨神

17、志丨认识丨概念|梦中模模糊糊觉得有人敲门。 v混淆:不要了是非界限. 记/v 起/v 大姐/n 叮咛/v 的话/u ,/w 朋友/n 们/k 的/u 饯/nx 别/Ng ,/w 不/d 自觉/a 的/u ,/w 泪/n 模糊/v 了/u 我/r 的/u 眼/n ,/w 看/v 不/d 清/v 岸上/s 有些/r 什么/r 。/w 16730,【专制】(君主)独自掌握政权:政体丨帝王丨君主。凭自己的意志独断独行,操纵一切。改“凭自己的意志独断独行,操纵一切的。” 增“专门制作。”,【主席】主持会议的人。某些国家、国家机关、党派或团体某一级组织的最高领导职位名称。“指主筵席者,也指筵席中的主人席位

18、。”,【老小】老婆(多见于早期白话):娶了。 【老小】老人和小孩儿,泛指家属或从老人到小孩所有的人:全村丨一家。增:“家庭中最年轻的孩子或成员。”,试以动词为例:,首先分析动词义项之间的关系: A 搭配对象不同,如“分娩、破获”; B 词中语素义不同引致词义不同,如“播种”; C 具体义与抽象义,本义与喻义,如“扭曲、培植”; D 语法功能不同(主动与使动),如“振奋、恢复”; E 语义内涵相同,色彩义不同,如“夺取、包办”; F 语文义与术语义(内涵有不同程度上的差异),如“告诉、烘托”; G 语义间无联系,同形词,如“编排”。,其次分析动词义项甄别的难易程度:,(一)较易区分的: 语义距离

19、远、形式特征显著或语境可辨识性高 语文义与术语义、语文义与方言义分立,语境差异显著 动名兼类,名词义指向动作行为者或行为对象、工具 主动义与使动义,(二)较难区分的: 语义距离近及语义包含、语义连续、语义一体 语义内涵与语法功能的错杂 婉辞、客套话与一般语文义的区别,形容词组的义项分析:,(一)较易区分的: 凭借词性来区分;(高明) 语义距离较远;(粗大) 有固定搭配; 语文义与术语义、古义、方言义的差别;,(二)较难区分的: 语义距离近: 词性与释义交叉;,【暖昧】(态度、用意)含糊;不明白:态度。(行为)不光明;不可告人:关系。 例: 朱蓓/PER 将信将疑/i 地/u 问/v 同学/n

20、讲/v 这些/r 是/v 什么/r 意思/n ,/w 同学/n 暧昧/a 地/u 笑笑/v 说/v ,/w 你/r 是/v 装/v 不/d 懂/v 还是/c 真/d 不/d 懂/v 、/w 这种/r 倒金字塔/n 的/u 老少/n 配/v 更是/d 高/a 消费/v 呀/y 。/w,【暖昧】(态度、用意)含糊;不明白:态度。(行为)不光明;不可告人:关系。 修改为: 模糊;不清晰:灯光。 态度不明朗或行为不可告人:关系。,修改与完善,改释义856 例; 改释义与例句161例; 改例句248例; 增义项251例;,对“义项库”WSB调查、评测、调整、修改后的反思: 机用义项库的特点、功能定位; 传统词典的的义项分立、释义、例句中的欠缺,机用词典义项的性质与功能,面对真实语料。凡是真实语料中有的义项理论上都要标注。 处理的是“现代”、“通用”、“书面语”。 方便计算机识别,且适用于大规模语料的处理。 达到一般民众“识别”的需要,而不为“学习者”“辨认”的水平。,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 实用文档 > 词典

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报