自然语言理解-词法分析.ppt-道客多多

资源描述

1、词法分析,刘贵全,词法分析,汉语分词分词算法汉语自动分词的困难词性标注未登录词的识别,汉语分词,1、从字符串中识别出词(word segmentation) “分”词 “合”词 2、分词的基本方法最大匹配法(Maximum Match based approach) 概率方法(Probability approach to Word Segmentation),最大匹配法,长词优先原则,最大匹配法分词示例,S1=“计算语言学课程是三个学时,设定最大词长MaxLen = 5S2= ,分词词表,最大匹配法分词示例(续),（1）S2=；S1不为空，从S1左边取出候选子串W=计算语言学；（2）查词表

2、，“计算语言学”在词表中，将W加入到S2中，S2=“计算语言学/ ”，并将W从S1中去掉，此时S1=“课程是三个学时；（3）S1不为空，于是从S1左边取出候选子串W=课程是三个；（4）查词表，W不在词表中，将W最右边一个字去掉，得到W=课程是三；（5）查词表，W不在词表中，将W最右边一个字去掉，得到W=课程是；（6）查词表，W不在词表中，将W最右边一个字去掉，得到W=课程（7）查词表，W在词表中，将W加入到S2中，S2=“计算语言学/ 课程/ ”，并将W从S1中去掉，此时S1=“是三个学时；,最大匹配法分词示例(续),（8）S1不为空，于是从S1左边取出候选子串W=是三个学时；（9）查词表，W

3、不在词表中，将W最右边一个字去掉，得到W=是三个课；（10）查词表，W不在词表中，将W最右边一个字去掉，得到W=是三个；（11）查词表，W不在词表中，将W最右边一个字去掉，得到W=是三（12）查词表，W不在词表中，将W最右边一个字去掉，得到W=“是”，这时W是单字，将W加入到S2中，S2=“计算语言学/ 课程/ 是/ ”，并将W从S1中去掉，此时S1=三个学时；（13）S1不为空，从S1左边取出候选子串W=三个学时；（14）查词表，W不在词表中，将W最右边一个字去掉，得到W=三个课；（15）查词表，W不在词表中，将W最右边一个字去掉，得到W=三个；（16）查词表，W不在词表中，将W最右边一个字

4、去掉，得到W=“三”，这时W是单字，将W加入到S2中，S2=“计算语言学/ 课程/ 是/ 三/ ”，并将W从S1中去掉，此时S1=个学时；,最大匹配法分词示例(续),（17）S1不为空，从S1左边取出候选子串W=个学时；（18）查词表，W不在词表中，将W最右边一个字去掉，得到W=个课；（19）查词表，W不在词表中，将W最右边一个字去掉，得到W=“个”，这时W是单字，将W加入到S2中，S2=“计算语言学/ 课程/ 是/三/ 个/ ，并将W从S1中去掉，此时S1=学时；（20）S1不为空，从S1左边取出候选子串W=学时；（21）查词表，W在词表中，将W加入到S2中，S2=“计算语言学/ 课程/是/

5、三/ 个/ 学时/ ，并将W从S1中去掉，此时S1=。（22）S1为空，输出S2作为分词结果，分词过程结束。,最大匹配法分词的问题,一、最大词长的确定（1）词长过短，长词就会被切错（“中华人民共和国”）（2）词长过长，效率就比较低二、掩盖了分词歧义 A.“有意见分歧” (正向最大匹配和逆向最大匹配结果不同) 有意/ 见/ 分歧/ 有/ 意见/ 分歧/ B.“结合成分子时” (正向最大匹配和逆向最大匹配结果相同) 结合/ 成分/ 子时/,分词歧义的类型,一、交集型歧义如果AB和BC都是词典中的词，那么如果待切分字串中包含“ABC”这个子串，就必然会造成两种可能的切分：“AB/ C/ ”

6、和“A/ BC/ ”。这种类型的歧义就是交集型歧义。比如“网球场”就可能造成交集型歧义（网球/ 场/ : 网/ 球场/）。二、组合型歧义如果AB和A、B都是词典中的词，那么如果待切分字串中包含AB这个子串，就必然会造成两种可能的切分：AB/ 和A/ B/ 。这种类型的歧义就是组合型歧义。比如个人就可能造成组合型歧义（（我）个人/ : （三）个/ 人/ ）。,分词歧义的类型（续）,一、链长：交集型歧义字段中含有交集字段的个数，称为链长。链长为1：和尚未链长为2：结合成分链长为3：为人民工作链长为4：中国产品质量链长为6：努力学习语法规则二、混合型歧义：这样的人才能

7、经受住考验,双向最大匹配法可以发现链长为奇数的交集型歧义，但无法发现链长为偶数的交集型歧义,最大匹配法解决分词歧义的能力,能发现部分交集型歧义无法发现组合型歧义对最大匹配法进行扩展：增加歧义词表，规则等知识库,对于某些交集型歧义，可以通过增加回溯机制来改进最大匹配法的分词结果。例如：“爱人民英雄” 顺向扫描的结果是：“爱人/ 民/ 英雄/”，通过查词典知道“民”不在词典中，于是进行回溯，将“爱人”的尾字“人”取出与后面的“民”组成“人民”，再查词典，看“爱”，“人民”是否在词典中，如果在，就将分词结果调整为：“爱/ 人民/ 英雄/”,最大概率法分词,基本思想是：（1）一个待切分的汉字串可能包

8、含多种分词结果（2）将其中概率最大的那个作为该字串的分词结果,路径1： 0135路径2： 0235,该走哪条路呢？,最大概率法分词,S: 有意见分歧 W1: 有/ 意见/ 分歧/ W2: 有意/ 见/ 分歧/,Max(P(W1|S), P(W2|S) ?,P(W )= P(w1, w2, , wn) P(w1) P(w2) P(wn),独立性假设，一元语法,最大概率法分词,P(W1) = P(有) * P(意见) * P(分歧) = 1.8 10-9,P(W2) = P(有意) * P(见) * P(分歧) = 1 10-11,P(W1) P(W2),最大概率分词算法,对一个待分词的字串S，按

9、照从左到右的顺序取出全部候选词w1, w2 , ,wi, , wn ；2) 到词典中查出每个候选词的概率值P(wi) ，并记录每个候选词的全部左邻词；3) 按照公式1计算每个候选词的累计概率，同时比较得到每个候选词的最佳左邻词；4) 如果当前词wn是字串S的尾词，且累计概率P(wn)最大，则wn就是S的终点词；5) 从wn开始，按照从右到左顺序，依次将每个词的最佳左邻词输出，即为S的分词结果。,最大概率分词算法示例,（1）对“有意见分歧”，从左到右进行一遍扫描，得到全部候选词： “有”，“有意”，“意见”，“见”，“分歧”；（2）对每个候选词，记录下它的概率值，并将累计概率赋初值为0；（3）

10、顺次计算各个候选词的累计概率值，同时记录每个候选词的最佳左邻词： P(有)=P(有)， P(有意) = P(有意)， P(意见)=P(有) P(意见)，（“意见”的最佳左邻词为“有”） P(见)=P(有意) P(见)，（“见”的最佳左邻词为“有意”） P(意见)P(见)（4）“分歧”是尾词，“意见”是“分歧”的最佳左邻词，分词过程结束，输出结果：有/ 意见/ 分歧/,最大概率法分词的问题,一、并不能解决所有的交集型歧义问题 “这事的确定不下来” W1= 这/ 事/ 的确/ 定/ 不/ 下来/ W2= 这/ 事/ 的/ 确定/ 不/ 下来/二、无法解决组合型歧义问题 “做完作业才能看电视”

11、W1= 做/ 完/ 作业/ 才能/ 看/ 电视/ W2= 做/ 完/ 作业/ 才/ 能/ 看/ 电视/,P(W1)P(W2),汉语自动分词的困难, 分词规范 “联合国教科文组织”是1个词吗？分词歧义未登录词识别,词性标注（pos tagging）,语法体系词性标记集的确定一词多类现象 Time flies like an arrow. Time/n-v flies/v-n like/p-v an/Det arrow/n 把这篇报道编辑一下把/q-p-v-n 这/r 篇/q 报道/v-n 编辑/v-n 一/m-c 下/f-q-v,未登录词,中外的人名，地名（“雪村”，“老张”，“莎士比

12、亚”，“叙利亚” ）；中外组织机构单位名称和商品品牌名（希望电脑，国际乒联，非常可乐）；专业领域的大量术语（线性回归，韦特比算法）；新词语，缩略语（“卡拉OK”，“E时代”，“打假”，“哈韩族”）；汉语重叠形式、离合词的分析看看家家打听打听高高兴兴乐呵呵看一看看了看黑不溜逑古里古怪游了一会儿泳发理了没有担什么心幽了他一默,未登录词的识别,命名实体（Named Entity）汉语人名：李素丽老张李四王二麻子汉语地名：定福庄白沟三义庙韩村河马甸翻译人名：乔治布什叶利钦包法利夫人翻译地名：阿尔卑斯山新奥尔良约克郡机构名：方正公司联想集团国际

13、卫生组织外贸部数字、日期词、货币等商标字号：非常可乐乐凯波导杉杉同仁堂专业术语：万维网主机板模态逻辑贝叶斯算法缩略语：三个代表五讲四美打假扫黄打非计生办新词语：卡拉OK 波波族美刀港刀,未登录词识别的困难,未定义词没有明确边界未定义词的构成单元（汉字）本身都可以独立成词,未登录词识别的依据,内部构成规律（用字规律）外部环境（上下文）重复出现规律,未登录词识别的研究进展,很成熟：数字、日期、货币词较成熟中国人名、译名中国地名较困难商标字号机构名很困难专业术语缩略语新词语,数字、日期、货币词等识别,可以表达为正则表达式由有限状态自动机识别,中国人名的内部构成规律,在汉语的未

14、定义词中，中国人名是规律性最强，也是最容易识别的一类；中国人名一般由以下部分组合而成：姓：张、王、李、刘、诸葛、西门、范徐丽泰名：李素丽，张华平，王杰、诸葛亮前缀：老王，小李后缀：王老，赵总中国人名各组成部分用字比较有规律,中国人名的内部构成规律,台湾出版的中国姓氏集收集姓氏5544 个，其中：单姓3410 个，复姓1990 个，3字姓144 个。中国目前仍使用的姓氏共737 个，其中，单姓729 个，复姓8 个。根据我们收集的300 万个人名统计：姓氏：974个，其中，单姓952个，复姓23 个，300万人名中出现汉字4064个。,中国人名的内部构成规律,中国人名各组成部分的组合规律姓名姓名

15、前缀姓姓后缀姓姓名（海外已婚妇女）,中国人名的上下文构成规律,身份词：前：工人、教师、影星、犯人后：先生、同志前后：女士、教授、经理、小姐、总理地名或机构名：前：静海县大丘庄禹作敏的字结构前：年过七旬的王贵芝动作词前：批评，逮捕，选举后：说，表示，吃，结婚,中国人名识别的难点,一些高频姓名用字在非姓名中也是高频字姓氏：于，马，黄，张，向，常，高名字：周鹏和同学，周鹏和同学人名内部相互成词，指姓与名、名与名之间本身就是一个已经被收录的词王国维、高峰、汪洋、张朝阳人名与其上下文组合成词这里有关天培的壮烈；费孝通向人大常委会提交书面报告人名地名冲突河北省刘庄,中文姓名识别方法,中文姓名识别方法姓名库

16、匹配，以姓作为触发信息，寻找潜在的名字计算潜在姓名的概率估值及相应姓氏的姓名阀值，根据姓名概率评价函数和修饰规则对潜在的姓名进行筛选。,中文姓名识别方法,中文姓名识别方法,中文姓名识别方法,中国地名的识别,困难地名数量大，缺乏明确、规范的定义。中华人民共和国地名录（1994）收集88026个，不包括相当一部分街道、胡同、村庄等小地方名称。真实语料中地名出现情况复杂。如地名简称、地名用词与其它普通词冲突、地名是其它专用名词的一部分，地名长度不一等。,机构名的内部构成规律,机构名的内部构成规律机构名一般都是定中结构。机构名的后缀一般比较集中，识别相对容易。机构名左边界识别非常困难。机构名中含有大量

17、的人名、地名、企业字号等专有名称。在这些专有名称中，地名所占的比例最大，其中未登录地名又占了相当一部分的比例。所以机构名识别应在人名、地名等其他专名识别之后进行，其他专名识别的正确率对机构名识别正确率有较大影响。,机构名的内部构成规律,中文机构名用词非常广泛。通过对人民日报1998年1月中的10817个机构名所含的19986个词进行统计，共计27种词，其中名词最多（9941个），地名其次（5023个），以下依次为简称（1169个）、专有名词（1125个）、动词（848个）以及机构名（714个）等机构名长度极其不固定机构名很不稳定。随着社会发展，新机构不断涌现，旧机构不断被淘汰、改组或更名。,中

18、文机构名称的识别,中文机构名称的类型地名，如：北京大学，武汉大学人名，如：中山大学，哈佛大学学科、专业、部门系统，如：公安部，教育委员会研究、生产或经营等活动的对象，如：软件研究所，卫星制造厂上述情况的综合，如：白求恩医科大学,机构名称识别方法,找到一机构称呼词根据相应规则往前逐个检查名词作为修饰名词的合法性，直到发现非法词。如果所接受的修饰词同机构称呼词构成一个合法的机构名称，则记录该机构名称。统计模型,识别未登录词的策略,尽可能多地收集词汇，以降低碰到未登录词的机会；2) 通过构词规则和上下文特征规则来识别； “雪村先生创作了很多歌曲”3) 通过统计的方法来猜测经过一般的分词过程后剩下的连续单字词碎片是人名、地名等的可能性，从而识别出未登录词。,

展开阅读全文