1、第 10 章 自然语言理解及其应用,教材:王万良人工智能及其应用(第2版)高等教育出版社,2008. 6,2,第10章 自然语言理解及其应用,10.1 自然语言理解的概念与发展历史 10.2 语音分析 10.3 词法分析 10.4 句法分析 10.5 语义分析 10.6 基于语料库的大规模真实文本的处理 10.7 机器翻译 10.8 语音识别,3,第10章 自然语言理解及其应用,10.1 自然语言理解的概念与发展历史 10.2 语音分析 10.3 词法分析 10.4 句法分析 10.5 语义分析 10.6 基于语料库的大规模真实文本的处理 10.7 机器翻译 10.8 语音识别,4,10.1.
2、1 自然语言理解的概念,微观角度:从自然语言到机器内部的一个映射。 宏观角度:使机器能够执行人类所期望的某种语言功能。,(1)回答问题:计算机正确地回答用自然语言输入的有关问题。 (2)文摘生成:机器能产生输入文本的摘要。 (3)释义:机器能用不同的词语和句型来复述输入的自然语言信息。 (4)翻译:机器能把一种语言翻译成另外一种语言。,5,10.1.2 自然语言理解研究的产生与发展,1. 萌芽时期(20世纪40年代末50年代初),2. 以关键词匹配技术为主的时期 (20世纪60年代始),A. Donald Booth & W. Weaver M. Chomsky 形式语言和文法,3. 以句法语
3、义分析技术为主的时期 ( 20世纪70年代后),4. 基于知识的自然语言理解发展时期,5. 基于大规模语料库的自然语言理解发展时期,68年B. Raphael:语义检索系统SIR J. Weizenbaum:心理医疗ELIZA,72年W. Woods:语音接口LUNAR T. Winograd :英语对话SHEDLU,6,第10章 自然语言理解及其应用,10.1自然语言理解的概念与发展历史 10.2 语音分析 10.3 词法分析 10.4 句法分析 10.5 语义分析 10.6 基于语料库的大规模真实文本的处理 10.7 机器翻译 10.8 语音识别,7,文字表达句子的层次:词素词或词形词组或
4、句子。 声音表达句子的层次:音素音节音词音句。 语言处理过程分为五个层次:语音分析、词法分析、句法分析、语义分析和语用分析。 语用分析:研究语言所存在的外界环境对语言使用产生的影响。 构成单词发音的独立单元是音素。上下文不同而发音不同。 语音分析就是根据音位规则,从语言流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。,10.2 语音分析,8,第10章 自然语言理解及其应用,10.1自然语言理解的概念与发展历史 10.2 语音分析 10.3 词法分析 10.4 句法分析 10.5 语义分析 10.6 基于语料库的大规模真实文本的处理 10.7 机器翻译 10.8
5、语音识别,9,10.3 词法分析,定义:从句子中切分出单词,找出词汇的各个词素 ,并确定其词义。,例:unchangeable: un-change-able,英语词法分析特点:切分单词容易,找出词素复杂。,例:importable分为import-able或im-port-able,词法分析算法举例: repeat look for word in dictionaryif not found then modify the word Until word is found or no further modification possible,10,10.3 词法分析,例如:对于单词cat
6、ches、ladies可以做如下的分析。catches ladies, 词典中查不到catche ladie 修改1:去掉scatch ladi 修改2:去掉elady 修改3:把i变成y 这样,在修改2的时候,就可以找到catch,在修改3的时候就可以找到lady。,例如:优秀人才学人才学 1. 优秀人才学人才学 2. 优秀人才学人才学,汉语词法分析特点:找出词素简单,切分出词困难。,ly副词后辍; ed动词过去分词,11,第10章 自然语言理解及其应用,10.1自然语言理解的概念与发展历史 10.2 语音分析 10.3 词法分析 10.4 句法分析 10.5 语义分析 10.6 基于语料库
7、的大规模真实文本的处理 10.7 机器翻译 10.8 语音识别,12,10.4 句法分析,10.4.1 乔姆斯基的形式文法 10.4.2 句法分析树 10.4.3 转移网络 10.4.4 扩充转移网络,13,10.4.1 乔姆斯基的形式文法,1950年提出,表示形式:G = (T,N,S,P)T:终结符集合 N:非终结符集合S:起始符 P:产生式规则集,T =(the,man,killed,a,deer,likes) N =(S,NP,VP,N,ART,V,Prep,PP)S = SP:(1) SNP+VP (2) NPN (3) NPART+N(4) VPV (5) VPV+NP (6) A
8、RTthe|a(7)Nman|deer (8) Vkilled|likes,例 1 G=(T,N,S,P),14,1型文法: 上下文有关文法,2型文法:上下文无关文法,3型文法:正则文法,左线性文法:ABt 或 At(ABtCt*t) 右线性文法 : AtB或At,产生式规则: xy,产生式规则: xy 例:ABCDE ABCDE XaYXbY,产生式规则:Ax,0型文法:无约束短语结构文法,10.4.1 乔姆斯基的形式文法,15,10.4.2 句法分析树,例如:The man killed a deer. S NP + VP ART + N + VPThe man + VP The man
9、+ V + NPThe man killed + NPThe man killed + ART + NThe man killed a deer.,在对一个句子进行分析的过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来,那么这种图称为句法分析树。,16,10.4.2 句法分析树,句法分析树举例,17,10.4.3 转移网络,例:,转移网络的一般结构,由结点和带有标记的弧构成,其中结点表示状态,弧对应于符号,实现从一个状态转移到另一个状态。,开始状态,中间状态,终止状态,NP,VP,开始状态,开始状态,中间状态,中间状态,终止状态,终止状态,ART,N,V,NP,V,N,SNP +
10、VP,NPART + N NPN,NPV + NP NPV,18,10.4.3 转移网络,例 The man laughed.,19,10.4.4 扩充转移网络,ATN(augmented transition network )ATN由一组转移网络组成:每个TN都有一个网络名,弧上的条件扩充为条件加上操作。由寄存器的方式实现。,数:单数和复数,缺省为空,ATN的寄存器构成:句法特征寄存器和句法功能寄存器。,特征寄存器:每一维特征都由一个特征名和一组特征值以及一个缺省值来表示。 功能寄存器:反映了句法成分之间的关系和功能。,20,10.4.4 扩充转移网络,短语(NP)的扩充转移网络 :fg
11、A:Number*.Numbergh C:Number*.Number or ,应用:检查NP中数的一致问题,其中特征是“数”,值为单数和复数。C是弧上的条件,A是弧上的操作。*是当前值。this book,the book,the books,these books 可以顺利通过,而this books或these book就无法通过。,21,第10章 自然语言理解及其应用,10.1 自然语言理解的概念与发展历史 10.2 语音分析 10.3 词法分析 10.4 句法分析 10.5 语义分析 10.6 基于语料库的大规模真实文本的处理 10.7 机器翻译 10.8 语音识别,22,10.5
12、语义分析,语义分析是将句法成分与应用领域中的目标表示相关联。,简单做法:依次使用独立的句法分析程序和语义解释程序。 缺点:使句法分析、语义分析分离,语义文法 格文法,23,10.5.1 语义文法,语义文法是将文法知识和语义知识组合起来,以统一的方式定义为文法规则集。,舰船信息: SPRESENT the ATTRIBUTE OF SHIP PRESENTWhat is|Can you tell me ATTRIBUTElength|class SHIPthe SHIPNAME|CLASSNAME SHIPNAMEHUANGHE|CHANGJIANG CLASSNAMEcarrier|subma
13、rine,24,10.5.2 格文法,目的:为了找出动词和跟动词处在结构关系中的名词的语义关系,同时也涉及动词或动词短语与其他的各种名词短语之间的关系。,特点:允许以动词为中心构造分析结果,尽管文法规则只描述句法,但分析结果产生的结构却对应于语义关系,而非严格的句法关系。,例:Mary hit BillBill was hit by Mary (Hit(Agent Mary) (Dative Bill),25,10.5.2 格文法,S,S,NP,NP,VP,VP,V,NP,V,PP,Bill,Mary,hit,was hit,by,Bill,Mary,主动句和被动句的句法分析树,26,第10章
14、 自然语言理解及其应用,10.1 自然语言理解的概念与发展历史 10.2 语音分析 10.3 词法分析 10.4 句法分析 10.5 语义分析 10.6 基于语料库的大规模真实文本的处理 10.7 机器翻译 10.8 语音识别,27,10.6.1 语料库及其特征,1990年l 3届国际计算机语言学大会提出大规模真实文本目标,基于规则方法的缺点:自然语言理解的复杂性,各种知识的“数量”繁多,高度的不确定性和模糊性。,传统词典特征及不足:,特征:把各类不同的信息放入一个词汇单元中,包括拼音、读音、词形变化及派生词、词根、短语、时态变换的定义及说明、同义词、反义词、特殊用法注释,偶尔还有图示或插图。
15、不足:以“树”为例,解释为一种大型的、木制的、多年生长的、具有明显树干的植物。,缺失了很多构造性信息,28,10.6.1 语料库及其特征,90年代,自然语言理解的研究在基于规则的技术中引入语料库,包括统计方法、基于实例的方法和通过语料加工手段使语料库转化为语言知识库的方法等。,WordNet语料库:1990年由Princeton大学的Miller等人设计和构造的。 包含将近95 600个词形(51 500单词和44100搭配词)和70 100个词义,分为名词、动词、形容词、副词和虚词5类。 WordNet中,按语义而不是按词性来组织词汇信息,名词有57 000个,含有48 800个同义词集,分
16、成25类文件,平均深度12层。最高层为根概念,不含有固有名词。,29,10.6.2 汉语自动分词方法,(1)最大匹配法:在计算机中存放一个分词用词典,从待切分的文本中按自左到右的顺序截取一个定长的汉字串,与词典中的词进行匹配,若匹配不成功,则把该字符串从右边逐次减去一个汉字,再与词典中的词进行匹配,直到成功为止。 (2)逆向最大匹配法 :从待切分文本中截取字符串的方向是从右到左。匹配不成功时,将所截取的汉字串从左至右逐次减去一个汉字,再与词典中的词进行匹配,直到匹配成功为止。 (3)逐词遍历匹配法 :逐词遍历匹配法中存放的词按由长到短的顺序,逐个与待切分的语料文本进行匹配,直到把文本中的所有词
17、都切分出来为止。,30,10.6.2 汉语自动分词方法,汉语自动分词难点:,(1)词的概念 (2)岐义问题 (3)未登录词的识别,各类名字、缩略语、派生词、专业术语,31,10.6.3 汉语词性的标注方法,难点:兼类词的词类歧义排除,意义,(1)对文本进行文法分析或句法分析等更高层次的文本加 工提供基础。 (2)通过对标注过的语料进行统计分析等处理。,具有两个或两个以上词性的词,32,10.6.4 汉语词义的标注方法,难点:多义词的歧义排除,意义,(1)对文本中的每个词根据其所属上下文给出它的语义编码。 (2)语音合成、情报检索、机器翻译、自动校对等。,33,第10章 自然语言理解及其应用,1
18、0.1 自然语言理解的概念与发展历史 10.2 语音分析 10.3 词法分析 10.4 句法分析 10.5 语义分析 10.6 基于语料库的大规模真实文本的处理 10.7 机器翻译 10.8 语音识别,34,10.7 机器翻译,10.7.1 机器翻译方法概述 10.7.2 范例式机器翻译系统 10.7.3 翻译记忆,35,10.7.1 机器翻译方法概述,发展历程:,36,1. 直译式翻译系统(direct translation MT systems) 通过快速的分析和双语词典,将原文译出。,2. 规则式翻译系统(rule-based MT systems) 先分析原文内容,产生原文的句法结构
19、,再转换成译 文的句法结构,最后再生成译文。,10.7.1 机器翻译方法概述,37,3. 中介语式翻译系统(inter-lingual MT systems) 先生成一种中介的表达方式,而非特定语言的结构;再由中介的表达式,转换成译文。,基于规则的翻译,中介语式的翻译,10.7.1 机器翻译方法概述,38,4. 知识库式翻译系统(knowledge-based MT systems) 翻译经常需要除了词汇之外的各种知识,使用知识获取工具(knowledge acquisition),以充实知识库的内容。,6. 范例式翻译系统(example-based MT systems ) 将过去的翻译结
20、果,当成范例,产生一个范例库。,5. 统计式翻译系统(Statistics-based MT systems ) 源语言中任一句子都可能是目标语言中某些句子相似。,7. 混合式翻译系统(Statistics-based MT systems )同时采用多种策略,以达成翻译的目标。,10.7.1 机器翻译方法概述,39,范例式翻译系统(example-based MT systems )对被翻译的源语句通过翻译实例数据库检索出要翻译的 目标语句。,范例式机器翻译系统主要包括两部分工作: (1) 建立翻译实例数据库。 (2)翻译的操作检索算法。,10.7.2 范例式机器翻译系统,40,基本原理:用
21、户利用已有的原文和译文,建立起一个或多个翻译记忆库,在翻译过程中,系统将自动搜索翻译记忆库中相同或相似的翻译资源(如句子、段落等),给出参考译文,使用户避免无谓的重复劳动,只需专注于新内容的翻译。翻译记忆库同时在后台不断学习和自动储存新的译文,变得越来越“聪明”。,德国塔多思(TRADOS)公司的翻译记忆软件基于UNICODE(统一字符编码),支持55种语言,覆盖了几乎所有语言版本的 Windows9598NT 。,10.7.3 翻译记忆,41,第10章 自然语言理解及其应用,10.1 自然语言理解的概念与发展历史 10.2 语音分析 10.3 词法分析 10.4 句法分析 10.5 语义分析
22、 10.6 基于语料库的大规模真实文本的处理 10.7 机器翻译 10.8 语音识别,42,10.8.1 引言,语音识别用语音作为输入,口语对话与语音信号中语言提取的不同:(1)上下文猜测(2)肢体语言传达信息,机器翻译用印刷文本作为输入,能清楚地区分单个单词和单词串 。,fare | fair male | mail,43,10.8.2 语音信号采集与预处理,语音信号采集系统基于单片机,DSP芯片基于PC机,语音信号预处理 预滤波 (1)抑制输入信号各频域分量中频率超出采样频率的一半的所有分量,以防止混叠干扰。 (2)抑制50Hz的电源工频干扰。,44,10.8.2 语音信号采集与预处理,语
23、音信号预处理采样:对信号进行量化,量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值为量化误差,又称为量化噪声。预加重:是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。 端点检测:包含语音的一段信号中确定出语音的起点以及终点。,45,10.8.2 语音信号采集与预处理,过零率:信号中波形穿越零电平的次数来描述幅度变化的剧烈程度。,ZCR(i) = |sgn(xi(n)sgn(xi(n+1)|,46,10.8.3 语音信号特征参数提取,声波有两个主要特征:振幅和频率。 线性预测编码(LPC):基本思想:由于语音样
24、点之间存在相关性,所以可以用过去p个样点值来预测现在或未来的样点值。,47,10.8.4 矢量量化,矢量量化(vector quantization,VQ)技术是七十年代后期发展起来的一种数据压缩和编码技术。 在标量量化中整个动态范围被分成若干个小区间,每个小区间有一个代表值,对于一个输入的标题信号,量化时落入小区间的值就用这个代表值代替。,矢量量化的基本原理:将若干个标量数据组成一个矢量在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。,48,10.8.5 识别,识别系统的输入是从语音信号中提出的特征参数 语音识别所采用的方法一般有: 模板匹配法。在训练阶段,用户将词汇表中
25、的每一个词依次说一遍,将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。 随机模型法。如隐马尔可夫模型(HMM)。用HMM的概率参数来对似然函数进行估计与判决,从而得到识别结果。 概率语法分析法。不同的人说同一些语音时,相应的语谱总有一些共同的特点以区分于其他语音。将区别性特征与来自构词、句法、语义等语用约束相互结合,构成由底向上或自顶向下的交互作用知识系统。,49,10.8.6基于隐马尔可夫模型的语音识别方法,隐马尔可夫模型: 表示序列可能出现的一种方法。,y跟在ph后面出现的概率跟在t后面出现的概率,
26、例 序列:1 2 3 3 4。则概率0.90.50.40.6=0.108,50,状态隐含,观察可测,10.8.6 基于隐马尔可夫模型的语音识别方法,(1)观察符号是一帧帧的语音参数 (2)状态序列是具体的语音内容,LPC或MFCC,前进,后退,例:,51,解决三个基本问题:,(1)输出概率计算问题:给定观察序列 和HMM模型,计算输出概率 。 (2)状态序列解码问题:给定观察序列 和HMM模型,确定最优的转移序列。 (3)模型参数估计问题:调整模型 的参数,以使 最大。,10.8.6 基于隐马尔可夫模型的语音识别方法,52,输入语音,比较结果,10.8.6 基于隐马尔可夫模型的语音识别方法,基于HMM的孤立字(词)识别,53,THE END,Artificial Intelligence Principles and Applications,