收藏 分享(赏)

人工智能课件.part4.ppt

上传人:dreamzhangning 文档编号:3892371 上传时间:2018-11-25 格式:PPT 页数:86 大小:131KB
下载 相关 举报
人工智能课件.part4.ppt_第1页
第1页 / 共86页
人工智能课件.part4.ppt_第2页
第2页 / 共86页
人工智能课件.part4.ppt_第3页
第3页 / 共86页
人工智能课件.part4.ppt_第4页
第4页 / 共86页
人工智能课件.part4.ppt_第5页
第5页 / 共86页
点击查看更多>>
资源描述

1、第 4 章 单词与词组的处理与分析对于机器翻译研究来说,本章的第一任务是要建立语言的机器词典, 这一机器词典是多语言的。例如各自的藏, 英, 汉语机器词库。单词与词组的处理与分析, 对于汉语来说, 首先必须要进行单词的自动切分。自动切分歧义部分是解决的难点, 不但可能用到规则推理, 而且还可能用到语法分析, 语义用分析, 更详细的过程可以结合第六 章等一起研究。自动分词中要与词库中单词比较, 即大量使用检索操作; 分词以后两种语言对译首先是单词的对译, 也大量使用检索操作. 所以检索算法很重要, 当然, 它又与排序技术相关。词语分类和兼类的分析与处理是本章研究的又一重点。本章的最后将研究词处理

2、的一些细节问题。,4 . 1 机器词典概述人工翻译离不开词典,当然,机器翻译也离不开机器词典。机器词典也被称为电子词典,简称词典。机器词典的作用在机器翻译中是最重要的,因为做任何机器翻译工作都必须通过查机器词典来得到相关的翻译元素-单词和词组。如何有效的组织、建立机器词典,如何更好地利用机器词典中包含的各种知识,是一个值得深入研究的课题。,机器词典的作用:(1)机器词典的好坏是更好的实现实用化机器翻译系统软件的障碍之一。现有的一些机器翻译系统在达到实用化阶段时往往因为机器词典规模的限制阻碍了性能的进一步提高。 因为语言词汇是一个开放的集合,无论建立多么庞大的词典,都不可能穷举所有的词。而且,随

3、着时间的推移,还会出现大量的新词。因此,只有尽可能的扩充机器词典的规模,才可能使机器翻译系统更实用,更会被更多的行业、更多的人所接受。(2)机器词典是机器翻译的质量的关键,要达到机器翻译的全自动、高质量,就必须有一部信息丰富、易于使用的机器词典。一部好的机器词典不仅要有庞大的数量,而且要有尽可能高的质量,只要这样,才可能是机器翻译的质量更高。(3)电子词典(机器词典)不仅可以用于机器翻译,而且也可以用在自然语言理解、自然语言处理诸多方面。因此,电子词典(机器词典)是大规模知识工程的基础工作,它可以为知识系统提供一个基本的知识源。,对于机器翻译系统来说,为了适应不同专业领域的翻译要求,需要配有大

4、量的专业词汇。因此,机器翻译系统的词典又可以分为通用词典和专业词典两部分。如专门的缩略语词典、特殊字词典等等。还可以把通用词典再细分为名词词典、动词词典、成语词典等等。机器词典的组织机构对于提高词语的检索速度是非常主要的。一定的组织结构形式和相应的算法相配合,可以节约存储空间,提高检索速度,从而提高机器翻译系统的整体翻译速度。机器词典从存储形式来看,可以分为定长字段型、变长字段型和定变长混合型三种类型;从索引格式看,可以分为一级索引和多级索引等等。词语的长短是不同的,例如,某些常用词的信息特别丰富,书本词典可以占满几页,而有一些词语却只要一行。这样,如果所有词语都使用定长字段,则必须依据最长词

5、语确定字段长度,而相当多的短词语将浪费巨大的存储空间。所以,一般情况下一条词语的有关信息的存储都采用变长形式,这可以用链接技术实现。,5 . 2 自动分词汉语自动分词是我国计算机科学研究的重要课题之一, 它是自然语言理解、自动翻译、 电子词典等信息处理的基础性工件。所谓分词, 就是要把一句话, 一篇文章甚至一部著作中的词语逐个逐个的切分出来。汉语不象拼音文字那样有自然切分标志, 而且词语长短不一, 词语的定义也不统一, 语言学中对词的定义多种多样, 造成切分的多样性, 这也自然给自动分词的同一性带来很大困难。 汉语中词语本身的词素、词、词组无明显的区分界限, 没有一个统一的标准, 许多东西都是

6、凭经验和语感来划分。.这项工作如果全部交给计算机来作, 就没有那么简单了。尽管计算机自动分词在诸多方面存在着许多困难, 但是由于自动分词是许多应用工作的第一步(也是自动翻译的第一步), 这就促进了研究的持续不断, 提出了不少方法, 它们各有优缺点, 也可能是基于特定环境的。,4 . 2 . 1 典型的自动分词方法 4 . 2 . 1 . 1 正向最大匹配法和逆向最大匹配法正向最大匹配法是最早提出的自动分词方法, 它的基本思想是先取一句话的前六个字查字库, 若不是一个词, 则删除六个字的最后一个字再查, 这样一直查下去, 至找到一个词为止。 句子剩余部分重复此工作, 直到把所有的词都分出为止。逆

7、向最大匹配法也一样, 每次匹配不成功时去掉汉字串中最前面的一个字。两法思路清晰, 易于计算机实现, 但由于试图用相对稳定的词表来代替灵活多变, 充满活力的词汇, 把词库搜索作为判词的唯一标准, 因而具有很大的主观性和局限性。另外, 这两种方法实际上否认了语言中的歧义现象。在实际应用中, 方法有所变化。如下述算法我们初始不是取六个字而是取长度最短词的个数。,A1: 一条汉语语句分划成单一字符X1,X2,XM。A2: 决定语词中可能出现的词最大字符长度Lmax, 最小字符长度 Lmin。 A3: 逆向匹配,取语句最后的Lmin个字查关键词库, 若查不到, 加入一个字重复此工作,直至字符数为Lmax

8、为止。A4: 若实施A3查不到词,去掉语句中最后一个字,再实施A3,直至整个语句只剩下L min为止。,4 . 2 . 1 . 2 高频优选法这一方法基于词频的统计、字与字之间的构成结合律和歧义切分等现象的分析而提出来的。根据现代汉语频率词典,对于报刊和政论性文章,不同音节词的词频构成为:双音节词大约有74%;三音节词大约有3 . 7%;单音节词大约有17 . 2%;而五以上字音节词则大约只有0 . 4%左右。汉语是一字一音节,因而也可以说,两字组词的频率比其它所有方式的概率加起来都还要多。自动分词时首先考虑两字词,然后再考虑单字词,如此频率低的词语最后才考虑。这种方法提高了分词效率,但对歧义

9、问题也无能为力,出错率并不低。,4 . 2 . 1 . 3 其它方法设立切分标志切分标志有自然和非自然之分。自然切分标志是指文章的非文字符号,例如标点符号等等;非自然切分标志是利用词缀和不构成词的词(单字词等等)。设立切分标志方法的基本思想就是通过建立非自然切分标志的一张表存储于计算机中用程序来识别所有的非自然标志。这样一来,一个句子链将被化为若干短链,然后再用其它切分方法进行各种细加工,这种多方法合作的综合应用,途径增多,可以大大提高效率。,扩充转移网络分词法它是以有限状态机概念为基础的方法。有限状态机只能识别正则语言,对有限状态机作的第一次扩充可以使其具有递归能力,这样就形成递归转移网络(

10、RTN)。在RTN中,弧线上的标志不仅可以是终极符(语言语句中的各种词语)或非终极符(还没有推导完的词类、符号等等,例如名词N,动词V,形容词A等等),还可以调用另外的子网络名字的非终极符(例如字或字串的成语条件)。这样,计算机在运行某个子网络时,就可以调用另外的子网络,还可以递归调用。目前大多数的自然语言理解系统都把词典组织成一个表,表是静态的。使用扩充转移网络来组织词典就可以构成一个动态的词典,词法扩充转移网络的使用,它使分词处理和自然语言理解系统的句法处理阶段交互成为可能,并且有效地解决了汉语分词的歧义。,全自动词典切词这种方法完全使用切词规则切分词语,其规则中的参数由词典提供。该方法可

11、以部分解决歧义问题,但因是匹配切词,效率不高。 规则描述语言切词法规则描述语言是用以描述汉语分词、分析和生成规则的一种工具。其中,整个规则语言将由若干个不同性质的规则块构成,而每一个规则块又包括多条规则,这些规则块的结构一般采用多层次的树型结构(当然,也可以采用其它结构,例如链式结构)。该方法对正确描述汉语是一种有意义的尝试,值得深入研究,多遍扫描联想法这种方法是使用切分标志把文本切分成若干子串。它一般分成两步进行:第一步,使用自然切分标志对文本进行预处理;第二步,利用非自然切分标志结合联想库对文本进行有效的分割。这两布完成以后,再利用实词的词库和联想库将所有词群细分为词。在这种方法的操作中,

12、分词时将要充分利用各种语法知识、联想和回溯机制同时作用分割和细分阶段,其目的在于更有效的解决歧义组合结构的切分问题,并且兼有自动纠错和检错这样的特殊功能。这种方法属于组合方法,方法的基点立足于可靠性、实用性和通用性。 神经网络分词法这种方法是模拟人脑功能采用并行、分布处理和建立数值计算模型工作的方法。它将分词知识所分散隐蔽式的方法存入神经网络内部,然后再通过各种自学习和训练修改内部的权值,以达到正确的分词效果,最后给出神经网络自动分词结果。由于神经网络这一学科的研究有许多问题尚未解决,所以此方法还处于探索之中。,专家系统分词法这种方法从专家系统角度把分词的知识(包括常识性分词知识与消除歧义切分

13、的启发性知识,即歧义切分规则)从实现分词过程的推理机中独立出来,从而使知识库的维护与推理机的实现互不干扰,以达到使知识库易于维护和管理。这种方法还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。虽然专家系统研究相对成熟,但真正要把这一方法作为完善的机器翻译自动分词方法,还有很长的路要走。综上所述,由于汉语的复杂性。我们很难以某种方法正确地、彻底地自动分词。这些不同的方法,它们各有不同的优点和缺点,适合不同的环境。但是如何比较正确的评价、度量一个方法,则显得尤为重要,这一点将在后面论述。,4 . 2 . 3 自动分词的歧义问题自动分词的难点是歧义切分, 而歧义切分字段从构成形式上

14、可分为两类: 一类是交集型歧义切分字段, 一类是多义组合型歧义切分字段。,4 . 2 . 3 . 1 交集型歧义切分字段与解决方法一般情况下,在多义组合型歧义切分字段中,歧义字段就是一个歧义词,而非歧义词被包含在歧义词当中。例如,歧义字段“语言学”同时也就是一个歧义词,而非歧义词“语言”和“学”包含在歧义词“语言学”中。在这种情况下, 机器很难根据多义组合型歧义切分字段本身来获得非歧义词的特征信息, 程序只有跳出多义组合型歧义切分字段自身的框架, 参考歧义字段与其前趋字串或后继字串之间的关系, 才有可能发现正确的切分。这就说明, 为了对多义组合型歧义切分字段本身作出唯一正确的切分,不能只考察歧

15、义字段内部的情况, 还必须考察歧义字段与其前后字串之间的关系。而在交集型歧义切分字段中, 歧义字段本身就可以给我们提供非歧义切分的特征信息, 因此, 多义组合型歧义切分字段的自动切分比交集型歧义切分字段的自动切分要难得多。,有些歧义切分字段具有二重性。例如, 在例句“乒乓球拍卖完了”中, 由名词“乒乓球”和动词“拍”串联组合而产生出多义组合型歧义切分字段“乒乓球拍”,而“乒乓球拍”又与动词“拍卖”交叉组合而产生交集型歧义切分字段“乒乓球拍卖”, 这样一来, 在“乒乓球拍卖”这个字段中, 既有多义组合型歧义切分字段, 又有交集型歧义切分字段。对于这样的具有二重性的歧义切分字段, 切分时也不能只考

16、虑字段本身提供的信息, 还应该考虑该字段与其前趋字串和后继字串的关系。为了正确地切分多义组合型歧义切分字段, 可以利用前趋字串和后继字串的句法、语义、语用3个方面信息。我们来讨论如何利用句法信息: 有些多义组合型歧义切分字段与其前趋字串和后继字串之间,存在着密切的搭配关系,这时就可以利用有关的句法信息得到正确的切分。,例l中的歧义切分字段“阵风”是由量词“阵” 和名词“风”的串联组合产生的按非歧义切分时的词间搭配关系, 量词之前应该有数词。 在字段S=al.ai, bl.bj, cl.ck中, 如果al.ai, bl.bj和bl.bj, cl.ck分别都构成词, 则字段S称为交集型歧义切分字段

17、, 其中bl.bj称为交段。 例如, 在字段“ 太平淡”中, “太平”和“平淡”分别成词, “平”为交段, 所以, “太平谈”是交集型歧义字段。在字段S=al.ai, bl.bj中, 如果al.ai, bl.bj和S三者都分别成词, 则字段S称为多义组合型歧义切分字段。 例如, 在字段“烤白薯”中, “烤”, “白薯”和“烤白薯”三者都分别成词, 所以, “烤白薯”是多义组合型歧义切分字段。交集型歧义切分字段是由词与词之间的交叉组合产生的。 在字段S=al.ai, bl.bj, cl.ck中, 由于交段bl.bj既可与al.ai组合成词, 又能与cl.ck组合成词, 形成了交叉组合, 才产生歧

18、义切分。 从产生的根源上看, 有下列几种不同的类型:,(1) 名词+名词例如, 在句子“用树形图形式加以描述”中, 歧义字段“图形式”是由名词“图”与名词“形式”之间的交叉组合产生的“图形”十“形式”。事实上,“图形”是歧义词,它是歧义字段“图形式”在给定句子中错误地切分出来的片段,“形式”是非歧义词,它是歧义字段“图形式”在给定句子中,按正确的切分方式切分出来的片段。(2) 动词十名词例如,在句子“研究生命的本质”中,歧义字段“研究生命”是由动词“研究”与名词“生命”之间的交叉组合产生的-“研究生”(歧义词)十“生命”(非歧义词)。,(3) 形容词十名词例如,在句子“白天鹅游过来了”中,歧义

19、字段“白天鹅”是由形容词“白”与名词“天鹅”之间的交叉组合产生的“白天”(歧义词)十“天鹅”(非歧义词)。(4) 介词十名词例如,在句子“让位移等于50厘米”中,歧义字段“让位移”是由介词“让”与名词“位移”之间的交叉组合产生的“让位”(歧义词)十“位移”(非歧义词)。(5) 连词十名词例如,在短语“独立自主和平等互利的原则”中,歧义字段“和平等”是由连词“和”与名词“平等”的交叉组合产生的“和平”(歧义词)十“平等”(非歧义词)。,(6) 副词十形容词例如,在句子“这本小说的情节太平淡了”中,歧义字段“太平淡”是由副词“太”与形容词“平淡”的交叉组合产生的-“太平”(歧义词)十“平谈”(非歧

20、义词)。(7) 助词十形容词例如,在短语“对这种现象的确切描述”中,歧义字段,“的确切”是由助词“的”与形容词“确切”的交叉组合产生的-“的确”(歧义词)+“确切”(非歧义同)。(8) 名词十连词例如,在句子“社会需求和生产水平有矛盾”中,歧义字段“需求和”是由名词“需求”与连词“和”的交叉组合产生的-“需求”(非歧义词)十“求和”(歧义词)。,(9) 动词十介词例如,在句子“他们看中和日本人做生意的机会”中,歧义字段“看中和”是由动词“看中”与介词“和”的交叉组合产生的-“看中”(非歧义词)十“中和”(歧义词)。 由以上例子可以看出,交集型歧义切分字段a1aiblbj,clck的交段b1bj

21、与其后继字串clck所组成的非歧义词的词类,可以从歧义切分字段本身提供出来,例如,在歧义切分字段“白天鹅”中,交段为“天”,它与后继字串“鹅”组成的非歧义词“天鹅”,其词类为名词。歧义切分字段本身为我们提供了非歧义词,天鹅”的词类信息。交集型歧义切分字段,alaib1bj,clck的交段b1bj与其前趋字串alai所组成的非歧义词的词类,也可以从歧义切分字段本身提供出来。例如,在歧义切分字段“需求和”中,交段为“求”,它与前趋字串“需”组成非歧义词“需求”,其词类为名词,歧义切分字段本身也为我们提供了非歧义词“需求”的词类信息。,交集型歧义切分字段可以为我们提供非歧义切分的特征信息,这是交集型

22、歧义切分字段非常宝贵而重要的特点。根据这个特点,我们可以事先为汉语词汇中的每个词建立词法知识库,并在该知识库中为可能产生歧义切分的词条加上歧义标志和歧义类型编号,这样,在实际切分歧义字段时,只要利用该字段中的交段blbj与后继字串clck(或其前趋字串a1ai )所组成的非歧义词的已知词类信息,再通过适当的逻辑推理,就可以对这类歧义切分字段作出唯一正确的切分。例如,在上述第(3)种类型的歧义切分字段“白天鹅”中,因交叉组合产生的歧义词是“白天”,交段是“天”,该交段的后继字串为“鹅”,二者组成非歧义词“天鹅”,并已知其词类信息为名词。如果在词法知识库中,对歧义词“白天”加上歧义标志和相应的歧义

23、类型编号,并建立如下的规则:如果交段与其后继字串组成名词,则将该歧义词的首字单切,否则,确认该歧义词为词。,于是,根据歧义词“白天”的歧义类型编号调用上述规则,并利用词法知识库中有关该歧义切分字段的交段“天”与其后继子串“鹅”组成词的知识,检查这个词是否为名词,并进行逻辑推理,就可以确定,在切分歧义字段“白天鹅”时,应将歧义词“白天”的首字“白”单切,“白天鹅”应切分为“白天鹅”。这是对歧义切分字段“白天鹅”作出的唯一正确的切分。又如,在上述第(8)种类型的歧义切分字段“需求和”中,因交叉组合产生的歧义词是“求和”,交段是“求”,该文段的前趋字串为“需”,二者组成非歧义词“需求”,并已知其词类

24、信息为名词。如果在词法知识库中,对歧义词“求和”加上歧义标志和相应伯歧义类型编号,井建立如下的规则:如果交段与其前趋字串组成名词,则将该歧义词的尾字单切,否则,确认该歧义词为词。于是,根据歧义词“求和”的歧义类型编号,调用上述规则,在词法知识库中查询,得知该歧义切分字段的交段“求”与其前趋字串“需”所组成的词为名词,进行逻辑推理,就可以确定,在切分歧义字段“需求和”时,应将歧义词“求和”的尾字单切,“需求和”应切分为“需求和”。这是对歧义切分字段“需求和”作出的正确的切分。,对于其它类型的交集型歧义切分字段,不难建立相应的规则,并为其中的歧义词设置相应的歧义类型编号,然后利用词法知识库中有关词

25、类信息的知识,进行类似的逻辑推理,就可以作出唯一正确的切分。由于对交集型歧义切分字段的正确切分,仅只需要关于词类的信息,所以,可以把这类歧义切分字段。从性质上划为“与词类有关的歧义切分字段”,简称为“词法歧义字段”。,4 . 2 .3 . 2 多义组合型歧义切分字段与解决方法多义组合型歧义切分字段比较复杂,这种歧义切分字段是由词与词之间的串联组合产生的。在字段Sa1aiblbj中,由于a1i,b1bj和S三者都能分别成词,字串a1ai与字串blbj形成了串联组合,才产生歧义切分。从产生的根源上看,有下列几种不同的类型:(1) 量词十名词例如,在句子“一阵风吹过来了”中,歧义切分字段“阵风”是由

26、量词“阵”和名词“风”的串联组合产生的。 (2) 介词十名词 例如,在句子“请把手抬高一点儿”中,歧义切分字段“把手”是由介词“把”和名词“手”的串联组合产生的。(3) 动词十名词例如,在句子“他喜欢吃烤白薯,中,歧义切分字段“烤白薯,是由动词“烤”和名词“白薯”的串联组合产生的。,(4) 名词十方位词例如,在句子“他骑在马上”中,歧义切分字段“马上”是由名词“马”和方位词“上”的串联组合产生的。 (5) 名词十动词例1,在句子“语言学起来并不十分容易”中,歧义切分字段“语言学”是由名词“语言”和动词“学”的串联组合产生的。例2,在句子“学生会兴奋得手舞足蹈”中,歧义切分字段“学生会”是由名词

27、“学生”和动词“会”的串联组合产生的。例3, 在句子“乒乓球拍卖完了”中,歧义切分字段“乒乓球拍”是由名词“乒乓球”和动词“拍”的串联组合产生的。例4,在句子“美国会采取措施提高工业竞争力”中,歧义切分字段“美国会”是由名词“美国”和动词“会”的串联组合产生的。,(6) 方位词十动词例如,在句子“他在庄稼地里间麦苗”中,歧义切分字段“里间”是由方位词“里”和动词“间”的串联组合产生的。(7) 副词十动词例如,在句子“他将来北京探亲”中,歧义切分字段“将来”是由副词“将”和动词“来”的串联 组合产生的。(8) 助词十动词例1,在句子“他学会了解数学难题”中,歧义切分字段“了解”是由助词“了”和动

28、词“解”的串联组合产生的。例2,在句子“只要努力地学就可以学会”中,歧义切分字段“地学”是由助词“地”和动词“学”的串联组合产生的。,(9) 连词十副词例如,在句子“日本保留和尚使用的古代庙宇已经不多了”中,歧义切分字段“和尚”是由连词“和”与副词“尚”的串联组合因此, 可以先在词法知识库中对歧义词“阵风“加上歧义标志与相应的歧义类型编号, 并建立如下的规则:如果歧义字段的直接前趋字串是数词, 则歧义字段的首段单切, 否则, 该歧义字段成词。然后根据“阵风”的歧义类型编号调用这条规则, 并利用词法知识库中的有关该字段前趋字串的信息,进行逻辑推理, 就可以作出唯一正确的切分。上面例中的歧义切分字

29、段“把手”是由介词“把”和名词“手”的串联组合而产生的, 按非歧义切分时的词间搭配关系, 该歧义字段的后继字串中必须有及物动词, 根据这样的句法知识建立相应的规则, 再使用与上述类似的推理方法,就可以作出唯一正确的切分。,上面例中的歧义切分字段“白薯”是由动词“烤”和名词“白薯”的串联组合而产生的, 按非歧义切分时的词间搭配关系, 该歧义字段的前趋字串中应该有动词,根据这样的句法知识建立相应规则, 再使用与上述类似的推理方法, 就可以得到唯一正确的切分。上面 例中的歧义切分字段“马上”是由名词“马”和方位词“上”串联组合而产生的,按非歧义切分时的词间搭配关系, 该歧义字段的前趋字串中应该有介词

30、,根据这样的句法知识建立相应的规则,再使用类似的推理方法, 就可以得到唯一正确的切分。类似地, 切分上面例中的歧义字段“语言学”时, 要使用“该字段的后继字串中应有趋向动词或助词”这样的句法知识; 切分上面例中的歧义字段“里间”时, 要使用“该字段的前趋字串中应有介词”这样的句法知识; 切分生命例中的歧义字段“将来”时, 要使用“该字段的前趋字串中应有人名或人称代词”这样的句法知识; 切分上面例中的歧义字段“地学”时, 要使用“该字段的直接前趋字串应该是形容词或副词”这样的句法知识。根据句法知识建立相应的切分规则, 通过一定的逻辑推理,就可以实现对这些歧义字段的正确切分。,现在讨论如何利用 语

31、义信息: 例中歧义切分字段“学生会”是由名词“学生”与动词“会”串联组会产生的, 可以有两种切分结果:学生/会/兴奋/得/手舞足蹈学生会/兴奋/得/手舞足蹈这两种切分结果在词类与句法结构上都十分相似, 因此, 仅仅利用词法和句法的知识, 难以对这两种切分结果作出正确的判别, 也就难以作出正确的切分。这时, 也就需要利用语义方面的知识了。从语义上来看, 动词“兴奋”的义项中, 要求动作的发出者应具有“人”这个义素 ,在名词“学生会”的义项中不具有这个义素, 而在名词“学生”的义项中则具有这个义素, 利用这样的语义知识, 可建立如下的语义规则: 如果歧义切分字段后继动词的义项中含有动作发出者为“人

32、”这个义素, 则歧义字段的尾字单切, 否则, 该歧义字段成词。,在自动切分时,根据歧义切分字段“学生会”的歧义类型编号, 调用这条语义规则 ,进行逻辑推理,就可以得到如下正确的切分:学生/会/兴奋/得/手舞足蹈例中歧义切分字段“了解”是由助词“了”和动词“解”的串联组合而产生的, 它们可以有两种切分结果:他/学会/了/解/数学/难题 他/学会/了解/数学/难题这两种切分结果的词类和句法结构都是十分相似的, 如果仅仅只根据词法和句法知识, 是难以得到正确的切分的, 但是只要根据语义分析就可以知道, 在动词“解”的义项中, 它要求宾语应该具有“数学公式”或者“扣子”这样的义素, 然而动词“了解”则

33、对宾语则就没有这样的要求, 由于作宾语的“数学难题”符合动词“解”的义项这样的要求, 因此机器可以判定前一种切分是正确的, 从而也就排除了第2种切分。,我们最后来讨论任何使用语用信息: 所谓语用信息,就是必须结合上下文不同的情况的信息才能确定语句含义。 歧义切分字段“乒乓球拍”仅只根据词法、句法和语义知识, 都不足以判断卖完的东西究竟是“乒乓球”还是“乒乓球拍”, 这时, 就得根据语言交际的具体环境的语用方面的知识, 才能决定究竟什么才是正确的切分。例中的歧义切分字段“美国会” , 仅只根据词法、句法和语义知识, 也不足以判断采取措施提高工业竞争力的是“美国”还是“美国会”, 这时,就得根据语

34、言交际的具体环境的语用方面的知识, 才能作出正确的切分。在上面的 例中的歧义切分字段“和尚”, 如果仅只根据词法、句法和语义知识, 也不足以判断古代庙宇是“和尚”使用还是“尚”使用的, 这也只好根据语言交际的具体环境的语用方面的知识, 才能作出正确的切分。,根据上面所述的歧义切分字段的性质, 可以把它们分为4种不同的类型:(l)利用词法知识就能判断的歧义切分字段,叫做“词法歧义字段“。(2)利用句法知识才能判断的歧义切分字段,叫做“句法歧义字段“。(3)利用语义知识才能判断的歧义切分字段,叫做“语义歧义字段“.(4)利用语用知识才能判断的歧义切分字段,叫做“语用歧义字段“。在这其中, 词法歧义

35、字段与交集型歧义切分字段完全对应, 其余三类则与多义组合型歧义切分字段相对应。,4 . 3 词语的排序, 检索, 词库 4 . 3 . 1 词语的排序, 检索简叙 汉语的词语由汉字组成, 词语的数量大, 仅常用词条将达到4万左右。要使自动翻译快速、有效, 必须对大量的词条使用好的排序和检索算法进行处理.按汉字笔画权值对词语进行排序是根据笔画查字表中的汉字排列来定义汉字的类, 再给每一类汉字赋一个数值, 这个数值就称为该汉字的笔画权值。 由于汉字笔画权值不超过787个, 采用映射式排序算法是好的方法。 而检索方法采用直接映射式字符检索算法。,4 . 3 . 2 词库设计原则(1) 略缩词词典例如

36、英语文句中经常出现的a . m ; 当自动切分句子遇到带“ . “的词时, 通过查找略缩词词典时, 找出相对应词组。(2) 省略词词典如英文的it s; they ve等。 当自动切分句子遇到带“ “的词时, 通过查找省略词词典时, 找出相对应词组。(3) 特殊词典如英语的介词, 副词, 连词等, 用法非常灵活, 在不同语言条件下, 由于其前后搭配成份不同, 其中文译文和中文生成的词序都很不一样, 极易产生歧义, 而且这类词的频率极高.对这些结构词进行特殊处理, 对提高译文处理质量是十分重要的。 (4) 专业词典为使翻译能根据不同专业有更准确的译文, 应建立专业词典。,4 . 4 词语的分类与

37、兼类问题 4 . 4 .1 词语的分类 在目前情况下,自然语言信息处理的技术水平要求对每个词语给出它的词类(范畴)乃至次范畴分类,语言学理论与信息处理技术之间有着明显的差距。为满足机器翻译的实用需求, 也为了更深入研究, 机器词典将所收的词语及符号划分为26类, 它们名称及代码如下: 名词n, 时间词t, 处所词s. 方位词f, 数词m, 量词q, 区别词b, 代词r, 动词v, 形容词a, 状态词z, 副词d, 介词p, 连词c, 助词u, 语气词y, 象声词o, 叹词e, 前缀h, 后缀k, 成语i, 简称略语j, 习用语l, 语素g, 字x, 标点符号w。当然,由于没有一个统一的标准,可

38、能这一种划分与其它文献中的划分可能有不同之处。这并不影响实际使用,但是我们应用时要注意这个问题。 显然,仅仅规定出这些词类还远远不够, 更重要的是要决定词典中的每一个具体的词属于哪一类。这的确是一件颇费斟酌的事, 特别是一些名词、动词、形容词、状态词、区别词、副词的辨别可以说是相当困难的。,尽管词典中的词语数目是有限的, 尽管有判别准则, 尽管研究者亲自确定词语的归类, 但是仍有少数词一时仍难以决定下来。 机器只有用语法方法对这些问题作必要的处理。当然, 这也为进一步研究准备了条件。随着人们多年研究的深入, 还可以考虑对某些词类进一步划分子类。这个问题看上去更困难, 主要是我们不容易把握按哪一

39、种标准进行子类划分更好、更为妥当。其中人们提出的一种方法是按照名词与量词的关系将名词划分为可数名词, 不可数名词、集合名词、抽象名词及专有名词。这一种方法还比较科学。沿着这个方向进一步研究, 发现这些子类不在同一个层次上, 且有些名词不能受数量词修饰。现在的划分准则如下:,凡是个体名词都应该有自己特有的个体量词, 而且该量词前的数词可以是“一”, 如“一本书”,“一头牛”, “一位教授”; 物质名词不可以用个体量词计数, 但是可以使用度量词或容器量词等来计量, 如“两碗水”, “三公尺布”,“一身泥土”等等。 集合量词可以细划分为两个子类, 一类是可以分的, 即可以进行个体化的, 例如“四十位

40、师生”, “三个兄弟”等等, 但是其个体量词的数词不能是“一”。而 另一类是不可分的, 即在它们前面只能使用非个体量词之外的其它量词, 例如“两车军火”,“一队车辆”。 抽象名词前一般只可以使用“种类量词”与“不定量词”, 例如“一些勇气”,“一种精神”, 而且有一部分抽象名词作动词“有”的宾语构成述宾词组后还可以受“很”一类副词修饰, 例 如“很有勇气”, “非常有精神”。 无量名词不能接在任何数词或数量词组之后。专有名词的特点就是在于它的专有性, 专有名词在用汉语拼音字母表示时或这被译成英语时, 其中首字母必须大写, 我们认为将专有名词单分一个子类还是有意义的。专有名词一般不受数量词修饰,

41、 但是在某些语境之中, 它们也可以接在数量词之后。,综上所述,名词与量词之间的搭配关系为划分名词子类提供了相当明确的准则。但是,有些语言现象人们处理起来仍会感到棘手。首先我们来讨论个体量词, “个”这个量词用得非常广泛, 可以这样说“一个理论”, “两个学说”, 非常显然, 在这里的“个”与“一个苹果”,“两个梨”,“五个同学”中的“个”很难区分。 但是又不适宜据此我们就将“理论”,“学说”也划分到个体名词中去, 还是划分到抽象名这一类词较为合适。又如不可分的集合名词,“人口”, “大军”, 不能接在数量词之后, 却可以说“十亿人口”, “十万大军”。,4 . 4 . 2 词语的属性描述语法的

42、属性描述将反映名词的特殊性质。 分类法刻划事物虽然简洁、清晰、信息密度大, 但是属于同一类的事物仍然可能各自具有不同的特点, 例如,“鱼”和“牛”同属个体名词, 但是“鱼”却具有专用个体量词“尾”, 而牛具有专用个体量词“头”, 然而, “鱼”通常还可以与度量词“斤, 克”搭配, “牛”就不行。 因此,这就要依靠语法属性描述来刻划每一词语的语法信息。 对于名词, 除了确定每个词的子类外, 还应该详细描述每个名词可以搭配的各类量词。此外,我们注意和应用某些个体名词的特殊性质也是非常必要的。,属性描述可以对每一类词的语法属性进行相当充分的发掘。例如, 对于作为研究重点的动词人们共确定了近40项属性

43、。这些属性大致可归纳为7类:第一类是关于动词本身特性的, 例如该动词是不是系动词、助动词, 趋向动词。第二类是关于动词变化形态的。第三类描述该动词有无名词特性, 例如能不能直接修饰名词, 能不能直接受名词修饰、能不能后接趋向动词, 能带什么样的宾语- 谓词, 双宾等等。第四类反映该动词同一些虚词的关系, 例如它前面能不能受“不, 没,很”修饰, 后面能不能带“着, 了, 过”。 第五类描述动词在句子中的各种功能, 即该动词在句子中能否具有单独的属性。第六类刻划动词与后继成分的关系, 即该动词能否后接作动词“有”的宾语等等。第七类包含其它特性。当然,这样确定的属性是不是科学、完整还值得研究。,下

44、面列出词典中量词库中的各个属性字段及其简单的解释。个体量词: 个体量词填“个“ , 如,个,本。 集合量词: 集合量词填“集“, 如;套,系列。度 量 词: 度量词(单位量词)填“度“ 如, 尺, 公斤, 度, 分, 秒。最近高位: 如尺的最近高位是丈, 填“丈“。最近低位: 如尺的最近低位是寸,填“寸“.。容器量词: 容器量词填“容“如;瓶,杯。种类量词: 种类量词填“种“,如;种,类。成形量词: 成形量词填“形“, 如;摊,堆。不定量词: 不定量词填“不“,如,些, 点儿。任 一: 只能受数词“一“修饰的,填“一“, 如: 系列。后接名词: 择要填写该量词后可接的名词.例如, 对“艘“可填

45、“轮船, 军舰“。,动 量 词: 动量词填“动“,如;次,下。时 量 词: 时量词填“时“,如年,月, 时,分。表示顺序: 该量词前接数词可表示顺序的填“序“, 如, 月, 年。表示数量: 该量词前接数词可表示数量的填“数“, 如, 斤, 天, 年。 4 . 4 . 3 词语的兼类兼类系指同一个词具有不同的词类语法功能, 即这个词兼属不同的词类.(l) 兼类词只占词汇的很小一部分。(2) 常用词兼类现象严重。往往越是常用的词,不同的用法就越多, 兼类现象也就越多。所以,尽管兼类现象只占了词汇的很小一部分,但兼类词使用的频繁程度并不很低。(3) 兼类现象纷繁,覆盖面很广,涉及了大部分词类。(4)

46、 兼类现象的分布很不一致。,上面情况说明, 不同的词类在兼类问题中的地位不是等同的。有些词类, 兼类现象很严重, 解决其兼类问题比较困难, 而这些困难的兼类问题, 恰恰是兼类现象中最基本的问题, 可以把这些词类叫做“基本兼类词类”。它们是: 名词、方位词、代词、动词、能愿动词、形容词、副词、介词、连词等9类词。另一些词类,或者其兼类问题的解决比较容易, 或者其兼类现象极少, 例如时间词中, 仅仅“过去”一词兼属“时间(词)一趋向(动词)一动(词)”3类, 我们可以把这些词类, 叫做“非基本兼类词类“。它们是:时间词、数词、量词、区别词、趋向动词、助词等6类词。显然,对于兼类问题的研究也是很重要

47、的,而且有较大的用途。,兼类词所包含兼类词类的个数各有不同, 有的兼类词可能只含两个兼类词类,有的兼类词可能就含有三个兼类词类。某一类兼类现象所包含兼类词类的个数叫做兼类长度。兼类长度等于2, 而且所含兼类词类均属基本兼类词类的兼类类型, 叫做“兼类基本型”。如果我们解决了兼类基本型的兼类问题, 实际上就等于解决了大部分的兼类问题。 而且其它的兼类问题, 也可以设法将它们转化为兼类基本型, 这样,我们就可以抓住兼类现象中的核心问题, 通过少量的规则来处理尽可能多的兼类现象。否则,需要的规则就多得多。,兼类基本型有以下几种:(l) “动一名“ 兼类这种兼类基本型我们最为常见。兼类词多由动词转化而

48、来。例如“报告, 编辑, 装备, 爱好, 刺激, 工作,”等等。(2) “动一形“兼类这种兼类基本型我们也是常见的。兼类词主要由形容词转化而来,形容词后若带宾语,则认为其兼有动词的类。例如, “多,苦.严肃,繁荣,普及,巩固“等。(3) “名一形“兼类这种兼类基本型我们还是比较常见的。兼类词多由形容词转化而来, 例如 “秘密,规矩,痛苦,困难,烦恼,科学“等。下面几种兼类基本型也是比较常见的。(4) “形一副“兼类.有的形容词在修饰谓词性成分时,意义有所改变,句法功能与副词相同,形成“形一副“兼类。例如,“直、怪、老、全、白、光、快、偏、死、真、干“等。试比较: 路很直(“直“为形容词).他直

49、哭(“直“为副词).,(5) “动一介“兼类很多介词是由动词发展而成的,因此,介词常常与动词兼类。例如“在、朝、向、往、顺、对、为、跟、随着“等:试比较; 我在家(“在“为动词).我在办公室开会(在“为介词)(6) “介一副“兼类这种兼类基本型数目有限。例如,“连、就、至、从“等。试比较 :他从日本来(“从“为介词).他从不抽烟(“从“为副词).(7) “名一副“兼类这种兼类词不多见。例如,“极端“。试比较: 你不要走另一个极端(“极端“为名词).他对顾客极端热忱(“极端“为副词),(8) “动一副“兼类.这种兼类基本型数目有限。例如,“断、还、越、比较“等。试比较; 老人断了气(“断”为动词); 断无此事(“断“为副词).(9) “代一副“兼类在代词中,有些我们常见的指别词, 亦可修饰谓词性成分。例如“每、各、本、另、另外”等等, 属于此类。 试比较: 本编辑部概不负责(“本“为代词).我本姓冯(“本“为副词).(10) “能愿(动词)一动“兼类有的能愿动词可以带体词性宾语。例如“要、会、得、想、该、配“等,属于此类。试比较他要去美国(“要“为能愿动词)他要这本书(“要“为动词).,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 网络科技 > 人工智能

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报