收藏 分享(赏)

基于本体的中文问答系统中问句的语义理解.doc

上传人:weiwoduzun 文档编号:1888488 上传时间:2018-08-29 格式:DOC 页数:50 大小:8.69MB
下载 相关 举报
基于本体的中文问答系统中问句的语义理解.doc_第1页
第1页 / 共50页
基于本体的中文问答系统中问句的语义理解.doc_第2页
第2页 / 共50页
基于本体的中文问答系统中问句的语义理解.doc_第3页
第3页 / 共50页
基于本体的中文问答系统中问句的语义理解.doc_第4页
第4页 / 共50页
基于本体的中文问答系统中问句的语义理解.doc_第5页
第5页 / 共50页
点击查看更多>>
资源描述

1、 论文答辩委员会二蒸广西师范大学硕士研究生学位论文基于本体的中文问答系统中问句的语义理解学科专业:计算机应用技术研究方向:人工智能就需要专业的查询语句。而用户输入的是自然语言的问句,需要在理解用户问句的基础上得到相应的查询语句。问句的理解与分析不仅是问答系统的第一步,其旬意分析的好坏更是直接影响到问答系统答案的优劣。从问答系统的处理流程来看,一般包括三个子系统:问题理解子系统、信息检索子系统和答案抽取子系统。问题理解子系统主要对用户输入的自然语言提问进行分析和分类,同时提取用户的提问意图,并以某种形式来表示该语义信息;信息检索子系统根据问题理解部分提供的结果进行检索,找到包含正确的知识表示或是

2、找到可能包含答案的范围;答案抽取子系统的主要工作是对检索的结果进行过滤,并按照自然语言生成算法,将检索到的知识表示生成精确的问题答旬,而后将答案返回给用户。本论文在对问旬进行预处理后,对问句的句法分析树进行语义查询图的构造,目的是将自然语言问旬构造成为机器可以理解的查询语句,实现对本体知识库的查询。论文研究的主要内容: : 甌 甀 甌 , 盩 广西师范大学硕士研究生学位论文目本体查询工具的使用广西师范大学硕士研究生学位论文广西师范大学硕士研究生学位论文为解决上述所讲的传统引擎的两个问题,促使很多研究人员参与对自然语言处理和语人们希望可以有一个用自然语言句子提问,直接返回答案的检索系统出现,而这

3、正是自动问答系统。问答系统精准、简洁的特点也促进了自动问答系统进一步的研究。但由于中文自然语言的复杂性和处理技术的局限性,现在的问答系统大都是以领域问答系统为主。领域问答系统是针对特殊领域的问答系统。本实验组试图研究并实现一个基于本体的桂林旅游问答系统,系统致力于根据本体库中的知识回答某个地区的包含旅游景点、酒店、小整合了很多网上的资源,而要使用这些海量的数据,通常需要专业的查询语句,如广西师范大学硕士研究生学位论文句,系统利用查询语句在本体库中查找。问答系统研究现状。很多机构和大公司纷纷加入到广西师范大学硕士研究生学位论文、天涯问答等。法来从数据库中找到最贴切的答案。例如用户说:“问答式检索

4、系统是提交用户问句,从本地文档集合或从网络中检索出相关文本或网页用户用自然语言表述的问题作为查询问旬,系统在问句理解的基础上返回较为精准的信广西师范大学硕士研究生学位论文问答系统,能以较快的速度回答有关地理、历史、文化等方面的简单问题。问题:是年斯坦福大学开发的对句子结构进行语法分析的分析器,它可以支持英文句子和中文句子的分析,它的产生是对自然语言处理的重大突破。,该系统将结构化和半结构化的数据与自由格式文本分开处理,是较为成功的广西师范大学硕研究生学位论文回的是一组候选答案集,并为答案集中每个答案赋予置信度。 相对于国外的研究,国内在问句处理方面面临的中文处理难度更大、研究也相对更落捎肳等对

5、关键词进行扩展。广西师范大学硕士研究生学位论文这类处理方法避免了复杂的词法分析、句法分析,在分析句子前,先要对大量的语料库进行分析,总结出所有可能的句模,系统存储这些旬模,每一种旬模都对应着一种或者多种解释,建立旬模知识库。在用户问句理解阶段,会对用户问句进行逐一匹配,找到与用户问句相匹配的句模后,就可以比较容易地找到用户查询的焦点。句型模式匹配在系统中存储尽可能多的句型模板,输入问旬后与句模匹配。这种方法可以直接分析出用户的问句意图,从而得出相应的语用信息。对于特定领域模板匹配有其高效的好处,但对于开发领域中,模板匹配的方法需要系统中存储大量的句型模板,需要占用了大量的空间,而且句型模板也不

6、可能包含所有的句型,对于匹配失效的问句的查准率不高,因此这种方法也具有一定的局限性。基于语义分析的方法通常的做法是利用句法分析树和知识库来启发式理解问句,也有方法,它是将问句划分为短语,并将短语映射到知识库中,构成短语三元组,接着利用候 浞治龌侄逃铩癢”,“ ”,短语“”映射为“”或者是广西师范大学硕士研究生学位论文广西师范大学硕士研究生学位论文领域本体构建技术本体的建立是一件消耗大量人力、物力的事情,本文构建的领域本体采用现在最流行、下几种分词方法:最小广西师范大学硕士研究生学位论文本文所采用的中科院分词器捎肗最短路径的分词策略,并用人民日报广西师范大学硕士研究生学位论文通常情况下,由实体名

7、词和专有名词而引发的分词错误是影响汉语分词系统性能的主要命名实体【】是指人名、地名、机构名等专有名词和时间、日期等数量短语。命名实体识信度。这类方法是识别中使用较早的一种方法,规则的编写通常由语言学专家完成。但花费的代价很高,当系统移植到新的领域时,通常需要修改规则甚至是重新归纳出新规则。广西师范大学硕士研究生学位论文和数据驱动的分析方,其采用的是文法与依存冢渲蠥为非终结符号组成的有 英语老师 认真干活专印洗干净根据上述文法,判定句子是否合法,如句子:去买东西广西师范大学硕士研究生学位论文 鬚判定句子“去买东 西” 为合法句子,并 产生句子的句法树如下:豢推导出分析树的概率为所有使用规则概率的

8、乘积,此模型基于以下三个基本假设:例如如下基于文法:广西师范大学硕士研究生学位论文比较两者概率,结构一比结构二更合理。哪常用的块标记集如下表:本体查询工具的使用下图为输出本体中类名、类与类之间的上下层关系。谴聁吖奸蕊 。巍:琽: 一 縚 量 一 置 輎图读取本体中的类名广西师范大学硕士研究生学位论文则将查询菁兴斜淞恐斜昵! 癤”的资源。行时需要将查询语句写在一个为后缀的文件中,如: :海痺畂在命令行中输入:上述畂为桂林旅游本体,作为的数据源,查询语句保存的位置为 眃: :广西师范大学硕士研究生学位论文”:畃保躷”:此查询为在本体中查询所有类型为住宿类的实体,并按其价格的降序排序,运行结果如广西

9、师范大学硕士研究生学位论文本体的定义一般将本体形式化定义为一个七元组【】,珹琷,其中:正是因为有了概念间属性的不同,才使得概念间有差别,才有着不同的个体集合。早期的本体语言包扩、龋琌受这些语言的影响很大,具体发展广西师范大学硕士研究生学位论文桂林旅游领域本体的构建并形式化成本体;图为桂林旅游本体中定义的概念“旅游景区” 的层次关系;图为本体中构建概念间的关系定义;广西师范大学硕士研究生学位论文鷂口傻瘛痚期纑獇嬷萜“坤 ;岫疆盟强翻嬲蜀盟翻蹑嗣幽蠢匿藩嗣蕊 瞄翻豳龉世毋室化谴产每肚粹自然翱戈他遗产图桂林旅游本体概念层次图軻岫曼蔓圃赢甄磊燕量燕趸蕊虽:量受赢嚣二:二:二一二:憾璉:二辫辫骥掣然嬲蹦

10、幽黻“口啡悖篽雌。 辑;参弘睺鲰纭挢觥龊铡觥瘛鯫鰀稚 辩接 铷 嚣瞳弼描站设椎啪 删玪竹 緉膋州带 鼻 宦 化 “ 单 体 协仳 界 然 产皓 莳 词口讲匕厣杈雠人 造 区 冀 游 盈 俘 州 蚺 街 所擞虹:嚣,二:广西师范大学硕士研究生学位论文概念间关系的表旅游本体属性关系糠 广西师范大学硕士研究生学位论文簉定义一个“酒店”类的实例,编码 如下:簉” 凸荨保痮:广西师范大学硕士研究生学位论文预处理阶段预处理阶段是对用户输入的问句进行词法分析、句法分析,然后输出合理的句法分析畁琲:”:加入词性,个体 词性均为名词:将这个词加入到用户字典中甴图加入词表后的分词系统界面注:词典的结构为:词词性纾

11、汗阄魇洞笱广西师范大学硕士研究生学位论文将问句分词的结果作为输入,用分析器进行句法分析。结果如下:。泠!避譬熏一曼塑童:【输出的结果分别为句法分析树和短语间的依存关系,句法分析树画成树形结构如下: 表籌句法标记符合内容描述名词组合形式直接宾语主从关系状语广西师范大学硕士研究生学位论文问句分类算法表问句类型特定个体人物、团体机构、人物列举、人物其他地址、景点方位、城市、地点其他数量、价格、距离、面积、号码、范围、数字其他交通工具、旅游景点、食物、娱乐、实体其他起源时间、发车时间、旅游佳期、交通时间、历史年代交通线路、方法、景点描述、其他描述未知檎椅示渲械囊晌蚀省紫热斯晌蚀时鞹和纾篢中包括“为什么”、

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报