1、摘要I摘 要随着互联网的高速发展,网上的信息越来越多,如何在这些海量信息中快速准确地找到所需要的信息也越来越困难。自动问答系统的出现很好的解决了这一问题,它既能够让用户用自然语言句子提问,又能够为用户返回一个简洁、准确的答案。中国每年高考的考生数百万之巨,很多考生和家长对高考有这样或那样的问题。因此,开发一个招生咨询领域的自动问答系统是非常具有现实意义的。本文通过对自动问答系统中的答案抽取部分的研究,提出了一种将 FAQ 库(常问问题答案库)与蕴涵丰富招生咨询材料的文本库相结合的答案抽取方式,有效地提高了系统的性能。在 FAQ 库中,由于存储了大量而正确的问题答案对,使得答案的抽取更为准确和快
2、捷;在基于 FAQ 库的答案抽取方法中,本文提出采用基于关键词信息和基于语义词典相结合的融合算法来计算用户问句与 FAQ库中问句的相似度。该算法不仅考虑了词面的信息,更深入到语义层次的信息,使句子间的相似度计算更为精确,从而使答案的提取也更为准确。在文本库的答案抽取方法中,采用的是比较成熟和常见的基于向量空间模型的 TF-IDF 方法来计算问句与文本之间的相似度。并将从文本库中提取出的答案定期进行人工判断整理,备份至 FAQ 库中,从而使更多的问题能直接从 FAQ 库中获得答案,有利于提高系统的运行速度。最后本文设计实现了一个招生咨询问答系统。实验结果表明,系统可以快速、准确的满足用户的需求,
3、从而有效地验证了上述方法的有效性和可行性。关键词:自动问答系统;答案抽取;常问问题答案库(FAQ 库) ;文本库ABSTRACTIIABSTRACTWith the rapid development of Internet, there are more and more informations online, how to find the informations they need quickly and accurately are more and more difficult.The Automatic Question and Answering System is a go
4、od method to resolve this problem,it not only let people ask a question with natural language,but also return a concise and accurate answer.China has millions of candidates take the university entrance examination each year, many students and parents have this or that problems on the college entranc
5、e examination.Therefore the development of Question Answering System based on Admission Counseling has a very practical significance.In this paper, research by Answer Extraction of Automatic Question and Answering System,it advances a new method that combines the Frequently Answer Question Library (
6、FAQ) with the document library which has the rich materials about Admission Counseling,and effectively improves the performance of the system.In the FAQ Library, it can get the answer accurately and quickly because it stores a lot of correct question-answer pairs;In the method of Answer Extraction b
7、ased on the FAQ Library, the paper advances the amalgamation arithmetic that combines the keywords information with the semantic dictionary to calculate the similarity between the users question and the question in the FAQ library.This arithmetic is not only consider the information of the words sur
8、face,but also consider the more depth informations of the semantic level,makes the similarity calculation between the sentences more accurate,and also makes the anwer extraction more accurate too.In the method of Answer Extraction based on the document library,it uses the relatively mature and commo
9、n TF-IDF method which based on the Vertor Space Model to calculate the similarity between the question and the document.It also manual corrects the answer regularly which extract from the document library,and backups to the FAQ library.So that more ABSTRACTIIIquestions can be directly obtained the a
10、nswers from the FAQ library directly.It can impove the system speed.At the end of the paper, it designs a Question Answering System based on Admission Counseling.The result of the experiment shows that the system can rapidly and accurately meet the requirement of the users, and it also validates the
11、 validity and feasibility of all the methods above.Chunlan Yuan (Computer Application Technology)Directed by A.Prof. Lin ZhangKEYWORDS: Automatic Question and Answering System;Answer Extraction; Frequently Answer Question Library;Document Library毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师
12、的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作 者 签 名: 日 期: 指导教师签名: 日 期: 使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下
13、,学校可以公布论文的部分或全部内容。作者签名: 日 期: 学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进
14、行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名: 日期: 年 月 日导师签名: 日期: 年 月 日指导教师评阅书指导教师评价:一、撰写(设计)过程1、学生在论文(设计)过程中的治学态度、工作精神 优 良 中 及格 不及格2、学生掌握专业知识、技能的扎实程度 优 良 中 及格 不及格3、学生综合运用所学知识和专业技能分析和解决问题的能力 优 良 中 及格 不及格4、研究方法的科学性;技术线路的可行性;设计方案的合理性 优 良 中 及格 不及格5、完成毕业论文(设计)期间的出勤情况 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体
15、结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)指导教师: (签名) 单位: (盖章)年 月 日评阅教师评阅书评阅教师评价:一、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指
16、定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格二、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格建议成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)评阅教师: (签名) 单位: (盖章)年 月 日目录教研室(或答辩小组)及教学系意见教研室(或答辩小组)评价:一、答辩过程1、毕业论文(设计)的基本要点和见解的叙述情况 优 良 中 及格 不及格2、对答辩问题的反应、理解、表达情况 优 良 中
17、 及格 不及格3、学生答辩过程中的精神状态 优 良 中 及格 不及格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规范? 优 良 中 及格 不及格2、是否完成指定的论文(设计)任务(包括装订及附件)? 优 良 中 及格 不及格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 及格 不及格2、论文的观念是否有新意?设计是否有创意? 优 良 中 及格 不及格3、论文(设计说明书)所体现的整体水平 优 良 中 及格 不及格评定成绩: 优 良 中 及格 不及格(在所选等级前的内画“”)教研室主任(或答辩小组组长): (签名)年 月 日目录目 录第 1 章
18、 绪论 .11.1 课题的背景和意义 .11.2 自动问答系统概述 .21.2.1 国内外研究现状 .21.2.2 问答系统的一般结构 .31.3 答案抽取简介 .41.3.1 答案抽取的定义 .41.3.2 答案抽取技术的分类 .41.4 主要工作与本文的组织 .7第 2 章 FAQ 库中的答案抽取技术 .92.1 引言 .92.2 FAQ 库的建立 .92.2.1 FAQ 库的收集 .92.2.2 FAQ 库的组织与存储 .112.3 候选问题集的建立 .122.4 句子相似度计算的主要方法 .132.4.1 句子相似度的概念及分类 .132.4.2 TF-IDF 方法 .142.4.3 基于语义依存的相似度计算方法 .152.4.4 基于知网的语义方法介绍 .152.4.5 各种句子相似度计算方法的优劣势比较 .192.5 FAQ 库中相似度计算新方法 .202.5.1 改进的基于关键词信息的方法 .202.5.2 基于知网的语义相似度计算具体步骤 .232.5.3 改进的相似度方法-基于关键词信息与基于知网相结合的方法 .252.6 实验 .252.6.1 算法中特定值的确定 .252.6.2 实验步骤 .262.6.3 结果分析 .372.7 本章小结 .37第 3 章 文本库中的答案抽取技术 .38教学系意见:系主任: (签名)年 月 日