收藏 分享(赏)

智能问答-(2).pptx

上传人:weiwoduzun 文档编号:5696383 上传时间:2019-03-13 格式:PPTX 页数:55 大小:2.66MB
下载 相关 举报
智能问答-(2).pptx_第1页
第1页 / 共55页
智能问答-(2).pptx_第2页
第2页 / 共55页
智能问答-(2).pptx_第3页
第3页 / 共55页
智能问答-(2).pptx_第4页
第4页 / 共55页
智能问答-(2).pptx_第5页
第5页 / 共55页
点击查看更多>>
资源描述

1、智能问答智能助手是如何练成的4.1 概述 如何变得更聪明? 随着大数据时代的到来,越来越多的人类知识已经被数据化。随着互联网和搜索引擎技术的发展, 大数据 已经做到了 上有天文,下有地理 4.1 概述“ 王府井有什么川菜馆? ”“ 有家某某餐厅很不错(餐厅名称),位置就在王府井百货大楼隔壁(地址) ” 。智能问答技术( Question Answering) 智能问答技术就是对于用户提出的问题予以理解,并找到答案回答给用户。 例如: 苹果公司 2011年推出的手机应用 Siri 是一个基于问答技术的助手。 类似的手机助手还有搜狗语音助手,百度的 小度机器人 等 另外值得一提的是一些以对话为目的

2、的系统,可以表现为 你有来言,我有去语 的自然交互方式,但其应答的目的不同。如(微软的聊天机器人 “ 小冰 ” )专家系统( Expert System) 20世纪 80年代十分流行。在我国已有一些中医诊疗软件是基于这项技术编写的。 专家系统依赖于精确组织的知识结构(例如:昆虫有六条腿、哺乳动物有脊椎等),这又称为本体(Ontology) 从人类的思维上讲,对于问题的理解是基于一系列推理进行的,通过推理匹配到现有知识,进而做答。 例如: “ 蜜蜂有几条腿? ” 昆虫 6条腿 近年来利用互联网语料自动挖掘实体关系、知识图谱的思路为这项技术注入了新鲜的血液。在之后也会看到结构化的知识仍然是问答系统

3、的重要知识来源之一。将问答看成是检索任务 近年来比较流行的问答系统可以说是围绕 “ 检索 ” 展开的 过程:理解问题、 在合适的知识库中检索 、筛选检索的答案并整理输出。 不同之处:用户问的不再是若干关键词,而是整句话;系统回复的也不再是若干包含关键词的文档,而是更精确的答案 答案来源:知识也多种多样,既有结构化的信息又有非结构化的信息。因此问答系统的难度更大。2011年 , IBM公司推出了名为 Watson的人工智能系统。 Watson参加 综艺节目危险边缘( Jeopardy)来测试它的能力,这是该节目有史以来第一次人与机器对 决。 Watson打败了最高奖金得主布拉德 鲁特尔和连胜纪录

4、保持者肯 詹宁斯。Watson在比赛节目中按下信号灯的速度始终比人类选手要快,但在个别问题上反映困难,尤其是只包含很少提示的问题。对于每一个问题, Watson会在屏幕上显示 3个最有可能的答案。Watson 4TB磁盘内,包含 200万页结构化和非结构化的信息,包括维基百科的全文。在比赛中 Watson没有链接到互联网。4.2问答系统的主要组成 与进行提问 思考 回答的思维过程相近。 1、问题理解 2、知识检索 3、答案生成问题理解 输入:自然语言 例解决的问题:理解问题问的是什么(词语定义、查询某项智力知识、检索周边生活信息、某件事发生原因) 如:问:北京的温度是多少? 太阳的温度是多少

5、?知识 检索 理解问题后,通常会组织成为一个计算机可理解的检索式。具体检索式的格式则有知识库的结构决定。 例如:若采用搜索引擎作为知识来源,那么理解后的问题就可以是若干关键词;生成 “ 北京 ”“ 面积 ” 这两个关键词 若 用百科全书作为知识来源,那么问题就应组织维一个主词条及其属性。在 “ 北京市 ” 这个词条中,检索 “ 面积 ” 这一属性信息。答案 生成 通常,检索到的知识并不能直接作为答案返回。因为最精确的答案往往混杂在上下文档中,我们需要提取其中与问题最相关的部分。 例如:利用搜索引擎搜索到若干相关文章,我们需要从这些文档的大量内容中提取核心段落、句子、甚至词语; 百科全书的知识结

6、构可能与问题并不能一一对应; 例如: “ 北京面积有多大 ” ,我们可以取最新数值作为答案;但如果加上限定词 “ 建国初期 ” ,则还需要针对这些约束条件选取最佳答案。问答系统结构图 以上概述是关于问答系统的基本流程,但根据知识组织形式不同,问答系统还有多种不同的技术 细节。4.3文本问答系统 一、问题理解 核心:理解用户在 “ 问什么 ” 1):理解问的是什么事情; 2):理解问题是什么类型; 由于一个问题可能有多种不同的问法,问答系统还需要进行适当的扩展,以便找到所有相似的问法。4.3.1问题理解 1、问题理解的内容 “ 时间 ”“ 地点 ”“ 人物 ” 有 的研究者把问答系统的目标定义为

7、解答这样一个问题:谁( Who)对谁( Whom)在何时 (When)何地 (Where)做了什么 (What),是怎么做的 (How),为什么这样做 (Why)?研究者们总结了提问的目标和要素,整理出了若干分类体系( taxonomy),既有平面分类又有层次分类。问题理解的 内容 分类 体系:、 UIUC分类体系:这是一个双层的层次结构体系,主要针对事实类问题,设计了 6个大分类和 50 个小分类。1、缩写( Abbreviation):缩写或缩略形式。2、实体( Entity):指问题的答案是某种事物,例如:动植物、颜色、货币、食物、语言、体育、科技等;4.3.1问题理解3、描述( Des

8、cription):询问某个东西的定义、描述,某件事的原因等。4、人物( Human):询问某个、某些人,人物的称号描述等。5、地点( Location):包括城市、国家、省份、州、山脉等。6、数值( Numeric):包括数目、日期、距离、次序、温度、价钱等。问题理解的内容、 Moldovan 等人的分类体系:也是双层次的层次结构体系,但第一层主要针对问句形式(疑问词),第二层针对答案的类别。问题理解的内容 单层平面分类如( Radev, et al 2005)等设计了 17个类别,包括人物、数字、描述、原因、地点、定义、缩写、长度、日期等。 根据问题所属的垂直领域(主题)进行分类,如:天气

9、类、导航类、餐馆类等。这样做的目的是采用特定垂直领域的功能来处理相应问题例如:天气问题则交由天气数据接口回答,导航类问题则切换至导航算法处理。问题理解 2、问题理解的方法 理解 问题即从自然语言提问的问题中提取出关键成分的过程(主要涉及自然语言处理的语义分析技术) 模板匹配方法和自然语言处理技术模板匹配方法 优势在于逻辑清晰直观,易于理解和编写。 劣势也显而易见:对于千变万化的自然语言不容易灵活适应 直到用户编写了模板。 例如:对于菜谱查询,人们的描述方法会有很多:红烧肉怎么做,怎么做红烧肉,红烧肉的烹制方法是什么,红烧肉的制作过程等等。 实际应用中还会涉及开头和结尾的虚词,例如: “ 怎么做

10、呀 ”“ 是什么呀 ” 以及 “ 请问 ”“ 我想知道 ”自然语言处理 技术 优势:可以更灵活地分析不同的问句,特别是基于机器学习方法在大数据(大规模语料)上训练出的语义分析模型,通常可以较准确地分析出句子及其各类变种。 劣势:当出现某些词,某些句型比较罕见时,则模型任然可能分析出错误的结果,影响后续步骤;并且不够直观,不容易干涉机器自动处理的结果,一旦出错,我们甚至不知道如何修改;要求技术储备较多,门槛高,未必适合小规模系统的快速开发和部署。问题扩展 自然语言的复杂性增加了问题理解的难度 句式 变化、同义词等都提高了理解的难度,对于不同的问题理解方法和知识组织形式,有的可能更适应句式变化,有

11、的可能更易于理解词义。 通常我们还需使用其他的自然语言分析工具来消除句子歧义,并针对相同意思扩展原始问题。问题扩展 例如: “ 谁是贝克汉姆的老婆? ” 和 “ 小贝妻子叫什么 ” 在词的级别上可以借助 同义词词林 、知网这样的同义词词典及词语知识图谱可以扩展我们的词库,或者从语料中学习新词的词义 例如: “ 贝克汉姆 ” 别名 “ 小贝 ” ;在句子级别上可以借助句子复述技术( Paraphrase)可以识别同一含义的不同表达方式,如上句例子中 “ 谁是 +某人关系 ” 与 “ 某人物关系+叫什么 ” 是同一含义。4.3.2知识检索 知识库:人工整理的结构化数据或非结构化的方式存储 在大数据

12、时代,结构化的数据少而精,非结构化的数据多而全。可以利用这两方面优势。 1、 非结构化 信息检索 2、结构化信息检索1、非结构化 信息检索 非 结构化信息:通常是指没有或很少标注的整篇文档组成的集合。在这些文档中,信息蕴含在文本中,并没有组织成实体、属性这样的结构。这时可以借助信息检索技术挖掘与问题相关的信息。 最直观的理解是搜索引擎。 问题提取关键词 查询索引 筛选提取 最终答案 Siri:输入句子无法识别 搜索引擎 列出文档,用户自行选择1、非结构化信息检索 在问答系统中,如果一篇文档包含与关键词相关的答案,那么这些关键词在文档中的位置应当较为靠近。常用的方法是以段落为单位衡量,计算连续的

13、少量段落内是否出现了所有的关键词。 类似地,在挑选出的多篇文档的多个段落中,也要找出更可能包含答案的段落或局部文本,因此也要对这些文本块进行排序。 在圈定文本范围时,通常只取一个最小的窗口,使得窗口内的文本包含尽可能多的问题关键词。 这个局部文本块称为 “ 段落窗口 ” ( paragraph window)。问答系统中的经典作法是采用标准基数排序( Standard Radix Sort)算法。标准基数排序( Standard Radix Sort)算法 排序指标通常包含以下三个因素: 相同顺序的关键词数目 最 远关键词间距 未 命中关键词数经历这一步骤,检索到的文档被提炼为若干文本块,这便于之后答案生成步骤的答案提取,使问答系统的回答更精准。2、结构化 信息检索 主要侧重于一个实体( entity)的各个属性( attribute)以及他们之间的关系。 主要的结构化知识有以下类别: 百科 类知识 关系 类知识:两个事物 A、 B及它们之间的关系 R,即三元组( A,R,B)。可以理解为问答领域中的一些事实类问题。例如:北京的面积是多少?(北京,面积,16801平方公里)。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报