收藏 分享(赏)

信息检索技术的现状与发展.ppt

上传人:hyngb9260 文档编号:8267194 上传时间:2019-06-17 格式:PPT 页数:54 大小:2.46MB
下载 相关 举报
信息检索技术的现状与发展.ppt_第1页
第1页 / 共54页
信息检索技术的现状与发展.ppt_第2页
第2页 / 共54页
信息检索技术的现状与发展.ppt_第3页
第3页 / 共54页
信息检索技术的现状与发展.ppt_第4页
第4页 / 共54页
信息检索技术的现状与发展.ppt_第5页
第5页 / 共54页
点击查看更多>>
资源描述

1、信息检索技术的现状与发展,2,主要内容,信息检索的概念(Information Retrieval, IR) 信息检索的基本方法 基于内容的检索 布尔模型 向量空间模型 概率模型 基于链接的检索 信息检索系统的性能评测 信息检索的未来发展,3,1. 信息检索(IR)的概念,文档检索,4,续,文档检索定义为在有用的自由文本中寻找与用户查询相匹配的状态的过程; Document Retrieval is defined as the matching of some stated user query against useful parts of free-text records.Donna

2、Harman et al. , 1996, Document Retrieval, in Survey of the State of the Art in Human Language Technology,5,续,信息检索(IR) 广义上说,IR是指将信息按照一定的方式组织和存储起来,并能根据用户的需求查找出其中相关信息的过程。 “存”主要指面向来自各种渠道的大量信息资源而进行的高度组织化的存储; “取”要求面向随机出现的各种用户信息查询请求进行高度选择性的查找,并且强调查找的快速与便利性。 狭义的信息检索一般仅指“取”的过程。对信息用户而言,后者更为重要。,6,文档检索与IR区别,信息源

3、数据不同 结构化的数据 ( e.g. relational database ) 半结构或无结构化的数据 ( e.g. free text, web page, etc. ) 查询方式不同 采用规则表达式的方法 ( e.g. SQL ) 采用自然语言的方法 ( e.g. “航空母舰的发展历史” ) 查询需求不同 面向专家的系统 面向普通用户的系统,7,IR需求的发展,互联网信息的快速膨胀 1990互联网出现; 1995.11 有 50 million 个网页; 1997.12 有 320 million个网页; 1999.2 有 800 million个网页; 2000 有 1 billion

4、个网页; and growing every day now信息表现形式的变化 信息存储介质的变化 : hardcopy electronic device 数据访问形式的变化:online data online information service,8,IR系统的一般模式,9,Web 检索的一般模式,10,2. 信息检索的基本方法,在信息检索中,中心问题是如何判断一篇文档是否与用户的查询条件相关。通常方法是设计一个评分函数(即相似性计算函数),对检索过的文档进行评分,然后再根据评分的高低对这些文档进行排序。评分函数是信息检索系统是否获得成功的关键因素之一。,11,续,根据对相关文档判定方

5、法的不同,信息检索模型至少可以分为以下四类经典模型: (1)布尔模型(派生出:MMM模型、Paice模型、P-范数模型); (2)向量空间模型(派生出:广义向量空间模型、潜在语义索引模型); (3)概率模型(派生出:推理网络模型); (4)语言模型方法Ponte,1998(派生出:HMM模型、统计翻译模型、风险最小化框架模型、相关模型)。,12,2.1 布尔模型,查询表达式:由逻辑算子AND, OR, NOT连接若 干“项目”(Term)构成; e.g. 1) “飞碟”2) “飞碟”AND “小说”3) “飞碟”AND (“中国”OR (NOT “科幻小说”)检索/匹配:返回值=1,表示文档符

6、合 User Query要求返回值=0,表示文档不符合User Query要求,13,布尔检索示例,14,真值表(Truth Table),15,布尔检索的特点,“飞碟”AND “小说”:只能检索出D4,无法显现D1,D2,D3的差异 “飞碟”OR “小说”:可以检出D1,D2,D4,但无法显现它们的差异 即:页面之间的重要性无法表示。,16,扩展的布尔检索(Extended Boolean Model),目的:为了克服布尔模型查询结果的无序性; 思想:将非此即彼的匹配方式改为计算相似度(Similarity);将所检索文档信息中索引项与用户查询表达式进行相似度计算,按相关的优先次序排列查询结

7、果; 常见:MMM模型、Paice模型、P-norm模型,17,续,对于Term1 OR Term2形式Query,相似度公式为:对于Term1 AND Term2形式Query,相似度公式为:,x表示Term1在文档dj中的重要程度(0,1) y表示Term2在文档dj中的重要程度(0,1),18,相似度计算示例,19,P-norm模型,思想:将上述只包含两个项目(Term)的查询式的相似度计算进一步拓展为包含m 个项目的查询式的相似度计算。 补:几种常用的向量范数 1. 向量的范数,20,续,2. 向量的1-范数3. 向量的2-范数4. 向量的p-范数,21,续,xm表示第m 个项目在文档

8、 d 中的重要性度量; 1p p表示项目间逻辑关系严格的程度(degree of strictness),取值为1最松,取值为无穷大最严 p=+ p-norm模型等同于经典的布尔模型; 当p较低时,AND式中的一个权值较低的项会使总体值大大降低;OR式中的一个权值较高的值会使总体值大大提高。,22,2.2 向量空间模型,思想: 文档D和查询Q(统称为文本)都可用向量表示 检索过程就是计算文档向量与查询向量之间的相似度 根据相似度值的大小,对检索结果进行排序 根据检索结果反馈意见,作进一步的相关检索(Relevance feedback),23,从文本到向量空间(vector space),24

9、,文档的向量表示,假定有三个项目: “葡萄”,“美酒”,“夜光杯” 假定以项目在文本中的出现次数为项目的权值,25,计算向量之间的相似度,向量间相似程度的不同度量方法 Inner product (内积) Cosine coefficient(余弦系数) Dice coefficient: (掷骰子系数) Jaccard coefficient(杰卡德系数),在上面的例子中,如何度量q 跟 d1 还是 d2 更相似些?,26,余弦系数:相似程度的度量方法之一,27,余弦系数计算示例,28,索引项权值的计算(Term Weight),权值的直观含义: 一个项目对于一个文本的重要程度: 即一个项目

10、在多大程度上可以将这个文档与其他文档区别开 计算权值的两种简单方式: (1)项目出现/不出现:1或0 (2)项目出现的次数:0,1,2, 需要更好的权值计算方法,29,tf.idf 加权法,tf.idf加权法(Term Frequency(项频率) Inverse Document Frequency(逆向文档频率)) Term frequency:termi 在文档dj中的出现次数,记做tfi,j tfi,j 越高,意味着termi 对于文档dj 就越重要如:一篇谈论乔丹的文章,可以预期“乔丹”、“飞人”等词的tf值会比较高; 但:该篇文章中还有“篮球”这个词,它出现的次数也很高,是不是这个

11、词对这篇文章也很重要呢?,30,tf.idf 加权(续),Document frequency:含有termi 的文档的数量,记做dfi dfi 越高,意味着termi 在衡量文档之间相似性方面作用越低,(大部分文档都包含,就没有特色了)。 比如“的”的df值肯定非常高,因此不具有区别性,这类词称为“非焦点词”;在前面的例子中,如果该篇谈论乔丹的文章是出自于“篮球天地”这本期刊,显然该期刊中有很多篇文章都含有“篮球”这个词,这样,尽管“篮球”这个词在该篇文章中的tf值很高,但对该篇文章的唯一性方面没有提供什么帮助。,31,tf.idf 加权(续),Inverse document freque

12、ncy:跟dfi 形成“反比关系”, idfi 值越高,意味着termi对于文档的区别意义越大. 定义:式中:N为全部文档的数量。 如果一个项目仅出现在一个文档中,则dfi =1,因此,idf=logN,取得最大值;即对区分文档作用最大; 如果一个项目出现在所有文档中,则dfi =N,因此, idf= log1 = 0,取得最小值,即对区分文档作用最小。,32,tf.idf 加权(续),索引项加权:给那些经常出现在一个文档中,而不常出现在其他文档中的项目以更高的权重,即让“特别的词”从“一般的词”中凸现出来。 在这个基本精神指导下,出现了许多不同的加权公式,33,tf.idf 加权示例,34,

13、tf.idf 加权示例(续),35,Dice coefficient: (掷骰子系数),其中:X=(x1, x2, , xt) , Y=(y1, y2, , yt) 为两向量,t为其维度。,36,Jaccard coefficient(杰卡德系数),其中:X=(x1, x2, , xt) , Y=(y1, y2, , yt) 为两向量,t为其维度。,37,2.3 概率模型,检索问题即求条件概率问题 If Prob(R|di, q) Prob(NR|di, q) then di 是检索结果,else di 不是检索结果,38,续,文档与查询条件的相似性计算是基于概率排序原理,即通过估计文档与用户

14、查询条件的相关概率对文档集合进行排序。 概率模型的特点是它以文档与查询条件相关的概率对文档进行降序排列,以期待得到最好的检索性能,缺点: (1)需要假定初始的相关和不相关文档集合; (2)没有考虑文档内部索引检索词的频率信息,检索词的权重值是二元的; (3)假定索引检索词是互相独立的。,39,续,40,2.4 基于链接的检索,对于搜索引擎,除了可以利用页面本身的内容外,还可以利用的资源就是链接,Google就是采用这种方式取得成功的例子,它采用了Brin与Page发明的链接价值计算算法。 Google自称利用该技术获得了极大的成功; 百度自称利用自有的类似技术也获得了极大成功。,41,续,42

15、,2.5 我们的一点工作,基于内容与链接的检索模型,43,续,44,续,计算结果: (1)计算从查询到各页面转移概率(基于内容或其它); (2)计算从页面1页面2的概率(基于链接); (3)对所有页面排序得到相对于查询Q的重要性队列,反馈给用户。,45,3. 检索系统性能的评价,(1)部分A:表示能够被检索系统检索到,但经检查并不是与查询相关的页面; (2)部分B:表示能够被检索系统检索到,经检查确实是与查询相关的页面; (3)部分C:表示不能够被检索系统检索到,但确实是与查询相关的页面; (4)部分D:表示除上述说明以外的所有页面。,46,续,Ret:指检索系统对于特定的查询命题能够检索出的

16、页面集合; Rele:指检索系统中与特定的查询命题相关的全部的页面集合。,47,3.1 TREC评测,Text Retrieval Conference http:/trec.nist.gov/ 组织者 NIST(National Institute of Standards and Technology), 美国政府部门 DARPA(Defense Advanced Research Projects Agency), 美国军方 1992 (每年一届) 大测试集-测试语料主要来源:LDC语料 自动评估与人工评估相结合,完全公开的评估体系和软件系统 以评估促进研究成果实用化,48,如 WT10

17、g,在该数据集中,包含有: (1) 页面信息:1692096个页面,每个页面定义了一个名字,该名字在整个测试集中是唯一的; (2) 链出信息:全部含有链出链接(或称为出度大于0)的页面,共有1,295,841个页面包含有链出链接,其余的都是Dangling Page; (3) 链入信息:所有页面的链入信息,有1,532,012 页面具有链入信息,共有Lin = 8,062,875个链接。,49,续,(4) 模拟查询 (5) 相关性判断 (6) 页面内容 (7) 其他信息。,50,3.2 其它评测,鉴于TREC 的巨大成功,出现了众多评测方案,甚至其他研究领域的评测,如: 跨语言检索评测会议NT

18、CIR 跨语言评价论坛CLEF 机器翻译评测TC-STAR 等 国内比较有影响的是: 863 评测 全国搜索引擎和网上信息挖掘会议(SEWM)等。,51,4. 小结,目前比较成熟的正在使用的IR系统并没有用到太多的语言学知识; 理想的检索系统是所谓的语义层(概念层)的检索系统,要求IR系统对文档库中的文档,用户的查询做到“真正的理解”,而不仅是“认识”; 从IR系统向QA(Question-Answer)系统发展。,52,续,汉语信息检索的特殊问题 汉字编码标准不统一:GB, BIG5, Unicode 按字索引/ 按词索引? 文本分词问题 不分词:检索“中将” 误检 “地铁中将可使用移动电话” 分词:检索“旱灾” 漏检 “抗旱、受旱地区” ,53,Thank you!,54,Q&A?,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报