收藏 分享(赏)

第二章--信息检索模型.ppt

上传人:无敌 文档编号:968455 上传时间:2018-05-09 格式:PPT 页数:86 大小:1.35MB
下载 相关 举报
第二章--信息检索模型.ppt_第1页
第1页 / 共86页
第二章--信息检索模型.ppt_第2页
第2页 / 共86页
第二章--信息检索模型.ppt_第3页
第3页 / 共86页
第二章--信息检索模型.ppt_第4页
第4页 / 共86页
第二章--信息检索模型.ppt_第5页
第5页 / 共86页
点击查看更多>>
资源描述

1、第二章 信息检索模型,举例,百度为您找到相关结果493,000个,?,如何找到与查询相关的文档?如何将与查询相关的文档进行排序?,信息检索的原理,文档集合,匹配与相似度排序,特征化表示,特征化表示,用户需求,系统对文档集合与用户需求的匹配与相似度排序,数学工具-数学模型,逻辑视图匹配规则,信息检索模型的定义,信息检索模型:是描述文档和用户查询的表示形式以及它们之间的关系的框架。表示为一个四元组:D, Q, F, R(dj, qi),信息检索模型取决于:从什么样的视角去看待查询式和文档基于什么样的理论去看待查询式和文档的关系如何计算查询式和文档之间的相似度,信息检索模型的分类,结构化文本模型,基

2、于集合论,文本检索模型,非重叠链表模型邻近节点模型,布尔模型向量模型概率模型,扁平式模型结构导向模型超文本模型,基于本体的模型,经典模型,浏览模型,知识检索模型,扩展布尔模型模糊集合模型,广义向量模型潜语义标引模型神经网络模型,统计语言模型推理网络模型信任网络模型,基于代数,基于概率论,经典模型,布尔模型(Boolean Model),布尔模型描述,文档表示文档D被表示为标引词的集合标引词(Index Term)权值(Weight)查询表示查询式Q被表示为标引词的布尔组合,用“与、或、非”连接起来,并用括弧指示优先次序;,布尔模型描述,匹配F一个文档当且仅当它能够满足布尔查询式时,才将其检索出

3、来检索策略基于二值判定标准算法R根据匹配框架F判定相关,示例,标引词,查询:“飞碟” and “小说”,检 索 匹 配,返回文档D4,文档与查询的相似度定义,qDNF表示查询布尔表达式的析取范式;查询q= t1 (t2 t3)qDNF= qDNF=(1,1,0) (1,0,0) (1,1,1)qF表示qDNF的任意合取分量;,(t1 t2 t3),( t1 t2 t3 ),(t1 t2 t3),pi(dj)表示标引词ti是否在文档dj中出现的值 ;pi(qF)查询合取分量qF中标引词ti是否出现的值 ;sim(dj,q)表示文档和查询的相似度,文档与查询的相似度定义,示例,文档集包含两个文档:

4、文档1:a b c f g h文档2:a f b x y z 用户查询:文档中出现a或者b,但一定要出现z。 返回与用户查询相关的文档。,布尔模型的特点,简单、易理解、易实现 ,有效识别包含了一个某个特定标引词的文档;不易全面反映用户需求;不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回;很难对输出进行排序;(本质)很难进行自动的相关反馈。,经典模型,向量空间模型(Vector Space Model),模型概述,Gerard Salton在上世纪60年代提出;成功应用于SMART( System for the Manipulation and Retrieval of Text

5、)文本检索系统;目前仍是信息检索技术研究的基础。,Gerard Salton(1927-1995),现代搜索技术之父 向量空间模型的创始人 开发SMART向量空间模型IR系统,模型原理,文档D和查询Q均被看成是由标引词构成的向量;检索过程就是计算文档向量与查询向量之间的相似度;可以根据相似度值的不同,对检索结果进行排序;可以根据检索结果,进一步做相关检索(Relevance feedback),模型构建的主要步骤,(1)文档向量的构造;(2)查询向量的构造;(3)查询与文档的匹配函数的选择;(4)相似度阈值的确定。,模型中的问题,怎样确定文档中哪些词是重要的词?(标引词)怎样确定一个词在某个文

6、档中或在整个文档集中的重要程度?(权重)怎样确定一个文档和一个查询式之间的相似度?,标引词的选择,若干独立的词项被选作标引词(index terms) or 词表vocabulary标引词代表了一个文档中的重要词项计算机科学图书馆中的标引词应该是哪些呢?,标引词的选择,这些标引词是不相关的 (或者说是正交的) ,形成一个向量空间(vector space)实际上,这些词项是相互关联的,词项的权重,根据标引词对文档表示的贡献大小来确定权重Tfik:标引词tk在文档di中出现的频率(重要)标准化: Tfik= Tfik / maxi Tfik df k:文档集D中出现标引词tk的文档数目idfk:

7、标引词tk的逆文档频率(区分文档能力) idfk = log2 (N/ df k) (N: 文档集中文档总数)Wik :词项tk在文档di中的权重 Wik= Tfik idfk,示例,查询式的词项权重,一个自然语言查询式可以被看成一个文档查询式:“有没有周杰伦的歌?” 会被转换为:查询式: “请帮我找关于俄罗斯和车臣之间的战争以及车臣恐怖主义首脑的资料” 会被转换为:,由标引词构成向量空间,2个标引词构成一个二维空间,一个文档可能包含0, 1 或2个标引词di = 0, 0 (一个标引词也不包含)dj = 0, 0.7 (包含其中一个标引词)dk = 1, 2 (包含两个标引词)类似的,3个标

8、引词构成一个三维空间,n个标引词构成n维空间一个文档或查询式可以表示为n个元素的线性组合,从文本到向量空间,图示,举例:D1 = 2T1 + 3T2 + 5T3D2 = 3T1 + 7T2 + T3Q = 0T1 + 0T2 + 2T3,T3,T1,T2,Q = 0T1 + 0T2 + 2T3,D1和D2哪一个更接近Q?怎样衡量相似程度?,相似度计算 内积(Inner Product),文档D 和查询式Q 的相似度可以通过内积进行计算:sim ( D j , Q ) = (wk,q wk,j)wk,q是查询式Q中词项k 的权重,wk,j 是文档dj 中的词项k 的权重,相似度计算 内积(Inn

9、er Product),对于二值向量, 内积是查询式中的词项和文档中的词项相互匹配的数量例:D = 1, 1, 1, 0, 1, 1, 0Q = 1, 0 , 1, 0, 0, 1, 1sim(D, Q) = 3向量的大小 = 词表的大小 = 70 意味着某个词项没有在文档中出现,或者没有在查询式中出现,相似度计算 内积(Inner Product),对于加权向量, 内积是查询式和文档中相互匹配的词项的权重乘积之和 例:D1 = 2T1 + 3T2 + 5T3 ;D2 = 3T1 + 7T2 + T3 ; Q = 0T1 + 0T2 + 2T3sim(D1 , Q) = 2*0 + 3*0 +

10、 5*2 = 10sim(D2 , Q) = 3*0 + 7*0 + 1*2 = 2,内积表示的特点,内积值没有界限对长文档有利内积用于衡量有多少词项匹配成功,而不计算有多少词项匹配失败长文档包含大量独立词项,每个词项均多次出现,因此一般而言,和查询式中的词项匹配成功的可能性就会比短文档大。,相似度计算 余弦(Cosine),文档D 和查询式Q 的相似度可以通过计算他们夹角的余弦来衡量:,sim ( D j , Q ) = cos( D j , Q )=,相似度计算 余弦(Cosine),例:D1 = 2T1 + 3T2 + 5T3 ;D2 = 3T1 + 7T2 + T3 ; Q = 0T1

11、 + 0T2 + 2T3sim(D1 , Q) =cos(D1 , Q)= =0.81sim(D2 , Q) =cos(D2 , Q)= =0.13,余弦向量度量法的特点,余弦值有界限,在0,1之间;文档向量与查询向量的夹角越小,其余弦值越大,认为文档与查询相似度越高。,示例,假设有两个文档和查询分别为:文档d1:a b c a f b a f h;文档d2:a c;查询q: a c a;标引词集合=a b c d e f g h;分别计算两个文档与查询的相似度。,向量空间模型的特点,标引词权重的算法提高了检索的性能;部分匹配的策略使得检索的结果文档集更接近用户的检索需求;可以根据结果文档与查

12、询的相似度对结果文档进行排序;标引词被认为是相互独立,会丢掉大量的文本结构信息,降低语义准确性;当有新文档加入时,必须重新计算词的权值,相似度的计算量大。,经典模型,概率模型(Probabilistic Model),模型概述,Maron和Kuhns最早在1960年提出第一概率检索模型;1976年Robertson和Sparck Jones等提出第二概率检索模型;Turtle,Fuhr和Roberston又提出了统一化模型,即第三概率检索模型。,模型原理,信息检索的过程看成是寻找理想文档集合R的特征的过程。,概率模型的理论,概率模型基于以下基本假设:文档与一个查询式的相关性与文档集合中的其他文

13、档是没有关系的,称为概率模型的相关性独立原则;文档和查询式中标引词之间是相互独立的;文档和查询中的标引词权重都是二元的; 文档相关性是二值的,只有相关和不相关两种,一篇文档要么属于理想文档集,要么不属于理想文档集。概率模型也被称为二值独立检索模型(Binary Independent Retrivel,BIR)。,查询式与文档的相似度定义,查询和文档的表示文档d可以表示为d(x1,x2,xn),其中xi表示标引词ti在文档中的权值;查询式q是标引词项集合的子集;设R是相关文档集合(初始的猜测集合), 是R的补集(不相关文档的集合) 表示文档dj和查询式q相关的概率; 表示文档dj和查询式q不相

14、关的概率;,贝叶斯定理,简化,标引词,独立,取对数,简化,初始化方法,对我们的初始估计R集合相关的概率赋予初始值:ni为包含标引词ti的文档数目;N为集合中的文档总数。,改进,根据已检索出的文档中标引词ti的分布来估计根据未检索出的文档都是不相关的来估计V表示概率模型初步检出并经过排序的文档子集;Vi表示V中包含标引词ti 的文档集合。这一过程可以递归重复,概率模型的特点,有严格的数学理论基础;可以采用相关反馈原理;可以根据文档与查询相关的概率对文档进行排序;标引词权值是二值的;标引词被认为是相互独立;开始时需要将文档分为相关和不相关的两个集合,一般来说很难或准确率很低。,集合论模型,模糊集合

15、模型(Fuzzy Set Model),模糊集合理论,模糊集合的定义: 若对论域(研究的范围)U中的任一元素u,都有一个数A(u)0,1与之对应,则称A为U上的模糊集,A(u)称为元素u对模糊集合A的隶属度。当u在U中变化时,A(u)称为集合A的隶属函数。隶属度A(u)越接近于1,表示u属于A的程度越高,隶属度越接近于0,表示u属于A的程度越低。,示例,假设U =0,1,2,.,9 为代表一个家庭中,所可能拥有子女个数的集合,令三个模糊集合定义为A:子女数众多,B:子女数适中,C:子女数很少,其归属函数的定义如表所示。,模糊集合模型的原理,将每一个标引词定义成一个模糊集合,每篇文档在这个集合中

16、都有一个隶属度,即用隶属函数表示每一篇文档与标引词相关的程度,其取值通常小于1。检索时通过匹配运算,计算每篇文档在查询中的标引词所定义的模糊集合中的隶属度,并根据隶属度的大小对文档排序。,模糊集合模型的构建,1.标引词关联矩阵关联矩阵用Ct*t表示,矩阵元素ci,l表示标引词ti、tl之间的关联因子,计算公式如下: Ci,l = ni,l/ (ni + nl ni,l)ni、nl分别表示文档集合D中含有标引词ti和tl的文档数,而ni,l表示D中同时含有标引词ti、tl的文档数。,模糊集合模型的构建,2.文档的隶属度定义与标引词ti相关的模糊文档集合为Di,对于任一文档dj,其隶属于集合Di的

17、隶属度值可以通过下式计算: i,j = 1 - (1- ci,l )3.用户查询表示用户查询表示采用布尔逻辑式表达,需将布尔表达式转换为等价的析取范式形式。,示例,查询 ,其析取范式为:用CCi表示第i个合取分量,则文档dj的隶属度计算如下:,Da,Db,Dc,CC3,CC2,CC1,Dq=CC1+CC2+CC3,模糊集合模型的特点,保留布尔模型结构化特点,可对检索结果按照相似度进行排序,并控制输出结果数量;不对查询式中的标引词赋予权值。,集合论模型,扩展布尔模型(Extended Boolean Model),扩展布尔模型,文档和查询的向量表示 假定标引词集合中只包含两个标引词t1和t2,如

18、果标引词ti在文档D中出现,则标引词ti在文档中的权值为1,否则为0。 若t1和t2允许赋予权值,且权值范围为0,1。权值越接近1,说明该词越能反映文档的内容,反之,不能反映文档的内容。,扩展布尔模型,t1,t2,扩展布尔模型,相似度计算:对于析取查询Q= t1 t2,O(0, 0)点指出了一种最不理想的情形,即两个标引词均不在文档中出现,则按照距离点O(0, 0)的距离升序排序检索结果,相似度计算公式为:,扩展布尔模型,相似度计算:对于合取查询Q= t1 t2 ,C(1,1)点最理想,即两个标引词同时在文档中出现,按照距离点C(1,1)的距离降序排列检出结果,相似度计算公式为:,扩展布尔模型

19、特点,继承了传统布尔操作的优点体现了加权的特点控制检索结果的数量和排列顺序丰富了查询的内涵灵活设置参数来调整检索过程,代数模型,广义向量空间模型(Generalized Vector Space Model),广义向量空间模型的定义,假定集合中的标引词的集合为t1,t2,tn,wi,j是标引词ti在文献Dj中的权值,如果所有的权值wi,j都是二值的,n个标引词生成2n个互不相同的最小项,每个最小项中只能出现一个标引词ti,则在文档内部同时出现的所有可能的模式可以用2n最小项的集合来表示。,广义向量空间模型的定义,最小项mi的集合定义为如下形式: m1 = (0,0,0) m2 = (1,0,0

20、) . . . m2n = (1,1,1)函数gi(mj)返回最小项mj中的标引词ti的权值0,1。,代数模型,潜语义标引模型(Latent Semantic Indexing Model),潜语义标引模型的提出,自然语言文本中的词汇(术语)具有一词多义和一义多词的特点。由于一词多义, 基于精确匹配的检索算法会报告许多用户不要的东西:处理什么地方处理旧家具?你去把那个叛徒处理了处理自然语言很难由于一义多词, 基于精确匹配的检索算法又会遗漏许多用户想要的东西: “互联网”,“万维网”,“因特网”,“国际互联网”等,词汇-文档矩阵,将自然语言中的每个文档视为以词汇为维度的空间中的一个点,认为一个包

21、含语义的文档出现在这种空间中,它的分布绝对不是随机的,而是服从某种语义结构。同样地,也将每个词汇视为以文档为维度的空间中的一个点。文档是由词汇组成的,而词汇又要放到文档中去理解,体现了一种“词汇文档”双重概率关系。,潜语义标引模型的构建,词文档矩阵的构建文档库是用词文档矩阵Amn来表示的。m为文档库中不同词的个数,一个词对应矩阵A中的一行;n表示文档库中的文档数,每个文档对应矩阵A中的一列;aij表示第i个词在第j个文档中出现的频率TF。,第一个词在各个文档中出现的频率,第一个文档中各个词出现的频率,潜语义标引模型的构建,奇异值分解SVD(降维)A可以分解为三个矩阵T0, S0, D0T(D0

22、的转置)的积.这种分解叫做单值分解(singlar value decomposition),简称SVDA=T0*S0*D0T降维把S0的m个对角元素的前k个保留, 后m-k个置0, 我们可以得到一个新的近似的分解: Xhat=T*S*DT,代数模型,神经网络模型(Neural Networks Model),ta,tb,tc,tn,tc,tb,ta,t1,dN,dj+1,dl,dj,查询词语,文档词语,文档,神经网络模型的构建,信息检索处理过程,1.由第一层的查询词语结点ta、tb和tc分别向对应的第二层文档词语结点发出信息;2.文档词语结点ta、tb和tc又产生信息并向第三层的相关文档结点

23、传送;3.文档结点在收到文档词语结点发送的信号后产生新的信号并返回到文档词语结点;4.过程3将会重复进行直到信号不断衰减而终止。,信号强度的确定,提问结点向文档词语结点发送信号,其作用强度分量由向量模型中提问词的权值派生出来:文档词语结点向文档结点传递信号,其作用分量由向量模型中文档词语的权值派生出来:,信号强度的确定,信号传递第一阶段结束后,与文档dj相关联的文档结点的活跃值可以表示为:,概率模型,推理网络模型(Inference Networks Model),贝叶斯(Bayesian)网络,贝叶斯网络可以看作是一个有向无环图(Directed Acyclic Graph,DAG)。图中的

24、结点一般用来表示随机变量,有向边用于描述随机变量之间的因果关系,而因果关系影响力的大小(或权值)则用条件概率来表示。,贝叶斯(Bayesian)网络,贝叶斯网络可以用联合概率分布的方式表达结点之间的依赖关系:P(x1)称为网络的先验概率,它由具体应用系统的已有知识和语义来定义或决定;其余各项则称为条件概率。,推理网络模型,78,文献Dj,t1,t2,ti,tn,Q,Q2,Q1,用户查询I,and,OR,OR,概率模型,信任度网络模型(Belief Networks Model),信任度网络模型,文档D1,t1,t2,ti,tn,查询Q,文档Dj,文档Dn,结构化文本模型(Structured

25、Text Retrieval Model),基于非重叠链表模型(Non-overlapping List Model)基于邻近节点的模型(Proximal Node Model),结构化文本检索,结构化文本指和表达的思想内容相对应,在物理形式上有明显的组织结构和层次关系的文本,一般在文本信息中按照元素的包含关系加入文本的结构信息。结构化文本检索将文本中的内容信息与文档结构信息相结合的检索模型。,基于非重叠链表模型,基于邻近节点的模型,大爆炸,10,256,48234,.,.,浏览模型(Browsing Model),扁平浏览模型(Flat Browsing Model)结构导向模型(Structure Guided Model)超文本模型(Hypertext Model),浏览模型,平坦模型把文档(集)看成是一个平坦的文档空间。由于是平坦的,这种模型的导航关系不清楚; 结构导向模型提供了层次性目录式的导航模型,是一种非平坦模型; 超文本模型是由节点和链组成的非线性的信息组织网络,能够为用户提供比上两种模型更多的信息,更方便的浏览,Web是它最成功的应用。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报