网络信息获取与情报分析技术(八).ppt-道客多多

资源描述

1、1,1,本讲内容,对搜索结果排序(Ranking) : 为什么排序相当重要？词项频率(Term Frequency, TF): 排序中的重要因子 Tf-idf 权重计算方法: 最出名的经典排序方法向量空间模型(Vector space model): 信息检索中最重要的形式化模型之一 (其他模型还包括布尔模型和概率模型),提纲,上一讲回顾排序式检索词项频率tf-idf权重计算向量空间模型,3,3,排序式检索(Ranked retrieval),迄今为止，我们主要关注的是布尔查询文档要么匹配要么不匹配对自身需求和文档集性质非常了解的专家而言，布尔查询是不错的选择对应用开发来说也非常简

2、单，很容易就可以返回1000多条结果然而对大多数用户来说不方便大部分用户不能撰写布尔查询或者他们认为需要大量训练才能撰写合适的布尔查询大部分用户不愿意逐条浏览1000多条结果，特别是对Web搜索更是如此,4,4,布尔搜索的不足: 结果过少或者过多,布尔查询常常会倒是过少(=0)或者过多(1000)的结果查询 1 (布尔与操作): standard user dlink 650 200,000 个结果太多查询2 (布尔与操作): standard user dlink 650 no card found 0 个结果太少在布尔检索中，需要大量技巧来生成一个可以获得合适规模结果的查询

3、,5,5,排序式检索,排序式检索可以避免产生过多或者过少的结果大规模的返回结果可以通过排序技术来避免只需要显示前10条结果不会让用户感觉到信息太多前提：排序算法真的有效，即相关度大的文档结果会排在相关度小的文档结果之前,6,6,排序式检索中的评分技术,我们希望，在同一查询下，文档集中相关度高的文档排名高于相关度低的文档如何实现？通常做法是对每个查询-文档对赋一个0, 1之间的分值该分值度量了文档和查询的匹配程度,7,7,查询-文档匹配评分计算,如何计算查询-文档的匹配得分？先从单词项查询开始若该词项不出现在文档当中，该文档得分应该为0 该词项在文档中出现越多，则得分越高后面

4、我们将给出多种评分的方法,8,8,第一种方法: Jaccard系数,计算两个集合重合度的常用方法令 A 和 B 为两个集合 Jaccard系数的计算方法:JACCARD (A, A) = 1 JACCARD (A, B) = 0 如果 A B = 0 A 和 B 不一定要同样大小 Jaccard 系数会给出一个0到1之间的值,9,9,Jaccard系数的计算样例,查询 “ides of March”文档 “Caesar died in March”JACCARD(q, d) = 1/6,10,10,Jaccard系数的不足,不考虑词项频率，即词项在文档中的出现次数罕见词比高频词的信息量更

5、大，Jaccard系数没有考虑这个信息没有仔细考虑文档的长度因素,现代信息检索,Paul Jaccard(1868-1944),瑞士植物学家，ETH教授1894年毕业于苏黎世联邦理工学院ETH(出过包括爱因斯坦在内的21位诺贝尔奖得主)1901年提出Jaccard Index即Jaccard Coefficient概念,提纲,上一讲回顾排序式检索词项频率tf-idf权重计算向量空间模型,13,13,二值关联矩阵,每篇文档可以看成是一个二值的向量 0, 1|V|,14,14,非二值关联矩阵(词频),每篇文档可以表示成一个词频向量 N|V|,15,15,词袋(Bag of words)模型,不

6、考虑词在文档中出现的顺序 John is quicker than Mary 及 Mary is quicker than John的表示结果一样这称为一个词袋模型(bag of words model) 在某种意思上说，这种表示方法是一种“倒退”，因为位置索引中能够区分上述两篇文档这里仅考虑词袋模型,16,16,词项频率 tf,词项t的词项频率 tft,d 是指t 在d中出现的次数下面将介绍利用tf来计算文档评分的方法第一种方法是采用原始的tf值(raw tf) 但是原始tf不太合适：某个词项在A文档中出现十次，即tf = 10，在B文档中 tf = 1，那么A比B更相关但是相关

7、度不会相差10倍相关度不会正比于词项频率tf,17,17,一种替代原始tf的方法: 对数词频,t 在 d 中的对数词频权重定义如下：tft,d wt,d : 0 0, 1 1, 2 1.3, 10 2, 1000 4, 等等文档-词项的匹配得分是所有同时出现在q和文档d中的词项的对数词频之和 t qd (1 + log tft,d ) 如果两者没有公共词项，则得分为0,提纲,上一讲回顾排序式检索词项频率tf-idf权重计算向量空间模型,19,19,文档中的词频 vs. 文档集中的词频,除词项频率tf之外，我们还想利用词项在整个文档集中的频率进行权重和评分计算,20,20,罕见词项所期望的

8、权重,罕见词项比常见词所蕴含的信息更多考虑查询中某个词项，它在整个文档集中非常罕见 (例如 ARACHNOCENTRIC). 某篇包含该词项的文档很可能相关于是，我们希望像ARACHNOCENTRIC一样的罕见词项将有较高权重,21,21,常见词项所期望的权重,常见词项的信息量不如罕见词考虑一个查询词项，它频繁出现在文档集中 (如 GOOD, INCREASE, LINE等等) 一篇包含该词项的文档当然比不包含该词项的文档的相关度要高但是，这些词对于相关度而言并不是非常强的指示词于是，对于诸如GOOD、INCREASE和LINE的频繁词，会给一个正的权重，但是这个权重小于罕见词权重,2

9、2,22,文档频率(Document frequency, df),对于罕见词项我们希望赋予高权重对于常见词我们希望赋予正的低权重接下来我们使用文档频率df这个因子来计算查询-文档的匹配得分文档频率指但是出现词项的文档数目,23,23,idf 权重,dft 是出现词项t的文档数目 dft 是和词项t的信息量成反比的一个值于是可以定义词项t的idf权重:(其中N 是文档集中文档的数目) idft 是反映词项t的信息量的一个指标实际中往往计算log N/dft 而不是 N/dft ，这可以对idf的影响有所抑制值得注意的是，对于tf 和idf我们都采用了对数计算方式,24,24,idf

10、的计算样例,利用右式计算idft:,25,25,idf对排序的影响,idf 会影响至少包含2个词项的查询的文档排序结果例如，在查询 “arachnocentric line”中, idf权重计算方法会增加ARACHNOCENTRIC的相对权重，同时降低 LINE的相对权重对于单词项查询,idf对文档排序基本没有任何影响,26,26,文档集频率 vs. 文档频率,词项t的文档集频率(Collection frequency) : 文档集中出现的t词条的个数词项t的文档频率: 包含t的文档篇数为什么会出现上述表格的情况？即文档集频率相差不大，但是文档频率相差很大哪个词是更好的搜索词项？即

11、应该赋予更高的权重上例表明 df (和idf) 比cf (和“icf”)更适合权重计算,27,27,tf-idf权重计算,词项的tf-idf权重是tf权重和idf权重的乘积信息检索中最出名的权重计算方法注意：上面的 “-”是连接符，不是减号其他叫法：tf.idf、tf x idf,28,28,tf-idf小结,词项t在文档d中的权重可以采用下次计算tf-idf权重随着词项频率的增大而增大随着词项罕见度的增加而增大,29,29,课堂练习: 词项、文档集及文档频率,df和cf有什么关系? tf和cf有什么关系? tf和df有什么关系？,提纲,上一讲回顾排序式检索词项频率tf-idf权重

12、计算向量空间模型,31,31,二值关联矩阵,每篇文档表示成一个二值向量 0, 1|V|,32,32,词频矩阵,每篇文档表示成一个词频向量 N|V|,33,33,二值词频权重矩阵,每篇文档表示成一个基于tfidf权重的实值向量 R|V|,34,34,文档表示成向量,每篇文档表示成一个基于tfidf权重的实值向量 R|V|. 于是，我们有一个 |V|维实值空间空间的每一维都对应词项文档都是该空间下的一个点或者向量极高维向量：对于Web搜索引擎，空间会上千万维对每个向量来说又非常稀疏，大部分都是0,35,35,查询看成向量,关键思路1: 对于查询做同样的处理，即将查询表示成同一高维空间的

13、向量关键思路2: 按照文档对查询的邻近程度排序邻近度 = 相似度邻近度距离的反面回想一下，我们是希望和布尔模型不同，能够得到非二值的、既不是过多或也不是过少的检索结果这里，我们通过计算出相关文档的相关度高于不相关文档相关度的方法来实现,36,36,向量空间下相似度的形式化定义,先考虑一下两个点之间的距离倒数一种方法是采用欧氏距离但是，欧氏距离不是一种好的选择，这是因为欧氏距离对向量长度很敏感,37,37,欧氏距离不好的例子,尽管查询q和文档d2的词项分布非常相似，但是采用欧氏距离计算它们对应向量之间的距离非常大。. Questions about basic vector sp

14、ace setup?,38,38,采用夹角而不是距离来计算,将文档按照其向量和查询向量的夹角大小来排序假想实验：将文档 d 复制一份加在自身末尾得到文档d. d 是d的两倍很显然，从语义上看， d 和 d 具有相同的内容两者之间的夹角为0，代表它们之间具有最大的相似度但是，它们的欧氏距离可能会很大,39,39,从夹角到余弦,下面两个说法是等价的：按照夹角从小到大排列文档按照余弦从大到小排列文档这是因为在区间0, 180上，余弦函数cosine是一个单调递减函数,40,40,Cosine函数,41,41,文档长度归一化,如何计算余弦相似度？一个向量可以通过除以它的长度进行归一化处

15、理，以下使用L2 （2范数）:这相当于将向量映射到单位球面上因此，长文档和短文档的向量中的权重都处于同一数量级前面提到的文档 d 和 d (两个d 的叠加) 经过上述归一化之后的向量相同,42,42,查询和文档之间的余弦相似度计算,qi 是第i 个词项在查询q中的tf-idf权重 di是第i 个词项在文档d中的tf-idf权重 | | 和 | | 分别是和的长度上述公式就是和的余弦相似度，或者说向量和的夹角的余弦,43,43,归一化向量的余弦相似度,归一化向量的余弦相似度等价于它们的点积(或内积)如果和都是长度归一化后的向量,44,44,余弦相似度的图示,45,45,余弦

16、相似度的计算样例,词项频率tf 3本小说之间的相似度(1) SaS(理智与情感): Sense and Sensibility (2) PaP(傲慢与偏见): Pride and Prejudice (3) WH(呼啸山庄): Wuthering Heights,46,46,余弦相似度计算,词项频率 tf 对数词频（1+log10tf）,为了简化计算，上述计算过程中没有引入idf,47,47,余弦相似度计算,对数词频(1+log10tf) 数词频的余弦归一化结果,cos(SaS,PaP) 0.789 0.832 + 0.515 0.555 + 0.335 0.0 + 0.0 0.0 0.94.

17、 cos(SaS,WH) 0.79 cos(PaP,WH) 0.69 cos(SaS,PaP) cos(SAS,WH) cos(PaP,WH),48,48,余弦相似度计算算法,49,49,tf-idf权重计算的三要素,50,50,tf-idf权重机制举例,对于查询和文档常常采用不同的权重计算机制记法: ddd.qqq 例如: lnc.ltn 文档: 对数tf，无idf因子，余弦长度归一化查询: 对数tf，idf，无归一化文档当中不用idf结果会不会很差？查询: “best car insurance” 文档: “car insurance auto insurance”,51,51,t

18、f-idf 计算样例: Inc.Itn,查询: “best car insurance”. 文档: “car insurance auto insurance”.,1/1.92 0.52 1.3/1.92 0.68 最终结果 wqi wdi = 0 + 0 + 1.04 + 2.04 = 3.08,52,52,向量空间模型小结,将查询表示成tf-idf权重向量将每篇文档表示成同一空间下的 tf-idf权重向量计算两个向量之间的某种相似度(如余弦相似度) 按照相似度大小将文档排序将前K（如K =10）篇文档返回给用户,现代信息检索,Gerard Salton(1927-1995),信息检索

19、领域的奠基人之一，向量空间模型的完善者和倡导者，SMART系统的主要研制者，ACM Fellow 1958年毕业于哈佛大学应用数学专业，是Howard Aiken的关门博士生。 Howard Aiken是IBM第一台大型机ASCC的研制负责人。是康奈尔大学计算机系的创建者之一。,54,54,本讲内容,对搜索结果排序(Ranking) : 为什么排序相当重要？词项频率(Term Frequency, TF): 排序中的重要因子 Tf-idf 权重计算方法: 最出名的经典排序方法向量空间模型(Vector space model): 信息检索中最重要的形式化模型之一 (其他模型还包括布尔模型和概率模型),55,55,参考资料,信息检索导论第6、7章 http:/ifnlp.org/ir 向量空间入门 Exploring the similarity space (Moffat and Zobel, 2005) Okapi BM25 (另外一种著名的权重计算方法, 信息检索导论11.4.3节),现代信息检索,课后练习,习题6-10 习题6-12 习题6-19 习题6-23,

展开阅读全文