1、Talk 4 Ranking,Lin Dai 2012.9,Introduction to information Retrieval,Ranked Boolean Retrieval VSM: Vector Space model,Why Ranking?,满足布尔查询的结果文档数量可能非常多,往往会大大超过用户能够浏览的文档的数目。 文档评分和排序非常重要。,域索引,Eg:作者中存在 william 且正文中存在短语 gentle rain 的文档,域词典,对域进行编码,排序式布尔检索,给定一个布尔查询 q 和一篇文档 d,域加权评分方法给每个(q,d)对计算出一个0,1之间的得分。 假
2、定每篇文档有 l 个域,其对应的权重分别是 g 1 , . . . , gl 0, 1,relevance(q,d)=,Example,每篇文档都有 3 个域:author、title 和 body,考虑查询 shakespeare。有 3 个权重系数 g 1 、g 2 和 g 3 ,它们分别对应 author、title 和 body 域。假定 g 1 =0.2,g 2 =0.3,g 3 =0.5。 如果某词出现在某文档的 title 和 body 域,那么该文档最后的总得分是 0.8。,权重学习,给定一批训练样本(training example),每个样本可以表示成一个三元组 利用上述训
3、练样本集合学习到权重 g i,使得利用这些权重在训练集中计算到的每篇文档的得分尽量接近事先给出的相关性判断结果 标注将消耗大量人力,假设每篇文档只包含 title 和 body 两个域, sTl (d,q)和 sBd (d,q)分别表示q是否在Title和body中。 socre(d,q) = gsTl (d,q) + (1-g) sBd (d,q)给定训练样本集,如何确定最优的常数 g ?,训练样本,固定g,对于训练样本 j,某个查询得分为:误差函数:总体误差:,取值组合(布尔查询),令 n01r 表示当 s Tl (d j ,q j ) =0 及 s Bd (d j ,q j )=1 且人
4、工判断为相关的样本个数,而 n 01n 表示此时人工判断为不相关的样本个数。 此时当 s Tl (d j ,q j ) =0 及 s B (d j ,q j )=1的训练样本带来的误差为:,写出 其他 3 种取值的误差,总误差为:,对 g 求导数,令其为 0:,n10r=0, n01n=1, n10n=1 ,n01r=2,= (0+1)/(4)=0.25,Why not n00n, n00r, n11r, n11n?,VSM: Vector Space model,文档必须表示成方便计算机可以处理的格式。 将每个文档表示成一个向量,其中每个分量代表词项在文档中的相对重要性。 D = (t1,
5、w1), (t2, w2), , (tN, wN), N=|V| 向量空间:一系列文档在同一向量空间中的表示。 这种文档表示方法被称为VSM模型 它是信息检索领域一系列相关处理的基础,比如文档的评分、文档的分类及聚类等。,超球体: 每个词项作为VSM中的一维,Example,文档D包含十个词项,每个词项重要度相等。向量空间的维度为400,000。则D的向量为:V(d) = (t1, 0), (t2, 0.1), (ti, 0.1), (tN, 0)稀疏性:大量的维度权重为0仅保留权重大于0的特征: V(d) = (ti, 0.1),V(d) = (car, 0.1), (auto, 0.1),
6、 (insurance, 0.1),词袋模型(bag of words model)在VSM中,词项在文档中的出现次序被忽略,但是词项的权重非常重要,这和布尔检索形成了鲜明对比。在这种情况下,文档 Mary is quicker than John 和 John is quicker than Mary的文档表示完全等价。,How to weight?TF IDF TF-IDF,TF(term frequencey): 如果文档或者域中词项出现的频率越高,那么该文档或者域的得分也越高。 词项权重取决于该词项在文档中出现的次数: V(d) = (ti, f(tfi),最简单的为: f(tfi)
7、tfi,DF,词项频率认为所有的词项都是同等重要的. Eg: 在一个有关汽车工业的文档集中,几乎所有的文档都会包含 auto,此时,auto就没有区分能力。 一个很直接的想法就是给文档集频率较高的词项赋予较低的权重,其中文档集频率指的是词项在文档集中出现的次数。这样,便可以降低具有较高文档集频率的词项的权重。,文档频率(document frequency)dft ,它表示的是出现 t 的所有文档的数目。,直观上说,对于查询 insurance,由于包含 insurance 的文档只有少数,所以我们希望这些文档的得分能够得到提升。,IDF,DF比TF高几个数量级 需要将它映射到一个较小的取值范
8、围中去。为此,假定所有文档的数目为 N,词项 t 的 IDF(inverse document frequency, 逆文档频率),一个罕见词的 idf 往往很高,而高频词的 idf 就可能较低。,Reuters-RCV1, N= 80,6791, 10为底。,对数的底是否会对文档的排序造成影响?,TF-IDF,(1) 当 t 只在少数几篇文档中多次出现时,权重取值最大 (此时能够对这些文档提供最强的区分能力); (2) 当 t 在一篇文档中出现次数很少,或者在很多文档中出现,权重取值次之(此时对最后的相关度计算作用不大); (3) 如果 t 在所有文档中都出现,那么权重取值最小。将 tf 和
9、 idf 组合在一起形成最终的权重,文档 d 中的词项 t 赋予的权重如下:文档的表示向量为: V(d) = (ti, tf-idfi),给定查询q,文档d的得分是所有查询词项在文档中的 tf -idf 权重和,文档相似度,向量差 sim(d1, d2) = |V(d1)-V(d2)|受文档长度影响很大:tf-idf中,tf较大。L1-normalization:sim(d1, d2) = | (1) |max( 1 )| (2) |max( 2 | |L2-normalization: sim(d1, d2) = | (1) |(1)| (2) |(2)| |=|v(d1)-v(d2)|,余
10、弦相似度(cosine similarity),点积(内积),模,欧氏距离,三篇文章,经过特征过滤:,V(d1) = 44.55, 6.24, 0, 21 V(d2) = 6.6, 68.64, 53.46, 0 V(d3) = 39.6, 0, 46.98, 25.5,V(d1) = 44.55, 6.24, 0, 21, |V|= 49.645 V(d2) = 6.6, 68.64, 53.46, 0 , |V|= 87.25 V(d3) = 39.6, 0, 46.98, 25.5 , |V|= 66.52,单位向量: v(d1) = 0.90, 0.13, 0, 0.42 v(d2)
11、= 0.75, 0.78, 0.61, 0 v(d3) = 0.59, 0, 0.71, 0.38,相似度: Sim(d1, d2)=1.89 Sim(d1, d3)=0.70 Sim(d2, d3)=0.48,查询响应,将查询作为一个很短的文本,依次计算其与文档的相似度。并返回得分最高的 K 篇文档。,查询: q = best car insurance V(q) = 1.65, 0, 1.62, 1.5, |V(1)| = 7.5969v(1)= 0.60, 0, 0.59,0.54 Sim(q, d1) = 0.767406298 Sim(q,d2) = 0.405403647 Sim(
12、q,d3) = 0.980034598,单位向量: v(d1) = 0.90, 0.13, 0, 0.42 v(d2) = 0.75, 0.78, 0.61, 0 v(d3) = 0.59, 0, 0.71, 0.38,Ranked Result: Sim(q,d3) = 0.980034598 Sim(q, d1) = 0.767406298 Sim(q,d2) = 0.405403647,q = best car insurance,检索过程: 计算查询向量和文档集中每个文档向量的余弦相似度,结果按照得分排序,并选择得分最高的 K 篇文档。 这个过程的过程代价很大,这是因为每次相似度计算都
13、是数万维向量之间的内积计算,这需要数万次的算术操作。还需要对相当大集合的排序。,其它tf-idf权重计算方法,tf 的亚线性尺度变换方法 一个词项在文档中出现了 n次,它所携带信息的重要性也不可能是只出现1 次的词项的 n倍。,基于最大值的 tf 归一化 采用文档中最大的词项频率对所有词项的频率归一化,阻尼系数 a 是一个 0 到 1 之间的数,通常取 0.4,而在一些早期的工作中使用的是 0.5。 保证因tf变化引起的 ntf 的波动不会非常剧烈,最大 tf 归一化方法的主要思路就是减轻长度不同带来的不公平。假定将文档 d 复制一份并和 d 合成文档d ,对于给定查询,文档 d不比文档 d 的相似度要大. 但是,如果使用TF-IDF来计算,那么d 的得分将会是 d 的得分的 2 倍。如果将 tf替换成ntf,则不会出现这样异常的结果。,Have a nice weekend!,