1、链接分析,链接分析的由来,链接分析源于对Web结构中超链接的多维分析。1996年,Larson在万维网的文献计量:网络空间结构初探一文中明确将信息技术从文献计量学移植到网络中。1997年,Almind和Ingwersen提出了“网络计量学”一词,旨在定量分析网络现象。此后,链接分析便成了网络计量学的主要研究内容之一。,本文以中国学术期刊全文数据库来源期刊和硕博士论文为数据源,检索条件是标题或关键词中包括“链接分析”,时间范围是2004-2013十年时间。经题名、关键词、摘要分析后,最终确定805篇为本文的研究对象,其中硕博士论文405篇,期刊类文章400篇,下面表一说明国内链接分析领域发文较多
2、的期刊:,说明,由图可得,图书情报类期刊11种,所占比例约为71%,而根据2014年最新公布的中国核心期刊要目总览,11种期刊中包含8种核心期刊,所占比例为73%。 所以说研究成果的学科主要集中在图书情报学,而核心期刊也很偏爱这样的研究,而在国外,研究成果往往集中在计算机科学期刊上。,分析这十年间每一年链接分析的发文量,可得到表2,发文量在2010年和2012年出现了高峰,而之后发文数量处于下降的趋势,而在国外2007年就出现了迅速下降的趋势。,运用bicomb书目共现分析分析系统,得出这十年频次较高的关键词,说明,由上可得近五年人们的研究热点;相关算法(如:pagerank、HITS)工具(
3、主题爬虫、网络爬虫),自2004年开始,相关学者就开始对链接分析的研究重点进行了综述,张洋等将链接分析的研究重点归纳为四个方面,链接的数量分布规律研究、网站同引分析研究、网络影响因子研究、链接分析工具研究。之后,李江、殷之明通过对十余年内链接分析相关文献的归纳,将国内外链接分析研究分为网络计量学、检索优化、Web结构挖掘、Web结构图建模四大研究视角、并认为链接类型识别、专业链接分析工具的开发、社会网络分析法的应用将是未来链接分析研究的三大发展方向。2013年,吴夙慧等人基于近五年的链接分析研究文献的基础上,分析研究热点包括:基于网页内容的链接分析、基于用户行为的链接分析、基于Web网页群的链
4、接分析、Web链接分析和复杂网络四个方面。对于链接分析的发展趋势,学者们也开始纷纷研究。孙建军、李江以社会网络分析、网络空间分析和虚拟民族志为例探讨了社会科学方法在链接分析中的应用。Web作为一种新媒介,Web中的链接是一种十分重要的传播方式,一些传播学的学者对Web链接的传播方式进行了研究,关注链接在Web信息传播中的工作和工作机制。还有许多法学学者对Web链接信息传播中的知识产权问题进行了深入的研究。,国内研究状况,方法二:胜者表,对每个词项t,预先计算出其倒排记录表中权重最高的r篇文档,如果采用tfidf机制,即tf最高的r篇注意:r 比如在索引建立时就已经设定,词项t所对应的tf值最高
5、的r篇文档构成t的胜者表。 因此,有可能 r K检索时,仅计算某些词项的胜者表中包含的文档集合的并集 从这个集合中选出top K作为最终的top K,方法三:静态质量得分排序方式,我们希望排名靠前的文档不仅相关度高(relevant) ,而且权威度也大(authoritative) 相关度常常采用余弦相似度得分来衡量 而权威度往往是一个与查询无关的量,是文档本身的属性 权威度示例:Wikipedia在所有网站上的重要性、某些权威报纸上的文章、论文的引用量、被 diggs, Y!buzzes或del.icio.us等网站的标注量、Pagerank 权威度计算 为每篇文档赋予一个与查询无关的(qu
6、ery-independent ) 0,1之间的值,记为g(d)同前面一样,最终文档排名基于g(d)和相关度的线性组合。 net-score(q,d) = g(d) + cosine(q,d) 可以采用等权重,也可以采用不同权重 可以采用任何形式的函数,而不只是线性函数,查找net-score最高的top K文档 首先按照g(d)从高到低将倒排记录表进行排序 该排序对所有倒排记录表都是一致的(只与文档本身有关) 因此,可以并行遍历不同查询词项的倒排记录表来 进行倒排记录表的合并 及余弦相似度的计算 利用g(d)排序的优点 这种排序下,高分文档更可能在倒排记录表遍历的前期出现 在时间受限的应用当
7、中 (比如,任意搜索需要在50ms内返回结果), 上述方式可以提前结束倒排记录表的遍历 将g(d)排序和胜者表相结合 对每个词项维护一张胜者表,该表中放置了r篇g(d) + tf-idftd 值最高的文档 检索时只对胜者表进行处理,高端表(High list)和低端表(Low list),对每个词项,维护两个倒排记录表 ,分别成为高端表和低端表 比如可以将高端表看成胜者表 遍历倒排记录表时,仅仅先遍历高端表 如果返回结果数目超过K,那么直接选择前K篇文档返回 否则,继续遍历低端表,从中补足剩下的文档数目 上述思路可以直接基于词项权重,不需要全局量g(d) 实际上,相当于将整个索引分层,方法四:
8、影响度(Impact)排序,如果只想对 wft,d 足够高的文档进行计算 那么就可以将文档按照 wft,d排序 需要注意的是:这种做法下,倒排记录表的排序并不是一致的(排序指标和查询相关) 那么如何实现top K的检索? 以下介绍两种做法 提前结束法遍历倒排记录表时,可以在如下情况之一发生时停止: (1)遍历了固定的文档数目r (2)wft,d 低于某个预定的阈值将每个词项的结果集合合并仅计算合并集合中文档的得分 2. 将词项按照idf排序 对于多词项组成的查询,按照idf从大到小扫描词项 在此过程中,会不断更新文档的得分(即本词项的贡献),如果文档得分基本不变的话,停止可以应用于余弦相似度或
9、者其他组合得分,方法五: 簇剪枝(Cluster pruning),随机选 N 篇文档作为先导者 对于其他文档,计算和它最近的先导者 这些文档依附在先导者上面,称为追随者(follower) 这样一个先导者平均大约有 N 个追随者 查询处理过程 给定查询 Q, 找离它最近的先导者L 从L及其追随者集合中找到前K个与Q最接近的文档返回 采取随机抽样的原因 速度快 先导者能够反映数据的分布情况 一般化变形 每个追随者可以附着在b1 (比如3)个最近的先导者上 对于查询,可以寻找最近的b2 (比如4)个先导者及其追随者,信息检索系统的组成,层次型索引,基本思路: 建立多层索引,每层对应索引词项的重要
10、性 查询处理过程中,从最高层索引开始 如果最高层索引已经返回至少k (比如, k = 100)个结果,那么停止处理并将结果返回给用户 如果结果 k 篇文档,那么从下一层继续处理,直至索引用完或者返回至少k 个结果为止 page83,查询词项的邻近性,对于检索中的查询,特别是Web上的自由文本查询来说,用户往往希望返回的文档中与大部分或者全部查询词项之间的距离比较近,因为这表明返回文档中具有聚焦用户查询意图的文本。考虑一个由两个或者多个查询词项构成的查询t1, t2, . . . , tk。令文档d中包含所有查询词项的最小窗口大小为,其取值为窗口内词的个数。例如,假设某篇文档仅仅包含一个句子Th
11、e quality of mercy is not strained,那么查询strained mercy 在此文档中的最小窗口大小是4。直观上讲,的值越小,文档d和查询匹配程度更高。如果文档中不包含所有的查询词项,那么此时可以将设成一个非常大的数字。在计算时,还可以考虑各种可能的策略变化,比如在以单词个数来计算窗口宽度时,可以不考虑停用词的数目。,查询分析及文档评分函数的设计,rising interest rates 之类的查询,如何处理? 依赖于用户数量、查询分布及文档集本身。 通常情况下,会有一个查询分析器(query parser)将用户输入的关键词转换成带操作符的查询,该查询能够基
12、于底层的索引结构进行处理。有时,这种处理过程可能需要基于底层索引结果对多个查询进行处理,比如,查询分析器可能会产生如下的一系列查询。 1. 将用户输入的查询字符串看成一个短语查询。利用向量空间模型求解,此时输入查询向量是以rising interest rates 为基的1 维向量。 2. 如果包含短语rising interest rates 的文档数目少于10 篇,那么会将原始查询看成rising interest 和interest rates 两个查询短语,同样通过向量空间方法来计算。 3. 如果结果仍然少于10 个,那么重新利用向量空间模型求解,这时候认为3 个查询词项之间是互相独立的。,向量空间模型对各种查询操作的支持,向量空间模型支持自由文本查询,这与前面的布尔查询、通配符查询和短语查询处理有所不同。下面看看向量空间模型怎么支持这些查询。(1)向量空间模型显然能够处理布尔查询。(2)对于通配符查询rom*,我们将所有可能的词项输入到查询向量中去,这样通配符查询也能支持。(3)对于短语查询,如果短语被转换为向量,丢失了短语的位置信息。所以我们用向量空间模型来检索“german sherpherd”类型短语的时候,只能检索出两个词项权重较高的文档,不能保证2个词项连续出现。,The End,