收藏 分享(赏)

链接分析5.5.pptx

上传人:天天快乐 文档编号:1360712 上传时间:2018-07-03 格式:PPTX 页数:18 大小:1.29MB
下载 相关 举报
链接分析5.5.pptx_第1页
第1页 / 共18页
链接分析5.5.pptx_第2页
第2页 / 共18页
链接分析5.5.pptx_第3页
第3页 / 共18页
链接分析5.5.pptx_第4页
第4页 / 共18页
链接分析5.5.pptx_第5页
第5页 / 共18页
点击查看更多>>
资源描述

1、链接分析,5.5 导航页和权威页,HITS(hyperlink-induced topic search)算法和pagerank的异同,相同点: 通过矩阵-向量的反复相乘来进行某个不动点的迭代计算。不同点: pagerank对于每个网页使用了一维的重要性概念,是一个 迭代的重要性定义,即“重要网页链向的网页也重要”。 HITS认为每个网页具有二维的重要性,是两个概念的一个联合迭代定义,即“一个指向好的权威页的网页是一个好的导航页,而一个被好的导航页指向的网页是一个好的权威页”。,5.5.1 HITS的直观意义,权威页(authority) 由于某些网页提供了有关某个主题的信息,因此他们具有非常

2、重要的价值,这些网页被称为权威页。导航页(hub) 有些网页并不提供有关任何主题的信息,但是由于它们可以给出找到有关该主题的网页的信息,所以他们也具有重要价值。,例5.13,大学的某个系通常会维护一个列出该系所有课程的web网页(导航页),网页上有指向每个课程网页的链接,每个课程网页(权威页)给出有关课程的信息(包括任课老师、课本、课程内容提要等)。若要寻找关于某个具体课程的信息,就必须访问该课程的网页。 若要了解整个系里开设的课程,就需要系课程网页。,5.5.2 导航度和权威度的形式化,导航度(hubbiness) 该网页充当导航页的良好程度。采用向量h表示,向量h的第i个分量代表第i个网页

3、的导航度值。权威度 充当权威页的良好程度。采用向量a表示,向量a的第i个分量代表第i个网页的权威度值。,描述导航度和权威度的一般计算方法,通过累加所有链出网页的权威度来估算当前页的导航度;通过累加所有链入网页的导航度来估算当前页的权威度。这样存在的问题是计算得到的导航度和权威度通常会无限制增长。,解决方法,对h和a的值进行归一化以保证最大的分量值为1;另外一种做法是使所有的分量之和为1。,形式化,使用web的一个链接矩阵L来给出h和a迭代的形式化描述如果有n个网页,L就是一个n*n的矩阵若网页i到j存在一个链接,则Lij=1,否则Lij=0若存在j到i的链接,则LTij =1,否则LTij =

4、0,例5.14,h=La 表示一个网页的导航度正比于其所有链出网页的权威度之和。是一个未知的代表所需的归一化因子的常数a=LT h 表示一个网页的权威度正比于其所有链入导航度之和将两个等式一个代入另外一个,就可以允许我们独立计算所有网页的导航度和权威度,例5.15,对图5-18所示的web图执行两轮HITS算法并将结果显示如下,最开始h向量中的所有分量都是1;第二个向量中,通过计算LT h,即将链入网页的导航度值进行累加,可以估计网页直接的相对权威度;,第三个向量是a的初始向量,实际是第二个向量进行缩放变换后的结果。需要将第二个向量中的每个分量除以所有分类中的最大值2;第四个向量是La,即对每

5、个网页根据其已经计算出的每个链出网页的权威度来计算其导航度;,第五个向量是第四个向量进行缩放变换的结果(缩放变换是除以最大的分量3);第六到第九个向量重复了第二到第五个向量的过程;最终得到的第九个向量的导航度估计效果会好于第五个向量。最终管得到的两个极限向量是,结果,网页E的导航度肯定为0,因为它不链向任何网页;网页C的导航度仅仅依赖于E的权威度,反之亦然,因此二者导航度都为0;A指向三个具有最高权威度值的网页B、C和D,因此A的导航度最大;同理,B和C被两个权威度最高的网页A和D所指向,因此它们的权威度都最高。,对于小规模例子,可通过解方程的方法求解,据上面的公式,有方程h=LLT hLLT 如下,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经济财会 > 贸易

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报