1、中软新媒体营销专注新媒体培训及企业网路运营http:/浅谈搜索引擎的核心算法外链是搜索引擎算法中,判断网站权重高低的重要指标,当用户在搜索框中输入关键时,搜索引擎面对大量拥有相同内容的网页,首先需要解决的就是,通过哪些参数觉得网页排名的高低。今天,笔者就简单介绍外链建设中,比较有名的核心算法:PageRank 算法、Hilltop 算法、Direct Hit 算法。第一种算法、PageRank 算法1998 年,Sergey Brin 和 Lawrence Page 提出了 PageRank 算法。该算法基于“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,来判定网页的重要性。该
2、算法认为从网页 A 导向网页 B 的链接可以看作是页面 A 对页面 B 的支持投票,根据这个投票数来判断页面的重要性。当然,不仅仅只看投票数,还要对投票的页面进行重要性分析,越是重要的页面所投票的评价也就越高。根据这样的分析,得到了高评价的重要页面会被给予较高的 PageRank 值,在检索结果内的名次也会提高。PageRank 是基于对“使用复杂的算法而得到的链接构造” 的分析,从而得出的各网页本身的特性。分析:PageRank 算法的优点在于它对互联网上的网页给出了一个全局的重要性排序,并且算法的计算过程是可以离线完成的,这样有利于迅速响应用户的请求。不过,其缺点在于主题无关性,没有区分页
3、面内的导航链接、广告链接和功能链接等,容易对广告页面有过高评价;另外,PageRank 算法的另一弊端是,旧的页面等级会比新页面高,因为新页面,即使是非常好的页面,也不会有很多链接,除非他是一个站点的子站点。这就是中软新媒体营销专注新媒体培训及企业网路运营http:/PageRank 需要多项算法结合的原因。第二种算法、Hilltop 算法HillTop,是一项搜索引擎结果排序的专利,是 Google 的一个工程师 Bharat 在 2001年获得的专利。HillTop 算法的指导思想和 PageRank 是一致的,即都通过反向链接的数量和质量来确定搜索结果的排序权重。但 HillTop 认为
4、只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大,即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。在 1999-2000 年,当这个算法被 Bharat 与其他 Google 开发人员开发出来的时候,他们称这种对主题有影响的文档为“专家”文档,而只有从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。Hilltop 算法的过程:首先计算查询主题最相关的“专家”资源列表;其次在选中的“专家”集中识别相关的链接,并追踪它们以识别相关的网页目标;然后将目标根据非关联的指向它们的“专家”数量和相关性排序。由此,目标网页的得分反映了关于查询主题的最
5、中立的专家的集体观点。如果这样的专家池不存在,Hilltop 不会给出结果。从 Hilltop 算法过程可见,该算法包括两个主要的方面:寻找专家;目标排序。通过对搜索引擎抓取的网页进行预处理,找出专家页面。对于一个关键词的查询,首先在专家中查找,并排序返回结果。权威页面是对于一个查询主题来说最好的专家指向的页面。专家也有可能在更宽泛的领域或其它领域的主题上也是专家。在专家页面中只有一部分链接与主题相关。因此,把查询主题的专家中相关的外向链接合并,以找到查询主题相关页面高度认可的页面。中软新媒体营销专注新媒体培训及企业网路运营http:/从排名在前的匹配专家页面和相联系的匹配信息中选择专家页面中
6、一个超链接的子集。尤其选择那些与所有的查询相关的链接。基于这些选中的链接找出一个它们的目标子集作为查询主题最相关的网页。这个目标子集包含至少被两个非亲属的专家页面链接到的网页。目标集根据指向它们的专家的综合成绩来排序。Hilltop 在应用中还存在一些不足。专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性;而专家页面的质量和公平性在一定程度上难以保证。Hiltop 忽略了大多数非专家页面的影响。在 Hiltop 的原型系统中,专家页面只占到整个页面的 1.79%,不能全面代表整个互联网。Hiltop 算法在无法得到足够的专家页面子集时(少于两个专家页面),返回为空,即Hi
7、ltop 适合于对查询排序进行求精,而不能覆盖。这意味着 Hilltop 可以与某个页面排序算法结合,提高精度,而不适合作为一个独立的页面排序算法。Hilltop 中根据查询主题从专家页面集合中选取与主题相关的子集也是在线运行的,这与前面提到的 HITS 算法一样会影响查询响应时间。随着专家页面集合的增大,算法的可伸缩性存在不足之处。分析:HITS 算法的优点在于它能更好地描述互联网的组织特点,由于它只是对互联网中的很小的一个子集进行分析,所以它需要的迭代次数更少,收敛速度更快,减少了时间复杂度。但 HITS 算法也存在如下缺点:中心网页之间的相互引用以增加其网页评价,当一个网站上的多篇网页指
8、向一个相同的链接,或者一个网页指向另一个网站上的多个文件时会引起评分的不正常增加,这会导致易受“垃圾链接”的影响;网页中存在自动生成的链接;中软新媒体营销专注新媒体培训及企业网路运营http:/主题漂移,在邻接图中经常包括一些和搜索主题无关的链接,如果这些链接自身也是中心网页或权威网页就会引起主题漂移:对于每个不同的查询算法都需要重新运行一次来获取结果。这使得它不可能用于实时系统,因为对于上千万次的并发查询这样的开销实在太大。第三种算法、Direct Hit 算法与前面的算法相比,Ask Jeeves 公司的 Direct Hit 算法是一种注重信息的质量和用户反馈的排序方法。它的基本思想是,
9、搜索引擎将查询的结果返回给用户,并跟踪用户在检索结果中的点击。如果返回结果中排名靠前的网页被用户点击后,浏览时间较短,用户又重新返回点击其它的检索结果,那么可以认为其相关度较差,系统将降低该网页的相关性。另一方面,如果网页被用户点击打开进行浏览,并且浏览的时间较长,那么该网页的受欢迎程度就高,相应地,系统将增加该网页的相关度。可以看出,在这种方法中,相关度在不停地变化,对于同一个词在不同的时间进行检索,得到结果集合的排序也有可能不同,它是一种动态排序。分析:该算法的优点是能够节省大量时间,因为用户阅读的是从搜索结果中筛选出来的更加符合要求的结果。同时,这种算法直接融入用户的反馈信息,能够保证页
10、面的质量。然而,统计表明,Direct Hit 算法只适合于检索关键词较少的情况,因为它实际上并没有进行排序,而是一种筛选和抽取,在检索数据库很大、关键词很多的时候,返回的搜索结果成千上万,用户不可能一一审阅。因此,这种方式也不能作为主要的排序算法来使中软新媒体营销专注新媒体培训及企业网路运营http:/用,而是一种很好的辅助排序算法,目前在许多搜索引擎当中仍然在使用。其实对于网页的搜索排名,都是多种算法综合作用的结果,简单分析上面的三种算法,Pagerank 可以给网站上的所有网页给予一个重要性的排序,但是没有针对性、相关性,而且现在 PR 值作弊已经到了一个泛滥的地步,所以 PR 就网页排
11、名的重要性已经大为下降;Hilltop 算法的提出,对于广大站长做外部链接建设,将起到指导作用。在 Hilltop算法中,每个领域都会有若干专家页面,如果搜索相关关键词,搜索引擎首先会从专家页面查找,如果匹配度不够,再从专家页面链接的下一级页面查找,以此类推。Direct Hit 算法可以作为 Hilltop 和 pagerank 很好的补充,Direct Hit 更多的是,考虑了用户体验的影响,对搜索结果的质量,进行实时的更新,一个最符合搜索用户要求的页面,应该是用户从搜索框中点击页面链接开始,用户浏览网站超过一定时间,则被认为结果页面,更符合用户搜索的要求,长期有效的点击,页面在搜索引擎中
12、排名,就会有相应的提高。通过以上三种算法,就可以明白,无论是做外链还是网站内容建设,首先需要考虑的就是相关性,在外链建设中,要努力寻找主题相关中,权威度高的网站,软文、友情链接等,都可以看作是这些网站,对你的支持,同时,注意网站的跳出率和浏览时间,时刻反馈用户数据,对一些重点页面,用户点击量较高的页面,做好相关性推荐,引导用户点击更多的页面。来源:月光博客中软总公司计算机培训中心同时也是“信息产业部计算机技术培训中心”,是中国成立最中软新媒体营销专注新媒体培训及企业网路运营http:/早的、具有国际先进水平的计算机培训实体,迄今已有 22 年的历史。以总部为主体,发展了遍布全国的分中心,开展了
13、面向用户的、各层次、各领域的计算机及信息技术应用培训,共培训各类学员四十余万人次,以其高质量的教学和优质的服务赢得了社会各界的好评。我们的宣言:站在我们的肩上,您将看得更远!严格的质量管理体系1999 年 9 月 28 日中心通过了 ISO-9001 国际质量体系认证,成为国内第一家通过 ISO-9001国际质量体系认证的计算机技术培训中心。本中心所有教学与服务程序严格按照质量体系所规定的标准执行,对“咨询报名学习反馈结业考试”等教服环节进行系统、全面的质量督导和监控,对学员的最终学习效果负责。信息产业部的认可中心的雄厚实力和优秀业绩得到了国家政府单位和国际计算机界的认可。中心与信息产业部信息
14、系统集成资质认证办公室紧密合作,成为系统集成项目经理资质认证的发起和组织单位之一,并且承担系统集成项目经理的培训、教材编写和考核认证工作。国际 IT 公司的授权目前中心是 Sun、微软、HP-Compaq、IBM、Lotus 等跨国 IT 公司在中国的授权培训合作伙伴,在国内开展 IT 国际认证培训业务;中心同时也是 Prometric 和 VUE 两家国际考试公司中软新媒体营销专注新媒体培训及企业网路运营http:/的授权考试中心,学员在本中心经过培训并通过国际联网考试后可获得相应公司颁发的在世界各地有效的国际认证证书。强大的 Java 培训实力中软培训中心是 Sun 公司在中国最早的授权
15、Java 培训中心,1999 年成为 Sun 公司授权的Java 培训推广中心,负责 Java 培训项目在中国地区的推广工作。本中心依靠扎实、全面的 Java 技术储备,凭借 5 位专职 Sun 认证 Java 讲师(其中包含两名 SCJA)的优秀教学,开设 Sun 公司全线 Java 系列课程。每年在中软培训中心接受 SUN Java 系列课程培训的学员人数全国名列前茅。融合软件技术与软件管理培训的先驱软件行业的迅猛发展需要更专业的培训服务,中软培训中心立足于客户的实际需求,经过艰苦而卓有成效的工作,推出自主版权的“与软件开发相关的中高端企业级开发技术”、以及“软件工程化管理”培训课程体系。
16、前者包含了从编程语言到数据库、再到软件架构与设计的若干门课程;“软件工程化管理”课程包含五个方面的内容:项目管理和 CMM 类、软件过程改进类、软件工程类、审计监理类、通用管理类等。在该课程体系下,为个人客户设计面向职位的中、短期培训课程,为企业级客户定制面向问题的培训方案。打造中软品牌培训课程针对目前 IT 行业实用型人才短缺的现象,也为了给个人客户提供更多的培训选择,我中心中软新媒体营销专注新媒体培训及企业网路运营http:/在整合 IT 国际认证培训经验及企业培训案例的基础上,推出了面向职位的“中软”品牌职业培训课程:“中软 Java 软件工程师”培训课程和“中软网络工程师”培训课程。该
17、培训课程面向职位而设计,不仅讲授技术知识,也讲授与职位紧密相关的诸如软件设计工具和沟通能力等方面的知识。电子政务培训的拓荒者中软国际有限公司利用在电子政务建设中的技术优势,为中国最大的数字化开发区 天津泰达经济技术开发区成功进行了电子政务建设。中心作为中软国际有限公司的培训事业部,结合自身丰富的培训经验,开业界之先河,一举推出为政府信息化建设量身定做的“电子政务培训方案”,并且在泰达经济技术开发区成功实施,有效地促进了开发区的电子政务建设。为给电子政务培训提供更多的理论读物,中心积极组织并参与中国电子政务丛书的编写工作。中软培训中心已成为中国政府信息化建设培训的拓荒者!致力于远程教育培训中心发
18、挥其教育培训及互联网技术优势,于 1999 年初,在全国首家推出了远程教育培训(),学员遍布了除西藏以外的各个省市,并推出功能完善的远程教育软件包 eduPort,中心一方面基于远程教育网站面向全国提供远程培训服务,另一方面向企业级客户提供全套远程教育解决方案,包括远程教育学习管理系统、课件制作工具、课件销售及定制服务。中心有优越的培训环境和完善的教学设施,有上百台高档微机和高档工作站组成的教学网络系统,为学员提供优良的学习和实验环境,学员有充足的上机时间,保证最佳的教学效中软新媒体营销专注新媒体培训及企业网路运营http:/果。中心拥有一支经验丰富的、具有教员认证资格的师资队伍,通过他们的辛
19、勤耕耘为我国培养了大批高层次、高水平、市场急需的信息技术应用人才。中软培训师资介绍编辑中软培训中心拥有一支技术过硬、结构合理、具有丰富的培训行业经验的技术团队。一线讲师不仅都取得相应的讲师资格认证,而且具备丰富的培训及项目经验,保证最大限度满足学员的培训需求,其中包括 Sun 认证讲师,思科认证讲师 CCAI 和 CCSI,康柏认证讲师ACI,Novell 认证讲师 CNI、IBM 认证 WebSpere 讲师、微软讲师 MCT 和 Lotus 讲师 CLI 等。特别的,在我们软件师资团队中,有两名“SCJA”(Sun 认证 Java 架构工程师)证书持有者。我们有一个强大的“软件工程化管理“培训课程师资团队,他们都来自于知名 IT 企业,有着丰富的实践经验,能够为客户进行课前培训方案设计,为客户定制面向问题的解决方案。