收藏 分享(赏)

搜索引擎工作原理——SEO优化参考.doc

上传人:j35w19 文档编号:7142010 上传时间:2019-05-07 格式:DOC 页数:4 大小:131KB
下载 相关 举报
搜索引擎工作原理——SEO优化参考.doc_第1页
第1页 / 共4页
搜索引擎工作原理——SEO优化参考.doc_第2页
第2页 / 共4页
搜索引擎工作原理——SEO优化参考.doc_第3页
第3页 / 共4页
搜索引擎工作原理——SEO优化参考.doc_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、深圳市龙岗区平湖华南城环球物流中心 19 楼 电话:0755-85233755 传真:0755-85233756网址: P1深圳市指易达电子商务有限公司提供 ,公司网址:http:/ 参照目前搜索引擎很多,各个搜索引擎的算法有所差异,但搜索引擎的工作原理大致是一样的。下面简单介绍搜索引擎的工作原理,以及顺带讲做 SEO 时改注意的东西。一. (蜘蛛、机器人)跟踪链接爬行和抓取。搜索引擎蜘蛛听过跟踪超级链接在互联网上爬行,访问链接指向的页面,获得页面的 HTML 代码,并将代码存入自己的数据库。搜索引擎蜘蛛的爬行方式有:广度爬行和深度爬行。一般情况下,广度爬行和深度爬行是混合使用的。因为整个互联

2、网的数据太大,蜘蛛没有足够的条件爬完所有的页面,实际上搜索引擎只爬行和收录了互联网的一小不部分。从提高蜘蛛爬行的角度讲,增加外部链接,也是是很有必要的。同时,也可以知道,网页不要放得太深,离首页越近,被蜘蛛爬行的机会越大。搜索引擎蜘蛛抓取的数据存入原始页面数据库,其中的页面数据与用户浏览器得到的 HTML是一样的。蜘蛛在爬行和抓取网页时,会对网页内容进行检测,如果发现网站上的内容是大量转载和抄袭的,那可能就不会再继续跟踪爬行链接了。所以,多写原创性的内容,会促进搜索引擎蜘蛛的爬行。二预处理:“预处理”常被等同于“索引”,因为索引是预处理最重要的步骤。1.去标签、代码。提取文本内容。搜索引擎蜘蛛

3、抓取的页面数据量大,包含了大量的 HTML 格式标签、Javascript 等无法用于排名的数据。搜 索引擎预处理,首先就是去除标签和程序代码,提取出用于排名处理的文本内容。2.去杂,消除噪声。绝大部分页面上存在一部分对页面主题没有什么贡献的内容,比如导航条、广告上的文字。比如,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,但是这些页面本身与“分类”、“历史”这些词没有任何关系。用户搜索“历史”、“分类”这些关键词时仅仅因为页面上有这些词出现而返回博客帖子的话,搜索用户的体验是很不好的。因为那写个帖子,并不是搜索者想要的。所以,这些词算作噪音,会给页面主题起到分散作用,故去之。3.分

4、词搜索引擎存储和处理页面及用户搜索都是以词为基础的。一个句子,所有的字和词都连在一起,搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。比如“写作技巧”将被分词为“写作”和“技巧”两个词。中文分词方法基本上有两种:基于词典匹配;基于统计。搜索引擎对页面的分词取决于本身的算法,跟页面本身如何无关。优化唯一能做的是提示搜索引擎,哪几个字被当做一个词处理,比如可以通过 HTML 标签把相关词标为黑体。深圳市龙岗区平湖华南城环球物流中心 19 楼 电话:0755-85233755 传真:0755-85233756网址: P24.去语气助词等没有具体意义的的词页面中会出现很多对内容信息没有任

5、何意义的词,比如感叹词“啊”“哈”“吖”、助词“的”“地”“得”、副词介词“而”“但是”“可是”。搜索引擎会在索引页面内容前去掉这些词,是索引的数据主题更突出,减少无谓的计算量。5.去重复用户搜索时,如果在前两页看到的是来自不同网站的同一篇文章,那用户体验就太差了,虽然都是内容相关,所以在进行索引前,识别和删除重复内容,这一过程叫做“去重”。6.正向索引搜索引擎提取关键词,按照分词程序划分好词,把页面转换为一个关键词组成的集合,同时记录每个关键词在页面上的出现频率、出现次数、格式(如黑体、H 标签、锚文字等)、位置。这样,每个页面都记录为一串关键词的集合。每个文件都对应一个文件 ID,文件内容

6、被表示为一串关键词的集合,这样的数据结构称为正向索引。7.倒排索引正向索引还不能直接用于排名。假设用户搜索关键词 2,如果只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含关键词 2 的文件,再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。所以将正向索引库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,也就是每个关键词对应一系列文件。8.链接关系计算搜索引擎在抓取页面后,会事先计算出:页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。所以,长期坚持做好链接,是搜索引擎优

7、化中的重要组成部分。9.特殊文件处理处理 HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、Wps、Xls、PPT、TXT 等文件,搜索引擎能够检索出上述文件中的内容,所以可以在百度文库等平台分享自己的资料,全方位做好优化工作。三.排名经过倒排索引之后,搜索引擎就准备好可以随时处理用户处理了。用户在搜索框中输入关键词,排名程序调用索引库数据,计算排名给用户。1.搜索词处理。跟页面索引时一样,搜索词也会进行中文分词、去停止符,其他的还有指令处理、拼写错误纠正、整合搜索触发(比如搜索词与当前热门话题相关,则会在搜索结果中展示)。深圳市龙岗区平湖华南城环球物

8、流中心 19 楼 电话:0755-85233755 传真:0755-85233756网址: P32.文件匹配。文件匹配,就是找出含有关键词的文件,倒排索引使得文件匹配能够快速完成。3.初始子集的选择。找到所有关键词的匹配文件后,搜索引擎不会对所有页面进行计算,只选出页面权重比较高的一个子集,再对这个子集进行相关性计算。4.相关性计算。计算相关性是排名过程中最重要的一步。(1)关键词常用程度。经过分词后的关键词,对整个搜索字符串的意义贡献不同。越常用的词对搜索词的意义贡献越小,约不常用的词对搜索词的意义贡献越大。排名算法会对不常用的词给予更多的权重。(2)词频及密度。词频和词的密度,是判断页面相

9、关性的重要因素。控制好关键词密度,对SEO 很重要。(3)关键词位置及形式。关键词出现在标题标签、黑体、H1 等重要位置,说明页面与关键词越相关。所以,做 SEO 时,尽量在关键位置布置上要做得关键词。(4)关键词距离。切分后的关键词完整匹配地出现,说明与搜索词相关性高。比如搜索“写作技巧”,连续出现“写作技巧”四个字的最相关。如果“写作”和“方法”两个词没有连续匹配出现,但距离也不远,那搜索引擎认为相关性也大些。(5)链接分析及页面权重。除了页面本身的因素,页面之间的链接和权重关系也影响关键词的相关性,其中最重要的是锚文字。页面有越多以搜索词为锚文字的导入链接,说明页面的相关性越强。链接分析

10、相关性,还包括链对接源页面本身的主题、锚文字周围的文字的分析。5.排名过滤及调整。选出匹配文件子集、计算相关性后,大体排名就已经确定了,之后搜索引擎可能还有一些过滤算法,对排名进行轻微调整,其中最主要的过滤是对一些有作弊嫌疑的页面施加惩罚。6.排名显示。7.索引缓存。搜索引擎会把最常见的搜索词存入缓存,用户搜索时直接从缓存中调用,而不必经过文件匹配和相关性计算,大大提高排名效率,缩短搜索时间。8.查询及点击日志。搜索用户搜索的 IP、关键词、时间,以及点击了哪些页面,搜索引擎都记录形成日志,这些日志中的数据,对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势等都有重要意义。所以,SEO 不应该是针对搜索引擎做得技巧性工作,SEO 最高境界是,提供优质的内容,提高浏览者浏览感观。搜索引擎的工作步骤和算法非常复杂,上面知识简单的介绍了搜索引擎的工作原理和工作过程,希望能对大家有所帮助。深圳市指易达电子商务有限公司提供 ,公司网址:http:/ 深圳市龙岗区平湖华南城环球物流中心 19 楼 电话:0755-85233755 传真:0755-85233756网址: P4

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报