收藏 分享(赏)

搜索引擎18553.doc

上传人:jinchen 文档编号:8766654 上传时间:2019-07-11 格式:DOC 页数:4 大小:36.50KB
下载 相关 举报
搜索引擎18553.doc_第1页
第1页 / 共4页
搜索引擎18553.doc_第2页
第2页 / 共4页
搜索引擎18553.doc_第3页
第3页 / 共4页
搜索引擎18553.doc_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。搜索引擎分类1、全文索引全文搜索引擎是名副其实的搜索引擎,国外代表有 Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从

2、自身的数据库中调用,上面提到的Google 和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如 Lycos 搜索引擎。2、目录索引目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的 Yahoo、新浪分类目录搜索。3、元搜索引擎元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vi

3、visimo 等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如 Dogpile;有的则按自定的规则将结果重新排列组合,如 Vivisimo。其他非主流搜索引擎形式:1、集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot 在 2002 年底推出的搜索引擎。2、门户搜索引擎:AOL Search、MSN Search 等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。3、免费链接列表(Free For All Links 简

4、称 FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比 Yahoo!等目录索引小很多。目前市场上可以做搜索引擎推广的网站有 sohu,sina,3721,baidu,google,网易,yahoo.像中国搜索 联盟属于不入流 ,所以不谈.首先每个网站都有自己的推广的侧重点,像 sohu,sina,网易适合普通用户使用(B to C).如果一家公司是做的产品或者服务是面向老百姓的那还是比较合适的.还有一类就是其他的网站,他们面向的客户群是比较专业的公司,这些公司的产品或者服务不是面对老百姓的而是像慧聪一样的 BtoB 的形式.使用率和市场占有率都是很高的,google34.

5、8% baidu30.4% 很多客户也都是在这上面做广告.google 优势:1,全球最大的搜索引擎,使用人群最多2,收录的信息最多3,yahoo 和网易采用的是 google 的搜索结果.4 搜索引擎中唯一的没有沾染 PPC(竞价排名),没有失去起码的排名的公正。5,根据国家互联网信息中心 google 市场占有率最大.百度:现有的推广方式有竞价排名(百度左侧),固定排名(百度右侧)。优点是国内最大,知名度最高的专业搜索引擎,信息准确。使用人群占到使用搜索引擎人数的 30.4%。适合产品或服务相对专业的企业使用。弊端是左侧的竞价排名位置不固定,需要公司自己调节价格以保持位置上的优势。右侧有时

6、会被浏览器的小程序如上网助手所屏蔽。Google 和 Baidu 收录网站页面的标准是不同的。我用一句话来形容,就是 Google 更乐于收录大站的页面,百度则乐于收录新站的页面。 为此我做一个实验:先申请了一个新域名,在上面放一个网站,然后不在其他任何网站做链接,而直接往百度和 Google 搜索引擎的提交页面进行提交。一个月过去了,百度收录的网页是 24,900 篇,Google 收录的网页是 0,这证实了我以前的猜测。 这说明了什么呢?说明百度比 Google 好吗?绝对不是的。因为 Baidu 和 Google 收录页面的标准是完全不同的。 Google 是按照网页级别(PageRan

7、k)来收录的,只要网站有一定的网页级别,Google会快速收录的,而没有网页级别的网站,Google 则坚决不去收录。Baidu 则很夸张,采用的是来者不拒,多多益善的原则,无休止的进行收录。Baidu 的这种不按网页级别的收录方式其实有很大的恶果, 最主要的恶果是造成大量的垃圾网站流行,因为只要做一个垃圾站,Baidu 就会立刻收录(25000 页以内),这等于变相的鼓励大家去做垃圾站,去盲目采 集。当垃圾站横行的时候,Baidu 再通过人工的方式封站,甚至一些百度业务员对于大流量的网站还会要求其站长办理百度竞价排名。 这两 种收录方式哪种更好呢?我个人认为 Google 的这种收录方式是比

8、较科学的。因为互联网上的页面是个天文数字,收录应该是有选择的收录,好的网站则多收 录,新站则应该少收录,等其慢慢知名了以后再多收录,这样也提高了效率,让用户搜索到更好的页面而不是更多的页面。如果对于新站不做分析就快速收录,那么 会使得从技术上对抗恶意网站作弊(SEO)变得非常困难,Google 通过给予新站给出一定的“考察期”来分析这个新站是否是作弊的垃圾站,而百度就只能 依靠人工方式手动地删除垃圾站。对于收录网站的具体操作上,Google 的爬虫显得较为“体贴”站长Google 爬虫占用服务器的资源非常少,通常是先 用 head 来查看网页是否更新,如果更新了再抓取整个页面,这种方法耗费流量

9、较少。而百度则不管三七二十一上来就抓整个站,有时甚至不遵守 robots 规 则,而且其爬虫数量非常庞大,对于页面较多的网站通常会耗费惊人的流量,并且常常造成恶劣的后果。 当然,百度这种“贪婪”爬虫 抓取方 法,虽然会让用户能够在百度搜索出一些 Google里搜索不到的页面,但这实在是损人利己。其带给网站站长不少负面效果:服务器和带宽资源过度消耗,垃圾 站被变相鼓励了,原创的有特色的网站则被边缘化,MP3 音乐网站则更苦不堪言自己的 MP3 被百度盗链后带来大量文件下载却没有带来页面访问。 因此,中国的网民也出现了很奇怪的现象:大量的新网民和菜鸟新手喜欢用百度搜索,因为百度往往搜索到很多别处搜

10、索不到的页面,但内容的匹配度则令人质 疑,而专业人士和老鸟则更喜欢用 Google,个人站长则普遍和百度有“个人恩怨”。因此百度在业界的Blog 以及社区中口碑都不太好,但在普通的低层次 的网民心中却不错,这些大量的普通网民给百度带来了大量流量.Google 和 Baidu 收录网站页面的标准是不同的。我用一句话来形容,就是 Google 更乐于收录大站的页面,百度则乐于收录新站的页面。 为此我做一个实验:先申请了一个新域名,在上面放一个网站,然后不在其他任何网站做链接,而直接往百度和 Google 搜索引擎的提交页面进行提交。一个月过去了,百度收录的网页是 24,900 篇,Google 收

11、录的网页是 0,这证实了我以前的猜测。 这说明了什么呢?说明百度比 Google 好吗?绝对不是的。因为 Baidu 和 Google 收录页面的标准是完全不同的。 Google 是按照网页级别(PageRank )来收录的,只要网站有一定的网页级别,Google 会快速收录的,而没有网页级别的网站,Google 则坚决不去收录。Baidu 则很夸张,采用的是来者不拒,多多益善的原则,无休止的进行收录。Baidu 的这种不按网页级别的收录方式其实有很大的恶果, 最主要的恶果是造成大量的垃圾网站流行,因为只要做一个垃圾站,Baidu 就会立刻收录(25000 页以内) ,这等于变相的鼓励大家去做

12、垃圾站,去盲目采 集。当垃圾站横行的时候,Baidu 再通过人工的方式封站,甚至一些百度业务员对于大流量的网站还会要求其站长办理百度竞价排名。 这两 种收录方式哪种更好呢?我个人认为 Google 的这种收录方式是比较科学的。因为互联网上的页面是个天文数字,收录应该是有选择的收录,好的网站则多收 录,新站则应该少收录,等其慢慢知名了以后再多收录,这样也提高了效率,让用户搜索到更好的页面而不是更多的页面。如果对于新站不做分析就快速收录,那么 会使得从技术上对抗恶意网站作弊(SEO)变得非常困难,Google 通过给予新站给出一定的“考察期”来分析这个新站是否是作弊的垃圾站,而百度就只能 依靠人工

13、方式手动地删除垃圾站。对于收录网站的具体操作上,Google 的爬虫显得较为“体贴” 站长Google 爬虫占用服务器的资源非常少,通常是先 用 head 来查看网页是否更新,如果更新了再抓取整个页面,这种方法耗费流量较少。而百度则不管三七二十一上来就抓整个站,有时甚至不遵守 robots 规 则,而且其爬虫数量非常庞大,对于页面较多的网站通常会耗费惊人的流量,并且常常造成恶劣的后果。 当然,百度这种“贪婪” 爬虫 抓取方 法,虽然会让用户能够在百度搜索出一些 Google 里搜索不到的页面,但这实在是损人利己。其带给网站站长不少负面效果:服务器和带宽资源过度消耗,垃圾 站被变相鼓励了,原创的有特色的网站则被边缘化,MP3 音乐网站则更苦不堪言自己的 MP3 被百度盗链后带来大量文件下载却没有带来页面访问。 因此,中国的网民也出现了很奇怪的现象:大量的新网民和菜鸟新手喜欢用百度搜索,因为百度往往搜索到很多别处搜索不到的页面,但内容的匹配度则令人质 疑,而专业人士和老鸟则更喜欢用 Google,个人站长则普遍和百度有“个人恩怨”。因此百度在业界的 Blog 以及社区中口碑都不太好,但在普通的低层次 的网民心中却不错,这些大量的普通网民给百度带来了大量流量.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报