1、搜索引擎,会搜索才叫会上网授课老师:谢剑,试一试,在百度里面,输入关键字“搜索引擎”,你发现什么?,概念,(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。,历史,1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网还没有出现,人们通过FTP来共享交流资源。 Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。 用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。
2、 虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。,互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。 用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。,组成,搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成: 搜索器:其功能是在互联网中漫游,发现和搜集信息; 索引器:其功能是理
3、解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表; 检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息; 用户接口:其作用是接纳用户查询、显示查询结果、提供个性化查询项。,工作原理,抓取网页 每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。 处理网页 搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。,工作原理,提供检索服务 用
4、户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。,信息搜集功能,定期搜索 即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 提交网站搜索 网站拥有者主动向搜索引擎提交网址,信息推荐原理,当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法(关联规则)通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等
5、计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。,搜索引擎的分类,分为:全文搜索引擎、目录引擎、元搜索引擎 全文搜索引擎 全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如google和百度;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。,搜索引擎的分类,目录索引 严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠
6、分类目录也可找到需要的信息。 淘宝(),搜索引擎的分类,元搜索引擎(META Search Engine) 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。中国期刊网(),搜索引擎及网站推广,头部内容与网站推广的关系 在一个网页中,之间,就是一个页面的头部信息部分,Google的蜘蛛优先抓取网页时的头部文件信息的描述,和关键字描述,百度的蜘蛛的喜欢程度不如Google。如何优化这部分的内容信息。关键字这个代码放到头部中去,文字长度一般介于150个字符左右,网站描述也放到头部中去,长度可以多关键字约大一些,约300个字符左右。标题页面标题最好能反应当前的内容描述
7、。,页面内容与网站推广的关系 页面内容是指访问网站是生成的页面内容,通常是指生成的html代码文件时之间的内容。百度的蜘蛛更喜欢这里的东西,而且这里面除去Html代码标记后的前300个字符通常显示为搜索引擎的检索时的描述内容,也是用户检查网站内容的关键之一。,页面超级链接与网站推广之间的关系 页面超级链接,就是网络蜘蛛游历整个网站的线索,W3C标准里,就有一条页面超级链接失效到一定程序,就不能通过W3C认证;同样,失效的超级链接也是网络蜘蛛对网站游历时,游历的一种标准。超级链接有两种情况,A同域下的链接,Google的蜘蛛比较喜欢这种链接方式。B不同域的链接,百度比较喜欢这种方式。要想优化这部
8、分内容Google采用Sitemap.xml文件提交,百度最好采用一个站长地图文件链接到主页。这里介绍一个免费工具(在线sitemap生成工具,http:/ 百度的工作周期相对来说比google短一些,百度大约在10天左右重新访问网站一次,Google大约在15天左右重新访问一次网站。由于一天之内不能游历全球所有的网站,如果推广网站时,能到更多的网站上提交相应的网站信息,也是加快蜘蛛收录网站内容的重要环节。,搜索引擎的自定义排名 这是搜索引擎公司益利的主要手段,搜索引擎公司由于可以自定义排名,和可以过滤一些关键字、词和网站,这样可以造成网站无法收录到搜索引擎的数据库中。如果长期内,你的网站在搜
9、索引擎中没有什么变化,可以考虑调整你网站里的字、词和网站里的内容。,竞价排名,竞价排名是一些搜索引擎公司所推出的一种按效果付费的网络推广方式,其具体做法是,广告主在购买该项服务后,通过注册一定数量的关键词,按照付费最高者排名靠前的原则,购买了同一关键词的网站按不同的顺序进行排名,出现在网民相应的搜索结果中。,竞价排名,竞价排名的基本特点是按点击付费,广告出现在搜索结果中(一般是靠前的位置),如果没有被用户点击,则不收取广告费。在同一关键词的广告中,支付每次点击价格最高的广告排列在第一位,下面其他位置同样按照广告主自己设定的广告点击价格高低来决定。,竞价排名特点,按效果付费,广告费用相对较低; 广告出现在搜索结果页面,与用户检索内容高度相关,增加了广告的定位程度; 竞价广告出现在搜索结果靠前的位置,容易引起用户的关注和点击,因而效果比较显著; 搜索引擎自然搜索结果排名的推广效果是有限的,尤其对于自然排名效果不好的网站,采用竞价排名可以很好弥补这种劣势; 广告主可以自己控制广告价格和广告费用; 广告主可以对用户点击广告情况进行统计分析。,