1、 搜索引擎优化基础教程 本教程由站长百科( )教程制作组整理作 者: 月飞春秋 站长百科 制 作 者: 站长百科教程制作组 制作时间: 2009 年 3 月 21 日 制作网站: 站长百科 版 权: 站长百科 使用说明 本电子书的内容来源于网上搜集的资料以及一些 SEO 相关的教程。制作组人员把搜集的相关的资料进行了整理“去其糟粕,取其精华“,把 SEO 最基本的内容、最基本的知识,以最简便的方式展现给大家。 既然是基础教程,讲的当然都是 SEO 最基本的内容了,例如:佩奇等级、 robots.txt 等相关知识, 对于刚刚涉足于搜索引擎的朋友来说,可能对这些比较迷茫,但,通过本书能很快的了
2、解这些内容。 本电子书为 PDF 格式,为了方便您浏览,我们为电子书制作了书签。可以用两种方式来导航: 1.点击左侧的书签标志,打开书签,点击书签的内容就可以转到对应页面 2.使用本电子书的目录,点击可进入相应页面。 您也可以利用 PDF 的搜索功能来快速查找您需要的内容。 本书是我们推出的第一本电子教程, 搜索引擎更高级的优化方法,我们将在第二本的电子书中进行介绍, 届时我们讲介绍最常用的优化方法以及优化技巧,热爱搜索引擎优化的朋友尽请期待吧! 本电子书由站长百科教程组制作, 虽然是对收集的资料进行整理,但是,教程制作组人员为此也付出了的辛勤的汗水,所以,请勿私自将全部或部分用于商业用途。转
3、载书中内容请注明出处。 本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 1第一章: 搜索引擎基础3 第一节:什么是搜索引擎 .3 1.1.1.搜索引擎的作用 3 1.1.2.搜索引擎的定义 3 第二节:搜索引擎的工作原理 .4 1.2.1 探寻蜘蛛和机器人 4 1.2.2. 如何辨别搜索引擎机器人身份 5 第三节:SiteMap 介绍 6 1.3.1.什么是SiteMap .6 1.3.2. Sitemaps 文件的位置 7 1.3.3.XML Sitemaps 格式 .8 1.3.4.创建 SiteMap .11 1.3.5. 使用 Sitemaps 索引文件 .12
4、1.3.6. 验证您的 Sitemaps .13 1.3.7.提交 SiteMap .14 第四节:Robots.txt 介绍 15 1.4.1.什么是 Robots.txt 15 1.4.2. robots.txt 的语法格式 .16 1.4.3. robots.txt 使用技巧.18 1.4.4. robots.txt 用法举例: .19 1.4.5.robots.txt 举例 .20 1.4.6.常见 robots.txt 错误.20 第二章:主要搜索引擎介绍 .22 第一节:Google .22 2.1.1 关于 Google.22 2.1.2Google 的 P ageRank 技术
5、 .23 2.1.3. Google 的 SiteMap 技术 24 2.1.4. 网站管理员工具 27 第二节:百度 .28 2.2.1.关于百度 28 2.2.2.百度的 SiteMap .29 2.2.3.百度论坛的开发协议 31 第三节:YaHoo(雅虎) .34 2.3.1关于雅虎 .34 2.3.2.YaHoo 中国 35 2.3.3.中文搜索引擎列表 35 第三章:网站的基本查询方式 .35 第一节:域名查询 .35 第二节:收录查询 .36 3.2.1. 网站是否被收录 36 3.2.2. 网页收录数量 37 第三节:反向链接查询 .38 第四节:网站 PR 查询 .38 第五
6、节:关键词排名查询 .38 本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 2第六节:ALEXA 查询 39 3.6.1. 什么是 Alexa? .39 3.6.2.Alexa 的主要数据 .39 3.6.3.Alexa 的作用 .40 3.6.4提高 Alexa 排名 .40 第四章:搜索引擎优化基础 .42 第一节:搜索引擎优化的定义和价值 .42 4.1.1 搜索引擎优化的定义 42 4.1.2.搜索引擎优化的价值 43 第二节:搜索引擎优化究竟为了什么 .44 4.2.1.SEO 体现网站效果 .44 4.2.2.SEO 的终极目标和实现目标 .44 第三节:白帽
7、 SEO 和黑帽 SEO 44 第四节:关于搜索引擎优化的一些观点 .47 4.4.1搜索引擎优化合法吗? .47 4.4.2.会不会和搜索引擎对着干? 47 4.4.3.我的网站有大量的优质原创内容,所以我不需要 SEO 了。 .47 4.4.4.SEO 没有技术含量或 SEO 需要很高深的技术 48 4.4.5.大网站那样做了,我也向他们学习 48 4.4.6.SEO 企业或 SEO 工具的保证排名宣传 48 4.4.7.稳定的排名 49 4.4.8.竞争对手无法破坏我的排名 49 第五章:网站设计的优化操作 .49 第一节:域名对 SEO 的影响 .49 5.1.1.域名的基本常识 49
8、 5.1.2 不同后缀的域名在搜索引擎中的权重 51 第二节:主机对 SEO 的影响 .51 5.2.1. 共享主机、独立主机的区别? 51 5.2.2. 主机服务商选择 52 5.2.3.主机服务商转移: 53 第三节:对搜索引擎友好的设计 .53 5.3.1. 目录结构 53 5.3.2.URL54 5.3.3.导航结构 55 5.3.4. 框架结 构 56 5.3.5. 图片优化 57 5.3.6. FLASH 优化 57 5.3.7.404 错误页设置 .57 第四节:网站设计思维 .58 5.4.1.重视网站结构一致性 58 5.4.2.W3C 浏览器兼容验证 58 附录 A:搜索引
9、擎优化常用术语 ( 中英对照) 59 附录 B:网站管理员指南(Google)70 附录 C:百度的建站指导 .73 本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 3第一章: 搜索引擎基础 第一节:什么是搜索引擎 1.1.1.搜索引擎的作用 如果非要列举出搜索引擎能做什么,恐怕没有人可以给出完整的答案。现在的网站用户大部分是通过搜索引擎进入的,如果用户要购买一件商品,他不知道去那家网上的商店去购买,他就会去搜索, 我们的搜索引擎就是满足足用户的这些需求。 我们都知道,现在的互联网上有大量的垃圾信息,而我们的搜索引擎的作用就是将比较好的网站,和质量高的网站排在页面的前面,
10、这样用户 就能很快通过引擎找到他们的东西了,这应该就是引擎的作用。 1.1.2.搜索引擎的定义 给搜索引擎下定义是困难的,有人认为搜索引擎就是百度,有人认为搜索引擎就是Google,有人认为搜索引擎就是Yahoo 。 如果非要给个定义,就让我们来看看微软大百科全书(MSN Encarta )是怎么定义搜索引擎的吧: 所谓的搜索引擎(Search Engines )是一些能够主动搜索信息(搜索网页上的单词和简短的特定的内容描述)并将其自动索引的 Web 网站,其索引内容储存在可供检索的大型数据库中,建立索引和目录服务。它是一个为你提供信息“ 检索 ”服务的网站,它使用某些程序把互联网上的所有信息
11、归类,以帮助人们在茫茫网海中搜寻到所需要的信息。 本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 4第二节:搜索引擎的工作原理 1.2.1 探寻蜘蛛和机器人 搜索引擎要知道网上的新生事物,就得派人出去收集,每天都有新的网站产生,每天都有网站内容的更新,而且这些产生的网站数量、更新的网站内容是爆炸式的,靠人工是不可能完成这个任务的,所以搜索引擎的发明者就设计了计算机程序,派它们来执行这个任务。 探测器有很多叫法,也叫 Crawler(爬行器) 、 spider(蜘蛛) 、 robot(机器人)。这些形象的叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息,Goog
12、le 把它的探测器叫做 Googlebot,百度就叫 Baiduspider,Yahoo 称为 Slurp,无论它们叫什么,它们都是人们编制的计算机程序,由它们不分昼夜的访问各个网站,取回网站的内容、标签、图片等,然后依照搜索引擎的算法给它们定制索引。 网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 5网站,那么网络蜘蛛就可以用这个原理把互联
13、网上所有的网页都抓取下来。 当抓取到这些网页后,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在 URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。 建立网页索引数据库后,当用户输入关键词搜索,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由检索器将
14、搜索结果的链接地址和页面内容摘要等内容组织起来,返回给用户。 1.2.2. 如何辨别搜索引擎机器人身份 搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器人身份是否合法。 在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,则 user-agent会显示Googlebot 或 MSNBot等搜索
15、引擎漫游器名称,每个搜索引擎都有自己的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot ,以伪装蒙混进入网站,大肆采掘内容。 目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。 首先,使用DNS 反向查询(Reverse DNS Lookup ),找出机器人IP地址对应的主机名称。主流搜索引擎的主机名称通常情况下应是这样的: Google : 主机名称应包含于 域名中,如:crawl-66
16、-249-66-; MSN :主机名称应包含于 域名中,如:本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 6livebot-207-46-98-; Yahoo: 主机名称应包含于 域名中,如: 。 最后,做一次DNS 查询,用主机名查找IP地址( Forward DNS Lookup),以确认该主机名与IP地址匹配。由此证明该机器人是合法的。 现在,如果发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上的设置来阻止这个非法机器人。 第三节:SiteMap介绍 1.3.1.什么是 SiteMap Sitemaps 协议使你能够告知搜索引擎网站中可供抓取的网
17、址。最简便的方式就是,使用 Sitemaps 协议的 Sitemaps 就是列有某个网站所有网址的 XML 文件。此协议可高度扩展,因此可适用于各种大小的网站。它还能够使网站管理员提供有关每个网址的其他信息(上次更新的时间、更改的频率、与网站中其他网址相比它的重要性等),以便搜索引擎可以更智能地抓取该网站。 Sitemaps 在用户无法通过可浏览界面访问网站的所有区域时作用尤其明显。(通常,指用户无法通过追踪链接访问网站的特定页面或区域。)例如,那些只能通过搜索表单才能访问其中某些页面的网站都会从创建 Sitemaps 并将其提交到搜索引擎中获益。此文件说明 Sitemaps 文件的格式,并解
18、释您张贴 Sitemaps 文件的位置以便搜索引擎能够检索到。 请注意 Sitemaps 协议补充而不是取代搜索引擎已用来发现网址的基于抓取的机制。通过向搜索引擎提交一个 Sitemaps(或多个 Sitemaps),可帮助搜索引擎更好地抓取您的网站。 就算已经被 Google 和 Yahoo 收录,也还是有必要用 SiteMap 的,这是为什么呢?有以下两大原因: a) 用 SiteMap 有利于搜索引擎更加友好的对网站进行收录,不要让网站的收录有些漏洞或者收录不全。有了 SiteMap 可以很好的在这方面发挥作用。 b) 有了 SiteMap 并提交给搜索引擎之后,方便你在以后进行下一步的
19、工作,比如对网本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 7站的外部链接和内链错误进行更好的调整,这些都要用到 SiteMap 的提交功能。 因此,SiteMap 的整个作用是不容忽视的。如果你的网站属于下列情况,那么,使用SiteMap 会特别实用: A. 网站含动态内容。 B. 网站有不容易被发现的页面,如有大量富 AJAX 或 Flash 内容的页面。 C. 网站为新网站且指向网站的链接不多。 D. 网站有大量内容页存档,这些内容页相互没有很好地链接,或根本就没有链接。 E. 网站上网页的更改频率。 F. 各网页上次修改的日期。 G. 您网站上各网页的相对重要性
20、。 如果你的网站出现上面介绍的情况,那么,你就需要创建 SiteMap 了。 1.3.2. Sitemaps 文件的位置 Sitemaps 文件的位置决定该 Sitemaps 中所能包含的一组网址。位于 http:/ 的 Sitemaps 文件可包含以 http:/ 开始的任何网址,但不能包含以 http:/ 开始的网址。 如果您有更改 http:/exampl e.org/path/sitemap.gz 的许可,您应该也可以提供以 http:/example.org/path/ 作为前缀的网址的信息。http:/ 中,被认为有效的示例网址包括: http:/ http:/ 单引号 双引号 “
21、 大于 小于 XML 标记来识别。此示例中,为每个网址提供了一组不同的可选参数。 http:/ 2005-01-01 monthly 0.8 http:/ weekly http:/ weekly http:/ 本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 112004-12-23T18:00:15+00:00 0.3 http:/ 2004-11-23 您可以使用 gzip 压缩您的 Sitemaps 文件。压缩 Site maps 文件会降低对带宽的要求。请注意, 未压缩的 Sitemaps 文件不得大于 10MB。 1.3.4.创建 SiteMap 如果您有多个网
22、站,可以创建一个或多个 Sitemap 将所有经过验证网站的网址包含在其中,然后将这些 Sitemap 保存在一个位置,以此来简化 Sitemap 的创建和提交过程。您可以通过以下多种方式创建 Sitemap : 1.3.4.1 根据 Sitemap 协议创建 Sitemap : 1. 创建一个文本文件并将其带 .xml 扩展名保存。 2. 将以下内容添加到文件顶部: 3. 将以下内容添加到文件底部: 4. 为各网址创建一个条目。 为必需,其余标记为可选。 http:/ 2005-01-01 monthly 0.8 5. 将 Sitemap 上传到您的网站。 然后使用网站管理员工具将其提交给
23、Google 。 1.3.4.2.Sitemap 生成器 如果您可以访问网络服务器并且服务器装有 Python ,则可以利用我们的脚本来创建采用 Sitemap 协议的 Sitemap 。 Google Sitemap 生成器(后面的章节介绍)是一个 Python 脚本,可以使用 Sitemap 协本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 12议为您的网站创建 Sitemap 。 此脚本可以通过网址列表、网络服务器目录或通过访问日志创建 Sitemap 。 要使用此脚本: 1. 您需要连接到您的网络服务器,并在上面运行脚本。 2. 您的网络服务器需安装 Python
24、 2.2 或更高版本。 3. 您需要知道启动 Python 的命令。 (该命令通常为 python ,但可能会因安装不同而异。 ) 例如,如果网络服务器安装了两种版本的 Python,命令 python 可调用较早的版本,而命令 python2 则可调用较晚的版本。 4. 您需要知道指向贵网站的目录路径。 如果您的网络服务器托管一个网站,则路径可能是 var/www/html 等。 如果您拥有一个托管多个网站的虚拟服务器,路径可能是 home/virtual/site1/fst/var/www/html 等。 5. 您需要能够将文件上传到自己的网络服务器(例如,使用 FTP )。 6. 如果您
25、要根据访问日志生成一个网址列表,则需要了解用于这些日志的编码,以及指向它们的完整路径。 Sitemap 生成器可以用于生成常规 XML Sitemap 。 不过,一些特殊种类的 Sitemap (如代码搜索和视频 Sitemap ) 有非常独特的要求。 因此,您最好不要使用 Sitemap 生成器来创建这些 Sitemap 。 1.3.4.3 使用第三方工具 。 很多第三方提供了可用于创建有效的 Sitemap 的工具。 1.3.5. 使用 Sitemaps 索引文件 您可以提供多个 Sitemaps 文件,但提供的每个 Sitemaps 文件包括的网址不得超过 50,000 个,并且未压缩时
26、不能大于 10MB (10,485,760)。这些限制 条件有助于确保 Web 服务器不会因传输非常大的文件而遇到麻烦。 如 果要列出超过 50,000 个网址,您需要创建多 个 Sitemaps 文件。如果预计您的 Sitemaps 网址数量会超过 50, 000 个或大小超过 10MB,应考虑创 建多个 Sitemaps 文件。如果您的确提供了多个 Sitemaps,您可以将其列在 Sitemaps 索引文件 中。Sitemaps 索引文件只能列出不超过 1,000 个 Sitemaps。 Sitemaps 索引文件的 XML 格式与 Sitemaps 文件的 XML 格式非常相似。 Si
27、temaps 索引文件使用以下 XML 标记: loc lastmod 本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 13 sitemap sitemapindex 注:Sitemaps 索引文件只能指定与其位 于同一网站的 Sitemaps。例如,http:/ 可包含位于 http:/www.your 的 Sitemaps,但不能包含位于 http:/www.e 或 http :/ 的 Sitemaps。与 Sit emaps 一样,您的 Sitemaps 索引文件应为 UTF-8 编码。 XML Sitemaps 索引示例 下例展示了一个 XML 格式的 Sit
28、emaps 索引。该 Sitemaps 索引列 出了两个 Sitemaps: http:/ 2004-10-01T18:23:17+00:00 http:/ 2005-01-01 备注:与 XML 文件中的所有值一样,Sitemaps 网址需要 实体换码 . Sitemaps 索引 XML 标记定义 需要有 标记并用其来识别 Sitemaps 的位置。 标记是可选标记,用于指示相应 Sitemap 文件的修改时间。它并不对应于该 Sitemap 中列出的任一网页的更改时间。lastmod 标记的值应采用 W3C Datetime 格式。 通过提供最近修改的时间戳启用搜索引擎抓取工具,抓取工具将
29、只检索索引中的 Sitemaps 的一个子集,也就是说,抓取工具只检 索某特定日期之后修改的 Sitemaps。通过这一递增的 Sitemaps 提取机制,可以快速发现超大型网站上的新网址。 标记封装单个 Sitemaps 的相关信息。 标记会压缩有关文件中的所有 Sitemaps 的信息。 1.3.6. 验证您的 Sitemaps Google 使用 XML 架构定义可以出现在 Sitemaps 文件中的元素和属性。您可从以下链接下载此架构: 本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 14对于 Sitemaps: http:/ 对于 Sitemaps 索引文件:
30、http:/ 有多种工具可帮助您根据此架构来验证您的 Sitemaps 结构。在下面的每一个位置您都可以找到 XML 相关的工具列表: http:/www.w3.org/XML/Schema#Tools http:/ 为了根据某个架构验证您的 Sitemaps 或 Sit emaps 索引文件,XML 文件需要有附加的标头。如果您使用的是 Sitemaps 生成器,这些标头已经包含其中。如果您使用不同的工具创建 Sitemaps,XML 文件中的标头应如下例所示。 Sitemaps: Sitemaps 索引文件: 1.3.7.提交 SiteMap SiteMap 制作完成以后直接传到空间上(只
31、要传到网络上,能访问就行),然后在各个搜索网站提交。 本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 15向 Google 提交网站地图 Sitemap: 通过 http:/ 管理提交; 向 Yahoo!提交网站地图 Sitemap: 通过 http:/ 管理提交; 向百度 Baidu 提交网站地图 Sitemap: 没办法,现在百度不支持 Sitemap。但可通过http:/ 来提交你的网址。百度自行搜索,更新速度很快。 第四节:Robots.txt 介绍 1.4.1.什么是 Robots.txt robots.txt 是一个纯文本文件,通过在这个文件中声明该网站中不想
32、被 robots 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。 当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在 robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。 robots.txt 必须放置在一个站点的根目录下,而且文件名必须全部小写。举例来说,当spider 访问一个网站(比如 http:/)时,首先会检查该网站中是否存在 http:/ 这个文件,如果 Spider 找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范 围。
33、就算已经被 Google 和 Yahoo 收录,也还是有必要用 SiteMap 的,这是为什么呢?有以下两大原因: c) 用 SiteMap 有利于搜索引擎更加友好的对网站进行收录,不要让网站的收录有些漏洞或者收录不全。有了 SiteMap 可以很好的在这方面发挥作用。 d) 有了 SiteMap 并提交给搜索引擎之后,方便你在以后进行下一步的工作,比如对网站的外部链接和内链错误进行更好的调整,这些都要用到 SiteMap 的提交功能。 因此,SiteMap 的整个作用是不容忽视的。如果你的网站属于下列情况,那么,使用SiteMap 会特别实用: A. 网站含动态内容。 B. 网站有不容易被发
34、现的页面,如有大量富 AJAX 或 Flash 内容的页面。 C. 网站为新网站且指向网站的链接不多。 本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 16D. 网站有大量内容页存档,这些内容页相互没有很好地链接,或根本就没有链接。 E. 网站上网页的更改频率。 F. 各网页上次修改的日期。 G. 您网站上各网页的相对重要性。 如果你的网站出现上面介绍的情况,那么,你就需要创建 SiteMap 了。 1.4.2. robots.txt 的语法格式 “robots.txt ”文件包含一条或更多的记录,这些记录通过空行分开(以 CR, CR/NL, or NL 作为结束符),
35、每一条记录的格式如下所示: “: ”。 在该文件中可以使用# 进行注解,具体使用方法和 UNIX 中的惯例一样。该文件中的记录通常以一行或多行 User-agent 开始,后面加上若干 Disallow 行,详细情况如下: User-agent: 在“robots.txt“ 文件中,如果有多条 User-agent 记录说明有多个 robot 会受到“robots.txt“ 的限制,对该文件来说,至少要有一条 User-agent 记录。如果该项的值设为* ,则对任何 robot均有效,在“robots.txt“ 文件中,“User-agent:*“ 这样的记录只能有一条。 如果在“robot
36、s.txt“ 文件中,加入“User-agent:SomeBot“ 和若干 Disallow、Allow 行,那么名为“SomeBot“ 只受到“User-agent:SomeBot“ 后面的 Disallow 和 Allow 行的限制。 Disallow: 这个值可以是一条完整的路径,也可以是路径的非空前缀,以 Disallow 项的值开头的URL 不会被 robot 访问。例如“Disallow:/help“ 禁止 robot 访问/help.html 、 /helpabc.html、/help/index.html,而 “Disallow:/help/“则允许 robot 访问 /hel
37、p.html、 /helpabc.html,不能访问/help /index.html。 “Disallow:“说明允许 robot 访问该网站的所有 url,在 “/robots.txt“文件中,至少要有一条Disallow 记录。如果“/robots.txt“ 不存在或者为空文件,则对于所有的搜索引擎 robot,该网站都是开放的。 要拦截整个网站,请使用正斜扛。 Disallow:/ 要拦截目录及其中的所有内容,请在目录名后添加正斜扛。 本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 17Disallow:/private_directory/ 要拦截网页,请列出该
38、网页。 Disallow:/private_file.html Allow: 与 Disallow 项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以 Allow项的值开头的 URL 是允许 robot 访问的。例如“Allow:/hibaidu“ 允许 robot 访问 /hibaidu.htm、/hibaiducom.html、/hibaidu /com.html 。一个网站的所有 URL 默认是 Allow 的,所以 Allow通常与 Disallow 搭配使用,实现允许访问一部分网页同时禁止访问其它所有 URL 的功能。 注意:Disallow 与 Allow 行的顺序是有意义
39、的,robot 会根据第一个匹配成功的 Allow或 Disallow 行确定是否访问某个 URL。 使用 * 匹配字符序列 您可使用星号 (*) 来匹配字符序列。例如,要拦截对所有以“ 专用“ 开头的子目录的访问,可使用下列条目: User-Agent:Googlebot Disallow:/专用 */ 要拦截对所有包含问号 (?) 的网址的访问,可使用下列条目: User-agent:* Disallow:/*? 使用 $ 匹配网址的结束字符 您可使用 $ 字符指定与网址的结束字符进行匹配。例如,要拦截以 .asp 结尾的网址,可使用下列条目: User-Agent:Googlebot D
40、isallow:/*.asp$ 您可将此模式匹配与 Allow 指令配合使用。例如,如果 ? 表示一个会话 ID ,您可排除所有包含该 ID 的网址,确保搜索引擎蜘蛛不会抓取重复的网页。但是,以 ? 结尾的网址可能是您要包含的网页版本。在此情况下,可对 robots.txt 文件进行如下设置: User-agent:* Allow:/*?$ Disallow:/*? Disallow:/ *? 一行将拦截包含 ? 的网址(具体而言,它将拦截所有以您的域名开头、本电子书由站长百科 ()教程制作组制作 获取更多信息请访问站长百科 18后接任意字符串,然后是问号 (?) ,而后又是任意字符串的网址
41、)。 Allow: /*?$ 一行将允许包含任何以 ? 结尾的网址(具体而言,它将允许包含所有以您的域名开头、后接任意字符串,然后是问号 (?),问号之后没有任何字符的网址)。 1.4.3. robots.txt 使用技巧 1. 每当用户试图访问某个不存在的 URL 时,服务器都会在日志中记录 404 错误(无法找到文件) 。 每当搜索蜘蛛来寻找并不存在的 robots.txt 文件时,服务器也将在日志中记录一条 404 错误,所以你应该在网站中添加一个 robots.txt。 2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录保证服务器性能。 比如:大多数网站服务器都有程序储存在“cgi-
42、bin ”目录下,因此在 robots.txt 文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。 下面是 VeryCMS 里的 robots.txt 文件: User-agent: * Disallow: /admin/ 后台管理文件 Disallow: /require/ 程序文件 Disallow: /attachment/ 附件 Disallow: /images/ 图片 Disallo
43、w: /data/ 数据库文件 Disallow: /template/ 模板文件 Disallow: /css/ 样式表文件 Disallow: /lang/ 编码文件 Disallow: /script/ 脚本文件 3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在 robots.txt 文件里设 置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。 4. robots.txt 文件里还可以直接包括在 sitemap 文件的链接。就像这样: Sitemap: http:/www.*.com/sitemap.xml 本电子书由站长
44、百科 ()教程制作组制作 获取更多信息请访问站长百科 19目前对此表示支持的搜索引擎公司有 Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的 sitemap 文件,搜索引擎的蜘蛛自己就会抓取 robots.txt 文件,读取其中的 sitemap 路径,接着抓取其中相链接的网页。 5. 合理使用 robots.txt 文件还能避免访问时出错。 比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在 robots.txt 文件里设置来阻止搜索者直接进入购物车页面。 1.4.4. robots.txt 用法举例: A. 禁止所有搜索引擎访问网站的任何部分: User-agent: * Disallow: / B. 允许所有的 robot 访问 User-agent: * Disallow: 或者也可以建一个空文件 “/robots.txt“ file C. 禁止所有搜索引擎访问网站的几个部分(下例中的 cgi-bin、 tmp、 private 目录) User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/ D. 禁止某个搜索引擎的访问