1、网络搜索引擎案例,邓发云 整理,2,现在搜索引擎有很多,我们在使用搜索引擎的时候需要根据自己的需求选择合适的引擎。例如,搜寻范围在国内网站,一般选用国产引擎如:搜狐 新浪网易 百度 国外搜索引擎:google ,3,简要介绍 新浪网搜索引擎是面向全球华人的网上资源查询系统。提供综合、网站、网页、新闻标题、新闻全文等10项查询服务。网站收录资源丰富,分类目录规范细致。目前共有24大类目录,一万多个细目和二十余万个网站,是互联网上最大规模的中文搜索引擎之一。采用百度搜索技术,内容丰富。支持中文域名查询 。,新浪(www.S),4,如何查询信息 新浪搜索提供“分类检索”和“关键词查询”两种查找方法
2、。 分类检索:是从搜索首页按照树型的主题分类逐层点击来查找所需信息的方法。 关键词查询:是用所需信息的主题(关键词)进行查询的方法。,新浪搜索引擎,5,重新查询:用本次键入的关键词重新进行查询(是默认的选项)。 在结果中再查:在上一次的关键词查询结果中再用本次键入的关键词进行查询。 在结果中去除:在上一次的关键词查询结果中去除本次键入的关键词再进行查询。,新浪的高级搜索,6,以“罗湖”为关键词搜索,共得到16个网站、30170个网页。,7,以“教育”为关键词在实例一的结果中进行“在结果中搜索”,共得到2个网站、30170个网页。,8,以“中学”为关键词在实例二的结果中进行“在结果中去除”,共得
3、到1个网站、47个网页。,9,以“罗湖 教育”为关键词进行“新闻标题”搜索,共得到1条新闻。 新浪找到 1 条新闻符合查寻请求:罗湖 教育,以下是第1至第1条搜索结果 罗湖 教育强区申报工程启动 2001-12-31 16:26:18,10,国内最著名的门户网站,也是最早的搜索引擎之一。互联网概念在国内的普及,搜狐功不可没。在2001年年初由CNAZ(中文网站评估认证网)举办的搜索引擎网络专项功能排名调查中,搜狐名列第一。 搜狐设有独立的目录索引,提供网站、网页、新闻、中文网址等多项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。 搜索规则:网站搜索(默认)时,范围仅限于自身目录中的注册网
4、站。网页搜索时则调用百度进行检索。,搜狐搜索引擎,11,可以通过“分类查询”和“关键字检索”两种方法查找信息。 它使用方法和新浪的使用方法几乎一样。不同点在于: 搜狐中文检索系统引擎会根据分类类目及网站信息与关键字串的相关程度来排列出相关的搜狐中文类目和网站。相关程度越高,排列位置越靠前。,搜狐搜索引擎,12,网易搜索引擎,与搜狐、新浪并称中国三大门户。,13,14,Google的特色, 最大的搜索引擎(收录的网页最多) 可检内容丰富: 网页、图像、网上论坛 排序技术最好的(按相关度高低排列) 多语种 检索功能强大 个性化设置 提问词拼写校验功能,15,Google基本检索语法,(1) 只搜索
5、完全一样的字词,不使用“词干法”,也不支持“通配符“(*)搜索; (2) 不区分大小写; (3) 在多个关键词之间自动添加“AND“ (4) 不支持“OR“运算符 (5) 专用语查询:只要在专用词语上加上双引号,就可以进行准确查询。 (6)加号 “+”:后面的词必须出现 (7) 用减号“”删除无关网页,,16,第一次进入Google,它会根据你的操作系统,确定语言界面。需要提醒的是,Google是通过cookie来存储页面设定的,所以,如果你的系统禁用cookie,就无法对Google界面进行个人设定了。 Google的首页排列了四大功能模块:网站、图像、新闻组和目录服务。,17,目录服务 利
6、用 Google 目录 可以根据主题来缩小搜索范围。例如,在 Google 目录的 Science Astronomy 类别中搜索“Saturn”,可以找到只与 Saturn(土星)有关的信息。而不会找到“Saturn”牌汽车、“Saturn”游戏系统,或“Saturn”的其它含义。,18,19,图像搜索Google 的“图像搜索”是网络上现今最好用的图像搜索工具,他们收录有超过 3.3 亿张图像供您查看。 要进行图像搜索,在图像搜索框中输入要查找的资料,然后单击“搜索”按钮。在查询结果页上单击缩略图即可看到原始大小的图像,同时还可看到该图像所在的网页。 如:BIN LADEN; GOLD F
7、ISH,20,新闻组新闻组Usenet或NewsGoups)是一个遍及全世界的巨大的电子布告栏系统,是一项通过网络交换信息的服务,它由个人向新闻服务器投递的新闻邮件组成。我们可以把Usenet看成是一个有组织的电子邮件系统,不过在这里传送的电子邮件不再是发给某一个特定的用户,而是全世界范围内的新闻组服务器。在这个布告栏上任何人郡可以贴布告,也可以下载其中的布告,usenet用户写的新闻被发送到新闻组后,任何访问该新闻组的人都有可能看到这个新闻。,21,Usenet历史悠久、成员众多,各种新闻讨论组数目惊人。Usenet使用层次型的分类结构来设置和组织新闻讨论组的范畴。它包含七种主要的范畴: C
8、omp 计算机相关学科的新闻组 Misc 多方面论题新闻组 News 关于Usenet的新闻 Rec 娱乐专题新闻组 Sci 科学技术与应用新闻组 Soc 社会科学专题新闻组 Talk 时事新闻讨论组,22,基本搜索 Google 查询简洁方便,仅需输入查询内容并敲一下回车键 (Enter),或单击“Google 搜索”按钮即可得到相关资料。 自动使用“and”进行查询. 不需要在关键词之间加上“and”或“+”。如果您想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就行了。 Google用减号“-”表示逻辑“非”操作。“A B”表示搜索包含A但没有B的网页。,23,Google用
9、大写的“OR”表示逻辑“或”关系。搜索“A OR B”,意思就是说,搜索的网页中,要么有A,要么有B,要么同时有A和B。 Google 会忽略最常用的词和字符,这些词和字符称为忽略词。Google 自动忽略“http”, “.com”和“的”等字符以及数字和单字,这类字词不仅无助于缩小查询范围,而且会大大降低搜索速度。 使用英文双引号可将这些忽略词强加于搜索项,例如:输入“数字化的图书馆”时,加上英文双引号会使“的”强加于搜索项中。,24,Google 不使用“词干法”,也不支持“通配符”(*) 搜索。也就是说,Google 只搜索与输入的关键词完全一样的字词。例如:搜索“air” ,不会得到
10、类似“airline”或“airlines”的结果。,25,类似网页 单击“类似网页”时,Google 开始寻找与这一网页相关的网页。 如果您对某一网站的内容很感兴趣,但又嫌资料不够,oogle 会帮您找到其他有类似资料的网站;如果您在寻找产品信息,Google 会为您提供相关信息,供您比较. Google 已为成千上万的网页找到了类似网页,但网页越有个性,能找到的类似网页就越少。例如,您独树一帜的个人主页就很难有类似网页。,26,网页快照 Google 在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”时,您将看到 Google 将该网页编入索引时的
11、页面。在显示网页快照时,其顶部有一个标题,用来提醒您这不是实际的网页。符合搜索条件的词语在网页快照上突出显示,便于您快速查找所需的相关资料。 尚未编入索引的网站没有“网页快照”,另外,如果网站的所有者要求 Google 删除其快照,这些网站也没有“网页快照”。,27,手气不错 按下“手气不错”按钮将自动进入 Google 查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。 网页翻译 Google提供了网页翻译功能!目前只支持有限的拉丁语、法语、西班牙语、德语和葡萄牙文.,28,Google 可指定检索文件类型,PDF:
12、互联网最流行的全文传输格式 PPT:Powerpoint文档 DOC:Word文档 XLS: EXCEL文档 SWF:FLASH动画 RTF:Rich Text File,29,一般检索功能,基本检索功能 定位检索功能 高级检索功能 网页目录检索 获取检索结果及进一步查询 二次检索功能,30,检索策略,如何查找有关“肺癌”的网络信息?,31,Google主页(中文界面),32,GOOGLE检索结果界面,33,检索策略调整技巧,1. 限定语种:所有中文 244,00098,300 2. 选择更专业的提问词:肺癌肺肿瘤 98,3001,650 3. 利用精选的网页目录,34,检索策略调整之一:限定
13、中文网页,35,检索策略调整之二:利用更专业的词汇,36,检索策略调整之三:利用网页目录,37,检索策略调整技巧,4 利用搜索引擎的高级检索模式 限定提问词在“搜索结果”中出现的形式 指定检索以某一语言编写的网页 限定要查询的网页更新的日期 指定查询字词位置(网页中的任何地方、网页的标题、网页的内文、网页的链接上) 限定搜索某一网域的网页(gov、edu、com) “类似网页”:自动搜索某一网页的类似网页 “链连”:搜索与某一网址建立了链接的网页,38,Google高级检索模式,39,检索策略调整技巧,5 增加查询条件 查找泰素治疗肺癌的网页文章 泰素 肺癌:2,240 6 使用双引号,实现精
14、确短语匹配 “泰素治疗肺癌”:1,880 7 查找英文网页 taxol lung cancer:19,100,40,检索策略调整技巧,8 利用Google高级检索语法 将文献类型限定为“pdf”, 可获取免费全文提问式“filetype:pdf 肺癌”或“ filetype:pdf taxol lung cancer “ 获取WORD文档提问式“filetype:doc 肺癌”,41,检索策略调整技巧之获取PDF格式全文,42,获取PDF格式的论文全文,43,检索策略调整技巧之获取WORD文档,44,检索策略调整技巧:Google 2003/7/18) 提问词 获取网页数,肺癌(所有语种) 2
15、44,000 肺癌(所有中文) 98,300 肺肿瘤(所有中文) 1,650 肺癌(网页标题,所有中文) 2,550 肺癌(网域限制为) 2,500 肺癌 泰素(所有中文) 1,860 “泰素治疗肺癌”(所有中文) 1,590 taxol lung cancer(所有网站) 19,100 filetype:pdf taxol lung cancer 3,370 filetype:doc 肺癌 1,120,45,3. 查找互联网上有关肺癌的图片,46,Google图像搜索界面,47,Google图像搜索结果,48,获取所需图片,49,Google高级图像搜索界面,50,4. 查找并参与互联网肺癌
16、有关网上论坛,51,网络学术交流:网上论坛,Usenet,也称newsgroup, 也有人称为电子论坛(electric forum),是按照不同的专题组织的,吸引世界各地从事相同工作或具有共同爱好的人参加讲座、交流观点、寻求帮助的场所。,52,(Google网上论坛搜索界面),53,(网上论坛中具体发言),54,网页目录界面,55,Health网页目录,56,李敖为什么骂柏杨“柏小人”?,李敖 柏杨 柏小人 要查和两个人相关的资料,只需输入这两个人名,再如王菲 高原查王菲和高原之间关系, 杨钰莹 董文华查董文华和杨钰莹两人之间的关系, 杨钰莹 保时捷查杨钰莹和保时捷之间的关系,57,想了解n
17、ba篮球教练杰克逊的信息,杰克逊 nba 搜索“杰克逊”,可能有很多个,怎么办?你要分一下,比如前公牛教练,你应该加上 篮球 或 公牛 唱歌的那个,就加上 歌 mp3 什么的, 民权领袖,就加上 民权,58,查 字,不会写沧海一声笑作词者的名黄 mp3 沧海一声笑 用于查找“霑”字。 寻找总理“朱*基“的相关资料,但是打不出中间那个字. 朱 基如果打不出中间的字,留着空格也行 看到“璩美凤“最近很热门,但不知道那个姓怎么念或怎么输入。 美凤用于寻找“璩美凤“,因为有些人可能不知道拼音或者系统中没有而不能输入这个“璩“ 字,59,想找复旦大学图书馆的网址,复旦大学 图书馆 如果直接找复旦大学的网
18、站,然后再去图书馆,虽然也可以,但是要浪费很多时间和点击,现在的全文搜索引擎,对这一类搜索很有把握,绝大多数情况下搜索结果第一条就是你要找的大学图书馆网址。 其它大学的图书馆、学院、系、专业,亦可用相同方法找到。,60,壹周刊报道希望工程贪污,相关部门说它诽谤,想了解一下相关资料,壹周刊 希望工程 -诽谤 搜索壹周刊 希望工程搜出大量媒体报道,但内容多雷同,且都排在搜索结果前列,因此必须减去某种类型的报道,以了解另一种角度的报道,因为某种媒体会统一使用“诽谤“这个特色词汇来表达对此案的观点,所以减去“诽谤“后,可跳过单一角度的报道看更多的说法.,61,想知道某个新名词T3是什么意思,什么是T3
19、 你所碰到的问题,别人也多半碰到过,对于常见名词,只要用“什么是*“就能准确的搜到答案。 再如,什么是搜索引擎、如何远程登录 、如何打开wdl文件 、什么是远程登录 、什么是USB、远程登录指南 、如何挑选显示器 、如何升级bios 、如何办理出国手续,62,想查“毛伟“的个人资料,毛伟 年 毕业 工作 用人名和描述个人资料的几个属性词汇,可以找到某人的个人资料。因为重名的很多,所以如果确定找哪一个人并了解一些他的信息,那么也可以加上他的个人资料中一定会有的单位或学校或地名。 如查CNNIC的毛伟,则可以用毛伟 年 毕业 工作 cnnic,如果确定某些人的个人资料中会有关于结婚的内容,还可以加
20、上结婚,如毛伟 年 结婚。,63,想找偶像赵薇的个人资料,赵薇 个人资料 偶像级人物,会有人整理出个人传记和个人资料,因此也可以只搜索和个人资料,又如成龙 个人资料。 “个人资料“和“赵薇“属于半稳定关键词,但如果并不一定要找到所有资料,那么也已足够,如果要变化,则变“个人资料“,可以用个人资料中你已经可以肯定的一部分稳定词汇查找,如年、星座、最喜欢、体重、身高、小燕子、最喜欢。,64,寻找海淀区附近射箭玩乐地点和价格,海淀 射箭 元 即使该公司无主页,网上也可能有人提到其价格和玩法的。而提到的网页正文中,会有价格的. 如果想找某个特定场所的价格,则可以用那个场所名称加上射箭和元来搜索捷豹 射
21、箭 元,65,要去“坝上“旅游,想了解一下相关事宜早作准备,旅游 坝上 或坝上 旅游 查找旅游方面的信息可以用很多词,像旅游、旅行、观光、出游等等,可是要想获得全面而丰富的信息,就应该选择最常见、最普通的“旅游“两个字。使用其它关键词查到的结果会更少更差。,66,想找王小丫的照片,王小丫 图 王小丫不象女明星那样出版过写真,所以不能用王小丫 写真,用王小丫 图片王小丫 照片的搜索效果也不好,很多新闻中会有“图“这个字,因此用王小丫 图以搜索到更多图片。 另一种搜索方法是:利用中文图像搜索引擎搜“王小丫”,67,寻找红色警戒游戏下载,红色警戒 游戏 下载 搜索红色警戒游戏下载结果数可能为零,因为
22、网页上不大会有这段文字,但用有这个游戏下载的网页上很可能有这三个词汇:红色警戒、游戏、下载,68,从网上下载一首高山流水的MP3试听。,高山流水 MP3 高山流水 MP3 下载 高山流水 MP3 down 搜索音乐并下载是很多人上网的目的之一。如果我们简单的只是搜索歌名,那就很难达到目的。所以,这个题目要告诉大家的是,搜索一首已知歌名的MP3,在歌名后用空格键加上“MP3“、“下载“、“down“,一类的关键词,是非常有效的。,69,比较一下“周星驰“和“鲁迅“在互联网上的名气谁大,分别搜索周星驰、 鲁迅 哪个的搜索结果多,就可以默认为哪个更有名。可以以这种方法来比较两个人或两种产品或两本小说
23、等的互联网流行程度。,70,3天以后要去哈尔滨出差2天,想在网上了解哈尔滨那段时间的天气状况,哈尔滨 5日 天气预报 想了解的是未来35日内哈尔滨的天气情况,因此输入“哈尔滨5日 天气预报”进行查找。通过对搜索结果的判断与点击了解到哈尔滨气象热线以及雅虎中国可以提供5日内的天气预报,符合要求。而在门户网站、地方子站以及地方信息港中查询,即使有天气预报也基本为当天或者48小时以内的天气预报。 因此,显然在哈尔滨气象台的网站或者雅虎中国的天气频道查看天气的方法比较好。由此题,我们获知在网上查询天气预报比较好的办法是尽可能地找到地方气象台的网站或者去雅虎中国,比较起来地方气象台的信息可能会更准确一些
24、。,71,写文章时词穷,想找“互联网已成为“的资料,互联网已成为 搜索某类文章中可能有的一句话特别是开头,可精确搜到该类文章,72,血常规检验报告单中看到一项指标(WBC)高于正常值,请问WBC是指什么?,血常规 WBC 体检的报告但由于使用了很多医学术语,很多人都不大看得懂。这一次我们就用搜索引擎来帮助李林看看血常规化验单吧。在搜索引擎中输入“血常规 WBC”,我们就可以知道WBC代表的是“白细胞计数”。下一次,你要是也有看不懂的化验单或者其他的医学名词,试试搜索引擎吧。,73,半夜里,突然牙齿痛得厉害,不方便去医院,只好上网找紧急止痛方法。以下哪些关键词可以找到止牙痛方法?A 牙齿 止痛B
25、 牙齿痛得厉害 C 牙痛D 牙齿止痛,牙齿 止痛 牙痛 关键词牙齿、止痛、牙痛比较容易理解,此题想说明网上有相当多的医药资料,有些小问题可以通过搜索来应急。当然,网络不可代替医生,有条件的情况下网友还是应该先上医院。,74,寻找附近某行业的工厂,廊坊 面粉厂 山东 淀粉加工 上海 纺织厂 如果你只输入面粉厂、淀粉加工、纺织厂等关键词,就会出现全国各地的公司。如果你希望与地理距离较近的公司合作,最好加上你的城市名。,75,怎么用泥鳅做菜呢?,菜谱 泥鳅 用两个关键词组合搜索就是有无穷的奥妙和用处,在这里,只要你把任何食品名称和“菜谱”一起输入搜索引擎,一般都会很准确的找到该食品的各种烹饪方法。
26、如果想搜针对特殊对象的食谱,也只要加上对象名称搜即可,如“食谱 婴儿”“孕妇 食谱”“糖尿病 食谱”“皇帝 食谱”“减肥 食谱”。,76,找软件winzip8.0的注册码,winzip 8.0 sn winzip 8.0 序列号 winzip 8.0 注册码 共享软件下载完之后,使用的时候,软件总跳出警示框,或者软件的功能受到一定限制。由于中国的网民多是穷棒子,所以应该再找一个注册码。找注册码,除了软件的名称和版本号外,还需要有诸如“serial number”、“sn”、“序列号”等关键字。现在,来搜索一下winzip8.0的注册码,77,查阅天龙八部具体是哪八部,天龙八部 阿修罗 天龙八部
27、 佛教 -金庸 如果光用“天龙八部”做关键字,搜索结果有20,300项,而且排前列的主要与金庸的小说天龙八部相关,很难找到所需要的资讯。可以用两个方法减少无关结果。 1,如果你知道八部中的某一部,比如阿修罗,增加“阿修罗”关键字。“天龙八部 阿修罗”的搜索结果就只有1,050项,可以很快找到全部八部。 2,如果你不知道八部中的任何一部,但知道这与佛教相关,可以排除与金庸小说相关的记录。“天龙八部 佛教 -金庸”的查询结果为1,120项,可以迅速找到需要的资料。,78,想知道产品“塑封机“的售价,塑封机 元 价格 报价 万 千 塑封机 元 OR 价格 OR 报价 OR 万 OR 千“|“等同于“
28、OR”,是各大主流搜索引擎通用的“或”检索语法。,79,哪里能下载卡通图片-小猪,pig filetype:gif google的图像搜索,因为是spider自动抓的,所以资料很丰富,而且可以使用各种高级搜索语法比如限定搜索某些格式的文件象gif。,80,想知道google收录了多少asp网页,filetype:asp -fkdls(限google) “filetype:asp -fkdls”的意思是:搜索所有asp格式的网页,并且减去所有含关键词fkdls的网页。因为没有网页含有关键词fkdls,所以理论上会列出所有的asp格式的网页。要搜索Google收录了其它多少格式的网页,也可以用这种
29、搜索方法。比如,用“filetype:pdf -fkdls”并且限制在简体中文搜索,可以知道Google收录简体中文的pdf网页3万多页。,81,要写个合同,想先找几份合同来参考参考。,filetype:doc 甲方 乙方 合同 合同中一般都有“甲方”、“乙方”、“合同”,而如果把文件格式限制在word文档中,则基本能保证搜到的都是合同文档。,82,想查找2000年7月-2001年7月的国内外大事应该.,1、所以,先用“国内外大事”搜索; 2、从搜索结果中可以判断,有两种网站可查“国内外大事”:一是新闻网站,二是高考政治复习网站; 3、然后,可以找一家查“国内外大事”比较方便的新闻网站,或者随
30、便找一个高考政治复习网站; 4、我找到新华网可查月度国内外新闻 (http:/ 5、找到网易可查半月版高考资料 (http:/ 这种内容很多,查别的网站也行, 如果要求特别高而时间又多,你随便找个门户网站的新闻频道一天一天往前翻吧;,83,google发音到底怎么念?,google是从googol衍生的,所以读音从googol。 googol的读音,可以去http:/www.m- 虽然很多词典都有各自优秀的表现,但目前最好的非专业网络词典是onelook (http:/ English 红烧肉 菜谱 红烧肉 meat 菜谱 蛋炒饭 rice 基于这样一种思路:即中文关键词+英文关键的搜索,可以
31、找到某一词语或句子的英文翻译(可以用“三个代表 three”查三个代表的英语怎么说 ),85,名家对人的眼睛或手的细致入微的描写,名著 眼神 睫毛 眼睛 名著 明亮 这类描写一般在小说中比较常见,所以关键词 名著 文学 小说之类关键词一定要有,描写眼镜一般注重描写眼神,所以描写眼神的关键词眼神痛苦明亮也要有,再加上眼镜的的一些具体结构名称,,86,网上 “波度”方面的资料。,第一次听到“波度”这个概念,查了查,原来它是用来描述金属表面粗糙度的。 用GOOGLE和scirus查了查,有几篇免费的论文,有几个关于测量波度的仪器生产公司的网站。在美国机械工程师协会的网站查到一些标准和一本金属表面粗糙度标准汇编,是需要付费的。 想全面了解波度这一专题包括标准在内的有关资料,作为制定这方面的行业标准的参考。因特网上的免费资料不可能满足他的需求。 (1)找到了金属表面粗糙度标准汇编,就已经体现了搜索的价值。 如果愿意出钱,就可以买回来。 (2)查到了美国机械工程师协会,这方面有什么问题,可以到那儿的BBS跟同业人员交流嘛,这是搜索价值的又一体现。 门户网站分类目录的第一大类是“娱乐与休闲”,搜索引擎是用来搜索而不是检索的。一个大学,为国外的数据库花了钱,当然应该多教教用户怎么充分利用。但对绝大多数非研究人员包括在校大学生来说,网络信息还是应该以免费资源为主。,