1、INTERNE检索,Internet起源于美国,1969年开始实现的Arpanet (Advanced Research Project Agency Network)计划,其目的是测试建立基于分组交换协议的网络的可行性,检验该网络在其一部分遭到打击并受到破坏的情况下,保持信息通畅的能力。,TCP/IPTransfer Control Protocol/Internet Protocol即传输控制协议/网际协议,Internet在中国,Internet在中国,中国国家公用经济信息通信网(ChinaGBNET),地址是IP协议提供的一种地址格式, 它为Internet上的每一台主机分配一个网络地
2、址,是运行TCP/IP协议的唯一标识。,XXX.XXX.XXX.XXX,202.113.64.2(天津理工大学),IP,DNS(domain name system)-域名控制系统,主机名.机构名.顶层域名,从左到右,域的范围变大。具有实际含义,比IP地址好记。, 天津理工大学,Internet上几乎在每一子域都设有域名服务器,服务器中包含有该子域的全体域名和地址信息。Internet每台主机上都有地址转换请求程序,负责域名与IP地址转换。,com 商业机构 org 非营利组织edu 教育机构 gov 政府部门 net 网管组织 int 国际组织mil 军事部门 info 信息机构,WWW浏览
3、World Wide Web简称WWW或Web,也称万维网。它不是普通意义上的物理网络,而是一种信息服务器的集合标准。,搜索引擎 Search Engine,Alan Emtage发明Archie 自动搜索各个FTP主机中的文件,,Life on the Internet.,从互联网抓取网页,建立索引数据库,检索排序,搜索引擎的原理:,搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库搜索引擎,也不能真正理解网页上的内容,它只能机械的匹配网页上的文字,一个完整的搜索引擎包括四个部分: 信息收集系统(机器人或蜘蛛) 存贮和管理系统(数据库) 检索系统( 包括对检索结果的评价系
4、统) 用户界面,检索技巧,分析检索的主题选择合适的搜索引擎抽取适当的关键词正确构造检索式及时调整检索策略,了解查询目的和要求 信息类型(全文、文本、图像、声音等) 查询方式(浏览、分类检索、关键词检索等) 查询范围(全文、网页、标题、FTP、软件、外文等) 查询时间,选择合适的搜索引擎,GOOGLE 可搜索所有网站,用户界面相当好。并且具有一定的大写、名词识别能力的快速搜索引擎,它的数据库是最大的,能找到别的搜索引擎所不能找到的东西。,百度 拥有目前世界上最大的中文搜索引擎,具有高准确性、高查全率、更新快以及服务稳定的特点,在中文的某些信息搜索方面,百度甚至比GOOGLE更胜一筹。,抽取适
5、当的关键词,如何抽取关键词:使用名词或物体做关键词检索式中使用2-3个关键词要注意同义词、近义词、相关词或同一术语的不同表达方式。如,internet、 web 、www,正确构造检索式及时调整检索策略,扩大检索范围,提高查全率的方法:,1、考虑同义词或近义词(使用布尔逻辑符or连接)2、选择较大检索范围的字段如摘要3、使用截词符4、使用上位词(如飞行器航天飞机载人航天飞机),缩小检索范围,提高查准率的方法:,1、使用and 、not等限制检索范围2、使用位置算符3、选择检索范围较小的字段4、使用二次检索5、使用下位词6、使用精确检索,对于固定短语可用“”引起来,对固定短语,用“”括起来进行检
6、索,以提高检索的精确度。如,“worle wide web”,高级搜索语法,检索词出现位置限定:标题:intitle网站:site文件类型限定:filetype:文件名后缀支持13种非HTML文件的搜索:pdf, doc, rtf, ppt, xls, swf, ps等,Intitle (在GOOGLE:allintitle)格式:百度: 关键词B intitle:关键词A GOOGLE:关键词B allintitle:关键词A含义: 所有搜索结果的网页的标题中都要包含“关键词A”。,SITE格式: 百度 : 关键词A site:含义: site是限定在某个网站内搜索关键词A,FILETYPE格式:关键词A filetype:文件格式后缀名含义:只收集相同文件格式的信息,辛弃疾:青玉案 “众里寻她千百度” 。,“Google”来自于数学名词“Googol”, Googol表示一个 1 后面跟着 100 个零。,用户名区分字母大小写,邮件服务器主机域名不区分字母大小写,E-mail的使用并不要求用户与注册的主机域名在同一地区。可以跨越整个Internet。,电子邮件,本文观看结束!,谢 谢欣 赏!,