收藏 分享(赏)

02a+网络信息检索课件09版+检索原理和搜索引擎A.ppt

上传人:wspkg9802 文档编号:5430559 上传时间:2019-03-02 格式:PPT 页数:59 大小:4.51MB
下载 相关 举报
02a+网络信息检索课件09版+检索原理和搜索引擎A.ppt_第1页
第1页 / 共59页
02a+网络信息检索课件09版+检索原理和搜索引擎A.ppt_第2页
第2页 / 共59页
02a+网络信息检索课件09版+检索原理和搜索引擎A.ppt_第3页
第3页 / 共59页
02a+网络信息检索课件09版+检索原理和搜索引擎A.ppt_第4页
第4页 / 共59页
02a+网络信息检索课件09版+检索原理和搜索引擎A.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

1、网络信息检索* 1Click to edit Master subtitle style网络信息检索* 2Click to edit Master subtitle style课件制作:张胜光课件制作:张胜光第二章第二章 检索原理和检索原理和搜索引擎搜索引擎本章内容搜索引擎原理和概况搜索引擎原理和概况2门户网站和看不见的网站门户网站和看不见的网站6网络信息检索原理网络信息检索原理31网页搜索引擎简介网页搜索引擎简介3网页搜索引擎使用方法网页搜索引擎使用方法34P2P搜索引擎使用方法搜索引擎使用方法353网络信息检索第 2章 张胜光制作网络信息检索* 4Click to edit Master

2、subtitle style第一节 信息检索原理:关键词匹配原则1、从 “ 图灵实验 ” 说起大家都知道,计算机发展史上有一个重要人物图灵,他在上世纪 50年代曾经提出了一个假想的实验,认为计算机可以具有人类的思维能力,被称为 “ 图灵实验 ”。他并且预言,在 20世纪末,具有人工智能的计算机将会出现。但时至今日,仍未有任何一台计算机能通过 “ 图灵实验 ” 。5网络信息检索第 2章 张胜光制作2、计算机检索的奥妙:关键词匹配计算机既然如此 “ 无能 ” ,连三岁小孩的智能都不具有,那么为什么人们要在网上查找信息,却总要通过计算机帮忙呢?计算机检索的奥妙在哪里呢?原来,计算机实现检索的奥妙,就

3、在于它能把你输入的检索词,与它后台数据库中存储的文件关键词进行比对,如果能够匹配,就认为这条信息是你需要的,立刻输出给你。6网络信息检索第 2章 张胜光制作广义的信息检索:广义的信息检索: 是指将信息是指将信息按一定的方式按一定的方式 组织和存储组织和存储 起来起来,并根据用户的需要,并根据用户的需要 找出找出 相关相关信息的过程。信息的过程。 狭义的信息检索:狭义的信息检索:一个匹配一个匹配 ( Match)过程过程即用户即用户 使用检索语言使用检索语言 对自己的信息需对自己的信息需求求 予以描述予以描述 ,并在一定的,并在一定的 信息资源系统信息资源系统中进行中进行 描述匹配描述匹配 的过

4、程。的过程。3、什么是信息检索? 7网络信息检索第 2章 张胜光制作存 储检 索原始文献加工整理数据库提 问检 索输 出“爱因斯坦论文爱因斯坦论文 ”“论文论文 ”“爱因斯坦爱因斯坦 ” “论文论文 ”“爱因斯坦爱因斯坦 ”8网络信息检索第 2章 张胜光制作4、信息检索原理检索检索提问式提问式信息信息的选的选择与择与收集收集信息信息特征特征标标识识语语言言检索工具检索工具匹配匹配检检索索结结果果信信息息源源用用户户信信息息需需求求检索检索提问提问数据库数据库9网络信息检索第 2章 张胜光制作What? Where? How?5、信息检索的要领 10网络信息检索第 2章 张胜光制作6、信息检索类

5、型依信息存储和检索的方式依信息存储和检索的方式手工检索手工检索 ( Manual Retrieval)也叫传统信息检索,是利用各种印刷型检索工具来查找文献的一种方法。计算机检索计算机检索 ( Camputer-based Retrieval)也叫现代信息检索,是指利用计算机和网络来处理和查找文献信息的检索方式。11网络信息检索第 2章 张胜光制作7、主要计算机检索系统类型检索系统由一定的检索设备(计算机)和经过加工整理并存储在相应载体上的信息集合及其他设备共同构成的具有存储和检索功能的信息服务系统。v联机检索 (online search)v脱机检索( offline search)v光盘检索

6、( CD search)v网络检索( Internet/Web search)v全球数字图书馆系统( digital global system)12网络信息检索第 2章 张胜光制作8、 “ 关键词原则 ” 是信息检索的根本原则四次文献四次文献三大系列中文网站三大系列中文网站两类搜索引擎两类搜索引擎Keyword原则原则13网络信息检索第 2章 张胜光制作网络信息检索* 14Click to edit Master subtitle style第二节 搜索引擎的原理和发展概况1、网络信息资源种类1. WWW信息资源: web网页2. FTP信息资源:远程计算机上的文件夹3. Blog信息资源:

7、博客、播客等等信息资源4. Telenet信息资源:直接调用远程主机5. BBS 、新闻组信息资源:相当于论坛信息6. P2P信息资源:私人计算机上的信息资源7. 数据库和收费网站:如三大库三大馆15网络信息检索第 2章 张胜光制作2、网络信息资源的特点v信息量大、传播广泛v信息类型多样、内容丰富v信息时效性强、变化频繁v信息分散无序、但关联程度高v信息缺乏管理、良莠不齐所以在网络信息检索中,我们常常要借助于搜索引擎来帮助我们 “ 大海里捞针 ”。16网络信息检索第 2章 张胜光制作3、搜索引擎的概念、搜索引擎的概念 17网络信息检索第 2章 张胜光制作4、搜索引擎的发展历史 18网络信息检索

8、第 2章 张胜光制作搜索引擎发展历史元搜索元搜索引擎引擎1995Yahoo!1994Gopher1993Archie1990第二代搜索第二代搜索目录搜索目录搜索Google1996Baidu1999第三代搜索第三代搜索网页搜索网页搜索19网络信息检索第 2章 张胜光制作搜索引擎的起源 Archie所有搜索引擎的祖先,是 1990年由 蒙特利尔 的McGill University三名学生发明的 Archie(Archie FAQ)。 Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了 Archie。 Archie是第一个自动索引互联网上匿名 FTP网站文件的程序,但它

9、还不是真正的搜索引擎。 Archie是一个可搜索的 FTP文件名列表,用户必须输入精确的文件名搜索,然后 Archie会告诉用户哪一个 FTP地址可以下载该文件。 20网络信息检索第 2章 张胜光制作由于 Archie深受欢迎,受其启发,Nevada System Computing Services大学于 1993年开发了一个 Gopher( Gopher FAQ)搜索工具 Veronica( Veronica FAQ)。Jughead是后来另一个 Gopher搜索工具。现在这个工具主要用在国外大型图书馆的信息检索上。早期的另一个搜索工具 Gopher21网络信息检索第 2章 张胜光制作19

10、94年 4月,斯坦福大学的两名博士生,美籍华人杨致远和 David Filo共同创办了 Yahoo)。随着访问量和收录链接数的增长, Yahoo目录开始支持简单的数据库搜索。因为 Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。 Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。 Yahoo!-几乎成为 20世纪 90年代的因特网的代名词。第二代搜索:目录式搜索 Yahoo!22网络信息检索第 2章 张胜光制作1995年,一种新的搜索引擎形式出现了 元搜索引擎( Meta Search Engine)。用户只需提交一次搜索请求,由元搜索

11、引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是 Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。 好听不好用的元搜索引擎 23网络信息检索第 2章 张胜光制作第三代搜索:网页搜索它们都属于网页自动搜索它们都属于网页自动搜索引擎,有的还带有智能分引擎,有的还带有智能分析或析或 FTP、 P2P搜索功能搜索功能24网络信息检索第 2章 张胜光制作5、搜索引擎的

12、工作原理 25网络信息检索第 2章 张胜光制作26网络信息检索第 2章 张胜光制作搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎至少由三部分组成:v 爬行器(即机器人、蜘蛛等搜索程序)v 索引生成器(即网页索引数据库)v 查询检索器(即用户检索界面)随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。27网络信息检索第 2章 张胜光制作搜索引擎的工作原理就像超市索引生成器索引生成器(网页数据库)(网页数据库)爬行器爬行器(蜘蛛)(蜘蛛)查询检索器查询检索器(用户查询)(用户查询)因因特特网网28网络信息检索第 2章 张胜光制作利用能够

13、从互联网上自动收集网页的 Spider系统程序,自动访问互联网,并沿着任何网页中的所有 URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。第一步:从互联网上抓取网页第一步:从互联网上抓取网页因因特特网网29网络信息检索第 2章 张胜光制作第二步:建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。30网络信息检索第 2章 张胜光制作

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 中等教育 > 职业教育

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报