1、1基于 Web 的信息检索系统的研究摘 要基于 Web 的信息检索系统的研究,讨论了信息检索的原理、评价方法、研究现状和发展方向,也研究了主流的信息检索算法,对信息检索进行了仿真实验。重点介绍了信息检索的理论、算法和技术框架。提出了面向 Web 的个性化语义信息检索技术。为了解决或减少检索算法中 Hash 地址的“碰撞”,把 HASH 的思想和索引顺序表检索的思想,以及二分检索法的思想结合起来提出一种基于 HASH 表的二分检索法,通过理论分析和实验证明,该算法检索效率极高。关键词:信息检索; 原理;算法;软件框架2目录第 I 条 一、前言 .2第 II 条二、信息检索的研究目的 .2节 2.
2、01 (一)研究目的 .2第 III 条三、信息检索的原理与技术方法 .3节 3.01 (一) 、信息检索原理 .3节 3.02 (二) 信息检索的技术方法 .5第 IV 条四、信息检索仿真实验 .11节 4.01 (一) 、 文本处理与倒排文档的建立 .11第 V 条 总 结 .283第 VI 条 参考文献 .28第 VII 条 致 谢 .29第 I 条 一、前言1990 年以前,没有任何人能够检索互联网上的信息。应该说,所有的网络信息检索工具都是从 1990 年的 Alan Emtage 等人发明的 Archie 开的,虽然它只可以实现简单意义上的 FTP 文件检索。随着 world wi
3、de web 的出现和发展,基于网页的信息检索工具出现并迅速发展起来。1995 年基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的 Eric Selberg 等发明。伴随着网络技术的发展,网络信息检索技术工具也取得了十足的发展,已成为人们获取信息的重要手段。本文对信息检索的研究内容和研究目的、信息检索的研究现状、传统检索模型等基础内容进行简单介绍;在此基础上,重点介绍了个性化信息检索的相关理论、算法和技术框架。4第 II 条 二、信息检索的研究目的节 2.01 (一)研究目的随着计算机的普及和互联网的发展,要想从海量的信息中找到自己需要的信息无疑是一项极具挑战性的工作。显然,仅仅
4、依靠人工搜索和提取,其操作过程将非常繁琐,并且速度和效率极低,信息质量也得不到保证。解决人们获取信息的困难,迫切需要一些自动化的工具帮助人们快速找到真正需要的信息,这就是信息检索的任务。信息检索是互联网上最基础、最核心的技术。一个搜索引擎就是一个检索系统,它掌控着人们从信息海洋中获取有用信息的路径。第 III 条 三、信息检索的原理与技术方法节 3.01 (一) 、信息检索原理广义地讲,信息检索包含信息储存和信息检索两个过程。信息储存是对文献进行收集、标引及著录,并加以有序化编排,编制信息检索的工具的过程;信息检索是从大量的信息中查找出用户所需的特定信息的过程。而实施检索的主要方法就是利用各种
5、检索工具(见图 3.1) 。信息存储过程信息资源信息选择收集主题概念分析信息标引检索结果信息检索系统检索(标引)语 言5信息检索过程图 3.1 信息检索的原理(i) 1.信息储存信息储存的工作内容,主要是由标引人员通过对原始文献的阅读分析,对文献中的信息进行鉴别、提炼和浓缩,并采用特定的方式予以整理、保存起来。它大致有如下几个步骤:(1)选择文献。根据信息检索系统的主题、性质及任务等,结合原始文献本身的研究水平、角度及其信息质量,对原始文献进行适当的评价,从中筛选出符合要求的文献。(2)文献的概念分析。对所选文献进行仔细的主题分析,提炼出文献所论述的内容主题,归纳为代表文献内容的若干主题概念,
6、并确定这些主题概念之间的关系。(3)词汇转换。把文献的主题概念转换为适当的文献标识(或标引词) ,并以这此标识来表达文献的主题内容。这种转换需要严谨地建立在两个依据之上:一是必须以对文献的主题概念分析为依据,二是必须以信息检索语言为依据。前者主要决定转换什么的问题,即需要对文献中的哪些信息主题做出转换;后者主要决定怎样转换的问题,即把主题概念转换为哪些标识。(4)信息检索工具的编制。概括地讲,检索工具是信息检索系统的核心和概括,它主要包括两个有序化的序列,即文献序列和文献标识序列。文献序列是由文献描述体或文献本身按照一定的方式组织形成的有序化序列,构成文信息用户信息需求主题概念分析 检索提问6
7、献库。文献描述体是对原始文献内容的浓缩,常见的有文摘、题录等,这是信息检索所采用的传统和主要的方式。其主要作用是,使用户能够对文献内容有较为全面和准确的了解,进而做出是否需要获取原始文献的选择。随着计算机技术和通信技术的发展,现在已经有越来越多的信息检索系统采用全文本的方式,直接把原始文献本身组织为有序化的序列,尤其是因特网的迅猛发展,为全文本检索拓展了更大的发展空间。文献标识的序列,是由文献标识按照特定的顺序形成的有序化序列,构成文献库的索引。最常见的排列方式为字顺,即按照字母顺序或汉语拼音,排列为文献标识的序列。其作用主要是依靠字顺组织,提供对文献标识的快速查找,并与提问标识加以比较,据此
8、做出文献是否与提问相符的判断。这个标识比较的过程,也称为检索的匹配。(ii) 2信息检索信息检索的工作内容,主要是由检索人员接受用户的检索提问,对提问进行细致的主题分析,提炼出检索的主题概念,并编制出相应的检索策略。其工作步骤如下:(1)用户提问。在特定的条件下,用户会把头脑中信息需求转变为具体的检索行为。(2)提问的概念分析。分析检索提问,识别检索的真正主题内容,把检索主题分解为若干概念,并明确这些概念之间的关系。(3)词汇转换。把检索提问的主题概念转换为相应的提问标识(或称为检索词) ,并以这些标识来表达检索提问的主题内容。其依据同样有两个方面:一是对提问的主题概念分析,二是信息检索语言。
9、(4)检索的实施。根据所得到的提问标识,在文献标识序列中,按照其排序的规则,迅速地进行查找,并对文献标识与提问标识进行匹配比较。如果文献标识与提问标识相同,那就表明包含有该标识的文献与用户提问相符合,该文献被作为命中文献而进行检索输出;如果文献标识与提问标识不相同,则表明文献与用户提问不相符合,该文献被作为不命中的文献而排除。综合上述信息储存和检索两个方面,信息检索的原理是:由标引人员以文献或文献描7述体构成文献库,同时把文献压缩转换为文献标识,以此表达文献的特征和主题内容,并对这些文献库和文献标识,按一定的方式分别予以有序化组织,从而形成信息检索系统。这也就是信息储存的过程。检索时,把用户的
10、检索提问压缩转换为提问标识(检索词) ,以此表达提问的特征和主题内容,并将提问标识与信息检索系统中的文献标识进行对比,进而依据匹配与否,做出文献是否符合检索提问的判断。这也就是信息检索的过程。因此,信息检索的原理就是提问标识与文献标识的对比。节 3.02 (二) 信息检索的技术方法(i) 1 手工信息检索的技术方法(1)手工信息检索工具在手工信息检索工具中,目前主要使用的检索工具包括:(2)目录目录是图书或其他单独出版物规律化、系统化的记载,主要用于检索出版单位和藏书单位是否拥有信息检索者所需要的书刊。目录只涉及这些出版物的外部特征,如书名、卷数、作者、出版年月、版本号、出版社名称、页数等,但
11、有的附有十分简单明了的内容摘要。目录是历史上最早出现的信息检索工具,种类繁多,其中较为重要的有:国家书目、出版社目录、书店目录、馆藏目录、联合目录、专题目录等。(3)索引索引是把一种或多种书刊里的具体内容按一定的方式分别摘录,并注明出处,以便检索的一种工具。索引的种类也很多。按寻找文献内容特征的编制方法来分,有分类索引与主题索引;按取材来源,又分为图书索引、期刊索引、报纸索引及其他文献索引;按著录对象,可分为篇目索引、主题索引、条目索引、词语索引及辅助索引等。(4)文摘文摘是把文献资料的主要内容,如主要论点、论据、原理、重要数据、结论、适用范围等,由有一定水平和经验的编者将其准确、简要地摘录出
12、来,并注明出处后,经分类排8序而编制成的检索工具。文摘的主要作用是供快速而准确的阅读和检索,对查全率和查准率要求比较高。因此,文摘的编纂远较目录、索引来得艰巨、复杂,但所含的信息量远高于目录和索引。文摘主要类型包括指示性文摘、报道性文摘、统计性文摘等。(5)年鉴年鉴是以描述和统计的方式逐年提供某年度某一领域信息的工具书。年鉴包含的内容很丰富,从一部商贸年鉴中可以得到专家对某一行业或市场的综述、分析、回顾和展望,了解新出台的政策法规,最新的统计数据和企业介绍、调研报告、经济团体和研究机构的名录、经贸知识、理论研究、重要或最新产品、大事记、经济形势分析和预测等,因而最适合于各类现行资料的查询。作为
13、一种年度出版物,年鉴还能连续地反映事物的发展、停滞甚至倒退的趋势。年鉴种类很多,如中国经济年鉴、中国商业年鉴、中国广告年鉴、中国金融年鉴、中国物价年鉴、中国证券业年鉴等。(6)手册手册是汇集某一学科领域或业务部门专门知识的工具书,多是针对当前实践中的需要,以简明扼要的方式提供具体、实用的资料,供随时翻检查阅,故又称便览,也常冠以“概鉴” 、 “大全” 、 “要览” 、 “指南” 、 “必备”等名称。英文用 Handbook 和 Manual 表示,前者侧重反映“何物” (what)一类的信息,如数据、事实等,后者偏重“如何做” (how-to)之类的问题。手册种类也相当繁多,如市场预测实务全书
14、、公司开办与经营手册等。(7)百科全书百科全书是荟萃一切门类或某一门类知识、以概要方式介绍为主的多功能工具书。如果说词典的功能仅仅说明某一概念,则百科全书是“接着定义往下说”的工具书,它可以回答诸如“何时” 、 “何地” 、 “如何” 、 “为何”等背景性知识,内容详尽完备,查阅、检索功能都很突出,条目多由标题、释文、图表和参考文献组成,有的内容专深,卷帐浩繁,是补充知识的常用工具。中国大百科全书,不列颠百科全书等都是非常实用的检索工具。(ii) 2.手工信息检索工具的排检技术(1)字顺排检技术9字顺排检技术是指将检索工具的内容按字、词的一定顺序或规律,有系统地组织排列起来的技术。(2)分类排
15、检技术分类排检技术是指将信息素材按学科或事物性质系统地加以排列。该技术有按一种方式单独编排的,也有与按时间、地区排列技术相互配合使用的。(3)主题排检技术主题排检技术是指以规范化的自然语言为标识符号,来标引信息内容的排检技术。主题排检技术的一般形式是以主题词来揭示信息素材记述的中心内容或对象,主题词本身按读音或笔画或字母顺序加以排序。这种排检技术把属于不同学科、不同知识体系中论述同一问题的信息素材集中标引出来,揭示信息素材内容比较深入、广泛。(4)时序排检技术时序排检技术是指按时间的顺序组合信息素材的技术,多用于编制年表、年谱等检索工具。(5)地序排检技术地序排检技术是指按一定时期的行政区域来
16、排列信息素材的技术。这种技术可以把同一地区的有关信息素材集中在一起,全面地反映某一地区、某一国家的历史和现状。(iii) 3、 计算机信息检索的技术方法(1)联机信息检索的技术原理联机检索起源于 20 世纪 60 年代的美国。目前,联机检索业已形成了覆盖全球的信息检索系统,如 DIALOG、OCLC 等。我国从 20 世纪 80 年代开始从事国际联机检索,经过20 余年的发展也已建立起了自己的联机信息检索系统,如 ISTIC、MEIRS 等。联机信息检索系统是一个典型的计算机信息系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程。在信息存储的过程中,由系统按一定的规律对信息
17、进行加工处理,并赋予特征标识;在信息检索的过程中,由用户通过系统提供的检索指令,10向系统提交含有需求特征的检索表达式。计算机信息检索系统接收到正确的指令后,自动地将相关信息集合的特征标识与用户提交的检索特征进行“匹配” 。这种匹配完全是一种字符串的类比运算。匹配结束,系统自动给出存储信息的特征与检索提问的特征相符的记录篇数,即命中数量。用户通过显示命中记录的内容,判断检索是否成功,这就是联机信息检索技术的基本原理。(2)联机信息检索的服务方式联机信息检索的服务方式主要有以下几种:1)定题信息提供。这种服务是由检索系统工作人员将用户信息需求转换成一定的检索提问式,并将此提问式存入计算机中,信息
18、检索系统定期从新的文献信息中为用户检索,并按用户指定的格式为用户加以编排和打印。利用 SDI 服务,用户可定期获得所需要的最新信息,及时掌握同类专题的动态和进展。2)专题回溯检索。这是用户对检索系统中积累多年文献资料的数据库进行检索,查找一定时间范围以内或特定时间以前的文献,通常采用联机检索方式进行。此种服务的结果一般要求切题,但又无大的遗漏,尽量做到省机时、省费用。通过专题回溯检索进行专题查询或情报调研时,可全面系统地了解有关文献的线索。3)联机订购原文。联机检索的结果通常是一些文摘或题录形式的二次文献形式。用户通过阅读这些二次文献了解大致的内容,然后根据这些文献线索查找全文或通过 E-mail 方式索取。(iv) 4光盘信息检索光盘是继纸张、缩微胶片、磁存储器之后的一种用激光束记录和再现信息的存储载体。用于检索和阅读的光盘通常为只读光盘(CD-ROM) 。它是一种信息载体,而要对其中的信息进行检索和利用则需要计算机的配合。光盘产品自 20 世纪 70 年代出现以来,最初只用于娱乐,直到 1985 年人们才研制出第一种专用于信息服务的光盘。自此,以光盘为载体的数据库产品层出不穷,为信息产业的发展注入了新的生命力,特别是光盘与计算机的结合,使得信息检索模式发生了革命性的变化。