收藏 分享(赏)

毕业设计(论文)-面向求职主题的搜索引擎的设计与实现(源程序).doc

上传人:QQ153893706 文档编号:2295244 上传时间:2018-09-09 格式:DOC 页数:43 大小:524KB
下载 相关 举报
毕业设计(论文)-面向求职主题的搜索引擎的设计与实现(源程序).doc_第1页
第1页 / 共43页
毕业设计(论文)-面向求职主题的搜索引擎的设计与实现(源程序).doc_第2页
第2页 / 共43页
毕业设计(论文)-面向求职主题的搜索引擎的设计与实现(源程序).doc_第3页
第3页 / 共43页
毕业设计(论文)-面向求职主题的搜索引擎的设计与实现(源程序).doc_第4页
第4页 / 共43页
毕业设计(论文)-面向求职主题的搜索引擎的设计与实现(源程序).doc_第5页
第5页 / 共43页
点击查看更多>>
资源描述

1、 编号 毕 业 设 计(论文)题目 面向求职主题的搜索引擎的 分析设计与实现 二级学院 计算机科学与工程学院 专 业 软件工程 班 级 学生姓名 学号 指导教师 职称 时 间 2014.5.12014.6.7 目录摘 要 .2Abstract.4第一章 引言 .61.1 选题的背景及研究意义 .61.2 主题搜索引擎的发展状况及优点 71.3 求职主题搜索引擎的主要研究内容 81.4 求职主题搜索引擎要达到的目标 .8第二章 求职搜索引擎的关键技术 102.1 网络爬虫 102.1.1 网络爬虫的基本结构及工作流程 .102.1.2 从爬虫的角度对互联网进行划分 .112.1.3 抓取策略 .

2、112.1.4 更新策略 .122.1.5 分布式抓取系统结构 .132.2 索引器 .142.2.1 建立索引 .142.2.2 搜索引擎的中文分词技术 .152.3 检索器 .162.4 用户接口 .162.5 排序算法 .172.5.1PageRank 算法概述 .172.5.2 从入链数量到 PageRank 17第三章 面向求职主题搜索引擎的需求分析 193.1 系统功能和目标 .193.2 功能需求 193.2.1 功能总体描述 .203.2.2 模块功能描述 .203.3 开发环境和运行系统 .27第四章 面向主题搜索引擎的设计 .284.1 系统总体架构设计 .284.2 系统

3、功能模块设计 .284.2.1 主题网络爬虫功能设计 .284.2.2 主题爬虫类的设计 .294.3 索引模块的功能设计 .304.3.1 索引模块的功能的概述 .304.3.2 索引的类的设计 .304.5 数据库设计 .314.5.1 数据库的 pdm 图: .314.5.2 数据库的描述 .31第五章 面向主题搜索引擎的实现 .335.1 主题爬虫的实现: .335.2 用户界面的实现 .355.3 中文分词的实现 .35第六章 结论和展望 .37致 谢 39参考文献 40摘 要全套源程序代码加 153893706随着信息化的高速发展,信息量正以指数规律迅猛增长,互联网已经成为人类最重

4、要的海量信源, “信息迷航”和“信息过载”已经成为日益严重的问题。基于Internet 的各类搜索引擎应运而生并得到了迅速发展。Google,百度等通用搜索引擎功能虽然非常强大,但是当使用它们来检索某些特定专业的信息时,通用搜索引擎系统就有些力不从心,面向主题的搜索引擎是一种分类细致精确、更新及时的搜索引擎。随着 Internet 信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为未来搜索引擎发展的重点与趋势。本文就基于面向主题搜索引擎的,提出了一种基于 Lucene 面向主题搜索引擎实现方案,实现了求职帮助信息主题搜索引擎。本文的主要叙述过程如下:首先,叙述了搜索引擎的发展背景和发展现状

5、及特点,回顾了搜索引擎的发展历史,比较了通用搜索引擎和主题搜索引擎的区别,体现了主题搜索引擎在专业搜索方面的优势。其次,对面向主题搜索引擎的关键技术分三大模块即:主题信息抓取、索引和检索进行了深入分析和实现。简单的实现了基于 Java 的全文索引引擎工具包Lucene,分析了 Lucene 与传统数据库相比的不同之处,体现了利用 Lucene 进行索引和检索的高效性、准确性。然后,基于以上关键技术,提出了求职帮助信息主题的搜索引擎设计方案。详细介绍了基于 Lucence 的应聘帮助信息主题搜索引擎的具体实现过程。最后,对论文的各项工作进行了总结,并指出了今后发展方向和进一步的工作,以便以后不断

6、更新和完善。基于 Lucene 的求职帮助信息主题搜索引擎系统,保证了对求职帮助信息的完全收录与及时更新,避免了强大的搜索噪音,提高了检索效率,能快、全、准地提供专题信息查询。本论文的主要研究内容:本文主要研究了主题搜索的网络爬虫。对 Apache Lucene 全文索引引擎工具包进行了深入剖析,及中文切分词技术。在分析了主题搜索引擎关后,提出了求职帮助信息主题的搜索引擎设计方案。深入剖析了在设计实现中运用的关键技术,并在剖析的基础上进行了扩展及二次开发,设计实现了基于 Lucene 的应聘帮助主题搜索引擎。【关键词】:网络爬虫、Lucene、信息索引、面向主题的搜索引擎AbstractWit

7、h the rapid development of information technology, the amount of information is growing at exponential law, the Internet has become the people.The most important data source, “getting lost in information“ and “information overload“ has become an increasingly serious problem.Internet all kinds of sea

8、rch engines emerge as the times require and has obtained rapid development based on. Google, Baidu etcUsing a search engine function is very powerful, but when to use them to retrieve specific professional information, general search engine system is a bit too.Subject oriented search engine is a kin

9、d of precise classification, timely updated search engine. Along with the explosive growth of Internet information and the development of pluralistic information, search engine is becoming focus and trend of future search engine development.This paper is based on the subject oriented search engine,

10、propose a Luccne topic Oriented Search Engine Implementation Based on, implement a job help info search engine. This paper mainly describes the process as follows:Firstly, this paper describes the development background and the development status and characteristics of search engine, review of the s

11、earch engine.Development history, the differences between the general search engine and search engine, embodies the theme search engine in the College Enterprise search advantage.Secondly, subject oriented search engine key technologies is divided into three modules: information crawling, indexing.A

12、nd retrieval of in-depth analysis and implementation. Simple realization of the Lucene full-text search engine toolkit based on Java, analyzes the Lucene difference compared with the traditional database, the high efficiency, accuracy for indexing and retrieval of the Lucene.Then, based on the above

13、 key technologies, proposes a search engine design scheme of job help info.Introduces the realization process of the Lucence of job help info search engine based on.Finally, the work of this thesis is summarized, and points out the future development direction and further work.For, in order to const

14、antly update and improve the. Lucene job help info search engine system based on fully included, ensure the on job search help and update the information, to avoid the search for noise robust, improves the efficiency of retrieval, can quickly, accurately, all provide special information query.The ma

15、in research contents of this thesis:1 this paper mainly studies the network crawler topic search.2 on the Apache I_, a thorough analysis of uccne full-text search engine toolkit, word segmentation technology and Chinese.3 in the analysis of the topic search engine, search engine proposed design sche

16、me of job help info.4 in-depth analysis of the key technology used in the design and implementation, and the expansion and on the basis of the analysisTwo times the development, design and implementation of search engine based on Lucene for help topics.Keywords: web crawler, Lucene, information inde

17、xing, subject oriented search engine第一章 引言1.1 选题的背景及研究意义随着科技与时代的发展,Internet 已经成为我们学习和工作的重要工具,与我们的生活密不可分。互联网上的信息数以亿计,如何在这浩如烟海的世界中找到自己想要的信息已经成为互联网技术的一个非常重要的研究课题。近年来就业压力越来越大,如何选择更好的,适合自己的职位及如何为将要面临的面试等做准备受到越来越多的关注。搜索引擎的问世,为我们快速、准确、有效地获取网络信息资源提供了极大的帮助,是互联网信息查询的导航针,是沟通用户与网络信息的桥梁。但是,随着 Internet 信息急剧膨胀以及信息

18、多元化的发展,传统搜索引擎采集索引查询内容不断扩大。这使搜索引擎面临巨大的困难,而且越来越不能满足主题用户的需求。常见到这样的情况:为了获取数条相关信息,用户不得不在大量的失效信息、甚至垃圾信息中费力寻找。目前人们对搜索引擎的首要关注点已经从如何找到更多的信息转向如何快速找到准确、有用的信息。用户迫切需要一个数据分类细致、准确、全面、更新及时的面向主题的搜索引擎来获取主题资源信息。这种情况下,主题搜索引擎应运而生并成为发展趋势,是搜索引擎发展史上的一块里程碑。主题搜索引擎保证了对某一领域信息的完全收录与及时更新,避免了搜索时强大的“噪音” ,提高了查询效率。在提供专业信息方面有着其它检索工具无

19、法比拟的优势。主题搜索引擎具备有效的信息采集策略,索引更新周期大大缩短,通常能在很短时间内提供更新的网上专业领域信息查询,甚至能在数小时内更新查询信息。主题搜索引擎面向某一特定的专业领域,专注于自己的特长和核心技术,保证了对该领域信息的完全收录与及时更新。同时能够把具有相同兴趣点的人们集中在一个“主题社区”内,通过及时集中提供各种专业资源查询,避免了大量的搜索噪音,提高了查询效率。在提供专业信息方面有着其它检索工具无法比拟的优势。面对如此浩瀚的互联网资源,搜索引擎为所有网上冲浪的用户提供了一个入口。但是,随着信息多元化的增长,千篇一律的给所有用户提供同一个入口显然己经不能满足特定用户更深入的查

20、询需求。同时,在目前的硬件条件下,通用搜索引擎要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,需要一个面向主题的、对硬件要求低、数据全面深入、更新及时的专题搜索引擎。面向特定领域的搜索技术已经成为近几年来搜索领域里比较热的研究方向,针对某一领域、某一特定人群或某一特定需求建立的搜索引擎称为主题搜索引擎。主题搜索引擎因针对性强、目标明确和查准率高而成为获取专业或专业信息的重要工具。面向求职主题搜索就是众多主题研究方向之一。虽然面向求职的主题搜索已经出现,但笔者注意到,在找工作过程中,面临激烈的人才竞争,除了广泛寻找职位信息之外,及时准确地搜集面试技巧、面试经验,公司资料等求职帮助

21、信息也显得尤为重要,特别是现在许多大公司实行多轮淘汰制,每轮采用不同的形式和内容,所以知己知彼百战不殆,在同等条件下获得及时的相关信息也成为制胜的法宝,所以在深入分析各种搜索引擎基础上,针对现有求职主题的不足,本论文提出了一个面向求职帮助信息的搜索引擎方案, 并付之于实现,抛砖引玉,旨在对广大求职者给予一定的帮助。1.2 主题搜索引擎的发展状况及优点面向特定领域的搜索技术己经成为近几年来搜索领域里比较热的研究方向,针对某一领域、某一特定人群或某一特定需求建立的搜索引擎称为主题搜索引擎(Topic-specify Search Engine)。主题搜索引擎又称为专题搜索引擎、专业搜索引擎、垂直搜

22、索引擎。它们专门采集某一学科、某一主题、某一行业范围的信息资源,并用更为详细和专业的方法对信息资源进行标引和描述,且往往在信息组织时设计利用与该专业密切相关的方法技术。这种搜索引擎专注于自己的特长和核心技术,保证了对该领域信息的完全收录与及时更新,在提供专业信息方面有着大型通用搜索引擎无法比拟的优势,成为搜索引擎发展的一个新趋势。它的服务对象通常是专业领域的研究人员。众所周知,每个专业领域都有专有的词汇和用语,主题搜索引擎使用与之相应的索引技术和检索语言,从而使在特定主题范围内的检索效果优于通用搜索引擎。主题搜索引擎因针对性强、目标明确和查准率高而成为获取专业或专业信息的重要工具。常见的主题搜

23、索的研究包括面向法律专业领域的,面向新闻的,面向图片或歌曲等等。主题引擎有以下优点:.只要搜集某一特定学科领域或特定专题的 Interact 信息资源即可;.能够方便地进行搜集主题和学科的自定义配置。.采集的学科领域小,信息量相对较少,从而容易建立高质量、专业信息收录全、能够及时更新的索引数据库。.只涉及某一个或几个领域,词汇和用语的一词、一字多义的可能性降低,而且利用专业词表进行规范和控制,从而大大提高查全率和查准率。.信息采集量小,网络传输量小,有利于网络带宽的有效利用。.索引数据库的规模小,有利于缩短查询响应时间,还可以采用复杂的查询语法,提高用户的准确查询精度。.数据规模的降低,可以节

24、省搜索引擎的投资成本,用普通的硬件投资即可建立高质、高效的主题搜索引擎。1.3 求职主题搜索引擎的主要研究内容本论文研究的重点是设计并实现面向求职主题的搜索引擎应聘帮助信息搜索引擎。这个系统主要面对想要在网络上获得求职信息的人群。旨在帮助求职业人员对信息进行集中搜集、整理工作。求职人员可以通过该搜索引擎及时准确的搜集面试技巧,面试笔试经验,公司资料等求职帮助信息。所谓应聘信息在本系统体现为比较具体的针对公司的面试和笔试经历的描述信息,该信息主题主要面向那些面临职业选择,要接受各大公司考验的学生和工作人员。之所以选择该信息主题,是因为我们对找工作经历的体会,当接到某公司面试或笔试通知时,迫切想要

25、在网络上寻求相关经验谈以获得帮助,或者想对公司的情况获得深入了解,为了快速达到目的节省时间,设计一个关于面经笔经信息主题的搜索引擎就显得尤为重要。1.4 求职主题搜索引擎要达到的目标较高的查全率。较高的查准率。保证高性能。主要考虑查询速度和对内存的要求。保证系统的健壮性。可移植性。功能模块化。各种功能模块化设计,即为搜索引擎所用 多线程。可以提高机器人的效率,便于并行处理和控制。良好的参数配置。要尽可能的考虑到不同情况,如是否遵守 RobotExclusion 协议、是否自启动、爬行时间、线程数等。友好、个性化的查询界面。与用户交流的界面友好,操作方便,具有个性化方便用户学习使用,具有使用方便

26、的帮助功能。第二章 求职搜索引擎的关键技术2.1 网络爬虫网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。2.1.1 网络爬虫的基本结构及工作流程网络爬虫的基本工作流程如下:1)首先选取一部分精心挑选的种子 URL;2)将这些 URL 放入待抓取 URL 队列;3)从待抓取 URL 队列中取出待抓取在 URL,解析 DNS,并且得到主机的 ip,并将 URL 对应的网页下载下来,存储进已下载网页库中。此外,将这些 URL 放进已抓取 URL 队列。4)分析已抓取 URL 队列中的 URL,分析其中的其他 URL,并且将 URL

27、放入待抓取 URL 队列,从而进入下一个循环。2.1.2 从爬虫的角度对互联网进行划分可以将互联网的所有页面分为五个部分:1)已下载未过期网页2)已下载已过期网页:抓取到的网页实际上是互联网内容的一个镜像与备份,互联网是动态变化的,一部分互联网上的内容已经发生了变化,这时,这部分抓取到的网页就已经过期了。3)待下载网页:也就是待抓取 URL 队列中的那些页面4)可知网页:还没有抓取下来,也没有在待抓取 URL 队列中,但是可以通过对已抓取页面或者待抓取 URL 对应页面进行分析获取到的 URL,认为是可知网页。5)还有一部分网页,为不可知网页,爬虫是无法直接抓取下载的。2.1.3 抓取策略在爬

28、虫系统中,待抓取 URL 队列是很重要的一部分。待抓取 URL 队列中的 URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面。而决定这些 URL 排列顺序的方法,叫做抓取策略。下面重点介绍几种常见的抓取策略:1)深度优先遍历策略深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。2)宽度优先遍历策略宽度优先遍历策略的基本思路是,将新下载网页中发现的链接直接插入待抓取URL 队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的

29、所有网页。还是以上面的图为例:遍历路径:A-B-C-D-E-F G H I3)反向链接数策略反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。在真实的网络环境中,由于广告链接、作弊链接的存在,反向链接数不能完全等他我那个也的重要程度。因此,搜索引擎往往考虑一些可靠的反向链接数。4)算法策略本文算法借鉴了 PageRank 算法的思想:对于已经下载的网页,连同待抓取URL 队列中的 URL,形成网页集合,计算每个页面的 PageRank 值,计

30、算完之后,将待抓取 URL 队列中的 URL 按照 PageRank 值的大小排列,并按照该顺序抓取页面。5)OPIC 策略策略该算法实际上也是对页面进行一个重要性打分。在算法开始前,给所有页面一个相同的初始现金(cash) 。当下载了某个页面 P 之后,将 P 的现金分摊给所有从P 中分析出的链接,并且将 P 的现金清空。对于待抓取 URL 队列中的所有页面按照现金数进行排序。6)大站优先策略对于待抓取 URL 队列中的所有网页,根据所属的网站进行分类。对于待下载页面数多的网站,优先下载。这个策略也因此叫做大站优先策略。 2.1.4 更新策略互联网是实时变化的,具有很强的动态性。网页更新策略

31、主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种:1)历史参考策略顾名思义,根据页面以往的历史更新数据,预测该页面未来何时会发生变化。一般来说,是通过泊松过程进行建模进行预测。2)用户体验策略尽管搜索引擎针对于某个查询条件能够返回数量巨大的结果,但是用户往往只关注前几页结果。因此,抓取 系统可以优先更新那些现实在查询结果前几页中的网页,而后再更新那些后面的网页。这种更新策略也是需要用到历史信息的。用户体验策略保留网页的多个历史版 本,并且根据过去每次内容变化对搜索质量的影响,得出一个平均值,用这个值作为决定何时重新抓取的依据。3).聚类抽样策略前面提到的两种更新策略都有一个前提

32、:需要网页的历史信息。这样就存在两个问题:第一,系统要是为每个系统保存多个版本的历史信息,无疑增加了很多的系统负担;第二,要是新的网页完全没有历史信息,就无法确定更新策略。这种策略认为,网页具有很多属性,类似属性的网页,可以认为其更新频率也是类似的。要计算某一个类别网页的更新频率,只需要对这一类网页抽样,以他们的更新周期作为整个类别的更新周期。 2.1.5 分布式抓取系统结构一般来说,抓取系统需要面对的是整个互联网上数以亿计的网页。单个抓取程序不可能完成这样的任务。往往需要多个抓取程序一起来处理。一般来说抓取系统往往是一个分布式的三层结构。如图所示:最下一层是分布在不同地理位置的数据中心,在每

33、个数据中心里有若干台抓取服务器,而每台抓取服务器上可能部署了若干套爬虫程序。这就构成了一个基本的分布式抓取系统。对于一个数据中心内的不同抓去服务器,协同工作的方式有几种:1)主从式(Master-Slave)对于主从式而言,有一台专门的 Master 服务器来维护待抓取 URL 队列,它负责每次将 URL 分发到不同的 Slave 服务器,而 Slave 服务器则负责实 际的网页下载工作。Master 服务器除了维护待抓取 URL 队列以及分发 URL 之外,还要负责调解各个 Slave 服务器的负载情况。以免某些 Slave 服 务器过于清闲或者劳累。 这种模式下,Master 往往容易成为

34、系统瓶颈。2)对等式(Peer to Peer)在这种模式下,所有的抓取服务器在分工上没有不同。每一台抓取服务器都可以从待抓取在 URL 队列中获取 URL,然后对该 URL 的主域名的 hash 值 H,然 后计算 H mod m(其中 m 是服务器的数量,以上图为例,m 为3) ,计算得到的数就是处理该 URL 的主机编号。举例:假设对于 URL ,计算器 hash 值 H=8,m=3,则 H mod m=2,因此由编号为2的服务器进行该链接的抓取。假设这时候是0号服务器拿到这个 URL,那么它将该 URL 转给服务器2,由服务器2进行抓取。一致性哈希将 URL 的主域名进行哈希运算,映射

35、为一个范围在0-2 32之间的某个数。而将这个范围平均的分配给 m 台服务器,根据 URL 主域名哈希运算的值所处的范围判断是哪台服务器来进行抓取。如果某一台服务器出现问题,那么本该由该服务器负责的网页则按照顺时针顺延,由下一台服务器进行抓取。这样的话,及时某台服务器出现问题,也不会影响其他的工作。2.2 索引器2.2.1 建立索引索引器的功能是对搜索器所搜索的信息进行分析处理,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有元数据索引项和内容索引项两 种: 元数据索引项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度等等; 内容索引项是用来反映文档内容的

36、,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来 讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格); 对于中文等连续书写的语言,必须进行词语的切分。在搜索引擎中,一般要给单索引项赋予一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相 关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。为了快速查找到特定的信息,建立索引数据库是一个常用的方法,即将文档表示为一种便于检索的方式并存储在索引数据库中。索引数据库的格式是一种依赖于索引 机制和算法的特殊数据存储格式。

37、索引的质量是 Web 信息检索系统成功的关键因素之一。一个好的索引模型应该易于实现和维护、检索速度快、空间需求低。搜索 引擎普遍借鉴了传统信息检索中的索引模型,包括倒排文档、矢量空间模型、概率模型等。例如在矢量空间索引模型中,每个文档 d 都表示为一个范化矢量 V(d)=(t1,w1 (d)ti,w1(d)tn,wn(d)。其中 ti 为词条项,wi(d)为 ti 在 d 中的权值,一般被定义为 ti 在 d 中出现频率 tfi(d)的函数。索引器的输出是索引表,它一般使用倒排形式(Inversion List) ,即由索引项查找相应的文档。索引表也可能记录索引项在文档中出现的位置,以便检索器

38、计算索引项之间的相邻或接近关系(proximity) 。 索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现实时索引(Instant Indexing) ,否则就无法跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性 在很大程度上取决于索引的质量。2.2.2 搜索引擎的中文分词技术中文自动分词是网页分析的基础。在网页分析的过程中,中文与英文的处理方式是不同的,这是因为中文信息与英文信息有一个明显的差别: 英文单词之间有空格,而中文文本中词与词之间没有分割符。这就要求在对中文网页进行分析之前,先要将网页中的句子切

39、割成一个个的词的序列,这就是中文分 词。中文自动分词涉及到许多自然语言处理技术和评价标准,在搜索引擎中,我们主要关心中文自动分词的速度和准确度。分词准确性对搜索引擎来说十分重要,但 如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内 容更新的速度。因此,搜索引擎对分词的准确性和速度都提出了很高的要求。目前,中文自动分词比较成熟的技术是基于分词词典的机械分词方法。这种方法是按照一定的策略将要分析的汉字串与词典中的词条进行匹配。根据匹配策略的不 同,机械分词方法又有如下几种算法: 正向最大匹配算法、逆向最

40、大匹配算法、最少分词算法等。这种方法的优点是分词的速度快,准确度有一定的保证,但对未登录词的处理效果较差。实验结果表明: 正向最大匹配的错误率为1/169左右,逆向最大匹配的错误率为1/245左右。另一种比较常用的中文自动分词方法是基于统计的分词方法,这种方法是对语 料中的字组频度进行统计,不需要切分词典,因此也称为无词典分词方法。但该方法经常把不是词的常用字组当成词,对常用词的识别精度较差,时空开销也比较 大。在搜索引擎领域的实际应用中,一般将机械分词方法与统计分词方法相结合,先进行串匹配分词,然后使用统计方法识别一些未登录的新词,这样既发挥了匹配 分词速度快、效率高的优势,又利用了统计分词

41、中新词自动识别和自动消除分词歧义的特点。分词词典是影响中文自动分词的一个重要因素,其规模一般在6万条词左右,词典太大或太小都是不合适的; 辞典太小,有些词切分不出来,辞典太大,切分过程中起义现象将大大增加,同样影响分词的精度。因此,分词词典中词条的选择是非常严格的。对于不断出现新词 的网络领域,仅仅使用6万条词左右的分词词典是不够的,但随意向分词词典中加入新词将导致分词精度下降,一般的解决方法是使用辅助词典,其规模在50万词 条左右。另外,中文自动分词的难点在于分词歧义的处理和未登录词的识别,如何处理这两个问题一直是该领域研究的热点。目前,中文自动分词技术在搜索引擎中已经得到广泛应用,分词准确

42、度已经达到96%以上,但是在对大规模网页进行分析处理的时候,现有的中文自动分词技术还 存在许多不足,例如上面提到的歧义问题和未登录词的处理问题等。因此,国内外的科研院校,如北大、清华、中科院、北京语言学院、东北大学、IBM 研究院、 微软中国研究院等都一直关注并研究中文自动分词技术,这主要是因为网络上的中文信息越来越多,对网络上的中文信息的处理必将成为一个巨大的产业和广阔的市 场,存在无限的商机。但是,中文自动分词技术要想更好地服务于网络中文信息的处理并形成产品,还要在基础研究方面和系统的集成方面做许多工作。2.3 检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关

43、度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常 用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型等多种,可以查询到文本信息中的任意字词,无论出现在标题还是正文中。检索器从索引中找出与用户查询请求相关的文档,采用与分析索引文档相识的方法来处理用户查询请求。如在矢量空间索引模型中,用户查询 q 首先被表示为一个范 化矢量 V(q)=(t1,w1(q); ; ti,wi(q); ; tn,wn(q),然后按照某种方法来计算用户查询与索引数据库中每个文档之间的相关度,而相关度可以表示为查询矢量 V(q)与文档矢量 V(d)之间的 夹角余弦,最后将相关度大于阀值的所

44、有文档按照相关度递减的顺序排列并返还给用户。当然搜索引擎的相关度判断并不一定与用户的需求完全吻合。2.4 用户接口用户接口的作用是为用户提供可视化的查询输入和结果输出界面,方便用户输入查询条件、显示查询结果、提供用户相关性反馈机制等,其主要目的是方便用 户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效的信息。用户接口的设计和实现必须基于人机交互的理论和方法,以适应人类的思维和使用习惯。在查询界面中,用户按照搜索引擎的查询语法制定待检索词条及各种简单或高级检索条件。简单接口只提供用户输入查询串的文本框,复杂接口可以让用户对查询条 件进行限制,如逻辑运算(与、或、非) 、相近关系(相邻、NEA

45、R) 、域名范围(如 edu、com) 、出现位置(如标题、内容) 、时间信息、长度信息等 等。目前一些公司和机构正在考虑制定查询选项的标准。在查询输出界面中,搜索引擎将检索结果展现为一个线性的文档列表,其中包含了文档的标题、摘要、快照和超链等信息。由于检索结果中相关文档和不相关文档相互混杂,用户需要逐个浏览以找出所需文档2.5 排序算法2.5.1PageRank 算法概述PageRank 是用来标识网页的等级/重要性的一种方法,是 Google 用来衡量一个网站的好坏的唯一标准。在揉合了诸如 Title 标识和 Keywords 标识等所有其它因素之后,通过 PageRank 来调整结果,使

46、那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提 升,从而提高搜索结果的相关性和质量。其级别从0到10级,10级为满分。PR 值越高说明该网页越受欢迎(越重要) 。例如:一个 PR 值为1的网站表明这个 网站不太具有流行度,而 PR 值为7到10则表明这个网站非常受欢迎(或者说极其重要) 。一般 PR 值达到4,就算是一个不错的网站了。Google 把自己的 网站的 PR 值定到10,这说明 Google 这个网站是非常受欢迎的,也可以说这个网站非常重要。 2.5.2 从入链数量到 PageRank在 PageRank 提出之前,已经有研究者提出利用网页的入链数量来进行链接分析计算,

47、这种入链方法假设一个网页的入链越多,则该网页越重要。早期的很多 搜索引擎也采纳了入链数量作为链接分析方法,对于搜索引擎效果提升也有较明显的效果。 PageRank 除了考虑到入链数量的影响,还参考了网页质量因素,两者相结合获得了更好的网页重要性评价标准。利用以上两个假设,PageRank 算法刚开始赋予每个网页相同的重要性得分,通过迭代递归计算来更新每个页面节点的 PageRank 得分,直到得分稳定为止。 PageRank 计算得出的结果是网页的重要性评价,这和用户输入的查询是没有任何关系的,即算法是主题无关的。假设有一个搜索引擎,其相似度计算函数不考虑内容相似因素,完全采用 PageRan

48、k 来进行排序,那么这个搜索引擎的表现是搜索引擎对于任意不同的查询请求,返回的结果都是相同的,即返回 PageRank 值最高的页面。第三章 面向求职主题搜索引擎的需求分析3.1 系统功能和目标这个系统主要面对想要在网络上获得求职信息的人群。旨在帮助求职业人员对信息进行集中搜集、整理工作。求职人员可以通过该搜索引擎及时准确的搜集面试技巧,面试笔试经验,公司资料等求职帮助信息。系统主要设计目标如下:较高的查全率。较高的查准率。保证高性能。主要考虑查询速度和对内存的要求。保证系统的健壮性。可移植性。功能模块化。各种功能模块化设计,即为搜索引擎所用。多线程。可以提高机器人的效率,便于并行处理和控制。

49、良好的参数配置。要尽可能的考虑到不同情况,如是否遵守RobotExclusion协议、是否自启动、爬行时间、线程数等。友好、个性化的查询界面。与用户交流的界面友好,操作方便,具有个性化方 便用户学习使用,具有使用方便的帮助功能。3.2 功能需求本系统由主题抓取模块、索引模块、客户端检索模块三部分构成实现帮助求职人员寻找需要搜集面试技巧,面试笔试经验,公司资料等求职帮助信息等信息,并对对信息进行集中搜集、整理工作。3.2.1 功能总体描述主题抓取模块、索引模块、客户端检索模块三部分构成。3.2.2 模块功能描述1) 主题抓取模块:主题爬虫访问既定地址,不断从网络上下载与主题相关的类文本文件以及可以转换为文本文件的文件,如文本文件、网页文件、Word文档、PDF文档等,并将下载到的文件保存在本地的硬盘上。爬虫工作用例图(1)爬虫工作原理用例描述:用例编号 1001用例名称 爬虫工作原理执行者 爬虫目的 完成从网上抓取文件或类文件等文件类型 主要的、基本的Url解析器原理用例图(2

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 管理论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报