1、摘 要随着 Internet 网络信息的快速发展,个性化信息服务已经越来越成为信息检索领域的热点,对于不同背景不同兴趣爱好的人,要想找到自己想要的信息这是一项巨大的挑战,个性化信息检索满足了这一要求,而其中最难的就是用户兴趣模型的建立,能够有效识别用户兴趣偏好是个性化服务的关键技术;用户兴趣偏好挖掘需要解决的问题包括收集用户信息、如何收集这些信息、收集到信息如何组织、表示和存储;如何在收集到的信息基础上,采用合理的技术和模型进行分析和处理以获取用户检索偏好;用户的信息和兴趣如何自适应的跟踪、学习与更新等问题。我所设计的中心思想是,用户注册登录到个性化搜索引擎,根据用户注册的兴趣信息以及用户提交
2、的检索查询词来反映用户的兴趣,从而返回用户感兴趣的内容。关键词:个性化搜索引擎;用户兴趣挖掘;用户模型AbstractWith the rapid development of Internet,the number of accessible Web page has been expontial growth on the Internet. For different people of different interests, In order to find the information they want ,this is a huge challenge. Personaliz
3、ed information retrieval to meet this requirement, and it is the most difficult of the user interest model establishment,this page designs indentify general user preference categories but also indentify user prefereece category that belong to different catetory query.This paper research the method o
4、f user preference mining. The central idea of my design, user login and register to the personalized search engine, to reflect the user interest based on user registration information andinterest in the users retrieval query words, which returns the user interested content.Keywords:Personalized sear
5、ch engine user interest mining user model目 录摘要 .IAbstract.II第 1 章 绪论 .11.1 课题背景 .11.2 目的和意义 .11.3 国内外研究现状 .2第 2 章 搜索引擎概述 .62.1 个性化搜索引擎 .62.2 搜索引擎的工作原理 .72.3 搜索引擎的发展 .8第 3 章 用户兴趣挖掘 .83.1 用户兴趣挖掘流程 .93.1.1 用户信息采集 .93.1.2 用户信息表达方法 .103.1.3 用户兴趣分析建模 .11第 4 章 个性化搜索系统总体设计 .134.1 系统总体设计 .144.1.1 网络爬虫程序 .144
6、.1.2 用户端 .154.2 系统数据库设计 .16第 5 章 系统实现 .195.1 系统流程设计 .19第 6 章 系统测试 .22结论 .27致谢 .28参考文献 .29附录 1 译文 .31附录 2 英文参考资料 .34第 1 章 绪论1.1 课题背景随着 Internet 技术的迅速发展,网络中的信息量也大大的增多,这使得许多的用户能够享受丰富的网上资源信息,然而在如此多的信息量面前,不同的用户的需求也会有所不同,这与用户的个人信息以及背景、喜好都息息相关。传统的检索系统已经无法满足这些用户的需求。因此,如何有效的识别用户类别偏好,如何有效的提取用户的个人以及兴趣信息就十分的有必要
7、。解决这些问题的关键在于从传统的用户单一提交搜索关键词获取到所需页面变成用户主动的像浏览器提交个人信息,用户个人的兴趣取向,结合用户提交的检索关键词,通过算法分析,总结出用户的兴趣度,返还给用户感兴趣的页面信息。个性化服务要首先满足用户的需要,学习到网民的兴趣所向,个性化搜索系统通过学习用户兴趣,来满足用户的所需,个性化的搜索能够从分提高用户的体验,从而吸引来更多的使用用户。个性化服务实现兴趣对应、按需求服务、信息推荐出去并减少用户的负担,个性化搜索服务首先需要建立用户个人信息库,只有用户的个人信息能够很好的表达出来时,个性化的搜索系统才能够更多地被运用。1.2 目的和意义根据有效统计,中国网
8、民规模已经达到了相当庞大的数量,搜索引擎的应用是用户主要的信息获取渠道之一。使用率在不断的升高。搜索引擎的发展经历了目录海量搜索、删出垃圾网页、专业、定向、高准确性和匹配性等几个阶段,但搜索引擎的整体框架和所使用的技术并没有根本性的改变。而搜索引擎缺乏个性化的弊端却日益突出,具体表现在网络信息日益增长,种类繁多,而传统搜索引擎对所有用户提供相同的界面和服务,并且检索的结果成千上万、良莠不齐,用户为找到真正感兴趣的信息,这就需要消耗大量的时间和精力。 不同的个体体现出的特征和行为习惯都有所不同,人们所喜爱的事物也有所不同,他们对检索关键词的理解也不尽相同,不同的用户对于缩减入的同一个词语的反应也
9、不同。因为一些内在或外在的因素,用户在输入同一个词时,得到的返回页面都是一样的,这样会使用户很难满足自己的需求。用户在键入关键词时,会有很多的前提条件,但由于个体的差异,用户在想要得到自己想要得到的页面信息时就出现了困难。本课题通过提取用户个人的注册信息,用户的兴趣信息,开发并实现了一个基于用户兴趣的个性化搜索引擎,提高搜索效率。 其中,在本文中需要考虑到的问题:搜索引擎源数据的获取:即如何从如此大量的网络资源中获取到信息,如何采集用户的兴趣,例如用户喜好的兴趣类别进行归纳总结,借助一些算法,生成用户兴趣模式,而在这其中最难办到的就是学习算法的采用,即如何设计一个简单明了,又条理清晰的学习算法
10、来计算出用户对某一兴趣的兴趣度,这其中会涉及到很多的知识,例如中文分词技术,自动聚类技术,页面分类技术以及数学建模等等。1.3 国内外研究现状在早期建立的个性化服务,建模技术并没有得到应有的重视,大量的研究集中在实现个性化服务的一个特定的技术,如推荐技术,信息检索技术,用户聚类技术等,用户建模技术是在这些技术进行了简单介绍,但随着个性化服务的发展和研究的深入,研究者逐渐实现个性化服务,质量不仅取决于推荐技术,具体的检索技术,兴趣也取决于用户的利益可以计算描述,后者是更重要的。因此,近年来,对用户建模技术的研究开始传播,作为个性化服务中的基础技术来研究。目前,国外的一些大学研究机构易经研究出简单
11、的用户兴趣模型了,例如Syskill&Webert,它是一个 web 导航工具,是针对单用户的系统,它可以搜集用户对当前浏览页面的评价,通过这些评价过的 web 页面,逐渐学习用户的兴趣模型。系统要求用户一开始要提交自己感兴趣的主题,在浏览的过程中,系统不能检测用户新的兴趣主题生成,必须由用户手动提交新的兴趣主题,但随着评价页面的增多,个性化模型也都会不断的更新,能够适应用户的兴趣变化。Letizia 系统通过收集用户在浏览器上的浏览行为,采用启发式的规则集,对记录的浏览行为建模,从而产生用户的个性化模型。系统不要求用户进行显示评价,主要通过分析用户的浏览行为来收集用户的兴趣取向。Person
12、al WebWatchers 属于个性化推荐系统,系统通过记录用户浏览的页面以及观察用户对超链接的选择,推断用户浏览过的页面属于感兴趣的兴趣类,反之属于不感兴趣的类别,分别作为训练的正例或反例,而后通过计算单字与类别的互信息,选择反映用户模型的关键字,构建用户模型。国内的研究者对用户建模也展开了一些研究,一些文献中提出根据用户提交的实例文档,通过考察特征、段落和类别的表达能力构建用户兴趣模型。或者是将用户多个感兴趣的类别组合到一起的用户建模技术。不过总的来说,作为个性化服务的基础和核心技术,用户建模技术还处于起步间断,还没有形成完整的体系,还有许多的关键技术需要解决。与此同时,用户模型是推荐系
13、统产生个性化搜索和推荐的主要知识源,其捕捉用户真实偏好的能力在很大程度上决定了推荐的成功与否。从应用要求看,用户模型应当包含个体用户的兴趣模型和群体用户的行为模型。显然,个体用户兴趣模型侧重于个体用户的兴趣发现和描述问题;群体用户行为模型侧重于群体用户访问行为以及群体用户和资源对象或资源项目之间的关系或特征模式分析。基于用户兴趣模型,可以开展兴趣资源推荐,即针对当前访问的某个特定用户,主动将跟该用户兴趣内容一致或相似的资源对象呈现出来。基于群体用户的访问行为和用户兴趣模型可以开展协同资源推荐,帮助用户发现新的、可能感兴趣的资源。对社交网络研究提供应用价值。随着个性化服务的发展和研究深入,研究者
14、逐渐意识到个性化服务的质量取决于用户兴趣和偏好等技术,尤其是用户模型质量直接关系到个性化服务和个性化推荐技术的质量。本文研究了怎么能够通过用户提交个人信息来学习用户兴趣进行个性化搜索,进一步改进查询精确度。意识到个性化搜索中用户兴趣挖掘研究的重要性问题后,大量重要技术问题需要强调。首先,本文需要开发一个能够合理表明用户搜索历史的用户兴趣模型。用户兴趣能够通过他的点击历史进行学习。其次设计一个有效的方法,通过分析用户点击历史来学习用户兴趣类别偏好。最后要考虑排序机制。很明显,用户查询是最有效的能够表明用户搜索意图的信息。绝大多数现有搜索系统仅仅依靠查询来满足用户信息,但是,由于查询串较短,存在歧
15、义问题等等。有效解决该问题的方法是使用用户提供相关反馈文档即用户对该信息满意的文档,通过相关反馈方法改进用户兴趣模型。相关反馈方法对于改进检索精确度十分有效。总之,用户兴趣挖掘大体分为显式用户兴趣挖掘和隐式用户兴趣挖掘两种方法。显式用户兴趣挖掘是通过用户注册信息或用户提交检索关键词来进行挖掘,要求用户对推荐的资源进行反馈和评价,从而达到学习的目的,优点是实现简单,无需对系统进行训练,可以快速得到用户兴趣;缺点是完全依赖用户,用户很难准确、全面描述自己的兴趣及其兴趣度。隐式用户兴趣挖掘又可以分为日志挖掘和内容及其相关反馈方法。具体的日志挖掘是在大规模日志基础上进行相关分析,分析用户上网行为特点,
16、例如:浏览时间、保存、收藏、鼠标滚动、翻页等相关行为。优点是通过挖掘用户日志,可以推测用户兴趣,基本不依赖用户。缺点是浏览行为表示方法难于统一。相关反馈方法是通过用户在浏览过程中对页面标注感兴趣程度来进行挖掘兴趣,优点实现简单,可以动态更新用户兴趣;缺点是依赖用户与系统的交互,降低了个性化服务质量,移动设备例如掌上电脑、移动电话、个人数字助、无线网络的个性化技术将是个性化搜索技术未来课题研究的挑战。目前看来,个性化搜索以及个性化的一切服务的有关研究虽看起来突飞猛进,但具体来讲,个性化的服务还没有达到一个普及的地步,用户在使用传统的搜索引擎去挖掘网上的信息资源时,得到的一切都是千人一面的结果,随
17、着网络信息量的不断增加,用户在使用传统搜索引擎的体验也大大降低了,用户不能有效的根据自己的喜好得到自己想要的搜索结果。因此,国内外的专家以及学者都在近几年的时间里努力研究个性化服务的相关技术,例如个性化推荐系统、个性化的微博系统、个性化的搜索引擎,总之,软件已经越来越向着面向用户而发展,一切都是为了用不同的用户能得到不同的自己想要的使用体验,个性化的服务在国外已经有所小成,但是国内由于研究起步时间较晚,现在还处于出级阶段,个性化的服务已经不仅仅是专家学者需要探讨研究的问题,它也是需要我们这些本专业的学生能够积极地去探索,去发现,并努力研究的课题,个性化的服务会使用户的服务体验达到一个新的高度,
18、用户能够根据个人的喜好自由选择自己喜欢的类型,自己想要的搜索结果,总之,个性化的服务是未来搜索引擎以及诸多软件发展的必然趋势。第 2 章 搜索引擎概述2.1 个性化搜索引擎个性化搜索引擎是一个基于用户的检索关键词和个人兴趣的信息的搜索引擎,根据用户的搜索历史,返回用户感兴趣的页面。这些用户的搜索历史,曾经所得到的的网站表示搜索结果,书签等。掌握这些用户信息对于搜索引擎的分析上很有帮助,在用户搜索新的关键词时,可以返回更有针对性的搜索结果,从而提高用户体验。这是对于技术和互联网的一些策略以及发现的信息的理解,信息的提取与处理,为用户提供服务的网络搜索的搜索引擎有不同的分类方法。按照信息内容的划分
19、,搜索引擎可分为综合型搜索引擎,专业搜索引擎和特殊的搜索引擎;根据搜索工具划分,搜索引擎可以分为单一的搜索引擎,元搜索引擎和集成搜索引擎;根据信息组织模式的分类,搜索发动机可分为目录式搜索引擎,全文搜索引擎和混合搜索引擎。以下是按信息的组织方式划分的三类搜索引擎:(l)目录式搜索引擎,或称按主题查询型搜索引擎,是将信息分门别类,按照传统的分类方式分为各级目录。它的特点是质量和匹配精度较高,不足之处是搜索范围较小,查全率较低。(2)全文搜索引擎,或称按关键字查询型搜索引擎,对各网站的每个页面中的每个词进行搜索。它的特点是信息量很大,查全率较高。不足的是它提供的信息太多,反而降低了查准率。(3)混
20、合型搜索引擎是针对全文和目录搜索引擎的缺点而设计的。使用户在分类目录中浏览,保证了一定的查准率,又可以使用户进行全文检索,查找特定资源。2.2 搜索引擎的工作原理搜索引擎大致可分为网络爬虫、索引器、检索器和用户接口四个部分组成。网络爬虫又称为网络机器人网络爬虫,又称网络机器人,它不停的从网络上下载文档并抽取出新的链接,循环的实现对万维网的遍历。它在一个完整的运行周期内可以下载超过千万的网页,并将这些文档保存在本地文本数据库,最后由索引器负责完成页面内容的全文索引。本程序中便会使用到网络爬虫程序。为分析收集回来的网页索引,提取相关的信息(包括网页的 URL,编码类型,页面包含关键词,关键词位置,
21、生成时间,大小,和其他网页的链接关系),根据一定的相关度算法进行大量复杂的计算,得到每个网页和超链中的每一个关键词的相关性,然后利用这些信息建立网页索引数据库。查询器:从用户的角度来看,查询算法是一个搜索引擎的检索质量的最重要的决定因素。各种基本的数据库查询的搜索引擎索引数据库的使用,如网页的全文索引的数据库,HTML 标签库,超链接分析的基础上,查询多个数据源的历史数据库,实现快速、准确的匹配用户输入的关键词。用户接口提供一系列的查询选项以满足不同的查询要求。一般的搜索引擎系统都支持布尔表达式操作、搜索域名范围限制、查询网页的语种,甚至可以选择文档的类别。合理的设置查询选项可以大大的减少搜索结果中的无效内容,提高查询效率。本系统所采用的爬虫程序,根据所键入的网址,来爬去相关网址上的页面信息,包括网页的链接、网页的标签信息、网页的元信息等等,最后根据爬取到的信息在控制台程序部分的分析器里进行页面的筛选分类,将处理完的页面进行索引建立,存储到用户的页面数据库中,等用户使用本系统时,系统会从数据库中抓取出页面作为返回结果返还给用户。但爬虫程序在运行时需要大量的时间去挖掘数据,这是一个弊端。