1、硕士学位论文- I -硕士研究生学位论文题目:Maze 检索系统性能优化和资源评价摘 要Maze 系统是基于 P2P 的内容交换系统,采用集中式架构管理用户和资源。本文的研究范围为 Maze 检索系统以及 Maze 系统中资源的性质。第一部分详细介绍了 Maze 检索系统的设计和实现,并针对 Maze 检索系统的性能问题进行了研究,讨论检索效率的影响因素,并提出一些改进方法和途径。这些方法包括改进整数压缩编码、基于 Peer 的多级缓冲技术等方法。最后对Maze 系统的检索效率进行综合评测,并提出改进方案。第二部分研究 Maze 系统中资源的性质。首先提出了根据文件指纹的搜索方式,利用文件指纹
2、聚合镜像文件,向用户提供所需文件的所有可下载源。然后提出禁用指纹库和禁用词表结合的禁用文件识别方法,控制 Maze 网络中的禁用文硕士学位论文- II -件的传播。最后,本文提出 ResourceRank 算法,利用下载关系构造一个投票模型,评估资源的价值。ResourceRank 算法对资源进行全局评价,有助于选择性索引文件资源和合理排序返回结果。关键词: P2P,检索系统,倒排文件,缓冲机制,ResourceRankMasters Thesis of Peking University- II -Retrieval Performance Optimization and Resource
3、 Evaluation in Maze SystemZhengke Wang( Computer Architecture)Directed by Xiaoming Li, Kai LeiAbstractMaze is a networks file exchange system based on P2P, it manages users and resources through centralized architecture. In this thesis, we study the Maze retrieval system and the attributes of the re
4、sources in Maze. In the first part, we detailed introduce the design and realization of Maze retrieval system. And we do the research on the performance of the Maze retrieval system, discuss the factors of influencing the indexing efficiency. Some methods for improvement are presented, which include
5、s improving the integer compression code and multistage cache technology based on the Peer. Then we evaluate the efficiency of Maze retrieval system, and propose the scheme to improve.In the second part, we study the attributes of the resources in Maze. We first propose the search method based on th
6、e file figure. The file figure is used to cluster the mirror image file, then the available sources can be provided to the user. Whats more, we present a recognition method which makes user of both an invalid file figure database and invalid words table to control the invalid file transfer in Maze.
7、At last, an algorithm called ResourceRank is proposed. We use the upload and download relationship to construct a vote model to evaluate the resources. ResourceRank makes the full evaluation to the resources in the system, and this will be helpful to select files to be index and to arrange returned
8、files reasonably.Keywords: P2P,index system,inversed file,cache mechanism,ResourceRank硕士学位论文- III -目 录摘 要 .IAbstract .II第一章 绪论 .11.1 研究工作的背景和意义 .11.2 本文研究工作的内容 .31.3 本文的组织 .4第二章 Maze 检索系统基本技术 .52.1 引言 .52.2 系统设计与结构 .62.2.1 目录服务模块 .72.2.2 索引创建模块 .72.2.3 检索服务模块 .82.3 本章小结 .8第三章 倒排文件技术和缓冲技术 .103.1 引言 .
9、103.2 倒排文件结构 .113.3 整数压缩编码技术 .123.4 缓冲技术及评估 .143.4.1 倒排表缓冲 .143.4.2 中间对象缓冲 .153.4.3 查询结果缓冲 .173.5 本章小结 .18第四章 检索效率的综合测评 .194.1 引言 .194.2 仿真实验设计 .194.3 仿真实验结果 .204.4 改进前后的性能对比 .21硕士学位论文- IV -4.5 本章小结 .22第五章 基于文件指纹的搜索和禁用文件控制 .235.1 引言 .235.2 文件指纹搜索方式 .235.3 禁用文件识别技术 .255.4 Maze 系统的禁用文件控制机制 .275.5 本章小结
10、 .28第六章 ResourceRank 算法 .296.1 引言 .296.2 基于下载行为的投票模型 .306.3 投票模型解释 .316.4 投票模型的数学表示 .326.5 投票模型中的特殊 Peer 结构和改进 .326.5.1 只上传 Peer .326.5.2 只下载 Peer .336.5.3 投票闭环群 .346.5.4 独立 Peer 群 .356.5.5 模型的改进 .366.6 算法 .376.7 收敛性 .376.8 资源评价的应用 .386.9 查询结果排序 .396.10 本章小结 .41第七章 总结与未来展望 .427.1 总结 .427.2 不足与展望 .43
11、参考文献 .44致 谢 .46硕士学位论文- 5 -第一章 绪论1.1 研究工作的背景和意义近年来,P2P 技术的蓬勃发展,改变了人们使用网络的方式。人们不再只是浏览者,而是参与者,平等的交流认为最有价值的资源。如今,在文件交换方面的应用,P2P 技术正是炙手可热。自从 1999 年 Napster 诞生,它的用户量迅速增长,在短时间内激增到数千万人。2000 年 Napster 和五大唱片商的对簿公堂,更使 P2P 技术成为人们的焦点。而原告之一 BMG 公司与 Napster 达成和解协议,更证明了数字方式发布音乐是不可阻挡的潮流,与其妄图阻止类似 Napster 的 P2P 共享软件的不
12、断出现,不如将其变成合法的在线音乐销售渠道。在 Napster 之后,基于 P2P 技术的内容共享软件层出不穷,如 Gnutella、EDonkey、Emule、BT 等等。值得一提的是,2003 年RedHat9.0 的发布,就是因为有 BT 这种 P2P 新技术,才让热于尝新的用户们第一时间获得这样庞大的拷贝。如此快捷、自发而又有序的数据传播方式,在 P2P技术的兴起之前,可是不可思议的事。至此,基于 P2P 的内容共享,因其自由、平等及高效等特性,成为人们不可缺少的数据传播方式。基于 P2P 的内容共享系统,架构可分三种:集中式、混合式和纯分布式。因其网络组织方式不同,其资源的定位算法也
13、截然不同Tsoumakos, et al., 2003。Napster 采取集中式的架构,中央服务器拥有所有 Peer 共享资源信息;由中央服务器负责定位资源,回应 Peer 提交寻找资源的查询。混合式架构的 P2P 系统采取不同的策略,如 Gnutella2 采用部分性能较好的 Peer 充当超级节点,由它们索引相近的叶节点所共享的资源;由超级节点合作定位资源,回应 Peer 提交的寻找资源的查询。而完全分布式架构的 P2P 共享系统有两种:一是完全无结构的,资源定位算法有泛洪查找、宽度优先、和随机漫步等算法;若在每个节点保存一些关于其他节点资源信息,则可采取以上算法的一些变种。二是结构化的
14、纯分布式系硕士学位论文- 6 -统采取 DHT 算法建立,所有的操作都基于 overlay 网,由它来处理资源分布和定位。本文的研究对象 Maze 系统采取集中式架构,有一系列的中央服务器负责用户管理和资源管理。由用户服务器负责 Peer 注册、登陆管理;由心跳服务器负责用户状态管理;由中央目录服务器接收 Peer 上传的 Peer 共享内容信息,以建立全局的倒排索引;并有中央检索服务器接收和处理 Peer 的资源定位请求,并做禁用资源控制和禁用用户管理。集中式架构的 Maze 系统具有检索高效、推荐最优和系统可控的优点。基于 P2P 的内容共享系统的检索系统建立于信息检索技术之上。信息检索技
15、术的研究,主要在于分析信息的结构和组织,研究其存放和检索,利用各种技术,以有效提高其检索效率和效果。非结构化的文本一直是信息检索的研究重点,近年来,大规模搜索引擎因其应用广泛、数据规模大、查询请求多且实时性要求高,成为了信息检索技术研究的焦点。对搜索引擎的研究,在各个方面都获得了累累硕果,从网页抓取、网页净化、镜像识别到检索效率和检索效果,都取得了极大进展。其对 P2P 系统的检索系统研究有着极大的借鉴意义。混合式和纯分布式的 P2P 系统的搜索方式是 P2P 方式的,它们的研究热点集中在网络结构组织、资源存储、资源发现和查询请求转发等方面,与搜索引擎有着极大的不同。本文研究兴趣不在于此,故不
16、作深入阐述。集中式架构的 P2P 系统,其检索系统有着和搜索引擎许多相似的研究点。它们都需要收集分布在互联网的各个地方的资源信息,都需要对所收集资源进行预处理,识别禁用资源和镜像资源,还需要对资源进行评价,以求返回给用户最贴近用户需求的资源。它们也存在很多的不同点。首先研究对象不同,搜索引擎的研究对象是网页,网页是半结构化文本,主要需要语言处理技术;而 P2P 系统的研究对象是各式各样的文件,有文本、多媒体文件和各种软件等等,可利用信息主要是文件名信息,若需更多的信息则得抓取额外描述信息,或采取多媒体处理技术。再者资源所在站点性质不同,搜索引擎的资源所在网站是不知中央服务器存在和只能被动提交资
17、源信息;P2P 系统的组成 Peer 是可知中央服务器存在,且具有计算能力,可自行处理部分数据。综上所述,集中式 P2P 系统的所需检索技术可参考搜索引擎的检索技术,同时要针对自身特性研究新的检索技术。硕士学位论文- 7 -本文主要分析 Maze 系统的检索技术。 Maze 系统是一种基于 P2P 的、集中式的内容共享系统,可从maze了解其基本概况。它的检索系统的设计实现参考学习了天网搜索的检索技术,考虑文件资源和网页资源的差异,并充分利用 Peer 的计算能力,采用针对 P2P 特性的技术,以打造高效的、可控的 Maze 系统。1.2 本文研究工作的内容本文的研究工作集中在 Maze 系统
18、的检索系统性能的优化和资源评价,主要在数据组织、检索效率、检索效果等方面进行研究。本文从用户行为、资源分布特性等方面出发,研究 Maze 系统特性,提出以下技术: 基于 Peer 的多级缓冲技术。 Maze 系统是由自主行为的 Peer 构成;Peer的在线行为不可测,而 Peer 的在线与否决定了该 Peer 资源的可用性。本文设计基于 Peer 的多级缓冲技术,充分利用 Peer 的在线属性,提高缓冲效率。 文件指纹搜索技术。Maze 系统中有众多镜像文件,它们分布于不同的Peer,各镜像命名差异较大。本文提出提取文件指纹,将分布于不同Peer、不同命名的镜像文件聚合在一块,提供根据文件指
19、纹的搜索方式,查找用户所需文件的所有可下载源。 禁用文件控制技术。P2P 系统具有众多禁用文件存在,识别它们并控制它们的传播是 P2P 系统一项重要任务。本文提出通过人工提取禁用词,查找含禁用词的文件,对这些文件进行人工查看和机器审查,进而提取确认为禁用文件的指纹,组成禁用指纹库。Maze 系统利用禁用指纹库和禁用词表,合作进行对禁用文件的控制。 ResourceRank 算法。ResourceRank 算法利用下载行为评估资源价值。它通过挖掘 Maze 的下载日志,利用 Peer 与资源互相互动关系,建立投票模型,刻画资源的热门度。利用资源评价,参与对返回结果排序。硕士学位论文- 8 -1.
20、3 本文的组织本文第二章先围绕检索效率和检索效果,介绍 Maze 检索系统的结构设计,再介绍 Maze 检索系统的组成模块和实现模块所需的基本技术。第三章先介绍 Maze 系统的倒排索引文件结构设计,再介绍采用的索引压缩编码,并对该编码方式进行效果实验;然后介绍 Maze 系统采用的对不同缓冲对象各自采用的缓冲机制,并对缓冲的命中率进行分析。第四章对 Maze 系统的检索效率进行综合测评。先对考察检索系统在不同负载状况下的各个性能参数,对影响检索系统性能的主要因素进行分析。然后对运用上述技术改进前后的性能进行对比。第五章首先提出文件指纹搜索方式,阐述文件指纹搜索方式对于文件名搜索方式的补充作用
21、,以及其对深入搜索的意义。然后提出一种识别禁用文件方法,就是结合禁用指纹库和禁用词表来发现禁用文件,并且叙述 Maze 系统中的禁用文件控制机制。第六章先提出基于下载行为的投票模型,从数学、算法和应用的方面对投票模型进行详细解析。然后介绍结果排序所涉及的因素,并提出 Maze 中结果排序算法。第七章先总结 Maze 检索系统中的技术和 Maze 社区中资源性质的研究,然后阐述现有检索系统不足和未来可发展的一些方向。硕士学位论文- 9 -第二章 Maze 检索系统基本技术2.1 引言如前所述,P2P 系统有三种架构:集中式、混合性、完全分布式。对于资源搜索来说,这三种架构各有利弊。 集中式架构的
22、 P2P 系统,具有中央索引服务,可快速定位任意资源,具有查询响应时间短的优点,而且可控性较好。但它需要所有用户向中央服务器提交资源共享信息,并且中央服务器索引重建需要一定周期,因此它有不能即时的体现 P2P 系统内共享信息的变化;另外集中式架构的P2P 系统的扩展性相对较差,整个系统的瓶颈在于中央服务器的性能。 混合式和完全分布式的 P2P 系统,或采用超级节点的分层结构,或采用DHT 算法定位资源,具有可扩展性好的优点。但它的资源定位能力较差;虽热门文件定位迅速,但一般性文件定位至少需要 ln(n)的时间代价。此外,它对 Peer 和资源的控制较差,对禁用文件和违规 Peer 不能及时进行
23、处理。综合考虑上述优劣,Maze 系统采用集中式架构。Maze 系统在中央服务器上接收用户共享内容列表,索引所有共享内容,并对禁用文件进行集中控制。在系统设计时,Maze 系统充分考虑集中式架构的优点,追求尽可能快的给用户返回最好的资源信息,并且控制禁用文件的传播,打造高效的,健康的网上社区。另外,考虑到集中式架构的缺点,设计时尽量缩短索引重建周期,尽可能快的体现社区中资源的变化;并且尽可能的增强系统的可扩展性。Maze 系统现有注册用户达 400 多万,索引约 1 亿个文件资源。每天活动用户达 10 万余人,下载次数达 110 多万,每日查询次数达 17 万。本章以 Maze 系统为基础,分析检索系统的基本技术和 P2P 系统的特有技术。