1、 硕士研究生学位论文题目:基于知识库的礼品推荐系统的设计与实现学 号: 085707 姓 名: 路卫杰 专 业: 计算机科学与技术导 师: 孟祥武 学 院: 计算机学院 年 月 日北京邮电大学硕士研究生毕业论文 声明II独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承
2、担一切相关责任。本人签名: 日期: 关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。 (保密的学位论文在解密后遵守此规定)非保密论文注释:本学位论文不属于保密范围,适用本授权书。本人签名: 日期: 导师签名: 日期: 北京邮电大学硕士研究生毕业论文 中文摘要III基于知识库推理的礼品推荐系统的设计与实现摘 要当今,个性化
3、推荐系统已经在很多领域得到了应用,如网络商品推荐、音乐推荐、影视推荐等。推荐技术包括协同过滤、内容过滤、知识发现等,但是这些推荐技术并没有考虑推荐领域的知识对推荐结果的影响,或者推荐结果没有通过与用户的交互过程中得到完善和改进。鉴于以上问题,本文针对礼品推荐领域提出了基于知识库的推荐方法。首先在调研了礼品信息和礼品赠送知识后构建礼品知识库,然后礼品专家通过人工方式对礼品知识库进行初始化,最后系统根据礼品的基本信息计算出礼品综合相似度对礼品知识库进一步完善。本文采用 AJAX 等技术设计并实现具有良好用户体验的知识库推荐用户接口,采用全文检索引擎工具包 Lucene 对礼品信息构建索引并根据用户
4、的日志设计个性化的礼品搜索功能。本文第一章介绍了推荐系统的研究背景和国内外的研究现状以及本文的研究路线方法和研究内容。第二章介绍了主要的推荐算法和本系统所涉及的关键技术。第三章描述了系统的需求分析,包括任务概述、需求规定以及运行环境的规定。第四章阐述了系统设计,包括系统整体功能设计和系统整体架构设计。第五章详细描述了系统实现中的关键问题和解决方案。第六章对系统进行功能测试和性能测试。第七章是工作总结和进一步的展望。关键词:礼品推荐 知识库 相似度 个性化 搜索北京邮电大学硕士研究生毕业论文 英文摘要IVKnowledge-based Gifts Recommendation System De
5、sign and ImplementationABSTRACTPersonalized recommendation system has been widely used in many fields, such as network products recommendation, music recommendation, movie recommendation, etc. Recommendation techniques include collaborative filtering, content filtering, knowledge discovery, etc. How
6、ever, these recommendations do not consider the influences that the knowledges in recommended areas to the results, or the recommended results isnt perfected or improved through the process of interaction with users.In view of the above problems, this paper proposed a recommendation method based on
7、knowledge base for gift recommendation. First, knowledge base for gift is built after a series of researches, then initialized by gift specialists manually, and finally ajusted according to similarity which is calculated on the basic information of gifts. AJAX technique is introduced to achieve the
8、user interface in order to supply good user experience,and Lucene, the full-text search engine toolkit is also used to construct index for the gifts information and design personalized search function in accordance with the users log. In Chapter 1, the background of recommendation system, the signif
9、icance of the study, and the methods and contents of the study is introduced. In Chapter 2, we describe the main algorithms and key technologies that involved. Requirements analysis, includes overview of the work, the demand of requirement and environment is described in Chapter 3. The main content
10、in Chapter 4 is the system design, which is divided into two parts, the function part and the construction part. Chapter 5 is the detailed description of the key problems and solutions in the process of system construction. In Chapter 6, functional testing and performance testing of the system is op
11、erated. The last Chapter is a summary of our work and further prospects.KEY WORDS:gifts recommendation, knowledge base,similarity, personalized,search北京邮电大学硕士研究生毕业论文 目录V目录北京邮电大学研究生毕业论文 1第一章 绪论1.1 研究背景随着互联网和电子商务的迅速发展,人类己步入网络信息时代。随着信息技术特别是网络技术的发展,信息系统的规模越来越大,数量越来越多,信息获取的工具和方法越来丰富,在更方便的为用户提供越来越多信息和服务的同
12、时,其结构和内容越来越复杂,在海量信息中,用户及时、准确地获得所需要的信息也更加困难 1。海量信息的同时呈现,一方面使用户很难从中发现自己感兴趣的部分, 另一方面也使得大量少人问津的信息成为网络中的“暗信息” ,无法被一般用户获取 2。面对网络信息量呈指数增长,如何从这浩瀚的海洋中取得所需要的、真正有用的信息,已成为广大网络用户共同面临的问题。首先,由于很难准确描述出需要的信息的特征,用户常常会面对大量的信息而束手无策,迷失在大量的信息空间中;其次,信息系统单纯依靠提供的检索方式,往往不能满足用户描述检索条件的需求,找不到描述信息需求的方式。另外,用户每次获取信息,都要输入大量、烦琐的检索条件
13、,而信息系统不能通过服务历史和服务过程掌握用户需求,信息系统不能产生对用户持久的吸引力。在这种背景下个性化智能推荐服务(Personalized Recommender Services)应运而生并迅速发展起来,它通过与用户交互过程中获取的信息推测用户的兴趣偏好,并根据用户的兴趣偏好推荐符合用户兴趣偏好的信息。个性化智能推荐服务不仅可以帮助用户找到所需信息,而且通过个性化智能推荐服务,可以有效保留用户,提高信息系统的吸引力和用户的忠诚度 3。1.2 研究现状1.2.1 国外研究现状在推荐用户模型方面,常用的用户建模技术有向量空间模型 4、用户评价矩阵 5,以及机器学习技术 6。在推荐算法方面,
14、协同过滤是应用最广泛的个性化推荐技术。协同过滤首先计算用户之间的相似度,然后将相似度最高的用户北京邮电大学研究生毕业论文 2作为最近邻居,最后通过最近邻居用户产生推荐结果。Kuo R J, Liao J L和 Tu C提出了一个利用神经网络和遗传K-means 算法通过分析用户在电子商务网站的浏览路径来获取用户偏好的方法。各种挖掘技术如关联规则挖掘、聚类挖掘等被应用于Web 日志的分析中,以提高推荐系统的精度 7。A推荐系统是由Gery Linden ,Brent Smith和Jeremy York主导开发的集研究与应用于一体的推荐系统,采用项目-项目协同过滤算法,根据用户己购买和己评分项目寻
15、找相似项目,将相似度高的项目列入到推荐列表中。通过比较相似项目表与每个用户已购买和己评分的项目,系统整合比较结果将关联度最高和最畅销的项目推荐给用户。根据用户己购买和己评分项目寻找相似项目的计算较快,它只依赖于用户已购买和已评分的项目数量,采用在线方式进行。因此,即使是面对大规模数据集也有较快的运行速度 8。由于基于项目协同过滤推荐算法高度的关联性,推荐质量也比较高 9。MovieLens是由美国明尼苏达大学计算机科学与工程系开发的研究型自动协同过滤推荐系统,用于推荐电影。MovieLens 是一个基于Web 的推荐,系统通过浏览器方式进行用户评分数据收集与推荐结果显示,用户使用更方便。用户对
16、网站提供的电影进行评分,用户可在 not seen和0.5-5.0共11个选项中进行选择,网站根据每个用户的评分计算并分析用户的偏好,并据此向用户进行电影推荐。MovieLens采用了基于用户的协同过滤和关联规则相结合的技术,计算用户的相似度并根据相似度分析用户的“邻居” ,这些“邻居”是具有相似兴趣爱好的“邻居区” , “邻居”们对电影的评分数据被用来为目标用户生成个性化推荐项目 10。该系统既是一个个性化推荐研究的实验平台,也是向人们推荐感兴趣电影的应用系统,其不定期推出的用户评分数据为世界各国推荐领域研究人员提供了原始的实验数据 11。Ringo是由MIT 媒体实验室开发的研究型协同过滤
17、推荐系统,用于提供音乐推荐服务。Ringo 系统可以向用户推荐他们喜欢的音乐,预测用户不喜欢的音乐,也可以预测用户对特定音乐的评分。FAB:Stanford 大学数字图书馆项目组开发的基于内容过滤和协同过滤的推荐系统,用于推荐Web 页面。其特点是综合了基于内容过滤的推荐和协同过滤推荐的优点,同时支持两种类型的推荐服务。Google News是一个为新闻领域开发的个性化资讯平台。该平台采用基于MinHash聚类的协同过滤、统计隐含语义标引(Probabilistic Latent Semantic Indexing,PLSI )和访问计数三种方法来产生推荐,使用一个线性模型将不同算法产生的推荐
18、结合起来 12。北京邮电大学研究生毕业论文 3Gift Ideas()是一个专业的个性化礼品推荐网站,网站的礼品知识库非常专业,推荐页面用户体验性非常好。网站从收礼人信息,送礼场合,个性化定制,礼品分类等多方面向用户进行礼品推荐。1.2.2 国内研究现状复旦大学的邓爱林等针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,提出了一种基于项目评分预测的协同过滤推荐算法,根据项目之间的相似性初步预测用户对未评分项目的评分,在此基础上,采用一种新颖的相似性度量方法计算目标用户的最近邻居 13。浙江大学的孙小华针对协同过滤在无法得到项目的内容信息和用户个人信息的情况下,在数据稀疏和冷启动情况下提高
19、预测准确性方面采用了属于特征递增型的 Pear After_SVD 方法和属于转换型的 LCM STI 方法。针对新用户和新项目的冷启动问题采用了基于统计的众数法阻及信息熵法来解决 14。清华大学的邢春晓和高凤荣等人针对传统协同过滤算法不能及时反映用户兴趣变化的问题,提出了两种改进度量:基于时间的数据权重和基于资源相似度的数据权重,在此基础上将它们有机结合,将这两种权重引入基于资源的协作过滤算法的生成推荐过程中,通过实验证明改进后的算法比传统协作过滤算法在推荐准确度上有明显提高 15。北京航空航天大学的张光卫等人针对传统相似度度量方法存在的不足,利用云模型在定性知识表示以及定性、定量知识转换时
20、的桥梁作用,提出一种在知识层面比较用户相似度的方法,克服了传统基于向量的相似度比较方法严格匹配对象属性的不足。以该方法为核心,在全面分析传统方法的基础上,提出一种新的协同过滤推荐算法。实验结果表明,算法在用户评分数据极端稀疏的情况下,仍能取得较理想的推荐质量 16。国内推荐系统的应用现状如下:豆瓣网(http:/ 1-5 分的评分,豆瓣后台通过一定的推荐算法向用户进行推荐,同时,用户可以对数字产品进行评论,并可以参考其他用户的评论作为推荐依据。最后用户还可以加入豆瓣的兴趣小组,这样同兴趣小组成员的推荐更加精准,更加符合用户的兴趣。淘宝礼物(http:/ 41.3 研究意义电子商务网站是推荐系统
21、应用最广泛的地方。根据电子商务网站的运营特征中国的电子商务网站可分为三类:平台性质的电子商务网站,以淘宝为典型代表,不存在仓储、物流等服务,仅仅提供一个平台让更多的人在其中开店;服务型的电子商务网站,以当当、京东商城为典型代表,有自己的仓储、物流等;品牌型电子商务网站,销售自己品牌旗下产品,一般为企业官网建立的电子商务网站,例如凡客诚品。2010年电子商务在中国发展如火如荼。根据国内著名互联网分析机构艾瑞咨询调查显示,淘宝网占据国内电子商务80%以上的市场份额。2009年淘宝网销售额达到了2000亿人民币,预计2010年淘宝网销售额将翻一番达到4000亿人民币。由此可计算出2010年中国的电子
22、商务总销售额将达到5000亿人民币。当当网已经形成以图书、化妆品、家居、母婴等为主的核心品类,并于美国东部时间12月8日在美国纽约证券交易所正式挂牌上市。京东商城增长速度每年都在300%以上,成了互联网和零售业的又一个奇迹制造者。凡客诚品2010年销售的衣服达到了4000万件。由上面的数据可以说明电子商务已经在中国开始全面发展,随着电子商务的发展,电子商务网站的用户和销售的商品急剧增加,如何为每个用户提供个性化的推荐服务成为电子商务发展的重要问题。礼品作为电子商务网站中的特殊商品最具个性化的需求。每个送礼人都希望送出一份个性化的礼品,每个收礼人都希望收到一份适合自己的礼品。因此,基于知识库的礼
23、品推荐系统的研究具有很高的经济价值和社会价值。基于知识库的礼品推荐系统有其优点也有其缺点。优点是可以全面形象地描述用户的送礼需求,通过礼品知识库进行推理向用户推荐准确的个性化的礼品。缺点是礼品知识库需要礼品专家进行人工初始化,而且礼品知识库容易受到礼品专家喜好的影响。1.4 本文工作1.4.1 研究路线和方法本文从淘宝网上抓取数千礼品信息,然后采用正则表达式进行文本提取,将提取的文本信息保存到数据库形成礼品库。同时调研礼品领域知识,如礼品分类,送礼节日场合等知识并根据这些知识构建礼品知识库。然后对其中一部北京邮电大学研究生毕业论文 5分礼品的知识库进行人工初始化,并结合根据礼品基本信息计算出的
24、礼品综合相似度对礼品知识库进行完善。设计良好用户体验的推荐交互界面准确全面地表达用户的需求,从节日场合,收礼人兴趣爱好和收礼人描述向用户进行推荐。最后根据用户对推荐礼品的反馈信息对知识库进一步调整和完善。本文在搜索技术上采用开源的全文搜索引擎 Lucene 对礼品基本信息构建索引,同时结合用户的浏览日志分析用户偏好为用户的礼品搜索提供个性化的礼品推荐。1.4.2 主要研究内容本文的主要研究内容为推荐系统在礼品推荐领域的应用研究,本文采用了知识库推荐的方法,并结合礼品个性化搜索,最后根据知识库的特点设计具有良好用户体验的推荐交互界面更好地描述用户的需求向用户提供个性化的礼品推荐服务。1.4.3 研究任务本文的研究任务有如下三个方面:礼品知识库的构建:调研具有中国文化特色的礼品赠送知识,并根据这些知识构建礼品知识库。 礼品知识库的初始化和完善:用礼品专家的礼品知识对礼品知识库进行初始化,然后采用一定的算法对礼品知识库进行完善。礼品个性化搜索的设计:构建礼品索引,并结合用户浏览日志向用户提供个性化的礼品搜索。推荐交互界面的设计:根据知识库设计具有良好用户体验的推荐交互界面准确全面地描述用户的需求。第二章 个性化推荐算法及系统实现关键技术介绍