收藏 分享(赏)

互联网推荐系统比较研究.pdf

上传人:HR专家 文档编号:6243863 上传时间:2019-04-03 格式:PDF 页数:17 大小:969.06KB
下载 相关 举报
互联网推荐系统比较研究.pdf_第1页
第1页 / 共17页
互联网推荐系统比较研究.pdf_第2页
第2页 / 共17页
互联网推荐系统比较研究.pdf_第3页
第3页 / 共17页
互联网推荐系统比较研究.pdf_第4页
第4页 / 共17页
互联网推荐系统比较研究.pdf_第5页
第5页 / 共17页
点击查看更多>>
资源描述

1、ISSN 1 0009825,CODEN RUXUEWJournal ofSoftware,V0120,No2,February 2009,PP350362doi:103724SPJ1001200903388by Institute ofSoftwarethe Chinese Academy ofSciencesAll rights rcscrvcd互联网推荐系统比较研究许海玲1+,吴潇2,李晓东1,阎保平1,31(中国科学院计算机网络信息中心CNNIC实验室,北京 100190)2(中国科学院计算技术研究所智能信息处理重点实验室,北京 100190)3(中国科学院计算机网络信息中心,北京 1

2、00190)Comparison Study of Internet Recommendation SystemXU HaiLin91+,WU Xia02,LI XiaoDon91,YAN BaoPin913Email:j08iscasaccnhttp:wwwjosorgcnTelFax:+8610625625631(Laboratory ofCNNIC,Computer Network Information Center,The Chinese Academy ofSciences,Beijing 100190,China)2(Key Laboratory of Intelligent I

3、nformation Processing,Institute of Computing Technology,The Chinese Academy of Sciences,Beijing100190,China)3(Computer Network Information Center,The Chinese Academy ofSciences,BeOing 100190,China)+Corresponding author:Email:hailingxugmailcomXu HL,Wu X,Li XD,Yan BPComparison study of Internet recomm

4、endation systemJournal ofSoftware,2009,20(2):350-362http:wwwjosorgcn100098253388htmAbstract:This paper makes a comprehensive survey of the recommender system research aiming to facilitatereaders to understand this field,First the research background is introduced,including commercial applicationdema

5、nds,academic institutes,conferences and journalsAfter formally and informally describing therecommendation problem,a comparison study is conducted based on categorized algorithmsIn addition,thecommonly adopted benchmarked datasets and evaluation methods are exhibited and most difficulties and future

6、directions are concludedKey words:recommender system;social network;information overload;collaborative filtering;personalization摘要: 全面地总结推荐系统的研究现状,旨在介绍网络推荐的算法思想,帮助读者了解这个研究领域首先阐述了推荐系统研究的工业需求、主要研究机构和成果发表的期刊会议;在讨论了推荐问题的形式化和非形式化定义之后,对主流算法进行了分类和对比;最后总结了常用数据集和评测指标,领域的重难点问题和未来可能的研究热点关键词: 推荐系统;社会网络;信息过载;协同过

7、滤;个性化中图法分类号:TP393 文献标识码:ASuppoSedbytheNationalNatural ScienceFoundation ofChinaunderGrantNos60773056,60802028,60873165(国家自然科学基金):the National Basic Research Program of China under Grant No2007CB31llOO(国家重点基础研究发展计划(973);the NationalHighTech Research and Development Plan of China under Grant No2007AAO

8、lZ416(国家高技术研究发展计划(863);the KnowledgeInnovation Program ofthe Chinese Academy of Sciences under Grant NoCNIC QN 07001(中国科学院知识创新工程青年人才领域前沿项目):the Beijing New Star Projeet on ScienceTechnology ofChina under Grant No20078071(北京市科技新星计划)Received 200801-22;Accepted 20080505万方数据许海玲等:互联网推荐系统比较研究 351互联网规模和覆盖面

9、的迅速增长带来了信息超载(information overload)的问题:过量信息同时呈现使得用户无法从中获取对自己有用的部分,信息使用效率反而降低现有的很多网络应用,比如门户网站、搜索引擎和专业数据索引本质上都是帮助用户过滤信息的手段然而这些工具只满足主流需求,没有个性化的考虑,仍然无法很好地解决信息超载的问题推荐系统(recommender system)作为一种信息过滤的重要手段,是当前解决信息超载问题的非常有潜力的方法推荐系统与以搜索引擎为代表的信息检索(information retrieval)系统最大的区别在于:1)搜索注重结果(如嘲贞)之间的关系和排序,推荐还研究用户模型(u

10、ser profile)和用户的喜好,基于社会网络(social network)进行个性化的计算(personalization);2)搜索的进行由用户主导,包括输入查询词和选择结果,结果不好用户会修改查询再次搜索而推荐是由系统主导用户的浏览顺序,引导用户发现需要的结果高质量的推荐系统会使用户对该系统产生依赖因此,推荐系统不仅能够为用户提供个性化的服务,而且能够与用户建立长期稳定的关系,提高用户忠诚度,防止用户流失推荐系统最典型的应用是在B2C电子商务领域,具有良好的发展和应用前景,商家根据用户的兴趣、爱好推荐顾客可能感兴趣或满意的商品(如书籍、音像等)顾客的需求通常是不明确的、模糊的,如果

11、商家能够把满足用户模糊需求的商品推荐给用户,就可以把用户的潜在需求转化为现实需求,从而达到提高产品销售量的目的目前,几乎所有的大型电子商务系统,如Amazon,eBay等,都不同程度地使用了各种形式的推荐系统其中Amazon研究电子商务的推荐系统长达10年时间各种提供个性化服务的Web站点,如电影、音乐网站,也需要推荐系统的大力支持表1中按照应用领域分类列举了一些典型的商用推荐系统Table 1 Mainstream commercialized recommender systems表1主流的商用推荐系统一览表Field_瓦而磊鬲磊三;五Seycs。t脚ems品五而玉石函i一ECommerc

12、e Amazoncorn,eBay,Levis,Ski-europecornWeb page Fab,Foxtrot,ifWeb,MEMOIR,METIOREW,ProfBuilder,Qurc。Quickstep,R2P,Siteseer,surfI棚Music CDNOW,CoCoA,Ringo,MusicYahoocomMovie Netfilxcom,Moviefindercom,MovieLens,ReelcomNews GroupLens。PHOAKS。PTango_l一I在学术界,自20世纪90年代中期出现第一批关于协同过滤的文章【卜3】以来,推荐系统在电子商务、网络经济学和人类

13、社会学等领域一直保持很高的研究热度并逐渐成为一门独立的学科各种推荐算法涵盖包括认知科学、近似性理论、信息检索【41、管理科学【51、市场营销建模【6】等在内的众多研究领域【7】近几年来,国际学术界针对计算机网络信息整合的推荐相关的研究大量出现:1)ACM设立推荐系统年会(ACM recommendersystems);2)计算机领域的人机交互、数据挖掘和机器学习顶级会议(SIGCHI,KDD,SIGIR,wwW等)中,推荐算法的文章逐年增加;3)国际数据分析领域的高阶期刊(如IEEE Transon Knowledge and Data Engineering,ACMTranson Infor

14、mation System等)刊载数篇推荐系统方面的文章信息领域做推荐系统领先的研究单位(学者)包括:纽约大学(AlexanderTuzhilin)、明尼苏达州立大学的GroupLens研究小组(JosephAKonstan,John Riedl等)、美国密歇根大学(Paul Resnick)、卡内基梅隆大学(Jaime Callan)、微软研究院(Ryen WWhite)等其中,美国密歇根大学在2006年开授了由Paul Resnick主讲的推荐系统的课程推荐系统,结合社会网络和语义网络的研究,面向互联网发展中出现的新问题和新技术需求,具有广泛的研究和应用前景本研究调研了推荐系统在计算机网络

15、和信息领域的主流研究与应用进展本文第1节中给出推荐系统的形式化定义第2节根据推荐算法的类别分类陈述最新的学术进展第3节讨论使用的数据集以及实验评测方法,对当前推荐系统的研究难点进行归纳并对比各种推荐方法的优、缺点第4节对推荐系统有待深入的研究点和发展趋势进行初步预测1 推荐系统概念和形式化定义目前被广泛引用的推荐系统的非形式化概念是Resnick和Varian在1997年剐给出的它是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程”。推万方数据352 Journal of Software软件学报V0120,No2,February 20

16、09荐有3个组成要素:推荐候选对象、用户、推荐方法通用的推荐系统模型流程如图l所示用户可以向推荐系统主动提供个人偏好信息或推荐请求,或者用户不提供,而是推荐系统手动采集推荐系统可以使用不同的推荐策略进行推荐,如将采集到的个性化信息和对象数据进行计算得到推荐结果,或者直接基于已建模的知识数据库进行推荐推荐系统将推荐结果返回给用户使用Fig1 Recommendation system general model图1推荐系统通用模型此外,文献7】给出了推荐系统的形式化定义:设C是所有用户(user)的集合,S是所有可以推荐给用户的对象(object)的集合实际中,C和S集合的规模通常很大,如上百万

17、的顾客以及上亿种歌曲等设效用函数“()可以计算对象s对用户C的推荐度(如提供商的可靠性(vendor reliability)和产品的可得性(product availability)等),即“:CxS-R,R是一定范围内的全序的非负实数,推荐要研究的问题就是找到推荐度尺最大的那些对象J,如式(1)Vc C,s=argn曼axu(c,s) (1)用户和对象的度量与采样可以使用不同的属性和特征,这根据实际面对的问题不同而不同推荐算法研究的中心问题是效用度U的计算,并非遍历整个CxS的整个空间,而是分布到一个流形子空间(manifold)上对于某个数据集而言,必须先对U进行外推(extrapola

18、tion),也就是说,对象必须具备用户以前作的评分(rating),未评定(unrated)的对象的评分必须先根据已标注的对象进行标注外推后才可以使用各类推荐算法在外推和评分预测(rating propagation)上采用了不同的策略,设计了不同的效用函数,这些将在下一节中分类介绍2现有的推荐算法推荐算法是整个推荐系统中最核心和关键的部分,在很大程度上决定了推荐系统类型和性能的优劣目前,对推荐系统的分类并没有统一的标准,很多学者从不同角度对推荐方法进行了不同的划分9-11】但主流的推荐方法基本包括以下几种:基于内容推荐、协同过滤推荐、基于知识推荐和组合推荐本节我们将分类讨论推荐算法的研究成果

19、,下一节我们将讨论这几类推荐算法各自的优、缺点和推荐系统研究的重点、难点问题21基于内容的推荐基于内容的推荐(contentbased recommendation)是指根据用户选择的对象,推荐其他类似属性的对象作为推荐,属于Schafer划分中【l伽的Item-toItem Correlation方法这类算法源于一般的信息检索方法【41不需要依据用户对对象的评价意见对象使用通过特征提取方法得到的对象内容特征来表示,系统基于用户所评价对象的万方数据许海玲等:互联网推荐系统比较研究 353特征,学习用户的兴趣,从而考察用户资料与待预测项目相匹配的程度对象内容特征(Content(s)的选取在目前

20、的研究中以对象的文字描述为主,比如信息检索中最经典的文本特征是词频-倒排文档频率(term frequency-inverse document frequency,简称TF-IDF)is另方面,用户的资料模型ContentBasedProfile(c)取决于所用机器学习方法,常用的有决策树、贝叶斯分类算法【1213】、神经网络、基于向量的表示方法等,数据挖掘领域的众多算法都可以应用结合对象内容特征和用户资料模型,最终的效用函数可以定义为【71u(c,J)=score(ContentBasedProfile(c),Content(s) (2)Score的计算有不同的方法,比如使用最简单的向量夹

21、角余弦的距离计算方法:”(c,s)=COs(吃,吃)=三。,。w,f兰。,2扣羔。矿抽1 (3)最后得到的U数值用于排序对象,将最靠前的若干个对象作为推荐基于内容推荐的其他研究还包括自适应过滤【14,15和阈值设定16,17】等,前者关注如何通过不断到来的对象增量地计算ContentBasedProfile(c),使其更加准确;后者研究用户查询文字和对象特征的匹配方法,从而更精确地计算Content(c)22协同过滤推荐协同过滤推荐(collaborative filtering recommendation)技术是推荐系统中最为成功的技术之一,它于20世纪90年代开始研究并促进了整个推荐系统

22、研究的繁荣大量论文和研究都属于这个类别协同过滤的基本思想是:找到与当前用户C。相似(比如兴趣和口味相似)的其他用户c,计算对象S对于用户的效用值u(cj,J),利用效用值对所有J进行排序或者加权等操作,找到最适合C。的对象s+其基本思想非常易于理解,在日常生活中,我们往往会利用好朋友的推荐来进行一些选择协同过滤正是把这一思想运用到推荐系统中来,即基于其他用户对某一内容的评价向目标用户进行推荐基于协同过滤的推荐系统可以说是从用户的角度进行推荐的,并且是自动的,也就是说,用户所获得的推荐是系统从用户购买或浏览等行为中隐式获得的,不需要用户主动去查找适合自己兴趣的推荐信息,如填写一些调查表格等其另外

23、一个优点是对推荐对象没有特殊的要求(而基于内容的推荐需要对推荐对象进行特征分析),能够处理非结构化的复杂对象,如音乐、电影等同时,研究用户之间的关系需要大量的用户访问行为的历史数据,与社会网络研究有交叉点,有丰富的研究基础和广阔的前景对协同过滤最早的研究有Grundy system18l,后来的研究成果包括Tapestry system1 91,GroupLens201,Ringo11,PHOAKS systemt211,Jester system221等总体而言,此类推荐算法可以分为两类【47】启发式(heuristicbased 01“memorybased)方法和基于模型(modelba

24、sed)的方法1)启发式方法启发式方法23,241的基本思想是使用与新用户c相似的用户c对一个对象J的评价来预测s对新用户c的效用,进而判断是否推荐s给c显然,启发式方法的研究主要包括两点:(1)计算用户之间的相似度;(2)对所有与用户C相似的用户c7对对象s的评分进行聚合计算,以得到S对新用户c的效用的统计预测方法在用户相似度sim(c,C)这个研究点上,主流的思路是根据用户对同一对象的评分的差异来判断用户兴趣的相似性评分属于用户的浏览历史行为,可以是打分、观看次数、停留时间等最基本的两种计算sim(c,C7)的方法是基于关联的(correlationbased)和基于余弦距离的(cosin

25、ebased)方法基于关联的方法研究用户C和c共同评分过的所有对象的评分相似度来计算关联【1,31而基于余弦距离的方法直接把评分作为向量来计算余弦距离,进而得到用户相似度23,25】统计预测方法的计算公式可以形式化地表示如下【7】:乞,=qgg,(CtE C) (4)之前的研究设计了很多计算aggr的启发式函数。几个比较典型的例子是:广圭 (5)广i磊 【5万方数据354 Journal of Software软件学报V0120,No2,February 2009。=七sim(c,c,), (6)c,eC。,=瓦+七sim(c,c3x(一巧,) (7)cEC这3类aggr函数都是利用以前用户的

26、评价和用户之间的相似度来启发式地计算效用值其中,式(5)是最简单的形式;式(6)简单地引入用户相似度加权,是应用最广的方法;考虑到不同的用户在不同情况下作的评分可能有不同的尺度,式(7)提出进行平均归一化的操作以消除这种尺度影响除了这两个研究点之外,近年来一些学者同时也发展了其他启发式方法,以提高启发式推荐的性能,如缺省投票(default voting)、用户倒排评分(inverse user frequency)、实例扩展(case amplification)【23】和主流加权预测(weighted-majority prediction)t24j等2)基于模犁的方法这类方法利用用户c对

27、众多对象的评分来学习一个C的模型(model)201,然后使用概率方法对新的对象s的推荐效用进行预测文献7对这种方法的形式化描述如式(8)所示:,=E(乞J)=ixPr(r。,=iI,ss:) (8)i=0这样,基于模型的方法把一个用户归类到一种模型下或者一个类型中其他的算法还包括利用机器学习方法和统计模型【30J、贝叶斯模型f3I】、概率相关模型P71、线性回归模型f25】和最大熵模型捌Shani在文献33】中还把推荐选择看作序列决策问题(sequential decision problem),使用马尔可夫决策过程方法(Markov decisionprocesses)力H以解决图模型方法

28、,包括概率隐形语义分析(probabilistie latent semantic analysis)28】和LDA(1atentdirichlet allocation)t2引,也应用于协同过滤推荐算法的研究23基于知识的推荐基于知识的推荐(knowledgebased recommendation)34】在某种程度上可以看成是一种推理(inference)技术它不是建立在用户需要和偏好基础上推荐的,而是利用针对特定领域制定规贝U(rule)来进行基于规则和实例的推理(case-based reasoning)例如,文献34】中利用饭店的菜式方面的效用知识,推荐饭店给顾客效用知识(funct

29、ional knowledge)是-种关于一个对象如何满足某一特定用户的知识,因而能够解释需求和推荐的关系,用于推荐系统效用知识在推荐系统中必须以机器可读的方式存在(ontology本体知识库),例如quickstep andfoxtrot systems”】使用关于学术论文主题的ontology本体知识库向读者作推荐24组合推荐组合推荐(hybrid recommendation)的一个最重要原则就是通过组合后应能避免或弥补各自推荐技术的弱点(见第34节)研究和应用最多的是内容推荐和协同过滤推荐的组合【9381尽管从理论上有很多种推荐组合方法,但不同的组合思路适用于不同的应用场景我们将研究人

30、员提出的组合思路大致分为如下3类:1)后融合:融合两种或两种以上的推荐方法各自产生的推荐结果如使用基于内容的方法和协同过滤方法分别得到推荐列表,融合列表的结果决定最后推荐的对象2)中融合:以一种推荐方法为框架,融合另一种推荐方法如以基于内容的方法为框架,融合协同过滤的方法,或者以协同过滤的方法为框架,融合基于内容的方法3)前融合:直接融合各种推荐方法如将基于内容和协同过滤的方法整合到一个统一的框架模型下241后融合组合推荐在后融合组合推荐中,最简单的做法就是分别用基于内容的方法和协同过滤推荐方法去产生一个推荐预测结果,然后用某种方法组合其结果文献37】使用了评分结果的线性组合,而文献(38】使

31、用了投票机制来组合这些推荐结果除此之外,也可以分别考察两个推荐列表,判断使用其中的哪个推荐结果比如,Daily Learnersystem39计算推荐结果的可信度,然后选择一个列表的结果这种结果层次上的融合我们称为后融合组合推荐万方数据许海玲等:互联网推荐系统比较研究 355242中融合组合推荐目前,中融合的组合推荐主要有两种,以基于内容的方法为框架,融合协同过滤的方法和以协同过滤的方法为框架,融合基于内容的方法前者利用降维技术把基于内容的对象特征进行精简化例如,文献40使用了LSI(1atent semantic indexing)算法,在基于内容的框架中使用精化的用户特征向量后者为了克服协

32、同过滤的稀疏问题(详见第33节),把用户当作对象,使用基于内容的特征提取方法把用户本身的特征(如年龄、工作情况等人口统计学特征(demographic features)使用到相似度计算中,而不是仅仅依赖用户的点击行为Good等人在文献【41】中引入多种不同的用户描述符来归类用户,挖掘用户的内在联系,从而得到更好的推荐效果文献421使用独立的基于内容的特征来补偿用户提供的简单的rating也属于此类方法243前融合组合推荐近年来,这类推荐方法最受学者的关注在文献361中,研究者把用户的年龄和电影的类型放到一个统一的分类器中训练学习另外一种方法f43】使用了贝叶斯混合效果回归模型,并通过马尔可夫

33、蒙特卡洛方法得到这个模犁的参数文献【43】将用户和对象的特征都放到一个统计模型下来计算效用函数,研究者使用用户属性z、对象属性W及其交互关系(如选择关系h来计算效用r对象,对于用户i的效用值,f,计算式可以表示为白=勃+zi乃+wA+勺,Where勺N(o,盯2),五一N(O,),乃N(0,力 (9)这其中的3种正态分布的变量分别用于描述数据的噪声、用户属性的异质性和对象属性的异质性式(9)表述效用值是由这几个因素共同决定的这3种分布的3个参数由马尔可夫蒙特卡洛方法估算得到近年来,一些方法比较的工作【9,42,38】讨论并实验了各种方法与组合策略,得出结论:组合策略能够取得比纯基于内容或协同过

34、滤方法更好的效果这种在方法层次上融合的方法我们称为前融合组合推荐3推荐系统的重点、难点问题和主流算法对比31推荐系统的评测标准数据集推荐系统学术研究常用的数据集包括:1)MovieLensl441MovieLens数据集中,用户对自己看过的电影进行评分,分值为15MovieLens包括两个不同大小的库,适用于不同规模的算法小规模的库是943个独立用户对1 682部电影作的10 000次评分的数据;大规模的库是6 040个独立用户对3 900部电影作的大约100万次评分21 EachMovie45】HPCompaq的DEC研究中心曾经在网上架设EachMovie电影推荐系统对公众开放之后,这个推

35、荐系统关闭了一段时间,其数据作为研究用途对外公布,MovieLens的部分数据就是来自于这个数据集的这个数据集有72 916个用户对l 628部电影进行的2 81l 983次评分早期大量的协同过滤的研究工作都是基于这个数据集的2004年HP重新开放EachMovie这个数据集就不提供公开下载了31 BookCrossing461这个数据集是网上的BookCrossing图书社区的278 858个用户对271 379本书进行的评分,包括显式和隐式的评分这些用户的年龄等人口统计学属性(demographic feature)都以匿名的形式保存并供分析这个数据集是由Cai-Nicolas Ziegl

36、er使用爬虫程序在2004年从Book-Crossing图书社区上采集的舢Jester Joket22】Jester Joke是一个网上推荐和分享笑话的网站这个数据集有73 496个用户对100个笑话作的410万次评分评分范围是一10,-10的连续实数这些数据是由加州大学伯克利分校的Ken Goldberg公布的5、Netflix47】这个数据集来自于电影租赁网址Netflix的数据库Netflix于2005年底公布此数据集并设立百万美元的奖金(netflix prizet471),征集能够使其推荐系统性能上升10的推荐算法和架构这个数据集包含了万方数据356 Journal of Softw

37、are软件学报V0120,No2,February 2009480 189个匿名用户对大约17 770部电影作的大约lO亿次评分61 Usenet Newsgroupsl48】这个数据集包括20个新闻组的用户浏览数据最新的应用是在KDD 2007上的论文1491新闻组的内容和讨论的话题包括计算机技术、摩托车、篮球、政治等用户们对这些话题进行评价和反馈7)UCI知识库【50】UCI知识库是Blake等人在1998年开放的一个用于机器学习和评测的数据库,其中存储大量用于模型训练的标注样本,在文献49】中被用于推荐系统的性能测试数据32推荐系统的性能评测方法推荐系统的性能指标一般有推荐的效果精确度(

38、effectiveness)和推荐的效率(efficiency),使用的指标有mean absolute error(MAE)root mean squared error(RMSE)和correlation由于不同的研究工作针对不同的问题,使用不同的数据集,所以具体评测方法变化很大比较普遍的评测方法来自于机器学习等领域的一般方法,比如数据集被分割为训练集(probe set)和测试集(quiz set)推荐算法的模型在训练集上进行学习和参数调整,然后在测试集合上计算精确度和运行效率,从而达到评测目的文献231使用两种评测方法来比较几种协同过滤的算法性能,第1种评测得到每次推荐绝对误差的平均值

39、,第2种评测计算整个推荐列表的推荐精度33推荐系统的重点、难点问题随着近年来对推荐系统研究的开展,很多研究中的重点、难点问题得到研究者的关注和共识【7】,主要包括:1)特征提取问题虽然在信息检索中,文本等对象特征的提取技术已经很成熟,但是推荐系统的对象不一定具有文本特征或者文本不足以作为描述【,此时特征的选择出现了问题尤其是网络上广泛存在的多媒体数据如音乐、视频、图像等,自动化的特征提取方法需要结合多媒体内容分析领域的相关技术另一个问题是特征的区分性问题,大规模数据情况下不同对象的特征错配会影响系统性能2)模型过拟合问题(可扩展性问题)推荐系统中推荐算法无法完全掌握用户每个方面的兴趣和需求,因

40、为用户之前没有对足够多类别的对象进行评价过拟合现象是指系统推荐给用户的对象与用户刚刚看过的不是太相似,就是太不相关模型过拟合(过学习)的问题本质上来自于数据的不完备性,这在实际应用中是无法完全避免的在信息检索领域这类问题广泛存在,解决的主要方法是引入随机性,使算法收敛到全局最优或者逼近全局最优随机方法包括遗传算法【511等Daily Learner相关的文献15,39针对这个问题考察了被推荐的对象的相关性(relevant)和冗余性(redundancy),认为被推荐的对象首先不能与用户看过的对象重复(冗余),其次必须有相关性以相互联系推荐的多样性是必不可缺的3)新用户问题系统没有存储或者存储

41、很少新用户的信息,包括查看对象的历史记录和新用户对对象的评分,基于模型的方法无法获得训练数据而基于规则的方法难以进行推理近期一些研究特别针对这个问题提出了解决方法文献52,53和J用对象熵(entropy)、受欢迎程度(popularity)、用户个性属性等来改进效果4)新对象问题新用户和新对象问题都属于冷启动问题在推荐系统尤其是协同过滤系统中,新对象加入数据库后必须等待一段时间才有用户查看并进行评价(点击、打分、评论等都是评价的手段)在评价达到一定数量之前无法对此对象进行分析和推荐不同于新用户问题,这类问题一般考虑使用组合推荐的方法来应对5)稀疏问题在任何大型的推荐系统中,对于一个用户,总有

42、大量的对象没有经过用户的评价或者查看,而且这类数据常常比已经有此用户评价的数据量更大【71用户之间由于选择的差异性非常大造成稀疏情况,即任意两个用户的评分差别都非常大文献38】提出初步的解决方法,将用户的年龄、国籍、性别等个人信息万方数据许海玲等:互联网推荐系统比较研究 357增加作为用户相似度计算的根据,称为基于人口统计学的过滤方法(demographic filtering)文献26,54】使用主分量分析(SVD)降维方法尝试把稀疏的关系矩阵降维到低维,以得到用户之间潜在的关系34各类推荐方法的对比各类推荐方法都有其各自的优、缺点,针对不同的数据集,效果也有所不同每种方法因为算法本身的特征

43、可能不适合在所有数据集上作推荐如在基于内容的推荐方法中,自动化的特征提取方法很难应用于多媒体数据,即使在容易提取特征的文本数据的情况下,也无法仅仅通过词频统计的方式区分文档质量【41除此之外,为用户推荐的内容仪限于与该用户曾经选择的对象相似的对象,结果多样性差而对于没有选择过任何对象的新用户,推荐尤其困难协同过滤的方法从某种程度上克服了基于内容方法自动化程度低、推荐结果不丰富等弊端但是,协同过滤是基于大量历史数据集的,因而存在稀疏问题和冷启动问题在冷启动方面,由于协同过滤是依靠人与人之间选择内容的相似度进行推荐的,因此,与基于内容的方法相比,不但存在新用户问题l”l,而且还存在新对象问题,即刚

44、H0加入的对象如果没有被任何人选择过,就很难被推荐【7I基于知识的推荐是一种静态的推荐方法,不存在冷启动和稀疏问题,但知识很难建模组合推荐策略由于组合方式不同,其性能特点差异很大,故不在此讨论范围内几种推荐方法的优、缺点具体比较见表2Table 2 Comparison of typical recommendation algorithms表2典型推荐算法对比Recommendationalgorithms Advantages DisadvantagesRecommendation result is intuitive and easy to interpret; Limited by

45、the features extraction methods;Content based Thetraining of classifier needs massive data;No need for usersaccess history data; New user problem;No new item problem and no sparsity problem;Supported by the mature technology of classification learning Poor scalabilityNo need for professional knowled

46、ge; Sparsity problem;CollaborationPerformance improving as the increasing ofthe IISgT number; Poor scalability;Automatic; New user and new item problem;filtering Easy to findusers new interesting point; The recommendation quailty limited by theComplex unstructured item can be processedegMusic,Video,

47、etc history data setCan map usersneeds to product; Knowledge is difficult to obtain and model;Knowledge based NonProduct attribute is considered Static without flexibility4推荐系统研究发展的热点方向推荐系统的研究发展多年,曾经一度进入低潮期近年来,机器学习、大规模网络应用需求和高性能计算的发展推动了这个研究领域的新进展,可以深入并可能取得成果的方向很多,主要包括:1)引入更精确适用的用户和对象特征(new profiles

48、ofuser anditem)l 71针对特定问题适用的用户和对象特征通常可以作为模型训练的样本典犁的协同过滤方法【1-3】并没有使用用户和对象特征,而是利用用户的评分文献13,55只是使用简单的特征,如对象描述的关键词和用户的人口统计学特征等而结合数据挖掘的高层特征一般是基于网络上下文的分析的【561。比如发现用户浏览网页和对象的时序模式这类方法需要精准的用户浏览历史数据和先进的数据挖掘算法,尚未在基于内容和协同过滤的研究中,“泛采用2)推荐的多维度研究【7j当前的大部分研究都是基于对象用户的二维度量空间的,未考虑相关信息(contextual information)然而,用户对对象的评价和选择常常由很多环境因素来决定,比如某个对象在特定时段很流行,用户在某个地方浏览对象的时候偏向于选择某类对象等环境因素是无法从用户和对象的自有特征得到的,正如文献57,58所指出的,推荐使用的特征维度有必

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报