收藏 分享(赏)

基于标签的个性化推荐技术研究.pdf

上传人:weiwoduzun 文档编号:1760822 上传时间:2018-08-22 格式:PDF 页数:6 大小:238.42KB
下载 相关 举报
基于标签的个性化推荐技术研究.pdf_第1页
第1页 / 共6页
基于标签的个性化推荐技术研究.pdf_第2页
第2页 / 共6页
基于标签的个性化推荐技术研究.pdf_第3页
第3页 / 共6页
基于标签的个性化推荐技术研究.pdf_第4页
第4页 / 共6页
基于标签的个性化推荐技术研究.pdf_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、Scientific Journal of Computer Science 计算机科学期刊 V ol.2 No.1 Mar. 2012 PP.25-30 www.sj-cs.org 2011American V-King Scientific Publishing, LTD - 25 - 基于标签的个性化推荐技术研究 王金燕, 刘亚 军 东南大学 计算机科学与工程学院,江苏 南京 211189 摘 要: 传统的 标签 推荐 技术 强调 标签 推荐 的精 确性 和规 范性 ,忽 略了 标签 的个 性化 特征 。针 对此 问题 ,文章 认为 标签 推荐 应符合个性化特征,提出 个性化的判断标准

2、coverage 和 ranking, 并对传 统 -mixed 算 法进行改进, 提出了 -Co-mixed 算法。 该算法在已知资源最热门标签集合的基础上,结合考虑用户个人标签库中标签间的共现概率调整标签分值,最终产生推荐集。 实验结果证明, -Co-mixed 算法在 coverage 和 ranking 上优于 -mixed 算法,即可推荐出更具个性化的标签。 关键词: 标签 推荐;个性化;共现概率 Tag-based Personalized Recommendation Research Jinyan Wang, Yajun Liu Computer Science and Eng

3、ineering Department, Southeast University, Nanjing, China, 211189 Email: Abstract: Conventional tag recommendation mainly focuses on tags precision and normalization, but ignores its personalization. In order to solve this problem, it is proposed in this paper coverage and ranking as the new standa

4、rds of personalized tags, and gives an improved algorithm based on algorithm. The new algorithm takes into account the tags co-occurrence in users tag library after getting the most popular tags of a resource, modifies the tags scores and generates tag recommendations according to the final scores.

5、The experiment results prove that the new algorithm performs are better in both coverage and ranking and can get more personalized tag recommendation. Key words: Tag Recommendation; Personalized; Co-occurrence 引 言 随着 Web2.0 网站的发展, 互联网上信息的爆炸式增长使个性化的信息服务显得越来越重要。Web2.0 作为一 个 时代的产物, 其成功的背后有一个核心原则: 即借助网络

6、的力量, 利用从用户的行为中得到集体智慧。 社会性标签 正是这种集体智慧的一个产物。 标签作为一种特殊的元数据, 来源于标注者对资源主观感受的概括, 被用户用于描 述和分类资源。 当多个用户对多个资源添加标签后, 标签就具有了社会性, 成为社会化标签, 称为 folksonomy;当 一个用户对多个对象添加标签后,就形成了其个人标签库,称为 personomy 。对资 源进行标注是系统加于用户的一 个操作, 为了更好地帮助用户标注资源, 便于个人自愿的浏览、 回顾、 组织、 管 理、 检索资源, 诸多社会标注系统 在用户标注资源时提供了推荐机制。 现有标签推荐的研究成果包括: Bruno Ol

7、iveira 1 、Marek Lipczak 2 、Pierpaolo Basile 3 等研究的基于资源内容 的标签推荐; Leandro Balby Marinho 4 、 Xu Yanfei 和 Zhang Liang 5 、A.T.Ji 6 等研究的基于二元矩阵的协同推荐; Zhichen Xu 7 等提出的高质量的标签要具有的标准; Andreas Hotho 8 等受到 PageRank 算法启发提出的 FolkRank 算 法以及 Symeonidis 等 9 研究的张量降维技术。 上述基于标签的推荐工作大多集中在推荐更精确、 更规范、 更具概括性的标签, 即过分关注标签作为

8、folksonomy 的方面, 而忽略了标签作为 personomy 的方面, 使得推荐的标签不具个性化, 不符合用户的标注习惯。 本文提出一 种基于标签的个性化推荐算法, 该算法同时考虑了资源的热门标签以及用户个人标签库中标签间的共现概率, 通过 实验论证,该算法可以提高标签推荐的个性化水平。 SJCS 基于标 签的个性化推荐技术研究 V ol.2 No.1 Mar. 2012 PP.24-29 www.sj-cs.org 2011American V-King Scientific Publishing, LTD - 26 - 1 mi xe d 算法 Robert Jschke 10 提

9、出了使标签推荐集具个性化特征的 - mixed 算法, 该算法综合考虑了资源最热门标签集和用 户最常使用标签集。标签推荐公式如下: ( ) ( ) ( ) ( ) ( , ) arg max * 1 * n ru tT T u r norm t norm t = + (1) 其中 ( ) r norm t 为资源 r 中的热门标签规格化后的分值, ( ) u norm t 为用户 u 标签库 中的常用标签规格化后的分 值。算法复杂度: ( ) ( ) log( ) log O mn mn O m m + += (2) 其中 m 表示 算法规定的资源最热门标签集合的大小, n 表示 算法规定的个

10、人标签库中最常使用的标签集合大小, 通常情况下 m 、n 为同一数量级。 -mixed 算法的 推荐效果优于协同过滤算法,且推荐速度快于 FolkRank 算法 ,所 以更具实用性。然而 -mixed 算法虽 然考虑到用户的个性化标签库, 但只是简单将资源热门标签与用户热门标签通 过一定比例相加,推荐结果中可能会出现与资源内容不符的标签却推荐分值过高的情况。 2 个 性 化标签判 断标准 用户通过一定时间的标注行为, 会形成自己的标签库, 每个标签对应曾标注过的资源。 如果一味强调推荐标签 的精确性、规范性、概括性,忽视用户的个性化标注行为,那么即使是相似资源,用户也可能用不同的标签标注, 因

11、此不利于用户对其曾标注过的资源分类、 管理和回顾。 针对当前标签推荐中被忽视的问题, 本文提出个性化标签 两个判断标准:覆盖率和排名率。 2.1 覆盖率 覆盖率是指推荐集中的标签在用户最终采用的标签集中所占的比例。 推荐集中的标签在保证准确性的同时, 应 尽可能多地覆盖用户曾标注过的资源, 便于用户回顾管理。 如果标签覆盖的历史资源多, 说明该标签是用户经常使 用, 符合用户标注习惯的。 高覆盖率是指标签被用户使用的可能性更高, 即推荐集中含有更多的用户最终采用的标 签。用户 u 对资源 o 的 一次标注行为,其覆盖率用公式(3 )计算。 ( ) ; ; ; uo uo uo TT Cover

12、age u o T = (3) 平均覆盖率表示用户集U 在资源集 R 上的覆盖率的平均情况,平均覆盖率的计算如公式(4 )所 示。 ( ) ( ) ; ; 11 ; uR uU oO uR Coverage U R Coverage u o UO = (4) 公式(3 )和公式 (4 )中 ; uo T 表示用户 u 对资源 o 实 际标注的标签集合, ; uo T 表示系统向用户 u 推荐的资源 o 的标签集合, ; uR O 表示 R 中 用户 u 标注 过的资源集合。 2.2 排名率 排名率表示推荐集中的标签在用户最终采用的标签集中的排名情况。分析 delicious 网站提供的 200

13、4-12-312005-12-31 的 用户数据,可知共有 532894 位用户 对 17262097 个资源进行了 47256954 次标注行为,平 均每个用户对每个资源添加 3 个标 签。 所以在较大的标签集中, 应将更符合用户标注习惯的标签排名靠前, 则用户 在浏览少量的标签后就可获得所需的标签。 令 ; (, ) uo position t T 表示标签 t 在 ; uo T 中的位置, 令 ; ; 1 (, ) uot uo p position t T = ,若 ; uo tT ,则 ; uot p 越大, 标签在推荐 集中的位置越靠前,其推荐效果越好。考虑如下表的两种情况的标签推

14、荐集。假设用户实际使用的标签不分主次,SJCS 基于标 签的个性化推荐技术研究 V ol.2 No.1 Mar. 2012 PP.24-29 www.sj-cs.org 2011American V-King Scientific Publishing, LTD - 27 - 同等重要,其中 1 表示 用户实际使用的标签,0 表示用户未使用的标签。 表 1 两种推荐情况 实际使用 1 1 1 推荐集 1 1 0 0 0 0 1 推荐集 2 0 1 1 0 0 0 推荐集 1 中 ; 3.5 6 uo p = ,推荐集 2 中 ; 2.5 6 uo p = ,根据计算结果推荐集 1 优于 推荐集

15、 2。然 而 推荐集 1 中的 一个标签排名第一, 另一个标签排名靠后, 但推荐集 2 中 的两个标签在推荐集中排名都相当靠前, 所以推荐集 2 的 整体推荐效果要优于推荐集 1 。 为了 降低标签分布跨度过大对最终结果带来的影响, 须要修正 ; uot p 的计算公式。 由 于平均每个用户对每个资源使用 3 个标签 , 本文以 3 个标 签为一组 , 且认为同组内的标签排名相同 。 令修正后 ; ; 1 (, )/3 uot uo p position t T = ,则对用户 u 对资源 o 的 一次标注行为,定义排名率如公式(5 )所示: ( ) ( ) ; ; ; 1 ; 1/ uo t

16、T uot uo Ranking u o p T = (5) 平均排名率表示用户集 U 在资源集 R 的排名率 的平均情况,定义平均排名率如公式(6 )所示 : ( ) ( ) ; ; ; 1 1 ; uR oO uU Ranking u o uR O Ranking U R U = (6) 3 - mixed 改进 算法 根据上文提出的个性化标签判断标准,本文对 - mixed 算法 进行改进,提出新的推荐算法,即 -Co-mixed 算 法。 3.1 -Co-mixed 算法的基本思想 设 (; ) pto 表示在资源 o 中标签t 被推荐的概率; (| ; ) pt ku 表示对于用户

17、u , 若 已使用标签t , 同时使用 标签 k 的概率; 表示用户标签库中的标签在最终的分值中所占的比例; (; ; ) Stuo 表示向用户 u 对资源 o 推荐标签t 的 合适性, 其值在计算过程中会被不断调整; ; ku T 表示在用户 u 的标签库中和标签 k 共同出现概率最高的标签集合; R 1 表示资源 最热门标签,R 2 表示待 推荐集, 1 tR ,加入 R 2 ,并 赋初值 ( ) ; ; (; ) S tuo pto = ; 1 kR , ; ku tT ,如果 2 tR ,则依据公式(7 )调整分 值: ( ;) ( ;) (;) * (|;) * Stuo Stuo

18、pko pt ku = + (7) 否则将标签t 加入 2 R 中,并根据公式(8 )赋予初值: ( ; ; ) ( ; )* ( | ; )* Stuo pko pt ku = (8) 3.2 -Co-mixed 算法描述 算法名称:-Co-mixed 算法输入:当前用户 u , 当前标注的资源 o 算法输出:标签推荐集 R 步骤: a ) 首先统计资源 o 上已 有的最热门标签, 获得待推荐集 R 1 , 统计 R 1 中 各标签的出现次数及所有标签的出现次SJCS 基于标 签的个性化推荐技术研究 V ol.2 No.1 Mar. 2012 PP.24-29 www.sj-cs.org 2

19、011American V-King Scientific Publishing, LTD - 28 - 数总和,求出各标签的推荐概率,新建标签集 R 2 并初始化 ; b ) 依次分析推荐集 R 1 中 的每个标签, 从用户 u 的个人标签库中找出对应的共现概率最高的标签集合, 并根据 公式(7)( 8 )调整待推荐集 R 2 ; c )对 R 2 中 的所有标签根据分值从高到低排序,推荐 Top-K 的标签得到最终推荐集 R ; d )算法结束 。 -Co-mixed 算法的时间复杂度如公式(9 )所示 : ( ) ( ) ( ) ( ) log( ) log( ) O mc mc mc

20、O mc mc += (9) 其中 m 表示 算法规定的资源最热门标签集合的大小,c 表示 R 1 中的每 个标签在用户个人标签库中找寻的共现 概率最高的标签个数。 与传统 -mixed 算法相比 , -Co-mixed 算法不再是将资源 o 上的最热门标签集合 R 1 以及用户 U 最常 使用的标 签集合这两部分通过系数 简单相加, 而是在 R 1 的基础上, 逐一考虑 R 1 中的标签在用户个人标签库中与其他标签 间的共现概率。 因此可以在有限的推荐集中包含更多符合资源内容和用户标注习惯的标签, 并提高相应标签的排名, 在保证准确率的同时提高标签推荐集的个性化水平。 4 实 验 结果与分

21、析 实验采用的数据源为 delicious 网站提 供的 2004-12-312005-12-31 的用户数 据。因为本文是为了提供更符合用 户标注行为的个性化标签, 所以需要用户标注过一定数量的资源, 标签库相对稳定, 实验中选取已标注资源总数前 500 的用户, 并随机选取 id 号小于 50000 的资源 1000 个,作为 分析的内容。本实验中取每个标签的共现标签集大 小为 5 ,推荐 集大小为 10 。实验环境如表 1 所示 。 表 2 实验环境参数 操作系统 Windows Server 2003 数据库系统 SQLServer2008 硬件配置 Intel(R) Xeon(R)

22、CPU E7330 2.4GHZ+4GMemory 开发平台 MyEclipse 6.0 编程语言 Java 4.1 实验结果分析 取 id 为 88 的 用户对 id 为 560 的资源的 一条标注行为作分析。数据如表 3 所示: 表 3 不同 对结果的影响分析 实际标签 = 0 = 0.7 = 0.9 = 1.7 tools widgets tools tools tools computers yahoo widgets software software utilities software software widgets widgets yahoo tools yahoo yaho

23、o yahoo widget windows windows utilities windows widget utilities windows 分析上述数据: 当 =0.7 时, 可发现 tools 已经从原 来的排行 4 的升到排行 1 , 这与用户的实际标注情况吻合; 当 = 0.9 时, 推荐集合中第一次出现了 utilities 标 签, 用户实际标注中也确实使用了此标签; 当 = 1.7 时, utilitiesSJCS 基于标 签的个性化推荐技术研究 V ol.2 No.1 Mar. 2012 PP.24-29 www.sj-cs.org 2011American V-King

24、 Scientific Publishing, LTD - 29 - 标签的排名又升高一位,从原先的 6 升至为 5 。 分析用户的标注历史,其中使用过 46 次 yahoo, 同时使用 yahoo 和 tools 有 10 次,使 用过 software 311 次,同 时使用 software 和 tools 有 146 次, 所以 ( | ;) p tools yahoo u = 0.217 , ( | ;) p tools software u =0.441,从 而 tools 的分 值提高,排名靠前。同理分析标签 utilities , ( | ;) p utilities yaho

25、o u =0.043 , ( | ;) p utilities software u =0.284 , ( | ;) p utilities tools u =0.174 所以 虽 然标签 utilities 在最流 行标签集中未出现, 但由于用户的历史标注行为中 utilities 与其他标签的共现概率高,所以也得到了推荐的机会。 4.2 实验结果比较 图 1 显示了 使用 -Co-mixed 算法推荐 标签的效果。 依据公式 (4 ) 计算当 取不同值时平均覆盖率的情况, 如 图 a 所示; 依据公式(6 )计算当 取不同值时平均排行率的情况,如图 b 所示。 ( a ) 标签推荐集覆盖率

26、柱状图 0.6 0.65 0.7 0.75 0.8 0.1 0.5 0.9 1.3 1.7 系数 覆盖率 系列1 系列2 系列3 ( b ) 标签推荐排行率柱状图 0.48 0.5 0.52 0.54 0.56 0.58 0.6 0.62 0.1 0.5 0.9 1.3 1.7 系数 排行率 系列1 系列2 系列3图 1 标签推荐效果图 其中系列 1 表示推荐最热门标签, 系列 2 表示 -mixed 算法 , 系列 3 表示 Co mixed 算法。 由图 1,图 2 可 知, 使用 -Co-mixed 算法 后, 标签推荐集的覆盖率和排名率都优于 -mixed 算法, 且 在 = 1.1

27、时平 均覆盖率和平 均排行率都达到最高值。 可见在资源热门标签的基础上, 同时考虑用户的个人标签库确实能在有限的推荐集中推荐 出更多符合用户标注习惯的标签,同时能将更符合用户标注习惯的标签排名靠前。 4.3 推荐速度 公式 (2)和 公式 (9 ) 分 别表示 -mixed 算法和 -Co-mixed 算 法的算法复杂度, 通常取 c 为较小 的整数, 本实 验中 c=5, 因此可认为两者算法复杂度相同。经实验得 mixed 算法的平均耗时 64.522ms , -Co-mixed 算法平均 耗时 160.184ms 。虽然 -Co-mixed 算法比 -mixed 算法耗时更多,但仍与其处于

28、同一数量级上,用户无法分辨出此 种数量级上的差异,所以仍有较高的实用性。 5 结 语 本文通过分析当前标签推荐存在的问题, 提出了基于标签的个性化推荐方法和个性化推荐的判断标准, 并在资 源最热门标签的基础上, 利用用户标签库中的标签共现性, 对传统 -mixed 算法进行改进, 提出了 -Co-mixed 算法。 实验证明, 改进后的算法在覆盖率和排名率上表现更优, 即标签推荐的个性化特点更突出, 对于本文所选定的数据 集和实验环境来说,当系数 = 1.1 时推荐效果达到最佳,推荐时间为毫秒数量级。 由于标签本身具有随意性、 冗余性、 歧义性等缺点, 对于新资源和新用户的推荐可能会出现冷启动

29、的情况, 所 以如何推荐出真正高质量的标签仍有待进一步研究。 参考文献 1 Bruno Oliveira, Pavel Calado, and H. Sofia Pinto. Automatic Tag Suggestion Based on Resource Contents. Lecture Notes in Computer SJCS 基于标 签的个性化推荐技术研究 V ol.2 No.1 Mar. 2012 PP.24-29 www.sj-cs.org 2011American V-King Scientific Publishing, LTD - 30 - Science, 2008

30、, Volume 5268/2008:255-264. 2 Marek Lipczak. Tag Recommendation for Folksonomies Oriented towards Individual Users. In Proceedings of ECML PKDD Discovery Challenge (RSDC08). 84-95. 3 Pierpaolo Basile, Domenico Gendarmi, Filippo Lanubile etc. Recommending Smart Tags in a Social Bookmarking System. In

31、: Bridging the Gap between Semantic Web and Web 2.0 (SemNet 2007): 2229. 4 Leandro Balby Marinho, Lars SchmidtThieme. Collaborative Tag Recommendations. Studies in Classification, Data Analysis, and Knowledge Organization, 2008, Data Analysis, Machine Learning and Applications, VIII: 533-540. 5 Yanf

32、ei Xu, Liang Zhang. Personalized Information Service Based on Social Bookmarking.Lecture Notes in Computer Science, 2005, Volume 3815, Digital Libraries: Implementing Strategies and Sharing Experiences: 475-476. 6 Andriy Shepitsen, Jonathan Gemmell, Bamshad Mobasher, Robin Burke. Personalized Recomm

33、endation in Social Tagging Systems Using Hierarchical Clustering 2009-5-1. Proceedings of the 2008 ACM conference on Recommender systems: 259-266. 7 Z. Xu, Y. Fu, J. Mao, and D. Su. Torwards the semantic web: Collaborative tag suggestions. In Proceedings of Collaborative Web Tagging Workshop at 15th

34、 International World Wide Web Conference, (WWW 2006), 22. Edinburgh, Scotland (2006). 8 Andreas Hotho, Robert Jaschke, Christoph Schmitz, Gerd Stumme FolkRank: A Ranking Algorithm for Folksonomies. In Proceedings of LWA. 2006:111-114. 9 P. Symeonidis, A. Nanopoulos, and Y. Manolopoulos. Tag recommen

35、dations based on tensor dimensionality reduction. In RecSys 08: Proceedings of the 2008 ACM conference on Recommender systems: 43-50. 10 Robert Jschke Leandro Marinho Andreas Hotho etc. Tag recommendation in social bookmarking systems. AI Communications, Volume 21 Issue 4, December 2008, Pages 231-247. 【作者简介】 王金燕(1987- ),女,汉,硕士研究生,研究方向:数据库应用及技术, 2005-2009 南 京邮电大学计算机科学与技术,2009 至今 东南 大学计算机应用方向; Email: 。 刘亚军 (1953- ),女, 汉,教授,研究方向:数据库应用及技术; Email: 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报