收藏 分享(赏)

协同过滤算法应用于景点推荐研究.doc

上传人:无敌 文档编号:144863 上传时间:2018-03-22 格式:DOC 页数:7 大小:76KB
下载 相关 举报
协同过滤算法应用于景点推荐研究.doc_第1页
第1页 / 共7页
协同过滤算法应用于景点推荐研究.doc_第2页
第2页 / 共7页
协同过滤算法应用于景点推荐研究.doc_第3页
第3页 / 共7页
协同过滤算法应用于景点推荐研究.doc_第4页
第4页 / 共7页
协同过滤算法应用于景点推荐研究.doc_第5页
第5页 / 共7页
点击查看更多>>
资源描述

1、协同过滤算法应用于景点推荐研究 牟进军 罗国宽 熊志斌 海南威斯达电子科技有限公司 海南热带海洋学院艺术与创意学院 摘 要: 旅游电子商务与网络社交媒体发展导致旅游信息爆炸式增长, 用户面临信息过载问题。为使用户快速获取并甄别信息, 将传统协同过滤推荐算法应用于景点推荐, 游客对景点评分构成评分矩阵, 计算景点之间相似度, 根据相似景点评分预测游客对目标景点评分。实验结果显示, 景点预测评分平均绝对误差为0.696, Item-based 景点推荐算法能根据游客偏好推荐景点。关键词: 协同过滤; 个性化推荐; 景点推荐; Item-based; 作者简介:牟进军 (1954-) , 男, 云南

2、昆明人, 硕士, 海南威斯达电子科技有限公司高级工程师, 研究方向为智慧旅游、大数据;作者简介:罗国宽 (1982-) , 男, 广东茂名人, 海南威斯达电子科技有限公司工程师, 研究方向为软件工程、云计算;作者简介:熊志斌 (1973-) , 男, 湖北鄂州人, 硕士, 海南热带海洋学院艺术与创意学院副教授, 研究方向为机器学习。收稿日期:2017-06-01基金:海南省重点研发项目 (ZDYF2016166) Application of Collaborative Filtering Algorithm to Tourist Attraction RecommendationMOU Ji

3、n-jun LUO Guo-kuan XIONG Zhi-bin Hainan Weisida Electronic Technology Co.Ltd.; School of Art and Creativity, Hainan Tropical Ocean University; Abstract: With the rapid development of tourism e-commerce and tourism social media, a lot of tourism information explosion growth, tourists are encountering

4、 information overload.In order to make the users quick to obtain and identify the information, the traditional collaborative filtering recommendation algorithm is applied to the scenic spot recommendation.The scores that tourists gave the scenic spots constituted the scoring matrix, the similarity b

5、etween the spots was calculated, the score that tourist give the target scenic spots was estimated.The experimental results show that the mean absolute error of estimated scores is 0.696.The recommendation algorithm based on Item-based is competent to recommend the tourist for some scenic spots acco

6、rding to his preference.Keyword: collaborative filtering; personalized recommendations; tourist attraction recommendation; Item-based; Received: 2017-06-010 引言随着国民经济发展, 旅游业成为朝阳产业, 各类旅游电商平台与旅游社交媒体应运而生, 如携程、艺龙、去哪儿、旅人网、蚂蜂窝、穷游网等, 这些旅游电子商务平台与社交媒体为游客提供机票与酒店预定服务、景点信息、旅游攻略与游记分享平台。网络查询已成为游客获取资讯的主要方式, 游客规划旅游路

7、线时, 通常会在旅游电子商务平台与社交媒体上查阅景点信息、游客评分及点评。游客能够快速在旅游电商平台与社交媒体获取景点信息, 同时遭遇“信息过载”问题1。游客在网络上获得海量信息, 相应需要花费额外时间查阅并甄别信息。这不仅增加了游客时间成本, 还提高了线路规划难度。推荐系统作为解决信息过载、满足用户个性化需求的有效工具, 已在淘宝、亚马逊等电商平台成功应用2。基于用户需求提供景点推荐的国内旅游电商平台与社交媒体为数不多3-4。推荐算法有多种, 其中基于协同过滤的推荐算法在个性化系统中应用最广5, 如高明虎等6改进传统协同过滤算法解决冷启动问题, 并应用于酒店推荐;娄小风7提出基于酒店多维度属

8、性打分的协同过滤推荐算法提高了推荐准确度;王益8将协同推荐算法应用于旅游路线推荐。本文研究协同过滤算法在景点推荐中的应用, 为游客提供个性化数据服务。1 协同过滤推荐算法概述协同过滤推荐算法诞生最早, 基本思路是如果用户过去物品偏好一致, 将来偏好仍将一致7。算法通过挖掘用户历史行为数据发现用户偏好, 以此为依据计算得到相似用户或物品并进行推荐。协同过滤推荐算法有 2 个重要分支:一个是基于用户的协同过滤算法, 另一个是基于物品的协同过滤算法。Item-based 算法得出的结果具有较好说服力, 因此, 本文将该算法应用于景点推荐9。基于用户的协同过滤算法思路是根据用户物品偏好找到相似用户,

9、然后将相似用户喜欢物品推荐给目标用户。基于物品的协同过滤算法思路类似基于用户协同过滤算法, 通过计算不同物品相似关系, 找到相似物品推荐给当前用户。数字化描述用户物品偏好是协同过滤算法数据基础, 用户物品偏好量化方法一般有 2 种形式:一种是量化成离散整数值, 不同值代表偏好程度;一种是量化成布尔值 0 或 1, 代表喜欢或厌恶二值偏好。电子商务网站通常为用户提供对物品评分、投票及评论功能, 评分值与票数代表了用户物品偏好程度。用自然语言处理方法处理用户评论, 可得到用户情感取向, 量化成布尔值 0 或 1。用户对物品购买与否, 也可量化成布尔值 0 或 1。除电子商务网站外, 社交媒体用户也

10、用多种行为表达偏好, 如自媒体订阅数、信息转发数、好友关注数, 需要根据具体应用量化用户偏好。2 Item-based 景点推荐算法游客对景点有不同偏好, 如喜欢人文景观、自然景观、登山或涉水等。游客在旅游社交媒体的景点评分, 一定程度体现了个人偏好。利用 Item-based 协同过滤推荐技术, 根据景点评分数据挖掘偏好, 预测并推荐可能喜欢的景点给游客, 满足个性化需求。Item-based 景点推荐原理如图 1 所示, 综合所有游客景点评分生成“游客-景点”评分矩阵。由图 1 可发现, 喜欢景点 I1的游客往往也喜欢景点 I5, 根据协同过滤算法, 可认为景点 I1与景点 I5有相似之处

11、。游客 U4喜欢景点 I1, 可以预测游客 U4可能喜欢景点 I5, 可把 I5推荐给 U4。图 1 Item-based 景点推荐原理 下载原图从数学模型角度考察: (1) 计算目标景点与其它景点相似度, 得到目标景点相似景点集合; (2) 根据游客对相似近邻景点历史评分数据, 预测游客对目标景点评分, 计算得到一个按评分排序的目标景点集合作为推荐结果集。2.1 相似度计算协同过滤算法中常用相似度计算方法有余弦相似度、欧几里德距离及皮尔森相关系数。余弦相似度计算向量空间中两个向量夹角余弦值以衡量景点相似度, 余弦值越大越相似。欧几里德距离是计算向量空间中两个向量间距离以衡量景点相似度, 距离

12、越近越相似。景点推荐系统构造“游客景点”评分矩阵, 把 1 个景点所有游客评分作为 1 个向量, 得到 1 个向量空间, 用余弦相似度与欧几里德距离可计算任意 2 个景点相似度。皮尔森相关系数用来测量 2 组数据变化趋势, 其值介于-1 与+1 之间, 值为+1 时两组数据变化趋势完全相同, 值为-1 时两组数据变化趋势完全相反。如果 2 组数据变化趋势一致, 能够预测另外 1 组数据值。本文采用皮尔森相关系数来计算景点相似度, 计算方法如式 (1) 所示, 如 2 个景点评分值变化趋势有较高一致性, 根据协同过滤算法, 认为 2个景点有相似性。其中, u 表示对景点 i 与 j 评分的游客,

13、 R u, i表示游客 u 对景点 i 的评分, R u, j表示游客 u 对景点 j 的评分, 表示景点 i 的平均评分。利用式 (1) 计算皮尔森相关系数要注意分母为 0 的情况, 可以约定, 当景点 i 或景点j 有多个游客评分且评分都相同导致式 (1) 分母为 0 时, sim (i, j) =1;当景点 i 或景点 j 只有 1 个游客评分导致式 (1) 分母为 0 时, sim (i, j) =0。2.2 相似景点集为获得目标景点, 要生成一个相似景点集, 由于相似景点较多, 取前 K 个景点。相似景点集的一种计算方法是将目标景点与评分矩阵中其它景点进行相似计算, 找出与目标景点最

14、相似的 K 个景点。这个方法简单易实现, 但在实际系统运作中, 景点数据量可能非常大, 求出 K 个最相似景点消耗时间会较多。由于评分矩阵具有稀疏性, 目标景点与很多景点没有相似性, 即没有游客同时对目标景点与另一个景点进行评分, 按式 (1) 计算出相似度为 0。针对上述情况, 在实现算法过程中, 可优化性能, 如查找 2 个评分向量是否有相同位置的非 0 分量, 若无则说明 2 个景点没有相似性, 无需计算相似度。2.3 预测评分相似度从高至低排序, 选取前 K 个相似度最高景点作为目标景点 i 的相似景点集 N, 根据目标游客相似景点历史评分记录, 预测目标游客对目标景点 i 的评分。一

15、般情况下, 使用权重求和方法预测目标游客对目标景点 i 的评分, 将景点相似度 sim (i, j) 作为权重, 相似度越高, 分值越高, 计算公式为:其中, R u, i表示目标游客 u 对目标景点 i 的预测评分, j 表示目标景点 i 的相似景点, sim (i, j) 表示目标景点 i 与景点 j 相似度, R u, j表示目标游客 u 对景点 j 的历史评分。2.4 算法流程Item-based 景点推荐算法流程如下:输入:“游客景点”评分数据集 R, 最近邻数 K, 目标游客 U;输出:推荐景点集;step1:根据输入数据集, 构造“游客景点”评分矩阵;step2:根据公式, 计算

16、游客未评分景点与其它景点相似度, 取相似度最高的前K 个;step3:根据公式, 预测游客对未评分景点评分;step4:根据预测评分推荐。3 实验结果与分析3.1 评价指标推荐系统性能评判度量指标一般采用平均绝对误差 (Mean Absolute Difference, MAE) 衡量预测评分精确度。平均绝对误差越小, 该系统引擎预测用户评分值就越准确10。平均绝对误差计算方法为:其中, T 表示测试集, R u, i表示游客 u 对景点 i 的预测评分, R u, i表示游客u 对景点 i 的实际评分。3.2 数据来源实验数据源于“携程旅行网”, 携程网向会员提供酒店、机票预订、旅游资讯、景

17、点评分、攻略分享等线上旅行服务, 网站会员超过 1 亿 8 千万。选择携程网作为数据源, 可获取足够景点评分数据。携程网旅游目的地攻略栏目中, 游客分别从“景色”、“趣味性”、“性价比”3 个指标对景点评分, 分值区间为 5 (最高) 至 1 (最低) 。用网络爬虫采集海南省景点点评数据, 原始数据按“景点名”+“用户名”+“景色评分”+“趣味性评分”+“性价比评分”项目保存。由于数据量非常大, 只选择点评数 10 条以上景点进行编号处理, 得到评分数据 133 864 条, 含 343 个景点、32 587 名游客。3.3 结果及分析原始数据含“景色”、“趣味性”、“性价比”3 个评分指标,

18、 测试选取“景色”评分作为数据项。为测试算法可行性, 将数据分为 2 组, 10 万条数据为训练数据, 余下 33 864 条为测试数据, 相似景点个数 K 取 10。实验结果为平均绝对误差 MAE=0.696, 表明 Item-based 景点推荐算法是可行的。4 结语互联网“信息过载”现象日益突出, 用户需花费大量时间查阅、筛选信息。本文将 Item-based 协同过滤算法应用于景点推荐, 使游客能快速找到满足个性化需求的景点与旅游资讯。旅游社交媒体上, 游客从多个指标对景点进行评分, 并附加文字评论。开发推荐系统时, 需要综合考虑各指标下评分, 利用自然语言处理技术从文字评论中挖掘游客

19、情感倾向, 以提高推荐精度。实验过程发现, 旅游社交媒体游客与景点数量太大, 计算景点相似性非常耗时, 很难做到实时推荐, 而 Item-based 协同过滤算法可利用“游客-景点”评分矩阵, 离线计算出景点相似矩阵, 然后实时计算, 预测游客对景点评分, 向游客推荐景点。参考文献1李聪.电子商务推荐系统中协同过滤瓶颈问题研究D.合肥:合肥工业大学, 2009. 2洪亮, 任秋圜, 梁树贤.国内电子商务网站推荐系统信息服务质量比较研究以淘宝、京东、亚马逊为例J.图书情报工作, 2016 (23) :97-110. 3令狐红英, 姜季春.改进的贝叶斯算法在旅游景点推荐中的应用J.贵州师范学院学报

20、, 2012 (3) :22-26. 4皇苏斌, 王忠群.景区智能空间下的实时景点推荐技术J.安徽工程大学学报, 2011 (4) :61-63. 5马腾腾, 朱庆华, 曹菡, 等.基于 Hadoop 的旅游景点推荐的算法实现与应用J.计算机技术与发展, 2016 (3) :47-52. 6高虎明, 李伟丽.基于协同过滤和 Rankboost 算法的酒店推荐系统J.微计算机信息, 2010 (36) :206-208. 7娄小丰.基于多属性打分的酒店推荐算法研究D.哈尔滨:哈尔滨工业大学, 2012. 8王益.基于用户兴趣特征变化的旅游路线个性化推荐技术研究D.武汉:武汉理工大学, 2015. 9冷亚军, 陆青, 梁昌勇.协同过滤推荐技术综述J.模式识别与人工智能, 2014 (8) :50-64. 10侯新华, 文益民.基于协同过滤的旅游景点推荐J.计算技术与自动化, 2012 (4) :116-119.

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报