1、基于中间商品兴趣度加权的内容推荐算法 杨志平 徐骞 马铭 北华大学信息技术与传媒学院 摘 要: 内容推荐算法是在电子商务网站中应用比较广泛的推荐技术之一, 主要针对商品之间属性相似度和用户对商品兴趣度建模.但传统的内容推荐算法不能及时反映用户对商品兴趣度的时间变化, 基于这点提出一种基于中间商品兴趣度加权的内容推荐算法.改进算法增加了兴趣度时间权重函数和商品时间权重函数, 可以提高商品推荐准确率, 仿真试验结果证明该算法是有效的.关键词: 电子商务; 兴趣度; 中间商品; 推荐率; 作者简介:杨志平 (1980-) , 男, 硕士, 讲师, 主要从事智能计算系统及其应用研究;E-mail:;作
2、者简介:马铭 (1969-) , 男, 博士, 教授, 主要从事智能计算和模式识别研究, E-mail:.收稿日期:2017-07-15基金:吉林省科技厅自然科学基金项目 (20140101185JC) Content Recommendation Algorithm Based on Intermediate Goods Interest WeightingYang Zhiping Xu Qian Ma Ming Information Technology and Media College of Beihua University; Abstract: The content recom
3、mendation algorithm is one of the most widely used recommendation technologies in e-commerce, mainly on the attribute similarity between commodities and users interests in the past commodity interest modeling.However, the users interest in goods can not be reflected in time, aiming at this shortcomi
4、ng, a content recommendation algorithm based on intermediate goods interest weighting is proposed.Improved algorithm can increase interest time weight function. The algorithm can improve the quality of goods, the simulation results show the effectiveness of the method.Keyword: electronic commerce; i
5、nterest degree; middle goods; recommendation rate; Received: 2017-07-15【引用格式】杨志平, 徐骞, 马铭.基于中间商品兴趣度加权的内容推荐算法J.北华大学学报 (自然科学版) , 2017, 18 (6) :831-834.信息超载1已经成为电子商务网站普遍存在的问题, 借助推荐系统2-4, 可以提高电子商务网站为用户提供信息筛选服务的能力.其中, 内容推荐算法5是目前主流的推荐算法之一, 通过计算商品之间的属性相似度, 主动将相似度高的商品推荐给用户.用户之间都是独立操作, 拥有独立的特征向量, 不需要考虑其他用户的兴趣
6、度, 能推荐新的商品;内容推荐不受冷启动和稀疏问题的影响.基于这些优点, 使推荐技术成为电子商务网站研究的热点问题6.目前, 在智能化推荐问题上, 已经有很多学者进行了深入研究, 如在商品和用户特性有联系的基础上提出了个性化的推荐系统5, 但是对时效性考虑欠佳.在一段时间内, 当用户对商品的兴趣度发生变化时, 推荐算法不能及时捕捉用户兴趣度的变化, 把信息反馈到模型中, 并及时响应用户请求, 实时提供信息筛选服务, 因此不能够更全面准确地掌握用户兴趣度变化;为了提高相似性计算精准性, 文献7提出基于时间衰减的相似性计算方法, 但是不适合在相同商品之间的相似性比较.商品本身也有时间属性, 例如商
7、品出厂时间、商品上架时间, 对于相同商品的推荐, 商品时间属性是决定性因素, 用户更希望购买到优质的商品.与传统内容推荐算法相比, 本文通过增加中间商品兴趣度时间权重函数和商品时间权重函数, 可以更准确地为用户推荐商品.1 传统内容推荐算法内容推荐算法不考虑用户与用户之间的关系, 主要针对用户兴趣度和商品之间的属性建模.在图 1 的内容推荐模型中, 书籍 A 和 C 属性相似度高, 都包括编程类和网络类, 推荐系统会发现用户 A 对书籍 A 有兴趣, 由此得出结论, 用户 A很可能对书籍 C 也感兴趣, 于是将书籍 C 推荐给用户 A.传统内容推荐算法通常分为 3 个方面:构建商品属性集、构建
8、用户兴趣集、计算并推荐商品.图 1 内容推荐模型 Fig.1Content recommendation models 下载原图1) 构建商品属性集.创建 1*R维矩阵, 其中, R 表示商品属性.初始化 1*R维矩阵, 将所有属性设置为 0, 可以得到一个行向量:0, 0, , 0, 假设商品包含某些属性, 则对这个行向量加属性值0, 1, 1, 0, 1, 1, 0, 0, , 0.2) 构建用户兴趣集.使用式 M= (Xi) /n, 其中:M 为用户对商品的兴趣度;X i为商品 i 浏览次数集;n 为浏览过的商品数量.由此可以得到一个 1*M维的矩阵:M1, M2, , Mk.3) 构建
9、商品推荐集.在获得一个用户的商品属性集与用户兴趣度集后, 使用余弦相似度算法计算出相似度较高的商品创建商品集.商品之间相似度越高, 用户对这些商品兴趣度越大, 最后把商品集中相似度较高的 N 个商品作为推荐商品返回给指定用户.2 改进算法用户对商品的兴趣度是会随着时间发生改变的, 为反映出一段时间内用户兴趣度的变化, 提出基于中间商品兴趣度加权的推荐算法.使用 1 个兴趣度时间衰减函数7, 增加对最近访问中间商品兴趣度时间权重, 降低以往商品兴趣度权重, 同时增加 1 个商品时间权重.依据 2 个时间权重, 构成推荐集, 计算出兴趣度高的 n 个商品进行 Top-N 推荐8.2.1 中间商品描
10、述中间商品是指用户查询、浏览过的商品, 推荐系统可以自动挖掘9出中间商品的一系列属性.中间商品的属性与电子商务网站中其他同类商品属性匹配, 并向用户推荐其他商品.2.2 中间商品兴趣度时间权重传统内容兴趣度推荐算法缺少对商品兴趣度的时间量化分析10.在现实生活中, 用户对越近查找、浏览的商品兴趣度越大, 而对早期浏览过的商品兴趣度随时间增加降低.使用指数函数11更能反映时间量化, 解决用户兴趣度随时间变化的问题.用户兴趣度时间权重式中:t now为当前时间;t 1为用户访问中间商品时间;s (0, 1) 是系数, 通过适当改变 s 值反映时间变化的快慢, s 值越大, 随时间变化越快.2.3
11、商品时间权重在电子商务系统中, 用户往往只看到商品上架时间12, 而忽略商品出厂时间.相同商品出厂时间与当前时间的距离越短, 用户兴趣度越大.所以对于相同商品, 它的时间权重参数是不一样的, 在推荐系统中应该把这段时间作为一个重要参数引入到内容推荐算法中.商品时间权重式中:t 2为商品出厂时间.2.4 改进的内容推荐算法改进算法把用户兴趣度时间权重和商品时间权重结合起来引入到余弦相似度算法, 提出针对用户兴趣度变化的内容推荐算法.中间商品兴趣度加权的内容推荐算法:式中:M a为用户对商品 a 的兴趣程度;R a为商品 R 中是否包含商品 a 的属性;f (t) 为中间商品兴趣度时间权重;f (
12、v) 为商品时间权重.cos (M, R) 将商品属性集和用户对商品兴趣度视为向量, 并在向量空间中根据二者之间夹角的余弦值来度量相似性.因为余弦函数是减函数, 给定商品属性集 Ra和用户兴趣度集 Ma之间的距离越小并且 f (t) 和 f (v) 的值越小, 余弦相似度的值越大, 用户对商品的兴趣度越大.3 仿真分析为了验证改进算法的真实性与有效性, 在操作系统为 Windows 7, CPU 为 AMD 四核 3.0 GHz, 内存为 4GB 的 PC 上测试.算法用 Java 语言编写, 将 SQL Server 2012 中某平台仓库的数据作为试验对象, 提取出 20152017 年推
13、荐系统推荐用户购买的商品及用户作为基础数据 (每个用户至少购买过 10 件商品) .随机抽 70%的数据作为训练集, 剩余 30%作为测试集.试验评价标准.准确率 (Precision) 是针对预测结果而言的, 表示预测为正的样本中有多少是真正的正样本.准确率=检索出的相关信息量/检索出的信息总量;召回率 (Recall) 是针对原来的样本而言的, 表示样本中的正例有多少被预测是正确的.召回率=检索出的相关信息量/系统中的相关信息总量.将准确率和召回率作为体系评价指标, 比较改进推荐算法和传统算法.式中:R u为训练集中给用户的推荐列表, 具体表示推荐给用户的商品数量;T u为用户在测试集上的
14、行为列表, 具体表示用户在测试集上购买商品的数量.不同算法的推荐准确率、召回率见表 1, 推荐时间见表 2.表 1 推荐准确率、召回率 Tab.1 Recommended accuracy and recall rate of different algorithms 下载原表 表 2 推荐时间 Tab.2 Recommended time 下载原表 由表 1, 2 可知:准确率越高用户在推荐系统中购买的商品越多, 召回率越高购买的商品在推荐列表中出现的次数越多.改进算法的准确率和召回率都优于传统算法.本文按照用户兴趣度内容推荐, 同时增加了中间商品兴趣度时间权重和商品时间权重作为推荐依据的一
15、部分, 从而提高了推荐的准确率和召回率.然而, 随着推荐数量的增加, 推荐算法的计算时间增幅较大, 分析其原因, 是由于用户兴趣度范围扩大造成的.4 结语针对传统内容推荐算法不能反映用户兴趣度随时间变化的问题, 提出了一种基于中间商品兴趣度加权的内容推荐算法.该算法针对用户商品兴趣度时间和商品时间, 改进传统内容推荐算法, 计算兴趣度高的 Top-N 商品推荐.仿真试验结果证明, 改进算法的有效性和准确性都优于传统算法, 但改进算法的计算时间还不够理想.因此, 提高计算速度将是下一步研究的重点.参考文献1王国霞, 刘贺平.个性化推荐系统综述J.计算机工程与应用, 2012, 48 (7) :6
16、6-76. 2王立才, 孟祥武, 张玉洁.上下文感知推荐系统J.软件学报, 2012, 23 (1) :1-20. 3郭磊, 马军, 陈竹敏, 等.一种结合推荐对象间关联关系的社会化推荐算法J.计算机学报, 2014, 37 (1) :219-228. 4李聪, 梁昌勇, 马丽.基于领域最近邻的协同过滤推荐算法J.计算机研究与发展, 2008, 45 (9) :1532-1538. 5熊馨, 王卫平, 叶跃祥.电子商务个性化产品推荐策略研究J.科技进步与对策, 2005 (7) :163-165. 6王嫣然, 陈梅, 王翰虎, 等.一种基于内容过滤的科技文献推荐算法J.计算机技术与发展, 20
17、11, 21 (2) :66-69. 7李源鑫, 肖如良, 陈洪涛, 等.时间衰减制导的协同过滤相似性计算J.计算机系统应用, 2013, 22 (11) :129-134, 158. 8Haijun Zhang, Tommy.A coarse-to-fine framework to efficiently thwart plagiarismJ.Pattern Recognition, 2010, 44 (2) :471-487. 9Burke Robin.Hybrid recommender systems:Survey and experimentsJ.User Modelling an
18、d User-Adapted Interaction, 2002, 12 (4) :331-370. 10Nicolas Delannay, Michel Verleysen.Collaborative filtering with interlaced generalized linear modelsJ.Neurocomputing, 2008, 71 (7) :1300-1310. 11杨逸, 曹祥玉, 杨群.基于指数函数的归一化变步长 LMS 算法J.计算机工程, 2012, 38 (10) :134-136. 12陈冲.C2C 电子商务模式下消费者购买决策影响因素分析J.商场现代化, 2008 (5) :162-163.