基于迭代回归树模型的跨平台长尾商品购买行为预测.doc-道客多多

资源描述

1、基于迭代回归树模型的跨平台长尾商品购买行为预测白婷文继荣赵鑫杨伯华中国人民大学信息学院大数据管理与分析方法研究北京市重点实验室摘要：长尾商品是指单种商品销量较低, 但是由于种类繁多, 形成的累计销售总量较大, 能够增加企业盈利空间的商品。在电子商务网站中, 用户信息量较少且购买长尾商品数量较少、数据稀疏, 因此对用户购买长尾商品的行为预测具有一定的挑战性。该文提出预测用户购买长尾商品的比例, 研究单一用户购买长尾商品的整体偏好程度。利用社交媒体网站上海量的文本信息和丰富的用户个人信息, 提取用户的个人属性、文本语义、关注关系、活跃时间等多个种类的特征;采用改进的迭代回归树模型

2、 MART (Multiple Additive Regression Tree) , 对用户购买长尾商品的行为进行预测分析;分别选取京东商城和新浪微博作为电子商务网站和社交媒体网站, 使用真实数据构建回归预测实验, 得到了一些有意义的发现。该文从社交媒体网站抽取用户特征, 对于预测用户购买长尾商品的行为给出一个新颖的思路, 可以更好地理解用户个性化需求, 挖掘长尾市场潜在的经济价值, 改进电子商务网站的服务。关键词：长尾商品; 电子商务; 社交媒体; 购买行为预测; 作者简介：白婷 (1992) , 博士研究生, 主要研究领域为数据挖掘、商品推荐。E-mail:作者简介：赵鑫 (1985)

3、 , 通信作者, 博士, 副教授, 主要研究领域为社交媒体数据挖掘、自然语言处理。E-mail:作者简介：文继荣 (1972) , 博士, 博士生导师, 教授, 主要研究领域为信息检索、数据库。E-mail:收稿日期：2015-04-15基金：国家自然科学基金青年科学基金 (61502502) Connecting Social Media to E-Commerce:Predicting Long-tail Purchase Behaviors using Multiple Additive Regression TreeBAI Ting WEN Jirong ZHAO Xin YANG B

4、ohua School of Information, Renmin University of China; Abstract： Long-tail products, with low demands, occupy a significant share of total revenue in total.It is challenging to analyze the long-tail purchase behaviors due to the data sparsity resulted from few purchase behaviors.This paper proposes

5、 to leverage online social media information for predicting the long-tail purchase behaviors.In specific, we collect the user profiles form the social media information, including the status text, following links and temporal activity distributions, and predict their purchases by a weighted Multiple

6、 Additive Regression Trees (MART) .Experimented on the data from JingDong and SinaWeibo, the effectiveness of the proposed method are revealed, together with several interesting findings.Keyword： long-tail products; e-commerce shopping; social media; purchase prediction; Received： 2015-04-151 引言长尾商品

7、是指单种商品销量较低, 但由于种类繁多, 形成的累计销售总量较大, 能够增加企业盈利空间的商品1。随着信息科技的发展, 人们能够较容易地在电子商务网站中找到实体市场中因为冷门而几乎没有消费者的长尾产品。如图1 所示, 人们比较关注曲线主体的那些热门商品, 而将处于曲线尾部的商品忽略, 但被忽略的较长的尾部商品累计产生的总体效益甚至可以与主体热销商品抗衡。首先, 长尾商品的销量可观, 例如, 有学者研究过亚马逊网站的书本销售量和销售排名的关系, 发现亚马逊 40%的图书销量来自于本地书店里不卖的图书2;Deniz Oktar 也指出, 商家盈利的增加在于对长尾市场的开发, 他认为热门商品因为很多

8、商家竞价出售而导致商品的利润降低, 而长尾商品若能找到对其偏好的消费者, 商家获利的空间将会很大;Anderson 也提出通过让商品种类全面, 并帮助用户找到它, 可以推动长尾市场的繁荣3。图 1 长尾理论中商品销量图下载原图对用户购买长尾商品的行为进行预测, 就是探究哪些用户更倾向于购买长尾商品, 分析用户购买长尾商品时的偏好、购买习惯等特点。长尾商品由于购买量少导致数据稀疏, 传统的基于内容推荐和协同过滤、关联规则、聚类等方法适用性较差, 所以对用户购买长尾商品行为的预测具有一定的挑战性。本文提出一种基于社交媒体信息对用户购买长尾商品行为做预测的方法, 探究如何利用社交媒体上海量的文本信

9、息和丰富的用户信息, 对用户购买长尾商品的行为做预测, 以更好地理解用户的个性化需求, 从而挖掘长尾商品的潜在经济价值。本文主要有三点贡献: (1) 针对长尾商品的购买行为, 形式化地给出了研究问题的定义, 提出利用社交媒体上海量的文本信息和丰富的用户信息, 对用户购买长尾商品的比例做预测; (2) 针对数据样本分布的偏置性问题, 改进 MART 模型, 显著地提高了模型的预测效果; (3) 在真实的数据集 (新浪微博、京东商城) 上构建大量的实验, 与 LR (linear regression) 模型, SVR (support vector regression) 模型, CART (c

10、lassification and regression Tree) 模型, 神经网络多层感知机模型 MLP (multilayer perceptron) 对比, 验证了预测的效果, 并详细分析用户特征对其购买长尾商品比例的影响。2 相关工作目前, 对用户购买行为的研究大多基于用户的购买记录, 为用户推荐可能购买的商品, 通常采用基于内容推荐、协同过滤推荐、关联规则、聚类等方法。基于内容的推荐4是根据用户过去喜欢的物品内容, 为用户推荐相似的物品, 长尾商品由于购买量少, 基于内容推荐的算法并不适用;协同过滤算法是利用用户喜好之间的相似性进行推荐5, 不依赖于商品的实际内容, 但需要用户对商

11、品的喜好信息, 在长尾商品的购买中, 用户喜好差别很大, 所以也不适用。长尾商品由于购买量少, 数据稀疏, 关联规则、聚类等方法也都适用性较差, 这使得对长尾商品的研究具有一定的挑战性。目前针对长尾商品推荐的研究较少, 且都是基于用户购买记录本身, 如文献6中提出了一种基于用户购买记录的图模型长尾商品推荐算法, 文献7中是基于长尾商品在所有商品购买图中的位置进行分析。基于购物网站上信息, 对长尾商品的购买行为分析存在以下不足:第一, 电子商务网站用户注册信息一般比较简单, 如京东商城, 用户只需填写用户名和密码, 进行邮箱或手机号的验证, 就可以进行购物;第二, 每个用户长尾商品的购买记录少,

12、数据稀疏。购物网站上简单的用户信息, 较少的长尾商品购买记录, 是研究长尾商品购买行为的挑战所在, 而在社交媒体上, 虽然无法得知用户的购买记录, 但有丰富的用户信息, 如年龄、性别、职业及海量文本信息, 将这些丰富的信息用于对用户购买长尾商品的预测, 是长尾商品购买行为研究的一个新思路。文献8初步验证了社交媒体网站中用户人口统计学特征、喜好, 与用户在电子商务网站中购买商品类别有一定的联系, 本文针对长尾商品, 进一步挖掘社交媒体网站中用户的信息, 对用户购买行为进行预测, 并构建实验, 给出验证。3 问题描述及定义在传统经济里, “二八定律”认为公司 80%的利润来自 20%的畅销产品,

13、其余20%的利润则来自于 80%的普通产品1, 因货架空间的局限和成本问题, 那些由于销量低而周转速度不足以抵消货架单位面积成本的长尾商品, 将会被排斥在市场之外。随着电子商务网站的兴起, 用户只需简单搜索, 即可看到大量可选的商品, 这使得种类丰富的长尾商品有较大机会面向庞大的目标消费群体。本文研究用户对长尾商品的整体偏好程度, 利用用户特征预测其购买长尾商品的比例, 定义如下。长尾商品根据“二八定律”, 将长尾商品定义为销量排名大于 20%的商品, 定义如下:给定商品集 P, 商品总数为 N, 对商品按照销量进行倒序排序 P=p1, p2, , pN, 使得p iP, S iS i+1,

14、其中 Si是商品 pi的销量。长尾商品集 PLT (Long Tail Product) 可以定义为式 (1) 。长尾商品购买比例给定用户集 U, 对于uU, 用户 u 购买的商品集为 Pu, 则该用户购买的长尾商品比例 yu可以定义为式 (2) 。问题定义用户长尾商品的购买行为预测的问题可以定义为:将用户特征刻画为长度为 n 的特征向量 xu=x1, x2, , xn, , 学习映射函数 F:RR, 将用户 u 的n 维特征向量映射到一维空间, 即用户购买长尾商品的比例。由用户特征预测该用户的长尾商品购买比例, 预测值由式 (3) 给出。表示预测得到的用户购买长尾商品的比例, 比例越高,

15、表示该用户越愿意购买长尾商品。4 模型描述社交媒体中含有丰富的用户信息, 如年龄、性别、喜好、文本信息等, 这些信息很难从电子购物网站得到, 因此, 本文从社交媒体中提取用户 u 的特征向量xu=x1, x2, , xn, 并从电子商务网站中得到用户实际购买长尾商品的比例 yu, 构造训练数据集x u, yuuU , 则问题转化为输入为用户特征向量 xu, 期望输出为用户实际购买长尾商品比例 yu的预测问题。机器学习中有很多模型可以解决此类问题, 如线性回归、支持向量机、决策树等9, 迭代回归树模型MART (multiple additive regression tree) 是由多个回

16、归树加权合并成的回归树模型, 在很多任务中都有不错的效果, 例如在解决互联网搜索排序 (Web search ranking) 10、推荐和预测系统11中, 都有较好的预测效果和较低的错误率。在本文中, 用户特征种类较多, 特征的不同组合会导致不同的预测结果, 与线性回归、支持向量机等方法相比较, MART 模型是由多个简单的决策树组合而成的模型, 能够充分利用用户特征信息, 有效学习特征表示12-14, 故本文中采用 MART 模型, 并通过引入样本权重的方法对 MART 模型进行改进, 使得改进后的模型预测效果有了显著的提升。4.1 MART 简介MART (multiple additi

17、ve regression tree) 又叫做 GBDT (gradient boosting decision tree) , 是采用梯度迭代算法实现的回归树。MART 模型的输入为 n 维特征向量 x, 由映射函数 F:RR 将其映射到预测值。在第 m 次迭代中, 有:其中 hm (x;a) 表示以 a 为参数的 x 的函数, mR 表示第 m 个函数的权重。令 (x i, yi) 1表示包含|U|个实例的训练数据集, 其中 xi表示输入的特征向量, y i表示期望输出值。梯度迭代算法的学习过程中, 每一次迭代包含两个主要步骤, 计算参数 am和 m如式 (5) (6) 所示。其中 gm

18、(x) 表示函数 Fm-1 (x) 梯度下降方向, 计算公式如式 (7) 所示。4.2 MART 的改进MART 模型中假设所有实例 (用户) 同等重要, 本数据集中用户购买长尾商品的比例非常不均匀, 购买长尾商品比例较低的用户占绝大多数, 为了更好地学习用户的特征与其购买长尾商品的关系, 本文对 MART 模型进行改进, 对购买长尾商品比例大的用户着重学习, 即根据用户购买长尾商品的比例对用户进行加权。定义如下损失函数:其中, y i表示模型对于第 i 个实例的预测值, w i表示第 i 个实例的权重, 在模型的训练中, 根据用户购买长尾商品的比例, 确定该用户对于模型训练的重要性, 取值范

19、围区间为0, 1, 用户购买长尾商品的比例越大, 其对应的实例的权重也就越大, 其对于模型的训练越重要。根据文献15中定义权重的思想, wi定义为:模型的权重 wi由训练数据确定, 在训练完成得到 MART 模型参数 am和 m后, 实际预测过程按照式 (4) 计算, 并不需要得待预测样本的权重。下一节介绍如何从社交媒体中提取用户的特征向量 x。5 特征选择本文利用社交媒体中海量的文本信息和丰富的用户信息, 如年龄、性别、职业及大量文本信息, 对用户购买行为进行预测, 构建用户社交媒体中特征向量, 分析用户特征对购买行为的影响。5.1 购买行为分析商品的价格、目标用户的类别 (如男士用品、女士

20、用品) 、适用的年龄段 (如幼儿产品、老年产品) 、功能类别 (如日用品、专业领域用品) 等因素都会影响到商品的销量。因此, 用户的年龄、性别、婚姻状况、教育背景、职业等个人属性, 关注的话题、兴趣爱好等特征都是影响其购买行为的因素16。5.2 特征向量构建如何在社交媒体中提取与购买长尾商品有关的特征, 是特征提取面临的一个挑战。在众多的社交媒体中, 本文选择涵盖娱乐、体育、生活等多方面, 具有庞大用户群体的新浪微博作为提取用户特征的数据来源, 通过对用户的社交习惯和购买行为的分析, 在新浪微博中提取用户的四大类 12 种特征, 用户微博特征见表 1。用户微博特征详细说明如下:(1) 个人属性

21、特征年龄:111, 1217, 1830, 3145, 4659, 60+;性别:男, 女;婚姻状况:单身、订婚、暗恋、结婚、追求、丧偶、分居、离婚、热恋、暧昧;表 1 用户微博特征表下载原表教育背景:自然科学、工程、社会科学、医学、艺术、其他;职业:互联网、设计、服务业、生产业、医药业、科学工作、管理者、其他;兴趣爱好:由微博用户标签得到, 包括旅游、摄影、音乐和电影、电脑游戏、其他。(2) 文本特征话题分布:采用主题模型 (topic model) 可以从用户所发的博文中, 获取该用户的主题分布。采用隐含狄利克雷分布 (LDA) , 将每个用户的博文聚合成一个文档。提取用户的原创、转发

22、、评论的文本信息, 得到每个微博用户的主题分布17。(3) 关系特征群组:在微博中, 有相似关注关系的用户具有相似兴趣爱好的可能性较大, 可以根据用户的关注关系, 将用户分为群组。与文献17中思路相似, 采用 LDA 模型, 将被关注的用户当做单词, 关注者当做文档, 发现被关注者的潜在群组, 得到每个微博用户的关注偏好分布。权威性:用户权威性即用户在微博关系图中的 PageRank 值, 可以定义为:微博中的用户关注关系用图 GU (V, E) 来表示, 图中的每一个顶点 vV 代表微博中的每一个用户, 图中的边 E 则为 VV 的子集, 代表两个顶点之间的关系。对于顶点 vi:其中 M (

23、vi) 是指向 vi的所有节点, L (v j) 是 vj链出的节点数量, |V|是节点总数。互动率:由用户他人的次数和用户参与话题讨论 Hashtag 的使用率构成。(4) 微博活跃时间特征每天分布:每天用户活跃在微博上的时间分布;每周分布:每周用户活跃在微博上的时间分布。6 实验设置及结果分析6.1 数据准备本文分别选取京东商城和新浪微博作为电子商务网站和社交媒体网站, 利用京东商城的用户购买记录和新浪微博用户信息构建实验。电子商务网站数据从国内最大的 B2C 电子商务网站京东商城爬取商品的评论信息, 获得 1 200 万用户对 17.5 万商品的 1.389 亿条商品评论。在京东上只有购

24、买商品的用户才可以对该商品做出评论, 每一条评论均可以得到一个用户的 ID (基于用户隐私考虑, ID 均为加密处理) , 根据用户的 ID 对商品进行分组, 得到每个用户所购买的商品的列表。社交网络数据从国内最大的社交媒体网站新浪微博获取用户的社交信息, 提取从 2013 年 1 月 1 日到 2013 年 6 月 30 日的微博数据, 去除非正常微博用户, 例如, 极度不活跃用户;粉丝数低于五个、微博数低于五条的用户;活跃度很高但互动率很少的用户;如一天内同一条微博发布五次或自转发五次以上、所发微博中半数以上的微博他人转发以及评论人数少于五人的用户。最后从 500 万正常活跃的微博用户中提

25、取 17 亿条博文信息。京东-微博用户关联用户在京东购买商品时, 有时会采用第三方账号登录, 如果采用新浪微博账号登录, 就可获得一个用户的新浪微博 ID 和京东 ID;此外, 微博用户有时会将在购物网站上购买的商品链接分享到微博上, 根据其分享的链接, 我们就可以将该用户的京东 ID 和新浪微博 ID 相关联, 本文从 17 亿条博文信息中抽取京东商品分享信息, 从 500 万微博用户中找出 23 917 个同时具有京东购物记录和新浪微博信息的用户, 去除微博和购买记录中异常的噪声数据, 如微博中博文数量极少或极多的数据, 购买记录中少于 10 条的用户, 最终我们得到有长尾商品购买记录的

26、15 853 个关联用户。长尾商品集的构建考虑到不同种类的商品销售量会有很大的差距, 比如电子产品和日常生活用品, 若将商品整体按销量排序提取长尾商品, 可能会导致销量少的某一种类如电子产品, 都会被划分到长尾商品中。所以本实验先将商品按照京东购物网站的 16 个大类目进行分类, 在每个类别中按照公式 (1) 去除销量最高的前 20%的热门商品, 以及销售量极少的噪声数据, 重新构建得到长尾商品集。找出购买这些长尾商品的用户 ID 中属于关联用户的 ID。长尾商品的销量区间分布如图 2 所示, 用户购买长尾商品比例人数统计结果如图 3 所示, 最终得到统计结果如表 2 所示。图 2 长尾商品销

27、量区间分布下载原图图 3 购买长尾商品用户所占百分比下载原图表 2 关联用户实验数据集统计结果下载原表 6.2 评价标准采用改进后的 MART 模型, 通过十折交叉验证的方法进行测试, 由关联用户 u 的新浪微博中提取特征 xu, 计算其购买长尾商品比例的预测值为 yu, 并与真实值 yu做比较。采用推荐系统中常用的模型评价指标18, 即平均绝对误差 (MAE) 19、均方根误差 (RMSE) 20、确定系数 (R-square) 21, 三种评价指标, 计算如式 (11) (13) 所示。其中平均绝对误差 (MAE) 、均方根误差 (RMSE) 反映的是预测值与真实值的拟合程度, 数值

28、越小, 表示预测效果越好, 确定系数 (R-square) 反映的是预测值与真实数据的平均值的比较, 正常取值范围区间为0, 1, 越接近 1, 表示模型的预测效果越好。6.3 实验结果与分析用改进后的 MART 模型对用户特征向量 xu=x1, x2, , xn进行训练和测试, 与解决回归问题的 LR (linear regression) 模型22、SVR (support vector rreeggrreessssiioonn) ) 模模型型23、CCAARRTT ( (ccllaassssiiffiiccaattiioonn aanndd rree-ggrreessssiioonn t

29、trreeee) ) 模模型型2244、神神经经网网络络多多层层感感知知机机 MMLLPP (multilayer perceptron) 模型25对比, 结果如表 3 所示。表 3 三种模型评价指标对比下载原表实验结果表明:(1) MAE 和 RMSE 两个评价指标考虑的是预测值和真实数据的拟合程度, 可以看出:对比 MART 与 LR、SVR、MLP、CART 模型, 五种模型预测效果相似, 改进后的加权 MART 模型, 预测效果有了明显的提升。(2) R-square 反映的是预测值与真实数据平均值的比较, 数据的分布影响预测效果的好坏。R-square 正常取值范围区间为0, 1

30、, 越接近 1, 表示模型的预测效果越好。当预测值与真实值相等时, R-square 值为 1, 在本实验中: 用户长尾商品的购买比例分布见图 3, 购买长尾商品比例小于 0.3 的用户占总用户数的 91%, 比例在 0.3 到 0.4 之间的用户为 5%, 比例大于 0.4 的用户为4%。可以看出, 购买长尾商品比例比较低的用户占绝大多数, 购买长尾商品比例较高的用户由于数量少, 数据的分布非常不均匀, 导致模型预测效果较差。当预测值偏差较大时, 就可能出现负值的情况, 表 3 中 SVR 模型、MLP 模型因数据分布的极度不均匀, R-square 的值为负值。采用改进后的加权 MART 模型, 即按照用户购买长尾商品比例加权后, 购买长尾商品比例较高的用户权重得到提高, 模型预测效果有了显著的提升。6.4 特征分析本节主要分析从微博中提取的用户特征对预测其购买长尾商品比例的贡献, 选取贡献值最大的四种用户特征, 进行详细的统计分析。6.4.1 特征贡献

展开阅读全文