1、基于社交商业网站信息分析消费者购买行为 殷曼曼 江苏省财政厅信息管理中心 作者简介:殷曼曼, 女, 汉族, 1982 年生, 江苏南京人, 工程师, 硕士研究生。近年来, 随着 WEB2.0、HTML5 等互联网技术概念的兴起, 社交网络作为新兴的、实用的在线互动方式受到了用户的青睐。社交商业网站上广泛存在的在线交互信息 (如产品评级和产品购买) , 成为影响用户购买决策的重要因素。也就是说, 每一个用户都可以是商品评价信息的发布者, 每一个用户也都能获取到其他用户对某种商品的评价和直接观感。例如, 国内知名的购物网站“美丽说”、“蘑菇街”等, 均采用此模式进行在线购物。因此, 用户与用户之间
2、的关系在某种程度上可以影响其对商品的购买决策。研究社交网络上的用户在线信息发布对商品的销售决策行为具有现实意义, 也可以对商品的销售人员提供可操作的指导。本文试图通过抓取社交商业网站中用户对某种商品的评价数据, 并进行初步分析, 得出影响用户购买决策的因素。1 获取商品信息评价的方法我们通过自制数据抓取工具的方式对某商业网站上的产品评价信息以及用户信息进行抓取。1.1 设计思路我们的数据抓取工具是一种按照规则自动地抓取商业网站上用户评价信息的程序。它从互联网上下载网页并根据一定的规则和条件对网页内容进行过滤, 获取到需要的信息;同时根据一定的搜索策略获取下一个需要抓取网页的 URL, 并重复此
3、步骤, 一直到系统满足某一个条件时停止。所有获取的信息将会被系统存贮, 以便后续的数据查询、检索和分析挖掘。1.2 设计模型具体设计模型如下图 1 所示。图 1 数据抓取工具模型 下载原图(1) DNS 解析模块根据给定的 URL 从 WEB 服务器获取网页。(2) 页面下载模块根据 http 协议获取网页文本内容。(3) 页面解析模块根据通过一定的规则算法 (通常由人工预先对网页 html 文本内容进行分析得出, 不同的社交网络服务提供商网页 html 文本规则通常也各不相同) , 从网页 html 文本中获取出符合要求的文本信息数据, 并组合为标准json 数据队列。(4) 数据过滤及持久
4、化模块将标准 json 数据队列按照一定格式存储到本地文本文件或数据库文件中;以便后续分析。(5) 页面前向模块分析出当前网页的下一个跳转 URL, 并自动跳转至目标地址, 重复上述步骤, 直到系统满足条件停止。该工具的实现主要有以下 3 个难点:(1) 不规则网页数据的分析。由于不同商业网站的开发语言和商业策略各不相同, 导致网页文本结构不呈现统一规则。对分析文本结构并提取信息带来较大难度。需要人工对文本规则进行分析后对工具的分析策略进行动态调整。(2) 网站采用动态加载策略。目前大多数商业网站均采用了 ajax 等动态加载策略, 网页信息不是静态文本。需要工具模拟执行网站 js 脚本再次提
5、交访问请求的动作后才能获取文本结果。(3) 高并发及大数据量的数据需求。该模型仅针对取商业网站部分用户评论实现, 在面对大数据量要求的场景时, 需要对架构进行分布式或者并行多任务方面的调整。1.3 代码实现我们借助 python 语言实现该工具。作为解释型开发语言, python 语言开发效率快, 语言简洁。具备成熟的协议解析接口, 提供完备的第三方库实现相关功能, 能用极短的代码完成大部分文档的处理。(1) 首先通过正常的网页浏览器访问该社会商业网站, 并访问该网站中某商品的用户评价页。从浏览器中获取该页面的 url。(2) 使用 python 的 requests 库和 urllib 库模
6、拟浏览器的 http 访问请求该url 操作, 并获取该 url 操作的返回值。(3) 使用 python 的 Panda 库进行返回值的处理, 通过正则表达式的匹配获取url 返回网页文本中我们需要的评价数据, 并以 json 格式存储。(4) 将 json 数据列存储为 csv 或者 txt 文本, 以供后续分析。2 对获取的商品评价信息的分析2.1 数据准备我们对某商业网站中用户对商品的评论数据页面进行了抓取, 共获取了 13066个用户 (其中男性和女性用户各半) 的评价信息和用户信息。该商业网站的用户可以发布他们使用任何产品的经验并对产品进行评级 (从 1到 5) 。用户可以将他们已
7、经购买的产品分享至“购买清单”, 还可以选择“关注”其他用户。这种关注关系不需要双方同意, 所以用户之间的关系并不是对等的。用户的关注人数表明他使用社交商业网络的程度。一个用户被其他用户关注的数目表明他的人气。此外, 该网站可以让用户看到他关注的人的行为 (即购买行为和评级行为) 。下图 2 显示该商业网站中用户的社交网络结构, 图中的箭头表示了“关注”的关系。例如, “用户”到 A 有箭头连接表示该用户关注了 A。图 2 社会商业网站用户关系 下载原图通过在社会商业网站上抓取每个用户对商品的评论数据, 我们探讨用户的购买决策如何被其他用户的产品评论和产品购买行为所影响的。我们同时收集用户关注
8、的其他用户列表 (即领袖型消费者) , 为每个用户建立了一个以自我为中心的社交网络。然后区别分析该用户朋友型消费者的行为和领袖型消费者的行为 (包括不同用户对商品的评级和购买的行为) 。用户的购买决策通过用户购买清单的产品数目来量化。2.2 数据分析表 1 统计表格 (样本总数=13066) 下载原表 如上表 1 中, 我们对每个变量的统计分析进行总结。对在该社交商业网站中收集的 13066 个用户的评价和购买数据进行分析。我们采用负二项回归 (SPSS) 来检验模型。以用户购买决策为因变量, 领袖型消费者的评级与购买、朋友型消费者的评级与购买作为自变量, 进行负二项回归分析。结果如表 2 和
9、图 3 所示, 包括综合测试结果、沃尔德统计量、各系数以及相关自由度和每个预测因子的意义水平。表 2 回归分析结果 下载原表 综合测试表明, 该模型预测了用户购买决策 (似然比卡方=8771.705, df=4, p0.0001) 。朋友的评价和购买会对用户的购买决策具有显著的正向影响 (=0.012, P0.0001;=0.100, P0.0001) , 这表明用户关注的朋友事先购买的越多, 产品评级越好, 用户购买的可能性越大。领袖型消费者的评价和购买会也对用户的购买决策具有显著的正向影响 (=0.008, P0.0001;=0.024, P0.0001) , 这表明用户关注的领袖事先购买的越多, 产品评级越好, 用户购买的可能性越大。图 3 模型分析结果 下载原图3 结论及后续展望本文采用网络数据抓取工具从互联网的网页中将有价值的文本根据一定的规则过滤筛选出来, 并系统地对数据进行后续分析。通过研究用户的购买决策如何被其他用户所影响的, 可以帮助网站设计者更准确、更全面地了解用户的购买行为。网站设计者应该强调朋友型消费者的购买行为而不是领袖型消费者。下一步, 我们将对年龄、性别、职业、学历等基本信息对商品的购买行为产生何种影响展开研究。同时尝试利用社交网络分析来探索网络结构 (如强连接和弱连接) 对用户购买行为的影响。