1、基于 Hadoop 的电商平台大数据挖掘研究 李蓉蓉 广东科技学院 摘 要: 针对电商平台大数据特点和电商平台的发展需求, 提出的基于 Hadoop 的电商平台大数据挖掘研究方案, 描述了云计算大数据存储技术, 构建了一种电商平台大数据挖掘框架, 对电商平台大数据挖掘过程进行分析, 探讨了几种数据挖掘算法。关键词: Hadoop; 大数据; 数据挖掘; 电子商务; 作者简介:李蓉蓉 (1985-) , 女, 湖南桃江人, 硕士, 讲师, 研究方向:软件工程, Web 应用开发。收稿日期:2017-10-17Received: 2017-10-171 基于云计算的大数据存储技术1.1 Hadoo
2、p 框架Hadoop 是一个分布式并行编程开源框架, 实现了 Map Reduce 计算模型, 允许在整个集群使用 Map Reduce 计算模型计算机的分布式环境存储并处理大数据, 可以实现上千台机器的扩展, 提供本地计算和存储。Map Reduce 是云计算的核心计算模式, 是一种简化的编程模式, 运用分布式运算技术, 解决某类问题的开发模型。其可以自动分割问题, 分割成映射 (Map) 和化简 (Reduce) 方式。程序员可以借助 Hadoop 编写程序, 实现对海量数据的处理。此外, Hadoop 还提供一个用来将数据存储或部署到各个计算节点上的分布式文件系统及分布式数据库。借助 H
3、adoop 框架及云计算核心技术 Map Reduce 可以很好的处理大规模数据, 可以将 HDFS 和 HBase 很好的融入到云计算框架中, 实现云计算的分布式、并行计算和存储1。1.2 基于云计算的海量数据存储模型根据海量数据的特性, 结合云计算技术, 提出基于云计算的海量数据存储模型, 如图 1 所示。该模型主要由主服务器机群和存储节点机群组成, 配合 Map Reduce、HDFS 和 HBase 等对海量数据资源的存取和控制。HDFS 和 HBase 用来将数据存储或部署到各个计算节点上。Hadoop 架构和 Map Reduce 调度和维护数据, 避免系统拥塞和故障。用户可以通过
4、 Hadoop 架构直接存取节点进行交互操作。图 1 基于云计算的海量数据存储模型 下载原图2 电商平台大数据挖掘框架针对电商平台大数据特点, 数据挖掘为电商活动提供更有用的知识, 更精确的信息以及更及时的响应, 提出了一种电商平台大数据挖掘框架, 如图 2 所示。电商平台用户数据挖掘框架包括六层2。图 2 基于大数据电商平台大数据挖掘框架 下载原图3 电商平台大数据挖掘流程电商数据是电商平台的生命线之一。利用这些海量数据与其业务进行关联, 对用户的消费行为进行分析, 借助数据挖掘技术, 可以让平台更具有竞争性, 从而获取商业价值。大数据挖掘能够主动学习, 通过人工职能算法和机器学习方式整理和
5、学习数据呢绒, 并且将学习的内容记忆到知识库中, 为下次学习提供基础, 吸收海量数据进行数据挖掘与分析。电商平台大数据挖掘流程如图 3 所示3。图 3 电商平台大数据挖掘流程 下载原图从电商网站收集用户的数据, 包括浏览数据、消费数据、社交数据、移动终端数据等, 对数据进行一定的分类准备, 通过 Needlebase 等工具进行收集。把收集来的数据进行相应的预处理, 将这种简单、独立的数据通过解析、清洗、重构, 转换成结构化、半结构化的数据, 再对数据进行过滤、抽取和数据融合, 过滤出来一下有意义的数据, 从而分析各用户群体的特点, 分析用户个人特点, 获得有价值的知识数据。要让知识数据体现价
6、值, 还需要将其进行解释和挖掘应用, 在数据挖掘应用中有很多挖掘方法。4 电商平台大数据挖掘方法数据挖掘应用是数据挖掘方法的最后一步, 通过整理完的数据可以预测电商平台未来发展趋势及用户各种行为, 为电商平台提出决策性建议。从不同的角度对数据进行挖掘的常用方法主要有关联规则分析、分类聚类、变化和偏差分析等。4.1 关联规则分析关联规则分析, 就是寻找数据之间的联系, 通过量化的方式衡量数据之间的关联性。可分为简单关联、时序关联、因果关联, 为用户在电商平台留下的各种数据信息提供参考依据。4.2 分类与聚类分析聚类分析算法中, 是对电子商务用户行为进行识别分析, 如用户的行为习惯、收益、意见、忠
7、诚度等。根据聚类分析, 将用户数据集合根据指定的模型进行分类, 根据分类结果得出聚类对象。基于聚类分析方法优化设计点子商务用户行为识别决策, 锁定商务营销目标客户, 避免客户群流失, 确定营销渠道。4.3 变化和偏差分析数据挖掘中的偏差分析, 是探测数据当前现状、历史记录, 标准值之间的显著变化和偏离, 如观测结果与期望的偏离, 分类中的反常实例, 模式的例外等。它可以应用到电商平台用户异常信息的发现、分析、识别、评价和用户流失预警等方面。5 结束语文章提出基于 Hadoop 的电商平台大数据挖掘研究方案, 详细描述了基于Hadoop 的电商平台大数据挖掘的关键技术、框架、流程和算法, 通过对电商平台的数据进行深度分析, 挖掘出用户的行为特征、消费习惯和兴趣焦点, 让电商平台各参与者获得具有极大价值的知识。参考文献1侯建, 帅仁俊, 侯文.基于云计算的海量数据存储模型J.通信技术, 2011, 44 (5) :163-165. 2蔡睿诚.基于 HDFS 的小文件处理与相关 Map Reduce 计算模型性能的优化与改进D.吉林大学, 2012. 3张春明, 芮建武, 何婷婷.一种 Hadoop 小文件存储和读取的方法J.计算机应用与软件, 2012, 29 (11) :95-100.