收藏 分享(赏)

大数据的社交网络数据挖掘.docx

上传人:wo7103235 文档编号:6248677 上传时间:2019-04-03 格式:DOCX 页数:65 大小:1.32MB
下载 相关 举报
大数据的社交网络数据挖掘.docx_第1页
第1页 / 共65页
大数据的社交网络数据挖掘.docx_第2页
第2页 / 共65页
大数据的社交网络数据挖掘.docx_第3页
第3页 / 共65页
大数据的社交网络数据挖掘.docx_第4页
第4页 / 共65页
大数据的社交网络数据挖掘.docx_第5页
第5页 / 共65页
点击查看更多>>
资源描述

1、硕士学位论文论文题目 基于大数据的社交网络数据挖掘研究生姓名指导教师姓名 专业名称 计算机技术研究方向 社交网络数据挖掘论文提交日期 年 月基于社交网络数据的大数据挖掘摘 要万事万物都有联系,人们与社交网络相互联系,与信息,组织,所在地相互联系,只对个体进行研究所获得成果是有限的,所以要对整个系统进行研究,而这个系统就是一个社交网络。社交网络分析由图论,数学以及社会学中的社交网络理论发展而来,在最近的这 10-15 年中,网络分析还借助计算机科学,物理学,生物学和经济学等不同领域的发展。相比传统网络应用形式,社交网络具有用户主体性强、网络特征多样、数据内容丰富、群体交互密切、信息传播迅速等特点

2、。传统的研究方法与模型难以准确地描述社交网络中用户的行为特征,因而难以实现符合社交网络特性的数据挖掘与分析。针对现有算法与模型运用于社交网络时存在的效果与性能问题,分别从社交网络数据采集与处理、社交网络数据实证分析、用户影响力与行为分析,对社交网络中的数据挖掘方法进行了研究。本文先从斯坦福大学的 Stanford Large Network Dataset Collection 中下载 Amazon networks 数据,探讨了从提取数据、整理数据、数据预处理,探索性分析、算法选择、模型的建立和评估分析的全部过程。先用 Python 对数据预处理,导入数据库,并用 Clementine 12

3、.0 分析其中客户购买产品后评价的有效性,并对此评价是否对其他客户购买该产品产生影响,采用数据挖掘技术,可挖掘出数据之间存在的潜在信息。数据挖掘中的聚类分析可以将相似度较高的用户数据聚成一个类然后采用聚类算法对数据进行聚类。本文对客户评价的时间,评价的频次,评价的得分进行聚类分析,最后对分析过程中运用的两种聚类方法取得的结果进行分析比较,获取客户分级体系。通过得出的结果可对当前亚马逊的购买客户进行分级维护,对于最有价值客户可给与客户相应的等级,将社交网络大数据与微营销结合起来,提升亚马逊的销售业绩和影响力,从单一的购物商城模式,发展微营销渠道,培育自己的粉丝。关键词:大数据、社交网络、数据挖掘

4、、聚类作者:基于大数据的社交网络数据挖掘 第一章绪论指导教师:目 录第一章 绪论 11.1 课题背景 11.1.1 大数据时代 .11.1.2 社交网络 .21.2 问题的提出 31.3 课题研究的意义 .31.4 课题研究的内容和成果 .41.5 本文的主要内容和组织结构 5第二章 数据挖掘技术及工具介绍 .62.1 数据库 62.2 数据挖掘工具(介绍 Clementine 12.0) .62.3 Python.82.4 核心思想和算法 92.4.1 聚类 .92.4.2 RFM 模型 .112.5 数据预处理 152.5.1 数据准备 .152.5.2 数据审计 .182.5.3 数据清

5、洗与加工 .18第三章 聚类方法在客户评价中的作用 .213.1 目的和意义 213.2 数据准备和预处理 .213.2.1 数据准备 .213.2.2 数据预处理 .223.3 聚类分析 .233.3.1 K-Means 聚类说明 233.3.2 K-Means 聚类过程 243.3.3 K-Means 聚类结论 353.3.4 TwoSteps 聚类 .363.3.5 两种聚类方式结果讨论 .383.4 相关建议 .39第四章 RFM 模型与客户细分 .414.1 目的和意义 414.2 数据准备和预处理 .414.2.1 数据准备 .414.2.2 数据 RFM 结构化 .424.3 基

6、于 RFM 模型的客户细分 454.3.1 K-means 聚类 .464.3.2 Two-step 聚类 .524.3.3 两种聚类方式结果讨论 .544.4 相关建议 .55第五章 总结与展望 56基于大数据的社交网络数据挖掘 第一章绪论5.1 本文总结 565.2 工作展望 56参考文献 57攻读硕士学位期间发表(录用)的论文 .59致 谢 60基于大数据的社交网络数据挖掘 第一章绪论1第一章 绪论1.1 课题背景1.1.1 大数据时代什么是大数据(bigdata)?维基百科将其定义为大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,困难存在于数据的获取、存

7、储、搜索、共享、分析和可视化等方面。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力” ,通过“加工”实现数据的“增值” 。“IDC(互联网数据中心)数据显示,2015 年全网数据达到 8ZB (1Z=2 的 70次方),如图 1 所示,而且 90%是非结构化的。而业界将大数据时代归纳为 4 个“V“-Volume,Variety,Value,Velocity(体量巨大、多样性、价值密度低和秒处理)。由于各维度都在迅速膨胀,信息爆炸正影响着每一个企业、个人。在如此巨大

8、的数据背后必然隐藏着海量的社会化营销机会,触达用户需求和沉淀用户数据已成为双重门槛。而广告进入社交化时代,需要解决的已不单单是知名度问题了,而更多的将是“信任度“和“可爱度“.纵观全球,亚马逊作为大数据时代的前行者,它提供多项服务帮助企业收集、存储、组织、分析和共享数据。基于大数据的社交网络数据挖掘 第一章绪论20.8 1.2 1.82.78402009 2010 2011 2012 2015 2020051015202530354045 全 球 数 据 量/ZB图 1: 全球数据量预测1.1.2 社交网络大数据分析技术让社交网络的发展更加快捷,怎么让一个人和另一个人打上关系,只要将两个人的社

9、交关系进行分析,就可以找到相关的渠道可以让两个人产生联系,这就是大数据时代背景下的社交网络关系。随着网络使用用户的数量越来越多,社交网络的不断普及,网页交友网站以及移动交友软件等的普及,用户可以通过网络进行社交活动,伴随着用户社交的过程,也会产生海量的数据,这些数据从传统的只是数据通过大数据技术变得更加的有趣,我们可以通过大数据技术图文并茂的得到我们的社交网络结果。Facebook、twitter、微信、line 等社交媒体的大面积的流行,对这些社交网络关系进行数据挖掘得到更加有价值的数据成为了大数据领域的一个热门技术,对于社交网络的分析就是为了更好的了解消费者的心理和行为,就是为了更好的得到

10、和消费者之间互动的关系,大数据在改变我们的生活,大数据可能对于传统的工作方式和思维方式都有一个很大的影响,在社交网络领域,大数据也会带来一些变革。社交评价的重要性,通过社交网络进行商品的推送或者品牌的宣传,这个过程都会产生很多的信息,一些潜在的市场机会和市场需求也会通过一些信息基于大数据的社交网络数据挖掘 第一章绪论3被反馈出来。1.2 问题的提出随着电子商务时代的到来,无论是消费者购买方式还是企业的运作模式,都在潜移默化地发生着变化。除了基本的产品信息获取,人们还会在网上浏览大量的网络用户评论来增加对产品和服务的了解,作为是否购买的重要因素。为了更好的抢占市场,制造商和销售商也开始关注用户对

11、所提供的产品和服务的评价,并将网络用户评论作为一种反馈机制,获取利己信息,对此调整提供产品和服务,从而获得优势。在国外 Senecal 和 Chevalier 研究消费者网上查阅有关产品的说明以及其他消费者对某一产品的评论等信息,作为考虑是否要购买该产品的因素之一。然而,大量的网络客户评论将信息内容变得庞杂,使得隐藏在其中有用信息的提取难度越来越大。简单人工获取已经无法适应现状,数据挖掘成为使这一过程变得准确便捷的技术手段。聚类算法在数据挖掘是一个热点研究领域,本文将聚类分析用于社交网络数据用户评论的研究,讨论消费者购买行为对企业产品运营模式的影响,从而调整企业产品经营战略,提高自身的竞争力。

12、1.3 课题研究的意义亚马逊的一贯宗旨是“以客户为中心” 。贝索斯几乎每年反反复复强调的都是这个问题。在想方设法提高“用户体验”的同时,亚马逊的“数据化运营”也就自然而然发生了亚马逊是个极好的试验平台。亚马逊一天进行几百次试验,如使用不同的算法来推荐商品,或者改变购物车在屏幕上出现的位置。当他们把购物车从屏幕的左边移到右边时,购物车被遗弃的情况就会有几分之一个百分点的好转。那看起来并不多,但是对于数亿网站访问者来说就是有意义的,而且进行试验的成本很低。这些试验结果得来的数据,可以帮助网站优化 UI 设计,给顾客提供更好的购物体验。国内外对于电子商务网站的评论研究还比较少,对于评论挖掘的相关研究

13、基于大数据的社交网络数据挖掘 第一章绪论4目前仍处于探索阶段,并且语义分析处理过程较为复杂,带有较强的主观性,得到的结论的有效性易存在正义。相反若从客户评价的各个指标出发提取并量化数据进行分析,则显得更有说服力。当用户在电子商务网站上有了购买行为之后,就从潜在客户变成了网站的价值客户,电子商务网站一般都会将用户的交易信息,包括购买时间、购买商品、购买 数量、支付金额等信息保存在自己的数据库里面,所以对于这些用户,我们可以基于网站的运营数据对他们的交易行文进行分析,以估计每位用户的价值,及针对每位用户的扩展营销的可能性。客户的购买行为分析,如传统的 RFM 模型,会员聚类,会员的生命周期分析,活

14、跃度分析,这些都精准的运营都是非常重要的。电子商务的数据分析更多的是实战,网站分析的本质是在了解用户的需求、行为,以开发用户体验良好的功能与服务,制定扩展营销的策略及附加功能的推广服务等等随着信息与通信技术不断发展,特别是各种 SNS 网络平台的兴起,消费者决策变得越来越相互依赖,消费者彼此之间这种基于社会网络的交互作用(social interaction)将导致企业商业模式和营销策略发生深刻变化。而网络口碑传播作为消费者交互作用的主要渠道,也必然成为新环境下企业制定营销策略所必须考虑的因素。鉴于此,在社交网络带来的集社交网络服务与线上营销为一体的企业运营模式下,传统的客户价值评价体系能否适

15、应新形势、成为企业精准定位高价值客户从而使企业将有限资源进行最优分配的有效工具,成为值得深思的关键性问题。客户价值可以指企业为客户提供的价值,亦可表示为客户为企业提供的价值,而在社交网络环境下,考虑到客户作为口碑传播的参与者,对其他客户的消费决策有影响甚至决定性作用,从某种程度上说消费者的这种影响甚至决定性作用也是客户对于企业的价值,本文主要从客户评价分析,RFM 模型的客户细分为社交网络环境下更准确的企业客户价值评估提供参考。1.4 课题研究的内容和成果研究借助一定的数据处理手段来便捷地提取有用的用户评论挖掘信息,根据客户的评论数据进行客户分级,主要研究从客户的评论挖掘出各个具有不同基于大数

16、据的社交网络数据挖掘 第一章绪论5特征的客户群,并对客户群的特征进行总结。运用基于 RFM 模型的聚类算法挖掘出最有价值客户,找出客户发展过程中之间存在的断层,并给出相应的客户拓展和维护建议。本课题的主要成果如下:1、用聚类分析方法分析亚马逊的客户评价数据,利用客户的总评价次数(COUNT),评价得分均值(AVG_RATING),客户的评价次数均值(AVG_VOTES),客户的评价有效次数均值(AVG_HELPFUL)四个评价指标,运用两种不同的聚类算法进行客户群的划分,并对聚类的结果进行了对比评估,选取最优的聚类结果,为亚马逊的评价客户进行了客户画像。2、运用基于 RFM 模型的聚类算法对

17、2004 年的亚马逊客户评价数据进行了客户的分类,参照 R(新鲜度),F(频次),M(评价得分)三个评价指标,将评价客户划分到 8 个象限,观察重要价值客户的占比,以及是否有成长性客户的缺失,为客户发展和维护提供了相关建议。1.5 本文的主要内容和组织结构全文共五章,结构组织如下:第一章主要介绍了课题的来源和意义、问题的提出、研究目的和意义。说明了总体的研究思路和方法,明确课题的研究任务和目标第二章介绍了本文研究所涉及的主要技术,包含研究需要用到的主要统计方法,数据挖掘算法,实验平台。介绍了从斯坦福大学网站进行数据下载,并采用 python 对数据进行预处理导入 ORCALE 数据,为后续数据

18、挖掘构建数据仓库。第三章介绍了聚类方法在客户评价中的作用。主要对客户的评价次数,客户评论被评价的得分,客户评论被评价的次数,其中被认为有效的评价次数,对这四个指标进行聚类分析。第四章介绍了 RFM 模型与客户细分。选取 2004 年的客户评价数据,构建RFM 模型,并对客户的最近评价时间,评价的次数,评价所获得的得分进行聚类分析。第五章全文总结,并对未来做展望。基于大数据的社交网络数据挖掘 第一章绪论6第二章 数据挖掘技术及工具介绍2.1 数据库本文的数据存储主要依靠 ORACLE 数据库,ORACLE 数据库系统是美国ORACLE 公司(甲骨文)提供的以分布式数据库为核心的一组软件产品,是目

19、前最流行的客户/服务器(CLIENT/SERVER)或 B/S 体系结构的数据库之一。ORACLE 数据库是目前世界上使用最为广泛的数据库管理系统,作为一个通用的数据库系统,它具有完整的数据管理功能;作为一个关系数据库,它是一个完备关系的产品;作为分布式数据库它实现了分布式处理功能。但它的所有知识,只要在一种机型上学习了 ORACLE 知识,便能在各种类型的机器上使用它。2.2 数据挖掘工具(介绍 Clementine 12.0)数据挖掘工具主要有两大类:一类是应用于特定领域的专用数据挖掘工具;另一类是应用面较广的通用数据挖掘工具。专用数据挖掘工具针对某个特定领域的问题提供解决方案。在算法设计

20、方面, 充分考虑到数据、需求的特殊性,并进行优化。例如:IBM 公司的Advanced Scout 系列,针对 NBA 数据,帮助教练优化战术组合。 通用数据挖掘工具处理常见的数据类型,采用通用的数据挖掘算法,提供较 为通用的处理模式,如分类模式、回归模式、时间序列模式、聚类模式、关联模 式等。例如:IBM 公司的 QUEST 和 Intelligent Miner 系统、SGI 公司的Mine Set 系统、新西兰 Waikato 大学开发的数据挖掘平台 Weka、美国Business Objects 公司 的 Business Miner 系统、SAS 公司的 SAS EM(Enterpr

21、ise Miner)、SPSS 公司的 SPSS Clementine 系统等。本文选用 SPSS 公司的 Clementine 产品,该产品属于通用商业化挖掘工具,基于大数据的社交网络数据挖掘 第一章绪论7产品成熟稳定、功能完善,市场占有率连续多年位居榜首,远远领先于其他产品, 而且该产品采用可视化方法建立挖掘流程,人性化界面设计,可以方便地通过参 数设定,实现各种挖掘算法。该产品还能和 SPSS 统计工具集成,易实现数据的初 步探索和直观分析。 Clementine 的主要技术特点如下:(1)可视化的工具软件平台。Clementine 为用户提供了功能强大易用的数据 挖掘工具平台。它含有

22、6 个节点区,分别是源数据节点(Sources)、记录处理节点 (Record Ops)、字段(变量)处理节点(Field Ops)、图形节点(Graphs)、建立模型节点 (Modeling)、输出节点(Output),用户建立模型的过程就是把各个节点区的节点以连线的方式连在一起。(2)易用性和强大功能的完美结合。Clementine 对用户来说是个非常容易上 手使用的软件,它通过连接节点的方式建立模型,用户不用编程就可以完成数据 挖掘模型的建立工作,从而最大程度地让用户把更多的精力集中于数据挖掘如何 解决业务问题,而不是工具软件的使用上。另外,对于建立模型,Clementine 提供 了两

23、种模式,一种是简单模式,一种是专家模式。在简单模式下,用户无需做任 何设定,系统会按照默认的设定建立模型;在专家模式下,用户则可以根据自己 的需要对模型中的各个参数进行适当的调节,从而使模型达到最佳的效果。另外, 在 Clementine 中几乎所有的数据的汇总、变换(包括比较复杂的数据变换)、合并等都可以在界面窗口下实现,而不需要编程来完成。(3)强大的项目管理功能。Clementine 完全遵循 CRISPDM 标准,提供了完善的项目管理功能,可以对数据挖掘从商业理解到结果发布的全部过程进行有效的管理。具体地说,Clementine 中提供了数据流管理功能和项目管理功能,在数据流管理功能中

24、,用户可以对当前工作区域内的数据流、数据挖掘模型、数据挖掘 结果进行有效的管理;在项目管理功能中,用户可以对整个项目进行有效的管理,用户既可以按照 CRISPDM 的 6 个阶段对相关项目文件进行管理,也可以按照数 据流、节点、数据挖掘模型、结果和其他的方式对数据挖掘项目进行有效的管理,如图 2 所示。基于大数据的社交网络数据挖掘 第一章绪论8图 2: CRISPDM 的 6 个阶段2.3 PythonPython 是一种解释型、面向对象、动态数据类型的高级程序设计语言。自从 20 世纪 90 年代初 Python 语言诞生至今,它逐渐被广泛应用于处理系统管理任务和 Web 编程。目前 Pyt

25、hon 已经成为最受欢迎的程序设计语言之一。2011年 1 月,它被 TIOBE 编程语言排行榜评为 2010 年度语言。自从 2004 年以后,python 的使用率是呈线性增长 。由于 Python 语言的简洁、易读以及可扩展性,在国外用 Python 做科学计算的研究机构日益增多,一些知名大学已经采用 Python 教授程序设计课程。例如麻省理工学院的计算机科学及编程导论课程就使用 Python 语言讲授。众多开源的科学计算软件包都提供了 Python 的调用接口,例如著名的计算机视觉库OpenCV、三维可视化库 VTK、医学图像处理库 ITK。而 Python 专用的科学计算扩展库就更

26、多了,例如如下 3 个十分经典的科学计算扩展库:NumPy、SciPy 和matplotlib,它们分别为 Python 提供了快速数组处理、数值运算以及绘图功能。基于大数据的社交网络数据挖掘 第一章绪论9因此 Python 语言及其众多的扩展库所构成的开发环境十分适合工程技术、科研人员处理实验数据、制作图表,甚至开发科学计算应用程序。2.4 核心思想和算法2.4.1 聚类一、概念聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。 “物以类聚,人以群分” ,在自然科学和社会科学中,存在

27、着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。在机器学习中聚类称作无监督或无导师归纳,因为和分类学习相比,分类学习的例子或数据对象有类别标记,而聚类所要求划分的类是未知的,聚类的例子则没有标记,需要由聚类学习算法来自动确定。很多人工智能文献中,聚类也称概念聚类,因为这里的距离不再是统计方法中的几何距离,而是根据概念的描述来确定的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。二、算法介绍1、 k-means 聚类算法划分方法中较经典的聚类算法之一。由于该算

28、法的效率高,所以在对大规模数据进行聚类时被广泛应用。目前,许多算法均围绕着该算法进行扩展和改进。k-means 算法以 k 为参数,把 n 个对象分成 k 个簇,使簇内具有较高的相似度,而簇间的相似度较低。k-means 算法的处理过程如下:首先,随机地 选择 k 个对象,每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;然后重新计算每个簇的平均值。 基于大数据的社交网络数据挖掘 第一章绪论10这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下: 21ikipCEim这里 E 是数据库中所有对象的平方误差的总和,p 是空间

29、中的点,mi 是簇Ci 的平均值。该目标函数使生成的簇尽可能紧凑独立,使用的距离度量是欧几里得距离,当然也可以用其他距离度量。k-means 聚类算法的算法流程如下:输入:包含 n 个对象的数据库和簇的数目 k;输出:k 个簇,使平方误差准则最小。步骤:(1) 任意选择 k 个对象作为初始的簇中心;(2) repeat;(3) 根据簇中对象的平均值,将每个对象(重新)赋予最类似的簇;(4) 更新簇的平均值,即计算每个簇中对象的平均值;(5) until 不再发生变化2、Two Step 聚类算法二阶聚类演算法(Two Step Cluster)的简写。二阶聚类演算法(Two Step Clus

30、ter)是一种分层聚类演算法(Hierarchical Algorithms) ,目前多用于资料挖掘与多元统计的交叉领域,其演算法适用于任何尺度的变数。该演算法主要处理非常大的数据,可自动确定类的数量,能够处理联系变数和分类变数的混合资料。Two Step 演算法是分前后两步进行的,也即“二阶”的意义所在第一步:准聚类过程(Pre-cluster Step) 。这一步使用的是分层聚类中针对大样本聚类产生的 BIRCH(Balance Iterative Reducing and Clustering using Hierarchies)演算法,分成许多子类(sub-cluster) 。该算法是

31、传统分层聚类演算法的改进,其实质是把层次聚类方法与其他聚类方法相结合的多阶段聚类。第二步:具体的聚类分析。这一步使用对数似然函数作为距离测量公式,基于大数据的社交网络数据挖掘 第一章绪论11利用第一步的结果对每个样本进行再次聚类,将准聚类形成的 SubClusters作为输入,该步采用“层次凝聚法” ,递归合并输入的 SubClusters,直到合并到最后一个 Cluster 包含了所有的记录。该算法可以根据指定的 Clusters 的个数的范围,自动聚类,输出得到的 Clusters。该算法可以对传统聚类算法得到的结果进一步求精,能处理连续的数值变量和分类变量。 该算法使用基于概率的距离作为

32、测度函数: ,ijijdij211logA Bk KvkvvkNE1lkLvvklvlNE其中:是输入域范围的数量;AK是输入域符号的数量;B是输入的第 k 个符号域的类别数;KL是聚类 v 中的记录数;VN是聚类 V 中属于第 l 类的第 k 个符号域的记录的个数;KL是第 K 个连续变量对于所有记录的估计偏差;2k是第 K 个连续变量对于第 V 个聚类的估计偏差。v2.4.2 RFM 模型RFM 模型技术是根据消费者交易数据库中三个核心指标构建并计算的消费者细分或销售得分进行有针对性营销的一种市场研究技术。RFM 既是传统的数据库营销手段,也是数据挖掘技术关注的模型技术,RFM 在客户细分

33、模型、客户响应模型、客户价值模型、客户促销模型等都是重要的变量和分析模块。图 3所示的 RFM 模型也是建构客户关系管理的核心分析技术。基于大数据的社交网络数据挖掘 第一章绪论12根据美国数据库营销研究所 Arthur Hughes 的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标* 最近一次消费(Recency) * 消费频率(Frenquency) * 消费金额(Monetary) RRECENCY:最近购买的客户倾向再度购买; FFREQUENCY:经常购买的客户可能会较易回应 MMONETARY:消费金额较多的客户未来可能更会消费(1)最近一次消费意指上一次购买

34、的时候 顾客上一次是几时来店里、上一次根据哪本邮购目录购买东西、什么时候买的车,或在你的超市买早餐最近的一次是什么时候。理论上,上一次消费时间越近的顾客应该是比较好的顾客,对提供即时的商品或是服务也最有可能会有反应。营销人员若想业绩有所成长,只能靠偷取竞争对手的市场占有率,而如果要密切地注意消费者的购买行为,那么最近的一次消费就是营销人员第一个要利用的工具。历史显示,如果我们能让消费者购买,他们就会持续购买。这也就是为什么,0 至 6 个月的顾客收到营销人员的沟通信息多于 31 至 36 个月的顾客。最近一次消费的过程是持续变动的。在顾客距上一次购买时间满一个月之后,在数据库里就成为最近一次消

35、费为两个月的客户。反之,同一天,最近一次消费为 3 个月前的客户作了其下一次的购买,他就成为最近一次消费为一天前的顾客,也就有可能在很短的期间内就收到新的折价信息。最近一次消费的功能不仅在于提供的促销信息而已,营销人员的最近一次消费报告可以监督事业的健全度。优秀的营销人员会定期查看最近一次消费分析,以掌握趋势。月报告如果显示上一次购买很近的客户,(最近一次消费为 1个月)人数如增加,则表示该公司是个稳健成长的公司;反之,如上一次消费为一个月的客户越来越少,则是该公司迈向不健全之路的征兆。最近一次消费报告是维系顾客的一个重要指标。最近才买你的商品、服务或是光顾你商店的消费者,是最有可能再向你购买

36、东西的顾客。再则,要吸引一个几个月前才上门的顾客购买,比吸引一个一年多以前来过的顾客要容易得基于大数据的社交网络数据挖掘 第一章绪论13多。营销人员如接受这种强有力的营销哲学与顾客建立长期的关系而不仅是卖东西,会让顾客持续保持往来,并赢得他们的忠诚度。(2)消费频率顾客在限定的期间内所购买的次数。我们可以说最常购买的顾客,也是满意度最高的顾客。如果相信品牌及商店忠诚度的话,最常购买的消费者,忠诚度也就最高。增加顾客购买的次数意味着从竞争对手处偷取市场占有率,由别人的手中赚取营业额。根据这个指标,我们又把客户分成五等分,这个五等分分析相当于是一个“忠诚度的阶梯”(loyalty ladder),

37、其诀窍在于让消费者一直顺着阶梯往上爬,把销售想像成是要将两次购买的顾客往上推成三次购买的顾客,把一次购买者变成两次的。(3)消费金额所有数据库报告的支柱,也可以验证“帕雷托法则”(Paretos Law)公司 80的收入来自 20的顾客。它显示出排名前 10的顾客所花费的金额比下一个等级者多出至少 2 倍,占公司所有营业额的 40以上。如看累计百分比的那一栏,我们会发现有 40的顾客贡献公司总营业额的 80;而有 60的客户占营业额的 90以上。最右的一栏显示每一等分顾客的平均消费,表现最好的 10的顾客平均花费 1195 美元,而最差的 10仅有 18 美元 。如果你的预算不多,而且只能提供

38、服务信息给 2000 或 3000 个顾客,你会将信息邮寄给贡献 40收入的顾客,还是那些不到 1的顾客?数据库营销有时候就是这么简单。这样的营销所节省下来的成本会很可观 。基于大数据的社交网络数据挖掘 第一章绪论14图 3: RFM 模型结合这三个指标,我们就可以把顾客分成 555 = 125 类,如图 4 所示的 RFM 编码结构,对其进行数据分析,然后制定我们的营销策略。基于大数据的社交网络数据挖掘 第一章绪论15图 4: RFM 编码结构最近一次消费、消费频率、消费金额是测算消费者价值最重要也是最容易的方法,这充分的表现了这三个指标对营销活动的指导意义。而其中,最近一次消费是最有力的预

39、测指标。假设我们拿到一个消费者交易数据库,包含三个变量:客户 CardID、时间Date、交易金额 Amount;也就是 RFM 三指标数据集;首先,我们需要将交易数据集,分割和转换为三个 RFM 变量,并根据 RFM编码赋予不同的权重,最后,根据权重汇总为 RFM 得分;当然我们也可以根据RFM 指标或得分进一步进行分析!2.5 数据预处理2.5.1 数据准备本文中用到的所有数据均来自 https:/snap.stanford.edu/data/,选择其中的 Amazon networks : nodes represent products and edges link commonly

40、co-purchased products,所包含的数据表如表 1 所示。基于大数据的社交网络数据挖掘 第一章绪论16表 1: Amazon 数据表Name Type Nodes Edges Descriptionamazon0302 Directed 262,111 1,234,877 Amazon product co-purchasing network from March 2 2003amazon0312 Directed 400,727 3,200,440 Amazon product co-purchasing network from March 12 2003amazon05

41、05 Directed 410,236 3,356,824 Amazon product co-purchasing network from May 5 2003amazon0601 Directed 403,394 3,387,388 Amazon product co-purchasing network from June 1 2003amazon-meta Metadata 548,552 1,788,725 Amazon product metadata: product info and all reviews on around 548,552 products.选取数据集:a

42、mazon0302,其余 amazon0312,amazon0505,amazon0601 的数据集说明和数据结构类似于 amazon0302,在此不再赘述。Dataset information:Network was collected by crawling Amazon website. It is based on Customers Who Bought This Item Also Bought feature of the Amazon website. If a product i is frequently co-purchased with product j, the

43、graph contains a directed edge from i to j.The data was collected in March 02 2003,表 2 为 Dataset statistics表 2:Dataset statisticsDataset statisticsNodes 262111Edges 1234877Nodes in largest WCC 262111 (1.000)Edges in largest WCC 1234877 (1.000)Nodes in largest SCC 241761 (0.922)Edges in largest SCC 1

44、131217 (0.916)Average clustering coefficient 0.4198Number of triangles 717719Fraction of closed triangles 0.09339Diameter (longest shortest path) 3290-percentile effective diameter 11Source (citation)J. Leskovec, L. Adamic and B. Adamic. The Dynamics of Viral Marketing. ACM Transactions on the Web (

45、ACM TWEB), 1(1), 2007.数据集:amazon-metaDataset information:基于大数据的社交网络数据挖掘 第一章绪论17The data was collected by crawling Amazon website and contains product metadata and review information about 548,552 different products (Books, music CDs, DVDs and VHS video tapes).For each product the following informati

46、on is available:TitleSalesrankList of similar products (that get co-purchased with the current product)Detailed product categorizationProduct reviews: time, customer, rating, number of votes, number of people that found the review helpfulThe data was collected in summer 2006.表 3: The data was collec

47、ted in summer 2006Dataset statisticsProducts 548,552Product-Project Edges 1,788,725Reviews 7,781,990Product category memberships 2,509,699Products by product group Books 393561DVDs 19828Music CDs 103144Videos 26132Source (citation)J. Leskovec, L. Adamic and B. Adamic. The Dynamics of Viral Marketing

48、. ACM Transactions on the Web (ACM TWEB), 1(1), 2007.图 5: Data format基于大数据的社交网络数据挖掘 第一章绪论18表 4: Data formatId: Product id (number 0, ., 548551)asin: Amazon Standard Identification Numbertitle: Name/title of the productgroup: Product group (Book, DVD, Video or Music)salesrank: Amazon Salesranksimilar: ASINs of co-purchased products (people who buy X also buy Y)categories: Locatio

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 毕业论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报