数据挖掘与用户画像.pptx-道客多多

资源描述

1、用户画像精准营销，分析产品潜在用户，针对特定群体利用短信邮件等方式进行营销；用户统计，比如中国大学购买书籍人数 TOP10，全国分城市奶爸指数；数据挖掘，构建智能推荐系统，利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌，利用聚类算法分析，喜欢红酒的人年龄段分布情况；进行效果评估，完善产品运营，提升服务质量，其实这也就相当于市场调研、用户调研，迅速下定位服务群体，提供高水平的服务；对服务或产品进行私人定制，即个性化的服务某类群体甚至每一位用户（个人认为这是目前的发展趋势，未来的消费主流）。比如，某公司想推出一款面向 5 10 岁儿童的玩具，通过用户画像进行分析，发现形象 “ 喜羊羊

2、” 、价格区间 “ 中等 ” 的偏好比重最大，那么就给新产品提供类非常客观有效的决策依据。业务经营分析以及竞争分析，影响企业发展战略用户画像的价值1：精准营销。精准营销是用户画像或者标签最直接和有价值的应用。这部分也是我们广告部门最注重的工作内容。当我们给各个用户打上各种 “ 标签 ” 之后，广告主（店铺、商家）就可以通过我们的标签圈定他们想要触达的用户，进行精准的广告投放。无论是阿里、还是腾讯很大一部分广告都是通过这种方式来触达用户，百度的搜索广告方式有所不同。2：助力产品。一个产品想要得到广泛的应用，受众分析必不可少。产品经理需要懂用户，除了需要知道用户与产品交互时点击率、跳失率、停留

3、时间等行为之外，用户画像能帮助产品经理透过用户行为表象看到用户深层的动机与心理。3：行业报告与用户研究。通过对用户画像的分析可以了解行业动态，比如 90后人群的消费偏好趋势分析、高端用户青睐品牌分析、不同地域品类消费差异分析等等。这些行业的洞察可以指导平台更好的运营、把握大方向，也能给相关公司（中小企业、店铺、媒体等）提供细分领域的深入洞察。用户画像是对人的深入挖掘，除了基本的人口统计学信息、地理位置、设备资产等客观属性之外，如兴趣偏好等是自由度很大的标签，在很多应用题场景，广告主（或需求方）更需要用户兴趣、价值观、人格层面的标签。比如汽车客户，环保类的电动车品牌想要触达的是有环保意识、喜欢小

4、排量的用户，这就涉及到人的价值观层面了，因此制作这些标签的时候不能仅仅通过用户行为直接产生，需要更深入人格的建模。随着互联网野蛮生长时代的消退以及数据技术的进一步提升，从人心理、人格层面的深度分析将逐渐得到重视和应用。我十分期待阿里能构建一套基于人格心理学的标签，这必将给淘宝带来更好的用户体验，增加我这种不喜欢花哨页面用户的停留时间。用户画像构建流程数据收集数据收集大致分为网络行为数据、服务内行为数据、用户内容偏好数据、用户交易数据这四类。网络行为数据：活跃人数、页面浏览量、访问时长、激活率、外部触点、社交数据等服务内行为数据：浏览路径、页面停留时间、访问深度、唯一页面浏览次数等用户内

5、容便好数据：浏览收藏内容、评论内容、互动内容、生活形态偏好、品牌偏好等用户交易数据（交易类服务）：贡献率、客单价、连带率、回头率、流失率等当然，收集到的数据不会是 100% 准确的，都具有不确定性，这就需要在后面的阶段中建模来再判断，比如某用户在性别一栏填的男，但通过其行为偏好可判断其性别为 “ 女 ” 的概率为 80%。还得一提的是，储存用户行为数据时最好同时储存下发生该行为的场景，以便更好地进行数据分析。用户行为建模该阶段是对上阶段收集到数据的处理，进行行为建模，以抽象出用户的标签，这个阶段注重的应是大概率事件，通过数学算法模型尽可能地排除用户的偶然行为。这时也要用到机器学习，对用户的

6、行为、偏好进行猜测，好比一个 y kx b 的算法， X 代表已知信息， Y 是用户偏好，通过不断的精确 k 和 b 来精确 Y。在这个阶段，需要用到很多模型来给用户贴标签。用户汽车模型根据用户对 “ 汽车 ” 话题的关注或购买相关产品的情况来判断用户是否有车、是否准备买车用户忠诚度模型通过判断聚类算法判断用户的忠诚度身高体型模型根据用户购买服装鞋帽等用品判断文艺青年模型根据用户发言、评论等行为判断用户是否为文艺青年用户价值模型判断用户对于网站的价值，对于提高用户留存率非常有用（电商网站一般使用 RFM 实现）还有消费能力、违约概率、流失概率等等诸多模型。用户画像基本成型该阶段可以说

7、是二阶段的一个深入，要把用户的基本属性（年龄、性别、地域）、购买能力、行为特征、兴趣爱好、心理特征、社交网络大致地标签化。为什么说是基本成型？因为用户画像永远也无法 100 地描述一个人，只能做到不断地去逼近一个人，因此，用户画像既应根据变化的基础数据不断修正，又要根据已知数据来抽象出新的标签使用户画像越来越立体。关于 “ 标签化 ” ，一般采用多级标签、多级分类，比如第一级标签是基本信息（姓名、性别），第二级是消费习惯、用户行为；第一级分类有人口属性，人口属性又有基本信息、地理位置等二级分类，地理位置又分工作地址和家庭地址的三级分类。数据可视化分析这是把用户画像真正利用起来的一步，在此步骤

8、中一般是针对群体的分析，比如可以根据用户价值来细分出核心用户、评估某一群体的潜在价值空间，以作出针对性的运营。聚类分析 - K 均值算法K 均值算法详解及实现算法流程K 均值算法，应该是聚类算法中最为基础但也最为重要的算法。其算法流程如下：随机的取 k 个点作为 k 个初始质心；计算其他点到这个 k 个质心的距离；如果某个点 p 离第 n 个质心的距离更近，则该点属于 cluster n，并对其打标签，标注 point p.label=n，其中 n=k；计算同一 cluster 中，也就是相同 label 的点向量的平均值，作为新的质心；迭代至所有质心都不变化为止，即算法结束。当然算法实现

9、的方法有很多，比如在选择初始质心时，可以随机选择 k 个，也可以随机选择 k 个离得最远的点等等，方法不尽相同。K 值估计对于 k 值，必须提前知道，这也是 kmeans 算法的一个缺点。当然对于 k 值，我们可以有很多种方法进行估计。本文中，我们采用平均直径法来进行 k 的估计。也就是说，首先视所有的点为一个大的整体 cluster，计算所有点之间距离的平均值作为该 cluster 的平均直径。选择初始质心的时候，先选择最远的两个点，接下来从这最两个点开始，与这最两个点距离都很远的点（远的程度为，该点到之前选择的最远的两个点的距离都大于整体 cluster 的平均直径）可视为新发现的质心，否

10、则不视之为质心。设想一下，如果利用平均半径或平均直径这一个指标，若我们猜想的 K 值大于或等于真实的 K 值，也就是簇的真实数目，那么该指标的上升趋势会很缓慢，但是如果我们给出的 K 值小于真实的簇的数目时，这个指标一定会急剧上升。根据这样的估算思想，我们就能估计出正确的 k 值，并且得到 k 个初始质心，接着，我们便根据上述算法流程继续进行迭代，直到所有质心都不变化，从而成功实现算法。如下图所示：聚类分析 -K值估计算法我们知道 k 均值总是收敛的，也就是说， k 均值算法一定会达到一种稳定状态，在此状态下，所有的点都不会从一个簇转移到另一个簇，因此质心不在发生改变。在此，我们引出一个剪枝优化，即： k 均值最明显的收敛过程会发生在算法运行的前期阶段，故在某些情况下为了增加算法的执行效率，我们可以替换上述算法的第五步，采用 “ 迭代至仅有 1%3%的点在影响质心 ” 或 “迭代至仅有 1%3%的点在改变簇 ” 。k 均值适用于绝大多数的数据类型，并且简单有效。但其缺点就是需要知道准确的 k 值，并且不能处理异形簇，比如球形簇，不同尺寸及密度的簇，环形簇等等。本文主要为算法讲解及实现，因此代码实现暂不考虑面向对象思想，采用面向过程的实现方式，如果数据多维，可能会需要做数据预处理，比如归一化，并且修改代码相关方法即可。

展开阅读全文