收藏 分享(赏)

飞信数据挖掘.ppt

上传人:无敌 文档编号:1461512 上传时间:2018-07-19 格式:PPT 页数:24 大小:1,019.02KB
下载 相关 举报
飞信数据挖掘.ppt_第1页
第1页 / 共24页
飞信数据挖掘.ppt_第2页
第2页 / 共24页
飞信数据挖掘.ppt_第3页
第3页 / 共24页
飞信数据挖掘.ppt_第4页
第4页 / 共24页
飞信数据挖掘.ppt_第5页
第5页 / 共24页
点击查看更多>>
资源描述

1、飞信业务数据挖掘,华院分析2010年4月,内容,潜在飞信用户预测,飞信用户关联分析,飞信用户内部分群,三个业务问题,飞信的潜在用户在哪里,能估算用户加入的概率 吗? 飞信与什么业务组合最容易引起客户的兴趣? 飞信客户群是否还可细分,以便采取不同的营销 策略?,数据挖掘尝试来回答这些问题,什么是数据挖掘,按既定业务目标,对大量的企业数据进行探索,揭示隐藏其中的规律性,并进一步将其模型化的先进、有效的方法,内容,潜在飞信用户预测,飞信用户关联分析,飞信用户内部分群,方法论,基于现有飞信用户和普通用户样本,搜集和判断影响用户成为飞信用户的要素,采用逻辑回归的方法训练样本得到回归模型,用以计算未来用户

2、成为飞信用户的概率,预测步骤,实施方法论,选择样本用户,分析影响因素,选择重要变量,建立预测模型,验证评估模型,一、选择样本用户,飞信样本,普通样本,训练样本,在网三个月以上 1月注册成飞信 1-2月连续活跃 共3万用户,随机抽取普通 用户 共30万用户,样本一,样本二,样本用户的选择需要确保其能真实体现飞信或普通用户的一般特征,剔除由于促销活动等引发的“非正常”用户,样本需体现普遍性,二、分析影响因素,RFM(R代表最近值、F代表频度值、M代表币值) 是将客户特征化的经典方法,最早应用于目录营销服务行业,我们认为年龄、性别、品牌、交往圈及终端等自然属性是影响用户成为飞信用户的关键因素,RFM

3、变量,自然属性,用户使用移动通信语音、短信、彩信、GPRS等服务产生的业务量及收入也作为可能的影响因子纳入进来,消费特征,哪些方面的因素是飞信用户区别于普通用户的特征呢?,1、RFM变量,我们认为假如用户最近定购过新业务类或梦网类产品,或者近2年定购的次数比较多,则用户继续定购新业务产品(比如飞信)的可能性会比较高,因此纳入以下变量:,近2年新业务产品定购次数、最近新业务产品定购间隔、新业务产品当前有效个数,短信类、彩信类、gprs类、wlan类、手机邮箱类、语音增值类、来电助手类,基础通信类,商务类、博客类、手机报类、音乐类、彩信类,生活娱乐商务类,由于梦网产品无明确细分方法,只能以总的为依

4、据,梦网类,新业务细分,注:彩铃、来电助手等由于捆绑性质居多,无法体现真实用户使用趋向,这里统一未纳入考虑,三大变量,2、自然属性,我们认为年龄、品牌、交往圈及终端等自然属性是影响用户成为飞信用户的关键因素,通过单变量回归分析,发现32岁是一个比较显著的飞信用户分水岭,年龄,飞信用户以交流为主,因此用户交往圈的大小具有重要意义,通过单变量回归分析发现,在一定时间段内有3次以上在不同天有通话的对端用户才是有效交往用户,交往圈,是否属于动感地带用户是一个重要布尔变量,品牌,是否终端支持,性别,在网时长,3、消费特征,用户使用移动通信语音、短信、彩信、GPRS等服务产生的业务量及收入也作为可能的影响

5、因子纳入进来。 为了降低短时间内异常消费行为的影响,比如促销,所有的消费行为数据都以近2年的月均消费为基准。,近2年收入近2年优惠收入近2年SP费收入,收入类(10个),近2年通话时长近2年本地通话时长近2年省内漫游通话时长近2年省际漫游通话时长,语音类(20个),近2年短信发送条数近2年彩信发送条数近2年CMWAP次数近2年彩铃下载次数,新业务类(40个),三、选择重要变量,共规整收集150个变量,采用后向、逐步回归方法,逐步淘汰不相关变量,最终选择稳定的排名前20的变量作为飞信影响因素(模型输入变量),值得关注的现象: ARPU、MOU等常规用户价值度量与飞信用户相关性非常小,RFM变量则

6、体现出其价值,三、选择重要变量,基于对业务和客户的理解,选择出合适的影响要素(变量),是决定模型成败的关键一步 要素的搜集和规整工作是模型建立中最艰苦而耗时的部分,四、建立预测模型,实际模型:logit=log(p/(1-p) 2.1878 (p代表成为飞信用户的概率)+0.1427*TRADEMARK (品牌) +0.3098*is_trademark4 (是否动感地带)-0.4207*is_age32 (年龄是否小于32)-1.2125*is_sphere3_1_11 (交往圈是否小于11)-1.3080*is_sphere3_12_15 (交往圈是否在12与15之间) -1.2624*i

7、s_sphere3_16_19 (交往圈是否在16与19之间)-1.0657*is_sphere3_20 (交往圈是否大于20)+0.4971*IS_FEIXIN_TERM (是否飞信终端)+0.000134*N_MU_L_DATE_logi (最近定购的音乐产品间隔 log倒数)+0.0471*CMWAP_COUNTS_sqrt (CMWAP上网次数 sqrt平方根)-2.0817*N_APPLY_2_COUNTS (近两年月均产品定购次数)-1.6197*N_APPLY_2_COUNTS_cos (近两年月均产品定购次数 cos)+0.7396*N_GPRS_L_DATE7 (近7个月内是

8、否定购过gprs产品)+0.1916*N_GPRS_L_DATE_sin (最近定购的GPRS产品间隔 sin) -0.00005*N_MU_L_C_cui (近两年月均音乐产品定购次数 立方的倒数)+0.5477*N_GPRS_APPLY_COUNTS114 (近两年月均GPRS产品定购次数)+0.000089*N_PAPER_L_DATE_logi (最近定购的手机报产品间隔 log倒数)+1.0152*N_PAPER_I_A_C_sqrt (近两年月均手机报定购次数 平方根)+2.6438*N_MAIL_APPLY_COUNTS_sqrt (近两年月均手机邮箱定购次数 平方根)+0.39

9、13*N_SMS_A_L_D5 (最近是否定购过短信产品)-0.0558*N_B_A_L_D_curt (最近定购的商务类产品间隔 curt)-0.00002*N_A_L_D_logi (最近定购产品的间隔 log倒数)-0.00003*VPMN_C_D_logi (最近定购vpmn产品的间隔 log倒数)-0.00003*NISMG_A_L_D_sini (最近定购梦网产品的间隔 sin倒数)-0.00015*N_ADD_A_C_cui (近两年月均语音增值产品次数 立方的倒数)+0.0292*SMS_MO_COUNTS_sqrt (近两年月均短信发送次数 平方根)+0.00343*GPRS

10、_VOLUME_curt (近两年月均GPRS流量 curt)-0.00004*N_C_I_A_C_cui (近两年月均彩铃产品定购次数 立方的倒数),针对所选变量采用逻辑回归方法,训练得到拟合方程式:,logit=log(P/(1-P)=aX0+bX1+cX2+其中: p代表成为飞信的概率 X0、X1、X2等代表所选的变量(影响因素) a、b、c等代表计算得到的系数,P即为计算得到的飞信活跃用户的概率,模型确立后,只要数据收集完整,非常容易推广和应用到实际的营销中,由于是以概率为度量,可以对营销数量进行灵活的控制,四、建立预测模型(预测举例),假如某用户资料如下:品牌:全球通年龄:33交往圈

11、:68终端:支持飞信最近一次订购音乐类产品的时间间隔:20个月最近2年月均CWMAP上网次数:33次最近2年月均产品定购次数:0.3次最近增值类产品参加时间间隔:3个月最近2年月均VPMN时长:950分钟最近一次订购梦网类产品的时间间隔:3个月最近2年月均短信发送次数:13条最近2年月均流量:2M则计算其成为飞信活跃用户的概率为: 29.6%,五、模型验证,十分位分析是验证模型健壮性的常用方法,其将样本按照预测概率高低排序等分为10等份,通过以下两种方式来检查模型的强壮性:(1)每个等分内预测概率与实际情况的差异(2)最高最低等分预测概率的差异,预测概率均值与实际情况相差很小,最佳十分位是最差

12、十分位预测概率的18倍非常好的区分性能,注:为了防止模型的过渡适应,即它吸收了数据中的非规则元素,往往还需采用重采样方式来验证模型健壮性,内容,潜在飞信用户预测,飞信用户关联分析,飞信用户内部分群,方法论,基于现有飞信用户注册的各类新业务套餐产品信息,从中找出与飞信产品最相关的产品组合,从而指导交叉销售产品设计,也可作为一种发现潜在飞信用户的手段,关联度排名(二产品组合),左图列举了飞信用户同时选用其它套餐产品的支持度排名情况 可见其与GPRS、无线音乐、彩信等产品具有较强的关联性,对于日常营销中的交叉销售设计具有一定的参考意义注:剔除了彩铃、来电助手等现捆绑性质居多的 产品,关联度排名(多产

13、品组合),以上可作为多产品交叉销售的参考,内容,潜在飞信用户预测,飞信用户关联分析,飞信用户内部分群,方法论,基于现有飞信用户,将其划分为多个分组并总结特征,使得组内客户高度相似,组间客户差异明显,发现各个分群的客户特性和需求,有针对性地设计营销计划,飞信用户分群,通过聚类(k-均值法)方法还可将飞信群体细分为三大类,通过比对每类客户与总体客户(蓝方块)的差异,可得这三类飞信群体的特征: 动感新鲜型:短信拇指族,手机上网发烧友,对音乐、商务类等各类产品都感兴趣,占到 飞信群体的15 普通实用型:具有一定的短信、手机上网量,但基本不订购其它新业务产品,占到飞信群 体的75,是飞信使用的主体 商务信息型:基本不发短信、手机上网也少,但对于商务娱乐等信息感兴趣,占到飞信群 体的10,动感新鲜型,普通实用型,商务信息型,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报