1、滨 江 学 院题 目 基于数据挖掘的客户流失问题 院 系 计算机系 专业班级 软件工程 学生姓名 许燕 学 号 20082344908 指导教师 闫雷鸣 二一一年 五 月 二十六 日基于数据挖掘的客户流失问题摘要:在营销手段日益成熟的今天,我们的客户仍然是一个很不稳定的群体,因为他们的市场利益驱动杠杆还是偏向于人、情、理的。如何来提高客户的忠诚度是现代企业营销人一直在研讨的问题。关键词:客户流失,数据挖掘,决策树,聚类引言:客户的变动,往往意味着一个市场的变更和调整,一不小心甚至会对局部(区域)市场带来致命的打击。这个现象在医药企业的处方产品中突显,一个医院由一个代表做到一定的销售量,但是这个
2、医药代表离开后,那么销量的下滑是很明显的。如果你是公司的管理者,请务必在关键时刻擦亮你的眼睛,以免你的客户在不经意间流失,给公司的市场运作带来不利影响。当然,这其中的因素和地区的主管、经理也有很大的直接关系。所以,我们通过数据挖掘来分析数据挖掘问题。我们也可以对比已有的方法发现不足之处,然后进行改进。一、数据挖掘数据挖掘又称数据库中的知识发现,是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程, 这些模型和关系可以用来做出预测。数据挖掘实施的步骤一般包括三个部分数据的准备、模型的建模型验证图数据挖掘的步骤图所示的各个步骤并不是线性的, 要取得好的结果就要不断重复这些步骤。在客户流失分
3、析系统中, 数据挖掘只是一小部分, 却是关键的一个部分, 系统中把数据挖掘得到的知识和市场的经验、客服的信息结合起来, 应用于数据库中的数据进行流失客户的预测、分析, 对确认有流失倾向的客户根据不同的情况进行预苦处理, 包括套餐资费调整、服务方式更改、竞争对手调查等, 同时将预誓客户名单通过公司的数据交换平台下发给各个业务分区, 进行摸底跟踪, 实施关怀工程。整个系统的业务流程如图所示, 其中流失客户的预测和分析是两个关键的环节, 需要选择讨, 实用案例,计算机系统应用年第期合适的数据挖掘算法, 获取有用的模型和知识应用于系统中, 才能进行科学的辅助决策。二、数据挖掘在系统中的应用流失又分为被
4、动流失和主动流失, 被动流失是因为客户欠费或不履行责任而被移动停机。主动流失有不同的原因, 一类是客观原因限制所引起的异动, 如搬迁等, 另一类是客户主动放弃, 如因为竞争对手的优惠政策, 对目前的服务不满意等。在这些群体中, 那些主动流失的客户是我们要分析的对象, 在这类群体中, 用户价值和信用度高的可能流失客户是我们最关心的对象, 如果能够成功预测出这类将要流失的客户, 并且能够成功的挽留这类大客户, 将给移动公司带来可观的利润。三、基于数据挖掘的电信客户流失分析步骤1、商业理解商业理解是从业务角度来理解数据挖掘的目标和要求,再转化为数据挖掘问题。本文的目标确定为:针对目前在网客户进行流失
5、概率的预测。电信领域的客户流失有 3 方面的含义3 : 一是指客户从本电信运营商转往到其他的电信运营商; 二是指客户使用的手机品牌发生改变, 从本电信运营商的高价值品牌转向低价值品牌; 三是指客户月平均消费量降低, 从高价值客户成为低价值客户。在以上 3 类客户流失中,第一类是客户流失分析的重点,本文将第一类作为分析的对象。而在第一类客户中,又可具体将其分为被动停机 3 个月、主动退网和注销用户。2、数据理解。数据理解包括收集原始数据、数据描述、数据探索分析和数据质量描述。(1) 收集原始数据当进行数据挖掘时,首先要从企业数据仓库中取出一个与要搜索问题相关的数据子集。该问题的数据来源是某电信公
6、司某年度 1 月7 月在某地区的数据。(2) 数据描述信息类别 数据源 时间窗口流失 自然用户 属性相关 行为信息 属性在网 自然用户 属性相关 行为信息 属性USER_BASIC_INFOUSER_BEHAVIOR_INFOUSER_BASIC_INFOUSER_BEHAVIOR_INFO某年 7 月某年 1 月、2 月、3 月某年 7 月某年 7 月某年 4 月、5 月、5 月、6 月某年 7月(3) 数据探索分析。在使用收集到的原始数据之前,必须要保证所有数据在数量和质量上符合要求。在数据探索阶段,对获取的各变量进行分析探索,选择对目标变量的影响相对较大的关键变量。此处,通过可视化的方式
7、来展现,即利用 Clementine 中的分布图节点展示用户流失状态在每个变量上的分布图。从各分布图得出,用户的自然属性,例如性别、年龄等信息缺失值比较多,且存在较多的非法数据,所以在本文的分析中,不选该类变量,该类变量不参与建模。另外,像通话次数、通话时长等变量和客户流失概率之间存在着反比关系,即该类变量的值越大,则客户流失的概率相对来说就越小,所以在接下来的分析中,应该将该类变量或与该类变量相关的导出值作为分析的重点。通过上面对样本数据变量的数据探索工作,对各变量属性有了基本的了解,可以有针对性地选择适用变量或对一些变量进行过滤。3. 数据准备。数据准备阶段初步完成变量的选择和导出变量的生
8、成,同时对一些存在数据质量问题的字段进行相应的处理。在本次客户流失分析过程中,对数据的处理过程包括以下几个方面:(1) 整合数据。首先将流失客户的行为信息进行整合。为了便于后续建模,将行为信息按月份进行拆分与合并,并通过计算均值和比率来表示流失用户在流失前的消费行为突变情况。具体计算方法如下:FEE A V G = ( FEE 1 + FEE 2) / 2FEE ADD RA T E = ( FEE 3 +FEE A V G) / FEE A V G 其中 FEE 1 表示流失用户 1 月份的消费额;FEE 2 表示流失用户 2 月份的消费额; FEE 3 表示流失用户 3 月份的消费额; F
9、EE A V G 表示流失用户在前 2 个月的消费额平均; FEE ADDRA T E 表示 3 月的消费额占其前 2 个月消费额平均值的比率,该指标反映了用户在离网前的消费行为突变情况。其次将现有在网客户的行为信息进行整合。整合方法同上。最后,将用户自然属性和行为属性进行整合。整合时将流失用户信息和在网用户信息分开进行整合。流失用户的用户信息与其行为特征数据进行合并,在网用户的用户信息与其行为特征数据进行整合。整合之将其拆分成训练集和测试集。训练集用于训练模型,测试集用于对模型进行检验。(2) 清洗数据。在数据探索分析阶段,通过观察各变量分布图,我们得到了性别和年龄这 2 个存在大量缺失值的
10、字段,且通过变量分布图,发现这 2 个字段对于目标字段的分布没有显著影响,即客户流失在这 2 个字段上的分布不存在显著的差异,所以可以对这 2 个字段采用过滤的操作。此外,对于在网状态字段,由于某些原因,可能有极少数属性值丢失了。对于这部分丢失的值,可以加上默认值,假设为在网状态,或者直接过滤掉。而不能将丢失的数据默认为离网,因为离网的记录在整个记录中比例过小,如果把丢失的记录直接加到离网中,势必会影响整个模型的可信度。相比而言,丢失的记录与在网记录比只是很小的一部分,不会影响大的趋势。当然,在不同的建模过程中,对于不同的原始数据集,对相同字段的处理是存在差异的。(3) 构造属性。从数据集中得
11、到的原始字段,并不是所有的都适合直接用来建模分析,例如,以上在整合数据阶段,利用导出节点,我们得到了消费额平均值字段和消费额增长率字段,并使用这些字段来对客户流失的情况做出更好的预测。可见,在数据准备过程中,各个阶段之间是没有明确的界限的,各个阶段是交叉进行,并不断重复的过程,只有通过这种方式,才能得到我们所需要的用于建模的数据。(4) 选择数据。选择数据过程包括字段的选择和记录的选择。在从业务系统获得的数据中会有许多字段是和分析无关的,这些字段在数据整合过程中被过滤掉。另外,从实际情况上看,国内电信企业每月的客户流失率一般在1 %3 % ,如果直接采用决策树模型,可能会因为数据概率太小而导致
12、模型的失效,因此我们需要加大客户流失在总样本中的比例,但是这种过度抽样必须谨慎小心,要充分考虑它的负面效应。4. 建立模型。运用数据准备阶段得到的训练集,并利用决策树对客户流失概率进行预测。决策树方法是一种从机器学习中引出的一种较为通用并被深入研究的分类函数逼近方法,在本文中运用 Clementine 中的 C5. 0 算法。该算法速度快、内存占用小、修剪能力和交互验证的特征能够使预测更精确。(1) C5. 0 决策树算法原理。将原始数据中的 ON TA G 和 OU T TA G 合并为仅含 2 个变量 , 即离网与不离网的新字段客户是否流失 CHU RN 。将 CHU RN 作为目标字段,
13、 计算与 CHU RN 相关的字段的信息增益的大小,按照由大到小的顺序对历史数据进行分类,最后得到历史数据的 n 个集合, 每个集合满足一定的规律。当新记录需要该模型对其确定 CHURN 的值 ,则看其字段满足哪条规律。设 S 是训练样本数据集, 该数据集中有 m 个独立的类,记为 Ci ( i = 1 ,2 , , m) 。Ri 为数据集 S 中属于 Ci 类的子集, ri 表示 Ri 中元组的数量。集合 S 在分类中的期望信息量由以下公式给出4 :期望信息 I ( r1 , r2 , , rm) = - mi =1Pilog2 Pi 其中 Pi = ri/ r ,表示任意一个样本属于 Ci
14、 类的概率( r 为总样本个数、ri 为类 Ci 中的样本个数) 。若属性 A 有 v 个不同的取值,分别为 a1 , a2 , av ,根据属性 A 将数据集 S 划分为 v 个子集 S 1 , S 2 , , S v ,其中 S j 表示 S 中 A 的值为 aj 的那些样本。如果 A 被选为决策属性,则这些样本将对应该节点的不同分枝。设 S j 包含类 Ci 的样本有 sij 个。属性 A 的这种划分的期望信息称作 A 的熵:E( A ) = vj = 1s1 j + s2 j + + smjsI ( s1 j , s2 j , , smj)属性 A 作为决策分类属性的信息增益为 Gai
15、 n ( A ) = I ( r1 , r2 , , rm) - E( A )本模型中, S 为用以建立模型的客户集, 将客户集 S 分为两个类: 在网( C1) 和离网( C2) 。S i ( i = 1 ,2) 分别表示 S 中在网和离网的客户数。C5. 0 决策树的工作原理是根据提供最大信息增益的字段分割样本。然后通常会根据不同的字段再次分割由第一次分割定义的每个子样本,且此过程会重复下去,直到无法继续分割子样本。最后,将重新检查最底层分割,并删除或修剪对模型值没有显著贡献的分割。(2) 模型构建。建立数据模型的数据流程图如图 1 所示图 1 中, TRAIN. dat 是数据准备阶段得
16、到的训练集。使用 Clementine 的 C5. 0 建模节点来建立预测模型,将“churn”变量设置为“输出”,其他变量设置为 “输入” 。决策树是对这种算法建立分割的简单描述。每一个终端节点描述了训练数据的一个特定子集,而训练数据集中的每一种情况(离网或在网) 恰好属于树上的一个终端节点。以上模型得到的只是对用户离网状态的一个预测( 离网或在网) ,我们所需要得到的不只是其状态,还要具体地了解其离网的可能性的大小,这样才能对高离失可能性的客户展开一定的挽留措施。通过建立导出字段 CHURN PROB 来计算客户的离网可能性,其计算公式如下:CHURN PROB = 0. 5 +CC -
17、CHU RN2 if C - CHURN = 1CHURN PROB = 0. 5 -CC - CHU RN2 if C - CHURN = 0 式中: C - CHURN 为 CHU RN 字段的预测值;CC - CHURN 为置信度。最后,将计算得到的流失概率值按从大到小的顺序排列,为后续的潜在流失客户的挽留做好准备工作。5. 模型评估。运用分析节点预测分析模型的精确性,其结果如图 2 所示。由图 2 可以看出,模型的正确率为86. 01 %。及价值等因素对客户进行分类 ,并提供有针对性的产品、服务和营销模式。图 3 评估结果流失分析过程中,我们将预测的概率按从大到小的顺序排列,取前 35
18、 %作为高流失概率客户群,但并不是所有的高流失概率客户都值得我们去挽留。如果挽留住的某些客户带来的盈利小于客户回夺时投入的营销成本,那么该类客户即不值得运营商挽留。从这些高流失概率用户中过滤掉那些低价值”客户即FEE(出账收入) 50 元的客户。在高价值客户里我们也应针对不同的客户制定相应的营销方案,避免付出不必要的挽留成本。本文使用 Kohonen 算法对高流失率高价值客户进行聚类分析 ,得出具有不同特征的客户群,以便根据其特征制定相应的挽留策略。选取其中的两类作简要分析。a. 以本地通话为主,很少有漫游通话和国内长途通话, S FEE A V G( 平均短信出账收入) 相对较高, 但最近一
19、个月 S FEE ADD RA T E 0 ,V FEE (语音出账收入 ) 呈现明显下降趋势。针对这类客户,运营商可以通过赠送短信等方式来挽留客户。b. 长途通话次数和长途通话总时长都远高于其他用户,同时本地通话次数也相对较高,漫游通话次数很少,很少发短信息。针对这类高流失概率的用户,可以通过减免月租费、降低长话费等方式来吸引并挽留客户。四、移动电话客户流失分析( 一) 收集资料为了能够定量地了解影响移动电话号码用户与手机用户之间的关系。我们对此做了一次资料收集。并对数据进行了数据挖掘, 数据挖掘的主要框架如图 1 所示。收集资料的内容主要包括以下几个方面的内容:1、 移动电话客户的个人情况
20、, 如年龄、职业、教育程度、籍贯等;2、 付费方式;3、 不同场所移动电话的接收质量;4、 电信公司的服务质量;5、 是否更换移动电话服务商及次数;6、 手机品牌与型号;7、 是否换过手机及次数;8、 购买手机优先考虑的因素;9、 对于所使用手机外型、功能等的满意程度;10、 手机对电磁辐射的态度;11、 每月本地话费数量或次数;12、 每月长途话费数量;13、 是否经常使用呼叫转移;14、 发送和接收短信的次数;15、 通话弧度的大小, 即每个月平均与多少个人通话;16、 每月收发短信息的个数;( 二) 数据处理在进行数据处理的时候, 我们使用 STAT IST ICS 软件进行处理, 其中
21、包括如下几个过程,在这里给出简要描述。1、 数据净化与处理分析数据的原始样本数据为 131, 024 笔, 数据属性( 字段) 部分共有 33 个项目。因有些样本数据中的项目有过多的缺失值, 不适用于分析, 因此在这个阶段会将数据作数据净化与处理。步骤如下:步骤一: 将数据表中有缺失值的记录先给予删除。步骤二: 将数据中不分析的属性删除 , 删除后所剩样本为 57194 笔。2、 母体与样本的结构比较为了减少数据分析的数据量, 提高分析的效率, 我们采用随机抽样方法, 从步骤二中抽取5%的样本来作分析, 共有 2892 笔样本。当然, 在做分析前, 还必须比较样本是否能够代表母体的特征, 我们
22、利用性别、年龄、教育程度、职业以及户籍来比较母体与样本的结构是否有差异, 以确定样本抽样的无误。结果( 数据略) 显示结构比例在统计意义上无差别。因而可以利用抽样的数据来代表母体数据进行分析。3、 进行数据的结构分析数据的结构分析, 主要使用交叉列联表的方法来进行。分析的主要内容是研究更换手机与人口结构的关系, 更换号码与人口结构的关系。我们利用 Pearson 的卡方检验 ( Yates 修正) 进行卡方分析, 分析结果如下:性别教育程度职业卡方值 p. 值卡方值 p. 值卡方值 p . 值换过手机 64. 6736 0.0000 3. 5377 0. 1705 113.0173 0. 00
23、00换过号码 22. 3073 0.0000 0. 358 0. 8361 30.7756 0. 0002从结果可以看出, 从性别与职业角度看, 不同性别与不同职业的人都对换手机和换号码都有显著影响, 而从教育程度, 教育程度的不同并不影响人们的换手机和换号码。从分析结果我们还知道( 数据列表略 ) , 男性换手机和号码的人数比例要明显大于女性。在职业方面, 电信运营商换过手机和换过号码的比例都是最高的, 换手机比例最低的是失业退休人员, 换过号码比例最低的是专业技术人员, 其次是退休人员。4、 聚类分析( k- means 聚类)( 1) 电话号码的聚类分析表 1 两类的典型代表Cluste
24、r 1 Cluster2室内信号质量 1834574 1831028室外信号质量 1940957 1916008郊外信号质量 1837766 1911067车上信号质量 1968617 1988142通话清晰度 1995745 2433794计费方式 2502128 3084980服务效率 2041489 3459486服务态度 1751596 4497036整体品质 1940957 2936759 表 2 两类之间的欧氏距离NO. 1 NO. 2NO. 1 0000000 1230863NO. 2 1109443 0000000 表 3 方差分析Between df Within Df F
25、signif.室内信号质量 0. 008 1 533. 658 2890 0. 045 0. 832355室外信号质量 0. 410 1 236. 307 2890 5. 008 0. 025303郊外信号质量 3. 535 1 911. 515 2890 11. 207 0. 000825车上信号质量 0. 251 1 319. 006 2890 2. 272 0. 131828通话清晰度 126. 237 1 1948. 530 2890 187. 231 0. 000000计费方式 223. 490 1 3660. 683 2890 176. 438 0. 000000服务效率 1322
26、. 789 1 3372. 103 2890 1133. 673 0. 000000服务态度 4958. 655 1 1683. 986 2890 8509. 875 0. 000000整体品质 652. 357 1 2662. 399 2890 708. 126 0. 000000( 2) 手机型号的聚类分析( 三) 结果分析针对所收集数据, 以换过号码做为主要变量, 利用 CHAID 分析方法进行分析, 发现其中性别、年龄、永籍及职业四个人口统计变量在区隔数据上有显著影响, 将资料做适当的区隔, 根据 CHAID 分析方法所区隔出的各群, 找出各群中不同的趋势、特征及各群之间的相关性, 还
27、可以建立判别模式进行预测。( 四) 营销建议数据挖掘的目的是从数据中发掘客户价值, 因此分析结果只有应用到企业的实际营销策略中, 并给企业带来显著的利润, 才是资料挖掘的初衷。对移动服务提供商来说, 利用数据挖掘的结果还要综合考虑企业的自身状况, 例如, 先弄清楚客户流失对企业到底有多大影响。可以先将客户依贡献价值分级, 如果 A 级占相当比例, 那表示问题就比较严重了, 如果都是 C级, 那么也不一定需要花大量的人力、物力和财力来处理。找出那些 A 级流失客户, 邀请他们来个面对面的深度讨论( 如: Focus Group) , 了解他们走失的原因, 如何能改变他们的想法。依照这些原因设计改
28、善方案或挽回方案, 立刻联系那些已走或快走的人。设立监控机制纪录, 每周或每月份分析所有客户的 RFM( Recency , Frequency, Monetary) 的变动, 随时找出贡献度高( M 高的) , 但最近消费次数降低( R 或 F) 的人, 先给予问候 , 再看看是否有任何不满意见, 必要时给予一些预先计划好的糖#, 在事发前就先避免。客户关系管理对企业而言乃是将客户关系放在企业经营的核心, 规划以满足客户需求的营销理念; 而利用数据挖掘分析客户数据 , 有效掌握客户特性、发掘客户价值, 并配合企业的实际营销策略, 才能有效的给企业带来显著的利润。( 下转第 44 页)68 中
29、文核心期刊 数理统计与管理 24 卷 1 期 2005 年 1 月行以中央银行建立的中央信贷登记为主体的企业征信评价体系, 并辅以商业银行协会建立的会员制征信机构与商业性征信机构为主体的企业征信管理体系。从长期来看, 随着我国市场经济和现代企业制度的逐步完善, 以征信公司的商业运作为主体的企业征信管理体系应该作为我国企业信用评价体系的基本模式。其次, 在指标体系的选择方面, 不仅要选择各种财务指标, 还要用管理、人才资源、制度建设、历史记录等指标全面考察企业的信用状况, 而且还应该将企业放在整个行业甚至整个国民经济中考察其信用状况。只有将行业指标及国民经济指标纳入信用评价指标体系内, 才能全面
30、、系统地评估企业的信用状况。最后, 在评估模型的选择方面, 应该选择发展比较成熟的评估模型。上述几种模型在实际应用中各有优劣, 在实际操作中应该用不同的模型进行评估, 然后对各种模型的评估结果进行拟合、检验与比较, 找出满意的评估模型。五、总结全球经济一体化的竞争环境使得企业应充分认识到客户流失防范的重要性。本文通过运用数据挖掘技术,利用 C5. 0 决策树算法分析客户流失原因及流失概率,并根据 Kohonen 聚类算法,将高流失概率、高价值的客户分群,在此基础上,针对不同客户类型提出相应的挽留对策,在完善产品和服务的基础上进一步保持客户资源,从而达到降低客户流失率,提高企业整体竞争力的目的。
31、从本文的研究中可以发现,数据准备工作在模型建立的流程中占有很大的比重,是模型建立的前提和重点,数据挖掘工具作用的发挥要依赖于商业数据采集的准确性与完整性。而本文所用到的用户自然属性中,存在着客户性别、年龄等多个字段值的缺失,从而影响到模型的准确性。另外,在对潜在流失客户进行挽留的时候,也不能盲目采用价格措施,因为过度的价格策略往往会让客户觉得运营商的利润空间很大,从而更排斥该家运营商。所以运营商应该首先做好自己的服务,努力提升质量,同时做好品牌形象和客户服务, 这样才能够长远地吸引更多的高价值客户,从而提升企业的价值。结束语在越来越多的行业中都面临着客户流失的问题,只有不断在数据挖掘的过程中进
32、行知识学习, 才能够降低客户流失率、提高市场竞争力。可以更多结合神经网络分类、聚类分析以及在以后的学习中发现其他方法,加以改进,从而更好地解决客户流失这一重要的问题。参考文献【1】丁红,陈京民 基于数据挖掘的电信业客户流失分析 河海大学商学院,1672 - 1616( 2009) 07 - 0019 05【2】朱世武,崔嵬,谢邦昌 移动电话客户流失数据挖掘清华大学经济管理学院 24 卷 1 期 2005 年 1 月【3】刘青儒, GSM 数字行动电话的现况与展望 J . 新电子期刊, 页 101- 108, 1997.【4】柳林纬, 浅谈行动电话盗打之现况与因应对策 J . 台湾通讯杂志, 页 128- 132, 1999.【5】PSS. CRISP - DM: Step - by - step data mining guide EB/OL . http :/ / www. crisp - dm. org/ CRISP - 0800. pdf ,2000 -08 15【6】Pyle, D. Data Preparation for Data M ining, ! M . San Francisco: Mor gan Kaufmann, 1999.