1、 河北工业大学硕士学位论文基于数据挖掘的电信客户流失分析研究姓名:李茹申请学位级别:硕士专业:计算机应用技术指导教师:沈西挺20091101河北工业大学硕士学位论文基于数据挖掘的电信客户流失分析研究摘 要文章主要研究了基于数据挖掘算法在电信行业中的客户流失问题。如何更准确的利用海量数据通过挖掘算法建立客户流失预测模型是该课题的关键。即根据流失客户和非流失的客户性质和消费行为,通过数据挖掘技术在海量的历史数据中实施挖掘分析,搭建客户流失预测模型,分析出哪些用户的流失概率最大,并根据流失客户的消费行为及客户流失的其他相关因素,给市场营销提供决策支持。文章采用理论研究和实证研究相结合的方法,以某移动
2、分公司的客户数据为基础,构建了基于决策树和神经网络的D-N混合模型。详细阐述了包括属性、数据的准备、模型的构建以及模型的评价和应用的整个过程。文章采用数值化指标和图形化指标对模型进行评估,使评估更加客观,研究结果表明混合模型在预测精度和命中率方面都有所改善,从整体性能来看也要优于该公司现有的客户流失分析方法。文章利用D-N混合模型的结果,在分析该移动分公司在网用户未来一个月的流失概率的基础上,探讨了流失概率高的客户月消费额、在网时长、性别、通话次数等属性,总结了客户流失的原因,并提出了相应的客户挽留措施。最后,对所做的主要研究工作进行了总结,并针对以后的研究内容提出了方向和思路。关键词:客户流
3、失,数据挖掘,决策树,神经网络i基于数据挖掘的电信客户流失分析研究THE ANALYSIS AND STUDY OF CUSTOMER CHURNBASED ON DATA MINING TECHNOLOGY IN THETELECOMMUNICATION INDUSTRYABSTRACTMajor research in this paper is the problem of customer churn based on data miningtechnology in the telecommunication industry. The key issue is how to mak
4、e good use of a largenumber of data through data mining technology to build customer churn model. Namely,according to the consumption behaviors and natures of customers who are lost or not lost,through data mining technology to analyse, and build the customer churn prediction model. Ananalysis of cu
5、stomers who have the greatest probability to lose, and according to the loss ofcustomer behaviors and other related factors, to provide decision support for market.In this paper, a theoretical research and empirical study method is used. Based on a mobilebranchs customer data, this paper builds D-N
6、hybrid model, including a detailed explanation ofthe whole process such as attributes choosing, data preparation, construction of the model andmodel evaluation and application. In this paper,a more reasonable evaluation method-numericalindicators and the graphic indicators are used to evaluate the r
7、esult of the model. The resultindicates that the hybird model has better accuracy and hit rates. Meanwhile, the D-N modelpresents better results than the existing method used by this company at home.Then using theresults of the D-N model, this paper analyses the probability of the mobile branchs cus
8、tomerchurn in the next month, and the churning customers characteristics, such as average fee,length of service, gender, the number of calls and so on, and sum up the reason for the loss ofcustomers, and give the corresponding measures to retain customers.Finally, in this article I summarizes the re
9、search work, and proposed the content of thefuture research direction and ideas.KEY WORDS: customer churn, data mining, decision tree, neural netii原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由
10、本人承担。学位论文作者签名: 日期:关于学位论文版权使用授权的说明本人完全了解河北工业大学关于收集、保存、使用学位论文的规定。同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。(保密的学位论文在解密后适用本授权说明)学位论文作者签名: 日期:日期:导 师 签 名:河北工业大学硕士学位论文第一章绪
11、论对一个企业而言,既想要在市场的竞争中处于高姿态又想要不断提升企业的营业利润,最先要解决的问题就是要保证自身具备一套良好的营销策略以及科学的经营理念。针对这个问题我们可以从不同的角度加以分析,首先要掌握市场的第一手资料,不断提升对市场分析与自我调整的步伐与敏捷度;另外我们都知道在这个信息大爆炸的时代,信息数据比以往的任何时候都更具意义和价值,因此妥善管理企业内部数据并将其有效地转换成有意义有价值的信息也是非常关键的;再有要不断跟进企业自身的建设,更好地完善业务需求与业务流程,有效地促进企业在市场中的占有率及商业进程;最后我们要不断开展客户调研工作,拉近与客户间的距离,明确客户需求。然后随着科技
12、的发展和人类对信息产业的追求,如何在如云的数据中有效地挖掘出对人们有用的信息早已成为人们关注的焦点。然而数据挖掘作为一项能够很好地支持整个决策流程的详细信息架构,给人们带来了更大的喜悦,它可以很好地满足企业对这方面的需求。 1-1课题 的研究背景及意义 随着电信深度重组、3G拍照的 发放,各运营商进入全业务竞争时期,运营商之间的竞争日趋激烈,这一趋势在国内移动通信业中表现得尤为突出。中电信利用 C 网和丰富的信息化应用,向中移动高端用户以及集团用户业务发起大规模挑战;中联通提出统一的“WO”品牌战略,也向中移动的用户市场发起进攻,中移动也针对自己的短板,提出了动力 100的集团信息化品牌战略,
13、应对新电信以及新联通的竞争。如何继续保持收入持续增长、迎接未来多样化竞争都成为摆在各运营商面前的难题。 运营商在应对竞争上,往往采用话费促销、存赠费打折等用成本换市场的竞争手段,同时扩大广告宣传投入。运营商在广告宣传方面,从 G3 到天翼到之后的 WO ,运营商铺天盖地的广告构成了经济危机中最亮丽的一道风景线,挽救了电视、挽救了报纸、挽救了中国的传统媒体与广告产业。然而这些措施往往也存在一些弊端。首先,低价格的市场行为和主题不明确的广告是最有可能被竞争对手效仿的。与此同时,所谓的“价格战”过分的提高了消费预期,并且通过这种方式吸引入网的用户,忠诚度普通偏低,这部分用户流失的风险也随之提高,造成
14、企业成本的浪费。有关数据表明,发展一位新用户的所需花费的成本是挽留一位老用户所需花费成本的大约 4-5倍。因此,如何科学而合理地制定有效的经营方案和服务策略,最大程度地降低用户的流失率,尤其是优质用户和各类大用户,变得尤为突出。所以预测用户在未来期间的流失趋势和流失原因并有针对性地提供相应的服务和挽留措施,已经成为降低企业用户离网率的重点1。面对大规模的数据量,想要对数据进行科学的分析并且预测出潜在的离网用户,还要对流失的趋势进行合理的判断,对市场的营销政策进行支撑,制定出有效的挽留政策和用户关怀服务,更加科学和更加合理地分析和预测出用户在未来时期内的流失趋势、流失用户所具备的特征以及如何更加
15、有效并有针对性地对流失用户进行关怀服务以避免用户流失所造成的损失,传统的人工分析或者通过经验判断已经1基于数据挖掘的电信客户流失分析研究不能满足在海量数据下的分析,因此我们必须找到一种高效的数据挖掘方法以及更有力的手段。运营商要想提高企业内部用户的保有和实现企业利润的最大化,就一定要采用先进的数据挖掘技术并加以分析研究,以提高对用户行为的预测能力从而更大的获取企业利润。课题的研究主题就是以此为背景展开的。文章以某移动公司的实际需求为背景,采用挖掘算法进行合理分析,结合 3G拍照发放后激烈的市场竞争环境,对大规模的用户数据进行分析,找出影响用户流失的潜在因素和规律,搭建潜在用户流失预测模型,对用
16、户离网做出预警并提供决策支持,在激烈竞争环境下给移动公司针对用户挽留工作提供解决方案。实践证明文章提出的预测模型最终也是合理有效的,取得了阶段性成果。潜在流失用户预测分析的基本原理为,通过建立数据模型,对在网用户的大量数据进行训练,对已经流失的用户的用户属性及消费行为进行分析,找出用户属性及消费行为与用户流失的相关点,发现流失用户的共同特征并建立数学模型,在这个数学模型上用新的数据进行验证,找出潜在的流失用户。通过这种方式,我们只要得到获取用户的基本信息以及消费信息,就可以分析出用户是否可能流失。通过数据支撑一线营销人员采取有针对性的措施。用户流失预警系统可以和移动 MAS进行整合,提前设置流
17、失阈值参数,如果可以流失度达到预警阈值,会自动通知相关营销主管。第一时间对市场情况作出反应,在激烈的市场竞争中赢得先机,防止用户流失的产生,降低用户离网率2。电信重组使通信市场出现一个崭新的竞争格局,在电信运营商市场出现三大全业务主导运营商,这些运营商都具有全业务的经营权,而且经济实力相当,在每个局部市场都具有三个运营商竞争,而在移动市场竞争更加激烈。另外 3G 拍照发放后,各运营商都投入了 3G 网络的基础建设,大规模的网络建设使各运营商的成本日渐紧张。粗旷式的营销方式已经不适应当前的竞争环境,我们的营销成本也对市场营销提出了更高的要求。无论在经营管理还是经营理念上,尤其是在客户挽留方面,我
18、们都需要进行更新,学习国外先进的经营理念或者求助于最新的科学技术。总之需要我们需要注重精细化的营销,之前也已经提到,发展一个新用户的成本大约是挽留用户成本的 4-5倍,由于挽留用户的低成本以及高效性,各运营商对用户挽留的重视达到了一个前所未有的高度,尤其是在移动公司这样的优势地位运营商。如何继续保持竞争优势,保留市场份额,关键就是要保持客户。如何应对竞争对手日渐成熟的营销方式,以及国家非对称管制的政策带来的压力,移动公司应积极采取适当的应对措施。市场竞争变得越来越激烈,运营商的 ARPU 值和利润空间都面临着巨大的挑战。用户需求也变得多样化、差异化,对电信业务、服务的要求日趋理性和严格,对电信
19、服务的整体质量也提出了更高要求,各个运营商都已认识到客户就是生命。随着 3G 时代的即将来临,运营商只有深入分析用户消费行为,精确识别、细分用户市场,针对不同层次用户进行服务营销,方能使得各方价值发挥到最大,实现共赢。站在移动运营商的视角来分析,企业要想获得良好的发展,就一定要加强用户流失的管理,做好用户挽留工作。通过对相关数据的分析,可以清楚地显示出3:(1) 客户忠实度降低 5%,企 业利润则降低大约 25%;(2) 为新客户推荐产品的成功概率大约为 15% 左右,然而为现有老客户推荐产品的成功概率则大约是 50%左右;(3) 根据计算若将每年的客户关系保持率加大约 5% 左右,则会使企业
20、的利润增加大约 85%;(4) 向新客户推销产品所需花销的费用是向现有老客户推 销所需花销费用的 5倍左右;(5) 若企业对本身所造成的服务过失加以高度关注,那么将近 70%的客户还会一如既往地与其保持2河北工业大学硕士学位论文合作关系;(6) 据统计来自现有老客户的推荐可使企业增加大约 60%的新客户资源;(7) 若仅仅一位客户对企业的服务产生不满,那么他会将他的不 满感受传递给其他 8-10 个人,但是倘若一位客户对企业的服务质量非常满意,他只会将他的满意感受传递给其他 2-3人,我们可以看到这其中的差异程度,因此企业的服务质量也是其长期生存的命脉之一;(8) 基于电信市场本身的特性,我们
21、可以得出:客户进入一个 电信运营商的时间越长,那么对该企业所产生的价值也就越高。通过以上数据的分析显示,客户是当前任何商业活动的重中之重,他直接关系到企业利润的高低,因此衡量一个企业成功与否的标准已经不再仅仅是企业的投资收益率和其所占有的市场份额,而是该企业的客户资产收益率、客户份额以及客户流失率等指标。可见,客户挽留,即忠诚客户的价值表现在企业利润的增加、企业成本的降低以及企业竞争力的提高等诸多方面。在保持老客户和增加新客户中,保持老客户则显示了更加突出的地位与重要性,可以毫不犹豫地说:保持就是发展。如何系统的进行用户挽留工作,减少用户流失,使企业的利润和效益最大化。我们通常采用数据挖掘技术
22、,也是未来的发展趋势。通过数据挖掘技术提炼出关键信息来指导我们的市场营销活动。在未来的社会环境下,信息和数据充斥着生活的各个角落,要想从纷杂的信息中快速的找到有用的数据,就要依靠先进的数据挖掘技术。因此,数据挖掘技术受到了国内各行各业的广泛的关注,成为当前计算机信息技术领域理论研究的热门和焦点。数据挖掘就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的挖掘过程。它在很多行业,诸如金融领域已经获得了很广泛的应用,有很多成功案例值得我们借鉴。在电信领域应用点也很多,主要包括用户关系管理,潜在流失用户预测,用户消费行为分析,欠费风险控制以及市场营销中目标用户精准定位等多个方面4,5。
23、在潜在用户流失预测中,根据聚类分析找出流失用户的共同属性和特征,如用户的入网时间、ARPU、 话费结构等等、通过用户属性的各个维度,找出关联点,进行数据建模,搭建流失用户预测模型。根据系统理论的挖掘算法计算出用户流失的概率,并通过该模型搭建的应用系统对全网用户进行监控,一旦发现健康度不够的潜在离网用户,就可以有针对性地实施挽留策略,降低其离网意愿,通过促销捆绑的手段稳定用户继续在网。这种方式使企业在发展新用户的同时,保持原来的老用户,降低了企业的成本,提高了企业的利润率6。然而问题的关键所在是当面对巨大的客户资料时,应如何才能从中抽取出有用的信息以用来判断客户流失的状况和趋势。在这里,数据挖掘
24、技术提供的数据探索能力发挥了充分的作用。课题即阐述了数据挖掘技术在客户流失预测分析中的应用过程。 1-2客 户流失问题的国内外研究现状 1-2-1客户流失国外研究现状在国外,像欧洲和北美,由于其电信市场已经成熟,电信运营商的经营理念与经营模式已经由传统的“技术驱动”演变成了“客户驱动”和“市场驱动”的运营模式。这在某种程度上大大推进了客户流失行为预测技术的发展。很多知名的电信企业通过数据挖掘技术为本企业大大提升了利润空间,在产品活动的生命周期中盯3基于数据挖掘的电信客户流失分析研究准客户,以明确不断变化的市场趋势并有效改善它在不同市场划分中的洞察力,大大提升了企业投资回报率。在客户流失分析中存
25、在很多成功的利用数据挖掘技术赢得企业大丰收的案例,尤其是在当今这个竞争极为激烈的移动通信市场领域,如美国的 BT 、AT j=0,1,2,; k=0,1,2,)。3-2-4关键技术指标经过查阅大量的文献资料和最新成果, BP算法首先给予 权值一个初始值,经过反复的调整获得稳定的权值。初始权值的选择,对神经网络学习结果的影响非常明显,即使对初始权值的微小改变,也会带来误差纪录的剧烈变化,改变为不平稳或下降趋势,甚至出现发散现象。研究表明,初始权值均相等时,它们在学习过程中将保持不变,无法使误差下降到最小。所以初始权值不能取一组完全相等的值。初始权值的范围也不能太大,否则会使神经网络无法训练或者受
26、到局部极小的困扰。一般初始权值为一16河北工业大学硕士学位论文组(-1,1) 之间的随机数。同 样 ,阀值的初始值也是一组(-1,1)之间的随机数。其次文章所采用的 BP网络隐含层的激活函数为 sigmoid函数,其定义为:f(x)=1/(1+ex) 。其中,x是输入值,f(x)是对应 x所产生的一个输出,sigmoid函数的输出在 0-1之间,当输入值接近 0时,输出对输入的细小变化比较敏感,当输入的绝对值增大时,输出对输入的敏感度也会随之减少。BP网络输 出层的激活函数选择线性激活函数,其定义为: f(x)=x。其中,x是来自隐含层的输入值,f(x)是对应 x所产生的一个输出,线性激活函数
27、可使网络输出任意值。我们都知道,神经网络的训练过程是迭代的过程,依赖与样例数据集中模式的复杂性,它可能会对数据进行几百次或者几千次的迭代。Clementine 采取以下四种情况作为终止条件,如图 3.2所示。图 3.2 模型训练停止条件Fig.3.2 Stop condition of model training(1)默认:当神经网络达到最优训练状态的时候,系统会自 动停止训练。(2)准确性:如果模型到达了选项中预先设置好的数值,则 系统会停止训练。但这种方法的最大弊端是有的时候无论如何训练也达不到预先设置的结果,会造成训练无法停止,陷入死循环状态之中。(3)周期:是指模型训练的周期,当达到
28、所设置的周期数时 ,系统会停止训练。(4)时间:训练时间达到所设置的数值,系统会停止训练。 3-3 D-N混合算法的设计通过查阅大量的文献资料,在预测电信客户流失问题方面,尚未发现采用神经网络和决策树两种算法结合的方法来构建预测流失模型的实例。通过对这两种算法的分析,并针对该课题的研究内容,这两种算法均较为适合,同时他们之间取长补短形成互补优势。因此文章将集成这两种算法,进而生成一种混合算法(D-N混合算法),对电信业客户流失预测问题进行分析研究,提供企业以决策支持。通过实证分析发现,利用神经网络模型产生的结果做为训练数据的一部分来搭建决策树模型所产生的预测效果没有利用决策树模型产生的结果作为
29、训练数据的一部分来搭建神经网络模型所产生的预测效果好。因此我们采用后者来建立混合模型。接下来我们就要分析数据集问题,如果将所有数据集都作为建模数据,而没有另外新数据来对所建模型进行验证,那么在某种程度上必然会造成预测结果的不稳定而且也会给结果评估工作带来很大的干扰。所以文章将数据集分割成训练集和测试集两部分,最大的优点是通过利用不同数据分别进行模型训17基于数据挖掘的电信客户流失分析研究练工作和模型评估工作,使所得结果的精确性和稳定性达到最优状态。因此,文章采用的 D-N混合算法的设计思想为:首先将整理好的原始数据集分割成两个数据子集,即训练集与测试集,其中训练集数据作为训练模型过程中使用的数
30、据,测试集数据作为对生产的模型进行评估过程中使用的数据。然后建立决策树模型,根据误分类成本的不同通过参数的调整,获得决策树最优模型并将其作为神经网络模型输入数据的一部分,在此基础上建立神经网络模型,即得到 D-N混合算法模型。18河北工业大学硕士学位论文第四章客户流失预测模型的搭建过程 4-1客 户流失预测模型的搭建原则用户对电信运营商以及某个具体品牌的选择,绝不会单纯的只从某一个方面去考虑,信息时代的脚步越来越快,人们对物品的选择也不会再仅凭价格这个方面来衡量了,用户到底会做出怎样地选择,受到了诸多方面的影响,这些方面主要包括个人方面的因素、运营商方面的因素以及一些特殊因素。其中,个人因素主
31、要包括,工资、个人的生活状况以及工作状况、亲朋好友的影响等等;运营商方面的因素主要包括,如价格、服务水平及质量、是否有特定的优惠促销活动、品牌的影响力等等;一些特殊因素主要包括,用户离开所在城市迁移到别的城市、用户的离世等等34-36。以上所提到的种种原因都会对用户的选择造成很大的影响。但是,我们都知道,大多数用户在对离开或继续使用该运营商提供的服务问题上还是表现出了比较理智的态度,他们通常都会依据种种客观因素再加上自己的主观想法对是否离网作出较为明智的选择,而且在用户真正选择离网前,他们的消费行为会表现出异常的现象,和之前的消费数据作对比我们会明显地发掘出其差别所在,因此通过对用户离网前数据
32、的分析我们是可以发现其规律的变化特征,这就使得我们可以通过分析客户的一些外部现象来推测用户在某个时期内是否有流失倾向的这个做法成为一种可能。但是,其中有一点我们需要特别明确一下:人是一种高级动物,而且人和人之间会存在很大的差异性,他们的某些想法和思想我们是不可能了解的,而且我们所做的用户流失预测工作与用户本身的行为和心理活动在很大程度上存在着本质的区别和差异性。其实我们还可以试图去想一下,对于某些用户而言,他们下一步打算做什么要做什么其实有的时候连他们自己都不清楚,他们可能会在一念之间做出了决定,哪怕这个决定到后来被认为是错误的。所以,我们在进行流失预测建模之前,要明确模型只能是在基于用户是理
33、性的而且不会凭借头脑中的随想做出决定这样的一个基本假设的前提下进行,我们会通过反复分析用户之前的历史消费行为,来对其未来可能的流失趋势作出预测,同时社会环境在某种角度也在积极地影响着用户本身的行为,所以对得出的评定结果我们也不可能保证是完全正确的。而且就我们所研究的内容而言,用户流失预测模型的搭建还必须根据当地的消费状况和实际的经济水平等等相关因素做为基础,城市和城市、地区和地区之间是存在很大的差异的,这些差异势必会影响模型在实际中的应用效果。举一个很简单的例子来说明一下,我们通过利用天津用户的消费数据所搭建的预测模型,在天津本地应用的时候会得到一个满意的效果,但是将这个模型应用于上海或者江苏
34、等地的时候,得出的效果在很大程度上会令你失望,因为对于解决一个实际应用中的问题,我们通常会具体问题具体分析,根据地区本身的真实数据分析出的模型才能得到一个令我们满意的结果。因此在分析电信业客户流失预测的问题上,我们必须要以当地经济和消费水平的具体情况进行具体分析,并对所建立的模型采用当地的数据加以分析验证。19基于数据挖掘的电信客户流失分析研究 4-2客 户流失预测模型的搭建过程经过对大量文献资料的阅读、分析和研究,文章提出的模型结构如图 4.1所示:原始数据数据预处理、分割训练数据 测试数据混合模型决策树算法混合模型神经网络算法 结果评估结果评估图 4.1客户流失预测 D-N混合模型Fig.
35、4.1 Mixed model of D-N about customer churn prediction下面对 D-N 混合模型的各主要模块分别进行详细的说明。(1) 第一个模块为原始数据的提取,确定电信客户流失分析所需的属性,并且在海量的原始数据中抽取出用于预测分析的数据。(2) 第二个模块为数据的预处理以及分割。下面对这一模 块进行逐一说明。首先数据的预处理它主要包括数据清理、数据集成和变换等等。我们之所以对数据进行预处理的操作,主要是因为在原始数据中,存在大量缺失的、含有噪音的数据,我们在将数据用于建模之前,必须将这些脏数据进行处理。在20河北工业大学硕士学位论文数据预处理过程中,数
36、据清理,主要是对缺失数据以及噪声数据的处理,通常包括对不完整数据进行填充,以及平滑带有噪声的数据。数据集成,主要是指从不同的数据源中尽可能多地获取大量数据。数据转换,主要目的是为了将这些来自不同数据源的数据转换成挖掘过程所需要的数据形式。其次数据分割主要是将海量的数据按照一定的规则进行划分,主要将其分成两个子集,分别是训练集和测试集。通过训练集中的数据训练模型,通过测试集中的数据检验模型,主要目的是验证模型的稳定性。(3) 第三个模块为 D-N混合模型的搭建,这一模块是整个建模过程中最主要最核心的部分,在这一部分中,我们主要是先通过搭建决策树训练模型,并寻找到最优的一个,之后将其结果作为输入数
37、据的一部分来训练神经网络模型,这样做的目的主要是为了更有效地提高模型的预测精度。(4) 第四个模块为结果评估,它主要是为了对已建立的客 户离网预测模型产生的结果进行有效地评估,文章中为了使评估效果更直观更易懂,主要利用图形化以及数值化的评估方式。客户流失预测混合模型的具体实现过程将在下一章应用分析中详细阐述。 4-3为 流失预测混合模型的搭建选取挖掘工具的指标在当前,不管是在世界上的哪个地区,已经有许多科研机构或者是商业公司研发了各式各样的数据挖掘产品,它们各有各的特点,各有各的独到之处,而且产品的功能以及使用过程中的简易性也随着挖掘产品的不断成熟而不断提升。我们知道数据挖掘是一个过程,因此在
38、挖掘过程中,必须要将企业的实际需求与业务逻辑和所使用挖掘工具的以往经验和所提供的技术性能有效的结合起来,并在具体实践的过程中不断磨合不断完善,只有这样,才能取得飞跃性的成效。因此,我们在选取挖掘工具的时候,不仅要考虑它的可操作性、可理解性,还要结合实际应用全方位多角度的进行综合分析和考虑37。一般来讲主要包括以下几个指标。(1) 数据挖掘的功能和方法即是否可以完成各种数据挖掘的任务,如:关联分析、分类分析、序列分析、回归分析、聚类分析、自动预测等。我们知道数据挖掘的过程一般包括数据抽样、数据描述和预处理、数据变换、模型的搭建、模型评估和发布等,所以一个好的数据挖掘工具应该能够为每一个步骤提供相
39、应的功能集。数据挖掘工具应该能够方便的导出挖掘的模型,从而在以后的应用中使用该模型。(2) 数据挖掘工具的可伸缩性所谓可伸缩性,就是说解决复杂问题的能力,一个好的数据挖掘工具应该可以处理尽可能大的数据量,可以尽可能多的数据类型,可以尽可能高的提高处理的效率,尽可能使处理的结果有效。(3) 操作的简易性一个好的数据挖掘工具应该为用户提供友好的可视化操作界面和图形化报表工具,在进行数据挖掘的过程中应该尽可能提高自动化运行程度。总之是面向广大用户而不是熟练的专业人员。(4) 数据挖掘工具的可视化包括源数据的可视化、挖掘模型的可视化、挖掘过程的可视化、挖掘结果的可视化、可视化的程度、质量和交互的灵活性
40、都将严重影响到数据挖掘系统的使用和解释能力。毕竟人们接受外界信息的 80%21基于数据挖掘的电信客户流失分析研究是通过视觉获取的,自然数据挖掘工具的可视化能力就相当重要。(5) 数据挖掘工具的开放性即数据挖掘工具与数据库的结合能力。好的数据挖掘工具应该可以连接尽可能多的数据库管理系统和其他的数据资源;尽管数据挖掘并不要求一定要在数据库或数据仓库之上进行,但数据挖掘的数据采集、数据清洗、数据变化等等将耗费庞大的时间和资源,所以数据挖掘工具一定要与数据库紧密结合,减少数据转换的时间,充分利用整个的数据和数据仓库的处理能力,在数据仓库内直接进行数据挖掘,并且开发模型,测试模型,部署模型都要充分利用数
41、据仓库的处理能力,另外,多个数据挖掘工程可以同时进行。当然,在选择挖掘工具的时候,还要从企业的业务逻辑及实际状况出发,做到具体问题具体分析。综合以上指标,文章最终采用的挖掘工具为 SPSS/Clementine ,它是大多挖掘研究工作者以及商业市场分析者的首选挖掘系统。下面我们对 Clementine 工具最主要的几个优点进行简要说明。(1) 首先,在大部分挖掘工具中,它的操作界面是最直观 也是最美观的,其次,它简易的操作也受到了广大使用者的认可。(2) 其次,Clementine中提供了丰富的数据挖掘分析方法,同时还涵盖了大量的挖掘模型,如 C5.0决策树模型,逻辑回归模型以及神经网络模型等
42、等。在建模的过程中,只需要对相关参数进行合理的调整,就可以使所建立的模型达到最好的效果。(3) 所得结果美观直观,且易于管理和再利用。Clementine挖掘过程模型主要采用 CRISP-DM标准,如图 4.2所示。商业理解 数据理解数据准备数据模型发布建立模型模型评估图 4.2 CRISP-DM模型Fig.4.2 CRISP-DM model22河北工业大学硕士学位论文Clementine的可视化数据挖掘使得思路分析成 为可能,它强调的是解决的问题本身,而不是局限于完成一些技术性工作。它提供了多种图形化技术,有助于理解数据之间的关系,指导用户快速便捷地找到问题的最终解决办法。下面分别对所包含
43、模块进行简要说明。(1) 商业理解在挖掘过程中,这部分是最重要的一个环节了,它要求我们对所要挖掘的商业目标作出充分的调研和理解,要弄清楚用户需求,进而把这些理解转化为项目计划。(2) 数据理解这一阶段主要是将需求转化为对数据的理解,主要包括收集原始数据,描述数据,识别数据质量,对数据进行基本的观察。(3) 数据准备在明确数据来源之后,我们需要为数据挖掘准备数据。因此这个阶段涵盖了数据抽取、数据清洗和数据转换等等一些列数据处理工作。数据预处理任务很可能要执行多次,并且没有任何规定的顺序。(4) 建立模型在这一阶段,各种各样的建模方法将被加以选择和使用,其参数将被校准为最为理想的值。比较典型的是,
44、对于同一个数据挖掘的问题类型,可以有多种方法选择使用。但是,一些建模方法对数据的形式有具体的要求,因此,在这一阶段,重新回到数据准备阶段执行某些任务有时是非常必要的。(5) 模型评估在我们已经建立了一个或多个高质量的模型后,需要评估数据挖掘的结果是否达到了预期的目的。在进行最终的模型部署之前,更加彻底的评估模型,回顾在构建模型过程中所执行的每一个步骤,是很重要的。(6) 模型发布这个阶段集中于将模型结果融合到实际的商业问题中去,包括结果的部署和追踪等。得出一个方案并不意味着挖掘的结束,在挖掘过程中得出的信息和知识常常会触发一些新的问题,引发新一轮的挖掘。 4-4章 节小结从该章节的分析中,我们
45、可以肯定数据挖掘应用开发的核心是数据挖掘模型的建立过程,模型搭建的好与坏能够很直接地影响到数据挖掘最终效果及应用该数据模型所产生的效益,用户流失的预测效果是我们最关注的问题,用户流失模型搭建的好与坏也直接影响到它的最终效果。该章节通过对某移动公司的实际情况调研,指出了实施模型搭建工作的原则,并详细地讨论了用户流失模型的搭建过程,同时针对文章所研究的具体问题及工具的选取指标选择出适合的挖掘工具。下一章将重点阐述流失模型的搭建过程及应用。23基于数据挖掘的电信客户流失分析研究第五章客户流失预测混合模型的应用及效果分析 5-1研究背景考察某地市级移动公司 08年 1-12月用户入网情况如图 5.1所
46、示。根据该地市公司经分平台统计,该公司 08年入网用户数 1992167名,销户用户数为 954854名,净增用户 1037313名,流失用户数与新增用户数的比例已经达到 47.93% ,流失用户 ARPU(一个 时间段内运营商从每个用户所得到的利润)值为 41.09。用户流失给公司带来的直接经济损失超过 RMB4.72亿元。移动用户流失的严峻性为企业的成长带来了很大的压力。根据该移动公司内控制度建设的要求,将历史上一年没有通话记录的用户进行清理,仍然可以看出该公司客户流失现象还是比较严重的。表 5.1 2008年用户入网及销户情况表Table 5.1 The table of custome
47、r access network and cancel account in 2008月份 入网数 销户数 净增数200801200802200803200804200805200806200807200808200809200810200811200812合计18043822403326977310754285886838189072676876115793135889884501148646526414832277581106022998295485496620133307192897-8251-50003156421040921332551882811532881919921879541
48、65633199216718391123017138456164234773521356511037313经过与市场分析人员的座谈交流,我了解到该移动公司目前使用的经分平台中存在用户维系挽留模块。通过客户维系挽留来自动完成特定的客户数据分析任务。所谓自动,是指操作人员只需将原始数据24河北工业大学硕士学位论文集导入系统,系统便按事先定好的类别对数据集自动分析,并产生结果。该移动公司通过直接将客户数据导入该系统,系统按照客户消费数据自动进行分类,具体分类规则如表 5.2所示。表 5.2用户分类规则表Table 5.2 Customer classification rules table用户类型
49、沉睡用户分类规则七天时间里没有发生通话行为钻石卡用户前一天晚上余额低于 50元金卡低于 40元,银卡低于 30元小额用户突降用户回归用户沉默用户用户在上月话费低于上上月的 40%用户在上上月沉默,而在上月非零出账用户在上上月非零出账,在上月零出账或不出账我们通过对该公司用户的分类规则进行分析,发现如果只是按照用户的消费金额进行相应的分类,每个大客户经理都需要对应一定数目的客户进行维系,因为影响用户消费额度变化的因素很多,有可能每天会处理很多沉默用户和小额用户的问题,但那些对公司有价值但流失概率高的客户该经分平台维系挽留模块的效果却不尽人意,即增加了客户经理的工作量,又使那些真正潜在流失的用户没有被及时发觉,造成潜在流失用户向真正流失用户的转变,让企业蒙受巨大的经济损失。仔细分析问题的原因,我们不难发现经分平台的用户维系系统没有对用户流失的原因进行多角度分析,只是简单的通过用户消费金额进行分类是远远不够的,完全不能满足在日益激烈的竞争环境下企业对潜在流失客户精准预测的需求,因此搭建更为合理更为高效的潜在用户流失预测模型势在必行。基于这样的原因,为了能够尽所能帮助该移动公司乃至整个移动通信行业能够更好地了解用户流失预测的整个过程,该课题提出了对用户数据进行深度挖掘的分析方法。通过该方法,我们能够得到更完善的预测结果来