收藏 分享(赏)

电信中的数据挖掘.pps

上传人:无敌 文档编号:83571 上传时间:2018-03-11 格式:PPS 页数:67 大小:283.52KB
下载 相关 举报
电信中的数据挖掘.pps_第1页
第1页 / 共67页
电信中的数据挖掘.pps_第2页
第2页 / 共67页
电信中的数据挖掘.pps_第3页
第3页 / 共67页
电信中的数据挖掘.pps_第4页
第4页 / 共67页
电信中的数据挖掘.pps_第5页
第5页 / 共67页
点击查看更多>>
资源描述

1、2018/3/11,数据挖掘与知识管理 宋华,1,数据挖掘与知识管理,电信企业中的数据挖掘,2018/3/11,数据挖掘与知识管理 宋华,2,内 容:,电信企业数据仓库的设计电信企业数据仓库的实现数据挖掘的具体应用,2018/3/11,数据挖掘与知识管理 宋华,3,一、电信领域数据仓库的设计,(1)确定数据仓库的主题(目标) 根据电信业务和电信运营的需求,电信公司涉及的最主要的三个主题是: 客户(发展) 收益 呼叫特性分析(行为),2018/3/11,数据挖掘与知识管理 宋华,4,客户发展 主要是对客户群体进行分类后,从不同的角度展现电信公司提供服务的客户数量情况。划分的角度可以按照客户本身的

2、自然属性,例如客户本身的自然属性,例如客户性别、年龄、客户入网的时间、客户的类型(公费、私人等)、客户受教育的程度等。,一、电信领域数据仓库的设计,2018/3/11,数据挖掘与知识管理 宋华,5,收益分析 收益分析主要是通过不同的角度对电信企业的收益情况进行分析。收益分析的角度可以按照客户的自然属性和扩展属性划分;也可以按照电信公司的业务运(品牌、交费方式)进行划分;还可以按照机构设置、地理角度对收益进行划分。,一、电信领域数据仓库的设计,2018/3/11,数据挖掘与知识管理 宋华,6,呼叫特性分析 呼叫特性分析即分析不同类型客户在呼叫上所具有的特性,特性可能包括下列衡量指标:,一、电信领

3、域数据仓库的设计,2018/3/11,数据挖掘与知识管理 宋华,7,按照呼叫时间划分为:长呼叫、中呼叫和短呼叫按照呼叫类型可划分为:本地通话、长途通话、漫游通话。(其中长途又可以划分成国际长途、国内长途;漫游通话可划分成省内、省际、国内漫游等等)按照呼叫金额可以划分为:高额呼叫和非高额呼叫按照呼叫所在地区域考察呼叫的热点区域,一、电信领域数据仓库的设计,2018/3/11,数据挖掘与知识管理 宋华,8,(2)数据仓库模型的设计可用的数据(信息来源) 例如,要完成客户发展、收益分析、呼叫特性分析三个主题,下列三部分信息是必要的,即: 客户的基本信息表 客户的账单信息表 客户的呼叫信息表,一、电信

4、领域数据仓库的设计,2018/3/11,数据挖掘与知识管理 宋华,9,客户基本信息表的常见字段,2018/3/11,数据挖掘与知识管理 宋华,10,客户帐单信息表的常见字段,2018/3/11,数据挖掘与知识管理 宋华,11,呼叫信息表的常见字段,2018/3/11,数据挖掘与知识管理 宋华,12,一、电信领域数据仓库的设计,(2)数据仓库模型的设计粒度的确定(逻辑结构) 在数据仓库设计中,最重要的步骤是确定数据的粒度。 单一粒度 对于客户基本信息表,由于它属于增长较为缓慢的信息(随着客户数量的增长,客户业务信息的变更表会增长),可以使用单一的数据粒度。,2018/3/11,数据挖掘与知识管理

5、 宋华,13,(2)数据仓库模型的设计粒度的确定,如果客户数量很大,每个月生成一张客户信息表将浪费大量的空间,因为只有客户信息变化了或者新增加了客户,才需要修改原先的客户信息表。增加一个“当前标志”字段,用于表示客户的当前信息,并选择“数据变更日期”作为时间字段。,2018/3/11,数据挖掘与知识管理 宋华,14,使用单一粒度的客户基本信息表,2018/3/11,数据挖掘与知识管理 宋华,15,数据仓库模型的设计粒度的确定,对于客户的账务信息表,每个月一个客户号码只在账务信息中对应一条记录,因此数据本身就带有一定的综合性,可以采用单一的数据粒度。,2018/3/11,数据挖掘与知识管理 宋华

6、,16,使用单一粒度的客户帐务信息表,2018/3/11,数据挖掘与知识管理 宋华,17,数据仓库模型的设计粒度的确定,双重粒度 呼叫计费数据是电信公司中数据量最大的部分,对于一个客户的一次通话(无论是主叫还是被叫,因为一次通话实际上将生成主叫、被叫两条记录),在呼叫表中都将出现一个通话记录,因此对于一个大型电信公司,其呼叫计费数据的数据量非常大,所以采用双重粒度来记载呼叫计费数据。 对于近34个月的细节呼叫计费数据,保留在数据仓库中,并定期聚合成按月综合的数据,然后将细节数据导出,另外保存,为新的细节数据腾出足够的空间。,2018/3/11,数据挖掘与知识管理 宋华,18,按月综合的数据,最

7、近3个月的细节数据,3个月之前的细节数据,其它空间,使用双重粒度的呼叫信息,2018/3/11,数据挖掘与知识管理 宋华,19,一、电信领域数据仓库的设计,(2)数据仓库模型的设计 OLAP模型的设计(逻辑结构)针对每一个主题确定其需要的维度和度量变量然后为每一个主题定义关系模式,从而形成一个星型结构,在这个星型结构的基础上,可以生成多维数据表,建立多维数据库。 以客户信息主题为例,客户信息主题的维度设计书如下:,2018/3/11,数据挖掘与知识管理 宋华,20,客户信息主题的维度设计书,2018/3/11,数据挖掘与知识管理 宋华,21,客户基本信息的星型结构图,客户信息事实表,2018/

8、3/11,数据挖掘与知识管理 宋华,22,一、电信领域数据仓库的设计,(2)数据仓库模型的设计 ETL过程(实施) 数据提取转换加载随着应用和系统环境的不同而具有不同的特点。一般而言,总包括下面的处理过程: a.预处理准备工作:包括清空工作区、检查过渡准备区。如果需要直接访问操作型数据源系统时,要检查远程数据库服务器状态,并核对目标区数据加载状态,以核算出加载作业的参数,如加载数据的时间间隔和范围(24小时的数据,还是前3天的数据)。,2018/3/11,数据挖掘与知识管理 宋华,23,一、电信领域数据仓库的设计,(2)数据仓库模型的设计 ETL过程 b.启动数据加载的批作业 c.因为维度表有

9、事实表所参照的主键,所以要先完成对维表的加载,生成维表主键,并作为以后加载事实表所需要的外键。在加载维表中,有时要处理好缓慢变化的维的问题,并可能涉及到版号的处理问题。,2018/3/11,数据挖掘与知识管理 宋华,24,一、电信领域数据仓库的设计,(2)数据仓库模型的设计 ETL过程 d. 加载事实表 这中间也涉及到键查找的问题,即从有关维表中找到相应的主键,并以此作事实表的外键。 e.事实表加载完成后,再对总计方阵体系进行刷新,以保障总计方阵与它的基础数据同步。 f.设计具有完善的出错处理机制和作业控制日志系统,用以监测和协调整个加载的过程。,2018/3/11,数据挖掘与知识管理 宋华,

10、25,二、电信领域数据仓库的实现,抽取数据到临时数据区 数据仓库的数据源不是来自终端客户每天输入的数据,而是主要来自企业的OLTP系统数据。,2018/3/11,数据挖掘与知识管理 宋华,26,抽取数据到临时数据区的好处,在将其数据加载到数据仓库前,需先将OLTP系统的数据抽取到一个临时数据区,并在临时数据区进行数据清理和校验工作,待数据正确无误后,再加载到数据仓库,以保证数据质量。这是采用临时数据区的一个好处。临时数据区事实上就是一个数据库,此数据库作为数据仓库的数据源,数据仓库直接从临时数据区加载数据,从而避开OLTP系统,这样就避免了OLTP系统和数据仓库系统之间处理上的冲突,避免了OL

11、TP系统因数据抽取而影响其响应时间的问题。这是采用临时数据区的另外一个好处。,2018/3/11,数据挖掘与知识管理 宋华,27,二、电信领域数据仓库的实现,加载数据到数据仓库的具体步骤 设定数据库和数据源 建立多维数据集 设计存储和处理多维数据集 为多维数据集创立分区,2018/3/11,数据挖掘与知识管理 宋华,28,二、电信领域数据仓库的实现,企业级数据仓库的实现途径从建造某个部门特定的数据集市开始,逐步扩充数据仓库所包含的主题和范围,最后形成一个能够完全反映企业全貌的企业级数据仓库;从一开始就从企业的整体来考虑数据仓库的主题和实施。,2018/3/11,数据挖掘与知识管理 宋华,29,

12、三、电信领域的具体应用,客户行为与潜在客户分析 用户信用度分析 黑名单、红名单 优惠策略 甄别欺诈 趋势预测,2018/3/11,数据挖掘与知识管理 宋华,30,目的 利用成熟的数据挖掘工具或算法,对用户帐务数据、行为数据、基本信息数据,以及各营业点的销售记录等进行分析挖掘,找出各种数据之间的潜在关系,为企业经营者制定销售策略提供科学依据。 数据源 用户帐务数据库、用户行为数据库(话单数据)、用户基本信息库等。,三、电信领域的具体应用,2018/3/11,数据挖掘与知识管理 宋华,31,用户行为分析,对于企业的某一类或几类产品/业务来说,大致可将其用户分为四类:(1)潜在用户 目前还不是公司任

13、何一项产品/业务的用户,但有使用该产品/业务的潜在趋势,这是市场竞争初期的重要营销对象。(2)增量用户 是公司某项产品或业务的使用者,并且有增加使用量的趋势。,2018/3/11,数据挖掘与知识管理 宋华,32,用户行为分析,(3)交叉增量用户 是企业某一产品/业务的使用者,并且有使用本公司另一类产品/业务的可能性。(4)挽留客户 目前是公司的某一类或几类产品/业务的使用者,但有终止使用或转向别的产品/业务提供者转移的可能性。,2018/3/11,数据挖掘与知识管理 宋华,33,用户行为分析,用户行为分析的基本思想 将用户的行为分为若干类别,对具有某一类行为特征的用户,分析其基本信息,以期找出

14、用户行为和客户基本特征两者之间的若干潜在关系。,2018/3/11,数据挖掘与知识管理 宋华,34,2018/3/11,数据挖掘与知识管理 宋华,35,实现步骤,第一步 采用聚类算法对用户行为进行分类,根据得到的类别模型与客户行为信息库对个客户行为进行评分,结果写回客用户行为信息库。衡量用户行为的主要特征指标包括: 客户ID 时段 工作日性质-工作日和非工作日 消费金额 业务类型(重要指长话,市话等通话业务), 目的(重要指本地,长途,我网他网等信息),2018/3/11,数据挖掘与知识管理 宋华,36,实现步骤,第二步 统计分析各类别的行为特性,首先按照各行为类别的利润贡献大小对各类别进行排

15、序。 例如:类别利润计算公式 类别平均利润=(各行为消费金额)/类别行为个数,2018/3/11,数据挖掘与知识管理 宋华,37,实现步骤,类别行为特性:按不同主题有多种考察重点,如某一种业务或业务组合在各类别行为中出现的百分比,各行为的时间段分布情况等。,2018/3/11,数据挖掘与知识管理 宋华,38,用户行为分析,主要包括两方面的分析:群体分析 利用聚类或分类算法,将企业客户根据某种规则分为若干群体。行为分析(又称倾向建模) 根据客户以前的消费行为,分析某几类有显著特征的行为模式,并据此对客户未来的行为进行预测。,2018/3/11,数据挖掘与知识管理 宋华,39,用户信用度分析,用户

16、信用度等级描述 详细描述用户信用度等级的具体含义。 信用等级分布表示 客户的利润、客户的基本信息和行为分类如时间段、业务类型等的分布表示。类似于客户行为分析。 信用度的相关分析 分析影响用户信用度的因素之间的概率依赖关系、强度及其可信度。这一方面用于预测客户信用度的发展趋势,当发生变化时,对其信用等级进行相应的调整。,2018/3/11,数据挖掘与知识管理 宋华,40,用户信用度分析,利用上述分析结果,给出从一个信用度等级到另一个信用度等级变化可能性大的客户。可能决策者主要关心从高等级到低等级(最低等级)和从低等级到最高等级可能性大的用户群。,2018/3/11,数据挖掘与知识管理 宋华,41

17、,用户信用度分析,根据影响用户信用度的主要因素,对用户的帐务数据进行分类,建立分类模型,并对用户进行评分,给出用户的信用度级别(类别)。 影响用户信用度的主要因素包括:(1)交费的及时度(2)用户的社会性质(3)用户的通话业务量(4)用户申请的业务数量(5)用户申请的业务种类和用户的投诉情况,2018/3/11,数据挖掘与知识管理 宋华,42,用户信用度分析,用户信用度分析的实现(注意不同时期) 系统初装时,没有用户的信用度级别信息,这时采用聚类算法,按照用户的帐务行为信息将其分为若干类。在此基础上,依照每类各指标的统计数据和一定的等级评定规则,将各类的信用度赋于高低级别; 在系统运转过程中,

18、用户(指本系统用户)可能会对用户已有信用度级别提出异议,或加以修改,这样,对做了相应级别修正后的用户数据,采用有监督的分类学习,就会得到更为准确的分类模型,而且这个模型也是不断在更新的。随着用户信用行为特征的变化,其信用级别也会不断变动。,2018/3/11,数据挖掘与知识管理 宋华,43,用户信用度分析,信用度类别分类依据的用户帐务信息数据包括: 欠费次数 金额(如本月欠费,则为欠费金额,此值为负,如本月不欠费,则为通话费用,此值非负) 欠费时长 帐务人社会性质,2018/3/11,数据挖掘与知识管理 宋华,44,步骤1 用户信用度初始化,2018/3/11,数据挖掘与知识管理 宋华,45,

19、数据抽样,抽样的原则 样本尽量具有代表性,且数据量能保证学习耗时不是太多。 例如,可采用一个随机数产生器随机产生要抽取的样本。,2018/3/11,数据挖掘与知识管理 宋华,46,数据抽样,2018/3/11,数据挖掘与知识管理 宋华,47,步骤2 信用度模型更新,2018/3/11,数据挖掘与知识管理 宋华,48,步骤3 用户信用度级别更新,2018/3/11,数据挖掘与知识管理 宋华,49,步骤4 新开用户信用度设定,用户的信用度级别设定是由用户的帐务信息决定的,而新开用户没有任何帐务记录,故根据已有的信用度模型没法设置其信用度。考虑到有不同帐务行为的用户有不同的基本信息,即某种信用等级的

20、用户具有相似的基本信息,我们可以分析新开户的基本信息,与各个信用等级的用户基本信息做比较,以确定他属于哪个信用级别,分为以下两步:(1)分类模型确定 (2)新开户信用等级评定,2018/3/11,数据挖掘与知识管理 宋华,50,步骤4 新开用户信用度设定,2018/3/11,数据挖掘与知识管理 宋华,51,黑名单、红名单,黑名单与红名单管理是在信用度管理的基础上,按照一定的规则,将信用度较高或较低的某些用户列入红名单或黑名单。根据信用度的评定规则可知,红名单中用户交费及时,消费量大,是电信部门保证利润的最重要客源,也是最应该保持的一部分客户;而黑名单上的用户则是对电信部门利润增长贡献较小或最有

21、可能有欺诈行为倾向的用户。黑名单与红名单是优惠策略管理和反欺诈管理的重要依据,并且也是电信部门较为关心的重要信息。,2018/3/11,数据挖掘与知识管理 宋华,52,优惠策略分析,优惠策略(包括营销优惠策略和话费优惠策略)主要完成:(1)定义优惠规则和优惠方式;(2)用户优惠规则参数化处理;(3)对已有优惠策略的性能分析;(4)优惠套餐的设置;(5)各种优惠和业务、以及其他信息分布关系的展示功能。,2018/3/11,数据挖掘与知识管理 宋华,53,优惠策略分析,优惠规则分为:时段优惠 用户可享受国家规定的时段优惠外,系统还应提供有各个公司制定的适用于本地的时段优惠措施总量优惠 对用户的业务

22、量达到一定的程度后,给予不同的优惠措施。,2018/3/11,数据挖掘与知识管理 宋华,54,优惠策略分析,次数优惠 对用户的通话次数达到一定的数量后,给予不同的优惠措施。伙伴电话优惠 对用户的通话性质进行区分,对于呼叫某类或某部电话的用户,给予不同的优惠措施。,2018/3/11,数据挖掘与知识管理 宋华,55,优惠策略分析,优惠方式包括:基于客户性质类别的优惠基于呼叫地区类别的优惠基于营业地区类别的优惠基于信用等级的优惠综合的优惠套餐等,2018/3/11,数据挖掘与知识管理 宋华,56,优惠策略分析,优惠方式分析对于各种优惠方式(包括优惠套餐),给出其受益客户的类别、信用度类别分布、欺诈

23、情况和投诉类别分布等。例如,优惠策略的行为类别分布及其柱状图和饼状图等。新优惠套餐设置分析。给出新的优惠套餐的设置与客户群的分析及利润分析。,2018/3/11,数据挖掘与知识管理 宋华,57,优惠策略分析,优惠策略或优惠套餐潜在客户分析。优惠策略的性能分析。通过分析优惠策略和业务量和收入之间的关系,给出优惠策略的性能。,2018/3/11,数据挖掘与知识管理 宋华,58,甄别欺诈,当前恶意欠费客户给电信运营商造成了巨大的利润损失,如何减少欺诈行为带来的损失是每一家电信企业所必须面对的问题。在识别欺诈客户,降低经营风险方面数据挖掘已经不少有了成功的应用案例。,2018/3/11,数据挖掘与知识

24、管理 宋华,59,甄别欺诈,识别欺诈客户的主要途径:区分用户的信用度,通过建立用户信用打分模型把用户分成不同的信用度等级,给不同的等级确定不同的月高额限制,超出限额的认为是潜在恶意欠费客户。建立恶意欠费客户的消费识别模型,如果某一客户的消费模式吻合欺诈消费模式,则认为是潜在恶意欠费客户。,2018/3/11,数据挖掘与知识管理 宋华,60,甄别欺诈,类似优惠分析,建立在信用度管理的基础之上:分析防欺诈策略的相关变量:高额话费额度、欠费停机额度和用户具有不同的欠费停机额度等。指定防欺诈策略分析信用度、客户的满意程度、高额花费警告额度和停机额度之间的关系。根据分析结果调整用户的基本信息。分析信用度

25、、客户的满意程度和用户催缴周期、催缴频度之间的关系。,2018/3/11,数据挖掘与知识管理 宋华,61,预测(业务预测),预测主要指业务预测,是针对电信量发展的短期预测。它建立在对大量数据(业务资料数据、社会基础资料数据、市场调查资料、其他运营者资料数据)统计分析的基础上,通过模型运算、统计分析等数据处理手段,完成对电信业务的业务发展、用户需求数量、用户分布、市场占有率等几方面的预测分析。,2018/3/11,数据挖掘与知识管理 宋华,62,信用度分析及客户行为分析是其他各种应用的基础!,2018/3/11,数据挖掘与知识管理 宋华,63,数据挖掘的认识误区,u 挖掘出的结果都是正确的 数据

26、挖掘得出的结果一般都是经验性的,它并不是一条经过严格数学证明的定理(事实上数据挖掘得出的规则绝大多数不可证明)。例如数据挖掘号称能通过历史数据的分析来预测客户的行为,而事实上客户自己可能都不明确自己下一步要作什么。挖掘算法并不保证结果的完全正确,挖掘出的结果只具有概率上的意义,只具有参考价值。,2018/3/11,数据挖掘与知识管理 宋华,64,数据挖掘的认识误区,u 挖掘获得的模型可普遍适用 数据挖掘仅仅根据它所处理的数据得出结果,结果的适用范围受限于数据的选择。我们不能保证一个在美国运行得非常成功的银行信用卡客户信用评级模型在中国也同样可信;当然我们也不能保证一个零售业的客户利润分析模型同

27、时适用于电信行业。,2018/3/11,数据挖掘与知识管理 宋华,65,数据挖掘的认识误区,u 数据挖掘可以完全自动化 当然数据挖掘可以做到完全的自动化,但是,挖掘结果对商业目标的价值不是挖掘算法所能判断的,用户需要在他们能理解的背景环境中,观察挖掘输出的结果并与之交互。很多时候一个挖掘目标的完成需要多次叠代的挖掘过程才能完成。在一定的意义上,一个半自动的数据挖掘环境可能是更好的。,2018/3/11,数据挖掘与知识管理 宋华,66,数据挖掘的认识误区,数据挖掘是一个工具,而不是魔杖。它不会坐在数据库上一直监视着数据库,然后当发现有意义的模型时给管理者发一封电子邮件。它仍然需要了解用户的业务,理解用户的数据,弄清分析方法。数据挖掘只是帮助专业人士更深入、更容易的分析数据。而无法告知某个模型对企业的实际价值。而且数据挖掘中得到的模型必须在现实生活中进行验证。,2018/3/11,数据挖掘与知识管理 宋华,67,Do you have made a progress today ?,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报