收藏 分享(赏)

数据挖掘在移动通信决策支持系统中的应用.doc

上传人:dreamzhangning 文档编号:2972685 上传时间:2018-10-01 格式:DOC 页数:5 大小:63KB
下载 相关 举报
数据挖掘在移动通信决策支持系统中的应用.doc_第1页
第1页 / 共5页
数据挖掘在移动通信决策支持系统中的应用.doc_第2页
第2页 / 共5页
数据挖掘在移动通信决策支持系统中的应用.doc_第3页
第3页 / 共5页
数据挖掘在移动通信决策支持系统中的应用.doc_第4页
第4页 / 共5页
数据挖掘在移动通信决策支持系统中的应用.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、移动通信决策支持系统应用研究魏银珍摘要 本文首先介绍了移动通信决策支持系统 的构 成 和主要 技术, 并客户行为主题 中的客户欠费分析子主题为例 ,对移动行业的决策支持系统进行了研究,主要是实现客户流失的分析决策 。 今年 5 月 17 日,联通正式运营 3G 业务,至此,国内三大运营商都亮出了自己的 3G品牌,国内 3G “三足鼎立” 的时代正式到来。宣告中国全面进入 3G 时代。移动通信已经迅速地从单纯地提供市话和长话服务演变为提高综合电信服务,包括传真、寻呼、移动电话、因特网消息、图像、电子邮件、计算机和 Web 数据传输,以及其他数据通信服务。 3G 时代,是电信、计算机网络、因特网和

2、各种其他通信与计算机工具大融合时代。移动通信行业信息化进程也得到巨大发展 , 各种管理系统 、业务系统 、 计费系统等相继投入使用 ,积累了大量的业务数据 。然而这些数据在原有的业务系统中,无法提炼并升华为有用信息提供给决策者。决策支持系统正是充分利用现有数据资源 , 提高企业进行高效的业务分析和科学决策的有效手段。决策支持系统可以帮助理解行业行为、识别电信模式、捕捉盗用行为、更好地利用资源和提高服务质量。如帮助企业解决话费流失、客户服务、市场问题等。1. 决策支持系统()的主要概念决策支持系统面对的是企业的中高层领导,主要用于帮助企业的领导者进行事件决策和趋势分析的应用。决策支持系统正是针对

3、这一过程,引入数据仓库技术,采用主动式和被动式的决策分析方法,将领导者自身的宝贵经验和客观详实的数据经验有效地结合起来,确保领导者能正确、迅速、有利地做出决策。因此,决策支持系统实际是建立在数据仓库基础上的分析系统,涵盖了联机分析处理和数据挖掘两个领域,它应能至少完成如下分析决策目的:查询:实现预定义的查询(Pre-defined Query) ,有动态查询(Ashoc) 、联机事物处理(OLTP)的查询与决策支持(DSS)的查询。报表:产生各种关系数据表格(Table ) ,有复杂表格(静态) 、OLAP 表格(动态) ,报告(Report) ,执行信息系统(EIS)以及各种综合报表。可视化

4、 用易于理解的点线图(Plot) ,如直方图(Histogram ) 、饼图、网状图、交互式可视化(Interactive Visulastion) ,动态模拟(Dynamic Simulation) ,计算机动画技术(Computer Animation)表现复杂数据及其相互关系。统计 进行平均值(Average) 、最大值(Max) 、最小值( Mix) 、期望、方差、汇总(Collection) 、排序( Sort) 、限定(Limitation) 、选择(Select)等各种统计分析。挖掘 综合利用统计学方法、模式识别技术、聚类分析、神经网络、规则归纳等技术,对企业在经营过程中产生的大

5、量生产数据、管理数据和经营数据等进行组织、处理、分析、综合和解释,从中解释客观规律、事物的内在联系和预测发展趋势,形成企业技术决策与经营决策的依据。2.移动通信决策支持系统的构成一般数据仓库系统的体系结构可设计 3 个独立的数据层次:信息获取层、数据管理层和应用服务层。而考虑到油田生产数据信息的特点,本文提出的油田生产决策支持系统是由源数据层、数据获取层、数据管理层、数据分析层和数据展示层共 5 层构成的系统体系结构。如图 1 所示。数据源层主要存放着移动通信管理信息系统中日常积累的大量历史数据和在分析决策时需要用的外部数据。数据获取层从源数据层中抽取分析决策所必须的相关数据,然后将清理净化和

6、转换后的数据集成到移动通信数据仓库中。通过数据管理层对数据仓库中的数据和数据源进行存储和管理,根据不同的主题建立数据集市来减少数据处理量。针对不同主题的数据集市,数据分析层中进行在线分析处理与数据挖掘,实现数据的多层次的分析和挖掘。然后数据挖掘工具将数据仓库中挖掘的知识放入专家系统的知识库中,通过知识推理达到定性分析辅助决策。而模型库则实现多个模型的综合决策。最后数据展示层通过可视化的数据分析工具将分析结果通过图件或表格的形式提供给相关决策人员,辅助决策。内部移动通信数据 外部移动通信数据 远程移动通信数据数据抽取、转换、清理(ETL)客 户数据集市服 务数据集市通话地点数据集市移动通信数据仓

7、库元 数 据OLAP 工具DM 工具欠费行为分析 满意度分析客户信誉度评价模型库、知识库客户保持目标市场 客户挽留 营销渠道图 1 移动通信决策系统构成应用层数据分析层数据管理层数据获取层数据源3.决策支持系统涉及到主要技术(1)数据仓库移动通信 DS S 数据仓库的数据来自不同的系统,它们对数据的存储和管理可能采用不同的形式,同时数据可能存在缺失和不一致 ,因此必须对数据行处理 。数据仓库提供了丰富的工具来抽取、转、装载从各系统提取来的数据,从而保证仓库中数据的一致性及可靠性。另一方面,数据仓库根据不同的主题来组织和存储数据,如意消费行为为中心的数据仓库,是根据欠费分析的要求,对企业所有可能

8、和欠费相关的时间进行重新组合,同时,仓库中还存放不同粒度的数据,由原始的详细数据得到不同层次的轻度综合、高度综合数据,这一切都是为了让分析人员对欠费情况更全面地了解,更易于建模、分析、预测等。(2)在线分析和处理建立数据仓库的目的是为了对数据仓库中的数据进行灵活多样的查询分析。数据仓库中数据的组织方式为进行这种查询分析提供了可能,但是仅仅依靠数据仓库本身 并不能完成这种复杂的数据查询分析。为了对数据仓库中数据进行多角度、多视图的查询,方便地获得概括性的或详细的信息,需要采用在线分析处理技术,用于辅助决策。在进行在线分析处理技术过程中,使用基于维表和事实表的多维数据模型,通过对井组的多维数据进行

9、切片,切块、旋转、钻取等分析性处理,可以从多个角度、多 个侧面观察油田生产的各类数据(如通话时长、通话地点、客户等) ,从而更加深入地了解包含在数据中的信息。如图 3 所示。( 3) 数 据 挖 掘 数 据挖掘是从大量 数据中提取人们感兴趣 的 、 隐含 的 、 潜在有 用的信息 。 它 比 OLA P 更进一步,通 过对数据进 行聚类、关联分析、时间序列等探索,高度自动化地分析企业数据,从中挖掘潜 在模 式,使分析者得到启示。数据挖 掘技术是 DS S 中比较重要也是相 对独立的部 分。通常在实施 移动通信决策支持方案时,一般分两步走:第一步,实现数据仓库 和多维分析,构造决策支持 的基础,

10、实现分析应用;第二步,实现数据挖掘,发挥决策支持的特色。 有效构建高效的数据挖掘模型,是成功实施数据挖掘任 务的关键。主要建模方法包括:关联规则、决策树、粗糙集、统计分析、神经网络、支持向量机、聚类、贝叶斯预测等。而在实际建模过程中,需要结合具体问题对 多种建模方法进行综合比较和分析。因此,结合油田生产的实际情况,这里采用基于客户数据仓库的聚类分析算法来建立数据挖掘模型。在 n 维空间中应用聚类数据挖掘时,采用明考斯基距离:d(i,j)(xi1xj1qxi2 xj2 qxipxjpq)1/q其中 i(xi1,xi2,xip),j(xj1 ,xj2,xjp)是两个 p 维的数据对象,即数据库中有

11、 p 个字段的第 i 条记录与第 j 条记录。在聚类分析中,有的生产参数数据值根据聚类需要给予较大的权重。此时加权明考斯基距离计算公式为:d(i,j)(w1xi1xj1qw2 xi2xj2qwpxipxjpq)1/q其中的 wp 为对应的xipxjp 权重,其值在 0.1 之间,但是所有的权重之和应为 1。由于传统的聚类技术是无监督学习过程,因而易产生两种极端情况:一种情况是把数据库中的每一条记录看作一个类,这样当然达到了把记录分类的目的,但是却与 聚类技术是为了可以更清楚地理解数据库中的记录这个最终目的相违背。另一种极端情况是把所有的记录归入一个类,虽然实现了概括数据库内容的目的,但是不能

12、提供任何有用的信息。因此,这里采用分层聚类的方法实现,该技术的一个优点就是允许最终用户指定最后生成的类的数目。把分层聚类技术生成的目录结构建立成 树型结构,由此就可以决定合适的类的数目,既概括了数据库内容,同时又能提供有用的信息。并且这棵树的生成过程可以是从上到下分裂而成,也可以是从下往上 逐步合并而成。 由此,可获得油田客户通话决策系统的挖掘模型,如图 2 所示。图 2 移动通信决策支持挖掘模型4.移动通信客户流失分析决策本文选定某电信企业动感地带业务 3 个月的 80 0 0 条数据,首先运用 E T L 对数据进行抽取和规范化等处理, 然后在 C l e me n t i n e 平台上

13、运用 C 5 .0 分类算法, 预测出有流失倾向的客户和其流失特征,运用 K m e a n s 聚类算法总结归纳不同客户群的流失特征,最后针对不同客户的流失特征,制定挽留计划4 .1 数据预处理 数据预处理是对生产系统的数据进行数据清理、数据集成、数据变换,它是数据挖掘中花费时间 最长的过程,并需对行业领域知识有较深的理解。数据预处理可使用成熟 的 E T L 工具 , 如 P o w e r ma r t,也可使用开发工具定制开发预处理程序。 E T L 工具通常应用于企业数据仓库的建立,这两种方法实际上无太大区别,文章采用 C l e m e n t i n e 直接对数据进行抽取、 转

14、换、 装载。形成的客户属性表通常都会包含以下信息: 用户基本属性信息, 即人口统计学数据 ,如年龄 、性别等,以及其他数据 ,如在网时长、付款方式、套餐等;通话行为数据,即通话次数、通话计费、账单数据。 同 ETL 工具处理后,8000 条记录产生了 50 个字段。4.2 客户流失预测模型的建立通过关联度分析之后,文章选取了 13 个与客户流失有密切关系的字段作为预测的输入字段。他们分别是:年龄、在网时间、本地通话时间、拨打异地移动电话费、拨打本地移动电话费、短信息费、本地白天通话时间、本地夜晚通话时间、短信此时、国内话费、国际化肥、本地话费、用户状态。是用户流失预测模型中的目标字段,取值 1

15、 或者 0,1 代表离网,0 待变在网。其他字段作为预测字段,通过归纳分析他们的特征来预测用户是否离网。4.3 客户流失预测模型评估模型评估是对建立的客户离网预测模型进行评价并改进。对于离网模型的评估有多种指标,这里主要采用正确率指标,借助 Clementine 中的 Analysis 节点来对上述离网模型评估。预测正确率=正确预测个数/测试样本数 X100%。将在数据抽样阶段分离出的检验数据集输入该客户流失预测模型中,借助 Analysis 节点, 分析该模 型的准确率。 该 C 5. 0 模型得出的检验结果的正确率高达 9 9 -.3 1 , 具有很高的预测准确性。因此这里无需对该模型进行进一步的优化。 参考文献1 Jiawei HAN Micheline Kamber. Data Mining Concepts and Techniques,Second Edition.机械工业出版社。20062 黄佩佩.数据挖掘技术的通信业客户挽留系统研究现代电信科技 2007数据仓库 客户数据集市客户属性类 知识库通话属性抽取样本分层聚类规则提取综合评价 决策支持

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 专业基础教材

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报