1、 浙江大学硕士学位论文基于数据挖掘的移动客户虚假离网研究姓名:王潇雨申请学位级别:硕士专业:计算机应用技术指导教师:朱晓芸;杨枨20060301随 着移 动通信业 的 迅 速 发展,移 动运营商 之 问的 竞 争越 来 越 激烈,客 户 资 源 成 为 了企 业 竞 争的 焦点 。当 前各 运营商 都 面 临严重 的 客 户 流 失问题 。大 量 而 频 繁 的 客 户 流 失 给 企 业 造 成 了巨 大 的 损失 。同 时 通信市 场同 趋 饱和 ,成 功 挽 留 一 个 即 将 离网的 客 户 比重 新 发展一 个 客 户 节 约 大 量成 本 。在这 种 形势下,如何防止 客 户 流
2、失 、 实 施 客 户 保 持 工作,己 成 为运营商 关 注 的 焦点 之 一 。关 键字: 数据挖掘 、 决策 树 、 虚 假 离网、 客 户 流 失 、 移 动通信业基 十 数 姑挖 掘 的 移动 客户虚 假 离阚研究 痗 , , 瑆 琲 琭 , 全 球 移动 通信发 展 虽 然 只有短 短 年 的时 间 , 但它 已经创 造 了 人 类 历 史上在 移动 通信业 发 展 的初期, 每 年 新增的客户远 远 多于 流 失的客户。 但是随 着基 于 数据挖 掘 的移动 客户虚 假 离网研究意的客户则 会 将他 的满 意经 历 告 诉 人。图 本文 研 究的 意义和 方 法量电子化 数 据
3、为 其建设数 据 仓库奠定 了技 术基 础 。因此, 本文 主要采用数 据 挖掘来 进 行数 据 的 分 析 处理。流 失 、 区 分 真 正离 网用户的 重要性 和 迫切性 , 指 出研 究的 意义所 在 及主要研 究方幕 萃 谒旱 慕 突 目 假 离削研 究因此 , 本 文主 要 采用 数据挖掘来 进 行 数据的 分析 处理。 本 章 小 结基 于 数据挖 掘 的移动 客户虚 镁 离嗍讲究 世 纪 人类对 数据的存 储 已远 远 超过了 以往 任何 个时代, 当今 数据库 的 数据挖 掘 常用技术设 有 一 个数据库 和 一 组 具有 不 同 特征 的类 别 昙 ,该数据库 中的每一 个记
4、录 都被赋 予一 个类 别 的标 记,这 样 的数据库 称 为示 例 数据库 或 训练 集。 分 类 分析 就 是通 过 分 析 示 例 数据库 盗 芳 中的数据,为每个类 别 作 出准 确的描 述或建立 分 析 模 型 或 挖 掘 出分 类 规 则 ,然后利 用 这 个分 类 规 则 对其他 数据库 中的记录进行 分 类 。分 类 要解 决的问题 是为一 个事 件 或 对象 归类 。 在 使 用 上 ,既可以 用 词 模 型 分为 了 预测 作准 备 。 下 面 是 描述 型 挖 掘 技 术的一 些 示例。聚类分析 就 是 通 过 分析 数 据库 中 的记 录 数 据, 根 据一定的分类规则
5、 , 合理 地划 分 录 集 合, 确定每 个 记 录 所 在 类别 。 通 过 进 行 聚类分析 , 能 够有效地把 数 据划 分到 不同 的组 中 , 组 之 削的差 别 尽可 能 大, 组 内的差 别 尽可 能 小 。 与分类模 式不同 , 聚类分析 输入的是 一组 未 分类记 录 , 进 行 聚类前 并 不知 道 将 要划 分成几 个组 和 什 么 样的组 , 也不知 道 根据哪 几个 数据项 来定义 组 。关 联分析 , 即利 用 关 联规则 机型 数 据挖 掘 , 寻 找 数 据库 中 值 的相关 性 , 能 够支持 发 现同 一事 件中 不同 项 目 之 问的关 联规则 。 在
6、数 据挖 掘 研究领 域 , 对 于 关 联分析 的研究开展得比较 深 入, 人 们 提出 了 多 种 关 联规则 的挖 掘 算 法, 如 、 、 等 算 法。 其 中 最 熟 知 地关 联分析 类型 是 市场购 物 篮 分析 。 该情况 下 数 据记 录 是 顾客在 同 义 词事 务中 购 买 的物 品, 由于 该 技 术来源于 市场数 据地分析 , 因 此 称 这 些 物 品在 同 一个 购 物 篮 中 。 市场购 物 篮 分析 可 发 现不同 顾客所购 买 地物 品组 合, 通 过 相互 关 联 蛄 唇 , 可 以 总 结 出 哪 些 类型 的产 品是 在 一起购 买 的, 从 而 调整
7、 货 品摆放 位 置 , 方便 购 买 , 促 进 消费 。 关 联分析 不仅 限 于 市场购 物 篮 分析 , 如 果 将 市场购 物 篮 看 作是 一组 数 据记 录 , 那 么 在 任何 情况 下 只 要存 在大量数 据记 录 , 就 可 以 使用 该 技 术【 ”。出 现的频度 较 高”之 类的知 识 。 序列 关 联分析 描述 的问题 是 :在给定交易序列 数甚 于 数据挖 掘 的移动 客户虚 假 离网研究神 经 网络 的每个节 点 都可以 表 示 成预测 变量 的值 或 值 的组 合 。调整 节 点 间 连 数 据 挖 掘的基 本 步骤在 实 施 数 据 挖 掘之 前, 先 要制定
8、 采取什 么 样 的步骤, 每 一步都 做 什么 , 达 到怎么 样 的目标 是必要的。 有了好 的计划才 能 保证 数 据 挖 掘有条 不紊 地实 施 并且取得 成功 。 很 多 软 件 供 应 商 和 数 据 挖 掘顾 问公司 都 提 供 了一些 数 据 挖 掘过 程 模型 ,来知 道他 们 的用户 一步步地进 行 数 据 挖 掘工 作。 比如 的 一 评 估 、 访 治 、 行 动 远 约 癝 择变 量 、 选择汜 录 集合 ,对 变 量 进行转化 或 者 创 建 新 的变 量 。在 模型 初步建 立 后需要 对 模型 进行合 理的评估 ,如果 模型 和 实 际系统有 较大的误 差 ,则
9、 模型 需要 重新 修改,直 到模型 和 实 际系统比 较接 近 再 对 模型 进行解 释 ,并 作 为辅 助决策信 息定 义 商业 问 题建 立 数措挖 掘 库准 备建 模数据建 奇 模型简单 验 证变 义 验 证 基 数 据 挖 摭 的移动 客户 虚 假 离嘲研究决 策 树 、 神 经 刚 络 、 甚至传 统 的数 学 统 计 。 选 择什么 样 的模 型 决 定 了你 需 对 数 据做 哪 些预处理工 作 。 如 神 经 网 络 需 要 做 数 据 转 换 ,有 些数 据 挖 掘工 具 可能 对 输 入数 据 的格式 有 特 定 的限制等。 一 旦 所 有 的数 据 准备好之 后 ,就可
10、以 开始 训 练你 的模 型 了。 就目 前 的技术 发展 水平 而 言,数 理统 计 方 法还 是 数 据 挖 掘工 作 中最 常 用的主流技术 手 段。甚 于 数据挖 掘 的移动 客户虚 假 离蚪研究基 于 数姑挖 掘 的 移动 客户虚 假 离网研究据 仓库一 书 中 定 义了 数据 仓库的 概 念,随后 又 给 出了 更 为精 确 的 定 义:数据 仓经过 这 些 环节 ,可 以 完 成 将数据 从 源 数据 装 载到 数据 仓库中 的 过 程 。数据 集 市,根据 部 门的 需 要 ,可 以 从 数据 仓库中 形成 数据 集 市,以 满足部基 于 数据挖 掘 的移动 客户虚 假 离网研
11、究 本 章 小 结 移动 通信 行 业 选 择 数 据 挖掘技术 的 必 然甚 于 数据挖 掘 的移动 客户虚 假 离蝌酬究业的数据电 子 化程度 较 高 ,降 低 了 数据源 前期 整 理 的工 作量 。 因此,移动 通信 企 数据挖 掘 在国外 的应 用建立更 详细 的客户信 息 档 案,对 现 有客户提供 更 好 的服 务对 市 场 变 化做出 迅 速 地响 应 ,制 定 出 切 实 可行 地市 场 营销策 略减 少了 信 息 外 包 的费用向 销售 人 员 和营销活 动 提供 了 “最 佳 客户清 单 ” 獯 罄 :加 强了 客户交义 销 售 的机 会刘 客户的行 为 有 更 深的理解
12、 数 据挖 掘 在国 内 的应用数 据仓库在国 内 的移动 通 信 行 业 已经有 了司 ,己 经通 过 数 据仓库技 术 进 行 用户话 费欺 诈 行 为 分 析 的工 作。 联通 公 司 也 开 始展丌 了 某 些专 题的数 据挖 掘 应用,这些应用并未 建立在数 据仓库基 础 上 。真正 大 规 模 进 行 数 据仓库建设的移动 通 信 企 业 是 中 国 移动 ,其 从 世纪 年代 后 期 开 始 ,就在一 些省份 进 行 了 数 据仓库建设的试 点 工 作,并取得了 很 好 的成 绩 。 从 年丌 始 ,中 国 移动 开 始 准 备进 行 全国 范 围 内 的数 据仓库建设工 作,并
13、编 制 了 具体的指 导规 范 ,机 型全国 经营分 析 系 统的统一 建设工 作,并于 年底 完 成 。 移动 通 信 的应用领 域基 于 数据控 掘 的移动 客户虚 假 离嘲研究 本章 小 结浙讧 大学 颈 学 位沦 文 商业 理 解基 于 数据挖 捅 的移动 客户 虚 假 离网研究为 ,造成特 定 服 务 的目标 客户 消 失 。浙江 大学 预 卜 学 位 论史短 期 目 标;确定 虚 假 离 网 用户离 网 用 户 行 为 分 析系 统的 简 单 整 体 架构的 设 计 如 下 图所 示, 系 统可以 分分 析主 题 的 数据 集市 。基 于 数据挖 掘 贫 突榧 倮 氤 傲衒究图 畉 离 网用 户行 为 分 析系统 的 整体架构离 网用 户行 为 分 析系统 的 逻辑 架构 的 设 计 如 图 所 示 , 一共分 为 两 层 , 数商业 层基 十 数 据挖 掘 的移动 客户虚 假 离嘲科究虚 假 离网 分 析离网 预 警 分 析为 分 析 系统数 据管理数据抽取 习 用 户管理数据备份数据稽核 调 整数据持久层图 离网 用 户行为 分 析 系统 的逻辑架 构 网 络 结 构图 离网 用 户行为 分 析 系统 的网 络 结 构该 层 主要 由路 由器 构 成 , 其中 骨干 路 由器 连 接