1、第十章,数据挖掘及其在CRM中的应用,数据仓库技术(Data Warehousing), 数据仓库的产生1996年,中国 IT 界两大热门话题:互联网络 数据仓库 美国 FORTUNE 杂志 统计 2000 家 商务公司中, 90% 应用 DW,计算机应用初期,电子数据处理(EDP)执行信息系统(EIS)决策支持系统(DSS),数据仓库 探求,企业,办公室(OA) 开发环境财会部(AM) 数据结构 (全局数据)很难 一致人事部(PM) 系统结构,1 数据仓库与客户关系管理,早期的数据库主要支持联机事务处理决策支持对数据分析的需求传统数据库系统不适宜DSS事务处理和分析处理的性能特性不同数据集成
2、问题数据动态集成问题历史数据问题数据的综合问题操作繁简问题, 数据仓库 概念,权威定义 ,William Inmon 博士 90年代 初,给出: 数据仓库:通常是一个面向主题的、集成的、随时间变化的、但信息本身是相对稳定的数据集合,用于对管理决策过程的支持。, 数据仓库特性, 主题和面向主题 主题: 用户使用数据仓库进行决策时所关心的重要方面。 (如, 销售情况、利润情况、客户情况) 面向主题:数据仓库中的信息是按主题进行组织的,为按主题进行决策 的过程提供支持。,例子 : 一家 采用 “会员制”经营方式的商场 销售管理系统 按 业务建立了 采购管理系统 库存管理系统,数据结构:,销售管理系统
3、顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期)采购管理系统订 单(订单号,供应商号,总金额,日期)订单细则(订单号,商品号,类别,单价,数量)供 应 商(供应商号,供应商名,地址,电话)库存管理系统领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库 存(商品号,库房号,库存量,日期)库 房(库房号,仓库管理员,地点,库存商品描述),这种数据组织的特点:对相关部门的数据进行收集和处理,重点是“数据”和“处理” 数据按部门的组织结构和业务活动特点进行;数据是不断变化和反复更新的,所以,是动态的,要
4、求的是 处理的速度和即时性(只反映当时的情况);数据库中存储的表与部门中的业务报表基本上是对应的,所以, 直观,处理方便,易理解;数据库建立的本质:数据与处理分离(在程序中不分离) 因为:很多应用涉及同一数据项,而同一数据项分散在不同的 数据库中 造成数据的不一致性。 这样的数据处理方式称为“联机事务处理” OLTP 数据库的存储要求 冗余小 (各种范式) 速度快 (保留一定的冗余),按主题组织数据的数据结构:,商 品商品固有信息 (商品号, 商品名, 类别, 颜色, )商品采购信息 (商品号, 供应商号, 供应价, 供应日期, 供应量, )商品销售信息 (商品号, 顾客号, 售价,销售日期,
5、销售量,.)商品库存信息 (商品号,库房号,库存量,日期,) 供应商供应商固有信息(供应商号,供应信息,地址,电话,)供应商品信息(供应商号,商品号,供应价,供应日期,供应量,) 顾 客顾客固有信息(顾客号,顾客名,性别,年龄,文化程度,住址,电话,)顾客购物信息(顾客号,商品号,售价,购买日期,购买量,),按 主题进行数据组织: 企业关心的业务方向:客户,商品,供应商, 对上述分析对象,可围绕主题进行数据组织:,采购销售库存,商品,(一致)信息,便于 联机分析处理 OLAP, 数据仓库中的数据是集成的 OLTP 建表的数据在多个库中抽取 OLAP 要求数据的一致性 集成的(李强,李 强) 数
6、据仓库中的数据是不可更新的 OLTP 中的操作 存入、查询、修改、删除 OLAP 中的操作 存入、查询 (注意:两个 存入 的不同) 数据仓库中的数据是随时间变化的 OLTP 的存入 = 修改 OLAP 的存入 = 增加(数据保存 大约 510年), 数据仓库中的粒度,定义:粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,数据粒度越小,粒度级别越低;反之,数据综合程度越高,数据粒度越大,粒度级别越高。,数据粒度 是 详细程度 存储空间 的一个平衡,例: 回答问题 “张三在某时某地是否给李四打过电话?” “张三去年给李四打过几次电话?”,早期明细表,当前细节,轻度综合,高度综合, 多维数
7、据库,在 数据仓库的特性中隐含了一条特性 :数据是按多维方式组织的,DW 的数据 随时间变化的 数据有时间属性 表格也有时间性 或者说:时间是数据的一维,实 际 预 算,地 区,地 区,产品,产品,销售偏差 = 实际 预算, 多维数据库 报表 交叉报表,三维,商 品销 售时 间, 细化与概化处理,Roll UpDimension : Time,Drill DownDimension : location Member: San Jose,OLAP的分析方法 -钻取,按时间维向下钻取,按时间维向上钻取,60, 联机分析处理 (OLAP),OLAP 多维数据库60 年代, E. F. Codd 提
8、出 关系数据 模型 促进了 OLTP 的发展(4个阶段)1993年, Codd 将 这项技术 定义 为 OLAP 支持多维数据处理 OLAP = 多维数据处理,销 售 渠 道(零售、批发),销售额(万),时间(月),北京,多维报表处理 切块,切片,旋转 , 数据仓库设计, 概念模型设计 E-R 图 方法: 实体 主题 全局的 E-R 图 逻辑模型设计 逻辑模型 关系模型 逻辑模型: 描述了数据仓库的主题的逻辑关系 主题 维度 指标 物理模型设计 逻辑模型 在 数据仓库中的实现 主要考虑要素: I/O存取时间、空间利用率、维护代价 ,8. 数据库到数据仓库,在数据库应用的早期,计算机系统处理的是
9、传统手工业务自动化的问题。联机事务处理(OLTP)成为整个80年代直到90年代初数据库应用的主流。 当联机事务处理系统应用到一定阶段,单靠拥有联机事务处理系统已经不足以获得市场竞争的优势,于是出现了联机分析处理 。数据仓库是一个作为决策支持系统和联机分析应用数据源的结构化数据环境,它研究和解决的问题就是从数据库中获取信息。,OLTP vs OLAP,CRM的业务整合需要数据仓库 数据清洁与集中需要数据仓库 数据分析需要数据仓库,2 CRM中的数据仓库,2.1 CRM与数据仓库的关系,客户行为分析 重点客户发现 个性化服务 市场性能评估,2.2 数据仓库的作用,2.3 CRM数据仓库的系统结构,
10、数据挖掘 : 从大型数据库的数据中提取人们感兴趣的知识,这些知识是 隐含的、事先未知的潜在有用信息。 数据挖掘就是对数据库(数据仓库)中蕴涵的、未知的、非平凡的、有潜在应用价值的模式(规则)的提取。 例1: 美国加州 一超市连锁店 : 酒 和 尿布。,例2:股票分析,时间,2000.1,1999.1,1998.1,1997.1,例3: 地质学家 卫星发回数据和图片 探矿(数据挖掘完成), 定义,3 数据挖掘( Data Mining ), 概念区别,数据挖掘 (DM)知识发现 (KDD)联机分析 (OLAP),KDD DM (DM 侧重算法的研究) OLAP 验证性分析工具 DM 挖掘性分析工
11、具, DM 技术,人工智能(Artificial Intelligence, AI): 以自动机为手段,通过模拟人类宏观外显的思维行为,高效率地解决事实世界问题的科学与技术。,DM 利用了 AI 的一些技术 ,DM 的难度 AI 的技术难度(数据确定) AI 中,如 , 模式识别 步骤很多,很难(如,机器人), 人工神经网络(Artificial Neural),模拟人脑神经元结构,有三种神经网模型, 遗传算法 (Genetic Algorithms),模拟生物进化过程的算法,由 三个 基本算子组成, 决策树方法 (Decision Trees),利用信息论中的互信息 寻找数据库中的具有最大信
12、息量的属性字段 建立结点,DM 的分析方法 分为以下四种: 关联算法 (Associations) 序列模式分析(Sequential Patterns ) 分类分析 (Classifiers) 聚类分析 (Clastering),4. 关联算法 (Associations),确定:隐含在数据之间的关联关系前提:一组 Item 项 ,如, A,B,C,D,E, 一个记录集合, 怎样算是 关联关系 ? 关系: 72% 包含 Item A,B,C 的记录,同时,也包含了 Item D,E (这就是 Item A,B,C,D,E 之间的关系) 72% 可信度 用户 要输入 2 个参数:最小置信度 ,
13、最小支持度 满足最小置信度和最小支持度的模式称为兴趣度测量满足 兴趣度测量原语包括:简单性(simplicity);确定性(certainty,比如:可信度); 效用(utility,比如:支持度);新颖性(novelty)。,模式(pattern)用高级语言表示的表达一定逻辑含义的信息,这里通常指数据库中数据之间的逻辑关系。例如:在超市的商品销售数据库中,我们可以找到以下信息:男性顾客在购买婴儿尿布时也往往同时购买啤酒在购买面包和黄油的顾客中,大部分的人同时也买了牛奶置信度(confidence)知识在某一数据域上为真的量度。置信度涉及到许多因素,如数据的完整性、样本数据的大小、领域知识的支
14、持程度等。没有足够的确定性,模式不能成为知识。例如:模式在购买面包和黄油(X)的顾客中,大部分的人同时也买了牛奶(Y)的置信度为:,4.1 相关定义,支持度(Support)同时购买X和Y的客户人数占总客户数的百分比称的支持度。兴趣度(interestingness)在一定数据域上为真的知识被用户关注的程度。知识(discovered knowledge)满足用户支持度和置信度的模式。有效性(effectiveness)知识的发现过程必须能够有效地在计算机上实现。非平凡性(nontrivial)能够以确定的计算过程提取的模式称为平凡知识。平凡的知识(如根据数据库中的薪水字段求得职员的平均薪水)
15、不是数据挖掘的目标。在数据挖掘中,知识的发现过程都应具有某种不确定性和一定的自由度,也就是要发现不平凡的知识。,4.1 相关定义,关联规则用于表示OLTP数据库中诸多属性(项集)之间的关联程度。而关联规则挖掘( Association Rules Mining)则是利用数据库中的大量数据通过关联算法寻找属性间的相关性。例:(超级市场)在购买商品A的客户中有90%的人会同时购买商品B,则可用关联规则表示为:A B . 规则1我们讲数据挖掘的结果要满足一定的置信度和兴趣度要求,在这里,用户对规则感兴趣的程度我们用规则的支持度来表示。,4.2 关联算法,规则1: A B支持度(Support)同时购
16、买A和B的客户人数占总客户数的百分比称为规则1的支持度。Support(A B) = Probability(AB)置信度(Confidence)同时购买A和B的客户人数占购买A的客户人数的百分比称为规则1的置信度。Confidence(A B) = Probability(B/A) = Probability(A B) / Probability(A),D,购买A的顾客,购买B的顾客,同时购买A和B的顾客,如果不考虑关联规则的支持度和置信度,那么在事务数据库中存在无穷多的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。为了发现出有意义的关联规则,需要给定两个阈值:最小
17、支持度和最小置信度。关联规则挖掘的实质是在OLTP数据库中寻找满足用户给定的最小支持度和最小置信度的规则。,关联规则挖掘算法:The Apriori AlgorithmApriori算法的原理:项集(itemset):在数据库中出现的属性值的集合。频繁项集(frequent itemset):满足最小支持度要求的项集。关联规则一定是在满足用户的最小支持度要求的频繁项集中产生的,因此,关联规则挖掘也就是在数据库中寻找频繁项集的过程。在寻找频繁项集的过程中,我们遵循一条规则:每个频繁项集的任一子集必定也是一个频繁项集。,假设最小支持度和最小置信度的要求均为50%,OLTP数据库,最后找到的频繁项集
18、是:(A), (B), (C), (A, C),因此,在上述数据库中,我们能找到的关联规则只能是频繁项集(A,C)上的。规则1:A C(支持度50%,置信度66.6%)规则2:C A (支持度50%,置信度100%),假设最小支持度和最小置信度的要求均为50%(出现2次),数据库D,C1,L1,C2,C2,L2,Scan D,Scan D,C3,L2,L3,Scan D,最后得到的频繁项集是:L1 L2 L3即: 1,2,3,5,1, 3,2, 3,2, 5,3, 5,2, 3, 5 ,为现有客户提供服务开拓新市场挖掘客户群的潜力保持现有客户群预测公司未来发展方向新客户获取交叉销售客户保持客户个性化服务重点客户发现, 数据挖掘在CRM中的应用,4 数据挖掘对CRM的影响,数据收集进行建模对数据进行评分根据得分发现重点客户,重点客户发现,2.在CRM中应用数据挖掘的实施步骤,定义问题:确定挖掘目标是寻找超市中各商品间的潜在关联关系数据选择:同一次交易中所购买的商品名,数量,单价,日期,顾客编码等。数据预处理:除去无关的数据,或者是错误的数据。进行建模:通过关联规则,或者其它方式建模。实施数据挖掘:挖掘结果面包果酱(0.5%,75%)结果分析和评估知识的同化:将规则加入知识库,关联规则决策树贝叶斯分类回归神经网络聚类分析,3. 数据挖掘的主要技术,