1、第5章 数据仓库与数据挖掘的决策支持,5.1 数据仓库的基本原理,数据仓库的兴起1.“数据太多,信息不足”的现状2. 异构环境的数据源据美国幸福杂志所列的全球2000家大公司中已有90%将Internet网络和数据仓库这两项技术列入企业计划。数据仓库是1995年开始盛行起来的。,5.1.1 数据仓库的概念,(1)W.H.Inmon在建立数据仓库一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。,1、数据仓库的概念,(2)SAS软件研究所定义:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。,1、
2、数据仓库的概念,传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要为企业特定的应用服务的。用户关心的是响应时间,数据的安全性和完整性。数据仓库用于决策支持,也称分析型处理,用于决策分析,它是建立决策支持系统(DSS)的基础。,操作型数据(DB数据)与 分析型数据(DW数据)之间的差别为:,2、数据仓库特点,(1)数据仓库是面向主题的主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中分析客户数据,
3、可决定是否继续给予贷款。,面向主题,汽车人寿健康意外伤亡,操作性环境,应 用,顾客保险单保险费索赔,数据仓库,主 题,2、数据仓库特点,(2)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。,2.2 集成,数据库 应用A m,f 应用B 1,0 应用C x,y 应用D 男,女,数据仓库m,f,编码,应用A 管道cm 应用B 管道inches 应用C 管道mcf 应用D 管道yds,管道cm,属性度量,应用A 描述
4、 应用B 描述 应用C 描述 应用D 描述应用A char(10) 应用B dec fixed(9,2) 应用C pic 9999999 应用D char(12),多重信息源,?,描述,char(12),冲突的键码,集成,2、数据仓库特点,(3)数据仓库是稳定/非易失的数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。,非易失性,插入,删除,插入,修改,删除,访问,修改,访问,数据的逐个记录方式处理,数据的批量载入/访问,数据库,数据仓库,2、数据仓库特点,(4)数据仓库是随时间变化的数据仓库内的数据时限在510年,故数据的键码包含时间项,标明数据的历史时期,这适合
5、DSS进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的正确的有效的数据。,2.4 随时间变化,数据库,数据仓库,时间期限:当前到6090天 记录更新 键码结构可能包括也可能不包括时间元素,时间期限:510年 数据的复杂快照 键码结构包括时间元素,2、数据仓库特点,(5)DW中数据量大。大型DW是一个TB(1000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)需要一个巨大的硬件平台需要一个并行的数据库系统最好的数据仓库是大的和昂贵的。,2、数据仓库特点,(6)是信息的概括和聚集。,操作性,数据仓库,J Jones 女 1945年7月20日 。,J Jones
6、 去年有两张罚单 一次大事故 。,J Jones Main大街123号 已婚 。,J Jones 两个孩子 高血压 。,人寿保险,汽车保险,房产保险,健康保险,J Jones 女 1945年7月20日出生 去年两张罚单 一次大事故 已婚 两个孩子 高血压 。,顾客,2、数据仓库特点,(7)对计算机软硬件要求较高:需要一巨大硬件平台和并行计算的数据库系统。,5.1.2 数据仓库中的数据组织,1 数据的粒度 2 数据仓库的数据组织结构 3 数据的分割 4 数据仓库的数据组织形式 5 数据仓库的数据组织模式 6 数据的追加,1 粒度,粒度是指数据仓库的数据单位中保存数据的细化或总合程度的级别。 细化
7、程度越高,粒度级就越小; 细化程度越低,粒度级就越大。 粒度细节的级别 粒度的划分决定了数据仓库中数据量的大小和查询的详细程度。 多重粒度,粒度的一个例子,高细化,低细化,每月200个记录 每月40,000个字节,每月一个记录 每月200个字节,通过检索 可以回答,无细节 无法回答,近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。高度综合数据层:这
8、一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。,2 数据仓库的数据组织结构,2 数据仓库的数据组织结构,元数据,高度综合级,轻度综合级 (数据集市),销售细节级 2000-2001,操作型转换,早期细节级,每月销售 1994-2001,每周销售 1994-2001,当前细节级,销售细节级 1994-1999,3 分割,分割将当前细节数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。 分片数据分割后的独立单元。 数据的分割 提高了数据管理的灵活性 重构、索引、重组、恢复、监控 分割的标准:日期、地域、业务领域。,分割的一个例子,分片9,分片8,分片7,2001
9、,分片6,分片5,分片4,2000,分片3,分片2,分片1,1999,事故保险,生命保险,健康保险,4 数据仓库的数据组织形式,简单堆积数据 轮转综合数据 简化直接数据 连续数据,简单堆积文件,1月1日 1月2日 1月3日 ,2月1日 2月2日 2月3日 ,3月1日 3月2日 3月3日 ,轮转综合文件,星期一 星期二 星期天,第一周 第二周 第五周,一月 二月 十二月,简化直接文件,数据库快照,姓名 顾客号 地址 张平 C960100 北京 王珂 C960101 上海 刘辉 C960102 天津 李强 C960103 成都.,一月份顾客表,操作性数据,生成简化直接文件,连续文件,姓名 顾客号
10、地址 张平 C020100 北京 王珂 C020101 上海 张顺 C020102 天津 李强 C020103 成都,姓名 顾客号 地址 张平 C020100 北京 王珂 C020101 上海 张顺 C020101 广州 李强 C020103 成都 刘诚 C020105 杭州,姓名 顾客号 日期 地址 张平 C020100 1-2月 北京 王珂 C020101 1-2月 上海 张顺 C020103 1月 天津 张顺 C020103 2月 广州 李强 C020103 1-2月 成都 刘诚 C020105 2月 杭州,1月份顾客表,2月份顾客表,1-2月份顾客表,元数据(Metadata),元数据
11、关于数据的数据,它描述了数据的结构、内容、码、索引等。,元数据的内容不仅为数据仓库的创建提供必要的信息、描述和定义,还为DSS分析人员访问数据仓库提供直接的或辅助的信息。,数据仓库中元数据必须包含的内容,数据仓库的主题描述: 主题名、主体的公共码键、有关描述信息等 外部数据和非结构化数据的描述: 外部数据源名、存储地点、存储内容简述 记录系统定义: 主题名、属性名、数据源系统、源表名、源属性名 逻辑模型的定义: 关系名、属性1、属性2属性n 数据进入数据仓库的转换规则 数据的抽取历史 粒度的定义 数据分割的定义 广义索引:广义索引名,属性1、属性2属性n 有关存储路径和结构的描述,它是现有的业
12、务系统的数据源的描述信息。这类元数据是是对不同平台上的数据源的物理结构和含义的描述。具体为: 数据源中所有物理数据结构,包括所有的数据项及数据类型。 所有数据项的业务定义。 每个数据项更新的频率,以及由谁或那个过程更新的说明。 每个数据项的有效值。,(1)关于数据源的元数据,数据仓库的数据模型是星型模型。通常企业数据模型被用作建立仓库数据模型的起始点,再对模型加以修改和变换。,(2)关于数据模型的元数据,这类元数据是数据源与数据仓库数据间的映射。当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,
13、经过那些转换,变换和加载过程。,(3)关于数据仓库映射的元数据,这类元数据是数据仓库中信息的使用情况描述。数据仓库的用户最关心的是两类元数据:(1)元数据告诉数据仓库中有什么数据,它们从哪里来。即如何按主题查看数据仓库的内容。(2)元数据提供已有的可重复利用的查询语言信息。如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程。关于数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。,(4)关于数据仓库使用的元数据,5 数据仓库的数据组织模式,星型模式(star schema) 雪花模式(snowflake schema) 混
14、合模式,中间有一个单一表,沿半径向外连接到多个表,是星型模式的扩展,每一个点都沿半径向外连 接到多个点,星型模式,产品标识符 类标识符 大类标识符 产品名 类名 大类名 现货存量,销售表,产品标识符 商店标识符 日期标识符 单 价 销售金额,日期表,日期标识符 日 月 季 年,商店标识符 市名 省名 国名 洲名,商店表,产品表,雪花模式,销售表,产品标识符 商店标识符 日期标识符 单 价 销售金额,日期表,日期标识符 日 月,月 季,月表,季 年,季表,产品表,产品标识符 类标识符 产品名 现货存量,类表,类标识符 大类标识符 类名,大类表,大类标识符 大类名,商店表,商店标识符 市名,市名,
15、市名 省名,市表,省名 国名,省表,国名 洲名,国表,6 数据追加,时标方法 对新插入或更新的数据记录,加入更新时的时标,扫描整个数据库。 DELTA文件 由应用生成的,记录了应用所改变的所有内容。DELTA文件的应用并不普遍。 前后映象文件对比 占用大量资源。 日志文件 是DB的固有机制,不会影响到OLTP的性能。数据冗余。,数据仓库的数据初装完成后,再向数据仓库输入数据的过程。,数据仓库工作范围和成本常常是巨大的。开发数据库是代价很高、时间较长的大项目。提供更紧密集成的数据集市就应运产生。目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。,5.1.3 数据集市(Data Marts
16、),数据集市(Data Marts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。 Data Marts是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。,数据集市概念,独立数据集市(Independent Data Mart)从属数据集市(Dependent Data Mart),数据集市的种类,两种数据集市,1、规模是小的 2、特定的应用 3、面向部门 4、由业务部门定义,设计和开发 5、由业务部门管理和维护 6、快速实现 7、购买较便宜 8、投资快速回收 9、工具集的紧密集成 10、更详细的、预先
17、存在的数据仓库的摘要子集 11、可升级到完整的数据仓库,数据集市的特性,(1)数据仓库是基于整个企业的数据模型建立的,是面向企业范围内的主题;而数据集市是按照某一特定部门的数据模型建立的;(2)部门的主题与企业的主题之间可能存在关联,可能无关联;(3) 数据集市的数据组织一般采用星型模型,而大型数据仓库的组织采用第三范式。,数据集市与数据仓库的差别,5.2 数据仓库系统,5.2.1数据仓库系统结构 数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。,1、数据仓库管理系统,(1)定义部分用于定义和建立数据仓库系统。它包括:(1)设计和定义数据仓库的数据库(2)定义数据来源(3)确定从
18、源数据向数据仓库复制数据时的清理和增强规则 (2)数据获取部分该部件把数据从源数据中提取出来,依定义部件的规则,抽取、转化和装载数据进入数据仓库。,(3)管理部分它用于管理数据仓库的工作,包括:(1)对数据仓库中数据的维护(2)把仓库数据送出给分散的仓库服务器或DSS用户(3)对仓库数据的安全、归档、备份、恢复等处理工作,1、数据仓库管理系统,(4)信息目录部件(元数据)数据仓库的目录数据是元数据,由三部分组成:技术目录:由定义部件生成,关于数据源、目标、清理规则、变换规则以及数据源和仓库之间的映象信息。业务目录:由仓库管理员生成,关于仓库数据的来源及当前值;预定义的查询和报表细节;合法性要求
19、等。信息引导器:使用户容易访问仓库数据。利用固定查询或建立新的查询,生成暂时的或永久的仓库数据集合的能力等。 (5)DBMS部件数据仓库的存储形式仍为关系型数据库,因此需要利用DBMS。,1、数据仓库管理系统,分析工具集分两类工具: (1)查询工具数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。一般包含:可视化工具:以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。,2、数据仓库工具集,多维分析工具(OLAP工具):通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定的观察视角,如时
20、间、地域、业务等。,2、数据仓库工具集,(2)数据挖掘工具从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。,2、数据仓库工具集,3、数据仓库的运行结构,数据仓库应用是一个典型的客户/服务器(C/S)结构形式。数据仓库采用服务器结构,客户端所做的工作有:客户交互、格式化查询、结果显示、报表生成等。服务器端完成各种辅助决策的SQL查询、复杂的计算和各类综合功能等。现在,越来越普通的一种形式是三层C/S结构形式,即在客户与数据仓库服务器之间增加一个多维数据分析(OLAP)服务器。,OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部
21、分工作,降低了系统数据传输量。这种结构形式工作效率更高。,三层C/S结构,数据仓库存储采用多维数据模型。维就是相同类数据的集合,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。,5.2.2 数据仓库的存储,联机分析处理(On Line Analytical Processing,OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年
22、提出的。在数据仓库系统中,联机分析处理是重要的数据分析工具。OLAP的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。,5.3 联机分析处理,5.3.1 基本概念,OLAP是在OLTP的基础上发展起来的。OLTP是以数据库为基础的,面对的是操作人员和低层管理人员,对基本数据的查询和增、删、改等进行处理。OLAP是以数据仓库为基础的数据分析处理。它有两个特点:一是在线性(On Line),由客户机/服务器这种体系结构来完成的;二是多维分析,这也是OLAP的核心所在。,1、 OLAP的定义,联机分析处理是是一种软件技术,他使分析人员能够迅速、一致、交互地从各个方面观察信息,
23、以达到深入理解数据的目的。 联机分析技术是共享多维信息的快速分析。,一个3维的模型, 3个维为:部门,时间,销售。 三维立方体,三维表,OLAP实例,它体现了四个特征:(1)快速性:用户对OLAP的快速反应能力有很高的要求。 (2)可分析性:OLAP系统应能处理任何逻辑分析和统计分析。 (3)多维性:系统必须提供对数据分析的多维视图和分析。(4)信息性:OLAP系统应能及时获得信息,并且管理大容量的信息。,1993年,E.F.Codd提出OLAP的12条准则,其主要的准则有:多维数据分析;客户/服务器结构;多用户支持;一致的报表性能等。,2、OLAP准则,1.多维概念视图,企业的数据空间本身就
24、是多维的。因此OLAP的概念模型也应是多维的。用户可以对多维数据模型进行切片、切块、旋转坐标或进行多维的联合(概括和聚集)分析。,4.稳定的报表性能,报表操作不应随维数增加而削弱,即当数据维数和数据的综合层次增加时,提供的报表能力和响应速度不应该有明显的降低。,5客户/服务器体系结构,OLAP是建立在客户/ 服务器体系结构上的。要求多维数据库服务器能够被不同的应用和工具所访问。,8多用户支持 当多个用户要在同一分析模式上并行工作,需要这些功能的支持。11灵活的报表生成 报表必须充分反映数据分析模型的多维特征,并可按用户需要的方式来显示它。,OLAP是针对特定问题的联机数据访问和分析。 (1)变
25、量 :变量是数据的实际意义,即描述数据“是什么”。 (2)维:维是人们观察数据的特定角度。如产品维、顾客维、时间维等。 (3)维的层次:数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。 (4)维成员:维的一个取值称为该维的一个维成员。如“某年某月某日”是时间维的一个成员。,3、OLAP的基本概念,(5)多维数组:一个多维数组可以表示为: (维1,维2,维n,变量)一个5维的结构,即(产品,地区,时间,销售渠道,销售额)。 (6)数据单元(单元格):多维数组的取值称为数据单元。如:5维数据单元(牙膏,上海,1998年12月,批发,销售额为100000)。,3、OLAP的基本概念,(
26、1)OLTP OLTP是低层人员利用计算机网络对数据库中的数据进行查询、增、删、改等操作,以完成事务处理工作。 OLTP利用数据库快速地处理具体业务。OLTP应用要求多个查询并行。,4、OLAP与OLTP的关系与比较,(2)OLAP OLAP是高层人员对数据仓库进行信息分析处理。存取大量的数据 包含聚集的数据 按层次对比不同时间周期的聚集数据 以不同的方式来表现数据 要包含数据元素之间的复杂的计算 能够快速的响应用户的查询,4、OLAP与OLTP的关系与比较,(3)OLAP与OLTP对比(对比表),5.3.2 OLAP的数据组织,MOLAP和ROLAP是OLAP的两种具体形式:ROLAP是基于
27、关系数据库存储方式建立的OLAP。 多维数据映射成平面型的关系表。采用星型模型。,MOLAP是基于多维数据库存储方式建立的OLAP;表现为“超立方”结构,类似于多维数组的结构。在分析中,需要“旋转”数据立方体以及“切片” 、“切块”等操作。,MOLAP和ROLAP的对比表,例如,以“产品、城市、时间”三维数据,如图,5.3.3 OLAP的决策支持;OLAP多维数据分析,1、基本功能:切片和切块,对三维数据,通过“切片” ,分别从城市和产品等不同的角度观察销售情况:,钻 取,钻取:例如,1995年各部门销售收入表如下:,对时间维进行下钻操作,获得新表如下:,钻 取(续),旋转前的数据,旋 转,旋
28、转后的数据,旋 转(续),OLAP的旋转功能,平面数据的坐标轴转换。,12.7,8.5,-4.3,8.9,差量%,-44322,25402,-2995,31102,差量,350000,300000,69000,350000,计划,306677,325402,66005,381102,现有,其它,汽车,家具,服装,销售量,1999,12.7,-44322,350000,306677,所有其他,8.5,25402,300000,325402,汽车,-4.3,-2995,69000,66005,家具,8.9,31102,350000,381102,服装,差量%,差量,计划,现有,销售量,1999,旋
29、转后再切片,2、广义OLAP功能,1、基本代理操作 “代理”是一些智能性代理,当系统处于某种特殊状态时提醒分析员。(1)示警报告定义一些条件,一但条件满足,系统会提醒分析员去做分析。如每日报告完成或月定货完成等通知分析员作分析。(2)异常报告当超出边界条件时提醒分析员。如销售情况已超出预定义阈值的上限或下限时提醒分析员。,2、计算能力计算引擎用于特定需求的计算或某种复杂计算。3、模型计算增加模型,如增加系统优化、统计分析、趋势分析等模型,以提高决策分析能力。,2、广义OLAP功能,假设有一个5维数据模型,5个维分别为:商店,方案,部门,时间,销售。1三维表查询在指定“商店=ALL,方案=现有”
30、情况的三维表(行为部门,列为时间和销售量),5.3.4、OLAP实例,指定商店、方案后的三维表,2、向下钻取对汽车部门向下钻取出具体项目的销售情况和利润增长情况。,3、切片表切片(Slice)操作是除去一些列或行不显示,4、旋转表这次旋转操作得到1995年的交叉表方案为:现有、计划、 差量、差量%。,5.4.1 数据仓库的开发1、数据仓库规划数据仓库开发的范围怎样? 要解决的业务问题是什么? 开发的数据仓库的决策支持能力是什么?,5.4 数据仓库的决策支持及实例,决策者的需求:对信息的需求对业务过程的需求对数据访问的需求,2、定义体系结构,确定体系结构,(1)来源:数据应该来自于什么DBMS的
31、源数据? (2)传输:数据通过什么样的网络拓扑结构传送过来? (3)目的地:数据发送到数据仓库的什么硬件环境? (4)元数据:确定存储和访问数据的元数据。 (5)变换:编制数据抽取、变换、装载的程序。 (6)访问:最终用户怎样才能查询数据?,(1)主题域分析确定所需数据的范围和内容。并建立数据仓库的数据模型: 主题域范围数据仓库的数据模型 (2)物理数据库设计数据的实际存储设计,3、数据仓库设计,(1)确定源数据、检查其完整性,进行评价。(2)完成源数据变换到目标数据仓库中去。,4、源系统分析与数据变换设计,完成数据加载;评审;元数据加载;系统测试,5、建立数据仓库,提供给用户访问的形式: (
32、1)使用现有的特定工具; (2)开发一个最终用户访问程序。,6、用户访问方法的设计和开发,5.4.2 数据仓库的决策支持,美国著名的NCR数据仓库公司对数据仓库总结5种决策支持能力。1、报表 2、随机分析3、预测4、实时决策5、事件触发的自动决策,1、报表,数据仓库所面临的最大挑战是数据集成。传统的环境经常有上百个数据源,每一数据源都有各自定义的标准和实施技术。 建立的数据仓库是通过收集各种来源的数据,来回答预先设置的一些问题,告诉决策者“发生了什么”。它为以后数据仓库的发展奠定了基础。,2、随机分析,数据仓库应用的第二种决策支持是,从“发生了什么”转向“为什么会发生”。分析活动就是了解报表数
33、据的涵义,需要更多更详细的数据进行各种角度的分析。在第二阶段的数据仓库主要用于随机分析。,3、预测,数据仓库的第三种决策支持是帮助决策者来预测未来,回答“将要发生什么”。数据仓库需要利用历史资料创建预测模型。,4、实时决策,数据仓库的第4种决策支持是企业需要准确了解“正在发生什么”,从而需要建立动态数据仓库(实时数据库),用于支持战术型决策,即实时决策。有效地解决当前的实际问题。第1到第3种决策支持的数据仓库都以支持企业内部战略性决策为重点,帮助企业制定发展战略。 第4种决策支持侧重在战术性决策支持。动态数据仓库能够逐项产品、逐个店铺、逐秒地作出最佳决策支持。,5、事件触发的自动决策,数据仓库
34、的第5种决策支持是由事件触发,利用动态数据库自动决策,达到“希望发生什么”。例如,电子货架标签技术结合动态数据仓库,可以帮助企业按照自己的意愿实现复杂的价格管理自动化,以便以最低的损耗售出最多的存货。,5.4.3 数据仓库应用实例,NCR公司成功地开发了很多实际数据仓库系统,在此介绍一例典型的数据仓库系统。实例:金融业数据仓库解决方案 数据仓库是金融银行机构实现客户关系管理(Customer Relationship Management)的核心技术,也是金融银行业竞争优势的来源,主要的应用业务部门为信用卡部、信贷部、市场部和零售业务部等,应用领域是以客户为中心的的分销渠道管理、客户利润分析、
35、客户关系优化、风险评估和管理。,银行只有通过以客户为中心(Customer Centric)的数据仓库决策支持系统,才能使用科学的方法实现个性化服务。数据仓库系统存放每一位客户同银行往来的详细的历史交易明细数据,对客户有统一的视图。能帮助银行业务用户以科学的手段快速地分析、模拟和预测客户的个性化需求,进而设计符合客户需求的产品或服务。通过客户喜好的渠道完成交易,是增强商业银行竞争能力最有效的手段。,什么是个性化服务呢?可以从客户和银行的观点来看。客户认为个性化服务是:银行知道我(Who)在什么时间(When)、需要什么产品或服务(What)、以我可以接受的价格(How Much)、经由我喜好的
36、分销渠道(Where),对我提供销售。,银行的定义是:以有竞争性的产品或服务(What)、在适当的时间(When)、通过适当的分销渠道(Where)、对信用好风险低的客户(Who)、以合理的价格(How Much)和利润(Profitable)完成销售。两者都是在精打细算的前提下,以达成各自的需求和目标。,1、分销渠道的分析和管理,银行通过分析知道客户、渠道、产品或服务三者之间的关系;了解客户的购买行为;客户或渠道对业务收入的贡献;哪些客户比较喜好经由什么渠道在何时和银行打交道;目前的分销渠道的服务能力如何;需要增加哪些分销渠道才能达到预期的服务水平。,2、利润评价模型,建立所有客户的每一个帐
37、号的利润评价模型,以便了解每一位客户对银行的总利润贡献度。银行可以依客户的利润贡献度安排合适的分销渠道提供服务和销售,知道哪些有利润的客户需要留住,采用什么方法留住客户,交叉销售改善客户的利润贡献度,那些客户应该争取。另外,银行可以模拟和预测,新产品对银行利润的贡献度,或是新政策对银行会产生什么样的财务影响,或是客户流失或留住对银行的整体利润的影响。,3、 客户关系优化,客户在每一笔交易中都能主动地告诉银行需要什么产品和服务,如定期存款是希望退休养老使用等;银行利用客户购买倾向模型、渠道喜好模型等主动地和客户沟通,达到留住客户和增加利润的目标。,4、 风险评估和管理,风险评估和管理主要利用各种
38、数学模型进行分析,模拟风险和利润间的关系。银行实现了以客户为中心的个性化服务数据仓库决策支持系统,就可以在满足高利润低风险客户需求的前提下,达成银行收益的极大化。,数据挖掘的兴起,(1)80年在美国召开了第一届国际机器学习研讨会;(2)89年8月于美国底特律市召开的第一届KDD国际学术会议;(3)95年在加拿大召开了第一届知识发现和数据挖掘国际学术会议;(4)我国于87年召开了第一届全国机器学习研讨会。,5.5 知识发现与数据挖掘,5.5.1 知识发现与数据挖掘概念,知识发现(KDD):从数据中发现有用知识的整个过程。数据挖掘(DM) :KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式
39、(patterns)。KDD过程定义:从大量数据中提取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程。“模式”可以看成是“知识”的雏形,经过验证、完善后形成知识。,KDD过程,5.5.2 数据挖掘方法和技术,(一)归纳学习方法分为两大类:信息论方法(决策树方法)和集合论方法。 1、信息论方法(决策树方法)利用信息论的原理建立决策树或者是决策规则树。(1)ID3方法:Quiulan研制的ID3方法是利用信息论中互信息建立决策树。(2)IBLE方法:我们研制的IBLE方法,是利用信息论中信道容量,寻找数据库中信息量大的多个字段的取值建立决策规则树。,2、集合论方法 (1)粗糙集(Roug
40、h Set)方法对数据库中的条件属性集与决策属性集建立上下近似关系,对下近似集合建立确定性规则,对上近似集合建立不确定性规则(含可信度)。 (2)关联规则挖掘在交易事务数据库中,挖掘出不同商品集的关联关系,即发现哪些商品频繁地被顾客同时购买。 (3)覆盖正例排斥反例方法它是利用覆盖所有正例,排斥所有反例的思想来寻找规则。比较典型的有AQ11方法,AQ15方法以及AE5方法。,(二)仿生物技术仿生物技术典型的方法是神经网络方法和遗传算法。1、神经网络方法:包括:前馈式网络、反馈式网络、自组织网络等多个神经网络方法。2、遗传算法:这是模拟生物进化过程的算法。它由三个基本算子组成: 繁殖(选择)、交
41、叉(重组)、变异(突变)遗传算法起到产生优良后代的作用,经过若干代的遗传,将得到满足要求的后代(问题的解)。,(三)公式发现在工程和科学数据库中对若干数据项(变量) 进行一定的数学运算,求得相应的数学公式。1物理定律发现系统BACONBACON发现系统完成了物理学中大量定律的重新发现。2经验公式发现系统FDD我们研制了FDD发现系统,寻找由数据项的初等函数或复合函数组合成的经验公式。,(四)统计分析方法利用统计学原理通过对总体中的样本数据进行分析得出描述和推断该总体信息和知识的方法。 (五)模糊数学方法利用模糊集合理论进行数据挖掘,如模糊聚类、模糊分类等。 (六)可视化技术利用可视化技术分析数
42、据库,找到潜在的有用信息。,5.5.3 数据挖掘的知识表示(一),主要有5种:规则、决策树、浓缩数据、网络权值、公式。1、规则规则知识由前提条件和结论两部分组成前提条件由字段项(属性)的取值的合取(与) 和析取(或)组合而成。结论为决策字段项(属性)的取值或者类别组成。,2、决策树 例如:上例的人群数据库,按ID3方法得到的决策树如下:,数据挖掘的知识表示(二),3、知识基(浓缩数据)例如上例的人群数据库,通过计算可以得出身高是不重要的字段,删除它后,再合并相同数据元组,得到浓缩数据如下表:,数据挖掘的知识表示(三),4、网络权值神经网络方法经过对训练样本的学习后,所得到的知识是网络连接权值和
43、结点的阈值。,数据挖掘的知识表示(四), =0.5,5、公式例如,太阳系行星运动数据中包含行星运动周期(旋转一周所需时间,天),以及它与太阳的距离(围绕太阳旋转的椭圆轨道的长半轴,百万公里),数据如下表:,发现的公式为:d3/p2=25,数据挖掘的知识表示(五),5.6 数据挖掘的决策支持及应用,5.6.1 数据挖掘的决策支持分类有:关联分析、时序模式、聚类、分类、偏差检测、预测。1、关联分析若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。 2、时序模式通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。,3、聚类:在数据库中找
44、出一系列有意义的子集,即类。4、分类:对数据库中的类,找出该类别的概念描述规则。5、偏差检测: 在数据库中找出异常数据。6、预测:利用历史数据找出变化规律的模型,并用此模型预测未来。,关联规则开采方法关联可分为简单关联(如购买面包的顾客90也同时买牛奶)、时序关联(如若AT&T股票不下跌,则第三大IBM股票上涨的可能性为75)及因果关联等。关联分析的目的是找出数据库中隐藏的关联。关联规则是描述数据库的数据项之间存在潜在关系的规则形式为“A1 A2 A m B1 B2 B n”,其中Ai(il,2,m),Bj(j1,2,n)是数据库中的数据项之间的关联,即根据一个事务中某些项的出现,可推导出另一
45、些项在同一事务中也出现。,自然界中某种事物发生时其他事物也会发生的这样一种联系称之为关联。 反映事件之间依赖或关联的知识称为关联型知识(又称依赖关系)。 定义1:关联是两个或多个变量取值之间存在的一类重要的可被发现的某种规律性。 关联可分为简单关联、时序关联、因果关联。,关联规则基本概念,关联分析目的是寻找给定数据记录集中数据项之间隐藏的关联关系,描述数据之间的密切度。 关联分析的结果常有两种:关联规则和序列模式。 关联规则用于寻找在同一个事件中出现的不同项的相关性; 序列模式与此类似,但它寻找的是事件之间时间上的相关性。,关 联 分 析,关联规则发现的主要对象是交易型数据库,一个交易一般由交
46、易处理时间,一组顾客购买的物品,有时也有顾客标识号(如信用卡号)组成。 定义2:关联规则是描述在一个交易中物品之间同时出现的规律的知识模式,更确切的说,关联规则是通过量化的数字描述物品X的出现对物品Y的出现有多大的影响。,关 联 规 则,以零售业为例,体育用品商场通过对销售数据进行关联分析通常可以发现这些数据中常常隐含形式如下的规律“购买篮球的顾客中有70%的人同时购买篮球运动服,所有交易中有40%的人同时购买篮球和篮球运动服” 等等。这些规律即关联规则。,关 联 规 则,定义3:关联规则挖掘的交易数据集记为D(一般为交易数据库),DT1,T2,Tk,,Tn,Tk(k1,2,,n)称为交易,对
47、应每一个交易有唯一的标识,记作TID。 元素im(m1,2,,p)称为项。设I=i1,i2,im是D中全体项组成的集合,且TkI。,设X是一个I中项的集合,如果XTk,那么称交易Tk包含项集X。 若X,Y为项集,XI, YI,并且XY=,则形如X = Y的表达式称为关联规则。,关联规则形式化定义,置信度,支持度,关联规则度量,规则XY在交易数据集D中的 置信度是对关联规则准确度 的衡量。度量关联规则的强 度。即在所有出现了X的活动 中出现Y的频率,即规则XY 的必然性有多大。 记为confidence(XY)。,计算方法: 包含X和Y的交易数与包含X的 交易数之比: confidence(XY) = P(YX) = |T: XYT, TD|/|T:XT,TD| 100%,规则XY在交易数据集D中的 支持度是对关联规则重要性 的衡量,反映关联是否是普 遍存在的规律,说明这条规 则在所有交易中有多大的代 表性。即在所有交易中X与Y 同时出现的频率记为: support(XY)。,计算方法: 交易数据集中同时包含X和Y 的交易数与所有交易数之比: support(XY) = P(XY)= |T: XYT,TD|/ |D|100% (其中|D|是交易数据集D中 的所有交易数),最小置信度阈值 最小支持度阈值同时满足最小置信度阈值和最小支持度阈值的关联规则为强关联规则,是有意义有价值。,