1、11.数据仓库的概念和特点 p11定义:一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员作出决策。特性:面向主题的、集成的、非易失的、随时间不断变化的。1、面向主题的:数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体,是从整体的、全局的角度来衡量这些主题在企业中的作用。2、集成的(最重要):数据仓库必须将不一致的数据进行有效的集成,使之在数据仓库中有一致性的表示形式。一致性问题只是集成所包含的一部分工作,另外还需要根据主题进行有效的数据组织。3、非易失性:一旦操作型数据进入数据仓库,只要数据未超过数据仓库的数据存储期限,通常不对数据进行更新操作,而只进行查询操
2、作。即不进行一般意义上的更新,而且与操作型数据相比,更新频率要低得多,对时间的要求更为宽松。4、随时间不断变化的(数据因时而变的特点) 与操作型数据比较的,书上 14 页 :(1 )数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。操作型环境一般 60-90 天,2数据仓库 5-10 年。操作型环境中的数据库含有数据的“当前值” ,其准确性访问是有效的,其当前值能被更新,数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。操作型环境中的数据键码结构可能含有也可能不含有;数据仓库的键码结构总是包含某时间元素。2.数据仓库中的关键概念 14外部数据源:就是从系统外部获取的同分
3、析主题相关的数据。数据抽取:是数据仓库按分析的主题从业务数据库抽取相关数据的过程。数据清洗:所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除,以免影响 DSS 决策的正确性。数据转换:各种数据库产品所提供的数据类型可能不同,需要将不同格式的数据转换成统一的数据格式,称为数据转换。数据加载:是指把清洗后的数据装入数据仓库的过程。数据加载策略包括数据加载周期和数据追加策略。数据加载周期要综合考虑经营分析需求和系统加载代价,对不同业务的数据采用不同的加载周期,但必须保持同一时刻业务数据的完整性和一致性。3元数据:元数据是关于数据的数据。元数据位于数据仓库的上层,而且能够记录数据
4、仓库中对象的位置。数据集市:面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据子集成为数据集市。数据粒度:粒度是数据仓库的数据单位中保存数据的细化程度或综合成都的级别。细化程度越高,粒度级别就越低。相反,细化程度越低,粒度级别就越高。数据仓库的数据组织结构:早期细节级(通常用于备用的、批量化的存储) 、当前细节级、轻度综合数据级(数据集市)以及高度综合数据级。一旦数据过期,就由当前细节级进入早期细节级。经综合后的数据由当前细节级进入轻度综合数据级,然后由轻度综合数据级进入高度综合数据级。数据粒度的两种形式:第一种形式的粒度是对数据仓库中的数据的综合程度高低的一种度量,另一
5、种形式即样本数据库,是针对数据挖掘的,样本数据库是以一定的采样率(或按数据的重要程度的不同)从细节档案数据或轻度综合数据中抽取的一个子集。数据分割:分割是指将数据分割到各自的物理单元中以便能分别进行处理,提高数据处理效率,数据分割后形成的数据单元称为分片。4数据库 数据仓库面向应用数据是详细保持当前数据数据是可更新对数据的操作是重复的操作需求是事先可知的一个操作只存取一条记录数据非冗余操作较频繁所查询的是原始数据事务处理需要当前数据鲜有复杂的计算支持事务处理面向主题数据是综合的或提炼的保存过去的和现在的数据数据是不可更新对数据的操作是启发式的操作需求是临时决定的一个操作存取一个数据集合数据常冗
6、余操作相对不频繁所查询的是经过加工的数据决策分析需要过去的和现在的数据需做复杂的计算支持决策分析5操作型数据 分析型数据细节的在存取瞬间,数据是准确的可更新的事先可知操作需求生命周期符合 SDLC(软件开发生命周期)对性能的要求较高某一时刻操作一个单元事务驱动面向应用一次操作的数据量较小支持日常操作综合的或提炼的历史数据不可更新操作需求事先不可知完全不同的生命周期对性能的要求较为宽松某一时刻操作一个集合分析驱动面向分析一次操作的数据量较大支持管理需求4.数据仓库的数据追加与方法数据追加:数据仓库中的数据初装完成后,再向数据仓库输入数据的过程。6数据仓库的内容仅限于上一次向数据仓库输入数据后在
7、OLTP 数据库中发生变化的数据。 捕捉变化数据的常用途径如下:(1)时标方法:如果数据含有时标,对于插入或更新的数据记录,在记录中设置相应的时标,那么只需根据时标判断哪些数据是上次追加后变化的即可。但并非所有数据库中的数据都含有时标。(2)DELTA 文件1.DELTA 文件是由应用生成的,记录应用所改变的所有内容。2.利用 DELTA 文件效率很高,它避免扫描整个数据库。但因应用系统常由不同的软件开发商开发,生成 DELTA 文件的应用并不普遍,还有更改应用代码的方法,可在生成新数据时将其自动记录下来,但应用数目庞大,修改的代码十分繁琐。(3)前后映像文件的方法:1.在抽取数据前后对数据库
8、各做一次快照,然后比较两幅快照从而确定新数据。2.它占用大量资源,对性能影响极大,因此无实际意义。(4)日志文件(最切实有效)7日志是 DMBS 的固有机制系统日志能把数据库服务器所执行的所有操作详细记录下来,通过分析日志获取数据变化情况。它还具有 DELTA 文件的优越性质,提取数据只要局限日志文件即可,不用扫描整个数据库。固有机制,不影响 OLTP 性能。5数据仓库的数据清理1.数据加入失去原有细节的一个定期综合文件2.数据从高性能介质转移到大容量介质上3.数据从系统中实质性的清除4.数据从体系结构的某一个层次转至另一个层次,必须从操作型层次转至数据仓库层次6.数据集市的类型概念,在企业中
9、很重要的作用数据集市(Data Mart) ,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。数据仓库在整个组织范围内为各个部门提供管理与决策支持,而数据集市通常处于部门级,只能为某个局部范围内的管理人员提供服务,因此也称为部门级数据仓库。因此可以说数据集市是针对特定8应用的数据仓库,即针对某个具有战略意义的应用或部门级应用,支持用户利用已有的数据做出管理决策。数据集市(Data Marts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。1.独立型数据集市(独立数据集市)其数据直接来自各个生产系统,许多企业考虑投资问题,最终建
10、成独立数据集市,用来解决个别部门较为迫切的决策问题。从这种意义上讲,它和企业数据仓库除了在数据量和服务对象上存在差别外,逻辑结构并无多大区别,也许就是把数据集市成为部门级数据仓库的主要原因。2.从属性数据集市(从属集市):数据直接来自中央数据仓库访问数据仓库频繁的关键业务部门建立从属数据集市,可以提供查询操作的反应速度。7.数据仓库 VS 数据集市项目 数据仓库 数据集市数据来源范围主题遗留系统、OLTP 系统、外部数据企业级企业主题数据仓库部门级或工作级部门级或特殊的分析9数据粒度数据结构历史数据优化索引最细的粒度规范化结构(第三范式)大量的历史数据处理海量数据/数据索引高度索引主题较粗的粒
11、度星型模式、雪花模式、两者混合适量的历史数据便于访问、分析、快速查询高度索引8.数据仓库的体系结构数据仓库系统的层次结构数据仓库在逻辑上可以分为:数据获取/管理层、数据存储层、数据分析/应用层1. 数据获取 /管理层:( 1).数据仓库的定义与修改、 (2 ).数据的获取、 (3.)数据仓库系统的管理102.数据存储层:是数据仓库的主体,包括(1).从外部数据源抽取数据,经清洗、转换处理,并按主题进行组织和存放称其为业务数据仓库(2).数据仓库的元数据(3. )针对不同的数据挖掘和分析主题而生成的数据集市3.数据分析/ 应用层:(1)查询/统计功能( 2)OLAP 服务(3)数据挖掘服务9.数
12、据仓库的构造模式(加上有反馈的六种)1、 自顶向下模式2、 自底向上模式、3、 平行开发模式1.自定向下模式特点:在这种模式下,数据集市是数据仓库的真子集,数据由数据仓库流向数据集市。数据仓库的设计过程直观,概念清晰,易于只要对外部数据源所支持的决策有较深入的额理解,保证各数据集市都是数据仓库的真子集,就可以完全消除信息之间的“蜘蛛网”现象。这种模式不足之处在于要求设计者对具体业务有较深入的理解,系统设计规模较大,实施周期过长,项目见效缓慢,尤其是在项目实施初期,成效并不明显构造方向:从左到右11决策分析主题数据集市数据仓库外部数据源2.自底向上模式自底向上模式设计思路是先具体,后综合构造方向
13、:从右到左决策分析主题数据仓库数据集市外部数据源特点:投资少,见效快,由于数据集市缺少元数据,因而最终构造数据仓库的过程具有一定的难度,并有可能影响数据仓库整体构造的合理性以及系统的运行效率3.平行开发模式(又称企业级数据集市模式)平行模式是在自顶向下模式的基础上,吸收了自底向上的优点发展而成的,是他们的有机结合。4.改进的开发模式均在上面介绍的基础上经改进发展而来,共同特点是:按照软件工程学的观点,接收用户对所构建的数据仓库系统的反馈信息,加以分析和整理,并以此为依据,对数据仓库进行修改,以不断提高数据系统对决策的支持能力。12.联机分析处理 p4012联机分析处理 OLAP定义:OLAP
14、是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。目标是满足决策支持或多维环境下特定的查询和报表需求,因此 OLAP 可以说是多维数据分析工具的集合。OLAP 是针对特定问题的联机数据访问和分析处理OLAP 功能:数据分析、报表(p67)13.OLAP 相关的基本概念 p41变量:是数据的实际意义,用来描述数据”是什么”维:是人们观察数据的特定角度维的层次:人们观察数据的某个特定角度还可以存在细节程度不同的多个描述,这就是维的层次维的成员:维的一个取值称为该维的的一个成员多维数组:是维和变量的组合表示数据单元:是多维数据的取值1314.OLAP 准
15、则(12 条,选择题)p441.OLAP 模型必须提供多维概念2.透明性3.存取能力准则4.稳定的报表能力5.客户服务器体系结构6.维的等同性准则7.动态的稀疏矩阵处理准则8.多用户支持能力9.非受限的夸维操作10.直观的数据操作11.灵活的报表的生成12.非受限维语聚集层次简化的 5 条原则:1.快速性、2.可分析性、 3.共享性、4.多维性、5. 信息性15.OLAP 基本分析动作,每个动作是什么意思 p4914数据切片:多维数据的子集是多维数据的维 i 上切片数据切片是一种优化功能,可以帮助将查询指向相应的数据。数据切片无法为分区指定数据源。也就是说,数据切片不能用于限制从分区事实数据表
16、中选择的数据和包含在分区中的数据。数据切片仅适用于使用 ROLAP 存储模式的对象。使用分区向导创建分区时,可以指定一个数据切片。数据切块:是将完整的数据立方体切取一部分数据而得到得心的数据立方体数据钻取:就是从较高的维度层次下降到较低的维度层次上来观察多维数组数据聚合:是钻取得逆向操作,是对数据进行高层次综合的操作数据旋转:16.OLAP 数据组织1、多维数据组织 MOLAPp57多维数据库基于多维数据库的 MOLAP(多维联机分析处理)是以多维数据库(MDDB )为核心的。简言之,多维数据库是以多维方式来组织和15存储数据。2、关系数据组织 ROLAPp60ROLAP(关系联机分析处理)将
17、多维结构进行分解,利用两种表来表达多维信息。17.星形结构的存储实现 p61-62、雪花结构星型模型由事实表和多个维度表组成。事实表中存放大量关于企业的事实数据,对象个数通常都很大,而且非规范化程度很高。为度表中存放描述性数据,维度表是围绕事实表建立的较小的表。事实表是星型模型的核心,数据量大,冗余小维度表是事实表的附属表优点:星形模型是非规范化的,以增加存储空间的代价,提高了多维数据的查询速度。而规范化的关系数据库设计是使数据的冗余保持在最少,并减少了当数据改变时系统必须执行的动作。容易从维度表中的数据分析开始,获得维度关键字,以便连接到事实表进行查询,减少事实表中扫描数据量,从而提高查询性
18、能缺点:当事务问题发生变化,原来的维度不能满足要求时,需要增加新的维。由于事实表的主键由所有的围标的主键组成,这种维度16的变化带来数据变化将是非常复杂非常耗时的。星形模型的数据冗余量很大。2雪花模型雪花模型由一个事实表和多个维度表组成雪花模型增加了用户必须处理的表的数量,增加了某些查询的复杂性。但这种方式可以是系统进一步专业化和实用化,同时降低了系统的通用程度。优点:雪花模型在星型模型基础上,引入一个新表-详细类别表,借助这个表对维度表进行描述,提高了数据模型的规范化程度,并使之具有较低的粒度。雪花模型减少冗余,将表细化,具有较高的灵活性;是最大限度的减少数据存储量,以及把较小的维度表联合在
19、一起来改善查询性能。缺点:随着表的数量的增多,表之间的关联会增加,存在着降低系统性能的可能。雪花模型是对星形模型的扩展,雪花模型对星形模型的维度表进一步层次化,原来的各维度可能被扩展为小的事实表,形成一些局部的“层次” 区域。18.星形模型和雪花模型的差异(p63,好像是选择?)17星型模式 VS 雪花模式1.雪花模式的维表可能是规范化的,以便减少冗余。这种表易于维护,并节省存储空间。2.实际上,与巨大的事实表相比,这种空间的节省可以忽略。3.由于执行查询需要更多的连接操作,雪花结构可能降低浏览的性能。4.在数据仓库设计中,雪花模式不如星型模式流行。相同点:进行 OLAP 处理,是以外键为基础
20、进行维表与事实表、维表与维表之间的关联操作不同点:雪花模型虽然具有较小的事实表,但在执行某些查询时,需要做表间的二次链接运算,占用 CPU 资源较多,因而其与运行效率可能低于星型结构模型19.两种数据组织的比较(MOLAP 、ROLAP)P66 表格1.结构分析:两种组织都满足 OLAP 数据处理流程,即数据装入、汇总、建立索引和提高使用方法。MOLAP 较之 ROLAP 要简明一些。MOLAP 的索引及数据综合可以自动完成,根据元数据。自动管理所有的索引及模式,灵活性弱;ROLAP 的实现较为复杂,但灵活性强182.数据存取速度:MOLAP 相应速度快,ROLAP 相应速度慢3.数据存储容量
21、:ROLAP 对于存储容量没有限制,MOLAP 有限制4.维度变化的适应性:MOLAP 支持高性能的决策型计算,包括跨维计算、行级计算;ROLAP 无法完成多行的计算和维之间的计算5.多维计算机能力:ROLAP 适应性更好6.数据变化的适应性:ROLAP 对于数据变化的适应性高7.软硬台平台的适应性:ROLAP 对软硬件平台的适应性很好,MOLAP 则相对性差8.元数据管理:元数据是 OLAP 和数据仓库的核心数据, OLAP的元数据包括层次关系、计算转化信息、报表中的数据项描述、安全存取控制等MOLAP 以多维数据库为核心,在数据的存储和综合上有明显的优势,但它不适应太大的数据存储,特别对于
22、汗大量稀疏数据的存储将浪费大量的存储空间;ROLAP 以 RDBMS 为基础,利用成熟的技术为用户的使用和数据管理带来方便9.系统培训和维护工作19项目 数据存储 技术 特征MOLAP 详细数据通过关系表存储在数据仓库中;各种汇总数据保存在多维数据库中;从数据仓库中询问详细数据,从多维数据库中询问汇总数据有 MOLAP 引擎创建;预先建立多维数据立方体;多维视图存储在阵列而非表格中;可以高速检索矩阵数据;利用稀疏矩阵技术来管理汇总的稀疏数据询问的相应速度快;能轻松的适应多维分析;有广泛的钻取和多层次/多视角查询能力ROLAP 全部数据以关系表形式存储在数据仓库中,可获得细节的综合汇总的数据;有
23、非常大的数据容量;从数据仓库中使用复杂 SQL从数据库中获取数据;ROLAP引擎在数据分析中创建多维数据立方体;表示层能够表示多维视图在复杂的数据分析功能上具有局限性,需要采用优化的OLAP;向下钻取数据较容易,但死跨维向下钻取数据较困20询问所有数据 难24.概念模型设计 p83 很多,自己看特点:1.反映现实世界,满足用户对数据的需求,能帮助用户做出决策,是现实世界的真实模型2.易于用户理解和参与,便于与用户交流3.易于修改,能够随时根据用户需求的变化对模型进行修正与扩充4.易于向数据仓库的数据模型(星型模型、雪花模型、事实星座模型)进行转换24.1 逻辑模型设计逻辑模型包括:1.初始数据
24、组、2. 二次数据组、3.连接数据组、4.类型数据组维度表的设计:维度表示事实表的进一步细化,它也要基于逻21辑模型来设计;维度表就是将这些详细说明的额数据按逻辑关系进行存放工具。一个维度表拥有很多属性,参考事实表的数据。事实表的设计:事实表是星型模型的核心,通常包括:键(主键、外键)和详细指标,事实表需要大量的数据来对其属性和细节加以详细说明索引策略:了解 B 树 P9925.元数据的类型 p1021、按元数据描述的内容分基于基本数据的元数据、关于数据处理的元数据、关于企业组织的元数据2、按用户的角度分技术元数据、业务元数据3、按元数据在数据仓库中承担的任务分静态元数据动态元数据4、按数据仓
25、库的功能区域分类:1.数据获取、2. 数据存储、3.22信息传递螺旋式开发方式:26.元数据的作用:P1041、元数据在数据求精、开发、重构中的作用(1)描述业务规则与数据之间的映射(2)数据分割(3)概括与聚集(4)提高系统灵活性(5)定义标准处理规则(6)预算与推导(7)转换与再映射2.元数据在数据抽取与转换中作用(1)确定数据源(2)保证数据仓库内容的质量(3)实现属性间的映射与转换23元数据的收集:1.来源于源系统、2. 来源于抽取的数据、3.来源于转换与抽取和清洗的数据、4.来源于存储的数据、5.来源于装载的数据、6. 来源于信息传递26.粒度的划分:粒度数据仓库数据单元的详细程度和
26、级别每个表的存储空间应是其数据存储空间和索引空间之和(1)数据存储空间的估算数据存储空间=表的行数 X 每行占用的空间(2)索引存储空间估算索引存储空间=表的行数 X 码占用的客户一年数据 5 年数据10000000 双重粒度,仔细设计20000000 双重粒度,仔细设计1000000 双重粒度 10000000 双重粒度100000 单粒度,仔细设计1000000 单粒度,仔细设计2410000 不考虑 100000 不考虑28.建立数据仓库的的步骤:(1)收集并分析业务需求(2)建立数据模型和数据仓库的物理设计(3)定义数据源(4)选择数据仓库技术和平台(5)从操作型数据库提取、转换和净化
27、数据并将其加载至数据仓库(6)选择访问和报表工具(7)选择数据库连接软件(8)选择数据分析和数据展示软件(9)更新数据仓库30. SQL Server2005是基于客户-服务器模型的关系型数据管理系统工具:25(1)关系数据库:作为数据仓库设计、构造和维护的基础(2)数据转换服务:用于向数据仓库加载数据(3)数据复制:用于分布式数据仓库分布和加载数据(4)Analysis Services:用于采集和分析数据仓库中的数据(5)OLB DB:提供应用程序与数据源的 API(6)PivotTable:用于定制操作多维数据的客户接口(7)English Query:提供使用自然语言查询数据仓库(8)
28、Meta Data Services:浏览数据仓库中的元数据30.2Analysis Server 包括算法:1.分类算法、2. 回归算法、 3.分割算法、4.关联算法、5.顺序分析算法33,数据挖掘的概念数据挖掘就是从大量的、不完全、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、事先未知的、但又具有潜在价值的信息和知识的过程2634.知识类型:1.广义知识:是指类别特征的概括型的描述2.关联知识:是反映一个事件和其他事件之间的依赖或关联的知识3.分类知识:反映同类事物共同性质的特征知识和不同事物之间的差异性特征知识4.预测型知识:根据时间序列型数据,由历史的和当前的数据推测未来的数
29、据,也可以认为是以时间为关键属性的关联知识5。偏差型知识:是针对差异和极端特例的描述,揭示事物偏离常规的异常现象36.数据挖掘的分类:1.从数据分析的角度出发,数据挖掘分为:描述性数据挖掘、预测型数据挖掘数据清洗1.空缺值;是指所关心的某些属性对应的部分属性值是空缺的27实现方法:1.忽略元祖 2.人工填写空缺值 3.使用一个全局常量填充空缺值 4.使用最可能的值填充空缺值2.噪声:是指一个测量变量中的随机错误或偏差。3.不一致性:对于无法判断不一致的数据的真实值的情况,可以采用处理空缺值的方法进行处理37.数据集成数据集成是指将来自不同数据源的数据整合成一致的数据存储元数据、相关分析、数据冲突检测和语义异种性的解析都有助于数据集成数据转换常用的数据转换方法:平滑、聚集、数据概化、规范化、属性构造