1、1. 数据库和数据仓库的对比数据库:面向应用,数据是详细的,保持当前数据,数据是可更新的,对数据操作是重复的,操作需求是事先可知的,一个操作存取一个记录,数据非冗余,操作比较频繁,查询的是原始数据,事物处理需要当前数据,很少有复杂的计算,支持事物处理。数据仓库:面向主题,数据是综合的或提炼的,保存过去和现在的数据,数据不断更新,对数据的操作是启发式的,操作需求是临时决定的,一个操作存取一个集合,数据时常冗余,操作相对不频繁,查询的是经过加工的数据,决策分析需要过去现在的数据,很多复杂的计算,支持决策分析。DB 存在的问题(从 DB 到DW):数据量大而信息不足,异构环境导致数据不能共享,决策支
2、持能力不够。数据仓库建立在数据库之上,目的是做决策分析。数据仓库中的数据为何不可更新?因为是已经存在过的事物,已经执行过。2. oltp(联机事务处理)和OLAP(联机分析处理)OLTP 和 OLAP 比较OLTP:数据库数据,细节性数据,当前数据,经常更新,一次性处理数据量较小,对响应时间的要求高,用户数量大,面向操作人员支持日常操作,面向应用事务驱动。OLAP:数据库货数据仓库数据,综合性数据,历史数据,不更新,但是周期性刷新,一次性处理数据量大,响应时间合理,用户数量相对较少,面对决策人员,支持决策需要,面向分析分析驱动。3.数据字典 DD:对数据库所在的数据的解释说明,用于数据库数据的
3、解释和说明。包括数据项、数据结构、数据流、数据存储和处理 5 部分。元数据:元数据定义为关于数据的数据,即元数据描述了数据仓库的数据和环境。分为 3种,有关于数据源的元数据、关于抽取和转换的元数据、关于最终用户的元数据数据仓库的元数据用于数据仓库,是对数据环境操作的描述。3. 数据仓库的定义:是面向主题的,集成的,稳定的不同时间的数据集合,用户支持企业经营管理中决策制定过程。4. 数据仓库的特点:数据仓库是面向主题的,数据仓库是集成的,数据仓库是稳定的,数据长裤是随时间变化的,数据仓库中的数据量很大,数据仓库软硬件要求较高5. 数据挖掘与 OLAP 的比较:OLAP 是在多维数据结构上进行数据
4、分析的。OLAP要适应大量用户同时使用同一批数据,OLAP 平时需要查询大量的日常商业活动信息,OLAP 是在带层次的维度和跨维度进行多维数据分析的。数据挖掘则不同,是以变量和记录为基础进行分析的。数据挖掘任务在于聚类、分类、预测等。数据挖掘在于寻找不平常的且有用的商业运作模型。6. 数据集市:数据集市是一种更小,更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。数据集市分类:1)依赖(从属)数据集市:数据依赖于中心数据仓库。2)独立型数据集市:数据结构和元数据不依赖于数据仓库数据仓库和数据集市的差别:1)面向对象不同 2)数据集市可以升级为数据仓库 3)采用不同的拓扑结构7. 数据集市
5、与数据仓库的差别:(1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一特定的部门的数据模型建立的,犹豫每个部门有自己特定的需求,因此对数据集市的期望也不一样。(2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。数据仓库中存储整个企业内非常详细的数据,而数据集市中的数据的详细程度要低一些,包括概要和累加数据要多一些。(3)数据集市的数据组织一般采用星型模型。大型数据仓库的数据组织,如 NCR 公司采用第三范式。8. 数据仓库系统结构图:数据仓库系统由数据仓库、仓库管理和分析工具 3 部分组成。图 9. 数据仓库分析工具:1)查询工具 2)多维数据
6、分析工具(OLAP 工具)3)数据挖掘工具(DM 工具)4)客户/服务器工具(C/s 工具10. 事实表中存放大量关于企业的事实数据维表中存放描述性是围绕事实表建立的较小的表。各个事实表共享的维表是时间维。11. 数据仓库数据模型:1)星型模型:由事实表以及多个维表所组成的。例子在P24 图2)雪花模型:雪花模型是对星型模型的拓展,雪花模型是更加进一步层次化,原来的维表可能被扩展为小的事实表。例子 P253)星网模型:多个事实表,多个维表。维是观察问题的角度,事实是标识主题的变量。9.数据仓库的数据获取需要经过抽取,转换和装载8. 数据抽取:获取数据力度向上-综合数据-数据粒度大 向下-详细数
7、据- 数据粒度小数据抽取工作包括:确认数据源,数据抽取计算。数据装载类型:最初装载,增量装载,完全刷新。装载方式:基本装载、追加、破坏性合并、建设性合并9. ETL 工具:目前市场上有三种 ETL(抽取,装载,转换)工具:1)数据转换引擎 2)通过复制捕获数据 3)代码生成器10. 元数据:用于数据仓库,既描述了数据本身,又表示了数据环境和数据的操作。元数据分类:关于数据源的元数据,关于数据模型的元数据,关于数据仓库使用的元数据,和关于数据仓库映射的元数据。元数据属性:(1)定义数据源(2)操作(3)最终用户11. OLAP 定义:联机分析处理处理是一种软件技术,使得分析人员能够迅速一致,交互
8、的从各个方面观察信息,以达到深入处理数据的目的。OLAP 的四个特征:(1)快速响应(2)可分析性(3)多维性(4)信息性OLAP 的十二条准则:1.多维概念视图 2 透明性 3 可访问性 4 一致稳定的报表性能 5客户/服务器体系结构 6 维的等同性 7 动态稀疏矩阵处理 8 多用户支持能力 9 非限定的跨维操作10 直观的数据操作 11 灵活的报表生成 12 不收限制的维和聚集层次。12.OLAP 的基本概念(1)变量:对一个值得度量(2)维:观察问题的角度(3)维层次:观察问题的深度(4)维成员:维的一个取值称为维成员(5)多维数组:一个数据集合的多维取值(6)数据单元:多维数组的取值1
9、3.MOLAP 和 ROLAP 的比较MOLAP:1)数据存储:详细数据用关系表存储在数据仓库中,各种汇总数据保存在多维仓库中,从数据仓库中询问详细数据,从多维数据库中询问总数据。2)技术:由MOLAP 引擎下创建;预先建立数据立体;多维视图存储在陈列中,而不是表格中,可以告诉检索数据矩阵;3)特征:询问响应速度快,能轻松适应多维分析;有广泛的下钻和多层次/.多视角的查询能力ROLAP:1)数据存储:全部数据以关系表存储在数据仓库中;可获得细节的和综合汇总的数据;有非常大的数据容量;从数据仓库中询问所有的数据;2)技术:使用复杂 SOL 从数据仓库中获取数据;ROLAP 引擎在分析中创建数据立
10、方体;表示层能够表示多维的视图3)特征:在复杂分析功能上有局限性,需要用永华的OLAP,向下钻取较为容易,但是跨维向下钻取比较困难。钻取:分为向下钻取(详细数据低粒度)和向上钻取(综合数据高粒度) 。14.OLAP 结构分析工具:1)OLAP 实现:OLAP 结构是基于客户/服务器模式的。15.OLAP 逻辑结构:1)OLAP视图:对于用户来说它是数据仓库或者数据集市中数据的多维逻辑表示,不管数据怎样存储和数据在何处 2)数据存储:要求选择数据实际存储的方式和实际存储的位置,两种常见的选择是多维数据存储和关系数据存储。16.OLAP 物理结构:物理结构包括基于数据存储的两种方式:多维数据存储和
11、关系数据存储。17.数据仓库的设计步骤:1)需求分析 2)概念模型设计 3)逻辑模型设计(获得 E-R 图)4)物理模型设计需求分析:(1)确定主题域:包括主题边界,时间,维表,维层次(2)数据来源(3)数据仓库的设计指标(4)数据刷新频率需求分析目标:构建数据模型。概念模型设计:画出 E-R 图 主题及其联系 优点:直观,易于扩展到星形模型。逻辑模型设计:把设计好的 E-R 图转换为计算机所支持的数据模型物理模型设计:确定存储策略,索引策略E-R 图:描述主题和主题之间的关联关系。逻辑模型的设计步骤:1)主题域进行概念模型到逻辑模型的转换。2)粒度层次划分。3)关系模式定义。4)定义记录系统
12、。主题域进行概念模型到逻辑模型的转换(星型模型的设计步骤)1)确定决策分析需求 2)从需求中识别出事实 3)确定维 4)确定数据汇总水平 5)设计事实表和维表 6)按使用的 DBMS和用户分析工具,证实设计方案的有效性 7)随着需求变化修改设计方案物理模型设计步骤:估计存储容量,确定数据的存储结构,确定索引,确定数据存放位置,确定存储分配。18.数据仓库的开发过程:(1)分析与设计阶段:需求分析-概念设计- 逻辑设计- 物理设计(2)数据获取阶段:数据抽取-数据转换- 数据装载(3)决策支持阶段:信息查询-知识探索(4)维护与评估阶段:数据仓库增长-数据仓库维护-数据仓库评估19,数据仓库的主
13、要功能 1)数据获取 2)数据存储 3)决策分析20 数据粒度:是指数据仓库的数据中保存数据的细化程度货综合程度的级别。细化程度月息,粒度级别就越小,反之,粒度级别越大。21.数据挖掘过程1.数据准备:1)数据选择 2)数据预处理 3)数据转换2 数据挖掘3 结果测评22 数据挖掘对象:1)关系数据库 2)文本 3)图像与视频数据4)WEB 数据23 数据挖掘任务:关联分析,时序模式,聚类,分类,偏差检测,预测DW 与 DM 的关联区别:DW 是数据存储技术,DM 是一种算法、方法。关联:DM 是 DW 的前端分析工具。DW 为 DM 做好数据准备,DM为 DW 做数据支持发现。数据仓库运行结构:图 p23