收藏 分享(赏)

复旦大学精品课程《商务智能》课件数据仓库课件复习精品资料.ppt

上传人:微传9988 文档编号:2812466 上传时间:2018-09-28 格式:PPT 页数:59 大小:1.84MB
下载 相关 举报
复旦大学精品课程《商务智能》课件数据仓库课件复习精品资料.ppt_第1页
第1页 / 共59页
复旦大学精品课程《商务智能》课件数据仓库课件复习精品资料.ppt_第2页
第2页 / 共59页
复旦大学精品课程《商务智能》课件数据仓库课件复习精品资料.ppt_第3页
第3页 / 共59页
复旦大学精品课程《商务智能》课件数据仓库课件复习精品资料.ppt_第4页
第4页 / 共59页
复旦大学精品课程《商务智能》课件数据仓库课件复习精品资料.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

1、数据仓库Data Warehouse赵卫东 博士复旦大学软件学院1事务型处理n 事务型处理:即操作型处理,是指对数据库的联机操作处理 OLTP。 事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复和例行性)。n 在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。2分析型处理n 分析型处理:用于管理人员的决策分析,例如 DSS、 EIS和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。n 分析型处理经常要访问大量的历史数据,支持

2、复杂的查询。n 分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。3事务型处理数据和分析型处理数据的区别特性 OLTP OLAP特征面向用户功能DB 设计数据汇总视图工作单位存取关注操作访问记录数用户数DB规模优先度量操作处理事务办事员、 DBA、 数据库专业人员日常操作基于 E-R, 面向应用当前的;确保最新原始的,高度详细详细,一般关系短的、简单事务读 /写数据进入主关键字上索引 /散列数十个数千100MB到 GB高性能,高可用性事务吞吐量信息处理分析知识工人(如经理、主管、分析员)长期信息需求,决策支持星形 /雪花,面向主题历史的;跨时间维

3、护汇总的,统一的汇总的,多维的复杂查询大多为读信息输出大量扫描数百万数百100GB到 TB高灵活性,端点用户自治查询吞吐量,响应时间4数据库系统的局限性n 数据库适于存储高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。n 决策分析型数据是多维性,分析内容复杂。n 在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。 DB2OracleSQLServerExcelspreadsheetXMLdocumentInter

4、netSSLclientapplicationsBrowsersData managementlayerApplicationlayerWebservers5数据库系统的局限性(续)n 当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。n 决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力 。6多库系统的限

5、制n 可用性:源站点或通信网络故障将导致系统瘫痪 , 源站点不能通过网络在线联入多库系统。n 响应速度:全局查询多级转换和通信传输 , 延迟和低层效率影响响应速度。n 系统性能:总体性能取决于源站点中性能最低的系统 , 影响系统性能的发挥 ;n 系统开销:每次查询要启动多个局部系统 , 通信和运行开销大。 7实施数据仓库的条件n 数据积累已达到一定规模n 面临激烈的市场竞争n 在 IT方面的资金能得到保障 8数据仓库的发展n 自从 NCR公司为 Wal Mart建立了第一个数据仓库。n 1996年,加拿大的 IDC公司调查了 62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的

6、收益。n 早期的数据仓库大都采用当时流行的客户 /服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。n IBM的实验室在数据仓库方面已经进行了 10多年的研究,并将研究成果发展成为商用产品。n 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。9数据仓库 (Data Warehouse)n 数据仓库用来保存从多个数据库或其它信息源选取的数据 , 并为上层应用提供统一 用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企

7、业的综合信息及导出信息。n 数据仓库是作为 DSS服务基础的分析型 DB, 用来存放大容量的只读数据,为制定决策提供所需要的信息。n 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。n 以 1992年 W H Inmon出版 Building the Data Warehouse 为标志,数据仓库发展速度很快。 W H Inmon被誉为数据仓库之父。n W H Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。10面向主题n 数据仓库中的数据是按照各种主题来组织的。主题在数据

8、仓库中的物理实现是一系列的相关表,这不同于面向应用环境。如保险公司按照应用组织可能是汽车保险、生命保险、伤亡保险,而数据仓库是按照客户、政策、保险金和索赔来组织数据。n 面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。11集成性n 数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数

9、据源的数据集成起来,使之遵循统一的编码规则。12稳定性n 数据仓库内的数据有很长的时间跨度,通常是 5-10年。n 数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作 .n 数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。13时变性n 时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉 OLTP数据库中变化的数据,生成

10、数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。14支持管理决策n 数据仓库支持 OLAP( 联机分析处理)、数据挖掘和决策分析。 OLAP从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。15BI系统 VS决策盲点n 某大型国有企业老总当他查看近十年企业的生

11、产和运营数据时,手边得到了各种各样不同的数据报表。这些数据报表大致可以分成两种类型:一种是两年前、即 ERP上线之前的,这是一些简单、杂乱而又枯燥的数字;另一种是有了 ERP以后的,数据变得清楚而有条理起来,同时还有来自 ERP、CRM、 SCM以及计费业务等不同应用的数据和各种分析报告。在仔细查看这些报表之后,这位国企老总惊讶地发现,不同的系统可以得出截然相反的两种结论。例如某一产品,它的动态成本反映在 ERP系统和 CRM、 SCM系统里面相差很大,如果引用 ERP和 CRM里面的数据,它就是一款很成功、销量很好的产品,但在 SCM里面来看,它的采购和物流成本过高,导致了这款看起来很成功的

12、产品实际上是一笔赔钱的买卖。16BI系统 VS决策盲点 (续 )n 其实从这些来自不同系统的数据基础产生不同的判断很正常,因为这些系统并不会去周密地 “思考 ”在自己 “职责 ”之外的事情。这样就给企业的领导提交了相当多顾此失彼的分析报告,结果就是导致了许多市场决策上的混乱和失误。n 把企业的内部数据和外部数据 (企业内部数据就是指上述通过业务系统 SCM、 ERP、 CRM等收集到的数据,这些数据可能在不同的硬件、数据库、网络环境中,为不同的业务部门服务。外部数据是市场信息和外部竞争对手的信息 )。进行有效的集成,形成直观的、易于理解的信息,再进行分析和思考,为企业的各层决策及分析人员使用。

13、17数据仓库的技术要求n 复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。n 对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。n 对进行高层决策的最终用户的界面支持:提供各种分析应用工具。18数据仓库系统的结构19数据仓库系统的结构 (2)20数据仓库系统的结构 (3)21数据仓库流程22Tivoli Storage ManagerFile Edit View HelpToolsBack Forw

14、ard Stop Home SearchRefreshxHistory Mail PrintAddress: http:/my_InternetWelcome Carol Jones Customize Home Page Edit Logoutx! !My Weatherclick on city for extended forecastor search by city or zip codeParisNew York73F91Fget forecastPast Due Service Requests Sales cost analysis20000150001000050002Q00

15、 3Q00 4Q00 1Q01Centralnextprior ?Banco Azul - Todays NewsCorporate NewsCompetitor News?CEO Christoph Dermond comments on stock split?Minimizing risk in B2B relations ?Special employee credit offers?New Privacy Executive Post named ?SomeCo talks with EvilEmpire Bank sparks merger rumors?ToughCo loses

16、 fight with Banco Azul for $821M industrial loan?Asian invasion into retail securitiesBanco azul 07/02/2001 19:29:20WPS v1.2 - The Cutting EdgeWebSphere Portal ServerContent ManagerFederatedSearchKPIsIntelligentMinerQMF ,BO, Brio, etc.DB2 OLAPDB2DB2DataWarehousevirtual tablesReports &ContentMartsIBM

17、 IBMDB2WarehouseManagerProductiondatasourcePurchasedDataERP, CRM, SCM, datasourcesRedBrickIBM 信息分析框架23数据仓库系统的组成( 1)n 源数据:数据仓库中的数据来源于多个数据源,它不仅可以是企业内部的关系型数据库,还包括非传统数据,如文件、 HTML文档等。n 数据仓库管理系统:n 元数据库及元数据管理部件:元数据库用来存储由定义部件生成的关于源数据、目标数据、提取规则、转换规则以及源数据与数据仓库之间的映射信息等。n 数据转换部件:该部件把数据从源数据中提取出来,依定义部件的规则将不同数据格式的

18、源数据转换成数据仓库的数据格式并装载进数据仓库。n 数据集成部件:该部件根据定义部件的规则、统一各源数据的编码规则,并净化数据,根据元数据中定义的数据组织形式对数据进行汇总、聚合计算。n 数据仓库管理部件:它主要用于维护数据仓库中的数据,备份、恢复数据以及管理数据的安全权限问题。24数据仓库系统的组成( 2)n 数据仓库前端工具集n 查询 /报表工具:以图形化方式和报表方式显示数据,帮助了解数据的结构、关系以及动态性。n OLAP工具:通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,便于用户对数据进行深入的分析和观察。n 数据挖掘工具:从大量数据中挖掘出具有规律性的知识,以及数据之

19、间的内在联系。n 前端开发工具:提供用户编程接口,便于在现有系统的基础上进行二次开发,增强系统的伸缩性。n 数据仓库 :在数据仓库系统中,数据仓库是一个数据存储集合,它的存储形式通常有多维数据库,关系型数据库及其他存储方式。25数据转换n 统一数据编码:数据仓库中的数据从各个数据源提取出来的,尽管经过转换后数据格式已经统一,但数据的编码、描述在各个源系统中都有很大的区别。为了改进数据仓库中数据质量,提高数据仓库中数据的可用性,必须统一数据编码。本系统中编码转换主要包括:n 日期格式转换:大多数业务环境中有许多不同的日期和时间类型,所以,几乎每个数据仓库的实现都必须将日期和时间变换成标准的数据格

20、式。数据仓库必须用单一的模式规定日期和时间信息。n 测量单位的转换:数据仓库中对于数值型字段应保持一致的单位。在元数据库中创建表 Units和 UnitTypes来表示各种单位的换算关系。表 UnitTypes记录了数据仓库系统中的单位类型,初始元数据库中共分六种单位类型:时间单位、货币单位、重量单位、长度单位、面积单位、体积单位。在表 Units中记录了单位名、单位类型以及同类型单位之间的相互转换关系。26转换器的设计与实现n 转换器的功能:数据结构转换和数据类型转换。n 从数据源中提取数据并转换格式的过程:先将各类数据库系统中不同格式的数据转换成文本文件,然后再利用批拷贝命令将数据导入目标

21、系统中。以使数据仓库获得新的数据提供决策分析使用。n 数据准备区的使用:首先从源数据中提取数据,转换成数据仓库所要求的格式后存储在数据仓库的一个称为数据准备区的缓冲区中。在该区域中,可以暂时存储原始数据,然后由集成器对数据进行清理、集成后再装载到数据仓库中。源数据 数据准备区 数据仓库27数据净化n 当数据从源数据库中提取到数据准备区后,必须先进行数据净化才可以装载到数据仓库中去。数据净化主要指对数据字段的有效值检验。有效值的检验通常包括:范围检验、枚举字段取值和相关检验。范围检验要求数据保证落在预期的范围之内,通常对数据范围和日期范围进行检验,如对任何在指定范围之外的日期的发票都应删除。枚举

22、字段取值指对一个记录在该字段的取值,若不在指定的值中,则应该删除。相关检验要求将一个字段中的值与另外一个字段中的值进行相关检验,即在数据库中某个字段应与另一个字段形成外键约束。28监控器捕捉数据变化的途径n 数据仓库提供的是离线数据 , 与源数据存在时间差。n 时标方法:指在数据库中的数据设一个时标,如果新插入或更新一个数据记录,在记录中插入新的时标或加上更新时的时标,然后根据时标判断哪些数据是变化的,并把变化的数据追加到数据仓库中去。n DELTA文件:该文件是由应用产生的,并记录了应用所改变的所有内容。利用 DELTA文件记录数据的变化,不需要扫描整个数据库,所以效率较高,但生成的 DELTA文件的应用并不普遍。n 映象文件:在上次提取数据库数据到数据仓库之后及本次提取数据库数据之前,对数据库分别作一次快照,然后通过比较两幅快照的不同来确定要追加的数据。这种方法需要占用大量的系统资源,对系统的性能影响比较大。n 日志文件:由于日志文件是数据库的固有机制,所以它对系统性能的影响比较小,另外它还有 DELTA文件的优点,提取数据只局限于日志文件而不用扫描整个数据库。所以日志文件是最可行的一种方法。29信息集成服务Copyright IBM Corporation30

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报