1、摘 要基于 Oracle 和 IBM DB2 数据仓库工具分析【摘要】随着信息化的发展,数据仓库得到了越来越多企业的重视,也使得数据仓库技术得到了飞速的发展。目前市场上数据仓库产品及其解决方案品种繁多,产品定位不同,各有特点。本文就以 Oracle 和 IBM DB2 为例,对它们在数据仓库解决方案运用到的主要工具进行了详细的分析,为更多的企业在数据仓库方案及工具的选择提供参考。本文首先对数据仓库一系列相关的概念和技术作了简单的介绍,作为基本的知识准备和积累,然后根据数据仓库的体系结构分别对 Oracle 和 IBM 在数据仓库建设中用到的各种主要工具,进行了详细分析,介绍各种工具的特点和优势
2、。最后利用 Oracle 在数据仓库构建方面一个强大的集成工具 Oracle Warehouse Builder 以一个简单实例来实现 ETCL 过程,可以更好的认识这个工具以及熟悉 ETCL 这个在数据仓库构建中极其重要的过程。【关键词】数据仓库 Oracle OWB ETCLAbstractThe Analysis Of Data Warehouse Tools Based On Oracle And IBM DB2AbstractWith the development of information techonology, more and more enterprises begin
3、 to realize the importance of the data warehouse,so the rapid development of the data warehouse happens.At present,the data warehouse products have wide variety and different features in the market.The paper maked detailed analysis about the main tools of the data warehouse solution with Oracle and
4、IBM as examples.Many enterprises will benefit from it as reference.The paper first introduced the knowledge and techonology related to the data warehouse briefly.They will be good foundation and accumulation.Then,The paper maked detailed analysis about the main tools of the data warehouse solution f
5、rom Oracle and IBM.In the meantime,it also introduced the feature and advantage of those tools.Finally,the process of ETCL was achieved through Oracle Warehouse Builder tool with an simple example,so we can have better understanding of the tool and be familiar with the process of ETCL which is very
6、important in the data warehouse building.Key Words Data Warehouse Oracle OWB ETCL目 录目 录第一章 引言 11.1 引言 .11.2 本文组织结构 .2第二章 数据仓库原理 32.1 什么是数据仓库 .32.2 数据仓库的特点 .32.3 数据仓库体系结构 .42.4 数据仓库相关概念 .62.4.1 元数据 62.4.2 联机分析处理 62.4.3 数据集市 82.4.4 ETCL92.5 小结 .9第三章 Oracle 数据仓库工具分析 103.1 Oracle 数据仓库的体系结构 103.2 Oracle
7、数据仓库的平台-Oracle 10g .123.3 Oracle 数据仓库设计和建立工具-Warehouse Builder 143.4 Oracle 联机分析处理(OLAP)工具-Oracle Express .163.4.1 Oracle Express 服务器 163.4.2 Oracle OLAP 的强大的开发工具 .183.5 Oracle 即席查询分析工具-Oracle Discoverer 193.6 Oracle 企业级的报表工具-Oracle Reports .243.7 Oracle 数据挖掘工具-Data Mining Suite 263.8 小结 28第四章 IBM 数
8、据仓库工具分析 .294.1 IBM 数据仓库体系结构 .294.2 海量数据仓库引擎-IBM DB2 UDB 294.3 信息集成平台-DB2 Information Integrator .30目 录4.4 ETCL 工具-Warehouse Manager 314.5 DB2 多维分析工具-DB2 Cube Views .334.6 多维分析服务器-DB2 OLAP Server 334.7 数据智能挖掘-DB2 Intelligent Miner 354.8 前端分析组件-DB2 Alphablox 354.9 小结 36第五章 基于 Oracle Warehouse Builder
9、的数据 仓库 ETCL 过程实现 375.1 ETCL 前准备工作 385.2 定义数据源 395.3 定义目标库 405.4 建立映射 405.5 部署 425.6 执行装载 435.7 小结 44第六章 总结与展望 .456.1 总结 456.2 发展前景 46致谢 48参考文献 49ContentsContentsChapter 1 Introduction11.1 Introduction .11.2 The Organizational Structure Of The Paper2Chapter 2 The Principle Of Data Warehouse.32.1 What
10、 Is Data Warehouse .32.2 The Feature Of Data Warehouse32.3 The Architecture Of Data Warehouse .42.4 Related Concepts Of Data Warehouse62.4.1 Metadata 62.4.2 On-Line Analytical Processing(OLAP) .62.4.3 Data Mart .82.4.4 ETCL 92.5 Summary9Chapter 3 The Analysis Of Data Warehouse Tools On Oracle103.1 T
11、he Architecture Of Data Warehouse On Oracle.103.2 The Platform Of Data Warehouse On Oracle-Oracle 10g.123.3 The Designing And Building Tool Of Data Warehouse On Oracle-Warehouse Builder .143.4 The OLAP Tool Of Oracle-Oracle Express163.4.1 Oracle Express Server.163.4.2 The Strong Developing Tool Of O
12、racle OLAP .183.5 The Impromptu Query Tool Of Oracle-Oracle Discoverer.193.6 The Enterprise-Class Reporting Tool Of Oracle-Oracle Reports 243.7 The Data Mining Tool Of Oracle-Data Mining Suite .263.8 Summary.28Chapter 4 The Analysis Of Data Warehouse Tools On IBM 294.1 The Architecture of Data Wareh
13、ouse On IBM 294.2 Massive Data Warehouse Engine-IBM DB2 UDB.294.3 Information Integration Platform-DB2 Information Integrator 30Contents4.4 ETCL Tool-Warehouse Manager.314.5 The DB2 Multi-Dimensional Analysis Tool-DB2 Cube Views334.6 The DB2 Multi-Dimensional Analysis Server-DB2 OLAP Server .334.7 I
14、ntelligent Data Mining-DB2 Intelligent Miner 354.8 Front End Analysis Of Components-DB2 Alphablox .354.9 Summary.36Chapter 5 The Data Warehouse ETCL Process Of Achieving With Oracle Warehouse Builder .375.1 Preparatory Work Of ETCL 385.2 Define Data Sources 395.3 Define Target Warehouse405.4 The Est
15、ablishment Of Mapping405.5 Deploy 425.6 Load.435.7 Summary.44Chapter6 Conclusion And Prospects 456.1 Conclusion 456.2 Development Prospects .46Acknowledgements .48References 49基于 Oracle 和 IBM DB2 数据仓库工具分析1第一章 引言1.1 引言随着计算机技术的飞速发展和企业界不断提出新的需求,数据仓库技术应运而生。传统的数据库技术是单一的数据资源,即数据库为中心,进行从事事务处理、批处理到决策分析等各种类型
16、的数据处理工作。近年来,随着计算机应用,网络计算,开始向两个不同的方向拓展,一是广度计算,一是深度计算,广度计算的含义是把计算机的应用范围尽量扩大,同时实现广泛的数据交流,互联网就是广度计算的特征,另一方面就是人们对以往计算机的简单数据操作,提出了更高的要求,希望计算机能够更多的参与数据分析与决策的制定等领域。特别是数据库处理可以大致地划分为两大类:操作型处理和分析型处理(或信息型处理) 。这种分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。数据库系统作为数据管理手段,从它的诞生开始,就主要用于事务处理。经过数十年的
17、发展,在这些数据库中已经保存了大量的日常业务数据。传统的业务系统一般是直接建立在这种事务处理环境上的。随着技术的进步,人们试图让计算机担任更多的工作,而数据库技术也一直力图使自己能胜任从事务处理、批处理到分析处理的各种类型的信息处理任务。后来人们逐渐认识到,在目前的计算机处理能力上,根本无法实现这种功能,而且,另一方面,事物处理和分析处理具有极不相同的性质,直接使用事务处理环境来支持决策是行不通的。目前,数据仓库正逐渐步入商业主流。那些精明的公司希望把已经广泛收集到的数据建成数据仓库,以便帮助他们在商业投资方面产生更大的回报。同时数据仓库的实施周期不能太长,费用也不能太高,否则就不能达到直接促
18、进商业运作的预期目标。 早期的数据仓库实施人员通常是建立大型数据仓库,这些数据仓库试图跨越所有的企业,把所有公司的数据集中起来放进一个单一的数据库中,提供一个统一的视图。这一方法包含了许多工作,尤其需要长期的实施时间和巨额的支出,这些不利之处使得用户丧失信心并且错过许多商业机会。许多公司虽然为此进行了大量的投资,但是最终收效甚微。怎样开发一个企业级数据仓库呢?我们知道数据集市是聚焦的、面向主题的数据仓库,与跨越企业的集中式数据仓库相比,它更易于使用,并且建立的速度更快,花费也更为低廉。现在,许多集成商正在大力提倡数据集市方案,把它看作是一种可以毫不费力地取得集中式数据仓库优势的途径。不幸的是,
19、这种所谓的“梦幻“方法的价格通常高于广告上的宣传。 第一章 引言2公司需要找到一种数据仓库解决方案,它不仅能提供数据集市的优点,如快速、容易、简单、灵活并且花费较少,而且不需要牺牲企业对集中式数据仓库的利用优势,如对一致性、可控制性和集成化的需求。 随着我国企业信息化建设步伐的不断加快,全球性市场竞争的加剧,越来越多的企业开始建设自己的数据仓库系统,希望能对历史数据进行具体而又有针对性的分析与挖掘,以期从中发现新客户和客户新的需求。目前市场上各种数据仓库产品及其解决方案品种繁多,且大多属于“舶来品” ,产品定位不同,各有特点,究竟选择哪家的产品能更适合自己的企业特点与未来发展 6?本文就其中比
20、较主流的 Oracle 和 IBM 数据仓库产品工具进行了分析和总结,来全面的展示它们的特点,作为企业选择的参考,也让更多的人了解到数据仓库工具的相关信息。1.2 本文组织结构本文主要对 Oracle 和 IBM DB2 数据仓库主要工具进行了分析并完成了一个利用 Oracle Warehouse Builder 工具进行 ETL 过程的简单实例。具体结构如下:本文分为六章,每章大致内容为:第一章 引言:主要介绍了数据仓库的发展状况及数据仓库工具发展的现况,并对文章结构进行了介绍;第二章 数据仓库原理:主要是对数据仓库相关的一些概念和技术进行了简单的介绍;第三章 Oracle 数据仓库工具分析
21、:主要对目前 Oracle 在数据仓库解决方案中用到的各种工具进行了详细的分析;第四章 IBM 数据仓库工具分析:主要对目前 IBM 在数据仓库解决方案中用到的各种工具进行了详细的分析;第五章 基于 Oracle Warehouse Builder(OWB)的数据仓库 ETL 过程实现:以一个简单的实例在 OWB 中来实现 ETL 过程;第六章 总结与展望:对论文做了一个简单的总结,并对自己在实现过程中遇到的一些主要问题及解决方法做了举例说明,最后对数据仓库的未来发展做了简单介绍。基于 Oracle 和 IBM DB2 数据仓库工具分析3第二章 数据仓库原理2.1 什么是数据仓库数据仓库概念始
22、于上世纪 80 年代中期,首次出现是在被誉为“数据仓库之父”William H.Inmon 的建立数据仓库一书中。随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、非易失的数据集合” 。数据仓库并没有严格的数据理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。通常按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操
23、作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作型数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持 2。2.2 数据仓库的特点(1)面向主题的数据集合。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。数据仓库通常围绕一些主题,如“产品” 、 “销售商” 、 “消费者”等来进行组织。数据仓库关注的是决策者的数据建模与分析,而不针对日常操
24、作和事务的处理。因此,数据仓库提供了特定主题的简明视图,排除了对于决策无用的数据。(2)集成的数据集合。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。(3)相对稳定的数据集合。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般
25、有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。第二章 数据仓库原理4(4)反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测 5。综上所述,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。数据仓库也常常被视为一种体系结构,通过将异种数据源中的数据集成在一起而构成,支持结构化和专门的查询、分析报告和决策制定。2.3 数据仓库体系结构图 2.
26、1 数据仓库系统体系结构如图 2.1 所示,数据仓库的实施分数据获取、数据组织、数据应用和数据展示四个功能区。(1)数据获取区数据获取区主要包含数据源、数据转换区、数据质量管理三个组成部分,实现数据仓库模型建设、数据质量管理、数据源的定义、数据抽取、转换清洗及加载等功能。 数据源数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于 RDBMS 中的各种业务处理数据和各类文档数据。外部信息包基于 Oracle 和 IBM DB2 数据仓库工具分析5括各类法律法规、市场信息和竞争对手的信息等等。 数据转换区由于数据仓库的数据来源十分复杂,这些数据在进
27、入数据仓库之前必须在数据转换区内进行预处理,完成数据获取、数据转换、数据加载等工作,并实现数据质量跟踪监控以及元数据抽取与创建等工作。 数据质量管理数据仓库的数据质量不但影响数据抽取转换的开发周期和日常维护,并且还直接影响到最终结果。因此在数据仓库的项目中,将数据质量的评估、管理和清洗设计进去,并融合在数据仓库和 ETL 的建设过程中。 (2)数据组织区和数据应用区数据组织区和数据应用区主要实现数据的存储与管理。是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的数据组织管理方式决定了其有别于传统数据库的特性,也决定了对外的数据表现形式。主要技术涉及多维数据库、海量数据管
28、理、数据索引与监视、数据质量管理、元数据管理等方面。数据组织区包含了数据仓库建模,以及数据的集成与分解、概括与聚集、预算与推导、翻译与格式化、转换与映像等功能。元数据管理主要包含了元数据游览与导航,元数据创建,创建词汇表等功能。数据仓库实体模型是直接反映数据仓库业务的逻辑视窗,根据组织的业务发展规划与策略而制定。实体模型的设计应由业务人员与模型专家共同完成,要统筹规划、总体设计、分步实施,既要考虑模型的完整性、灵活性,也要关注扩展能力和时效性,可以先从业务问题紧迫、数据源较完备的主题入手。实体模型设计一般采用第三范式、星型模型、雪花状模型等。数据仓库的存取与使用主要为用户提供决策分析和知识挖掘
29、等功能,包括数据仓库存取与检索、分析与报告两部分功能。其中,数据仓库的存取与检索为用户提供了访问数据仓库或数据集市的功能,可以将用户所检索的数据转换为多维数据并存入多维数据库,包含数据仓库的直接存取,数据集市存取,数据集市重整,转换为多维结构,创建局部存储等功能;数据仓库的分析与报告为用户使用数据仓库提供了一组工具,用于帮助用户对数据仓库或数据集市进行联机分析或数据挖掘,包括报表处理、分析与决策支持、业务建模与分析、数据挖掘等工具。OLAP 服务器,对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、第二章 数据仓库原理6多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、
30、MOLAP 和 HOLAP。ROLAP 基本数据和聚合数据均存放在 RDBMS 之中;MOLAP 基本数据和聚合数据均存放于多维数据库中;HOLAP 基本数据存放于 RDBMS 之中,聚合数据存放于多维数据库中。(3)数据展示区数据展示区是数据仓库的人机会话接口,包含了多维分析、数理统计、报表查询、即席查询、关键绩效指标监控和数据挖掘等功能,并通过报表、图形和其它分析工具,方便用户简便、快捷地访问数据仓库系统中的各种数据,得到分析结果。数据展示区常用的标准报表和即席查询报表是基于各类结构化数据的报表输出,而各类结构化数据的内容包含关系型数据库、多维数据库、XML、文本及其他数据结构等 6。2.
31、4 数据仓库相关概念2.4.1 元数据元数据最本质,最抽象的定义为:data about data (关于数据的数据)。它是一种广泛存在的现象,在许多顶域有其具体的定义和应用。在数据仓库顶域中,元数据被定义为:描述数据及其环境的数据。一般来说,它有两方面的用途。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中
32、产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况; (5)衡量数据质量。元数据为访问数据仓库提供了一个信息目录(information directory) ,这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。 基于 Oracle 和 IBM DB2 数据仓库工具分析72.4.2 联机分析处理联机分析处理的概念最早是由关系数据库之父 E.F.Codd 于 1993 年提出的,他同时提出了关于 OLAP
33、 的 12 条准则。OLAP 的提出引起了很大的反响,OLAP 作为一类产品同联机事务处理明显区分开来。当今的数据处理大致可以分成两大类:联机事务处理 OLTP(On-Line Transaction Processing) 、联机分析处理 OLAP(On-Line Analytical Processing) 。OLTP 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。如表 2.1 列出了 OLTP 与 OLAP 之间的比较。表 2.1 OLTP 与 OLAP 的比较
34、OLTP OLAP用户 操作人员,低层管理人员 决策人员,高级管理人员功能 日常操作处理 分析决策DB 设计 面向应用 面向主题数据 当前的, 最新的细节的, 二维的分立的 历史的, 聚集的, 多维的集成的, 统一的存取 读/写数十条记录 读上百万条记录工作单位 简单的事务 复杂的查询用户数 上千个 上百个DB 大小 100MB-GB 100GB-TBOLAP 是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP 的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维“这个概念。“维”是人们观
35、察客观世界的角度,是一种高层次的类型划分。 “维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此 OLAP 也可以说是多维数据分析工具的集合。OLAP 的基本多维分析操作有钻取(roll up 和 drill down) 、切片(slice)和切块(dice) 、以及旋转(pivot) 、drill across、drill through 等。 钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down) 。roll up 是在某一维上将低层次的
36、细节数据概括到高层次的汇总数据,或者减少维数;而 drill down 则相反,它从汇总数据深入到细节数据进行观察或增加新维。 切片和切块是在一部分维上选定第二章 数据仓库原理8值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。 旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换) 。OLAP 有多种实现方法,根据存储数据的方式不同可以分为 ROLAP、MOLAP、HOLAP。ROLAP 表示基于关系数据库的 OLAP 实现(Relational OLAP) 。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP 将多维数据库的
37、多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了“星型模式“。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式“。MOLAP 表示基于多维数据组织的 OLAP 实现(Multidimensional OLAP) 。以多维数据组织方式为核心,也就是说,MOLAP 使用多维数组存储数据。多维数据在存储中将形成“立方块(Cube)“的结构,在 MOLAP 中对“立方块“的“旋转“、“切块“、“切片“是产
38、生多维数据报表的主要技术。HOLAP 表示基于混合数据组织的 OLAP 实现(Hybrid OLAP) 。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。还有其他的一些实现 OLAP 的方法,如提供一个专用的 SQL Server,对某些存储模式(如星型、雪片型)提供对 SQL 查询的特殊支持。OLAP 工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、查询和报表。维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成
39、的多维数组则是 OLAP 分析的基础,可形式化表示为(维 1,维 2,维 n,度量指标) ,如(地区、时间、产品、销售额) 。多维分析是指对以多维形式组织起来的数据采取切片(Slice) 、切块(Dice) 、钻取(Drill-down 和 Roll-up) 、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息 9。根据综合性数据的组织方式的不同,目前常见的 OLAP 主要有基于多维数据库的 MOLAP及基于关系数据库的 ROLAP 两种。MOLAP 是以多维的方式组织和存储数据,ROLAP 则利用现有的关系数据库技术
40、来模拟多维数据。在数据仓库应用中,OLAP 应用一般是数据仓库应用的前端工具,同时 OLAP 工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。基于 Oracle 和 IBM DB2 数据仓库工具分析92.4.3 数据集市数据集市(Data Mart) ,为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据。从范围上来说,数据集市是从企业范围的数据库、数据仓库,或者是更加专业的数据仓库中抽取出来的。数据中心的重点就在于它迎合了专业用户群体的特殊需求,在分析、内容、表现,以及易用方面。数据中心的用户希望数据是由他们熟悉的术语表现的。在数据仓
41、库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。2.4.4 ETCLETCL 阶段包括数据抽取(Extract)、转换(Transform)、清洗(Clean)、装载(Load)等任务。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去,完成数据仓库信息内容的前期任务。 ETCL 是 BI/DW(商务智能/数据仓库)的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目
42、标数据仓库转化的过程,是实施数据仓库的重要步骤。(1)数据抽取:首先制定数据接口规范,按照规范中规定的抽取频度定期到业务数据库抽取相应的数据单元,按数据接口规范中约定的格式保存,并传送到接口的服务器,经过数据清洗、转换后被加载到数据仓库中。(2)数据清洗:在收集到所有从业务数据库得到的相关信息后,数据必须在放入数据仓库之前进行清理,以获得一个适当的统一的格式和定义。(3)数据转换:为数据仓库收集数据的过程是从业务数据库开始的,中间会历经数据转换的过程,变成数据仓库需要的数据。在进行转换之前,必须先进行数据映射,明确定义数据仓库的每个表、每个字段来自源系统或接口单元中的哪张表、哪个字段。(4)数
43、据加载:从抽取、清洗、转换后的数据要加载到数据仓库中,这时需要关注加载工具的性能,因为每次加载的数据量可能很大,要保证它们能够在规定的时间窗口内加载完毕。第二章 数据仓库原理102.5 小结本章从对数据仓库的认识及体系结构的分析,到相关的几个重要的概念做了简单的介绍,为接下来数据仓库的工具分析做好理论准备和知识积累。第三章 Oracle 数据仓库工具分析11第三章 Oracle 数据仓库工具分析3.1 Oracle 数据仓库的体系结构Oracle 公司作为世界上最大的数据库厂家,凭借其在技术、资源和经验上的优势,一直致力于为企业提供最能满足企业竞争需要的数据仓库解决方案。Oracle 的数据仓
44、库解决方案包含了业界领先的数据库平台、开发工具和应用系统。Oracle 数据仓库突破了现有数据仓库产品的局限,能够帮助企业以任何方式访问存放在任何地点的信息,在企业中的任何层次上,满足信息检索和商业决策的需求。Oracle 数据仓库解决方案由下面几个部分组成: 技术基础- Oracle Warehouse Builder-数据仓库构建工具- Oracle 10g-数据仓库- 商业智能工具集 市场发展分析应用- Oracle CRM客户关系管理系统- Oracle Sales Analyzer销售分析系统 企业运作分析应用- Oracle Activity Based Management: -
45、活动成本管理- Oracle Financial Analyzer财务分析器 商业智能应用- Oracle Business Information System企业商业智能应用系统 专家服务- Oracle Consulting数据仓库实施顾问咨询服务 以客户为中心的合作伙伴关系- 数据仓库技术推动计划 系统集成商推动计划- 数据仓库平台市场推动计划基于 Oracle 和 IBM DB2 数据仓库工具分析12图 3.1 Oracle 数据仓库体系结构Oracle 数据仓库支持:1、任何数据源搜集在 Oracle 数据仓库中的数据来源众多,包括内部存储的业务数据和外部的数据。在传统上,数据仓库
46、中的大多数数据来自内部业务系统,如业务系统或各客户信息系统等方面的数据。然而外部来源的数据也越来越普通,并且将会提供比内部来源更多的数据。上述两种数据来源应该融合在一个单一的存储系统中,并且加以管理,从而为最终用户提供对这两种数据源的无缝访问。Oracle 提供各种网关(gateway)及 Sql*Loader 以及合作伙伴提供的各种工具来实现不同数据源数据的加载。2、任何数据考虑到现在需访问的数据仓库的用户范围,系统设计者面临着纷繁各异的需求。对数据的访问必须快捷,直观和直接。大多数用户需要直接查询和深入的能力,而另外一些需要更复杂的分析能力。同时数据仓库必须能够处理新型格式的数据,如声音,
47、视像,文字和空间数据。而且,日益增加的用户提出大量历史性需求,往往导致超大规模数据库(VLDB)的出现。为了满足这些需求,对作为数据仓库核心的数据库系统提出了很高的要求,而 ORACLE数据库核心能够完全满足这些需求。3、任何访问需求Oracle 提供了基于数据仓库的范围广泛的工具集,能够帮助各种类型的用户访问数据仓库中存储的数据,我们把数据仓库的用户分为两类:第一类是对数据进行随意查询和报告,深入和旋转,这类用户需要一种直接和直观的工具,帮助他们轻松地访问数据,从而作出明智的商业决策。另外一类用户是企业的高级管理者和决策者,他们需要进行更复杂更高级更第三章 Oracle 数据仓库工具分析13
48、完全的分析(建摸,预测和假设分析等) ,以支持制定商业策略。上述两类用户体现了整个企业对于信息访问的需求。今天的数据仓库已经突破了管理人员和分析人员的范围,现在各类企业人员都在使用数据仓库,决定选用何种工具实施数据仓库,变得越来越重要。Oracle 提供完整的产品工具集满足上述数据仓库的用户需求: Oracle 10g 数据仓库核心,最新版本的数据库产品,专门针对数据仓库进行了很多的改进,包括对更大数据量的支持(PB 级),对更多用户数的支持(10000+),更多数据仓库专用函数的支持等。 Oracle Warehouse Builder 可以为数据仓库解决方案提供完整、集成的实施框架,以前只
49、能由单独工具完成的功能现在能够在同一环境中实现,这些功能包括:数据建模、数据抽取、数据转移和装载、聚合、元数据的管理等。Oracle Warehouse Builder 还实现了数据仓库不同部件如关系数据库、多维数据库以及前端分析工具的集成,为用户提供完整的数据仓库和商业智能系统。 Oracle Developer/Developer Server 企业级的应用系统开发工具,具有面向对象和多媒体的支持能力。可同时生成 Client/Server 及 Web 下的应用。支持团队开发,具有极高的开发效率及网络伸缩性。 Oracle Discoverer 是最终用户查询,报告,深入和旋转和 WEB 公布工具,能够帮助用户迅速访问关系型数据仓库,从而使他们作出基于充分信息的决策,因此类工具直接基于关系数据库我们也称此类工具为 ROLAP 型分析工具。满足分析报表功能用户的需求。 Oracle Express 产品系列 是基于多维数据模型 OLAP 分析和 WEB 访问工具,能够提供复杂的分析能力