1、数据仓库与ETL的实现过程,设计数据仓库,Cube多维数据集,数据仓库,源系统,客户端,设计数据仓库 导入数据仓库 建设Cubes 查询数据,1,3,4,查询工具 报表 分析 数据挖掘,2,数据仓库的星型结构,Employee_Dim,EmployeeKey,EmployeeID . . .,EmployeeKey,Time_Dim,TimeKey,TheDate . . .,TimeKey,Product_Dim,ProductKey,ProductID ProduceName ProductBrand ProductCategory . . .,ProductKey,Customer_Di
2、m,CustomerKey,CustomerID . . .,CustomerKey,Shipper_Dim,ShipperKey,ShipperID . . .,ShipperKey,Sales_Fact,TimeKey EmployeeKey ProductKey CustomerKey ShipperKey,Units Price . . .,TimeKey,CustomerKey,ShipperKey,ProductKey,EmployeeKey,维度键,维度与事实,一个数据仓库包括了 多个中央事实表 Fact Table 多个维度外键和多个可以分析的指标 多个维度表 Dimensio
3、n Tables 可以分析的角度,ETL过程,数据从数据源向目标数据仓库抽取(Extract)、转换(Transform)、装载(Load)的过程,ETL过程,构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。,抽取:将数据从各种原始的业务系统中读取出来。 转换:按照预先设计好的规则将抽取得数据进行转换、清洗,以及处理一些冗余、歧义的数据,使本来异构的数据格式能统一起来。 装载:将转换完的数据导入到数据仓库中。,ETL举例,导入,合并,计算,查找,案例背景,保健品销售部门,各分部门将销售情况记录 在各自的表中,记录方
4、式也是不一样的要求计算出各种产品各个员工07年的销售情况,店面 网售 Pos,DW,SQL,ProductName,ProductStyle,ProductClass,ProductName,ProductClass,ProductStyle,ProductName,ProductClass,ProductClass,ProductName,ProductStyle,ProductStyle,GroupeName,EmployeeName,GroupeName,GroupName,EmployeeName,EmployeeName,GroupeName,EmployeeName,维度表的抽取,源表,源表,源表,维度表,ProductName,ProductClass,ProductStyle,ProductName,ProductClass,ProductStyle,ProductKey,ProductKey,事实表的抽取,源表,维度表,事实表,DEMO,谢谢!,