1、数据变换,概要,目标,在完成此课以后, 你应该能够做到以下要求: 解释数据质量的重要性 定义术语 “变换” 确定变换的一系列问题 描述变换数据需要的技术 列出可被用做变换数据的工具,数据质量的重要性,颠峰运动,好莱坞,快递比萨,数据质量的好处,数据必须清洗是为了: 选准客户 确定购买模式 辨认客户的性质: 私有和商务 匹配客户 辨认历史数据脏数据必须被移除,标准,定义一个质量策略 .决定一个最优的数据质量级别.,质量改进,考虑操作数据的修改规则记录数据来源 建造一个数据管理工作程序仔细设计清洗过程初始清理和刷新程序可能不同,指导方针,操作数据不应该被直接地在数据仓库中使用操作数据每次增量后必须
2、清洗操作数据不是通过修改应用程序而简单的被确定,解决方法,常规COBOL, 4GL 专业工具 定制的变换过程 业务专家,调查 条件 标准化 集成化,管理,粗糙的数据质量拥有承担责任解决问题数据质量管理员,变换,变换避免了操作数据所带来的异常现象 清洗 标准化 显示面向主题数据,提取,变换,仓库,输送 (装载),源数据的不一致,无唯一键 数据命名和编码不一致 组之间数据不一致 拼写和文本矛盾,90328575 Oracle Corp 100 NE 1st Street, Tampa,90328575 Oracle 100 NE. First St., Tampa,90238475 Oracle
3、Services 100 North East 1st St., FLA,90233479 Oracle Limited 100 N.E. 1st St.,90233489 Oracle Computing 15 Main Road, Ft. Lauderdale,90234889 Oracle Corp. UK 15 Main Road, Ft. Lauderdale, FLA,90345672 Oracle Corp UK Ltd 181 North Street, Key West, FLA,客户号 名称 地址,变换的顺序,清洗数据 排除不一致 添加元素 合并数据 集成数据 装载之前转换
4、数据,变换数据: 问题和解决方法,复合主键,城市 代码,销售 范围,产品 号码,推销员 代码,产品代码 = 12M65431345,If field not in (m,1,male)then else if field is NULL then ,变换数据,复合编码 必须找出错误数据,m , f,1 , 0,male, female,m, f,m, f,mle, female,1 , NULL,变换数据,多个局部标准 使用工具或过滤器预先处理,cm,inches,cm,DD/MM/YY,MM/DD/YY,DD-Mon-YY,1,000 GBP,FF 9,990,USD 600,多文件问题,多
5、个源文件增加了复杂度 从简单做起,提取出的数据,多个源文件,利用逻辑查出 正确来源,从多个源文件中转换数据,文件,文件,文件,文件,文件,文件,文件,文件,文件,值丢失问题,解决方法 忽略 等待 标记行 抽取有时间戳的数据,If NULL then field = A,A,多重值的问题,解决方法 SQL 自连接技术 利用RDMBS 约束机制,ACME Inc,ACME Inc,ACME Inc,ACME Inc,SELECT FROM table_a, table_b WHERE table_a.key (+) = table_b.key UNION SELECT FROM table_a,
6、table_b WHERE table_a.key = table_b.key (+),解决方法 CTAS SQL*Loader (create table as ),元素命名问题,用户,用户,客户,联系人,名称,元素的语义问题,客户名字,所有客户详情,除名字以外所有详情,客户详情,避免理解错误复杂的解决方案元数据中的文档语义,输入的格式问题,ASCII,EBCDIC,12373,“123-73”,ACME Co., ,Beer (Pack of 8),参考完整性的问题,解决方法 SQL 反连接 服务器约束 专用工具,Department 10 20 30 40,Emp Name Depart
7、ment 1099 Smith 10 1289 Jones 20 1234 Doe 50 6786 Harris 60,名称和地址的问题,无唯一键 丢失数值 个人和商用名称混用 同一成员地址不同 同一成员名字和拼写方式不同 同一行中有多个名字 一个名字位于两行,数据库 1,数据库 2,名字,位置,ZIEFLED, DIANNE 100,ENFIELD, HARRY H 589,MULLEN, SARA AND FRED 300,名称和地址的问题,单字段格式 多字段格式,Mr. J. Smith,100 Main St., Bigtown, County Luth, 23565,Name Mr.
8、 J. Smith Street 100 Main St. Town Bigtown County County Luth Code 23565,清洗和组织,1. 产生原子值.2. 标准化格式.3. 核对数据准确性 .4. 与其它记录相匹配.5. 判断是私人住户还是公司的地址.6. 元数据中的文档.要求有灵活智能的工具和技术,合并数据,可操作的事务数据与仓库数据通常不是一对一映射 数据仓库使用的数据被合成并被用来提供信息分析,比萨销售/返回日期、小时、分钟,合并数据,Sale 1/2/98 12:00:01 Ham Pizza $10.00,Sale 1/2/98 12:00:02 Chees
9、e Pizza $15.00,Sale 1/2/98 12:00:04 Sausage Pizza $11.00,Sale 1/2/98 12:00:02 Anchovy Pizza $12.00,Return 1/2/98 12:00:03 Anchovy Pizza - $12.00,Sale 1/2/98 12:00:01 Ham Pizza $10.00,Sale 1/2/98 12:00:02 Cheese Pizza $15.00,Sale 1/2/98 12:00:04 Sausage Pizza $11.00,添加一个时间戳,能够进行时间分析 为带有时间戳的数据加标签 为事实和
10、多维数据增加时间维,添加一个日期戳,Store 表 Store_id District_id Time_key,Product 表 Product_id Time_key Product_desc,Sales Fact 表 Item_id Store_id Time_key Sales_dollars Sales_units,添加一个数据戳,事实表 增加触发器 重新编码应用 比较表 维表 时间表示法 时间点 时间跨度,为数据添加主键,#1 Sale 1/2/98 12:00:01 Ham Pizza $10.00,#2 Sale 1/2/98 12:00:02 Cheese Pizza $15
11、.00,#3 Sale 1/2/98 12:00:02 Anchovy Pizza $12.00,#5 Sale 1/2/98 12:00:04 Sausage Pizza $11.00,#4 Return 1/2/98 12:00:03 Anchovy Pizza - $12.00,数据值 或人工键,概要数据,在数据聚集区抽取过程中建立 在装载数据入仓库服务器以后建立,操作型环境 的数据库,数据聚集区,仓库 数据库,保持元数据的转换,包含转换规则、算法和日志,资源,提取,聚集区,转换,规则,装载,公布,查询,保持元数据的转换,关键字的调整 编码的差异 多种来源的数据 异常规则 格式差异 参考
12、完整性的确定 汇总数据,数据归属和责任,操作和应用开发团队数据仓库开发团队用一个团队的方法获取企业效益,转换时间和位置,执行转换: 装载之前 并行 可能在不同的点初始化,12M65431,12-m-65421,“12m65421”,“12m65421”,“ ”,12M65431,12M65431,12-m-65421,“12m65421”,“12m65421”,“ ”,12M65431,12,12,12,M,m,m,65431,65421,65421,12,12,12,M,M,m,65431,65421,65421,不太可能,可能,合理,选择一个转换点,工作量 环境影响 CPU 使用 磁盘空间
13、,网络带宽并行执行 装载窗口时间用户信息需求,监控和跟踪,转换应该做: 自动记录文档 提供概要数据 处理异常,12M65431,12-m-65421,“12m65421”,“12m65421”,“ ”,12M65431,12M65431,12-m-65421,“12m65421”,“12m65421”,“ ”,12M65431,12,12,12,M,m,m,65431,65421,65421,12,12,12,M,M,m,65431,65421,65421,设计变换过程,分析: 源和目标的映射,业务规则 关键用户, 元数据, 粒度设计选项 : PL/SQL,复制,惯例, 第三方工具设计问题: 性能 活动区大小 异常处理, 完整性维护,变换工具,购买SQL*Loader内部开发,数据管理,质量和审计工具,数据管理: 创建新的系统 Postalsoft 软件 Vality 技术 数据质量和审计: 创建新的系统 Vality 技术,总结,这一课讨论了以下议题: 数据质量的重要性变换过程数据转换问题 数据异常 命名和地址管理工具,11-1实践概况,这一练习包括以下课题 : 回答一系列简短的问题 对一系列阐述判断是真是假,