1、传输: 更新仓库数据,概述,目标,完成此课以后, 你应该能够做到以下要求: 描述捕获变化数据的方法 解释应用变化时的技术 讨论清洗和归档数据时的技术 概述最终的任务, 例如发布数据, 控制访问, 以及自动操作处理 列出将数据传输到仓库中使用的工具,为捕获变化数据开发一个更新策略,考虑装载窗口 确定数据量 确定周期 理解技术方面的构造 规划划一个中转区 确定如何及时发现变化,T1,T2,T3,可操作 数据库,用户需求和援助,用户定义更新周期 IT 权衡需求和技术问题上的冲突 文档化所有的任务和处理 利用用户技能,T1,T2,T3,可操作 数据库,装载窗口,整个ETT 处理的可用时间 计划 测试
2、检验 监控,0 3 am 6 9 12 pm 3 6 9 12,用户访问时期,装载窗口,装载窗口,装载窗口,通过策略规划和构造处理过程. 考虑数据量. 确定技术方面的构造. 确保数据流通. 首先考虑用户访问需求. 高可用性需求可能意味着一个小的装载窗口.,0 3 am 6 9 12 pm 3 6 9 12,用户访问时期,时序安排装载窗口,0 3 am,1,文件 1,文件 2,接受 数据,控制文件文件名文件类型文件号码装载号码初始装载或更新文件日期文件范围文件记录数 数目总数 数量,FTP,控制 处理,4,打开 和 读 文件 以便 检验 和 分析,3,2,需求,装载周期,时序安排装载窗口,3 a
3、m 6 am 9 am,装载 入仓库,文件 1,文件 2,5,检验, 分析, 再运用,6,生成 概要,8,7,索引 数据,更新 元数据,9,并行 装载,时序安排装载窗口,6 am 9 am,为专用工具 生成视图,11,10,备份 仓库,用户访问 概要数据,12,发布,13,用户访问,为更新捕获变化数据,捕获新的事实数据 捕获变化的多维数据 确定每一次捕获使用的方法 方法: 大规模的数据替换 数据库实例的比较 时间戳 数据库触发器 数据库日志 混合技术,昂贵的 有限的历史数据, 如果存在 数据集市实现 定期的时间段替换,大规模数据替换,数据库实例比较,数据库 比较,昨天的 可操作 数据库,Del
4、ta 文件保存 变化数据,执行简单, 但在耗时和处理上比较昂贵 Delta 文件: 从最后一次更新开始随着可操作数据变化 被各种技术使用,今天的 可操作 数据库,时间和数据戳,从最后一次提取开始快速扫描变化的记录 日期更新域 对已删除数据没有检测,可操作 数据,Delta 文件保存 变化数据,数据库触发器,变化数据在服务器级别被分割 额外的 I/O 需求 维护费用,可操作 服务器 (DBMS),服务器上的触发器,触发器,触发器,触发器,可操作 数据,Delta 文件保存 变化数据,利用数据库日志,包含前、后镜像 需要系统检查点 公共技术,日志,日志分析 和 数据提取,可操作 服务器 (DBMS
5、),裁决,考虑每一种有益于价值的方法. 如果一种方法不适当考虑混合方法. 考虑现有技术, 现有操作, 以及当前的应用问题.,为数据应用变化,您拥有的可选技术: 重写记录 添加一条记录 添加一个字段 维持历史 添加版本号,重写记录,Customer Id John Doe Single,.,.,Customer Id John Doe Married,容易执行 丢失所有历史 不被推荐,添加一条新记录,1 Customer Id John Doe Single,历史被保存; 维数增多. 无时间约束需求. 生成一般关键字. 元数据跟踪关键字的使用.,添加一个现有的字段,Customer Id Joh
6、n Doe Single,Customer Id John Doe Single Married 01-JAN-96,保留部分历史 丢失中间值 通过增加一个有效的日期域而被增强,运用变化使用方法的局限性,不可能有全部历史 维数可能变大 维护费用,维护历史,Product,Time,Sales,HIST_CUST,CUSTOMER,一对多 关联 通常保留最近记录 通常能够设计记录历史,保存历史,历史使现实的分析成为可能. 历史保留数据的上下文. 历史提供现实的历史分析. 模型必须能够做到: 反映事物变化 维护事实和多维数据间的上下文 保留足够的数据将旧与新关联起来,版本号,避免重复计数 Fact
7、s 保存版本号,Customer.CustId Version Customer Name 1234 1 Comer 1234 2 ComerSales.CustId Version Sales Facts 1234 1 11,000 1234 2 12,000,Customer,Sales,Product,Time,清洗和归档数据,随着数据变老,其数值贬值. 从仓库中移除老数据: 为以后使用归档 清洗外部副本,清洗数据的技术,TRUNCATE: 不保留回滚 DELETE: 保留重做和回滚 ALTER TABLE: 移除划分 PL/SQL: 利用数据库触发器,归档数据的技术,从表中导出到堆栈文
8、件 从堆栈文件导入到表 ALTER TABLE EXCHANGE 划分,EXP,.dmp,IMP,裁决,由企业需求定义 必须被管理,最后的任务,更新元数据 ETT 用户 发布数据 可用性 变化 学科领域基础 利用数据库角色去阻止和允许访问,资源,提取,活动区,转换,角色,装载,发布,查询,发布数据,利用数据库角色控制访问 可能需要24-小时运转 折衷装载和访问 考虑 不稳定更新 利用临时表 利用单独表,ETT 工具选择标准,与现有工具交迭 元模型可用性 支持数据源 易于修改和维护 需要代码的良好调整 易于变化控制 转换逻辑的能力 模块化级别 错误,异常,重忽略特征的能力 直觉的文件 代码执行,
9、ETT 工具选择标准,灵活的时序安排和混合 元数据产生 知识曲线图表 灵活性 支持运行的系统 成本,传输工具,Informatica OpenBridge Oracle SQL*Loader Gateways PL/SQL Precompilers Platinum Technology InfoPump Platinum Info Transport,复制服务器设施,Oracle 均衡的以及异类的复制,网关和中间件,Brio Technology DataPrism Informatica Corporation OpenBridge Information Builders EDA/SQL Oracle Gateways Platinum Technology InfoHub Prism Prism Manager Software AG Entire Transaction Propagator,概要,这一课讨论了以下主题: 捕获变化数据 应用变化 清洗和归档数据 发布数据, 控制访问, 以及自动操作处理 确定将数据传输到仓库中的工具,13-1实践概况,这一练习包括以下课题 : 对一系列阐述判断是真是假 回答一系列问题,