ImageVerifierCode 换一换
格式:DOC , 页数:3 ,大小:28.55KB ,
资源ID:3189512      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-3189512.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据仓库ETL流程规范.doc)为本站会员(weiwoduzun)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

数据仓库ETL流程规范.doc

1、项目组希望我出一个 ETL 的规范,凭着自己的感觉和经验总结了一些步骤,我还会不断改进。本 ETL 流程规范试图建立一个通用的 ETL 流程开发规范,针对不同项目组的实际情况,可自行进行逐步的完善和修改。本流程应该是在需求分析阶段结束后实施。ETL 流程:可以把 ETL 分为五个阶段,按照开发的顺序分:1) 准备阶段:? 根据需求定义映射关系,产出物为ETL 映射文档 。? 分析数据源质量,针对数据源中有问题的数据制定数据抽取原则,产出物为数据源质量分析报告 、 问题数据处理规范 。? 确定数据抽取的技术架构,产出物为全量数据抽取策略 、 增量数据抽取策略 、数据抽取中异常处理规范 。? 确定

2、 ETL 的实现方式,采用 ETL 工具还是自己开发代码。产出物分别是:ETL 工具使用手册 、 ETL 代码开发手册 。这两个文档主要用于员工培训。2) 开发阶段:? 根据上个阶段的产出物进行 ETL 的实现。3) 测试阶段:? 测试和优化两个阶段实际上是相辅相成的,测试阶段除了要测试 ETL 逻辑的准确性,测试过程就可以得出 ETL 过程的性能结果。产出物为 ETL 数据抽取测试报告 。4) 优化阶段:? 优化涉及到 ETL 过程的各个部分,从数据中转区到目标区,从程序代码的优化到数据库参数的调优,从 ETL 抽取逻辑的优化到技术架构的优化。具体优化的建议过程见数据仓库优化建议.doc 。

3、5) 迁移阶段? 我们经常碰到从一个环境迁移到另一个环境的情况,ETL 迁移的过程应该放在数据仓库模型迁移后,也可以根据项目的实际情况一起进行迁移。产出物ETL 迁移文档 。关键点:ETL 的重点在于元数据的管理、数据质量的管理(一) 元数据的管理对于 ETL 来说是非常重要的,现在有了很多元数据管理工具,但我认为最重要的也是最有效的就是从管理机制入手,建立一个有效的管理元数据的制度,虽然这个方法显得土了一点,但对于数据仓库项目来说,还是比较实际的。1) 建立 ETL 映射文档。ETL 映射文档是元数据的主要依据,它记录数据从数据源到目标表的转换和对应关系。映射可以是一对一、一对多、多对一的。

4、2) 建立 ETL 变更流程。ETL 变更流程其实是与需求变更紧密结合在一起的,项目中需求的变化是很常见的,需求的变化有可能会导致 ETL 映射关系、以及 ETL 业务逻辑的变化。修改 ETL 映射文件和业务逻辑文件必须从文档开始,并且应该有统一的入口。修改文档应该包括:? 版本号:? 修改原因描述:? 修改过程:? 修改时间:? 修改的影响范围:(二) 数据质量的好坏关系到项目的成败,前端的各种数据分析和展现的手段都是建立在良好的数据质量基础上的。? 首先数据质量要从防患于未然开始。我们通过制定统一的 ETL 规范,严格要求 ETL 过程中的每一步都要按照规范制定的步骤来执行。规范的制定可以

5、根据各个项目组的实际情况作适当的增减,但是一些原则性的步骤一定要坚持执行。规范一旦制定下来,就必须严格执行。从源头来保证数据质量的可信度。原则性的步骤包括:ETL 映射文档数据源质量分析报告问题数据处理规范数据抽取中异常处理规范? 建立数据核对和数据效验流程这部分应该是根据各个项目组的实际情况来考虑制定的。数据效验的方式有多种,常见的是通过报表数据与已有系统中的数据进行比对,比对如果出现问题,关键点在于要明确不同的原因,原因无非有几种:统计口径不同已有系统数据有误自己的数据有误不要轻易下结论说对方的系统数据错误,如果我们前面的功夫下的足够,我们就可以根据我们上面提到的规范和文档来验证我们的数据是否正确。? 建立数据修改流程有些错误是可以通过制定效验规则来自动进行修改的;而另一部分错误是必须有人工来判断错误原因,并且由人工或者由其他系统来修改

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报