收藏 分享(赏)

基于数据仓库的企业数据质量控制.docx

上传人:wo7103235 文档编号:6264467 上传时间:2019-04-03 格式:DOCX 页数:56 大小:2.90MB
下载 相关 举报
基于数据仓库的企业数据质量控制.docx_第1页
第1页 / 共56页
基于数据仓库的企业数据质量控制.docx_第2页
第2页 / 共56页
基于数据仓库的企业数据质量控制.docx_第3页
第3页 / 共56页
基于数据仓库的企业数据质量控制.docx_第4页
第4页 / 共56页
基于数据仓库的企业数据质量控制.docx_第5页
第5页 / 共56页
点击查看更多>>
资源描述

1、本 科 毕 业 论 文基于数据仓库的企业数据质量控制Data Quality Control of Enterprises Based on Data Warehouse姓 名: 学 号:学 院:软件学院系:软件工程专 业:软件工程年 级: 指导教师: 年 月摘 要数据仓库赋予企业在行业中保持领先地位的能力,数据质量是决定数据仓库成败的关键。然而,经过数十年的研究与实践,业界仍然缺少完整的企业数据质量控制方法。本文提出了基于数据仓库的企业数据质量控制,力求为企业IT人员提供一套指导手册式的解决方案,在基于数据仓库的企业数据质量的各个方面给予指导和建议。这套方法主要包括总体数据质量管理和ETL(

2、数据的抽取、转换、清洗、装载)工具两个方面,分别处理与数据源相关和与数据整合相关的数据质量问题。在本文中,我们对TDQM各阶段使用的技术进行了详细的介绍,就企业数据质量的建模、评估、分析和如何改进数据质量展开了探讨。同时,本文根据ETL工具的分类和实现方式(购买/自行开发) ,对如何选用和开发合适的ETL工具以及如何控制ETL实施过程本身产生的数据质量问题进行了简单的讨论。关键词:数据仓库;数据质量;总体数据质量管理;ETL工具AbstractData quality is critical to data warehouse, which enables an organization to

3、 maintain its leading position in the industry. However, despite decades of active research and practice, the field lacks comprehensive methodologies of enterprise-level data quality control. Here, we develop such a methodology, the Data Quality Control of Enterprises Based on Data Warehouse, which

4、aims to provide manual-like solutions to the IT departments of organizations, and to present guidance and recommendations in all aspects of data quality control of enterprises based on data warehouse.The methodology encompasses Total Data Quality Management (TDQM) and ETL (Extraction, Transformation

5、, Cleansing, Loading) tools, separately handling problems related to data sources and data integration. This paper has a detailed explanation of the techniques used in each stage of the TDQM methodology, and discusses about how to model, estimate, analyze and improve data quality of an organization.

6、 Meanwhile, we provide a brief introduction on how to choose or develop ETL tools that are suitable for an organization, as well as how to deal with data quality problems produced by the ETL process.Key words: Data Warehouse; Data Quality; Total Data Quality Management; ETL.目 录第一章 绪论 11.1 研究背景 11.2

7、概述 21.2.1 数据仓库的拓扑结构 21.2.2 数据仓库中的数据质量问题分类 31.2.3 论文组织结构 3第二章 数据源数据质量控制 42.1 定义阶段 52.1.1 定义 IP 特征 62.1.2 定义 IP 质量 72.1.3 定义信息系统 102.2 测量阶段 112.2.1 数据质量维度 112.2.2 数据质量指标 122.2.3 实际评估 152.3 分析阶段 162.3.1 数据质量问题分类 162.3.2 单数据源中孤立点的检测 182.3.3 探索性数据分析 202.3.4 数据标记技术在 TDQM 分析阶段的运用 262.4 改进阶段 262.4.1 规范化和重复记

8、录消除 262.4.2 对数据值空缺的处理 282.4.3 解决新老系统不兼容问题 292.4.4 小结 29第三章 数据仓库数据质量控制 303.1 ETL 工具的功能和分类 303.2 购买 ETL 工具 313.3 自行开发 ETL 工具 343.3.1 探测和消除星型模式中的相似重复记录 343.3.2 ETL 工具开发流程 383.4 ETL 过程中的数据质量问题及相应保障手段 393.4.1 ETL 过程中可能出现的数据质量问题 403.4.2 相应的保障手段 40第四章 总结与展望 414.1 总结 414.2 未来研究展望 41参考文献 43致 谢 45CONTENTSChap

9、ter 1 Introduction 11.1 Backgrounds11.2 Overview21.2.1 Topology Structure of Data Warehouse21.2.2 Classifications of DQ Problems in Data Warehouse31.2.3 Architecture of This Paper 3Chapter 2 DQ Control at Data Source 42.1 Defining52.1.1 Define IP Characteristics62.1.2 Define IP Quality72.1.3 Define

10、Information Manufacturing System102.2 Measuring 112.2.1 Data Quality Dimensions 112.2.2 DQ Metrics122.2.3 Evaluation in Practice 152.3 Analyzing162.3.1 Classifications of DQ Problems162.3.2 Outlier Detection in Single Data Source182.3.3 Exploratory Data Analysis202.3.4 Data Tagging in the Analyzing

11、Phase of TDQM 262.4 Improving262.4.1 Standardization and Duplicate Removal262.4.2 Dealing with Missing Values 282.4.3 Crosswalks 292.4.4 Summary29Chapter 3 DQ Control at Data Warehouse 303.1 Functions and Classifications of ETL Tools303.2 Buy ETL Tools313.3 How to Develop ETL Tools343.3.1 Duplicate

12、Detection and Removal in Star-Shaped Pattern343.3.2 Development of ETL Tools 383.4 DQ Problems Produced by ETL Process and Solutions393.4.1 DQ Problems in the ETL Process403.4.2 Possible Solutions40Chapter 4 Conclusions and Future Study 414.1 Conclusions414.2 Future Study 41References 43Acknowledgem

13、ents 45第一章 绪论1第一章 绪论1.1 研究背景信息已经成为企业最重要的产品和财富创造者之一,在创造企业竞争优势过程中的作用至关重要。数据质量的保证对于信息而言是必需的。根据“垃圾进,垃圾出”(Garbage In Garbage Out,GIGO)原理,正确的决策支持要求其所管理的数据可靠,没有错误,能够准确的反映企业的实际情况。因此,企业数据质量的控制正在获得越来越多的关注。过去,数据质量被认为是数据本身的概念,独立于数据产生和使用的环节。这种对数据库中数据固有质量的关注,不能解决复杂的企业数据问题。现代数据质量的定义更加关注数据的使用价值:数据质量是指数据能够被用来高效、经济、快

14、速的制定和评估决策的能力。换言之,数据质量最好的定义就是“适于使用” 。这同时意味着数据质量是一个相对的概念,在一种情况中相对合适的数据也许并不适用于另外一种情况。数据仓库的出现使得企业的IT部门从信息通道变为信息通道的建立者。数据仓库的迅速发展和企业数据用户对数据的直接访问促进了企业对于高质量数据的认知和需求。同时, “适于使用”迫使IT人员需要比单纯的数据准确性看的更远。从传统OLTP系统中取得的数据可能是准确的,但如果不具有足够的时效性,就不适合使用;另外,即使企业各个部门各自的数据库是准确的,如果需要把多个格式不兼容的部门数据库结合到一起,不做合适的处理,这些数据库仍然不适合使用。确保

15、基于数据仓库的企业数据质量是一项非常困难的工作,其原因来自于多个方面。首先,数据源的组成具有不确定性。数据可能来自原始OLTP系统,外部系统,Excel电子表格甚至是纸制表格中。同时,数据质量问题经常被赋予低优先级。如同计算机安全问题一样,尽管保证数据质量得到了越来越广泛的关注和认可,但事实上几乎没有人把它列为高优先级的企业事务。另外,由于数据需要整合在一个特定的平台上(如数据仓库) ,那么就需要有大量的措施来处理数据间的不一致性。此外,如何为企业数据质量选择一个合适的级别也是一个棘手的问题。固然IT人员希望企业的所有数据在任何一种情况下都是完美基于数据仓库的企业数据质量控制2的,但显然这不可

16、能达到。 “适于使用”意味着数据质量的合适级别依赖于特定的环境。当不同的用户有着不同需求的时候,决定数据质量需求就变得十分困难。现今,数据质量相关的研究人员和从业者已经对数据质量进行了广泛而深入的研究,并且取得了可观的成果。然而,业界仍然缺少一套关于如何控制基于数据仓库的企业数据质量的完整而富有实践意义的方法。本文在以往研究成果的基础上,总结开发出这样一套方法,旨在为企业IT人员从基于数据仓库的企业数据质量的各个方面提供具有借鉴意义的指导。1.2 概述1.2.1 数据仓库的拓扑结构 数据仓库的拓扑结构表示的是一种可变的事务。数据是从诸如OLTP系统和平面文件这样的数据源抽取的。然后,这些数据通

17、过一些途径(如Oracle公司的SQL* Loader和数据仓库装载工具等)装载到数据仓库中。数据仓库将在用户所要求信息的最详细级别上建立。然后,数据仓库被用于聚居各种不同的面向处理的数据集市。这些数据集市将以星型模式来构造以获得最好的检索性能。这样整个数据仓库就形成一个能够为最终用户提供报表服务和联机在线分析服务的集成系统。平面文件操作型系统操作型系统数据仓库销售库库存库进货库分析报表生成数据挖掘数据源 数据准备区 集成 / 数据仓库 数据集市 终端用户存取图1-1 数据仓库拓扑结构图第一章 绪论3从数据仓库的拓扑图可以看出,影响数据仓库中的数据质量的两个关键环节是数据源和数据准备区,处理好

18、数据源的数据质量问题和数据源整合时的数据质量问题对于确保数据仓库中数据的质量具有重要的意义。1.2.2 数据仓库中的数据质量问题分类数据质量问题可以出现在单个数据集合中,如出现在一个文件或数据库中,这可以由数据输入时错误的拼写、错误信息以及其他的无效数据等原因引起。数据仓库中的数据来自于多个数据源,是对多个数据集的继承,单个数据集合中的数据质量问题因此被放大而显得尤为突出。同时,不同数据源中的数据在进行合成时往往存在着结构冲突,数据冗余等一系列数据质量问题。数据仓库中的数据质量是由进入数据仓库中数据源的质量决定的。我们可以将数据仓库中的数据质量问题粗略的划分为单数据源和多数据源问题两大类,每一

19、类又可以细分为模式相关和实例相关两个方面的问题。具体关于数据质量问题的探讨详见2.3.1。1.2.3 论文组织结构针对影响企业数据仓库中数据质量的两个关键环节,数据源和数据准备区,以及数据仓库中数据质量的两大类问题,单数据源和多数据源问题,本文提出了总体数据质量管理(Total Data Quality Management,TDQM)与ETL工具相结合的解决方案。TDQM主要在数据源一端解决与单数据源相关的问题。本文在第二章重点探讨了TDQM循环的四个阶段以及各阶段的概念、原则和相关技术。第二章还对数据标记(Data Tagging), 数据质量指标(DQ Metrics)以及探索性数据分析

20、(Explor- atory Data Analysis, EDA)等数据质量领域的关键技术在TDQM中的应用进行了介绍。ETL工具主要负责处理多个数据源整合的问题,衔接数据源和数据仓库。第三章对ETL工具的功能与分类以及如何选用或者自行开发合适的ETL工具进行了一定的探讨。基于数据仓库的企业数据质量控制4第四章在已有讨论的基础上,对论文进行了总结,并且对未来研究方向进行了展望。第二章 数据源数据质量控制5第二章 数据源数据质量控制TDQM方法学最早由MIT的Richard Y. Wang提出,其目标在于推动由企业高管提出的企业总体数据质量政策的实现 1。TDQM源自于在产品制造和信息生产之间

21、的一个类比。产品制造可以被看作是一个从原材料中制造物质产品的过程;类似的,信息生产可以被看作从原始数据生成信息产品的过程。产品制造业关于总体质量管理(Total Quality Management, TQM)的原则,指导方针和技术等已经发展的相当成熟。在TQM的基础上,衍生出一套不断发展的有关数据质量实践的理论,也就是TDQM。在TDQM的引导下,企业遵循有关数据质量项目的指导原则,识别关键性的问题,开发能够支持数据质量的持续分析和改进的相关规程和衡量体系。在系统的介绍TDQM之前,首先介绍两个关键术语:IP和TDQM循环。IP 指信息产品(Information Products)。TDQ

22、M方法学把信息系统看作一个制造生产信息产品的系统。引入IP概念的目的在于强调信息作为信息系统的产品,具有可传递给信息使用者的价值。在TDQM中,数据质量被固化为IP的质量IPQ (Information Products Quality),因而在以后的讨论中,IP质量和数据质量的内涵是相同的。TDQM循环 定义和持续的测量、分析、改进数据质量对于确保数据质量是至关重要的。在传统制造业的TQM中,对提高产品质量具有广泛实践意义的德明循环(Deming circle)包括了计划,生产,核查和执行四个阶段。相应的,TDQM循环包括定义,测量,分析和改进。定义阶段识别出相对重要的数据质量维度和相应的数

23、据质量需求,测量阶段通过主观评价和客观测量两个方面综合评估数据质量,分析阶段寻找数据质量问题的根源,估算低质量数据带来的影响,而改进阶段提供了各种提高数据质量的技术。在TDQM循环中各个阶段是迭代进行的。基于数据仓库的企业数据质量控制6定义测量分析改进I P信 息 产 品I M SI P QI P CI M S : I n f o r m a t i o n M a n u f a c t u r i n g S y s t e m 信 息 处 理 系 统I P Q : I P Q u a l i t y 信 息 产 品 质 量I P C : I P C h a r a c t e r i s

24、 t i c s 信 息 产 品 特 征图2-1 TDQM循环在应用TDQM方法学时,一个企业首先应该: (1) 在企业商业术语中明确IP的意义;(2) 建立一个由企业高管带领,由熟悉TDQM方法学的IP工程师以及数据的提供者、生产者、使用者和管理者组成的IP队伍;(3) 对所有与IP相关的人员进行数据质量评估和数据质量管理技能的培训(4) 使持续的数据质量改进在企业中制度化。定义阶段由图2-1我们可以得出这样的结论,信息产品IP是由IP特征,IP质量以及信息系统三个维度共同定义的。因而在定义阶段,我们需要分别对IP的这三个维度进行定义。第二章 数据源数据质量控制72.1.1 定义 IP 特征

25、IP特征主要在两个层次上定义。较高的层次上,IP被抽象为一系列它所要为信息使用者提供的功能。这就好比如果需要定义一部手机的特征的时候,我们首先关注手机的基本功能如打电话、发短信,而不去关注这部手机是否是智能的,摄像头有多少万像素等等这些可选的特性。在较低的层次上,IP的特征定义类似于传统的数据建模,识别每一个IP的基本构成单元以及他们之间的相互关系。识别IP的基本单元对于定义IP是至关重要的,因为它描述了IP是如何被产出、使用和管理的。在一个客户数据库中,每一条单独的客户信息就是一个基本单元。假设在一个电子商务网站数据库中,客户被account number唯一标识,同时还有name, add

26、ress和telephone number等属性。商品被item number唯一标识,同时有name, price, description等属性。交易保存了客户和商品之间的买卖信息,当客户购买或售出商品的时候,相关的信息如date, buy/sell, quantity等被作为一条记录存入交易TRADES。这个应用的IP特征定义E-R视图如图2-2。C L I E N T T R A D E SI T E M Sa c c o u n t #t e l e p h o n en a m ea d d r e s s q u a n t i t yd a t eb u y / s e l l

27、i t e m #d e s cn a m ep r i c e图2-2 某电子商务网站部分E-R视图在定义IP特征阶段结束时,我们得到了一个应用视图(Application View),即上述E-R视图。基于数据仓库的企业数据质量控制82.1.2 定义 IP 质量数据标记技术在讨论如何定义IP质量之前,我们首先引入另一个关键技术:数据标记(Data Tagging)技术。 数据标记采用数据质量属性(Data Quality Attribute)来描述数据质量。数据质量属性由两部份组成,数据质量参数(Data Quality Parameter)和数据质量指示(Data Quality Indicator). 数据质量参数是一个主观或者量化的维度,用户通过其估计数据质量。来源可信度和时效性等等都可以作为数据质量参数。数据质量指示是一组关于数据的客观信息,如数据的来源,创建时间,收集方法等。用户定义的函数可以被用来把数据质量指示的值映射到数据质量参数的值。例如,如果一组数据的数据质量指示值是人民日报(来源) ,那么用户定义的函数可能会得出这组数据的数据质量参数“来源可信度”的值是“高” 。表2-1是一个在数据库中使用数据标记的例子。表

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报