1、厦门大学软件学院毕业设计(论文)开题报告学生姓名 班级 学号指导教师姓 名 职称 教授所在单位 厦门大学软件学院毕业设计(论文)题 目 数据仓库的数据质量控制研究毕业设计(论文)的目标:1. 了解数据仓库目前的发展状况和发展趋势,了解数据仓库的数据质量现状,了解国内外对数据仓库的数据质量的研究现状,了解研究数据仓库的数据质量控制所具有的现实意义。2. 掌握数据库方面的理论知识,了解在数据库中可能会存在哪些数据质量问题,并 对这些问题有全面、深刻的理解,了解针对不同的问题,可以采取哪些有效的解决方法。3. 掌握数据仓库方面的理论知识,并具有一定的深度和广度,尤其要全面、系统地 掌握有关数据仓库的
2、数据质量方面的知识,深入了解已有的数据质量控制方法以及它们在实际应用中的成效。4. 论文能对数据仓库的数据质量问题有侧重点地进行深入地分析、研究和探讨,并有独到的见解。5. 论文能综合应用各方面的知识,并从不同的角度提出数据质量的多种控制措施,以此来解决数据质量问题。这些措施应具有一定的新颖性和现实意义。6. 论文结构合理,逻辑性强,层次清楚,论据充分。实现方法:一研究步骤1. 收集、阅读大量文献资料,包括国内外对数据库、数据仓库的理论研究资料,尤其是关于数据仓库的数据质量方面的理论研究资料,还有国内外对数据库、数据仓库的实际应用成果(即已成功建设并投入使用的数据库系统、数据仓库系统和决策支持
3、系统)的资料。这些文献资料包括专著、期刊文章、学位论文和电子文献等。注意多收集、阅读一些最新的研究和应用成果的资料,紧跟时代的步伐。在收集、阅读的过程中,对资料进行筛选、分类整理,并加以思考和理解,以此来启发思路。2. 接触一些已投入使用的数据库系统,对它们进行实际操作,发现它们中存在的数据质量问题,并对这些问题进行全面、深入地分析和研究,综合应用自己所掌握的有关知识,思考解决这些问题的方法,并通过实际操作验证方法的正确性和有效性。3. 在掌握了大量的相关知识后,确定要研究的具体问题和内容,决定采用哪些研究方法,确定合理的、层次分明的论文框架结构。4. 开始对自己所要研究的内容按序进行全面、系
4、统、深入地研究、分析和探讨,组织研究成果,按照框架结构来撰写论文。在研究的过程中,不断查阅相关文献资料,在已有的研究成果的基础上,综合应用各方面的知识和多种研究方法,得出关于数据仓库的数据质量问题的正确的、独到的、有价值的研究结论,并从多个方面提出有效的、新颖的、具有现实意义的数据质量的多种控制措施,以此来解决数据质量问题。二研究的主要内容本文分为五个部分来研究数据仓库的数据质量控制。第一部分为引言,包括三个部分,这三个部分是:1. 论文的研究背景。2. 数据仓库的数据质量现状分析。3. 从三个方面介绍国内外对数据质量的研究现状,这三个方面是:(1)数据质量整体框架和相关模型的研究。(2)数据
5、质量技术手段的研究。(3)数据质量工具的研究。第二部分从五个方面介绍数据仓库的一些基本理论,为研究数据仓库的数据质量奠定基础。这五个方面是:1. 数据仓库的产生背景,包括两个部分,这两个部分是:(1)在数据库的基础上产生了数据仓库。(2)数据库与数据仓库的区别。2. 数据仓库的定义。3. 数据仓库的特征。主要有四个特征:面向主题性、集成性、相对稳定、随时间不断变化。4. 数据仓库的体系结构。体系结构主要有七个部分:数据源、数据准备区、元数据库、数据仓库数据库、应用工具、管理工具、数据仓库的用户。5. 数据仓库的数据模型。主要有三级数据模型:概念模型、逻辑模型、物理模型。第三部分是本文研究的重点
6、之一,从三个方面深入分析数据仓库的数据质量问题,这三个方面是:1. 定义数据质量的衡量指标。它是考察数据质量状况的主要参考。正确地定义数据质量的衡量指标是对数据质量进行控制的基础。2. 分析可能发生数据质量问题的位置或过程。3. 从两个角度对数据源的数据质量问题进行分类,并对这些问题进行详细地分析。数据源的数据质量是数据仓库的数据质量的一个主要方面。合理地划分数据源的数据质量问题是对数据质量进行控制的重点。这两个角度是:(1)单数据源的数据质量问题。(2)多数据源的数据质量问题。第四部分研究数据仓库的数据质量控制,是本文研究的又一个重点。包括两个部分,这两个部分是:1. 阐述数据质量控制的重要
7、性。2. 从四个方面提出一些数据质量的控制措施,以此来解决数据质量问题。这是解决数据质量问题的关键所在。这四个方面是:(1)对单数据源的数据质量问题进行控制。初步思路是从两个方面来进行质量控制:一是保证数据录入时的数据质量,二是清理数据源中已有的历史数据。分析数据清理的步骤,并详细分析单数据源中孤立点的检测方法。(2)对 ETL 过程中的数据质量问题进行控制。初步思路是从两个方面来进行质量控制:一是确保 ETL 过程的正确性,重点在确保转换过程的正确性;二是选择合适的 ETL 工具。将三大主流 ETL 工具进行比较,以便在实际的数据仓库项目中,能够根据项目自身的特点选择合适的ETL 工具。(3
8、)对数据仓库内部数据的质量进行控制。(4)对数据仓库应用工具和应用系统的质量进行控制。第五部分讨论应用扩展元数据库的方式来控制数据质量,这种方式具有一定的新颖性。包括两个部分,这两个部分是:1. 从三个方面介绍元数据的基本概念,以此显示出元数据的重要性。这三个方面是:元数据的定义、元数据包含的主要内容、元数据的用途。2. 全面、详细地分析扩展元数据库这种控制数据质量的方式。它的主要思想是:在元数据库中融入质量维度和质量模型,以此来改进数据质量的评价方法,还可将质量模型用于数据的 ETL 过程和质量驱动的数据仓库系统设计。从三个方面来进行分析,这三个方面是:(1)质量维度。初步思路是:首先介绍与
9、数据仓库相关的三类人员设计开发人员、数据仓库管理员、决策者;然后给出由上述三类人员所组织而成的质量维度的主要内容。(2)元数据库中的质量模型。以图的方式给出质量模型,分析它的主要思想、工作过程和作用。(3)简要介绍将质量模型用于质量驱动的数据仓库系统设计。三主要参考文献1. Building the Data Warehouse ,William H Inmon,John Wiley & Sons 出版社,2003 年2. Identification of outliers ,Hawkins D M,Chapman and Hall 出版社,1980 年3. 数据仓库项目管理 ,锡德阿德尔曼
10、等著,薛宇等译,清华大学出版社,2003 年4. 数据清理及其在数据仓库中的应用 ,庄晓青、徐立臻、董逸生等,东南大学出版社,2006 年5. Framework for Analysis of Data Quality Research ,Richard Y.Wang、Veda C.Storey、Christopher P.Fifth A, IEEE Transactions on Knowledge and Data Engineering ,1995 年第 4 期6. AIMQ:A Methodology for Information Quality Assessment ,Yang
11、W.Lee、Diane M.Strong、 Beverly K.Kahn、Richard Y.Wang, Information & Management category:Research ,2001 年7. Anchoring Data Quality Dimensions in Ontological Foundations ,Yair Wand、Richard Y.Wang, Communications of the ACM ,1996 年第 1 期8. Architecture and Quality in Data Warehouse:An Extended Repository
12、 Approach ,Jarke M、Jeusfeld M 、Quix C 等, Information Systems ,1999 年第 3 期9. 一个可扩展的数据清洗系统 ,郭志慰、俞荣华、周傲英等, 计算机工程 ,2003 年第 3 期10. 数据质量评估方法研究 ,杨青云、赵培英、杨冬青、唐世渭、童云海, 计算机工程与应用 ,2004 年11. 数据仓库中数据质量若干问题的研究 ,杜永明, 福建电脑 ,2003 年第 1期12. 应用扩展元数据库方式解决数据仓库质量问题 ,谢茂龙, 计算机工程与应用 ,2002 年第 18 期13. 构造数据仓库系统的元数据 ,廖林,于立刚, 计算机
13、工程与应用 ,2001年第 16 期14. 电信企业数据仓库数据质量的研究与应用 ,方智,国防科学技术大学,2006 年15.三大模型架起数据仓库大厦 ,付红玲,http:/ 年16.三大主流 ETL 工具选型 ,刘庆,http:/ 年时间进度安排:2008 年 11 月 17 日2008 年 12 月 26 日理解主要任务,收集、阅读大量相关文献资料,对资料进行筛选、分类整理,并加以思考和理解,增加知识储备。对一些已投入使用的数据库系统进行实际操作,发现问题,分析问题,并解决问题。2008 年 12 月 27 日2008 年 12 月 31 日确定要研究的具体问题和内容,决定采用哪些研究方法。2009 年 1 月 1 日2009 年 1 月 12 日拟定论文框架结构,征求导师意见后,在导师的指导下修改、完善,并最终确定,完成开题报告并提交。2009 年 1 月 13 日2009 年 3 月 20 日进一步收集、阅读文献资料,对所要研究的内容按序进行研究,组织研究成果,按照框架结构撰写论文,完成中期检查报告并提交。2009 年 3 月 21 日2009 年 5 月 20 日继续进行研究,并撰写论文,完成论文初稿并提交。2009 年 5 月 21 日-2009 年 6 月 10 日在导师的指导下修改初稿,定稿,答辩准备,论文答辩。指导教师审核意见:指导教师签名: 年 月 日