收藏 分享(赏)

硕士论文 基于rough set的海量数据挖掘算法研究.doc

上传人:cjc2202537 文档编号:1286257 上传时间:2018-06-21 格式:DOC 页数:14 大小:121.50KB
下载 相关 举报
硕士论文 基于rough set的海量数据挖掘算法研究.doc_第1页
第1页 / 共14页
硕士论文 基于rough set的海量数据挖掘算法研究.doc_第2页
第2页 / 共14页
硕士论文 基于rough set的海量数据挖掘算法研究.doc_第3页
第3页 / 共14页
硕士论文 基于rough set的海量数据挖掘算法研究.doc_第4页
第4页 / 共14页
硕士论文 基于rough set的海量数据挖掘算法研究.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、硕士论文分类号 TP391 密级 UDC* 硕士学位论文论文题目 基于 Rough Set 的海量数据挖掘算法研究(题名和副题名)作者姓名 *指导教师姓名 * * 教授 博士 (职务、职称、学位、单位名称)申请学位级别 硕士 专业名称 计算机应用技术论文提交日期 2004 年四月 论文答辩日期 学位授予单位和日期 论文评阅人 答辩委员会主席 二 00 四 年 五 月 十 日*国际十进分类法 UDC的类号硕士论文摘 要数据挖掘是从大量的数据中挖掘出有用的或者人们感兴趣的知识的一种方法。处理海量数据一直是数据挖掘要解决的一个重要问题。本论文结合 Rough Set 理论提出了一种直接处理海量数据全

2、集的方法,并研究了分布式处理海量数据中的关键问题,即分割海量数据集的问题。经典的 Rough Set 算法要求数据常驻内存,因此不能有效地处理海量数据。本论文首先提出了类分布链表的结构来表示一个属性组合对样本空间的分类情况,类分布链表可以通过使用数据库技术对原始数据集进行直接分类来获取。通过类分布链表,本论文改进了一组 Rough Set 知识约简算法,从而使它们能够直接处理海量数据集。类分布链表的方法还可以作为一种框架扩展到其它的Rough Set 算法来提高这些算法的可伸缩性,同时不影响它们的正确性。在分布式处理海量数据中,关键的第一步就是如何有效地将原始海量数据集分割成许多可以在单机上处

3、理的数据子集。本论文根据 Rough Set 的特点提出了最佳分割的定义,然后提出了一种海量数据分割算法来寻找最佳分割。通过实验测试证明结合本文提出的数据分割算法的分布式处理方案能够快速地处理海量数据,而且与处理整个数据集的算法相比,正确性损失不大。关键词:数据挖掘,海量数据,Rough Set,可伸缩性,分布式处理,数据分割硕士论文-II-AbstractData Mining is a process to extract interesting and useful knowledge from data. Processing huge data sets has been an im

4、portant topic in data mining. An effective rough-set-based method is developed in this thesis to process huge data sets directly as a whole. And then, an effective method of data partition in distribute information procession is also discussed.Most of the rough-set-based algorithms are designed only

5、 for memory-resident data, so it is hard for these algorithms to deal with huge data sets. A structure of Class Distribution List (CDL) is presented in this thesis to express the distribution of all attribute values in the whole sample space. With database technology, a CDL can be generated via clas

6、sifying the original data sets. Then, a group of rough-set-based knowledge reduction algorithms are revised using CDL. This method can process huge data sets directly. As a framework, CDL method can also be used in other rough set algorithms to improve their scalability without decreasing their accu

7、racy.While applying distributed information procession to deal with huge data sets, the first important step is partitioning the whole huge data set into many small subsets. On the base of definition of best partition, a rough-set-based partition algorithm is developed to look for the best partition

8、 in this thesis. Efficiency of the rough-set-based partition algorithm is proved by simulation experiments. The distributed information procession method presented in this thesis is faster than original rough-set-based algorithms, while its performance is close to those algorithms that process the o

9、riginal data set as a whole.Key words: Rough Set,huge data sets,scalability,distributed information procession,data partition硕士论文-III-目 录第一章 绪论 .11.1 引言 .11.2 粗糙集理论及应用的发展状况 .11.3 论文背景及工作内容 .11.4 论文组织与结 构 .1第二章 海量数据挖掘基础 .22.1 引言 .22.2 可伸缩性决策树算法 .22.2.1 SLIQ 分类器 .22.2.2 SPRINT 分类器 .22.2.3 小结 .22.3 分布式

10、数据挖掘 .22.3.1 分布式处理海量数据 .32.3.2 小结 .32.4 总结 .4第三章 可伸缩 Rough Set知识约简算法 .53.1 引言 .53.2 基于数据库技术的可伸性策略 .53.2.1 类分布链表(CDL) .53.2.2 生成 ICDL 算法 .53.3 改进的 Rough Set 知识约简算法 .63.4 算法实验测试 .63.4.1 正确性实验测试 .63.4.2 可伸缩性实验测试 .63.5 总结 .6第四章 结论 .7致 谢 .8攻读硕士学位期间从事的主要科研工作及发表的论文 .9参考文献 .10硕士论文-1-第一章 绪论1.1 引言智能信息处理是当前信息科

11、学理论和应用研究中的一个热点领域,过去几十年中人们在专家系统、知识工程、人工神经网络、模糊集合等众多领域不断实践和探索,取得了很多很好的成绩。 1.2 粗糙集理论及应用的发展状况粗糙集(Rough set,粗集)理论 1由波兰华沙理工大学逻辑学家 Z. Pawlak 教授于 1982 年提出,由于它能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律,近年来在机器学习、数据挖掘等多个领域得到广泛的应用 2,3。 1.3 论文背景及工作内容关于海量数据挖掘很早就有研究,人们首先考虑的是如何直接对整个海量数据集进行处理。1991 年 Carlett 提出了

12、一种 Random Sampling4的方法来处理大数据量问题。 1.4 论文组织与结构本论文的结构与结构如下:第一章介绍了粗糙集理论的发展和应用现状,以及本论文的研究背景和研究工作等。第二章阐述了海量数据挖掘的常用方法以及策略。第三章讨论了直接处理整个海量数据集的可伸缩性 Rough Set 知识约简算法。最后一章对本论文进行了总结。硕士论文-2-第二章 海量数据挖掘基础2.1 引言海量数据是一个形容词,它是用来形容巨大的、空前浩瀚的数据。 2.2 可伸缩性决策树算法决策树或判定树(decision tree)是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分枝代表一

13、个测试输出,而每个树叶节点代表类或类分布。但是传统的决策树算法都是内存算法,不能有效地处理海量数据。2.2.1 SLIQ 分类器 5为了使决策树算法能够更好地适用于海量数据集,1996 年 IBM Almaden Research Center 提出了 SLIQ 算法。 2.2.2 SPRINT 分类器 6SPRINT 分类器对 SLIQ 分类器进行了如下修改: 2.2.3 小结继 SLIQ 和 SPRINT 后,人们又相继提出了 CLOUDS7,ScalParc 8等改进算法,它们都采用某种策略试图在生成树的过程中尽量地减少算法与驻留磁盘中的数据的 I/O 操作。 2.3分布式数据挖掘分布式

14、数据挖掘的方法能够很好的处理分布式数据源的问题。分布式数据挖掘一般采用图 2.1 所示的处理模型。 硕士论文-3-图 2.1 分布式数据挖掘常用模型2.3.1 分布式处理海量数据分布式数据挖掘在处理分布式数据源上取得了很好的效果。 2.3.2 小结分布式数据挖掘在处理分布式数据源上体现了很好的性能。使用分布式数据挖掘来处理海量数据也成为海量数据处理的一个可选方案。 2.4 粗糙集理论基础粗糙集理论是一种刻划不完整性和不确定性的数学工具。 2.4.1 粗糙集相关概念定义 2.1 一个决策表信息系统(简称决策表) ,其中,fVRUS,是对象的集合,也称为论域, 是属性集合,子集 和 分别称为UDC

15、RCD条件属性集和决策属性集, , = r R 是属性值的集合, 表示属性Vr的属性值范围,即属性 的值域, 是一个信息函数,它指定Rrrf:Local Model Aggregation Final ModelLocalModelData MiningAlgorithmLocalModelData MiningAlgorithmLocalModelData MiningAlgorithmData Source Data Source Data Source硕士论文-4-中每一个对象 的属性值。Ux定义 2.2 给定决策表信息系统 ,对于每个子集 和不fVRUS, UX分明关系 B,X 的下近

16、似集与上近似集分别可以由 B 的基本集定义如下:下近似集 ,:)(|)( XYINDYRii 上近似集 。也可以通过集合来定义:,XxUXB:)(。R 2.5 总结这一章介绍了海量数据挖掘的常用方法。 硕士论文-5-第三章 可伸缩 Rough Set知识约简算法3.1 引言在这一章里,我们结合 Rough set 理论提出了一种表示分类的结构类分布链表(CDL) 。 3.2 基于数据库技术的可伸性策略3.2.1 类分布链表(CDL)Rough set 知识约简算法是以分类为基础的。 表 3.1 是一个决策表信息系统的例子。从该表上我们可以得到属性 salary的类分布链表 CDL(Salary

17、)=#13&5#2&7#46#8#。 表 3.1 决策表Index Salary Age Class1 H 30 B2 L 23 B3 H 40 G4 M 55 B5 H 55 G6 M 45 G7 L 60 B8 VH 35 G 3.2.2 生成 ICDL 算法我们将借用数据库技术来形成 ICDL。 算法 3.1 ICDL 生成算法硕士论文-6-输入:一个数据形式表示的决策表信息系统 DT,内存一次可装载的最多记录数MSamples,要生成类分布链表的属性组合 SCA输出:ICDL(SCA)/* 假设样本标号为 Index,决策属性为 DA*/1. 初始化 ICDL(SCA)NULL,将“#

18、”插入 ICDL(SCA)作为起始符号;2. 3. 将 ICDL(SCA)中的最后一个符号从“ ”改为“#” ;算法完3.3 改进的 Rough Set知识约简算法许多经典的 Rough Set 知识约简算法都可以通过引进 CDL 来改进。 3.4 算法实验测试3.4.1 正确性实验测试为了验证经过 CDL 改进的算法的有效性,我们选择 UCI 数据库(UCI Machine Learning Repository)9中的 8 个数据集来比较经过 CDL 改进的知识约简算法与原始经典 Rough Set 算法的正确性,双方都采用相同的算法组合。 3.4.2 可伸缩性实验测试我们选择了文6中的方法,使用 IBM Almaden Research Center 提供的Quest Synthetic Data Generation Code10来生成海量数据集,数据集有 9 个条件属性和 1 个决策属性,训练集的大小从 10 万条逐渐递增到 100 万条,测试集的记录数是训练集的 30%。 3.5 总结在这一章里,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 管理论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报