收藏 分享(赏)

1.2实验原理.doc

上传人:天天快乐 文档编号:1217189 上传时间:2018-06-18 格式:DOC 页数:4 大小:52.50KB
下载 相关 举报
1.2实验原理.doc_第1页
第1页 / 共4页
1.2实验原理.doc_第2页
第2页 / 共4页
1.2实验原理.doc_第3页
第3页 / 共4页
1.2实验原理.doc_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、项目 1 数据清理1.1 实验目的(1)掌握缺失值的六种基本处理手段;(2)掌握噪声数据的三种基本平滑处理手段。1.2 实验原理对于数据挖掘和分析人员来说,数据准备(Data Preparation,包括数据的抽取、清洗、转换和集成)常常占据了 70%左右的工作量。而在数据准备的过程中,数据质量差又是最常见而且令人头痛的问题。数据清理例程试图填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致。在本实验中,我们将学习数据清理的基本方法。1.2.1 缺失值在各种实用的数据库中,属性值缺失的情况经常发全甚至是不可避免的。值得注意的是,这里所说的缺失值,不仅包括数据库中的 NULL 值,也包括用

2、于表示数值缺失的特殊数值(比如,在系统中用-999 来表示数值不存在) 。如果仅有数据库的数据模型,而缺乏相关说明,常常需要花费更多的精力来发现这些数值的特殊含义。而如果漠视这些数值的特殊性,直接拿来进行挖掘,那么很可能会得到错误的结论。还有一种数值缺失的情况,是因为要求统计的时间窗口并非对所有数据都适合。例如,希望计算出“客户在以前六个月内的最大存款余额”,对于那些建立账户尚不满六个月的客户来说,统计出来的数值与想要得到的就可能存在差距。对数据挖掘来说,缺失值的存在,造成了以下影响:首先,系统丢失了大量的有用信息;第二,系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;第三,

3、包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。为了排除缺失值的影响,必须根据数据集的分布特征进行处理。怎样才能为该属性填上空缺的值?一般来说,对缺失值的填充方法有多种。(1)忽略元组:当类标号缺少时通常这样做(假定挖掘任务涉及分类或描述) 。除非元组有多个属性缺失值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它的性能非常差。(2)人工填写缺失值:一般地说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通。(3)使用一个全局常量填充缺失值:将空缺的属性值用同一个常数(如“Unknown”或-)替换。如果使用缺失值都用“Unknown ”替换,挖掘程序可能误以

4、为它们形成了一个有趣的概念,因为它们具有相同的值“Unknown ”。因此,尽管该方法简单,并不值得推荐。(4)使用属性的平均值填充缺失值。(5)使用与给定元组属同一类的所有样本的平均值填充缺失值。(6)使用最可能的值填充缺失值:可以用回归、基于推导的使用贝叶斯形式化方法的工具或判断树归纳确定。例如,利用你的数据集中其他顾客的属性,可以构造一棵判定树,来预测 income 的空缺值。方法 3 到 6 使数据倾斜,填入的值可能不正确。然而,方法 6 是最常用的方法。与其他方法相比,它使用现存数据的多数信息来推测缺失值。在使用 income 的空缺值时,通过考虑其他属性的值,有更大的机会保持 in

5、come 和其他属性之间的联系。数据缺失在许多研究领域都是一个复杂的问题。补齐处理只是将未知值补以我们的主观估计值,不一定完全符合客观事实。而且,对空值不正确的填充往往将新的噪声引入数据中,使挖掘任务产生错误的结果。因此,在许多情况下,我们还是希望在保持原始信息不发生变化的前提下对信息系统进行处理,这类方法包括贝叶斯网络48和人工神经网络49等。从理论上来说,贝叶斯考虑了一切,但是只有当数据集较小或满足某些条件(如多元正态分布)时完全贝叶斯分析才是可行的。而现阶段人工神经网络方法在数据挖掘中的应用仍很有限。值得一提的是,采用不精确信息处理数据的不完备性已得到了广泛的研究。不完备数据的表达方法所

6、依据的理论主要有可信度理论、概率论、模糊集合论、可能性理论,D-S 的证据理论等。1.2.2 噪声数据噪声是一个测量变量中的随机错误或偏差。给定一个数值属性,怎样才能平滑数据,去掉噪声呢?噪声数据平滑处理有三种基本的手段。(1)分箱(binning):分箱方法通过考察“邻居” (即周围的值)来平滑存储数据的值。存储的值被分到一些“桶”或箱中。由于分箱方法参考相邻的值,因此它进行局部平滑。有一些常用的分箱技术,如按箱平均值平滑,箱中每一个值被箱中的平均值替换。类似地,也可以按箱中值平滑,箱中每一个值被箱中的中值替换。对于按箱边界平滑,箱中的最大和最小值被视为箱边界,箱中的每一个值被最近的边界值替

7、换。一般来说,宽度越大,平滑效果越大。箱也可以是等宽的,每个箱值的区间范围是个常量。(2)计算机和人工检查相结合:可以通过计算机和人工检查相结合的办法来识别孤立点。比如可以使用信息理论度量帮助识别孤立点,孤立点模式可能是提供信息的或者是“垃圾” ,其差异程度大于某个阀值的模式输出到一个表中。人可以审查表的模式,识别真正的垃圾。这比人工地搜索整个数据库快得多。在其后的数据挖掘应用时,垃圾模式将由数据库中清除掉。(3)回归:可以通过让数据适合一个函数(如回归函数)来平滑数据。使用回归,找出适合数据的数学方程式,能够帮助消除噪声。除了以上三种基本的处理手段,聚类也可以对噪声数据进行平滑处理。聚类将类

8、似的值组织成群或“聚类” ,直观地看,落在聚类集合之外的值被视为孤立点。聚类将在第八章进行介绍。1.3 实验数据 本实验选用的数据集是关于信用卡的应用数据,具体的数据变量见表 2.1。资料提供:quinlancs.su.oz.au。为了保密,该集合中的属性及其值都转换成了无意义的符号(该数据已给出,其文件为 EXCEL 文件,名为Credit Approval) 。记录的数目:690,其中 37 个 (5%)记录有一个或多个缺失值。本实验将通过对这些资料的分析,学习属性缺失值和噪声数据的处理方法。表 2.1 原始数据资料描述表变量 ROLE 类型 不同值 个数 值列表 缺失值个 数A1 inp

9、ut 二元变量 2 b, a 12A2 input 连续变量 12A3 input 连续变量 0A4 input 名义变量 4 u, y, l, t 6A5 input 名义变量 3 g, p, gg 6A6 input 名义变量 14 c, d, cc, i, j, k, m, r, q, w, x, e, aa, ff 9A7 input 名义变量 9 v, h, bb, j, n, z, dd, ff, o 9A8 input 连续变量 0A9 input 名义变量 2 t, f 0A10 input 名义变量 2 t, f 0A11 input 连续变量 0A12 input 名义变量

10、 2 t, f 0A13 input 名义变量 3 g, p, s 0A14 input 连续变量 13A15 input 连续变量 0A16 target 二元变量 9 +,- 0存在不完整、含噪声的和不一致的数据是大型的、现实世界数据库或数据仓库的共同特点。错误数据可能能使挖掘过程陷入混乱,导致不可靠的输出。这样,我们必须使用数据预处理过程数据清理。数据清理过程通过填写空缺的值,平滑噪声数据,识别、删除孤立点,并解决不一致来“清理”数据。经过对本实验数据的观察,发现在某些属性中含有一些缺失值。为了减少缺失值的影响,必须根据数据集的分布特征对缺失值进行填充。如果原始数据中存在噪声数据,也需要进行消除。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报