分享
分享赚钱 收藏 举报 版权申诉 / 47

类型数据挖掘——数据预处理.ppt

  • 上传人:oil007
  • 文档编号:3817481
  • 上传时间:2018-11-19
  • 格式:PPT
  • 页数:47
  • 大小:506.50KB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据挖掘——数据预处理.ppt
    资源描述:

    1、数据挖掘与知识发现 (复杂数据对象的数据挖掘与知识发现),4 数 据 挖掘的预处理,数据挖掘的困难所在,Noise Skewed distribution Missing values (incomplete info) Scalability High dimensionality Bias in data .,预处理在知识发现中所占份量,预处理,各种不同的数据源和数据对象数据的选择、集成与整合,对问题进行限定 数据库中的数据具有噪声、缺值、不易至数据的去噪和规范化问题,提高挖掘精度 数据的变换规范化、映射到不同的空间,提高挖掘效率 数据的规约取出冗余、属性聚类来压缩数据数据的预处理是KDD

    2、&DM的重要步骤,预处理的基本功能,预处理主要是接受并理解KDD要求,确定发现任务 抽取与发现任务相关的数据源,根据背景知识中的约束性规则对数据进行合法性检查 通过清理和归约等操作,生成供挖掘核心使用的目标数据。它汇集了原始数据库中与发现有关的所有数据的总体特征,是知识发现状态空间的基底。,4 数据挖掘的预处理,4.1数据选择与集成4.2数据清理4.4数据归约4.4数据变换4.5数据离散,4.1 数据选择,分析需求和应用,了解业务背景 确定分析主题 数据库或数据仓库中选择索要分析的数据 利用数据转换工具进行分析处理,4.1 数据集成,将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义

    3、的模糊性。解决数据的冲突问题以及不一致数据的处理问题。 数据来自多个系统,存在着异构数据的转换问。多个数据源的之间还存在许多不一致的地方,如命名、结构、单位、含义等。因此,数据集成并非是简单的数据合并,而是把数据进行统一化和规范化处理的复杂过程。 需要统一原始数据中的所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等,把原始数据在最低层次上加以转换、提炼和聚集。 数据集成中还应考虑数据类型的选择问题 ,尽量选择占物理空间较小的数据类型。,4.1 数据集成冗余,冗余的原因:数据库设计,不同来源的数据引起的数据的相关性 冗余检验:属性的相关性属性A,B 其相关性度量,4.2数据清理

    4、,4.1数据选择与集成4.2数据清理4.4数据归约4.4数据变换4.5数据离散,4.2 数据清理,数据清理要去除源数据集中的噪声和无关数据 处理遗漏数据和清洗脏数据 去除空白数据域和知识背景上的白噪声 考虑时间顺序和数据变化等,主要包括重复数据处理和缺值数据处理 完成一些数据类型的转换。,4.2 数据清理,数据清理可以分为有监督和无监督 有监督过程是在领域专家的指导下,分析收集的数据,去除明显错误的噪音数据和重复记录,填补缺值数据; 无监督过程是用样本数据训练算法,使其获得一定的经验,并在以后的处理过程中自动采用这些经验完成数据清理工作。,4.2 数据清理,另一个重要内容是数据类型的转换,通常

    5、是指连续属性的离散化 离散化方法有等距区间法、等频区间法和最大熵法。 通过离散化,可以有效地减少数据表的大小,提高分类准确性。,4 数据挖掘的预处理,4.1数据库与数据仓库4.2数据选择与集成4.3数据清理4.4数据归约4.5数据变换4.6数据离散,4.4 数据规约,有些数据属性对发现任务是没有影响的,这些属性的加入会大大影响挖掘效率,甚至还可能导致挖掘结果的偏差。简化是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下最大限度地精简数据量。,4.4 数据规约,主要有两个途径:属性选择和数据抽样,分别针对数据库中的属

    6、性和记录。 属性选择包括针对属性进行剪枝、并枝、找相关等操作。 数据抽样是进行数据记录之间的相关性分析,用少量的记录基底的线性组合来表示大量的记录。它主要得用统计学中的抽样方法如简单随机抽样、等距抽样、分层抽样等。,4.4 数据规约基于粗糙集理论的约简法,粗糙集(Rough Set, RS)一种研究不精确、不确定性知识的数据学工具,目前受到了KDD研究者的广泛重视,用RS理论对数据时行处理是一种十分有效的精简数据维数的方法。我们所处理的数据一般存在信息的含糊性问题,含糊性有三种,术语的模糊性,知识自身的不确定性;数据的不确定性。,4.4 数据规约基于粗糙集理论的约简法,粗糙集(Rough Se

    7、t, RS)RS理论的最大特点是无需提供问题所需处理的数据集合之外的任何先验信息,其基本思路是利用定义在数据集合U上等价关系对U进行划分。对于数据表来说,这种等价关系可以是某个属性,或者是几个属性的集合。因此按照不同属性的组合就把数据表划分成不同的基本类。在这些基本类的基础上进一步求得最小约简集。,4.4 数据规约基于粗糙集理论的约简法,粗糙集(Rough Set, RS)采用RS理论作为数据预处理方法具有许多的优点:不需要预先知道额外信息;算法简单、易于操作。应用RS的属性约简可以有效地去除冗余现象,同样可以应用RS方法中的约简技术删除 某些属性的多余值,从而使条件属性的个数和取值得到约简。

    8、但是,RS理论只能处理离散型属性。对于连续的属性必须先进行离散化才能再运用RS理论进行处理。,4.4 数据规约基于粗糙集理论的约简法,概念树的基本思路在数据库中,许多属性都是可以进行归类,各属性值和概念依据抽象程度不同可以进行数据归类并构成一个层次结构,概念的这种层次结构通常称为概念树。概念树一般由领域专家提供,它将各个层次的概念按一般到特殊的顺序排列。,基于概念树的数据预处理方法是一种归纳方法,其实是数据库中元组合并的处理过程,其基本思路如下 : 首先,一个属性的具体的值被该属性的概念树中的父概念所代替,然后对相同元组进行合并,构成更宏观的元组,并计算宏元组所覆盖的元组数目仍然很大,那么用该

    9、属性的概念树中父概念去替代或者根据另一个属性进行概念树的提升操作,最后行成覆盖面更广、量更少的宏元组。,4.4 数据规约基于概念树的数据浓缩,可以采用统计分析中的一些算法来进行特征属性的选取,比如主成分分析、逐步回归分析。这些方法的共同特征是用少量的特征元组去描述的原始数据。,4.4 数据规约基于统计分析的属性选择,主成分分析的思想是:对于给定的输入数据矩阵X,计算其相关系数矩阵R=XX,取与R中最大的几个特征值相应的特征向量作为主成分。其中数据准则是希望每次取得一个综合变量的方差,在原变量的全部方差(或剩下的全部方差)中所占的比例最大。,4.4 数据规约基于统计分析的属性选择,主成分方法的特

    10、点是将描述某一事物的多个变量压缩成描述该事物的少数几个合变量或称主成分(通常用原变量的线性组合表示),旨在用新的少数几个综合变量代替原始变量,并使这 种替代所蒙受的损失最少。主成分分析法具有变差最优性。信息损失最小性。相关最优性和回归最优性,使它得以成为多元降维的重要工具之一。,4.4 数据规约基于统计分析的属性选择,4 数据挖掘的预处理,4.1数据库与数据仓库4.2数据选择与集成4.4数据清理4.4数据归约4.5数据变换4.6数据离散,数据变换,数据变换主要是找到数据的特征表示,用维变换或转换方法减少有效变量的数目或找到数据的不变式,包括规格化、归约切换、旋转和投影等操作。,简单变换,平滑:

    11、去噪,方法:回归、聚类 聚集:不同估量单位的聚集,如日-月-年 数据概化:抽象和提升 规范化:将数据转化到一定区间,0,1最小-最大规范化:零均值规范化:,空间变换,线性变换 小波变换(高维空间变化,正交基,可保持多种属性不变,在此后面我们将进行深入介绍)。,4 数据挖掘的预处理,4.1数据库与数据仓库4.2数据选择与集成4.4数据清理4.4数据归约4.5数据变换4.6数据离散,连续属性离散化,离散属性也称符号的(symbolic)、或名称的(nominal)、或类别的(categorical)连续属性也称实数的(real)、或有序的(ordered)、或数值的(numerical),连续属性

    12、离散化在KDD中是一个很重要的问题。很多数据挖掘和知识发现算法要求连续属性数据必须预先离散化之后才行。 离散化的任务是把连续属性的取值范围或取值区间划分为若干个数目不太多的小区间,其中每个区间对应着一个离散的符号。例如,设当前考察的属性是年龄,则一种可能的离散化是0.11 小孩,12.17 少年,18.44 青壮年,45-69中年,79. 老年。,连续属性离散化,连续属性离散化的方法有很多种: 是否自动离散化:完全由人手工离散化,完全由机器自动离散化,机器辅助人离散化。一般地,离散化是指机器自动离散化。 是否与分类或决策类别有关:一是考虑分类类别;另一是不考虑分类类别,这种方法可用于非监督学习

    13、或概念聚类学习,不过当用于带有类别标记的分类学习时效果肯定不会好于上面的方法。,一般有这样几种: 等宽区间法(equal-width-intervals) 等频区间法(equal-frequency-intervals) 最大熵法(maximum entropy),4.2.1 语言场及语言值结构,给定数据库D上的所有属性集合A=a1, a2, ,am 其中,ai也称为语言变量,每个属性又可以由不同的程度词来描述属性的状态,如对第一个属性ai可以表示为ai=ai1, ai2, ,aik 其中,aij也称为语言值,aij的i表示第i个属性,j表示该属性的第j个程度词,如对温度而言,“很高”、“高”

    14、等都是程度词,也即语言值。 属性程度词是把某一属性和它的一个程度词放在一起(即语言变量+语言值),表示该属性的某种状态,例如,“温度很高”是一个属性程度词。,数值: 35 37 tm,(D) 基础变量,(N) 语言值 低烧1 正常n2 nm,数值区间:a0,a1 a1,a2 am-1,am,(L)语言变量 体温、疼痛,定义4.1:在语言变量相应的基础变量论域中,各个被划分的交叉区间的中点连同-邻域(通常为允许误差值)内的点,称为标准样本(点),其取值邻域称为标准值;其余诸点均称为非标准样本(点),其取值称为非标准值。它们分别构成标准样本空间与非标准样本空间,并统称为一般样本空间。,属性的划分如

    15、下图所示,对于类别属性和取值范围不宽的离散型数值属性,可以将每个属性值映射到相应语言变量的语言值,但是对于连续型属性、或取值范围很宽的离散型属性,必须将其分为若干区间,然后将每个区间映射为一个相应的语言值。,有了以上的算法就可以得到语言值所映射的区间,其关键是求临界点,然后再对真实数据库进行处理,转换为挖掘数据库。令真实数据库为D,属性集为(e1,e2,em),属性ei所对应的数据精度为Pi,划分语言值的个数为Numi,划分语言值的标准样本点为aj,对应的-邻域的半径为rj,其中j=1,2, Numi,对应的临界点数值为Vk,其中k=1,2, Numi-1,则其算法描述如下:,(1) for

    16、i:=1 to m do (2) for j:=1 to Numi-1 do (4) u:=aj (4) IsLarge:=True (5) while IsLarge do (6) u := u +Pi (7) if u(aj+rj) and u(aj+1-rj+1) then (8) (9) 求, /根据公式(4-2) (10) if then (11) Vj=u (12) IsLarge:=False (14) end;,从以上讨论可以看出,利用语言场理论对连续属性进行离散化,该方法简单,计算时间短,可以根据专家(用户)的意愿来划分连续属性,从而用自然语言来描述最后得到的规则,使之更为用户所理解,因此比较实用,其不足之处是受人为因素的影响。,离散化的问题,离散化方法的一个先天不足是可能降低发现的知识的精确度,因此离散化过程如同其他的汇总小结过程一样,可能会导致某些相关的详细信息的丢失。另外,离散化方法对挖掘出的知识的质量的影响如何,仍是一个有待研究的课题。 离散化方法即改变连续属性为离散值。属性进行离散化的思想是输入一个(整数的或连续值的)属性值输出一个有序区间,因此整个输入域相应与一个有序区间列表。离散化方法常常跟分类问题相联系。,

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:数据挖掘——数据预处理.ppt
    链接地址:https://www.docduoduo.com/p-3817481.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开