1、第11章 数据预处理与可视化技术,数据挖掘与知识发现(第2版)吉林大学计算机科学与技术学院 李雄飞,数据挖掘与知识发现(第2版),(42-2),数据预处理与可视化技术,数据预处理是数据分析、数据挖掘等工作的前期准备,用以确定数据挖掘的类型,提高挖掘质量。融合数据挖掘和数据可视化两个学科,可以用直观、有效的方式来解释和评估挖掘对象、挖掘任务以及挖掘结果。本章介绍如下几个方面的内容: 数据清理 数据集成与转换 数据归约与浓缩 概念分层 过程可视化 数据可视化 结果可视化,数据挖掘与知识发现(第2版),(42-3),数据清理,数据清理(Data Cleaning)能够填补空缺数据,平滑噪声,发现孤立
2、点,纠正不一致的数据,进而改善数据质量,提高数据挖掘的精度和性能。 一、 填补空缺值海量数据集中可能会“遗漏”某些数据,要分析这种不完整的数据,就必须通过推导来填充这些空缺值。必须权衡估计数据带来的风险和数据空缺造成的误解。 缺省值处理方法: 1. 忽略元组:如果一个元组中空缺值的属性较多,可以忽略这个元组。 2. 人工填写空缺值:这种方法很费时。 3. 用全局常量填充空缺值:用同一个常数(如“Unknown”或-)替换空缺的属性值。 4. 用属性的平均值填充空缺值 5. 用同类样本的平均值填补空缺值 6. 用最可能的值填充空缺值:用回归分析或决策树归纳等方法确定最有可能的值。 7. 用最近邻
3、方法填补空缺值,数据挖掘与知识发现(第2版),(42-4),数据清理,二、消除噪声数据噪声(Noise)是测量中的随机错误或偏差。 几种常用方法: 1. 分箱(Binning):通过考察“邻居”(即周围的值)来平滑存储的数据值。它将存储的值分布到一些箱中,可按均值、中位数等平滑。分箱方法只参考相邻的值,是对数据的局部平滑。 一般来说,宽度越大,平滑效果越好。箱也可以是等宽的,每个箱的取值区间是一个常量。,数据挖掘与知识发现(第2版),(42-5),数据清理,2. 聚类(Clustering):通过聚类形成一些簇,落在簇之外的对象按关注程度划分,如果关注该对象就称为孤立点,否则视为噪声。所以聚类
4、可以发现噪声。 3. 计算机与人工检查结合:计算机将差异程度大于阈值的模式记录到一个表中,通过审查表中的模式可以识别真正的噪声。 4. 回归(Regression):用由数据拟合的函数(如回归函数)来平滑数据。 三、实现数据一致性对于数据集中存在的不一致数据,可以参照其他资料(如纸上的记录)人工地加以更正,还可以使用用来纠正编码不一致问题的程序,也可以用知识工程工具来检测不符合条件约束的数据。,数据挖掘与知识发现(第2版),(42-6),数据集成与转换,海量数据集往往涉及多个数据源,因此,在数据挖掘之前需要合并这些数据源存储的数据。如果原始数据的形式不适合数据挖掘算法需要,就要进行数据变换。
5、一、数据集成数据挖掘对象可能来自多个数据源,包括不同形式的数据库、数据立方体或一般文本文件等。数据集成是将这些数据源中的数据集中存放在一个统一的数据存储(如数据仓库)中。 通用标识符问题 隔离,保证为实体的每次出现指派一个唯一标识符; 调和,确认相同的实体并将该实体的各次出现合并在一起。 冗余问题。(冗余属性和冗余元组)不一致的属性或伪命名也可能导致数据冗余。利用相关分析可以发现一些冗余问题。 将多个数据源中的数据集成起来,能够减少或避免数据的冗余和不一致性,这将有助于提高数据挖掘的精度和效率。,数据挖掘与知识发现(第2版),(42-7),数据集成与转换,二、数据转换目的是使数据和将来要建立的
6、模型拟合得更好,形成适合挖掘的形式。 数据转换主要涉及如下内容: 1. 平滑:去掉数据中的噪声。 2. 聚集:对数据进行汇总和聚集。为多粒度数据分析构建数据立方体。 3. 数据概化:使用概念分层,用高层次概念替换低层次“原始”数据。 4. 属性构造:构造新属性并将其添加到属性集中有助于数据挖掘过程。 5. 规范化:通过将属性数据按比例缩放,使之落入一个小的特定区间(如0.01.0)来规范属性。 (1) 最小-最大规范化设 minA 和maxA 分别为属性A的最小和最大值。(11.1)将A的值映射到区间new_minA, new_maxA 中的。 最小-最大规范化对原始数据进行线性变换,保持原始
7、数据值之间的线性关系。,数据挖掘与知识发现(第2版),(42-8),数据集成与转换,(2) z-score规范化(零-均值规范化)把属性A的值基于A的均值和标准差规范化为。(11.2)其中, 和A分别为属性 A的均值和标准差。 在应用中,由于难以预知该属性的最大最小值,或存在“孤立点”,使用最小-最大规范化方法不很实际,此时,零均值方法是有效的。 (3) 小数定标规范化通过移动属性A的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。将A的值规范化为。(11.3)其中,j是使Max(v)1的最小整数。数据经过规范化处理后会有很大改变。因此,有必要保留规范化参数,以便将来的数据可以用一
8、致的方式规范化。,数据挖掘与知识发现(第2版),(42-9),数据归约与浓缩,数据归约技术可以用来得到数据集的归约表示,虽然数据规模缩小了,但仍接近于原数据的完整性。 常用的数据归约策略: 数据立方体聚集 维归约 数据压缩 数值压缩 离散化 概念分层 (1)数据立方体聚集 数据立方体可以存放多维聚集信息。每个单元存放一个聚集值,对应于多维空间的一个数据点。每个属性可能存在概念分层,允许在多个抽象层进行数据分析。最底层的数据立方体称为基本方体。最高层抽象的数据立方体称为顶点方体。不同层创建的数据立方体称为方体。 数据立方体可以看成方体的格。每个较高层的抽象会缩减结果数据。,数据挖掘与知识发现(第
9、2版),(42-10),数据归约与浓缩,数据挖掘与知识发现(第2版),(42-11),数据归约与浓缩,(2)维归约维归约通过删除与数据挖掘不相关的属性(或维),达到减少数据量的目的。 数据中的一些属性与数据挖掘任务并不相关。 遗漏相关属性或保留不相关属性均会导致数据挖掘结果质量很差。 通常使用属性子集选择方法,找出最小属性集,使数据类的概率分布尽可能接近原始数据分布。 通过维归约能减少模式上的属性数目,使模式更易于理解。 (3)数据压缩 无损压缩:可以不丢失任何信息地还原压缩数据。 有损压缩:只能重新构造原数据的近似表示。 应用数据编码或转换,可以得到原数据的归约或“压缩”表示。 主成分分析
10、小波变换,数据挖掘与知识发现(第2版),(42-12),数据归约与浓缩,(4)数值归约 利用替代数据以“较小的”数据表示形式来达到减少数据量的目的。它可以是有参的,也可以是无参的。 1. 回归和对数线性模型回归是研究自变量与因变量之间关系的分析方法,根据已知自变量来估计和预测因变量的总平均值。 回归和对数线性模型可以近似拟合给定的数据。 例如,双变量回归将一个随机变量Y(称作响应变量)看作是另一个随机变量X(称为预测变量)的线性函数,即:Y=+X (11.4)其中,假定Y的方差是常量,和称为回归系数。 给定n个样本或形如(x1, y1), (x2, y2), (xn, yn)的数据点,则,数据
11、挖掘与知识发现(第2版),(42-13),数据归约与浓缩,对数线性模型(Log-linear Model)可以近似地描述离散的多维概率分布。按较小的方体形成数据立方体的格,对数线性模型用于估计具有离散属性集的基本方体中每个格的概率分布。该模型允许由较低阶的数据立方体构造较高阶的数据立方体。 因为较低阶的方体总共占用的空间小于基本方体占用的空间,所以对数线性模型可以用于数据压缩。 用较小阶的方体对格进行估计时,选样变化小,所以它对数据平滑也是有用的。,数据挖掘与知识发现(第2版),(42-14),数据归约与浓缩,2. 直方图(Histogram)数据总结的最好方法是提供数据的直方图。它采用分箱近
12、似数据分布,是一种流行的数据归约形式。属性A的直方图是将A的数据分布划分为不相交的子集或桶。把桶安放在水平轴上,桶的高度(和面积)代表值的平均频率。如果每个桶只代表单个属性的值/频率对,就称为单桶。通常,桶表示给定属性的一个连续区间。 确定桶和属性值的划分规则: 等宽。 等深。 V-最优:V-最优直方图是具有最小方差的直方图。最大差异:考虑每对相邻值之间的差。桶的边界是具有1个最大差的数对,其中由用户指定。 V-最优和最大差异直方图是最精确和最实用的。无论对于近似稀疏、稠密数据、高倾斜数据或一致的数据,直方图都是有效的。多维直方图可以体现属性间的依赖关系。,数据挖掘与知识发现(第2版),(42
13、-15),数据归约与浓缩,3. 聚类在数据归约时,用聚类簇替换实际数据。 4. 抽样抽样用较小的随机样本(子集)表示大的数据集。 假定海量数据集D包含N个对象。可以用如下方法对D抽样。 (1) 不放回简单随机抽样。 (2) 放回简单随机抽样。 (3) 整群抽样:从总体中随机抽取一些小的群体,然后由这些小群体内的所有元素构成调查的样本。对小群体的抽取可以采用简单随机抽样、系统抽样和分层抽样等方法。 (4) 分层抽样:把总体分成不重叠的层,从每一层分别抽取样本,由各层子样本组成总体的样本。 (5) 多阶抽样:按照元素的隶属关系和层次关系,把抽样过程分为几个阶段进行。 (6) 系统抽样:将总体中的对
14、象按某种顺序排列,在规定的范围内随机抽取一个或一组对象,然后按一定规则确定其他样本对象。,数据挖掘与知识发现(第2版),(42-16),概念分层,概念分层是一组由低层概念集到高层概念集的映射。它允许在各种抽象级别上处理数据,从而在多个抽象层上发现知识。 概念分层结构可以用树来表示,树的每个节点代表一个概念。概念分层结构也可以是一般的格或偏序。 通过概念分层,可以在较高的、一般化的抽象层上处理原始数据。可以通过用较高层概念替换较低层的概念来实现数据的概化 。,数据挖掘与知识发现(第2版),(42-17),概念分层,一、概念分层分类概念分层包括模式分层、集合分组分层、由操作导出的分层和基于规则的分
15、层4种类型。 1. 模式分层模式分层(模式定义的分层)是数据库模式属性间的全序或偏序。模式分层形式化地描述了属性间的语义联系。通常情况下,一个模式分层指定数据仓库的一个维。维的属性也可以组织成偏序,形成一个格。模式分层提供元数据(即关于数据的数据)信息。使用全序或偏序比列出所有具体数据更加简明。 2. 集合分组分层集合分组分层将给定属性或维的值组织成常量组或区间值,也就是通过维或属性值的离散化或分组来定义分层。组之间可以定义全序或偏序。当两种类型的分层结构结合时,集合分组分层可以用于精炼或丰富模式定义的分层。 3. 由操作导出的分层由操作导出的分层是根据用户、专家或数据挖掘系统指明的操作分层。
16、操作包括对信息编码串的解码,从复杂数据对象提取信息和数据聚类等。,数据挖掘与知识发现(第2版),(42-18),概念分层,4. 基于规则的分层基于规则的分层是指用一组规则来定义整个概念分层或概念分层的某一部分,可以根据当前数据库和规则定义动态地计算分层。 二、数值数据的概念分层与离散化根据对数据分布的统计分析自动地构造数值属性的概念分层。常见的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过“自然划分”的数据分段等。 1. 分箱将数据分布到箱中,并用箱中数据的均值或中位数替换箱中的每个值,可以将属性值离散化。不断用该方法划分结果,就能产生概念分层。 2. 直方图分析在等宽直方图中,将值划
17、分成相等的部分或区间。在等深直方图中,对值进行划分使每一部分包括相同数目的样本。把直方图分析算法递归地用于每一部分,直到到达一个预先设定的概念层数为止。 3. 聚类分析,数据挖掘与知识发现(第2版),(42-19),概念分层,4. 基于熵的离散化用熵来递归地划分数值属性,使之分层离散化。这种离散化形成属性的数值概念分层。 给定数据元组的集合S,对属性A离散化的方法如下: A的每个值是一个潜在的区间边界或阈值T。 (2) 给定S,选择在划分后信息增益最大的值作为阈值。 (3) 把确定阈值的过程递归地用于每个划分,直到满足 为止。 其中,5. 通过自然划分分段用户可能希望看到把数值区域划分为相对一
18、致的、直观或“自然”的区间。例如,将年薪划分成类似于(50 000, 60 000)的区间,比由某种复杂的聚类技术得到的形式更好。,数据挖掘与知识发现(第2版),(42-20),概念分层,三、分类数据的概念分层分类数据是离散数据。一个分类属性具有有限个取值,值之间是无序的。针对分类数据的概念分层方法有: 1. 用户或领域专家在模式级给出属性的部分序。 2. 通过显式数据分组给出分层结构。 3. 只说明属性集,不说明它们的偏序。由于一个较高层的概念通常包含若干从属的较低层概念,与较低概念层的属性相比,较高概念层的属性通常包含少量的值。 4. 只说明部分属性集:在定义分层时,用户可能只说明了相关属
19、性的一小部分。为了处理这种部分说明的分层结构,有必要在数据库模式中嵌入数据语义,把语义密切相关的属性捆绑在一起。,数据挖掘与知识发现(第2版),(42-21),可视化技术概述,可视化技术借助计算机图形学及图像处理技术将科学计算过程中的抽象信息以生动形象的图形、图表模式显示出来,用以辅助了解计算过程中数据的变化情况。 可视化技术的三大特点: 交互性 多维性 可视性,数据挖掘与知识发现(第2版),(42-22),可视化技术概述,可视化技术分类 1. 按数据类型划分 (1)一维数据可视化 (2)二维数据可视化 (3)多维数据可视化 (4)多媒体数据可视化 (5)时序数据和序列数据可视化 (6)文本数
20、据可视化 (7)网络数据可视化 2. 按可视化方法划分 (1)传统图结构 (2)基于几何投影技术的方法 (3)基于图标技术的方法 (4)基于像素方法 (5)基于层次的方法 (6)组合技术,3.按分析处理技术划分 (1)变形技术 (2)动态交互技术 (3)钻过和钻透技术 (4)虚拟现实技术,数据挖掘与知识发现(第2版),(42-23),可视化技术概述,可视化技术在数据挖掘中的应用 (1) chernoff脸谱图(Chernoff Faces)由统计学家Herman chernoff于1973年提出,是一种采用图标表示n维数据的方法。取数据的两个属性作为二维平面的横、纵轴,人脸特征(脸的形状、鼻子
21、长度、嘴的宽度、眼睛的大小等)代表其他各个属性的值。,数据挖掘与知识发现(第2版),(42-24),可视化技术概述,(2)树图(Tree Map)根据数据的层次结构,从根节点到子结点的顺序,先水平地将屏幕空间二分为矩形子空间,然后在垂直的划分该矩形子空间,子空间的大小由结点的大小决定,这样迭代水平、垂直划分,直至处理完层次结构内所有的结点。,数据挖掘与知识发现(第2版),(42-25),可视化技术概述,(3)层次聚类方法层次聚类中的同属于一个祖先的叶节点被划分在同一个纵向分割的子块内。,数据挖掘与知识发现(第2版),(42-26),过程可视化,有三种实现数据挖掘可视化的方法: (1)嵌入式可视
22、化环境将可视化工具集成为应用软件的一部分,然后将该应用软件嵌入到主程序中。 (2)通用可视化环境从底层就采用可视化模型开发,它的编程和显示都是可视化的,数据的导入和结果集的检验等均在可视化环境中操作。 (3)可视化组件库由可以用来开发可视化应用的软件包或组件库组成。可视化组件库强调组件独立使用,通常为用户提供开发工具和语言。 数据挖掘过程可视化贯穿整个数据挖掘过程,包括用户界面、定制工作流、添加和选择算法、模型、属性、数据集等。通常数据挖掘平台是一个基于图形化界面、菜单驱动、拖拽式操作的集成环境,参见图11.11。,数据挖掘与知识发现(第2版),(42-27),过程可视化,数据挖掘与知识发现(
23、第2版),(42-28),过程可视化,数据挖掘与知识发现(第2版),(42-29),数据可视化,数据挖掘与知识发现(第2版),(42-30),数据可视化,1.折线图折线图是用一个单位长度表示一定的数量,每个数据描出一个点,并把各点用线段顺次连接起来的图形。折线图可以清晰地反映出数据的增减规律、增减幅度、速率、峰值等。,数据挖掘与知识发现(第2版),(42-31),数据可视化,2.复合饼图用来显示数据集中各项占数据总额的百分比,是一种概化数据的图形表示方法。用户可以任意选取属性,可以动态增加饼图个数,同时比较若干维的统计信息。饼图中的扇形以不同颜色标示且都给出占总体份额的百分比。,数据挖掘与知识
24、发现(第2版),(42-32),数据可视化,4.盒图盒图根据五数概括绘制,分布的五数概括(five-number summary)由中位数,四分位数Q1和Q3,最小和最大观测值组成。盒图容易观察数据的对称性,分散程度、异常值、偏态和尾重等。,数据挖掘与知识发现(第2版),(42-33),数据可视化,5.平行坐标法把多维空间的数据点映射到二维空间。它将N维数据点映射为平行坐标轴中首尾相连的N-1条折线,这些折线与平行坐标轴的交点即为多维空间中的数据点的每一维数据值。,数据挖掘与知识发现(第2版),(42-34),数据可视化,6.圆环分段表示在圆形的每一扇形上显示一维数据。若数据是K维组成的,将圆
25、形分成K个扇形。每段的数据项表示为单个像素,以圆心为起点沿着垂直于段中线的方向,在段内来回移动。像素排列是从圆心开始到圆形的外边界。,数据挖掘与知识发现(第2版),(42-35),结果可视化,数据挖掘结果可视化是指将数据挖掘后得到的知识和结果用可视化的形式表示出来。数据挖掘平台的结果可视化子模块读取执行算法后生成的以XML文件存储的结果集文件,并以相应的图形表示出来,使原本抽象的挖掘结果信息简明化,有助于用户理解。,数据挖掘与知识发现(第2版),(42-36),结果可视化,1.单维关联规则可视化直接用表格的方法来展示单维关联规则图形,可以简洁明了的展示关联规则的前项和后项,以及支持度和置信度信
26、息。,数据挖掘与知识发现(第2版),(42-37),结果可视化,2.多维关联规则可视化基于平行坐标的多维关联规则可视化是将平行坐标法的属性轴设置为水平且等距的,这些水平轴分别表示关联规则中出现的各个属性,关联规则表示为连接相应水平轴的垂直线段。此外,利用图形和色彩信息描述规则的前项和后项,包括支持度和置信度取值。,数据挖掘与知识发现(第2版),(42-38),结果可视化,3.决策树图形决策树图形可以高效的理解分类的过程和最后生成的规则。拖动鼠标可使树在窗口中任意移动。点击任意一个非叶子结点,会给出以此子结点为根的子树表示。点击任意一个叶子结点,会得到该叶子结点从根到此结点的详细路径。,数据挖掘
27、与知识发现(第2版),(42-39),结果可视化,4.分类3D散点图3D散点图可以在三维空间内显示图形,很容易得出应变量和自变量间的线性相关性,相关的方向、模式、趋势、点的聚类和孤立点等,增加了图形的视觉效果和对更多维属性的观察。,数据挖掘与知识发现(第2版),(42-40),结果可视化,数据挖掘与知识发现(第2版),(42-41),结果可视化,5.聚类树图是一种层次化聚类分析结果的图形表示方法,将层次化聚类的每一步的结果表示为一个树节点的两个分支节点,子类按照y轴的方向列出,x轴给出类之间的距离的度量,图形自底向上构造,首先将每个对象作为一个单独的簇,然后进行子簇的合并,直到所有的簇被合并到同一个簇中,整个过程结束。,数据挖掘与知识发现(第2版),(42-42),课外阅读,