收藏 分享(赏)

数据挖掘和RapidMiner入门要点.pdf

上传人:HR专家 文档编号:5397381 上传时间:2019-02-28 格式:PDF 页数:7 大小:348.34KB
下载 相关 举报
数据挖掘和RapidMiner入门要点.pdf_第1页
第1页 / 共7页
数据挖掘和RapidMiner入门要点.pdf_第2页
第2页 / 共7页
数据挖掘和RapidMiner入门要点.pdf_第3页
第3页 / 共7页
数据挖掘和RapidMiner入门要点.pdf_第4页
第4页 / 共7页
数据挖掘和RapidMiner入门要点.pdf_第5页
第5页 / 共7页
点击查看更多>>
资源描述

1、盗帅留香 http:/ 数据挖掘 入门 要点 本文档参考了其他文献,加上自己的理解整理出来,希望对数据挖掘新手有所帮助。我的百度 ID 是 Easy_flyqp,百度空间是 http:/ 一、 数据挖掘的概念和定义 1. 数据挖掘是从大量有噪音、不完整或者不一致的数据集合中发现有意义的模式或者规律的过程。 2. 数据挖掘不是得到一组数据就认为是完成了;比如使用 sql 语句从数据库中查询数据,这仅仅是一个获取样本的过程,其中还包括使用 where 条件过滤, sum, avg 等聚合函数等; 而数据挖掘是对这些数据进行深度分析并发现隐藏在数据中的有意义的模式。 3. 数据挖掘的常用术语和解释

2、i. 描述型挖掘:用简洁概述的方式表达数据中存在的有意义的性质。 ii. 预测型数据挖掘:通过对提供的数据集使用特定的方法 分析获得一个或者一组数据模型,并将该数据模型用于预测未 来的新数据的有关性质。 iii. 定性归纳:定性归纳式描述型挖掘的最简单的一种形式,所以定性归纳也称为概念描述(concept description)。 iv. OLAP:在线分析处理。 OLAP 是决策支持的一部分,传统的查询和报表工具告诉用户数据库中都有什么 (what happened), OLAP 进一步告诉用户下一步会怎么样 (what next),如果采取这样的措施又会怎么样 (what if)。也就是

3、说, OLAP 是 建立一个假设,然后使用 OLAP 来证实或者推翻 假设。数据挖掘与 OLAP 的区别在于数据挖掘不是证明某个模式 (模型 )的正确与否,而是主动去发现数据中隐藏的模型。 v. 数据泛化 (data Generalization):数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。 vi. 聚类 (Clustering):聚类是将数据库中的记录划分为一系列的有意义的子集。数据挖掘中常使用的聚类算法有 Kmean 和 Kmedoids 等。 vii. 人工神经网络 (NeuralNet): 神经网络是一组相互连接的输入输出单元,

4、这些单元之间的每个连接都关联一个权重。 从结构上,神 经网络可以划分为输入层,隐藏层,输出层。输入层的每个节点对应一 个的预测变量,输出层的 节点对应目标变量,可以有盗帅留香 http:/ 多个。 在输入层和输出层之间是隐藏层 (对神经网络用户来说不可见 ),隐藏层的层数和每层节点数决定了神经网络的复杂度。 神经网络常解决两个问题 :分类和回归。 viii. 分类知识 (classification):分类知识是反映同类事物共同性质特征型知识和不同事物之间的差异型特征知识。 数据的分类过程包含两个主要的步骤: 首先建立一个描述已知数据集类别或者概念 的模型,该模型是通过对数据库中各数据行的内容

5、分析而获得的,每一 数据 行 都可以认为是属于一个确定的数据类别,其类别值是一个属性描述(被称为类别标记属性 (label attribure)。第二步就是利用所获得的模型进行分类操作。 分类常用的算法有决策树、贝叶斯分类、神经网络分类、粗糙集 (roughSet)等方法。 二、 数据挖掘研究的重点 1. 处理噪声和不完整数据 数据库中的数据或许带有噪声、不完整、意外的数据对象,因此当挖掘数据对象时,很有可能会受到这些错误信息的影响,导致发现的结果出错,失去决策支持。在数据挖掘开始阶段,应该重视这一块内容。 RapidMiner 中提供了很多降噪和过滤数据的类, 数据预处理会使用到这些操作。

6、2. 挖掘结果表达 使用 RapidMiner 挖掘结果一般以 Model 的形式表达,属于文字描述,要清楚的描述这些信息,需要对数据挖掘的概念和使用的算法 深入了解, RapidMiner 还带有可视化工具,可以通过图形展现的方式查看挖掘结果,但是在应用系统集成层面上还没有发现有效的可视化工具,这一块还需要研究。 3. 性能问题 性能问题涉及到效率、可扩展性和数据挖掘算法的可并行性等问题 。特别是在算法验证过程中,需要迭代进行,算法的性能问题很总要。 RapidMiner 集成到系统中后,在初始化阶段耗时很多,如果预处理或者算法使用不合理,系统性能可能会受到影响。 三、 数据挖掘的过程 1.

7、 数据预处理 i. 数据清洗 (data cleaning) 数据清洗主要包括遗漏数据处理 (样本的缺省值 ),噪声处理,不一致数据处理等过程 。 遗漏数据可以通过忽略该条记录、手工填补遗漏值、利用均值或者最可能的值来填充等方法;噪声处理多采用 Bin 方法平滑降噪、回归方法和聚类方法来解决;部分不一致问题可以利用它们与外部的关联手工解决。 ii. 数据集成与转换 来自于多个数据源的数据需要进行数据集成操作。 数据转换是指将数据 转换或者归并成一个适合数据挖掘的描述形式。包括平滑处理、合盗帅留香 http:/ 计处理、数据泛化、规格化、属性构造 的方法。 iii. 数据消减 数据消减是精简数据

8、集使挖掘效率更高。 数据消减的主要策略有数据立方合计,维数消减,数据压缩,数据块消减,离散化与概念层次生成。 数据消减需要遵循一个原则,就是数据消减所耗费的时间不应该超过由数据消减而节约的挖掘时间。 2. 数据挖掘 利用智能方法发现数据模式或规律知识。 所谓的 ”智能方法 ”是指目前已发现的关于数据挖掘和统计的一些经典算法,如分类中使用的决策树, ID3, C4.5,网络神经; 聚类中的 k-均值 算法等,需要根据具体场景和挖掘要求选择最优 的算法。 3. 模式评估 协助数据挖掘模块发现更有意义的模式知识,该模块能否与数据挖掘模块结合,取决于数据挖掘模块所使用的具体算法。 这部分需要了解数据挖

9、掘的各种算法。 四、 RapidMiner 操作要点 1. 首先要获取需要的数据,获取数据的类在 IO 包下 : 在 ”New Operator”选项卡中选择需要的样本选择器: 在 IO 包中有关于取数的类,如ExampleSource,ExcelExampleSource,DataBaseExampleSource 等 ,可以 从文 件(cvs,excel 等 )或者数据库中读取数据 盗帅留香 http:/ 可以将需要的样本生成器直接拖拽到 ”Operator tree”选项卡中。 根据具体场景,设置各个 operator 的参数,参考帮助文档。 2. 数据预处理阶段,大部分操作可以在 Pr

10、eprocessing 中找到 : 3. 数据挖掘 过程可以使用机器学习 (Learner)、在线分析处理 (OLAP)、验证 (Validation)下的类: 五、 RapidMiner 示例 1. 配置 process 每个操作的参数配置请参考帮助文档和 RapidMiner 训练集文档 有关数据预处理的数据转换、数据清洗等操作,具体类的用法和意义参考 RapidMiner训练集文档 在机器学习中 RapidMiner 已经实现了很多经典算法,如 ID3,C4.5, SVM, 聚类,贝叶斯分类等。请 参考 RapidMiner 训练集文档 盗帅留香 http:/ 2. 执行结果和分析 Di

11、stributionModel Class Heigher (0.438): = Attribute Outlook - sunny overcast rain 获取数据,这里使用的 Demo 中的 golf.aml 填充缺失样本 设置本次挖掘的评估属性 (label attribute) 基本贝叶斯分类器,预测评估属性 (label attribute)所属分类的概率 盗帅留香 http:/ 0.444 0.333 0.222 else (sum: 6) Attribute Humidity - Numerical mean: 79.667, standard deviation: 7.11

12、8 Attribute Wind - false true 0.625 0.375 else ? (sum: 6) Attribute Play - no yes 0.375 0.625 else ? (sum: 6) Class lower (0.562): = Attribute Outlook - rain overcast sunny 0.455 0.273 0.273 else ? (sum: 8) Attribute Humidity - Numerical mean: 80.750, standard deviation: 11.961 Attribute Wind - false true 0.500 0.500 else ? (sum: 8) Attribute Play - yes no 0.600 0.400 else ? (sum: 8) 盗帅留香 http:/ 可以看出属性 “ Temperature” 最终分为两类,其中 “ Heigher” 的概率为 0.438,“ Lower”的概率为 0.562,其他属性是体现对这个属性的影响

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 实用文档 > 简明教程

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报