收藏 分享(赏)

第14讲:Mahout数据挖掘工具.ppt

上传人:Facebook 文档编号:2348856 上传时间:2018-09-11 格式:PPT 页数:50 大小:7.96MB
下载 相关 举报
第14讲:Mahout数据挖掘工具.ppt_第1页
第1页 / 共50页
第14讲:Mahout数据挖掘工具.ppt_第2页
第2页 / 共50页
第14讲:Mahout数据挖掘工具.ppt_第3页
第3页 / 共50页
第14讲:Mahout数据挖掘工具.ppt_第4页
第4页 / 共50页
第14讲:Mahout数据挖掘工具.ppt_第5页
第5页 / 共50页
点击查看更多>>
资源描述

1、第14讲:Mahout数据挖掘工具,Mahout,Mahout的中文含义:象夫,数据金字塔,数据分析 使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果.,数据分析,常用算法,回归,分类器,分类的定义分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。分为学习和分类阶段。分类的任务是通过分析由已知类别数据对象组成的训练数据集,建立描述并区分数据对象类别的分类函数或分类模型。分类的目的是利用分类模型预测未知类别数据对象的所属类别。 贝叶斯分类器用于垃圾邮件分类。,决策树,聚类,聚类分析的定义 聚类分析是将物理的

2、或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度。 通常聚类算法可以分为以下几类: 划分式聚类算法 层次聚类算法 基于密度的聚类算法 基于网格的聚类算法 基于模型的聚类算法,聚类,数据挖掘,数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联 数据挖掘思想来源:假设检验,模式识别,人工智能,机器学习 常见数据挖掘任务:关联分析,聚类分析,孤立点分析等等 例:啤酒与尿布的故事 例:Science的文章科学家摸索出大型

3、数据集内的趋势,频繁模式挖掘,数据分析工具,常用传统数据分析工具排行,传统数据分析工具的困境,R,SAS,SPSS等典型应用场景为 实验室工具 处理数据量受限于内存,因此无法处理海量数据 使用Oracle数据库等处理海量数据,但缺乏有效快速专业的分析功能 可以采用抽样等方法,但有局限性,比如对于聚类,推荐系统则无法使用抽样 解决方向:Hadoop集群和Map-Reduce并行计算,常见算法的Map-Reduce化,常见算法的Map-Reduce化,Mahout起源, 2008年成为Lucene的子项目,Lucene作为搜索引擎项目,存在很多文本数据分析和挖掘的需求(例如文本重复判断,文本自动分

4、类等等),导致Lucene项目中部分开发者转向机器学习领域研究算法,最终这些机器学习算法形成最初的Mahout. 吸收开源协同过滤算法项目Taste. 2010年成为Apache顶级项目.,Mahout的特点,Mahout的主要目的是实现可伸缩的机器学习算法(就是算法的M-R化),但也不一定要求基于Hadoop平台,核心库中某些非分布式的算法也具有很好的性能 目标是帮助开发人员快速建立具有机器智能的应用程序,目前比较成熟和活跃的主要包括 1 频繁模式挖掘 2 聚类算法 3 分类器 4 推荐系统 5 频繁子项挖掘,发展中的Mahout,Mahout目前支持和研究中的算法列表 https:/cwi

5、ki.apache.org/confluence/display/MAHOUT/Algorithms,下载和解压Mahout,配置环境变量,配置环境变量,几个重要环境变量 JAVA_HOME mahout运行需指定jdk的目录 MAHOUT_JAVA_HOME指定此变量可覆盖JAVA_HOME值 HADOOP_HOME 如果配置,则在hadoop分布式平台上运行,否则单机运行 HADOOP_CONF_DIR指定hadoop的配置文件目录 MAHOUT_LOCAL 如果此变量值不为空,则单机运行mahout。 MAHOUT_CONF_DIR mahout配置文件的路径,默认值是$MAHOUT_H

6、OME/src/conf MAHOUT_HEAPSIZE mahout运行时可用的最大heap大小,验证安装成功,源码和部分样本数据,需要下载源代码包(可以尝试下编译源代码方式的安装),下载测试数据,将测试数据拷贝到HDFS,做一个kmeans聚类测试,K-means(K-均值)算法是最流行的聚类算法。首先随机地选取k个初始聚类中心,并把每个对象分配给离它最近的中心,从而得到一个初始聚类。然后,计算出当前每个聚类的重心作为新的聚类中心,并把每个对象重新分配到最近的中心。循环执行这一过程直至聚类质量不再提高为止。,做一个kmeans聚类测试,输出结果,观察输出,用mahout输出,20Newsg

7、roups数据集,使用Mahout进行文本自动分类,贝叶斯分类器 学习集 测试集 新闻数据集的内容 贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Nave Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。,文件内容,上传并解压数据,建立训练集,mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups -p /home/huang/data/20news-bydate-train -o /

8、home/huang/data/bayes-test-input -a org.apache.mahout.vectorizer.DefaultAnalyzer -c UTF-8,建立训练集,建立测试集,mahout org.apache.mahout.classifier.bayes. PrepareTwentyNewsgroups -p /home/huang/data/20news-bydate-test -o /home/huang/data/bayes-test-input -a org.apache.mahout.vectorizer.DefaultAnalyzer -c UTF-

9、8,建立测试集,上传数据到HDFS,训练贝叶斯分类器,mahout trainclassifier -i /user/huang/20news/bayes-train-input -o /user/huang/20news/newsmodel -type cbayes -ng 2 -source hdfs,训练贝叶斯分类器,生成的模型,测试贝叶斯分类器,mahout testclassifier -m /user/huang/20news/newsmodel -d /user/huang/20news/bayes-test-input -type cbayes -ng 2 -source hdfs -method mapreduce,测试贝叶斯分类器,参考,http:/ 谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报