收藏 分享(赏)

大数据挖掘背景及工具.pdf

上传人:weiwoduzun 文档编号:5655670 上传时间:2019-03-11 格式:PDF 页数:42 大小:789.16KB
下载 相关 举报
大数据挖掘背景及工具.pdf_第1页
第1页 / 共42页
大数据挖掘背景及工具.pdf_第2页
第2页 / 共42页
大数据挖掘背景及工具.pdf_第3页
第3页 / 共42页
大数据挖掘背景及工具.pdf_第4页
第4页 / 共42页
大数据挖掘背景及工具.pdf_第5页
第5页 / 共42页
点击查看更多>>
资源描述

1、Part 1 大数据挖掘及其背景 1 杨文川 应用于大数据处理1) 大数据挖掘 2) 数据模型的发现 3) 大数据挖掘知识点 4) Mahout及其应用 2量化一切、利用所有的数 据 大数据挖掘的基础 在数字化时代,获取数据 正变得 比以往 任何时候都简单而不受限 制 文字、方位、社交关系等 都变成 了数据大数据挖掘 发现数据间的隐含信息 大数据挖掘的核心动力来 源于人 类了 解和分析世界的渴望。 之前信息技术变革的重点在“T“ (技术)上,而不 是在“I“(信息)上。 现代信息系统让大数据成 为了可 能, 人们更多的关注信息“I“本身。传统的数据挖掘 数据挖掘(Data Mining) ,又

2、称知识发现 (KDD) 是一个从大量数据中提取 、挖掘 出未知 的、有 价值的模式或规律等知识 的复杂 过程。 数据挖 掘是一 类深层 次的数 据分析 方法。 数据挖掘可以描述为:按 既定决 策目标 ,对大 量的数据进行探索和分析 ,揭示 隐藏的 、未知 的或验证已知的规律性, 并进一 步将其 模型化 的先进有效的方法。数据、信息与知识 客观世界 数据 信息 知识 收集 分析 再 分 析 指导经典挖掘模型CRISP-DM 商业理解 数据理解 数据准备 建立模型 模型评估 结果部署 数据数据源 数据 数据集成 目标数据 预处理后 数据 转换数据 模式 知识 数据选择 预处理 数据挖掘 数据转换

3、结果表达和解释 数据准备 数据挖掘 结果评价 数据挖掘三阶段常用的数据挖掘方法 关联规则 聚类分析 分类技术 时序模式 偏差检测 预测估计 .传统的数据挖掘软件 专用挖掘工具、通用挖掘 工具 QUEST MineSet DBMiner Intelligent Miner SAS Enterprise Miner SPSS Modeler 大数据挖掘面临的挑战 数据来源种类多且量大: 现有的RDBMS 无法处 理如此 巨大的 数据 可扩展处理: 挖掘计算可扩展,要反应 及时 可靠性保证: 分布式文件系统的备份恢 复机制 并行计算模型: 需要采用MapReduce 的 计算模 型。大数据挖掘的三个

4、重要转 变 首先,要分析与某事物相 关的所有 数 据 ,而 不是依 靠分析 少量的 数据样 本。 其次,接受数据的纷繁复 杂 ,而 不再 追求精确性。 最后, 不再探 求难以 捉摸的 因果关 系, 转而关注事物的相关关系 。数据挖掘是数据模型的发现过 程 数据挖掘(data mining)是数据“模型“的发 现过程,而“模型“却可以有多种 含义。 下面介绍在建模方面最重 要的几 个方向擅长的典型场景 数据挖掘擅长的,是当人 们对数 据中的 寻找目标,几乎一无所知 。 比如,并不清楚到底是影片的什么因 素, 导致某些观众喜欢或者厌恶该影片。 因此,在Netflix 竞赛要求设计一个算法, 来预测

5、观众对影片的评分时,基于已 有评 分样本的数据挖掘算法获得了巨大成 功。建模的计算方法 数据建模有很多不同的方 法。 数据可以通过,其生成所 可能遵 从的, 统计过程构建来建模。数据建模两种做法 数据建模方法,可描述为 下列两 种做法 之一: 1)对数据进行简洁的近似汇总描述; 2)从数据中抽取出最突出的特征,代替数 据,并忽略剩余内容数据汇总 一种数据汇总形式是PageRank,谷歌 成功 的关键算法 Web 的整个复杂结构,可由每个页 面所对 应的 一个数字( PageRank 值) 归纳而成。 另一种数据汇总形式是聚 类 在聚类中,数据被看成是多维空间下 的点, 空 间中相互邻近的点将被

6、赋予相同的类 别。 这些类别的概括信息综合在一起,形 成了全 体 数据集合的数据汇总结果。特征抽取 基于特征的模型,会从数 据中寻 找某个 现象的最极端样例,并用 其表示 数据。 大数据下的一些重要的特 征抽取 类型, 包括: 1) 频繁项集(frequent itemset) 2) 相似项(similar item)1) 频繁项集 该模型适用于多个项集组 成的数 据,其 原始应用发生在真实的购 物篮场 景下: 在超市结账的时候,某些物品会被顾 客同 时购买,例如热狗和芥末,这些物品 组成 了项集 寻找那些在很多购物篮中,同时出现 的项 集(频繁项集),这就是要找的,用 以刻 画数据的特征。2

7、) 相似项 有时数据看上去像一系列 集合, 这时的 目 标是,寻找那些共同元素 比例较 高的集 合 对。 由于顾客大都对许多不同的商品感兴 趣,寻 找兴趣相似的那部分顾客,并根据这 些关联 对数据进行表示的做法会更有用。 为向顾客推荐感兴趣的商品,Amazon 先寻找 与他相似的顾客群,并把其中大部分 人购买 过的商品也推荐给他,该过程称为协同 过滤大数据挖掘知识点 对数据挖掘研究有益的一 些知识 (1)用于度量词语重要性的TF.IDF 指标 (2)哈希函数及其使用 (3)二级存储器( 磁盘) 及其对算法运行时 间 的影响; (4)自然对数的底e 及包含它的一系列恒等 式 (5)幂定律(pow

8、er law)TF.IDF 假定文档集中有N篇文档,f ij 为词项i 在 文档j 中出现的频率(即 次数) ,词项i 在文 档j 中的词项频率TF ij 定 义为 假定词项i 在文档集的n i 篇文档 中出现 , 那么词项i 的IDF 定义 具有最高TF.IDF 得 分的那 些词项 ,通常 都是刻画文档主题的最佳 词项 max ij ij k kj f TF f = 2 log i i N IDF n =正态分布 假定现有的数据是一系列 数字。 统计学家可能会判定这些数字,来自 一个 高斯分布( 即正态分布) ,并利用公式 来计算 该分布最有可能的参数值。 该高斯分布的均值和标准差,能够完

9、整地 刻画整个分布,因而成为上述数据的 一个 模型幂律分布 大数据变量间常呈现幂律(power law)关系 两个变量在对数空间下,呈 现出线 性关系 图示为文章用词中的幂律 关系 也称为长尾效应多处数据都满足幂律 1) Web图当中节点的度 2) 商品的销量 3) Web网站的大小 4) Zipf 定律大数据挖掘工具Mahout Mahout 是 Apache Software Foundation (ASF) 开发的一个开源项目 目标是创建一些可伸缩的数据挖掘算法,供开发人 员在 Apache 在许可下免费使用。 Mahout 包含许多实现,包括集群、分类、CF 和进 化程序。 此外,通过

10、使用 Apache Hadoop 库,Mahout 可以有 效地扩展到云中。背景知识 Mahout的意思是大象的饲养者及驱赶者。 Mahout 这个名称来源于Hadoop 徽标上的大象 Mahout利用Hadoop 来实现可伸缩性和容错性。Mahout 的历史 Mahout 项目是由 Apache Lucene(开源搜索 )社区 中,对数据挖掘感兴趣的 一些成 员发起 的 希望建立一个可靠、文档翔实、可伸缩的项目,在 其中实现一些常见的,用于集群和分类的数据挖掘 算法。 此后在发展中,又并入了更多广泛的数据挖掘方法Mahout 的特性 虽然在开源领域中较晚出 现,但 Mahout 已经提供了大

11、量功能 主要特性包括: 支持 MapReduce 的集群实现包括 K-Means 、模糊 K- Means 、Canopy 、Dirichlet 和 Mean-Shift。 Distributed Naive Bayes 和 Complementary Naive Bayes 分类实现。 针对进化编程的分布式适用性功能。 Matrix 和矢量库。 上述算法的示例。使用 Mahout 实现集群算法 Mahout 支持一些集群算法实现(都是使用 MapReduce 编写的),它们都有一组各自的目标和 标准 以聚类为例,其提供了: Canopy :一种快速集群算法,通常用于为其他集群算 法创建初始种

12、子。 K-Means (以及 模糊 K-Means ):根据项目与之前迭代 的质心(或中心)之间的距离将项目添加到 k 集群中。 Mean-Shift:无需任何关于集群数量的 推理知识的算法 ,它可以生成任意形状的集群。 Dirichlet :借助基于多种概率模型的集群,它不需要提 前执行特定的集群视图。使用 Mahout 创建数据集群 具体的步骤包括: 1. 准备输入。如果创建文本集群 ,需要 将文本转换成数值表示。 2. 使用 Mahout 中可用的 Hadoop 就绪的 驱动程序运行所选集群算法。 3. 计算结果。 4. 如果有必要,执行迭代。Mahout 的发展 Apache Maho

13、ut 为集群、分类和 CF(协同过滤) 提供了许多重要的功能, 但它还 存在很 大的 发展空间 。 MapReduce 的随机决策实现,它提供了分类、 关联规则、用于识别文档主题的 Latent Dirichlet Allocation 以及许多使用 HBase ,和其他辅助存储选项的 类别选项 。Mahout 与Hadoop家族 其他主要成员关系Mahout 的基础 Mahout提 供了分 布式的 挖掘环 境,具 体讲: 1 基于AFS Hadoop 集群 2 采用DFS 分布式文件系统 3 利用MapReduce 计算模型 4 实现了一批开源的挖掘方 法Mahout 核心挖掘算法 Maho

14、ut孵化了相当多的技术和算法, 很多都是在开发和实验阶 段。 有3 个核心主题: 协同过滤/推荐系统、聚类和分类 。推荐系统 推荐系统是目前使用的系 统中最 普及的 相关的服务或网页,包括基于历史行为推荐书、 电影、文档。 尝试推论出用户偏好,并标记出用户不知晓的、 感兴趣的item A 是最出名的使用推荐系统 商务网 站。 基于交易和网页活性,Amazon 推荐给用 户可能 感 兴趣的书籍和其他item 。 Netflix 类似于推荐用户感兴趣的DVDs , 并且为 研 究者提供百万大奖去提升推荐质量。 约会网站像Lbmseti 将一部分用 户推荐 给其他 用 户。 社交网络网站像Faceb

15、ook ,用推荐技术的变形 来 为用户识别最可能建立联系的朋友 应用实例聚类 聚类技术尝试将大量拥有 相同相 似度的 事物,聚集到不同的类中 。 聚类有助于在海量的、很难弄懂的事物集合中, 发现结构,甚至层次。 可以使用聚类,根据网站日志发现用户的经常使 用模式应用实例 Google News 可根据具备逻辑性的故事 ,使用 新 闻文章的Topic 聚集新闻,而不是文章 的列表 。 搜索引擎( 像Clusty) 基于相同的 方法, 聚集搜 索结果。 使用聚类技术,基于消费者属性,收 入、位 置 、购买习惯,可将不用用户分到不用 的类中分类 分类技术用于决定一个事物,是不是 属于一 种类型、类目,或者该事物是不是含 有某些 属性。 分类有助于判断一个新进入事物,是否匹配先前 发现的模式, 也常用于分类行为或者模式。 分类也可用来检测可疑的网络活动或欺诈。也可 根据用户发的信息,判定表示失望或者满意应用实例 Yahoo! :Mail 决定接收的信息是不是垃圾邮件 ,基于先前邮件和用户的垃圾邮件报告,以及 邮件的特性。一些信息被分类为垃圾邮件 Picasa (http:/ 和其他的照片 管理应用可以判断一张照片中是否含有人脸。 光学字符识别软件:通过将小区域作为独立字 符来分类,将扫描文本的若干小区域归类到独 立的字符上谢 谢 42

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报