ImageVerifierCode 换一换
格式:PPT , 页数:32 ,大小:1.87MB ,
资源ID:4726056      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-4726056.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于hadoop数据仓库.ppt)为本站会员(saw518)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

基于hadoop数据仓库.ppt

1、基于hadoop的数据仓库技术,目录,Hadoop简介 HDFS (Hadoop Distributed File System) MapReduce Hive,本文的内容主要来自三篇hadoop领域的核心论文 1、HiveA Petabyte Scale Data Warehouse Using Hadoop 2、MapReduce and Parallel DBMSs:Friends or Foes 3、Cheetah:A High Performance,Custom Data Warehouse on Top of MapReduce,历史,2002-2004: Apache Nutc

2、h 2004-2006: Google 发表 GFS 和 MapReduce相关论文 Apache 在Nutch中实现HDFS和MapReduce 2006-2008: Hadoop 项目从Nutch中分离 2008年7月,Hadoop赢得Terabyte Sort Benchmark,Doug Cutting Hadoop项目负责人,Hadoop简介,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughpu

3、t)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。,Hadoop简介,Hadoop是 Apache 的一个开源软件项目,由Doug Cutting在2004年开始开发。 Hadoop是一个海量数据存储和计算的分布式系统,它由若干个成员组成,主要包括:HDFS、MapReduce、HBase、Hive、Pig 和 ZooKeeper, 其中HDFS是Google的GFS开源版本, HBase 是Google的

4、BigTable开源版本,ZooKeeper是Google的Chubby开源版本。 Hadoop在大量的公司中被使用和研究,Hadoop的体系架构,Hadoop由以下几个部件组成: Hadoop Common: The common utilities that support the other Hadoop subprojects. Avro: A data serialization system that provides dynamic integration with scripting languages. Chukwa: A data collection system for

5、 managing large distributed systems. HBase: A scalable, distributed database that supports structured data storage for large tables. HDFS: A distributed file system that provides high throughput access to application data. Hive: A data warehouse infrastructure that provides data summarization and ad

6、 hoc querying. MapReduce: A software framework for distributed processing of large data sets on compute clusters. Pig: A high-level data-flow language and execution framework for parallel computation. ZooKeeper: A high-performance coordination service for distributed applications.,Hadoop的体系架构,Hadoop

7、-HDFS,HDFS的结构按照GFS设计 A GFS cluster consists of a single master and multiple chunkservers and is accessed by multiple clients,HDFS,Fault-tolerant, 容错性 Run on commodity hardware,在通用的机器上运行 Scalable 可扩缩的,http:/hadoop.apache.org/hdfs/docs/current/hdfs_design.html http:/ 多个datanodes,11,11,HDFS,NameNode 存贮

8、HDFS的元数据(metadata) 管理文件系统的命名空间(namespace) 创建、删除、移动、重命名文件和文件夹 接收从DataNode来的Heartbeat 和 Blockreport DataNode 存贮数据块 执行从Namenode来的文件操作命令 定时向NameNode发送Heartbeat和Blockreport,Heartbeat和Blockreport,Namenode Metadata:,Datanode 1,Datanode 2,Datanode 3,1,1,3,3,2,2,1,3,1,2,2,3,13,13,Data Flow,File Read,13,14,14

9、,Data Flow,File Write,14,MapReduce的原理,编程模型(program model),软件包 Map 把要处理的数据组合成一个个的对(pair) Reduce 把具有相同key的pair聚集在一起,计算一个新的value,从而得到一个新的并输出。,MapReduce的原理,Mapreduce,控制,数据流,一个Jobtracker 多个tasktrackers,MapReduce,Jobtraker (Master) 接收任务(job)的提交 提供任务的监控(monitoring)和控制(control) 把job划分成多个tasks,交给Tasktracker执

10、行,并管理这些tasks的执行 Tasktracker (Worker) 管理单个task的map任务和reduce任务的执行,Word count: file0:hello world file1:hello mapreduce file2:bye bye,Input files,file0,file2,file1,files,files,目录,Hadoop简介 HDFS (Hadoop Distributed File System) MapReduce Hive Hadoop的企业级应用,What is HIVE,数据仓库业务具有多样性、多变性和逻辑复杂性,传统的Parallel DBM

11、Ss只能使用SQL语句,语言表达力不够应付现有的类似google,facebook等的数据仓库需求(若使用UDF或UDA自己定义aggregate,则失去了其强大的优化功能),而自己定制的maper和reducer的代码较为低层比较繁琐且重用性也不好,所以就有了Hive,提供一个类SQL的编程接口,简单又不失灵活性,且基于map-reduce.,What is HIVE,(论文翻译)hive是一个基于hadoop的数据仓库。使用hadoop-hdfs作为数据存储层;提供类似SQL的语言(HQL),通过hadoop-mapreduce完成数据计算;通过HQL语言提供使用者部分传统RDBMS一样的

12、表格查询特性和分布式存储计算特性。 (百科)hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。,HIVE架构,1、 操作界面:CLI,Web,Thrift 2、 driver:hive系统将用户操作转化为mapreduce计算的模块(重点) 3、 hadoop:hdfs+mapreduce 4、 metastore:存储元数据,HI

13、VE结合HBase,reduce阶段写入HBase的方式,map-only job写入HBase的方式,HIVE的实现,hive的元数据存储在传统的RDBMS中,现在为mysql中。采用JDO (JPOX)。 原因:访问这些Metadata,我们想要“很低的延时”,而存在hdfs中是无法满足。(元数据对hive是相当重要的,因此一般要求有备份机制 ) 使用:元数据都是在HQL语句编译的时候 ,就被生成一个xml文件(包含此次编译所有需要的元数据信息)存储在hdfs中,然后运行mapreduce时传递给mapper和reducer。(减少后期访问),HIVE查询的优化过程,GraphWalker

14、遍历(walk)DAG中所有的Node,并检查一个Rule是否满足,在满足的条件下回出发一个对应的Processor。Dispatcher则维护Rule到Processor的映射,并进行Rule的匹配工作。,HIVE查询的简单优化步骤,1、 列裁剪(Column pruning):只有需要用到的列 才进行输出 2、 谓词下推(Predicate pushdown ):尽早进行数据过滤 ,减少后续处理的数据量 3、 分区裁剪(Partition pruning):只读取满足分区条件的文件 4、 map-join:对于join中一些小文件,可以在map阶段进行join操作 5、 join-reor

15、dering:将在reducer中进行join操作时的小table放入内存 ,而大table通过stream方式读取 6、 Group-by优化: 进行局部聚合进行优化(包括hash-based和sort-based),对于skew的key(key的row num和size在reduce时非常不均)可以进行两次map-reduce的方式优化,说明:基本上用于优化的提示(hint)都是一些配置项,map-join除外,需要具体在HQL直接指定。,HIVE的physical plan的生成,根据上一步优化的结果,分解成一些map/reduce操作,并将最终结果(即一些plan的xml文件)写入到hdfs。 以论文的例子加以说明 A. Thusoo, J.S. Sarma, N. Jain, Z. Shao, P. Chakka, N. Zhang, S. Antony, and H. Liu, “Hive A Petabyte Scale Data Warehouse Using Hadoop,” Architecture.,HIVE的physical plan的生成,The End,Thank you k,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报