收藏 分享(赏)

hadoop入门基础.pptx

上传人:weiwoduzun 文档编号:5424872 上传时间:2019-03-01 格式:PPTX 页数:20 大小:1.03MB
下载 相关 举报
hadoop入门基础.pptx_第1页
第1页 / 共20页
hadoop入门基础.pptx_第2页
第2页 / 共20页
hadoop入门基础.pptx_第3页
第3页 / 共20页
hadoop入门基础.pptx_第4页
第4页 / 共20页
hadoop入门基础.pptx_第5页
第5页 / 共20页
点击查看更多>>
资源描述

1、大数据之 Hadoop入门基础大数据HadoopHadoop生 态 圈Hadoop版本HBaseHadoop商 业应 用案例 (淘宝技 术 架构 )大数据以及大数据时代“大数据 ”这个术语最早期的引用可追溯到 apache org的开源项目 Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌 MapReduce和 Google File System ( GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。美国互联网数据中心指出,互联网上的数据每年将增长 50%,每两年便将翻一番,而目前世界上 90%以上的数据是最近几年才产生

2、的。20080.49ZB20090.8ZB20101.2ZB20111.82ZBHadoopHadoop是一个由 Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Hadoop Distributed File System),简称 HDFS。 HDFS有高容错性的特点,并且设计用来部署在低廉的( low-cost)硬件上;而且它提供高吞吐量( high throughput)来访问应用程序的数据,适合那些有着超大数据集( large data set)的应用程序。

3、 HDFS放宽了( relax) POSIX的要求,可以以流的形式访问( streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是: HDFS和 MapReduce。 HDFS为海量的数据提供了存储,则 MapReduce为海量的数据提供了计算框架。Hadoop生态圈: Hbase,Hive,Pig,Zookeeper,Storm,Spark等等HDFSMapReduce分布式文件系统( Hadoop Distributed File System),简称 HDFSMapReduce是一种编程模型,用于大规模数据集(大于 1TB)的并行运算。概念 “Map(映射)

4、 ”和 “Reduce(归约) ”,和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个 Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。MapReduceMapper ReducerResultMapperMapperMapper ReducerMapReduce 2.0应用场景、原理与基本架构Hivehive是基于 Hadoop的一个数据仓库工具,可以将结构化

5、的数据文件映射为一张数据库表,并提供简单的 sql查询功能,可以将 sql语句转换为 MapReduce任务进行运行。 其优点是学习成本低,可以通过类 SQL语句快速实现简单的 MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。PigApache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询, Pig 可以简化 Hadoop 的使用。ZookeeperZooKeeper是 Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的

6、功能包括:配置维护、名字服务、分布式同步、组服务等。 ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Zookeeper是 Google的 Chubby一个开源的实现,是高有效和可靠的协同工作系统, Zookeeper能够用来 leader选举,配置信息维护等,在一个分布式的环境中,需要一个 Master实例或存储一些配置信息,确保文件写入的一致性等 .ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,包含一个简单的原语集,是 Hadoop和 Hbase的重要组件。HBaseHBase是一个分布式的、面向列的开源数

7、据库,该技术来源于 Fay Chang 所撰写的 Google论文 “ Bigtable:一个结构化数据的分布式存储系统 ” 。就像 Bigtable利用了 Google文件系统( File System)所提供的分布式数据存储一样, HBase在 Hadoop之上提供了类似于 Bigtable的能力。 HBase是 Apache的 Hadoop项目的子项目。 HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是 HBase基于列的而不是基于行的模式。Hadoop HDFSMapReduceHbaseHive PigZookeeperHadoop HDFSY

8、urmHbaseMapReduce Others(Spark等 )Hive PigZookeeperHadoop 1.0Hadoop 2.0Hadoop版本Hadoop1.0表示第一代( 0.20.x , 0.21.x , 0.22.x 演化而来),特点:一个namenode(所有 datanode中数据的映射或者叫镜像,访问 datanode中的数据时是先访问 namenode,然后找到 datanode) ,若干 datanode(单纯存放数据的节点)Secondary namenode, 0.21.x ,0.22.x 版本中新增加的概念,就是namenode的一个备份节点,防止 name

9、node挂掉之后影响整个 hadoop集群的正常工作Hadoop2.0表示第二代( 0.23.x ,0.24.x) ,特点:架构中在 hdfs上添加了 yarn(资源管理框架)这一层, hdfs federstion( namenode联盟,有很多namenode)Hadoop1.0MapReduce(JobTracker)Job Client(TaskTracker)Job Client(TaskTracker)Job Client(TaskTracker)Job Client(TaskTracker)NameNodeDataNodeDataNodeDataNodeDataNodeSecon

10、daryNameNodeHadoop1.0最多支持到 4000节点Hadoop2.0YARNNodeManagerMRAppmasterNodeManagerNodeManagerMap Task(Mapper)Reduce Task(Reducer)Map Task(Mapper)Reduce Task(Reducer)Map Task(Mapper)Reduce Task(Reducer)NameNodeNameNodeNameNodeNameNodeFederationDataNode1DataNode2DataNode3DataNodeN解决了单点故障的问题,节点数可以突破 4000HBaseHbase MasterRegionRegionRegionServiceRegionRegionRegionRegionRegionServiceRegionRegionRegionRegionRegionServiceRegionRegionhttp:/

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 实用文档 > 简明教程

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报