ImageVerifierCode 换一换
格式:PPTX , 页数:20 ,大小:1.03MB ,
资源ID:5424872      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-5424872.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(hadoop入门基础.pptx)为本站会员(weiwoduzun)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

hadoop入门基础.pptx

1、大数据之 Hadoop入门基础大数据HadoopHadoop生 态 圈Hadoop版本HBaseHadoop商 业应 用案例 (淘宝技 术 架构 )大数据以及大数据时代“大数据 ”这个术语最早期的引用可追溯到 apache org的开源项目 Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌 MapReduce和 Google File System ( GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。美国互联网数据中心指出,互联网上的数据每年将增长 50%,每两年便将翻一番,而目前世界上 90%以上的数据是最近几年才产生

2、的。20080.49ZB20090.8ZB20101.2ZB20111.82ZBHadoopHadoop是一个由 Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Hadoop Distributed File System),简称 HDFS。 HDFS有高容错性的特点,并且设计用来部署在低廉的( low-cost)硬件上;而且它提供高吞吐量( high throughput)来访问应用程序的数据,适合那些有着超大数据集( large data set)的应用程序。

3、 HDFS放宽了( relax) POSIX的要求,可以以流的形式访问( streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是: HDFS和 MapReduce。 HDFS为海量的数据提供了存储,则 MapReduce为海量的数据提供了计算框架。Hadoop生态圈: Hbase,Hive,Pig,Zookeeper,Storm,Spark等等HDFSMapReduce分布式文件系统( Hadoop Distributed File System),简称 HDFSMapReduce是一种编程模型,用于大规模数据集(大于 1TB)的并行运算。概念 “Map(映射)

4、 ”和 “Reduce(归约) ”,和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个 Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。MapReduceMapper ReducerResultMapperMapperMapper ReducerMapReduce 2.0应用场景、原理与基本架构Hivehive是基于 Hadoop的一个数据仓库工具,可以将结构化

5、的数据文件映射为一张数据库表,并提供简单的 sql查询功能,可以将 sql语句转换为 MapReduce任务进行运行。 其优点是学习成本低,可以通过类 SQL语句快速实现简单的 MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。PigApache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询, Pig 可以简化 Hadoop 的使用。ZookeeperZooKeeper是 Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的

6、功能包括:配置维护、名字服务、分布式同步、组服务等。 ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Zookeeper是 Google的 Chubby一个开源的实现,是高有效和可靠的协同工作系统, Zookeeper能够用来 leader选举,配置信息维护等,在一个分布式的环境中,需要一个 Master实例或存储一些配置信息,确保文件写入的一致性等 .ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,包含一个简单的原语集,是 Hadoop和 Hbase的重要组件。HBaseHBase是一个分布式的、面向列的开源数

7、据库,该技术来源于 Fay Chang 所撰写的 Google论文 “ Bigtable:一个结构化数据的分布式存储系统 ” 。就像 Bigtable利用了 Google文件系统( File System)所提供的分布式数据存储一样, HBase在 Hadoop之上提供了类似于 Bigtable的能力。 HBase是 Apache的 Hadoop项目的子项目。 HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是 HBase基于列的而不是基于行的模式。Hadoop HDFSMapReduceHbaseHive PigZookeeperHadoop HDFSY

8、urmHbaseMapReduce Others(Spark等 )Hive PigZookeeperHadoop 1.0Hadoop 2.0Hadoop版本Hadoop1.0表示第一代( 0.20.x , 0.21.x , 0.22.x 演化而来),特点:一个namenode(所有 datanode中数据的映射或者叫镜像,访问 datanode中的数据时是先访问 namenode,然后找到 datanode) ,若干 datanode(单纯存放数据的节点)Secondary namenode, 0.21.x ,0.22.x 版本中新增加的概念,就是namenode的一个备份节点,防止 name

9、node挂掉之后影响整个 hadoop集群的正常工作Hadoop2.0表示第二代( 0.23.x ,0.24.x) ,特点:架构中在 hdfs上添加了 yarn(资源管理框架)这一层, hdfs federstion( namenode联盟,有很多namenode)Hadoop1.0MapReduce(JobTracker)Job Client(TaskTracker)Job Client(TaskTracker)Job Client(TaskTracker)Job Client(TaskTracker)NameNodeDataNodeDataNodeDataNodeDataNodeSecon

10、daryNameNodeHadoop1.0最多支持到 4000节点Hadoop2.0YARNNodeManagerMRAppmasterNodeManagerNodeManagerMap Task(Mapper)Reduce Task(Reducer)Map Task(Mapper)Reduce Task(Reducer)Map Task(Mapper)Reduce Task(Reducer)NameNodeNameNodeNameNodeNameNodeFederationDataNode1DataNode2DataNode3DataNodeN解决了单点故障的问题,节点数可以突破 4000HBaseHbase MasterRegionRegionRegionServiceRegionRegionRegionRegionRegionServiceRegionRegionRegionRegionRegionServiceRegionRegionhttp:/

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报