ImageVerifierCode 换一换
格式:PPT , 页数:18 ,大小:1.81MB ,
资源ID:6525758      下载积分:5 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-6525758.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(Hadoop:Google云计算的开源实现.ppt)为本站会员(oceanpvg)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

Hadoop:Google云计算的开源实现.ppt

1、第6章 Hadoop:Google云计算的开源实现,云计算(第二版)购买网址: 当当网 京东商城,姊妹力作实战Hadoop购买网址: 当当网 京东商城,提 纲, Hadoop简介 Hadoop分布式文件系统HDFS 分布式数据处理MapReduce 分布式结构化数据表HBase Hadoop安装 HDFS使用 HBase安装使用 MapReduce编程,HDFS 常用命令,HDFS集群由一个NameNode和多个DataNode组成:NameNode负责管理文件系统的元数据;DataNode负责存储实际的数据 (其中censtos254为namenode) 1HDFS管理 DFSAdmin命令

2、支持一些和HDFS管理相关的操作 2安全模式 NameNode在启动时会自动进入安全模式。安全模式的目的是在系统启动时检查各个DataNode上数据块的有效性,同时根据策略对数据块进行必要的复制或删除 关闭安全模式 $ bin/hadoop dfsadmin -safemode leave 把HDFS置于安全模式 $ bin/hadoop dfsadmin safemode enter 3.添加节点 加入新加节点主机名,再建立到新加节点无密码的SSH连接 实验中复制因子为3,部分数据块未达到最小副本数。等待一段时间之后,数据块自动进行了必要的复制,HDFS 常用命令,4.节点故障 心跳信号 5

3、.负载均衡 重新平衡DataNode上的数据块的分布 $ bin/start-balancer.sh命令执行前,DataNode节点上数据的分布情况负载均衡完毕后,DataNode节点上数据的分布情况,HDFS 基准测试,TestDFSIO用来测试HDFS的I/O性能 bin/hadoop jar $HADOOP_HOME/hadoop-0.20.2-test.jarTestDFSIO write nrFile 20 filesize 200如果eclipse已经安装了hadoop-0.20.2-eclipse-plugin.jar插件包,那么可以在eclipse下查看结果 基准测试后,删除所

4、有生成的文件 % bin/hadoop jar $HADOOP_HOME/hadoop-0.20.2-test.jar TestDFSIO clean,提 纲, Hadoop简介 Hadoop分布式文件系统HDFS 分布式数据处理MapReduce 分布式结构化数据表HBase Hadoop安装 HDFS使用 HBase安装使用 MapReduce编程,HBase的安装配置,(1)安装HBase $ tar zxvf hbase-0.19.2.tar.gz (2)编辑HBASE_HOME/conf/hbase-env.sh,把JAVA_HOME变量设置为JAVA安装的根目录,把HBASE_CL

5、ASSPATH设置为HADOOP_CONF_DIR (3)编辑HBASE_HOME/conf/hbase-site.xml (4)复制$HADOOP_HOME/conf/hadoop-site.xml (5)编辑$HBASE_HOME/conf/regionservers (6)把HBase复制到其他机器上:$ scp r /hbase-0.19.2/ ubuntu2: /home/grid/$ scp r /hbase-0.19.2/ ubuntu3: /home/grid/ (7)复制$HBASE_HOME/hbase-0.19.2.jar $ cp /hbase-0.19.2/hbase

6、-0.19.2.jar /hadoop-0.19.1/lib/,HBase的执行,(1)启动Hadoop $ cd /hadoop-0.19.1 $ bin/start-all.sh (2)启动Hbase $ cd /hbase-0.19.2/ $ bin/start-hbase.sh (3)进入shell模式进行HBase数据操作 $ bin/hbase shell (4)停止HBase $ bin/stop-hbase.sh (5)停止Hadoop $ cd /hadoop-0.19.1 $ bin/stop-all.sh,Hbase编程实例,启动Eclipse,新建Map/Reduce

7、Project,命名为Proj,在此工程中新建类test,加入代码 在Run Configurations选项中选择工作路径为HBASE_HOME运行后,可以从控制台看到运行结果 通过地址http:/ubuntu1:60010可以看到HBase运行的相关信息,表“stu”添加成功,提 纲, Hadoop简介 Hadoop分布式文件系统HDFS 分布式数据处理MapReduce 分布式结构化数据表HBase Hadoop安装 HDFS使用 HBase安装使用 MapReduce编程,矩阵相乘算法设计,MapReduce程序设计过程 1)对2)数据输入3)Mapper阶段4)Reducer阶段5)

8、数据输出 2矩阵相乘(整数矩阵 )左矩阵的一行和右矩阵的一列组成一个InputSplit,其存储b个对,key存储积矩阵元素位置,value为生成一个积矩阵元素的b个数据对中的一个;Map方法计算一个对的value中数据对的积;而Reduce方法计算key值相同的所有积的和,编程实现,1程序中的类 (1)matrix类用于存储矩阵 (2)IntPair类实现WritableComparable接口用于存储整数对 (3)matrixInputSplit类继承了InputSplit接口,每个matrixInputSplit包括b个对,用来生成一个积矩阵元素。key和value都为IntPair类型

9、,key存储的是积矩阵元素的位置,value为计算生成一个积矩阵元素的b个数据对中的一个 (4)继承InputFormat的matrixInputFormat类,用来数据输入 (5)matrixRecordReader类继承了RecordReader接口,MapReduce框架调用此类生成对赋给map方法 (6)主类matrixMulti,其内置类MatrixMapper继承了Mapper重写覆盖了Map方法,类似地,FirstPartitioner、MatrixReducer也是如此。在main函数中,需要设置一系列的类,详细内容参考源码 (7)MultipleOutputFormat类用于

10、向文件输出结果 (8)LineRecordWriter类被MultipleOutputFormat中的方法调用,向文件输出一个结果对,编程实现,2.部分代码片段 matrixInputFormat matrixMulti 3程序的运行过程 (1)程序从文件中读出数据到内存,生成matrix实例,通过组合左矩阵的行与右矩阵的列生成ac个matrixInputSplit (2)一个Mapper任务对一个matrixInputSplit中的每个对调用一次Map方法对value1中的两个整数相乘。输入的对中key1和value1的类型均为IntPair,其输出为对,key1不变,value2为IntW

11、ritable类型,值为value1中的两个整数的乘积 (3)MapReduce框架调用FirstPartitioner类的getPartition方法将Map的输出对分配给指定的Reducer任务(任务个数可以在配置文件中设置),编程实现,3程序的运行过程 (4)Reducer任务对key1值相同的所有value2求和,得出积矩阵中的元素k的值。其输入为对,输出为对,key1不变,value3为IntWritable类型,值为key1值相同的所有value2的和。 (5)MapReduce框架实例化一个MultipleOutputFormat类,将结果输出到文件 4程序执行过程 程序需要两个

12、参数:输入目录和输出目录,1分析比较Hadoop的优缺点。 2Hadoop里有哪些机制?解决了哪些问题? 3HDFS有哪些保障可靠性的措施? 4MapReduce 模型适合(不适合)哪些环境? 5阐述Hbase与Bigtable相同点与不同点?,习题,阅读精选,1 Apache Hadoop!http:/hadoop.apache.org/2 The Hadoop Distributed File System:Architecture and Designhttp:/www.cs.stolaf.edu/docs/hadoop/hdfs_design.pdf3 Hadoop专区http:/ 谢!,http:/,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报