收藏 分享(赏)

Hadoop:Google云计算的开源实现.ppt

上传人:oceanpvg 文档编号:6525758 上传时间:2019-04-15 格式:PPT 页数:18 大小:1.81MB
下载 相关 举报
Hadoop:Google云计算的开源实现.ppt_第1页
第1页 / 共18页
Hadoop:Google云计算的开源实现.ppt_第2页
第2页 / 共18页
Hadoop:Google云计算的开源实现.ppt_第3页
第3页 / 共18页
Hadoop:Google云计算的开源实现.ppt_第4页
第4页 / 共18页
Hadoop:Google云计算的开源实现.ppt_第5页
第5页 / 共18页
点击查看更多>>
资源描述

1、第6章 Hadoop:Google云计算的开源实现,云计算(第二版)购买网址: 当当网 京东商城,姊妹力作实战Hadoop购买网址: 当当网 京东商城,提 纲, Hadoop简介 Hadoop分布式文件系统HDFS 分布式数据处理MapReduce 分布式结构化数据表HBase Hadoop安装 HDFS使用 HBase安装使用 MapReduce编程,HDFS 常用命令,HDFS集群由一个NameNode和多个DataNode组成:NameNode负责管理文件系统的元数据;DataNode负责存储实际的数据 (其中censtos254为namenode) 1HDFS管理 DFSAdmin命令

2、支持一些和HDFS管理相关的操作 2安全模式 NameNode在启动时会自动进入安全模式。安全模式的目的是在系统启动时检查各个DataNode上数据块的有效性,同时根据策略对数据块进行必要的复制或删除 关闭安全模式 $ bin/hadoop dfsadmin -safemode leave 把HDFS置于安全模式 $ bin/hadoop dfsadmin safemode enter 3.添加节点 加入新加节点主机名,再建立到新加节点无密码的SSH连接 实验中复制因子为3,部分数据块未达到最小副本数。等待一段时间之后,数据块自动进行了必要的复制,HDFS 常用命令,4.节点故障 心跳信号 5

3、.负载均衡 重新平衡DataNode上的数据块的分布 $ bin/start-balancer.sh命令执行前,DataNode节点上数据的分布情况负载均衡完毕后,DataNode节点上数据的分布情况,HDFS 基准测试,TestDFSIO用来测试HDFS的I/O性能 bin/hadoop jar $HADOOP_HOME/hadoop-0.20.2-test.jarTestDFSIO write nrFile 20 filesize 200如果eclipse已经安装了hadoop-0.20.2-eclipse-plugin.jar插件包,那么可以在eclipse下查看结果 基准测试后,删除所

4、有生成的文件 % bin/hadoop jar $HADOOP_HOME/hadoop-0.20.2-test.jar TestDFSIO clean,提 纲, Hadoop简介 Hadoop分布式文件系统HDFS 分布式数据处理MapReduce 分布式结构化数据表HBase Hadoop安装 HDFS使用 HBase安装使用 MapReduce编程,HBase的安装配置,(1)安装HBase $ tar zxvf hbase-0.19.2.tar.gz (2)编辑HBASE_HOME/conf/hbase-env.sh,把JAVA_HOME变量设置为JAVA安装的根目录,把HBASE_CL

5、ASSPATH设置为HADOOP_CONF_DIR (3)编辑HBASE_HOME/conf/hbase-site.xml (4)复制$HADOOP_HOME/conf/hadoop-site.xml (5)编辑$HBASE_HOME/conf/regionservers (6)把HBase复制到其他机器上:$ scp r /hbase-0.19.2/ ubuntu2: /home/grid/$ scp r /hbase-0.19.2/ ubuntu3: /home/grid/ (7)复制$HBASE_HOME/hbase-0.19.2.jar $ cp /hbase-0.19.2/hbase

6、-0.19.2.jar /hadoop-0.19.1/lib/,HBase的执行,(1)启动Hadoop $ cd /hadoop-0.19.1 $ bin/start-all.sh (2)启动Hbase $ cd /hbase-0.19.2/ $ bin/start-hbase.sh (3)进入shell模式进行HBase数据操作 $ bin/hbase shell (4)停止HBase $ bin/stop-hbase.sh (5)停止Hadoop $ cd /hadoop-0.19.1 $ bin/stop-all.sh,Hbase编程实例,启动Eclipse,新建Map/Reduce

7、Project,命名为Proj,在此工程中新建类test,加入代码 在Run Configurations选项中选择工作路径为HBASE_HOME运行后,可以从控制台看到运行结果 通过地址http:/ubuntu1:60010可以看到HBase运行的相关信息,表“stu”添加成功,提 纲, Hadoop简介 Hadoop分布式文件系统HDFS 分布式数据处理MapReduce 分布式结构化数据表HBase Hadoop安装 HDFS使用 HBase安装使用 MapReduce编程,矩阵相乘算法设计,MapReduce程序设计过程 1)对2)数据输入3)Mapper阶段4)Reducer阶段5)

8、数据输出 2矩阵相乘(整数矩阵 )左矩阵的一行和右矩阵的一列组成一个InputSplit,其存储b个对,key存储积矩阵元素位置,value为生成一个积矩阵元素的b个数据对中的一个;Map方法计算一个对的value中数据对的积;而Reduce方法计算key值相同的所有积的和,编程实现,1程序中的类 (1)matrix类用于存储矩阵 (2)IntPair类实现WritableComparable接口用于存储整数对 (3)matrixInputSplit类继承了InputSplit接口,每个matrixInputSplit包括b个对,用来生成一个积矩阵元素。key和value都为IntPair类型

9、,key存储的是积矩阵元素的位置,value为计算生成一个积矩阵元素的b个数据对中的一个 (4)继承InputFormat的matrixInputFormat类,用来数据输入 (5)matrixRecordReader类继承了RecordReader接口,MapReduce框架调用此类生成对赋给map方法 (6)主类matrixMulti,其内置类MatrixMapper继承了Mapper重写覆盖了Map方法,类似地,FirstPartitioner、MatrixReducer也是如此。在main函数中,需要设置一系列的类,详细内容参考源码 (7)MultipleOutputFormat类用于

10、向文件输出结果 (8)LineRecordWriter类被MultipleOutputFormat中的方法调用,向文件输出一个结果对,编程实现,2.部分代码片段 matrixInputFormat matrixMulti 3程序的运行过程 (1)程序从文件中读出数据到内存,生成matrix实例,通过组合左矩阵的行与右矩阵的列生成ac个matrixInputSplit (2)一个Mapper任务对一个matrixInputSplit中的每个对调用一次Map方法对value1中的两个整数相乘。输入的对中key1和value1的类型均为IntPair,其输出为对,key1不变,value2为IntW

11、ritable类型,值为value1中的两个整数的乘积 (3)MapReduce框架调用FirstPartitioner类的getPartition方法将Map的输出对分配给指定的Reducer任务(任务个数可以在配置文件中设置),编程实现,3程序的运行过程 (4)Reducer任务对key1值相同的所有value2求和,得出积矩阵中的元素k的值。其输入为对,输出为对,key1不变,value3为IntWritable类型,值为key1值相同的所有value2的和。 (5)MapReduce框架实例化一个MultipleOutputFormat类,将结果输出到文件 4程序执行过程 程序需要两个

12、参数:输入目录和输出目录,1分析比较Hadoop的优缺点。 2Hadoop里有哪些机制?解决了哪些问题? 3HDFS有哪些保障可靠性的措施? 4MapReduce 模型适合(不适合)哪些环境? 5阐述Hbase与Bigtable相同点与不同点?,习题,阅读精选,1 Apache Hadoop!http:/hadoop.apache.org/2 The Hadoop Distributed File System:Architecture and Designhttp:/www.cs.stolaf.edu/docs/hadoop/hdfs_design.pdf3 Hadoop专区http:/ 谢!,http:/,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 实用文档 > 课程设计

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报