收藏 分享(赏)

Ubuntu伪分布式安装Hadoop详细步骤.pdf

上传人:精品资料 文档编号:10789937 上传时间:2020-01-09 格式:PDF 页数:9 大小:1.12MB
下载 相关 举报
Ubuntu伪分布式安装Hadoop详细步骤.pdf_第1页
第1页 / 共9页
Ubuntu伪分布式安装Hadoop详细步骤.pdf_第2页
第2页 / 共9页
Ubuntu伪分布式安装Hadoop详细步骤.pdf_第3页
第3页 / 共9页
Ubuntu伪分布式安装Hadoop详细步骤.pdf_第4页
第4页 / 共9页
Ubuntu伪分布式安装Hadoop详细步骤.pdf_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、一 、 安装 java环境 1、 Java 环境 可以选择 Oracle 公司 的 JDK 也可以 是 OpenJDK, 为 了方便我们 在这里使用OpenJDK作为 Java的 运行环境 , 在控制端输入命令行 如下 完成 OpenJDK的 安装: 注: JRE和 JDK的区别 JRE( Java Runtime Environment, Java运行环境),是运行 Java 所需的环境。 JDK( Java Development Kit, Java 软件开发工具包)即包括 JRE,还包括开发 Java 程序所需的工具和类库。 2、 安装好 OpenJDK 后,需要找到相应的安装路径,这个

2、路径是用于配置 JAVA_HOME 环境变量的 , 安装后的路径为: 3、 接着配置 JAVA_HOME 环境变量,我们在 /.bashrc 中进行设置 , 在文件最前面添加如下单独一行( 注意 = 号前后不能有空格 ),将 “JDK 安装路径 ”改为上述命令得到的路径,并保存 4、 接着还需要让该环境变量生效,执行如下代码: 5、 设置好后我们来检验一下是否设置正确: 6、 如果设置正确的话, $JAVA_HOME/bin/java -version 会输出 java 的版本信息,且和 java -version 的输出结果一样,如下图所示: 这样, Hadoop 所需的 Java 运行环境

3、就安装好了 二 、 安装 SSH、 配置 SSH无密码 登录 1、 集群、单节点模式都需要用到 SSH 登陆(类似于远程登陆,你可以登录某台 Linux 主机,并且在上面运行命令), Ubuntu 默认已安装了 SSH client,此外还需要安装 SSH server,使用命令如下进行安装: 2、 安装后,可以使用如下命令登陆本机 , 进行测试 3、 但这样登陆是需要每次输入密码的,我们需要配置成 SSH无密码登陆比较方便 。 首先退出刚才的 ssh,就回到了我们原先的终端窗口,然后利用 ssh-keygen 生成密钥,并将密钥加入到授权中: 三 、 Hadoop安装 1、 使用浏览器在 A

4、pache官网 上进行下载 编译好 的 Hadoop压缩包 ,如图所示: 2、 下载完成后,压缩包 存放在主目录 Downloads 目录 下, 加压缩 到 /usr/local/Hadoop 目录下 : 目录 结构为: 3、 为 加压缩后的文件夹修改权限: 4、 Hadoop解压 之后即可使用,使用命令 Hadoop version来 检查是否可用 , root用户与当前用户均可 5、 接 下 来 进 行 Hadoop 的 伪分布式 配置 , Hadoop 的 配 置 文 件 位 于 /usr/local/Hadoop/hadoop-2.7.2/etc/hadoop/ 中,伪分布式需要修改

5、2 个配置文件 core-site.xml 和 hdfs-site.xml 。 Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。 6、 修改配置文件 core-site.xml (通过 gedit 编辑会比较方便 ,命令 为 gedit core-site.xml),将当中的 修改 为: 7、 同样的,修改配置文件 hdfs-site.xml为 : 8、 配置完成后,执行 NameNode 的格式化 : 9、 成功的话,会看到 “successfully formatted” 和 “Exitting with status

6、0” 的提示,若为 “Exitting with status 1” 则是出错 10、 接着开启 NameNode 和 DataNode 守护进程。 11、 启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程 : “NameNode”、 ”DataNode” 和 “SecondaryNameNode”(如果 SecondaryNameNode 没有启动,请运行 ./sbin/stop-dfs.sh 关闭进程,然后再次尝试启动尝试)。如果没有 NameNode 或 DataNode ,那就是配置不成功,请仔细检查之前步骤,或通过查看启动日志排查原因。 12、 成功启

7、动后,可以访问 Web 界面 http:/localhost:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。 至此 , Hadoop安装 完成, 接下来运行 Hadoop伪分布 式实例 1、 首先 将 /usr/local/Hadoop/hadoop-2.7.2/etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统 中 , 命令如下:2、 复制完成后,可以通过如下命令查看文件列表:3、 现在我们可以执行例子来感受下 Hadoop 的运行。 Hadoop 附带了丰富的例子(运行 ./bin/hadoop jar ./sha

8、re/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar 可以看到所有例子),包括 wordcount、 terasort、 join、 grep 等。在此我们选择运行 grep 例子,我们将 input 文件夹中的所有文件作为输入,筛选当中符合正则表达式 dfsa-z.+ 的单词并统计出现的次数,最后输出结果到 output 文件夹中。命令 代码如下: ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output df

9、sa-z.+; 运行截图如下: 4、 查看运行结果的命令(查看的是位于 HDFS 中的输出结果): 5、 我们也可以将运行结果取回到本地: 注 : Hadoop 运 行程序 时, 输出 目录不能 存在 ,否 则会提示 错误 “org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs:/localhost:9000/user/hadoop/output already exists” ,因此若要再次执行,需要执行如下命令删除 分布式 文件系统中的 output 文件夹 6、 若要关闭 Hadoop,则运行 作者 : 温杰 2016年 8月 13日星期六 山西 大学

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报