Ubuntu伪分布式安装Hadoop详细步骤.pdf-道客多多

资源描述

1、一、安装 java环境 1、 Java 环境可以选择 Oracle 公司的 JDK 也可以是 OpenJDK，为了方便我们在这里使用OpenJDK作为 Java的运行环境，在控制端输入命令行如下完成 OpenJDK的安装：注： JRE和 JDK的区别 JRE（ Java Runtime Environment， Java运行环境），是运行 Java 所需的环境。 JDK（ Java Development Kit， Java 软件开发工具包）即包括 JRE，还包括开发 Java 程序所需的工具和类库。 2、安装好 OpenJDK 后，需要找到相应的安装路径，这个

2、路径是用于配置 JAVA_HOME 环境变量的，安装后的路径为： 3、接着配置 JAVA_HOME 环境变量，我们在 /.bashrc 中进行设置，在文件最前面添加如下单独一行（注意 = 号前后不能有空格），将 “JDK 安装路径 ”改为上述命令得到的路径，并保存 4、接着还需要让该环境变量生效，执行如下代码： 5、设置好后我们来检验一下是否设置正确： 6、如果设置正确的话， $JAVA_HOME/bin/java -version 会输出 java 的版本信息，且和 java -version 的输出结果一样，如下图所示：这样， Hadoop 所需的 Java 运行环境

3、就安装好了二、安装 SSH、配置 SSH无密码登录 1、集群、单节点模式都需要用到 SSH 登陆（类似于远程登陆，你可以登录某台 Linux 主机，并且在上面运行命令）， Ubuntu 默认已安装了 SSH client，此外还需要安装 SSH server，使用命令如下进行安装： 2、安装后，可以使用如下命令登陆本机，进行测试 3、但这样登陆是需要每次输入密码的，我们需要配置成 SSH无密码登陆比较方便。首先退出刚才的 ssh，就回到了我们原先的终端窗口，然后利用 ssh-keygen 生成密钥，并将密钥加入到授权中：三、 Hadoop安装 1、使用浏览器在 A

4、pache官网上进行下载编译好的 Hadoop压缩包，如图所示： 2、下载完成后，压缩包存放在主目录 Downloads 目录下，加压缩到 /usr/local/Hadoop 目录下：目录结构为： 3、为加压缩后的文件夹修改权限： 4、 Hadoop解压之后即可使用，使用命令 Hadoop version来检查是否可用， root用户与当前用户均可 5、接下来进行 Hadoop 的伪分布式配置， Hadoop 的配置文件位于 /usr/local/Hadoop/hadoop-2.7.2/etc/hadoop/ 中，伪分布式需要修改

5、2 个配置文件 core-site.xml 和 hdfs-site.xml 。 Hadoop的配置文件是 xml 格式，每个配置以声明 property 的 name 和 value 的方式来实现。 6、修改配置文件 core-site.xml (通过 gedit 编辑会比较方便，命令为 gedit core-site.xml)，将当中的修改为： 7、同样的，修改配置文件 hdfs-site.xml为： 8、配置完成后，执行 NameNode 的格式化 : 9、成功的话，会看到 “successfully formatted” 和 “Exitting with status

6、0” 的提示，若为 “Exitting with status 1” 则是出错 10、接着开启 NameNode 和 DataNode 守护进程。 11、启动完成后，可以通过命令 jps 来判断是否成功启动，若成功启动则会列出如下进程 : “NameNode”、 ”DataNode” 和 “SecondaryNameNode”（如果 SecondaryNameNode 没有启动，请运行 ./sbin/stop-dfs.sh 关闭进程，然后再次尝试启动尝试）。如果没有 NameNode 或 DataNode ，那就是配置不成功，请仔细检查之前步骤，或通过查看启动日志排查原因。 12、成功启

7、动后，可以访问 Web 界面 http:/localhost:50070 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。至此， Hadoop安装完成，接下来运行 Hadoop伪分布式实例 1、首先将 /usr/local/Hadoop/hadoop-2.7.2/etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中，命令如下：2、复制完成后，可以通过如下命令查看文件列表：3、现在我们可以执行例子来感受下 Hadoop 的运行。 Hadoop 附带了丰富的例子（运行 ./bin/hadoop jar ./sha

8、re/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar 可以看到所有例子），包括 wordcount、 terasort、 join、 grep 等。在此我们选择运行 grep 例子，我们将 input 文件夹中的所有文件作为输入，筛选当中符合正则表达式 dfsa-z.+ 的单词并统计出现的次数，最后输出结果到 output 文件夹中。命令代码如下： ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output df

9、sa-z.+；运行截图如下： 4、查看运行结果的命令（查看的是位于 HDFS 中的输出结果）： 5、我们也可以将运行结果取回到本地：注： Hadoop 运行程序时，输出目录不能存在，否则会提示错误 “org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs:/localhost:9000/user/hadoop/output already exists” ，因此若要再次执行，需要执行如下命令删除分布式文件系统中的 output 文件夹 6、若要关闭 Hadoop，则运行作者：温杰 2016年 8月 13日星期六山西大学

展开阅读全文