收藏 分享(赏)

Hadoop入门教程.pdf

上传人:HR专家 文档编号:6298044 上传时间:2019-04-05 格式:PDF 页数:69 大小:5.97MB
下载 相关 举报
Hadoop入门教程.pdf_第1页
第1页 / 共69页
Hadoop入门教程.pdf_第2页
第2页 / 共69页
Hadoop入门教程.pdf_第3页
第3页 / 共69页
Hadoop入门教程.pdf_第4页
第4页 / 共69页
Hadoop入门教程.pdf_第5页
第5页 / 共69页
点击查看更多>>
资源描述

1、-hadop技术论坛-创刊号 201年 1月 -1-w.hadopor.cm201入门专刊出品 Hadoop技术论坛总编辑 易剑 (一见 )副总编辑 代志远 (国宝 )王磊 (beyi)本期主 编皮冰锋 (若冰 )编辑 皮冰锋 (若冰 )易剑 (一见 )贺湘 辉 (小米 王磊 beyi代志远 国宝 )柏传杰 (飞鸿雪泥 )何忠育 (Spork秘中凯陈炬美工 /封面设计易剑 (一见 )网址htp:/w.hadopor.cm投稿信箱 刊 首语201年1月,Hadoop开发者沐着201年的第一缕春光诞生了。正是有了DougCuting这样的大师级开源者,正是有了无数个为Hadoop贡献力量的开源者们

2、的共同努力,才有了Hadoop自诞生时的倍受关注到现在的倍受瞩目。Hadoop从单一应用发展到目前的HadoopEcosytem,自成一格的技术体系,叩开了信息爆炸时代的海量数据处理的大门,开辟了海量数据存储与计算及其应用的新领地,Hadoop开发者正是在这样的背景下应运而生。Hadoop技术交流群自创建起,短短的几个月时间里就形成了2个超级大群,Hadoop技术体系深蒙面向各行各业应用的开发者们的厚爱,可以预见Hadoop应用前景广阔。但时下稍显稚嫩,需要广大的爱好者共同尝试、探索,发掘应用的同时帮助改进。Hadoop开发者是Hadoop交流群的几位志愿者们自发创建的,希望它的出现能为您的学

3、习和探索铺路,同时也期盼能分享您的Hadoop之旅。在分享中,hadoop开发者将与您一路同行,共同进步。分享、自由、开放,Hadoop开发者将秉承这一开源社区的血脉和传统,传承“百家争鸣”在思想交流和技术的切磋中促进hadoop社区的发展,期待Hadoop这一尚待开垦的田野里“百花齐放”。最后,感谢Hadoop开发者编辑组所有同仁们,彼此素未蒙面的爱好者能聚到一起,为了一个共同的爱好策划这本杂志,这本身就是Hadoop魅力的体现。当然,也要感谢大师DougCuting和Hadoop社区的开源者们,因为有了您,这里才变得如此精彩!Hadoop开发者编辑组201-27目录1Hadop介绍2Had

4、op在国内应用情况3Hadop源代码eclipse编译教程7在Windows上安装Hadop教程13在Linux上安装Hadop教程19在Windows上使用eclipse编写Hadop应用程序24在Windows中使用Cygwin安装HBase28Nutch与Hadop的整合与部署31在Windowseclipse上单步调试Hive教程38Hive应用介绍42Hive执行计划解析50MapReduce中的Shufle和Sort分析53海量数据存储和计算平台的调试器研究56探讨MapReduce模型的改进58运行eclipse编译出的Hadop框架59表关联在MapReduce上的实现63Ha

5、dop计算平台和Hadop数据仓库的区别-hadop技术论坛-创刊号 201年 1月 -1-Hadop介绍介绍介绍介绍Hadoop是 Apache下的 一 个 项 目 , 由 HDFS、 MapReduce、 HBase、 Hive和 ZooKeper等成 员组 成。 其中 , HDFS和 MapReduce是两 个最 基础 最重 要的 成员 。HDFS是 GoogleG的开源版本,一个高度容错的分布式文件系统,它能够提供高吞吐量 的数 据访 问, 适 合存 储海 量 ( PB级) 的 大文 件( 通常 超过 64M), 其 原 理 如 下 图 所 示 :采用 Master/Slave结构 。

6、 Nam eode维护 集群 内的 元数 据, 对外 提供 创建 、打 开、 删除和重 命名 文件 或目 录的 功能 。 DatnNode存储 数据 ,并 提负 责处 理数 据的 读写 请求 。 DatNode定期向 Nam eode上报 心跳 , am eode通过 响应 心跳 来控制 DatNode。InfoWord将 MapReduce评为 2009年十 大 新 兴 技 术 的 冠 军 。 MapReduce是大 规 模 数 据( TB级)计算的利器, Map和 Reduce是它的主要思想,来源于函数式编程语言,它的原理如 下图 所示 :Map负责 将数 据打 散, Reduce负责 对

7、数 据进 行聚 集, 用户 只需 要实 现 m ap和 reduce两个 接口 ,即 可完 成TB级数 据的 计算 ,常 见的 应用 包括 :日志 分析 和数 据挖 掘等 数据 分析 应用 。 另外 ,还 可用 于科 学数 据计 算, 如圆 周率 PI的计 算等 。HadoopMapReduce的实 现也 采用了 Master/Slave结构 。 Master叫做JobTracker,而 Slave叫做 TaskTracker。用户 提交 的计 算叫做 Job,每 一个Job会被 划分 成若 干个 Tasks。 JobTracker负责 Job和 Tasks的调 度,而 TaskTracker

8、负责 执行 asks。-hadop技术论坛-创刊号 201年 1月 -2-Hadop在国内应用情况在国内应用情况在国内应用情况在国内应用情况主要公司更多 的数 据请 浏览 : http:/ l地域分布下面 的数 据由 Hadoop技术 论坛 提供 , 数 据 的绝 对值 参考 意义 不大 , 主 要 是看 各城 市 间的相 对数 据。北京 、深 圳和 杭州 位列 前三甲, 分析 主要 原因 是: 北京 有淘 宝和 百度 ,深 圳有 腾讯 ,杭 州有 网易 等。 互联 网公 司是 Hadoop在国 内的 主要 使用 力量 。 淘宝 是在 国内 最先 使用Hadoop的公 司之 一, 而百 度赞助

9、了 HyperTable的开 发, 加上北京 研究 adoop的高 校多 ,所以北 京是 Hadoop方面 研究 和应用需 求最 高的 城市 。 位于 北京 的中 科院 研究 所,在 2009年度 还举 办过 几次 Hadoop技术 大会 ,加 速了 Hadoop在国 内的 发展 。-hadop技术论坛-创刊号 201年 1月 -3-Hadop源代码源代码源代码源代码eclipse编译教程编译教程编译教程编译教程作者 :一 见1.下 载 H adopH H H 源代码Hadoop各成员源代码下载地址: http:/svn.apache.org/repos/asf/hadoop,请使用SVN下

10、载 ,在 SVN浏览 器中将 trunk目录 下的 源代码 check-out出来 即可 。请 注 意只 check-out出 SVN上的 trunk目录 下的 内容 ,如 :http:/svn.apache.org/repos/asf/hadoop/common/trunk,而不是 http:/svn.apache.org/repos/asf/hadoop/common,原 因 是 http:/svn.apache.org/repos/asf/hadoop/common目 录 下 包 括 了 很 多 非 源 代码文 件, 很庞 大, 导致 需要 很长的 check-out时间 。2.准备编译

11、环境2.1.H adopH H H 代码版本本教 程所 采用的 Hadoop是北 京时间 2009-8-26日上 午下 载的 源代 码,和 hadoop-0.19.x版本 的差 异可 能较 大。 2联网编译 Hadoop会依 赖很 多第 三方 库, 但编 译工具 Ant会自 动从 网上 下载 缺少 的库 ,所 以必须 保证 机器 能够 访问 Internet。2.3.jav编译 Hadop要用 JDK1.6以 上 ,网 址 : htp:/ 好之 后, 请设 置好 JAV_HOME环境 变量 。2.4.Ant和 Cygwin需要 使用 Ant工具 来编译 Hadop,而 Ant需要 使用到 Cy

12、gwin提供 的一 些工 具,如 sed等, 可 以 从: htp:/ant.apche.rg/ivy/dowload.cgi下载 Ant, 从 htp:/w.cygwin.c/下载 Cygwin( Cygwi的安 装, 请 参考 在 Winws上安装 Hado教 程 一 文 )。安 装 好之后 ,需 要将 Ant和 Cygwin的 bin目录 加入 到环 境变量 PAT中, 如下 图所 示:注 意 : 在安装 Cygwin时, 建议将 SVN安装 上, 因为在 Ant编译 过程 中会 通过 SVN下载些文 件, 但这 个不 是必 须的 ,下 载不 成功 时, 并未 见出 错, 编译 仍然 可

13、以 成功 。 2.5.E-hadop技术论坛-创刊号 201年 1月 -4-Eclipse则可 以从 htp:/w.eclipse.org/downloads/上下 载。3.编 译 H adopH H H在这 里, 我们 以编译 Hadop家庭 成员 comon为例 ,对 Hadop其它 成员 的编 译方法是 类似 的。 3.1.编 译 comon成员步 骤 1)在 Elipse的 Package视图 中单 击右 键, 选择 New-JavaProject,如 下图 所示 :步 骤 2)选择 源代 码目 录, 设置 Project名。在上 图所 示的 对话 框中 ,点击 Browse按钮 ,选

14、择 comon源代 码目 录,并 设置 Projectname为 comon。工程 导入 完成 后, 进入 Eclipse主界 面, 可 以 看到 comon已经 导入 进来 , 但 可以 看 到comon上有 红叉 叉 , 是 因为 Elise默认 使用了 JavBuilder, 而 不是 AntBuilder, 所 以 下一步 就是 设置 使用 AntBuilder。步 骤 3)设置 Builder为 Ant:右键 comon-Propertis-Builders:在上 图所 示的 界面 中, 点击 New按钮 , 在 弹出 的对 话框 中选中 AntBuilder, 确 定 之后 会 弹

15、出如 下对 话框 :-hadop技术论坛-创刊号 201年 1月 -5-点击 BrowseFileSystem按钮 , 选择 comon源代 码目 录下的 build.xml文件 , 并 设 置Name为 cmon_Builder( Nae可以 改 成 其 它 的 , 但 建 议 使 用 coon_Builder,因为这样 名副 其实 ), 操 作结 果如 下图 所示 :除上 图所 示的 设置 外, 还 需 要设 置如 下图 所示的 Targets, 建 议 设置成 ManualBuild编译方 式, 而 不是 AutoBuild编译 方式 。 因 为在 AutoBuild模式 下, 任 何

16、修改 都会 触发 编译 ,而 ManualBuild模式 下, 只在 需要 的时 候, 点击 编译 按钮 或菜 单编 译即 可。Hadop各成 员都 需要 编译成 jar,所 以做 如下 图所 示的 一个 修改 :-hadop技术论坛-创刊号 201年 1月 -6-确定 之后 ,返 回如 下图 所示的 EditConfiguration对话 框:上面完成后,回到 Builder的主对话框,再将对话框中的 JavBuilder下移,并将它前面的勾去 掉。 进入 Eclipse主界 面, 由于 之前 选择了 ManualBuild,所 以需 要人 工方 式驱 动编 译, 编译成 功后 ,可 以看到

17、BUILDSUCCESSFUL字样 。请注意:如果上图所示的菜单中的 BuildAutomaticaly被勾中,则在 comon的右键菜单 中可 能不 会出现 Build子菜 单。在编 译过 程中 , Ant会自 动从 网上 下载 所依 赖的 库。 comon的编 译成 功结 束后 , 可 以-hadop技术论坛-创刊号 201年 1月 -7-在 build目录 下找 到编 译后 生成 的文件 hadop-core-0.21.0-dev.jar。3.2.编 译 H adopH H H 其它成员hdfs、 mapreduce和 hive的编 译方 式同 comon。4.FAQ Q Q Q4.1.

18、联网确保 可以上 internt, Ant需要 自动 下载 很多 第三 方依 赖库 ,如 果不 能联 网, 编译 会复杂很 多。 4.2.编 译 hivehive的编 译相 对复 杂些 ,而 且默 认它 会编 译多 个版 本的 hive,建 立修改 shims目录 下的 ivy.xml文件 ,去 掉不 必要 版本 的编 译。4.3.编译生成文件位置common编译 后生成 buildhadoop-core-0.21.0-dev.jar;hdfs编译 后生成 buildhadoop-hdfs-0.21.0-dev.jar;mapreduce编译 后生成 buildhadoop-mapred-0.

19、21.0-dev.jar;hive编译 后生成 buildservicehive_service.jar, 请 注意并没有 直 接放 在 build目录 下; hbase编译 后生成 buildhbase-0.21.0-dev.jar;有时 候在 编译 某个 时出 错, 可先 跳过 ,编 译其 它的 , Refresh之后 再编 译。在在在在Windows上安装上安装上安装上安装Hadop教程教程教程教程作者 :一 见1.安装JDK不 建 议 只 安 装 JRE, 而 是 建 议 直 接 安 装 JDK, 因 为 安 装 JDK时 , 可 以 同 时 安 装 JRE。MapReduce程序 的

20、编 写和 Hadoop的编 译都 依赖于 JDK,光 JRE是不 够的 。JRE下载 地址 : http:/ 地址 : http:/ JavaSE即 可 。2.安装Cygwin不 建 议 使 用 Windows“ 域 用 户 ” 配 置 和 运 行 Cygwin, 由 于 公 司 防 火 墙 等 原 因 , 容 易 遇到 一些较难解决的问题。 另 外 , 如果运 行 Cygwin的 用户和登 录 Windows的 用户不同, 则 需要 将 Cygwin安 装目录及子目录的拥 有 者( Owner) 。Cygwin安 装 程 序 下 载 地 址 : http:/ 当 然 也 可 以 从http:

21、/ , 本 教 程 下 载 的 是 Cygwin1.7.1。 setup.exe的存-hadop技术论坛-创刊号 201年 1月 -8-放目 录可 随意 无要 求。 当 setup.exe下 载 成 功 后 , 直 接 运 行 , 在 弹 出 的 “ CygwinNetReleaseSetupProgram”的对 话框 中直 接点 击 “ 下一 步 ” ,选 择 “ downloadsource” 如下 :选择 “ InstallfromInternet” ,进 入下 图所 示对 话框 :设置 Cygwin的安装 目录 , InstallFor选择 “ AllUsers” , DefaultT

22、extFileType选择 “ Unix/binary” 。 “ 下一 步 ” 之后 ,设置 Cygwin安装 包存 放目 录:设置 “ InternetConnection” 的方 式, 选择 “ DirectConnection” :之后 选择 “ Downloadsite” :-hadop技术论坛-创刊号 201年 1月 -9-“ 下一 步 ” 之后 ,可 能会 弹出 下图 的 “ SetupAlert” 对话 框, 直接 “ 确定 ” 即可 。在 “ SelectPackages” 对话 框中 , 必 须 保证 “ NetCategory” 下 的 “ OpenSSL” 被安 装 :如

23、果 还打 算在 eclipse上编译 Hadoop,则 还必 须安 装 “ BaseCategory” 下的 “ sed” :另外 建议 将 “ EditorsCategory” 下的 vim安装 ,以 方便在 Cygwin上直 接修 改配 置文-hadop技术论坛-创刊号 201年 1月 -10-件 ; “ DevelCategory” 下的 subversion建议 安装 :“ 下一 步 ” 进入 Cygwin安装 包下 载过 程。当下 载完 后, 会自 动进 入到 “ setup” 的对 话框 :在上 图所 示的 对话 框中 ,选 中 “ CreateicononDesktop” ,以

24、方便 直接 从桌 面上 启动Cygwin,然 后点 击 “ 完成 ” 按钮 。至 此, Cgywin已经 安装 完成 。3.配置环境变量需要 配置 的环 境变 量包括 PATH和 JAVA_HOME:将 JDK的 bin目录 、 Cygwin的 bin目录以及 Cygwin的 usrbin目录 都添 加到 PATH环境 变量 中; JAVA_HOME指向 JRE安装 目录 。4.安装shd服务点击 桌面 上的 Cygwin图 标 ,启 动 Cygwin,执 行 ssh-ost-config命令 ,当要 求输入 yes/no时, 选择 输入 no。当 看到 “ Havefun” 时, 一般 表示

25、 sshd服务 安装 成功 。执 行过 程如 图:如果是 Cygwin1.7之前 的版 本,则 ssh-host-config显示 界面 如下 图所 示:-hadop技术论坛-创刊号 201年 1月 -1-5.启动shd服务在桌 面上 的 “ 我 的电脑 ” 图标 上单 击 右 键 , 点 击 “ 管 理 ” 菜单 , 启动 CYGWINsshd服 务 :当 CYGWINsshd的状 态为 “ 已 启动 ” 后, 接下 来就 是配置 ssh登录 。6.配置sh登录执行 ssh-keygen命令生成密钥文件,一路直接回车即可,如果不出错,应当是需要三次按 回车 键。 按如 下命 令生成 auth

26、orized_keys文件 :cd/ssh/cpid_rsa.pubauthorized_keys完成 上述 操作 后, 执行 exit命令 先退出 Cygwin窗口 , 如 果 不执 行这 一步 操作 , 下 面 的操作 可能 会遇 到错 误。 接下来,重新运行 Cygwin,执行 sshlocalhost命令,在第一次执行时,会有如下图所示 的提 示, 输入 yes,直 接回 车即 可:如果是 Windows域用 户, 这步 操作 可能 会遇 到问 题, 错误 信息 如下 :-hadop技术论坛-创刊号 201年 1月 -12-这 个 错 误 暂 无 解 决 办 法 , 问 题 的 解 决

27、 情 况 , 可 关 注 Hadoop技 术 论 坛 中 的 贴 :http:/ ssh问题 )。如果 配置 成功 ,执行 who命令 时, 可以 看到 如下 图所 示的 信息 :7.下载hadop安装包hadoop安装 包下 载地 址:http:/ ,也 可以 进入 http:/ 其它 的版本 ,不 过建 议直 接上 0.20版本 。8.安装hadop将 hadoop安装包 hadoop-0.20.1.tar.gz解压到 D:hadooprun目 录( 可 以修改成其 它目 录 )下 ,如 下图 所示 :接下 来,需 要修改 hadoop的配 置文 件,它 们位于 conf子目 录下 ,分

28、别是 hadoop-env.sh、core-site.xml、 hdfs-site.xml和 mapred-site.xml共四 个文 件。 在 Cygwin环 境 , masters和 slaves两个 文件 不需 要修 改。修 改 hadoop-env.sh只需 要将 JAVA_HOME修改成 JDK的安 装目 录即 可, 需要 注意 两点 :(1)JDK必须是 1.6或以 上版 本 ;(2)设置 JDK的安 装目 录时 , 路 径不 能是 windows风格 的目 录 (d:javajdk1.6.0_13),而是 LINUX风格 (/cygdrive/d/java/jdk1.6.0_13

29、)。在 hadoop-env.sh中设定 JDK的安 装目 录:exportJAVA_HOME=/cygdrive/d/java/jdk1.6.0_13修 改 core-site.xml为简化 core-site.xml配置 , 将 D:hadooprunsrccore目录 下的 core-default.xml文 件 复 制 到 D:hadooprunconf目 录 下 , 并 将 core-default.xml文 件 名 改 成 core-site.xml。修改 fs.default.name的值 ,如 下所 示:-hadop技术论坛-创刊号 201年 1月 -13-如果 上图 中的 端

30、口号 8888,可 以改 成其 它未 被占 用的 端口 。修 改 hdfs-site.xml为简化 hdfs-site.xml配置 , 将 D:hadooprunsrchdfs目录 下的 hdfs-default.xml文 件 复 制 到 D:hadooprunconf目 录 下 , 并 将 hdfs-default.xml文 件 名 改 成 hdfs-site.xml。不 需要 再做 其它 修改 。修 改 mapred-site.xml为 简 化 mapred-site.xml配 置 , 将 D:hadooprunsrcmapred目 录 下 的 mapred-default.xml文件 复

31、制到 D:hadooprunconf目录 下, 并将 mapred-default.xml文件 名 改成 mapred-site.xml。上图 中的 端口号 9999, 可 以 改成 其它 未被 占用 的端 口。 到 这 里, hadoop宣告 安装 完毕 ,可以 开始 体验 hadoop了!9.启动hadop在 Cygwin中, 进入 hadoop的 bin目录 ,运 行 ./start-all.sh启动 hadoop,在 启动 成功之 后, 可以 执行 ./hadopfs-ls/命令 ,查看 hadoop的根 目录 。如果 运行 mapreduce,请 参考 其它 文档 ,本 教程 的内

32、容到 此结 束。在在在在Linux上安装上安装上安装上安装Hadop教程教程教程教程作者 :小 米 Email: 在 Linux下搭建 Hadoop集群 , 请 先 熟悉 Linux的基 本概 念和 操作 , 如 cd、 ls、 tar、 cat、ssh、 sudo、 scp等操 作。 养 成 搜索 意识 很重 要, 遇 到 问题 借用 google、 百 度等 , 或 者 论坛 ,推荐 Hadoop技术 论坛 http:/。ubuntu和 redhat等版 本的 linux在操 作命 令上 有不 同点 ,但安装 Hadoop的 流 程 一 样 。-hadop技术论坛-创刊号 201年 1月

33、-14-实践环境 :Ubuntu8.04+jdk1.6+hadoop-0.20.1(三台 实体 机 )注 意 : 初 学 者可 以选 择三 台做 实验 , 一 台做 NameNode, master和 jobTracker, 另 外 两台 做 DataNode,slave,taskTracker。 关 于 这 几 个 概 念 , 可 以 参 考 Hadoop的 官 方 文 档http:/hadoop.apache.org/。安装 ubuntu操作系 统的 datanode配置内 存最 好满 足 512M,NameNode的机 器满足 1G内存 , 2G更好 。 ubuntu安装 后, 可不 启

34、动 图形 界面 ,节 约内 存。安装步骤:1、 安 装 ubuntu8.04更新 源修 改( 方便 以后 更新 提高 速度 ,教 育网 可以 参考 如下 网址 ):http:/ 用户 : 为 了操 作的 简便 , 在 所有 机器 上创 建相 同用 户名 和相 同密 码的 用户 。 本 例 创建了 相同 的用 户 hexianghui。修改 机器 名: $hostname机 器名 。修 改方 法参 考文 档:http:/ /etc/hosts中添 加机 器名 和相 应的 IP:2、开 启 ssh服务安装 openssh-server: $sudoapt-getinstallopenssh-ser

35、ver注意 :自 动安装 openssh-server时, 先要 进行 sudoapt-getupdate操作 。可以在 windows下用 SSHSecureShellClient(详 见附 录) 来测 试一 下:连接 弹出 如下 窗口 :机器 名 IP 作用Hexianghui192.168.0.4NameNode、 master、 jobTrackerhexianghui06192.168.0.3DataNode、 slave、 taskTrackerhexianghui05192.168.0.5DataNode、 slave、 taskT-hadop技术论坛-创刊号 201年 1月 -

36、15-输入 密码 后能 正常 进入 ,就 可以 实现 远程 登录 和管 理了 。 3、建 立 ssh无密 码登 录(1)在 NameNode上实 现无 密码 登录 本机 :$ssh-keygen-tdsa-P-f/.ssh/id_sa,直接回车,完成后会在 /.ssh/生成两个文件: id_dsa和 id_dsa.pub。这两个是成对出现 , 类 似 钥匙 和锁 。 再把 id_dsa.pub追加 到授权 key里面 (当前 并没有 authorized_keys文件 ): $cat/.ssh/id_sa.pub/.ssh/authorized_keys。完 成 后 可 以 实 现 无 密码登

37、录 本机 : $sshlocalhost。(2)实现 NameNode无密 码登 录其他 DataNode:把 NameNode上 的 id_dsa.pub文 件 追 加 到 dataNode的 authorized_keys内 (以192.168.0.3节点 为例 ):a.拷贝 NameNode的 id_dsa.pub文件 :$scpid_dsa.pubhexianghui192.168.0.3:/home/hexianghui/b.登录 192.168.0.3,执 行 $catid_dsa.pub.ssh/authorized_keys其他的 dataNode执行 同样 的操 作。注 意:

38、 如果 配置 完毕 ,如果 namenode依然 不能 访问 datanode,可 以修改 datanode的authorized_keys: $chmod600authorized_keys。4、关 闭防 火墙$sudoufwdisable注意 :这 步非 常重 要。 如果 不关 闭, 会出 现找 不到 datanode问题 。5、安 装 jdk1.6下载 地址 : http:/ 下 载 后 , 直 接安装 。本 例的 安装 路径 为 /home/hexianghui/jdk1.6.0_14。安装 后, 添加 如下 语句 到 /etc/profile中:exportJAVA_HOME=/ho

39、me/hexianghui/jdk1.6.0_14exportJRE_HOME=/home/hexianghui/jdk1.6.0_14/jreexportCLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATHexportPATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH注意 :每 台 机器的 java环境 最好 一致 。安 装 过程 中如 有中 断,切 换为 root权限 来安 装 。6、安 装 hadoop下载 hadoop-0.20.1.tar.gz:http:/ : $tar zvxfhadop-0.20.1.

40、tar.gz把 Hadoop的安 装路 径添 加到 环 /etc/profile中 :exportHADOOP_HOME=/home/hexianghui/hadoop--hadop技术论坛-创刊号 201年 1月 -16-exportPATH=$HADOOP_HOME/bin:$PATH7、配 置 hadoophadoop的主 要配 置都在 hadoop-0.20.1/conf下。(1)在 conf/hadoop-env.sh中配置 Java环境 (namenode与 datanode的配 置相 同 ):$gedithadop-env.sh$exportJAVA_HOME=/home/hex

41、ianghui/jdk1.6.0_14(2)配置 conf/masters和 conf/slaves文件 :(只在 namenode上配 置 )masters:192.168.0.4slaves:192.168.0.3192.168.0.5(3)配置 conf/core-site.xml,conf/hdfs-site.xml及 conf/mapred-site.xml(简单 配置, datanode的配 置相 同 )core-site.xml:hadop.tmp.dir/home/hexianghui/tmpAbaseforothertemporarydirectories.fs.defaul

42、t.namehdfs:/192.168.0.4:9000hdfs-site.xml:(replication默认为 3,如 果不 修改 , datanode少于 三台 就会 报错 )dfs.replication1mapred-site.xml:mapred.job.tracker192.168.0.4:90018、运 行 -hadop技术论坛-创刊号 201年 1月 -17-进入 hadoop-0.20.1/bin,首 先格 式化 文件 系统 : $hadopnamenode format启动 Hadoop: $start-all.sh用 jps命令 查看 进程 , NameNode上的 结

43、果 如下 :DataNode上的 结果 :查看 集群 状态 : $hadopdfsadmin-reportHadoop的 web方式 查看 : http:/192.168.0.4:500709、运 行 wordcount.java程序(1)先在 本地 磁盘 建立 两个 输入 文件 file01和 file02:$echo“ HelloWorldByeWorld” file01$echo“ HelloHadopGoodbyeHadop” file02(2)在 hdfs中建 立一个 input目录 : $hadopfs mkdirinput(3)将 file01和 file02拷贝到 hdfs中:

44、$hadopfs copyFromLocal/home/hexianghui/soft/file0*input(4)执行 wordcount:$hadopjarhadop-0.20.1-examples.jarwordcountinputoutput(5)完成 之后 ,查 看结 果:$hadopfs-catoutput/part-r-00000B-hadop技术论坛-创刊号 201年 1月 -18-Goodbye1Hadoop2Hello2World2附录:可能 出现 的问 题及 相应 的解 决方 法 :1、 如果 防火 墙未 关, 可能 出现 如下 错误 : File/home/hexianghui/tmp/mapred/system/jobtracker.infocouldonlybereplicatedto0nodes,insteadof1。 用 jps查看 进程 都正 常 , 用 web查看 livenodes为 0.说明 datan

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 实用文档 > 简明教程

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报