先电大数据平台操作手册-XianDian-BigData-v2.1.doc-道客多多

资源描述

1、南京第五十五所技术开发有限公司 1版本：先电 Cloud-BigData-v2.1发布日期：2017 年 02 月 21 日南京第五十五所技术开发有限公司先电大数据平台用户手册用户手册用户手册2版本修订说明修订版本修订时间修订说明XD-BigData-v1.3 2015 年 10 月 28 日先电大数据平台用户册XD-BigData-v1.3.1 2016 年 1 月 19 日增加 GRE、VLAN 网络的部署方法XD-BigData-v1.4 2016 年 4 月 12 日为防止与 Java Web 中MapReduce 开发混淆。删除hadoop 案例开发XD-BigData-v

2、2.0 2016 年 11 月 1 日更新基于 Ambari 版本 2.2.2.0二次开发的 hadoop 平台XD-BigData-v2.0.1 2016 年 12 月 30 日更新镜像中与 perl 版本不兼容问题的解决办法；XD-BigData-v2.0.2 2017 年 01 月 10 日升级系统版本为 centos7，升级 HDP 版本至 2.4。XD-BigData-v2.0.3 2017 年 02 月 13 日更新软件包 logoXD-BigData-v2.0.5 2017 年 02 月 21 日更新软件包 logo，修改文档“8.2.2 基于项目的协同过滤”表格参数X

3、D-BigData-v2.1 2017 年 04 月 21 日更新用户手册南京第五十五所技术开发有限公司第 3 页共 80 页目录1 概述 .51.1 大数据简介 .51.2 先电大数据平台简介 .52 基本环境配置 .62.1 配置主机名 .72.2 修改 hosts 文件 .72.3 修改 yum 源 72.4 配置 ntp .82.5 配置 SSH.92.6 禁用 Transparent Huge Pages .92.7 安装配置 JDK.103 配置 ambari-server113.1 安装 MariaDB 数据库 113.2 安装配置 ambari-server124 配置

4、ambari-agent .145 部署管理 Hadoop 集群 145.1 部署 Hadoop 集群 145.2 HDFS 运维管理 215.3 MapReduce316 部署 Hive 数据仓库 .336.1 部署 Hive 336.1 Hive 用户指南 357 部署 Hbase 分布式列数据库 .457.1 部署 HBase .457.2 测试验证 .477.3 HBase 用户指南 .47南京第五十五所技术开发有限公司第 4 页共 80 页8 部署 Mahout 数据挖据工具 .538.1 部署 Mahout538.2 测试验证 .549 部署 Pig 数据分析平台 559.1 部

5、署 Pig.559.2 Pig 简介 .559.3 运行案例 .56南京第五十五所技术开发有限公司第 5 页共 80 页1 概述1.1 大数据简介“大数据”是一个体量特别大，数据类别特别庞杂的数据集合，并且这样的数据集无法用传统数据库工具或常规软件工具抓取、管理和处理其内容。大数据技术是指从各种各样类型的庞杂数据中，快速的获取有价值的信息的能力。适用于大数据的技术包括大规模并行处理数据库，数据挖掘电网，分布式文件系统，分布式数据库，云计算平台和可扩展的存储系统。Apache 的 Hadoop 项目是可靠的、可扩展的、开源的、分布式计算软件。Apache 的Hadoop 软件库是允许通过相对简

6、单的程序模型构建计算集群为庞大的数据集进行分布式计算的框架。Hadoop 的设计思想可以将计算模式从单节点服务器扩展为数以千计的计算集群，每一个单独的服务器都提供自主的本地计算及存储能力。对于高可用指标而言，Hadoop 软件库自身可以通过检测和故障调试从应用层来实现高可用而不需要关心硬件底层的高可用性。所以提供一个计算集群上层的高可用服务对于集群故障修复而言就显得至关重要。1.2 先电大数据平台简介先电大数据平台是基于 Ambari 进行二次开发的 Hadoop 分布式集群配置管理工具，该平台通过安装向导来进行集群的搭建，简化了集群供应。同时，他还有一个监控组件，叫做 Ambari-Metr

7、ics，可以提前配置好关键的运维指标（ metrics），然后收集集群的中服务、主机等运行状态等信息，通过 WEB 的方式显示出来。我们可以直接查看 Hadoop Core（HDFS 和 MapReduce）及相关项目（如 HBase、Hive 和 HCatalog）是否健康。它的用户界面非常直观，用户可以轻松有效地查看信息并控制集群。先电大数据平台支持作业与任务执行的可视化与分析，能够更好地查看依赖和性能。通过一个完整的 RESTful API 把监控信息暴露出来，集成了现有的运维工具。平台使用Ganglia 收集度量指标，用 Nagios 支持系统报警。南京第五十五所技术开发有限公司第

8、6 页共 80 页图 1.1 Ambari 结构图其中 Ambari 是一个分布式架构的软件，主要由两部分组成：Ambari Server 和 Ambari Agent，如图 1-1 所示。Ambari Server 会读取 Stack 和 Service 的配置文件。当用 Ambari 创建集群的时候，Ambari Server 传送 Stack 和 Service 的配置文件以及 Service 生命周期的控制脚本到 Ambari Agent。Agent 拿到配置文件后，会下载安装公共源里软件包（Redhat ，就是使用 yum 服务）。安装完成后，Ambari Server 会通知

9、Agent 去启动 Service。之后 Ambari Server 会定期发送命令到 Agent 检查 Service 的状态，Agent 上报给 Server，并呈现在 Ambari 的 GUI 上，方便用户了解到集群的各种状态，并进行相应的维护。图 1-1 Ambari 架构图2 基本环境配置以两台节点为例来组件 Hadoop 分布式集群，这里采用的系统版本为 Centos7，如下表所示：主机名内存硬盘 IP 地址角色master 8192MB 100G 192.168.200.131 Ambari-Serverslaver1 4096MB 100G 192.168.200.133

10、 Ambari-Agent南京第五十五所技术开发有限公司第 7 页共 80 页2.1 配置主机名# master# hostnamectl set-hostname master# hostnamemaster# slaver1# hostnamectl set-hostname slaver1# hostnameslaver12.2 修改 hosts 文件# master MariaDB (none) grant all privileges on ambari.* to ambarilocalhost identified by bigdata;MariaDB (none) grant

11、all privileges on ambari.* to ambari% identified by bigdata;MariaDB (none) use ambari;MariaDB ambari source /var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sqlMariaDB ambari Bye3.2 安装配置 ambari-server# master# ambari-server setupWARNING: SELinux is set to permissive mode and temporarily disa

12、bled.OK to continue y/n (y)? Customize user account for ambari-server daemon y/n (n)? nChecking JDK.1 Oracle JDK 1.8 + Java Cryptography Extension (JCE) Policy Files 82 Oracle JDK 1.7 + Java Cryptography Extension (JCE) Policy Files 73 Custom JDK=Enter choice (1): 3Path to JAVA_HOME: /usr/jdk64/jdk1

13、.8.0_77Validating JDK on Ambari Server.done.Completing setup.Configuring database. Enter advanced database configuration y/n (n)? yConfiguring database.南京第五十五所技术开发有限公司第 13 页共 80 页=Choose one of the following options:1 - PostgreSQL (Embedded)2 - Oracle3 - MySQL4 - PostgreSQL5 - Microsoft SQL Server

14、(Tech Preview)6 - SQL Anywhere=Enter choice (1): 3Hostname (localhost): Port (3306): Database name (ambari): Username (ambari): Enter Database Password (bigdata): Proceed with configuring remote database connection properties y/n (y)? Ambari Server setup completed successfully.启动 ambari-server 服务# a

15、mbari-server start登陆界面 http:/192.168.200.131:8080/登录用户名密码为 admin：admin南京第五十五所技术开发有限公司第 14 页共 80 页4 配置 ambari-agent# master & slaver1# yum -y install ambari-agent# vi /etc/ambari-agent/conf/ambari-agent.iniserverhostname= master# ambari-agent restart# tail -f /var/log/ambari-agent/ambari-agent.logIN

16、FO 2017-01-12 09:44:20,919 Controller.py:265 - Heartbeat response received (id = 1340)INFO 2017-01-12 09:44:30,820 Heartbeat.py:78 - Building Heartbeat: responseId = 1340, timestamp = 1484214270820, commandsInProgress = False, componentsMapped = True5 部署管理 Hadoop 集群5.1 部署 Hadoop 集群登陆界面 http:/IP Addr

17、ess:8080/，用户名密码为 admin： admin。接下来就可以启动安装向导，创建集群，安装服务。南京第五十五所技术开发有限公司第 15 页共 80 页南京第五十五所技术开发有限公司第 16 页共 80 页南京第五十五所技术开发有限公司第 17 页共 80 页关于 XianDian-BigData 的软件包进行了分开打包。XianDian-BigData-v2.0.2-BASE.iso 软件包包含HDFS、 MapReduce2、YARN 、Tez、Hive、HBase、Pig、 Sqoop、Zookeeper、Storm 、Flume、Ambari Metrics 、Kerbe

18、ros、Mahou、Spark 等服务组件。XianDian-BigData-v2.0.2-EXT.iso 软件包包含了accumulo、atlas、falcon、kafka 、knox、oozie、ranger、slider 等服务组件。这里如果需要这些服务组件，则需要添加一个 yum 配置文件，如下：# vi HDP-EXTEND.repoHDP-2.4-EXTEND南京第五十五所技术开发有限公司第 18 页共 80 页name=HDP-2.4-EXTENDbaseurl=http:/master/HDP-2.4-EXTENDenabled=1gpgcheck=0南京第五十五所技术开发有

19、限公司第 19 页共 80 页这里要设置 Grafana Admin 的密码。南京第五十五所技术开发有限公司第 20 页共 80 页部署成功后，便可成功进入界面。在主界面中，可以查看集群状态监控信息。在 HadoopMaster 的终端执行 jps 命令，在打印结果中会看到 master 上运行的进程，这些进程表示主节点进程启动成功。在 HadoopSlave 的终端执行 jps 命令，也会看到相应的进程：Slaver1：南京第五十五所技术开发有限公司第 21 页共 80 页5.2 HDFS 运维管理5.2.1 HDFS 命令手册1. 概述切换到 hdfs 用户，可以通过 “hadoop

20、 fs -”命令来查看 HDFS 文件系统的帮助命令，通过提示的命令来对文件系统进行管理。命令如下：$ hadoop fs -执行结果如下：所有的 hadoop 命令均由 bin/hadoop 脚本引发。不指定参数运行 hadoop 脚本会打印所有命令的描述。用法：hadoop -config confdir COMMAND GENERIC_OPTIONS COMMAND_OPTIONSHadoop 有一个选项解析框架用于解析一般的选项和运行类。命令选项描述-config confdir 覆盖缺省配置目录。缺省是$HADOOP_HOME/conf南京第五十五所技术开发有限公司第 22 页共

21、 80 页GENERIC_OPTIONS 多个命令都支持的通用选项COMMAND 命令选项 S各种各样的命令和它们的选项会在下面提到。这些命令被分为用户命令管理命令两组。2. 权限管理在 Hadoop 集群中，只有 hdfs 用户才有对 HDFS 文件系统的管理权限，当其它用户对文件系统进行操作，需要给其赋予相应的权限，这里为了方便操作，将所有用户的读写执行权限全部放开，命令如下：# su hdfs$ hadoop fs -chmod -R 777 /3. 常规选项下面的选项被 dfsadmin, fs, fsck 和 job 支持。应用程序要实现 Tool 来支持常规选项。GENERI

22、C_OPTION 描述-conf 指定应用程序的配置文件。-D 为指定 property 指定值 value。-fs 指定 namenode。-jt 指定 job tracker。只适用于 job。-files 指定要拷贝到 map reduce 集群的文件的逗号分隔的列表。南京第五十五所技术开发有限公司第 23 页共 80 页只适用于 job。-libjars 指定要包含到 classpath 中的 jar 文件的逗号分隔的列表。只适用于 job。-archives 指定要被解压到计算节点上的档案文件的逗号分割的列表。只适用于 job。4. 用户命令hadoop 集群用户的常用命令。ar

23、chive创建一个 hadoop 档案文件。参考 Hadoop Archives.用法：hadoop archive -archiveName NAME -p * 命令选项描述-archiveName NAME 要创建的档案的名字。-p 父路径，格式与正则表达式一致。src 父路径下面需要创建档案的文件名（可多个）dest 保存档案文件的目标目录。distcp递归地拷贝文件或目录。参考 DistCp 指南以获取等多信息。用法：hadoop distcp 命令选项描述srcurl 源 Urldesturl 目的 Urlfs用法：hadoop fs GENERIC_OPTIONS COMMAN

24、D_OPTIONS运行一个常规的文件系统客户端。fsck南京第五十五所技术开发有限公司第 24 页共 80 页运行 HDFS 文件系统检查工具。参考 Fsck 了解更多。用法：hadoop fsck GENERIC_OPTIONS -move | -delete | -openforwrite -files -blocks -locations | -racks命令选项描述检查的起始目录。-move 移动受损文件到/lost+found-delete 删除受损文件。-openforwrite 打印出写打开的文件。-files 打印出正被检查的文件。-blocks 打印出块信息报告。-loc

26、mit 提交作业南京第五十五所技术开发有限公司第 25 页共 80 页-status 打印 map 和 reduce 完成百分比和所有计数器。-counter 打印计数器的值。-kill 杀死指定作业。-events 打印给定范围内 jobtracker 接收到的事件细节。-history all -history 打印作业的细节、失败及被杀死原因的细节。更多的关于一个作业的细节比如成功的任务，做过的任务尝试等信息可以通过指定all选项查看。-list all -list all 显示所有作业。-list 只显示将要完成的作业。-kill-task 杀死任务。被杀死的任务不会不利于失败尝试。

27、-fail-task 使任务失败。被失败的任务会对失败尝试不利。pipes运行 pipes 作业。用法：hadoop pipes -conf -jobconf , , . -input -output -jar -inputformat -map -partitioner -reduce -writer -program -reduces 命令选项描述-conf 作业的配置-jobconf , , . 增加/覆盖作业的配置项南京第五十五所技术开发有限公司第 26 页共 80 页-input 输入目录-output 输出目录-jar Jar 文件名-inputformat InputForm

28、at 类-map Java Map 类-partitioner Java Partitioner-reduce Java Reduce 类-writer Java RecordWriter-program 可执行程序的 URI-reduces reduce 个数version打印版本信息。用法：hadoop versionCLASSNAMEhadoop 脚本可用于调调用任何类。用法：hadoop CLASSNAME运行名字为 CLASSNAME 的类。5. 管理命令hadoop 集群管理员常用的命令。balancer运行集群平衡工具。管理员可以简单的按 Ctrl-C 来停止平衡过程。参考 Re

29、balancer 了解更多。用法：hadoop balancer -threshold 南京第五十五所技术开发有限公司第 27 页共 80 页命令选项描述-threshold 磁盘容量的百分比。这会覆盖缺省的阀值。daemonlog获取或设置每个守护进程的日志级别。用法：hadoop daemonlog -getlevel 用法：hadoop daemonlog -setlevel datanode运行一个 HDFS 的 datanode。用法：hadoop datanode -rollback命令选项描述-report 报告文件系统的基本信息和统计信息。-safemode enter

30、| leave | get | wait安全模式维护命令。安全模式是 Namenode 的一个状态，这种状态下，Namenode 1. 不接受对名字空间的更改(只读)2. 不复制或删除块Namenode 会在启动时自动进入安全模式，当配置的块最小百分比数满足最小的副本数条件时，会自动离开安全模式。安全模式可以手动进入，但是这样的话也必须手动关闭安全模式。-refreshNodes 重新读取 hosts 和 exclude 文件，更新允许连到 Namenode 的或那些需要退出或入编的 Datanode 的集合。命令选项描述-getlevel 打印运行在的守护进程的日志级别。这个命令内部会连接

31、 http:/logLevel?log=-setlevel 设置运行在的守护进程的日志级别。这个命令内部会连接 http:/logLevel?log=南京第五十五所技术开发有限公司第 28 页共 80 页-finalizeUpgrade 终结 HDFS 的升级操作。Datanode 删除前一个版本的工作目录，之后 Namenode 也这样做。这个操作完结整个升级过程。-upgradeProgress status | details | force请求当前系统的升级状态，状态的细节，或者强制升级操作进行。-metasave filename 保存 Namenode 的主要数据结构到 hado

32、op.log.dir 属性指定的目录下的文件。对于下面的每一项，中都会一行内容与之对应1. Namenode 收到的 Datanode 的心跳信号2. 等待被复制的块3. 正在被复制的块4. 等待被删除的块-setQuota .为每个目录设定配额。目录配额是一个长整型整数，强制限定了目录树下的名字个数。命令会在这个目录上工作良好，以下情况会报错：1. N 不是一个正整数，或者2. 用户不是管理员，或者3. 这个目录不存在或是文件，或者4. 目录会马上超出新设定的配额。-clrQuota .为每一个目录清除配额设定。命令会在这个目录上工作良好，以下情况会报错：1. 这个目录不存在或是文件，或

33、者2. 用户不是管理员。如果目录原来没有配额不会报错。-help cmd 显示给定命令的帮助信息，如果没有给定命令，则显示所有命令的帮助信息。secondarynamenode运行 HDFS 的 secondary namenode。用法：hadoop secondarynamenode -checkpoint force | -geteditsize南京第五十五所技术开发有限公司第 29 页共 80 页5.2.2 进程管理1. 查看当前系统中启动的进程命令如下：# jps执行结果如下：2. 重启 NameNode 和 DateNode 进程hadoop-daemon.sh 脚本是启动和停止

34、 hadoop 后台程序， “config”参数指定启动程序时用到的配置文件目录。命令如下：# /usr/hdp/current/hadoop-client/sbin/hadoop-daemon.sh -config /usr/hdp/current/hadoop-client/conf stop namenode/datenode# /usr/hdp/current/hadoop-client/sbin/hadoop-daemon.sh -config /usr/hdp/current/hadoop-client/conf start namenode/datenode5.2.3 可靠性管理

35、Hadoop 集群中的主机在某些情况下会出现宕机或者系统损坏的问题，一旦遇到这些问题，HDFS 文件系统中的数据文件难免会产生损坏或者丢失，为了保证 HDFS 文件系统的可靠性，可以采取以下策略：1. 冗余副本策略命令选项描述-checkpoint force 如果 EditLog 的大小 = fs.checkpoint.size，启动 Secondary namenode 的检查点过程。如果使用了-force，将不考虑EditLog 的大小。-geteditsize 打印 EditLog 大小。南京第五十五所技术开发有限公司第 30 页共 80 页更改集群冗余副本的复制因子为 5，从而

36、避免某台节点主机损坏导致数据丢失的情况，这里我们有两种方式来设置复制因子。第一种是通过 WEB 界面，进入到 HDFS 配置中修改 Block replication 的参数值。第二种方式是在 Shell 命令行模式下，修改 hdfs-site.xml 配置文件，将“dfs.replication”的值设置为 5，然后重启 NameNode 和 DataNode 进程。# vi /etc/hadoop/2.3.6.0-3796/0/hdfs-site.xmldfs.replication52. 安全模式当在进行系统维护或者集群维护时，不希望用户进行再去操作 HDFS 文件系统中文件，这时候需要手动将 NameNode 设置成安全模式的状态。该操作需要 HDFS 管理用户来进行实现，即 hdfs 用户。命令如下：$ hadoop dfsadmin -safemode enter$ hadoop dfsadmin -safemode get执行结果如下：Safe mode is ON3. 回收站设置 HDFS 文件系统回收站中的文件彻底删除的时间间隔为 7 天。进入到 HDFS 配置中修改“fs.trash.interval”的值为 10080（分钟）。注：当该值为 0 时，表示禁用回收站的功能。

展开阅读全文