云计算管理平台帮助手册.docx-道客多多

资源描述

1、云计算管理平台目录云计算管理平台 11.0 简介 41.1 云计算管理平台能做什么？ .41.2 什么是管理节点？ 51.3 支持的网页浏览器 52.0 支持的 Apache Hadoop 组件列表 .53.0 执行日常管理操作 73.1 第一次登录云计算管理平台 .73.2 启动和停止集群中的组件 .73.3 添加或编辑服务的属性 143.4 查看服务信息 183.5 建立云计算管理平台的访问控制 .193.6 添加节点到机柜 213.7 从集群中移除节点 233.8 为 Apache Hadoop*服务分配内存 244.0 监控和提高 MapReduce 应用程序的性能 .335.0 了解

2、 Hadoop 服务的角色 485.1 了解 HDFS 角色 485.2 了解 MapReduce 角色 .495.3 了解 HBase 角色 495.4 了解各种服务角色 506.0 监控 Apache Hadoop*服务状态 506.1 如何知道 HDFS 处于良好状态？ 516.2 如何知道 MapReduce 处于良好状态？ .526.3 如何知道 HBase 处于良好状态？ .537.0 监控系统状态 .547.1 哪些参数被收集？ .557.2 哪些图形可查看？ .557.3 查看参数的图形 .567.4 了解和查看节点状态 .607.5 审计资源消耗 .677.6 定义参数状态的

3、阈值 .687.7 发送关于系统和服务状态的电邮通知 718.0 使用 FTP over HDFS.758.1 安装 .768.2 默认配置 .768.3 客户化配置 .778.4 运行服务 .788.5 如何使用 FTP over HDFS.789.0 创建和管理 HBase 表 809.1 创建 HBase 表 819.2 更改 Column Family 的图表 .839.3 查看 HBase 表中的记录 841.0 简介Apache Hadoop* 是一个开源软件框架，用于在大型集群中运行海量数据的、分布式的应用程序。云计算管理平台的中央管理控制平台，它能处理集群的安装设置、Hadoo

4、p 服务的配置变更、集群监控、事件和警报的发送、资源优化、以及安全访问。1.1 云计算管理平台能做什么？云计算管理平台 for Apache Hadoop*具有以下特点和功能：使用上百种参数对集群内的所有节点进行全面的状态监控，比如CPU 和存储空间使用率。参数数据以图形和表格的形式呈现。使用系统或用户定义的阈值来检测状态，云计算管理平台能自动生成和集群问题有关的邮件通知并将邮件发给用户定义的管理员和开发人员群组。单点部署允许用户按需从集群中增加或删除节点或 Hadoop 服务，比如 HBase。单点配置允许用户指定 Hadoop 服务的属性。变更被保存后，变更将被自动传播给集群中的所有节点。

5、管理性的控制和审计允许你通过 Kerberos 及日志关键配置及管理性的变化来建立访问控制。1.2 什么是管理节点？管理节点是安装了基于云计算管理平台的节点，同时也是云计算管理平台运行的网络服务器。1.3 支持的网页浏览器本次云计算管理平台的发布支持以下网页浏览器： .Mozilla Firefox* 版本 12 或更高（不支持 Mozilla Firefox* 版本18）Chrome* 版本 20 或更高2.0 支持的 Apache Hadoop 组件列表组件版本装包云计算管理平台2.3 cloudui-230.12961-1.el6.x86_64Hadoop 1.0.3 hadoop-

6、tasktracker-1.0.3+230.12957-2.el6.noarchhadoop-namenode-1.0.3+230.12957-2.el6.noarchhadoop-libhdfs-1.0.3+230.12957-2.el6.x86_64hadoop-datanode-1.0.3+230.12957-2.el6.noarchhadoop-pipes-1.0.3+230.12957-2.el6.x86_64hadoop-1.0.3+230.12957-2.el6.x86_64hadoop-native-1.0.3+230.12957-2.el6.x86_64hadoop-doc-

7、1.0.3+230.12957-2.el6.noarchhadoop-secondarynamenode-1.0.3+230.12957-2.el6.noarchhadoop-conf-pseudo-1.0.3+230.12957-2.el6.noarchhadoop-fuse-1.0.3+230.12957-2.el6.x86_64hadoop-sbin-1.0.3+230.12957-2.el6.x86_64hadoop-jobtracker-1.0.3+230.12957-2.el6.noarcHBase 0.94.1 hbase-regionserver-0.94.1+230.1295

8、7-1.el6.noarchhbase-rest-0.94.1+230.12957-1.el6.noarchhbase-master-0.94.1+230.12957-1.el6.noarchhbase-thrift-0.94.1+230.12957-1.el6.noarchhbase-0.94.1+230.12957-1.el6.noarchhbase-doc-0.94.1+230.12957-1.el6.noarchxHive 0.9.0 hive-server-0.9.0+230.12957-1.el6.noarchhive-metastore-0.9.0+230.12957-1.el6

9、.noarchhive-0.9.0+230.12957-1.el6.noarchZooKeeper 3.4.5 zookeeper-server-3.4.5+230.12957-1.el6.noarchzookeeper-3.4.5+230.12957-1.el6.noarchFlume 1.3.0 flume-node-1.3.0+230.12957-1.el6.noarchflume-1.3.0+230.12957-1.el6.noarch支持的 Apache Hadoop*组件列表支持的 Apache Hadoop*组件列表组件版本安装包Sqoop 1.4.1 sqoop-1.4.1

10、+230.12957-1.el6.noarchsqoop-metastore-1.4.1+230.12957-1.el6.noarchPig 0.9.2 pig-0.9.2+230.12957-1.el6.noarchOozie 3.3.0 oozie-3.3.0+230.12957-1.el6.noarchoozie-client-3.3.0+230.12957-1.el6.noarch3.0 执行日常管理操作以下章节解释云计算管理平台 for Apache Hadoop* software 是如何在一个 Apache Hadoop*集群中执行日常管理和操作行为的。3.1 第一次登录云计算管

11、理平台第一次登录云计算管理平台，执行以下步骤：1.获取云计算管理平台的 IP 地址或全限定域名。2.打开网页浏览器。3.在网页浏览器的地址栏中，输入以下地址： https:/云计算管理平台 IP 地址或主机名:9443.然后，按下 Enter。4.在云计算管理平台登录页面，执行以下步骤。a.在用户名栏内，输入 admin。b.在密码栏内，输入 admin。c.点击登录按钮。执行日常管理操作执行日常管理操作云计算管理平台软件发行版操作管理手册 103.2 启动和停止集群中的组件启动一个 Hadoop 集群是指启动集群中的组件。启动一个组件是指启动该组件中的服务。一个组件中服务的数量和类型取决于分

12、配给节点的服务角色。关于更多服务角色的描述，参见章节 5.0 了解 Hadoop 服务的角色。你只能在一个组件被启动后才能将其停止。3.2.1 启动集群中的组件以下步骤假定所有能安装在集群中的组件都已安装。如果你选择不安装某些组件，启动集群中组件的步骤将会不同，你只需要启动更少的组件。要启动某个集群中的组件，执行以下步骤：1.使用管理员角色的用户名登录云计算管理平台。2.在集群概况菜单，选择控制面板选项。3.在状态栏内，确认每行都显示未运行。执行日常管理操作执行日常管理操作云计算管理平台软件发行版操作管理手册 114.在 HDFS 这一行，选择操作下拉菜单。然后在下拉菜单中，选择启动选项。系统

13、将出现对话框，显示被分配了 HDFS 服务角色的每个节点的 HDFS 服务的启动进程。5.等待至 HDFS 启动完毕。这一过程可能需要一到二分钟。当状态栏内显示完成时，表示服务已成功启动。6.在启动 HDFS 对话框，确认状态栏仅显示完成。如果状态栏还显示其他信息，说明有一个或多个服务启动失败。警告：如果有某个服务启动失败，请不要启动其他组件。你需要先解决启动服务失败的组件的问题。7.如果启动 HDFS 对话框没有自动消失，点击关闭。8.在 MapReduce 行，选择操作下拉菜单。然后在下拉菜单中，选择启动选项。9.等待至所有 MapReduce 服务启动完毕。这一过程可能需要一到二分钟。1

14、0.在启动 MapReduce 对话框，确认状态栏仅显示完成。如果状态栏还显示其他信息，说明有一个或多个服务启动失败。11.如果启动 MapReduce 对话框没有自动消失，点击关闭。12.在 ZooKeeper 行，选择操作下拉菜单。然后在下拉菜单中，选择启动选项。13.等待至所有 ZooKeeper 服务启动完毕。这一过程可能需要一到二分钟。14.在启动 ZooKeeper 对话框，确认状态栏仅显示完成。如果状态栏还显示其他信息，说明有一个或多个服务启动失败。15.如果启动 ZooKeeper 对话框没有自动消失，点击关闭。警告：只有在 ZOOKEEPER 组件启动后，HBASE 组件才能

15、启动。16.在 HBase 行，选择操作下拉菜单。然后在下拉菜单中，选择启动选项。17.等待至所有 HBase 服务启动完毕。这一过程可能需要一到二分钟。18.在启动 HBase 对话框，确认状态栏仅显示完成。如果状态栏还显示其他信息，说明有一个或多个服务启动失败。19.如果启动 HBase 对话框没有自动消失，点击关闭。20.在 Hive 行，选择操作下拉菜单。在下拉菜单中，选择启动选项。21.等待至所有 Hive 服务启动完毕。这一过程可能需要一到二分钟。22.在启动 Hive 对话框，确认状态栏仅显示完成。如果状态栏还显示其他信息，说明有一个或多个服务启动失败。23.如果启动 Hive

16、对话框没有自动消失，点击关闭。执行日常管理操作执行日常管理操作云计算管理平台软件发行版操作管理手册 1224.确认每个组件的状态栏都显示完成。如果是，则表示集群中所有服务已成功启动并运行。3.2.2 停止集群中的组件以下步骤假定所有能安装在集群中的组件都已安装。如果你选择不安装某些组件，由于要停止的组件较少，启动集群中组件的过程会不同。要停止集群中的组件，执行以下步骤。1.使用管理员角色的用户名登录云计算管理平台。2.确认集群中的所有组件都已启动。关于如何确认，参见章节 3.2.1 启动集群中的组件。3.在集群概述菜单中，双击控制面板选项。4.在状态栏内，确认每行都显示运行中。5.在 Hive

17、行内，点击停止按钮。点击后，出现一个对话框，显示每个被分配了 MapReduce 角色的节点上停止 MapReduce 服务的进度。6.等待至所有 Hive 服务停止完毕。这一过程可能需要一到二分钟。当状态栏内显示完成时，表示服务已成功停止。7.在停止 Hive 对话框，确认状态栏仅显示完成。如果状态栏还显示其他信息，说明有一个或多个服务启动失败。警告：如果有某个服务停止失败，则不要试图停止其他组件。你必须首先解决服务状态为失败的组件问题。8.如果停止 Hive 对话框没有自动消失，点击关闭。9.在 HBase 行内，点击停止按钮。10.等待至所有 HBase 服务停止完毕。这一过程可能需要

18、一到二分钟。11.在停止 HBase 对话框，确认状态栏内仅显示完成。如果状态栏还显示其他信息，说明有一个或多个服务启动失败。12.如果停止 HBase 对话框没有自动消失，点击关闭。13.在 MapReduce 栏内，点击停止按钮。14.等待至所有 MapReduce 服务停止完毕。这一过程可能需要一到二分钟。15.在停止 MapReduce 对话框，确认状态栏内仅显示完成。如果状态栏还显示其他信息，说明有一个或多个服务启动失败。16.如果停止 MapReduce 对话框没有自动消失，点击关闭。警告：在停止 ZOOKEEPER 组件之前，HBASE 组件必须为停止状态。17.在 ZooKee

19、per 栏内，点击停止按钮。18.等待至所有 ZooKeeper 服务停止完毕。这一过程可能需要一到二分钟。19.在停止 ZooKeeper 对话框，确认状态栏内仅显示完成。如果状态栏还显示其他信息，说明有一个或多个服务启动失败。20.如果停止 ZooKeeper 对话框没有自动消失，点击关闭。21.在 HDFS 栏内，点击停止按钮。22.等待至所有 HDFS 服务停止完毕。这一过程可能需要一到二分钟。23.在停止 HDFS 对话框，确认状态栏内仅显示完成。如果状态栏还显示其他信息，说明有一个或多个服务启动失败。24.如果停止 HDFS 对话框没有自动消失，点击关闭。执行日常管理操作执行日常管

20、理操作云计算管理平台软件发行版操作管理手册1425.确认每个组件的状态栏都显示完成。如果是，则表示集群中所有服务已成功停止，不再运行。3.3 添加或编辑服务的属性在云计算管理平台中，你可以编辑或添加以下服务的属性：Hadoop，HDFS ，MapReduce，ZooKeeper， HBase 和 Hive。一旦你更改了属性，你可以通过点击一个按钮将这些变更复制给集群中的所有节点。以下步骤演示了如何在 HDFS 中更改属性。1.用具有管理员权限的用户登录云计算管理平台。2.选中集群配置菜单以展开。执行日常管理操作执行日常管理操作3.在集群配置菜单中，选择 HDFS 配置选项。4.某些服务有一个基

21、本配置页面，显示关键配置的属性，但有些服务则没有。HDFS 具有这一基本配置页面。你可在此更改相应栏的值来更改属性。5.要查看 HDFS 的所有配置属性，点击全配置子页面。6.要了解属性的作用，选择表中的某个属性然后查看页面下方的提示信息。7.要编辑某个属性，在表中双击该属性。8.要找到某个属性，在关键字过滤栏内输入属性的名称。9.要增加某个属性，点击添加链接。10.一旦你更改完 HDFS 属性，点击储存链接。11.要将变更复制到集群中的所有节点上，执行以下步骤。a.在集群配置菜单中，双击集群节点选项。b.在集群节点页面，点击配置所有节点链接。c.当被问到是否要配置集群，点击确定。对于 Map

22、Reduce 服务，你可以使用智能优化功能来上传MapReduce 任务的样本。系统将根据系统状态来优化 Hadoop 参数，以提高性能。智能优化是一个实时优化工具，它能快速有效地优化Hadoop MapReduce应用程序。虽然智能优化带来的性能提高根据应用程序及其集群资源部署的不同而变化，但平均下来它能带来 30%的性能提高。以下步骤演示了如何通过 MapReduce 来做到这一点。1.在集群配置菜单，选择 MapReduce 配置选项，然后点击大数据智能优化子页面。2.点击集群配置，输入以下信息配置大数据智能优化：Intel Manager：云计算管理平台主机名Name Node:

23、Name Node 主机名Tasktracks 的数目Data Node 的内存数目(GB)Data Node 的 CPU 核数每核的 Data Node 超线程数目3.在确认对话框，点击确定以确认。4.在消息对话框，显示大数据智能优化已配置成功，点击确定继续。5.点击启动开始启动优化任务。6.在运行 MapReduce 应用程序对话框，输入以下信息：MapReduce 应用程序：点击选择文件选择一个 jar 文件或 shell 脚本，然后点击上传。应用程序参数：最多尝试次数：最多迭代次数：7.点击确定运行优化任务。你也可点击停止来停止优化任务。8.一旦优化任务完成，Hadoop MapRe

24、duce应用程序已优化。3.4 查看服务信息从云计算管理平台中，你可查看以下服务信息：intel-manager：Intel Manager 主服务hadoop-secondarynamenode：HDFS 的次 NameNode 服务hadoop-namenode：HDFS 中的 NameNode 服务hive-server：Hive Thrift 服务hadoop-tasktracker： MapReduce 的 TaskTracker 服务hadoop-jobtracker：MapReduce 的 JobTracker 服务执行日常管理操作执行日常管理操作云计算管理平台软件发行版操作管理

25、手册 17hbase-thrift: HBase Thrift 服务hbase-regionserver：HBase Region Server 服务hive-metastore：Hive MetaStore 服务hadoop-datanode：HDFS 的 DataNode 服务hbase-master：HBase 主服务zookeeper-server：ZooKeeper 服务关于服务的更多信息，参见要查看服务信息：1.进入集群配置集群节点节点服务信息子页面。2.从选择节点下拉列表中选择一个节点。3.选中节点的服务信息将显示。服务信息包括：服务：服务名称服务描述：服务描述状态：运行中或停止

26、完整日志文件：点击查看完整日志以查看相应的服务日志3.5 建立云计算管理平台的访问控制一旦你创建了一个 Apache Hadoop*集群，你可以创建一个或多用户来访问云计算管理平台。云计算管理平台提供配置页面，你可在此创建用户并分配给用户来宾(Guest) 或管理员 (Administrator)的角色。来宾角色表示用户只对云计算管理平台的配置页面有读的权限，而管理员角色表示对配置页面有读和写的权限。要创建一个管理员角色的用户，执行以下步骤。1.用具有管理员权限的用户登录云计算管理平台。关于更多信息，参见章节 3.1 第一次登录云计算管理平台。2.选择系统配置菜单以展开。3.在系统配置菜单，选

27、择用户管理选项。4.在用户管理配置页面，点击添加用户链接。5.在用户类型下拉菜单中，选择管理员选项。6.在用户名栏，输入你想要创建的用户的名称。7.在密码和再次输入新密码栏内，输入你想要创建的用户的密码。8.点击添加用户按钮。9.将用户认证信息发给你想要让他具备云计算管理平台管理权限的用户。3.6 添加节点到机柜在一个 Apache Hadoop*集群中，你可能有成千上百个节点。通常这些机器存放在数据中心。在数据中心，这些机器会放在机柜上。通常，一个机柜上可放 20 台机器。为帮助你组织和管理一个集群中的机器，云计算管理平台允许你将机器分开到虚拟机柜上。我们建议，但不是必须，虚拟机柜上的机器和

28、实际存放在物理机柜上的机器相符。比如，如果一个名为 hadoop1 的机器被放在一个名为 rack1的机柜上，则你需要在云计算管理平台创建一个名为 rack1 的机柜，并将 hadoop1 放入此机柜。以下步骤演示了如何在云计算管理平台中创建虚拟机柜，并将节点放入这些机柜中。1.用具有管理员权限的用户登录云计算管理平台。2.选择集群配置菜单以展开。3.在集群配置菜单，点击集群节点选项。4.添加至少二个节点到集群中（如果你还没这么做）。5.在集群节点页面，点击机柜编辑链接。6.要添加虚拟机柜，点击绿色+ 符号。点击后，机柜表内将添加一条空白记录。7.双击该空白记录然后输入机柜名称。机柜名称必须

29、以斜杠/ 开始。警告：如果机柜名称不是以斜杠/开始，则此机柜在 HDFS 中无效。8.在机柜编辑对话框，点击确定按钮。9.在某个已存在的机柜中，用鼠标左击并拖曳节点到新的机柜中。10.在你启动 Apache Hadoop*服务前，你必须点击配置所有节点链接。警告：在你添加或删除机柜后，如果你不点击配置所有节点链接，当云计算管理平台试图通过机柜来过滤数据时可能会出现问题。3.7 从集群中移除节点要从 Apache Hadoop*集群中移除节点，执行以下步骤。1.用具有管理员权限的用户登录云计算管理平台。2.在集群配置菜单，点击集群节点选项。3.确定你想要删除的节点。注意：你不能删除管理节点或 P

30、RIMARY NAMENODE。如果你不小心删除了其中之一，你需要重新安装集群。4.右键点击你想要删除的节点，然后从菜单中选择删除节点，或选择一个节点，然后点击删除节点链接。5.当问你是否想要在节点上卸载节点时，点击确定。3.8 为 Apache Hadoop*服务分配内存系统管理员最关键的决定之一是保证内存被最大程度地分配给Apache Hadoop*服务。这一决定能正面或负面地影响每个服务的性能和响应能力，以及这些服务之间的相互作用。然而，发现和设置每个服务的最大内存属性非常困难，因为这些设置分布在许多不同的文件中，或存在于不同的目录中，某些情况下，还会分布在不同的节点上。改变这些设置并将

31、其部署到集群中是一个费力的、单调的、容易出错的过程。云计算管理平台提供内存分配功能，能帮助用户轻松设置集群中的最大内存属性，并能通过点击某个按钮将这些更改应用到集群中。3.8.1 内存分配是如何工作的内存分配功能包含二类：大内存设置和小内存设置大内存设置是一系列最关键的、占用节点大部分内存的 Apache Hadoop*服务或服务组件。小内存设置是一系列能影响服务性能和响应能力的Apache Hadoop*服务和服务组件，你可对该值进行调整，但在多数情况下，你可直接使用默认值。下表列出内存分配相关的每个服务，这些服务可使用内存分配功能来指定该服务的最大内存数目。内存类别服务属性大 HBase

32、 Region Server大 Primary NameNode大 MapReduce Slots小 HBase Master小 TaskTracker小 Hive小 JobTracker在云计算管理平台中，你可在某个页面中为服务属性设置最大内存，并可通过配置所有节点向导将该设置部署给集群中的每个节点。在配置内存分配时，你需要理解以下选项：权重使用一种运算法则，根据该服务对用户的重要性，动态分配最大内存设置给大内存设置类的每个服务。这一算法将异构（heterogenous）集群都计算在内，这些集群的节点可能有不同的内存数目。因此，节点的内存总量说明了这一算法是如何在节点上设置内存的。特定值用户

33、指定服务可能需要的最大内存数目（MB）。这意味着你可对内存设置做出决定，但在异构集群中，这一选项可能导致一些问题，原因在于这一设置可能并不对集群中的每个节点都适用。特定值和权重是相互排斥的选项。你只能对服务使用其中一个选项。此外，权重选项仅对大内存设置类别的服务可用。3.8.2 理解权重算法权重算法描述如下：(总内存-保留内存) x (服务权重/( 权重总合)算法的每个部分描述如下：保留内存在小内存设置类别中为操作系统和服务保留的内存数目在计算主要服务的内存时，保留内存不作为内存库的一部分进行计算。总内存系统内存的总数目权重以百分比表示服务的重要性权重总和将所有服务的权重百分比相加即为权重总

34、和比如，如果HBase Region Server，NameNode 和 MapReduce 插槽都使用权重，且每个服务的权重比例是 50/100，则权重总和是 150。从另一方面来说，如果 HBase Region Server 和 NameNode 使用权重，MapReduce 插槽使用特定的值且权重比例为 50/100，则权重总和是 100。对于某个节点，如果节点上安装了 NameNode 服务，Namenode 的权重仅包含在权重总和中。参考下列情形中的集群内存分配，以了解权重算法是如何工作的。3 个节点的集群。node1 的内存为 32GB，node2 的内存为 24GB，node3

35、的内存为64GB。HBase Region Server 和 TaskTracker 已安装在集群中所有节点上。Primary NameNode 已安装在 node1 节点。所有服务都使用权重。Region server 的权重是 20。NameNode 的权重是 80。MapReduce 的插槽数是 40。保留内存是 4GB。在此情形中，权重结算结果如下：结点服务计算内存1 Region Server(32-4)x(20/(20+80+40) 4GBPrimary NameNode(32-4)x(80/(20+80+40) 16GBMapReduce Slots(32-4) x (40/(20+80+40) )8GB结点服务计算内存Region Server(24-4)x(20/(20+40) 6.6GB2MapReduce Slots(24-4)x(40/(20+40) 13.3GBRegion Server(64-4)x(20/(20+40) 20GB3MapReduce Slots(64-4)x(40/(20+40) 40GB3.8.3 为集群分配内存要为集群中所有节点的所有服务设置最大内存，执行以下步骤：1.决定集群中的每个节点的内存数目。2.对于主要内存配置，决定你是否计划使用某个特定的权重值。3.如果你计划使用权重，你需要决定和其他服务相比，设置该服务

展开阅读全文