分享
分享赚钱 收藏 举报 版权申诉 / 24

类型Hadoop集群规划.pdf

  • 上传人:精品资料
  • 文档编号:9526504
  • 上传时间:2019-08-12
  • 格式:PDF
  • 页数:24
  • 大小:1.22MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    Hadoop集群规划.pdf
    资源描述:

    1、 标准的 x86的服务器 以太 网络 多 机架数据中心 软件环境 硬件的选择 (处理器,硬盘,网络) H a d o o p 集 群H D F SM a p R e d u c eH B a s e H i v e 管 理 节 点节 点 1节 点 2节 点 3节 点 N H D F S 客 户 端M a p R e d u c e 客 户 端H B a s e 客 户 端H i v e 客 户 端 角色 描述 节点数目 HDFS NameNode 分布式文件系统用以存储文件系统以及数据块的元数据 1个独立节点 HDFS Secondary NameNode NameNode的影子节点 小规模集

    2、群可以和NameNode共享节点,大规模集群用独立节点 HDFS DataNode HDFS数据存储 多个独立节点 MapReduce JobTracker MapReduce调度程序 1个独立节点,小规模集群可以与 NameNode共享,大规模集群使用独立节点 MapReduce TaskTracker MapReduce实际计算节点 与 DataNode运行在相同的节点之上 Hive Hive元数据以及驱动程序 独立配置的话可以与NameNode共享节点,或者将元数据存放在客户端 角色 描述 节点数目 ZooKeeper 用以提供集群高可用性的锁服务 3个或 3个以上的奇数的独立节点(小规

    3、模可以和其它角色共享节点) HBase HMaster HBase用以调度RegionServer的主模块 与其它角色共享节点的多个节点 HBase RegionServer HBase中用以管理数据的模块 一般与 DataNode运行与相同的节点之上 Management Node 可能的集群监控管理节点 一般为一个独立的节点,如果小规模集群的话可以与其它角色共享 HadoopHadoop IO 服务器角色及服务类型 内存要求 MapReduce Job Tracker 2GB MapReduce Task Tracker 2GB MapReduce Slots on Task Tracke

    4、r 512MB * slot数量 HDFS NameNode 16GB HDFS Secondary NameNode 16GB HDFS DataNode 2GB ZooKeeper 4GB HBase Master Server 2GB HBase Region Server 16GB Hive Server 2GB 客户端 8GB 4 16GB HDFS DataNode, MapReduce TaskTracker HBase Region Server slot map slots reduce slots 162GB + 2GB + 512MB*16 + 16GB = 28GB H

    5、Base JBOD vs. RAID RAID RAIDRAID 0 + +MapReduce 典型使用以太网络,为了使得系统能够正常运行,最低使用 千兆以太网 连接 ,由于需要有数据交换的需求,建议配置大容量的网络交换机 当一台机器上有多个网络适配器时,推荐使用网络适配器绑定 Linux的方法配置链路聚合,并把工作模式设为 6。在 工作模式为 6时,负载平衡可以通过循环取得,并且这些网络适配器 可以 在 没有 配置交换器的情况下正常 工作 千兆以太网接口是最基本的要求,更重要的是交换机的背板带宽,是决定数据传输的关键因 素 一个以太网交换机的接口是以太网交换机到主机的速度,这个速度决定主机到

    6、交换机的速度级别,在 Hadoop环境中,这个速度最少应该是千兆以太网 接 口速度即使达到了千兆以太网,实际的运行速度可能并不能真正达到千兆以太网的速度,因为可能有数十个设备同时共享这个交换机 决 定交换机的性能的关键因素是交换机的背板带宽,具有良好背板交换能力的交换机能够使得任意两个接口之间的速度以及上行的速度都能够达到千兆的速度,而通过总线进行共享的带宽往往不能达到理想的速度 为 了能够使得 Hadoop的处理能力能够得到充分的释放,交换机对于系统运行的性能起到了决定性的左右,建议在可能的情况下尽量选择高端的交换机,使得每一个接口都能够达到线速(网线能够达到什么速度,交换机就能够提供什么速

    7、度,没有性能损失) 最常见的是使用服务器本身的万兆以太网络,每一个机架使用一个交换机,在多个机架之间进行带宽聚合。这种方式在总的节点数目较少(少于 40个)集群比较合适 如 果应用(例如 ETL的应用)的 IO高负载,这样的话,网络会成为性能瓶颈 12块以上的硬盘,每块以 100MB/s速 度运行,会很快吃掉所有网络带宽 低 端的交换器不能够支持线速,产生阻塞 提高网络速度最直接的办法是通过端口绑定,将服务器的多个端口绑定为一个 IP ip Linux 10GBE 3 10 Hadoop HBase InfiniBand InifiBand InfiniBand 10G 20G 40G 410

    8、个节点,解决较小规模问题 项目 指标 处理器 CPU 双路四核服务器处理器, 2x4 2.6GHz 内存 32G或者以上内存, DDR3, ECC 磁盘接口 SAS 6GB/s 磁盘 6x或者 12x SATA 1T 7200RPM监控级硬盘 网络 两个以太网口 20+个节点,解决中等规模问题,实际上能够满足大多数中小企业的需求 项目 指标 处理器 CPU 双路六核服务器处理器,处理器缓存15MB, 2x6 2.9GHz 内存 64G或者以上内存, DDR3, ECC 磁盘接口 SAS 6GB/s 磁盘 6x或者 12x SATA 1T或者 3T 7200RPM监控级硬盘(依据数据规模而定)

    9、网络 两个以太网口 依据问题规模确定所需要的节点数目,解决大规模问题,使用高端的内存, 高速 网络 项目 指标 处理器 CPU 双路六核服务器处理器,处理器缓存15MB, 2x6 2.9GHz,依据应用可以选用更高端的处理器 内存 96G或者以上内存, DDR3, ECC 磁盘接口 2xSAS 6GB/s 磁盘 24x 1TB 告诉 SAS硬盘 网络 10Gb以太网口 高端网络可以考虑使用 InifinBand网络 支持的操作系 统为 Linux,要求 64位系统 ,版本至少 6以 上。 包 括: RedHat Enterprise Linux CentOS Oracle Linux 软件依赖

    10、: Java 1.6 openssh 在 把服务器加入集群前,须要确保 openssh-server在运行。如果openssh-server没有在运行 ,在 Hadoop集群中的所有节点中安装openssh-server包 。 规划 使用 Hadoop的组件,这些组件包括 HDFS,MapReduce, Hive, HA组件等 规划 集群的硬件参数,包括服务器数量,物理布局,机架数目以及服务器在机架上的分配 规划集群使用的网络,即决定使用网络的拓扑,节点到交换机的连接,机柜之间的连接 规划节点的 IP地址设置以及节点的角色,例如用以各个逻辑角色管理的节点,用以存储元数据的 NameNode,

    11、MapReduce程序的 JobTracker,管理节点等 Hadoop 确 保 用 于 构 建 集 群 的 所 有 的 服 务器 满 足 集 群 节 点 要 求 ( 包 括 硬 件要 求 、 软 件 要 求 和 网 络 要 求 。 )做 好 构 造 H a d o o p 集 群 的 规 划在 集 群 中 的 所 有节 点 上 安 装 需 要的 操 作 系 统安 装 H a d o o p参 数 配 置 进 行 系 统 安 装正 确 配 置 所 有 节点 的 R A I D 在规划中,除了选取硬件之外,还需要进行角色的规划 角色的规划即确定 Hadoop的某一个运行角色运行在哪个节点之上 与

    12、硬件推荐情况一致,首先需要确定集群的本身负载,针对小规模,中规模以及大规模集群有不同的集群规划方案 小规模测试集群不需要高可用性,无需NameNode的高可用性,将所有的头结点都配置到单个的节点中。配置方案: 头结 点 Head Node: NN+2NN+JT+ZK+HMaster 数 据节点 Data Node: DN+TT+RS, 在两个数据节点中部署 ZK+HMaster 保 证 ZK的数目为奇数 NN:NameNode, 2NN:SecondaryNameNode, JT:JobTracker, ZK: ZooKeeper, Hmaster: HBaseMaster, DN: Data

    13、Node, TT: TaskTracker, RS: HBase RegionServer 小规模生产需要高可用性,配置方案: 头结 点 Head Node: NN+JT+ZK+Hmaster 头结 点的副本 Backup Head Node: Backup NN+2NN+Backup JT+ZK+HMaster 数 据节点 Data Node: DN+TT+RS, 在 一 个数据节点中部署 ZK+HMaster 保 证 ZK的数目为奇数 NN:NameNode, 2NN:SecondaryNameNode, JT:JobTracker, ZK: ZooKeeper, Hmaster: HBa

    14、seMaster, DN: DataNode, TT: TaskTracker, RS: HBase RegionServer 大规模生产需要高可用性,配置方案: 单独的 NameNode节点: NN 单独的 JobTracker节点: JT+ZK+Hmaster NameNode的副本: backup NN+2NN+ZK+Hmaster JobTracker节点的副本: Backup JT+ZK+HMaster 数据节点 Data Node: DN+TT+RS, 在 一 个数据节点中部署 ZK+HMaster 保 证 ZK的数目为奇数 NN:NameNode, 2NN:SecondaryNameNode, JT:JobTracker, ZK: ZooKeeper, Hmaster: HBaseMaster, DN: DataNode, TT: TaskTracker, RS: HBase RegionServer

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:Hadoop集群规划.pdf
    链接地址:https://www.docduoduo.com/p-9526504.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开