Hadoop集群规划.pdf

上传人：精品资料

文档编号：9526504

上传时间：2019-08-12

格式：PDF

页数：24

大小：1.22MB

下载提示：本站仅提供存储空间/不修改/不编辑

1.请仔细阅读文档，确保文档完整性，对于不预览、不比对内容而直接下载带来的问题本站不予受理。
2.下载的文档，不会出现我们的网址水印。
3、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

文档包含非法信息？点此举报后获取现金奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 文币 0人已下载

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: Hadoop集群规划.pdf

资源描述：: 1、标准的 x86的服务器以太网络多机架数据中心软件环境硬件的选择（处理器，硬盘，网络） H a d o o p 集群H D F SM a p R e d u c eH B a s e H i v e 管理节点节点 1节点 2节点 3节点 N H D F S 客户端M a p R e d u c e 客户端H B a s e 客户端H i v e 客户端角色描述节点数目 HDFS NameNode 分布式文件系统用以存储文件系统以及数据块的元数据 1个独立节点 HDFS Secondary NameNode NameNode的影子节点小规模集
2、群可以和NameNode共享节点，大规模集群用独立节点 HDFS DataNode HDFS数据存储多个独立节点 MapReduce JobTracker MapReduce调度程序 1个独立节点，小规模集群可以与 NameNode共享，大规模集群使用独立节点 MapReduce TaskTracker MapReduce实际计算节点与 DataNode运行在相同的节点之上 Hive Hive元数据以及驱动程序独立配置的话可以与NameNode共享节点，或者将元数据存放在客户端角色描述节点数目 ZooKeeper 用以提供集群高可用性的锁服务 3个或 3个以上的奇数的独立节点（小规
3、模可以和其它角色共享节点） HBase HMaster HBase用以调度RegionServer的主模块与其它角色共享节点的多个节点 HBase RegionServer HBase中用以管理数据的模块一般与 DataNode运行与相同的节点之上 Management Node 可能的集群监控管理节点一般为一个独立的节点，如果小规模集群的话可以与其它角色共享 HadoopHadoop IO 服务器角色及服务类型内存要求 MapReduce Job Tracker 2GB MapReduce Task Tracker 2GB MapReduce Slots on Task Tracke
4、r 512MB * slot数量 HDFS NameNode 16GB HDFS Secondary NameNode 16GB HDFS DataNode 2GB ZooKeeper 4GB HBase Master Server 2GB HBase Region Server 16GB Hive Server 2GB 客户端 8GB 4 16GB HDFS DataNode, MapReduce TaskTracker HBase Region Server slot map slots reduce slots 162GB + 2GB + 512MB*16 + 16GB = 28GB H
5、Base JBOD vs. RAID RAID RAIDRAID 0 + +MapReduce 典型使用以太网络，为了使得系统能够正常运行，最低使用千兆以太网连接，由于需要有数据交换的需求，建议配置大容量的网络交换机当一台机器上有多个网络适配器时，推荐使用网络适配器绑定 Linux的方法配置链路聚合，并把工作模式设为 6。在工作模式为 6时，负载平衡可以通过循环取得，并且这些网络适配器可以在没有配置交换器的情况下正常工作千兆以太网接口是最基本的要求，更重要的是交换机的背板带宽，是决定数据传输的关键因素一个以太网交换机的接口是以太网交换机到主机的速度，这个速度决定主机到
6、交换机的速度级别，在 Hadoop环境中，这个速度最少应该是千兆以太网接口速度即使达到了千兆以太网，实际的运行速度可能并不能真正达到千兆以太网的速度，因为可能有数十个设备同时共享这个交换机决定交换机的性能的关键因素是交换机的背板带宽，具有良好背板交换能力的交换机能够使得任意两个接口之间的速度以及上行的速度都能够达到千兆的速度，而通过总线进行共享的带宽往往不能达到理想的速度为了能够使得 Hadoop的处理能力能够得到充分的释放，交换机对于系统运行的性能起到了决定性的左右，建议在可能的情况下尽量选择高端的交换机，使得每一个接口都能够达到线速（网线能够达到什么速度，交换机就能够提供什么速
7、度，没有性能损失）最常见的是使用服务器本身的万兆以太网络，每一个机架使用一个交换机，在多个机架之间进行带宽聚合。这种方式在总的节点数目较少（少于 40个）集群比较合适如果应用（例如 ETL的应用）的 IO高负载，这样的话，网络会成为性能瓶颈 12块以上的硬盘，每块以 100MB/s速度运行，会很快吃掉所有网络带宽低端的交换器不能够支持线速，产生阻塞提高网络速度最直接的办法是通过端口绑定，将服务器的多个端口绑定为一个 IP ip Linux 10GBE 3 10 Hadoop HBase InfiniBand InifiBand InfiniBand 10G 20G 40G 410
8、个节点，解决较小规模问题项目指标处理器 CPU 双路四核服务器处理器， 2x4 2.6GHz 内存 32G或者以上内存， DDR3， ECC 磁盘接口 SAS 6GB/s 磁盘 6x或者 12x SATA 1T 7200RPM监控级硬盘网络两个以太网口 20+个节点，解决中等规模问题，实际上能够满足大多数中小企业的需求项目指标处理器 CPU 双路六核服务器处理器，处理器缓存15MB， 2x6 2.9GHz 内存 64G或者以上内存， DDR3， ECC 磁盘接口 SAS 6GB/s 磁盘 6x或者 12x SATA 1T或者 3T 7200RPM监控级硬盘（依据数据规模而定）
9、网络两个以太网口依据问题规模确定所需要的节点数目，解决大规模问题，使用高端的内存，高速网络项目指标处理器 CPU 双路六核服务器处理器，处理器缓存15MB， 2x6 2.9GHz，依据应用可以选用更高端的处理器内存 96G或者以上内存， DDR3， ECC 磁盘接口 2xSAS 6GB/s 磁盘 24x 1TB 告诉 SAS硬盘网络 10Gb以太网口高端网络可以考虑使用 InifinBand网络支持的操作系统为 Linux，要求 64位系统，版本至少 6以上。包括： RedHat Enterprise Linux CentOS Oracle Linux 软件依赖
10、： Java 1.6 openssh 在把服务器加入集群前，须要确保 openssh-server在运行。如果openssh-server没有在运行，在 Hadoop集群中的所有节点中安装openssh-server包。规划使用 Hadoop的组件，这些组件包括 HDFS，MapReduce， Hive， HA组件等规划集群的硬件参数，包括服务器数量，物理布局，机架数目以及服务器在机架上的分配规划集群使用的网络，即决定使用网络的拓扑，节点到交换机的连接，机柜之间的连接规划节点的 IP地址设置以及节点的角色，例如用以各个逻辑角色管理的节点，用以存储元数据的 NameNode，
11、MapReduce程序的 JobTracker，管理节点等 Hadoop 确保用于构建集群的所有的服务器满足集群节点要求 ( 包括硬件要求、软件要求和网络要求。 )做好构造 H a d o o p 集群的规划在集群中的所有节点上安装需要的操作系统安装 H a d o o p参数配置进行系统安装正确配置所有节点的 R A I D 在规划中，除了选取硬件之外，还需要进行角色的规划角色的规划即确定 Hadoop的某一个运行角色运行在哪个节点之上与
12、硬件推荐情况一致，首先需要确定集群的本身负载，针对小规模，中规模以及大规模集群有不同的集群规划方案小规模测试集群不需要高可用性，无需NameNode的高可用性，将所有的头结点都配置到单个的节点中。配置方案：头结点 Head Node： NN+2NN+JT+ZK+HMaster 数据节点 Data Node： DN+TT+RS, 在两个数据节点中部署 ZK+HMaster 保证 ZK的数目为奇数 NN:NameNode， 2NN:SecondaryNameNode, JT:JobTracker, ZK: ZooKeeper, Hmaster: HBaseMaster, DN: Data
13、Node, TT: TaskTracker, RS: HBase RegionServer 小规模生产需要高可用性，配置方案：头结点 Head Node： NN+JT+ZK+Hmaster 头结点的副本 Backup Head Node： Backup NN+2NN+Backup JT+ZK+HMaster 数据节点 Data Node： DN+TT+RS, 在一个数据节点中部署 ZK+HMaster 保证 ZK的数目为奇数 NN:NameNode， 2NN:SecondaryNameNode, JT:JobTracker, ZK: ZooKeeper, Hmaster: HBa
14、seMaster, DN: DataNode, TT: TaskTracker, RS: HBase RegionServer 大规模生产需要高可用性，配置方案：单独的 NameNode节点： NN 单独的 JobTracker节点： JT+ZK+Hmaster NameNode的副本： backup NN+2NN+ZK+Hmaster JobTracker节点的副本： Backup JT+ZK+HMaster 数据节点 Data Node： DN+TT+RS, 在一个数据节点中部署 ZK+HMaster 保证 ZK的数目为奇数 NN:NameNode， 2NN:SecondaryNameNode, JT:JobTracker, ZK: ZooKeeper, Hmaster: HBaseMaster, DN: DataNode, TT: TaskTracker, RS: HBase RegionServer

展开阅读全文

道客多多所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：Hadoop集群规划.pdf
链接地址：https://www.docduoduo.com/p-9526504.html