收藏 分享(赏)

基于机群的高性能计算平台构建方案v4.0.doc

上传人:tangtianxu1 文档编号:3046449 上传时间:2018-10-02 格式:DOC 页数:36 大小:1.78MB
下载 相关 举报
基于机群的高性能计算平台构建方案v4.0.doc_第1页
第1页 / 共36页
基于机群的高性能计算平台构建方案v4.0.doc_第2页
第2页 / 共36页
基于机群的高性能计算平台构建方案v4.0.doc_第3页
第3页 / 共36页
基于机群的高性能计算平台构建方案v4.0.doc_第4页
第4页 / 共36页
基于机群的高性能计算平台构建方案v4.0.doc_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、基于机群的高性能计算平台构建方案- 1 -基于机群的高性能计算平台构建方案基于机群的高性能计算平台构建方案- 2 -目 录1 需求背景 41.1 CAE 技术简介 .41.2 CAE 对计算能力的需求 .41.3 CAE 当前面临的主要问题 .52 解决方案 72.1 并行计算基本原理 72.2 高性能计算环境 93 硬件的选购与配置 103.1 机群的硬件构成 113.2 典型的硬件配置 124 软件的安装与优化配置 124.1 系统及底层支持软件的安装、调试及优化 134.2 工程计算软件的安装、调试及优化 165 机群系统管理软件 175.1 机群系统管理软件开发的背景 175.2 目前

2、主流的解决方案介绍 175.2.1 HP CMU 185.2.2 Platform LSF HPC.195.3 自主研发的机群系统管理软件 CAS 介绍 205.3.1 完全基于 web 的操作方式 .225.3.2 实时资源使用状态监控 225.3.3 远程起停机群 235.3.4 可定制的管理模块 236 机群作业管理软件 236.1 机群作业管理软件开发的背景 236.2 目前主流的解决方案介绍 246.2.1 PBS (Portable Batch System) 246.2.2 LSF (Load Sharing Facility) 246.2.3 LOADLEVELER.256.2

3、.4 CONDOR.256.3 自主研发的机群作业管理软件 CAS 介绍 266.3.1 所见即所得的作业提交功能 266.3.2 齐全的任务操作及查看功能 276.3.3 图形与文本双重查看任务详情功能 286.3.4 根据需要编写的任务停止功能 306.3.5 独特的任务修改计算功能 316.3.6 其它大众功能简介 327 CAS 方案的优势 .327.1 无可比拟的易用性 337.2 精心设计的两级用户管理方案 337.3 细致入微的数据安全设计方案 348 CAS 方案的独家特点 .34基于机群的高性能计算平台构建方案- 3 -8.1 与工程计算软件的深度整合 348.2 完善严密的

4、数据和系统安全管理 348.3 完全基于 web 的界面技术 .358.4 动态的资源监控 358.5 可裁剪可定制的弹性系统架构 358.6 方便实用的两级用户管理方案 369 成功案例 36基于机群的高性能计算平台构建方案- 4 -1 需求背景1.1 CAE 技术简介计算机辅助工程技术(Computer Aided Engineering, CAE)已经成为解决当代工程计算包括工业产品的强度、刚度、屈曲稳定性、动力响应、热传导、弹塑性等力学性能以及性能的优化设计等问题的最核心技术和手段。自上个世纪60年代投入商业应用以来,其发展和应用一直与计算机技术以及包括航空发动机在内的实际工程和产品设

5、计的发展密不可分。CAE 的广泛应用使得工程和产品的设计水平发生了质的飞跃。经历了 40 多年的发展历史,CAE 理论和算法都经历了从蓬勃发展到日趋成熟的过程,现已成为工程和产品结构分析中(如航空、航天、机械、汽车、土木结构等领域)必不可少的数值计算工具,同时也是分析连续力学各类问题的一种重要手段。CAE的基本概念是将用理论计算无法实现的复杂分析对象(连续的无限自由度问题)离散成一系列“基元”(有限自由度问题),在此基础上构造一系列非常复杂的、相互关联的“方程组”来近似表达分析对象的内在本质,利用计算机的先进计算能力解算这些“方程组”以获得计算结果。目前的CAE技术不仅包括以有限元分析(FEA

6、)为核心的计算结构力学范畴,也包括计算流体力学(CFD)(包括计算热力学、计算化学等)、计算电磁学(CEM )等主要的学科领域。因此也出现了对应的两大CAE工程软件群:1)FEA有限元分析软件常见的商业FEA软件有ABAQUS、ANSYS、ADINA、MSC/NASTRAN、I-DEAS等。2)CFD流体动力学分析软件常见的商业CFD软件有Ansys-CFX、Fluent、Numeca、Star-CD、 Phoneics等1.2 CAE 对计算能力的需求随着现代科学技术的发展,人们正在不断建造更为快速的交通工具、更大规模的建筑物、更大跨度的桥梁、更大功率的发电机组和更为精密的机械设备,因此,C

7、AE的分析设计必须对现有的计算能力和存储能力提出了更高的要求,主要表现在: 需要处理更多的工程数据基于机群的高性能计算平台构建方案- 5 -现代勘探和测量技术的发展,使得在设计、生产或施工前后都能获得大量的数据,数据的及时有效处理能为后继的、生产或施工提供有力的指导; 要处理更大规模的问题为了提高分析精度,必须采用更精密的网格划分、模拟更加精细的结构,使得问题规模不断扩大;要完成更加困难的分析在分析中要考虑更多的影响因素,不仅要处理线性弹性问题,还要处理非线性、塑性、流变、损伤以及多物理场的耦合等,分析起来更加困难; 要进行更深层次的优化为了降低成本,提高经济效益,对设计要反复进行优化,而且优

8、化规模也与日俱增。1.3 CAE 当前面临的主要问题CAE对计算能力的需求给当前的计算机系统的计算能力和存储能力带来了日益严峻的挑战。计算速度太慢!网格量太大,内存不足,无法计算!如果您是CFD 或者是FEA工程师,您一定对此深有感触。CAE当前面临的主要问题具体说来表现为如下两个方面:1)、单机CPU计算速度无法满足要求CAE分析复杂度越高,单机所需的计算时间就越多。尽管CPU的计算速度按照摩尔定律不断增长,在某种程度上可以加速计算的效率。但CPU速度所提升的效能,远远不能满足工业界对分析速度与分析复杂度的要求。例如汽车关键零组件、纤维补强复合材料成型、精密光学零件等等。由图1可以看出,当网

9、格数达到一定数量的时候,计算时间过长,这在工程上是不可接受的。因此现有的单机一般来说无法完全满足工业界的需求。基于机群的高性能计算平台构建方案- 6 -0204060801001200 1000 2000 3000 4000 5000 6000网 格 数 (万 )计算100步需要时间(小时)系 列 1图 1 单机(SMP 机器)网格数的增长与计算时间的关系2)、单机内存无法满足要求以CFD计算为例,一般情况下,100万网格需要1G的内存,200万网格就需要2.2G内存,其增长速度不是线性的如图2所示。根据搞天气预报的同行提供,计算天气预报用到了超过5亿网格节点。而单机内存的增加受到系统硬件的限

10、制,同时受到操作系统的限制,例如单机一般只可以提供4-6个内存插槽,每条内存最大8G。Windows XP操作系统最大支持4G内存。0102030405060700 1000 2000 3000 4000 5000 6000网 格 数 (万 )所需要内存(G)理 想 状 态实 际 情 况图 2 网格数的增长与所需内存的关系基于机群的高性能计算平台构建方案- 7 -2 解决方案在工业上是否可以快速的分析大网格的 CAE 问题呢?答案是肯定的,就是采用高性能计算平台作为计算环境,并在此环境上采用并行计算。2.1 并行计算基本原理对于单机单内核计算,在内存与总线速度可以保障的情况下,CPU 的主频决

11、定了计算速度。想要提高速度,人们最初想到的办法是提高主频,但主频的提高目前已经达到生产工艺的极限,也就是说单核的运算能力是很有限的。人们很自然的想到把一个问题分解成几个问题进行。如图 3 所示:图 3 并行计算原理示意图列举一个简单的例子:A=B+C+D-E+F*G 可以转换为A=(B+C)+(D-E)+(F*G)假设有 3 台计算机,cn01,cn02,cn03,则可以首先由一台计算机 cn01 把原始任务分解,然后把分解后的 B+C 传给 cn01,D-E 传给 cn02,F*G 传给 cn03,当各节点把任务计算完毕后把结果传给 cn01,cn01 就只需要把 3 个结果相加就能得到最终

12、结果。通过例子可以看出,任务并行可以节省大量的时间,同时可以计算需要大内存的任务。基于机群的高性能计算平台构建方案- 8 -采用并行计算可以很好的解决在本文第 1 章中提到的问题,首先在计算速度上,采用并行计算明显加速,如图 4 所示:0501001502002503000 2 4 6 8 10121416182022242628303234cpu个 数计算时间(min)图 4 某问题在集群上计算时间与 cpu 个数的关系另外,对于大问题采用并行算法,分解问题本身,对于单机不需要过多的内存,对于需要大量内存的问题可以计算。对于一个典型的不规则区域,可以分解为如图 5 所示。图 5 一个典型的不

13、规则区域分解示例如果采用平分算法,则有:假如单个大问题需要 aM 内存,问题平分为 n份,则所分解的每个子问题所需要的内存 ,当 n 比较大时,单abi)5.12(机所需要的内存就会很小。基于机群的高性能计算平台构建方案- 9 -2.2 高性能计算环境所谓高性能计算环境简单说来就是由多个处理单元(简称 CPU)组成的系统,这些处理单元相互通信和协作,能快速高效求解高效大型复杂问题的系统。当前流行的高性能并行机体系结构包括 4 类,一是对称多处理共享存储并行机(SMP : Symmetric MultiProcessing) ,二是分布共享存储并行机(DSM :Distributed Share

14、d Memory) ,三是大规模并行机( MPP:Massively Parallel Processors) ,三是工作站(微机)机群(COW:Cluster Of Workstation、Beowulf PC-Cluster) 。对于这 4 类计算环境,目前都有应用,其性能比较如表 1 所示:表 1 各体系结构计算机比较项目体系 成本 通信延迟 可扩展性 最大总内核 可靠性SMP 适中 低 较差 32 差DSP 较高 较低 稍好 无限制 较好MPP 很高 较低 好 无限制 好COW 低 较高 很好 无限制 很好随着商用微处理器性能的飞速发展,低延迟、高带宽商用网络交换机的出现,和 LINU

15、X 操作系统等自由软件的成熟,并行计算机不再是一个只有大型科研单位才能拥有的设备。例如,将 128 台当前市场上最高性能的 Intel Pentium-III/800MHz 的微机通过 6 个 24 端口的 100Mbps 的网络交换机相互联接,即可构成浮点峰值性能在 1000 亿次左右的并行机,而其成本不超过 200 万元人民币,性能价格比远远高于以上提到的各类并行机(30 倍以上) ,国际上称该类自行研制的并行机为 Beowulf 机群。尽管微机机群在通信性能、稳定性和使用方便等方面有待大幅度提高,但是,它们以其他并行机无法比拟的性能价格比,近年来已经成为了高性能并行计算中的一支不可忽视的

16、重要力量。目前,在我国的各个大学和科研机构,例如中科院、北京大学、清华大学等,微机机群也得到了快速发展和推广应用。特别地,在 2000 年底的 Top 500 排名中,美国 Sandi 国家重点实验室自行研制的机群 Cplant 排名第 84 位。基于机群的高性能计算平台构建方案- 10 -图 6 Beowulf 微机机群示意图Beowulf 微机机群的体系结构如图 6 所示,多台高性能微机通过商用网络交换机相互联接,并拥有各自独立的操作系统、主板、内存、硬盘和其他 I/O设备,构成机群的计算结点。配置一台或多台文件服务器,一方面管理机群计算结点共享的所有软件和用户计算资源,另一方面充当机群与

17、外部网络的联接桥梁,外部科研网的用户只有通过文件服务器才能使用机群的计算资源。由于受商用交换机网络性能和操作系统功能的影响,Beowulf 微机机群的处理机规模一般限制在 100 台左右。但是,如果将交换机替换成专用机群网络,例如 GigaNet、Myrinet 等,则它们的规模可以进一步扩大。因此,在当前技术条件下,微机机群一般可提供千亿次左右的浮点峰值性能。3 硬件的选购与配置布置一个机群,硬件选型是一个系统工程,根据需要高性能计算的要求,机群硬件购置一般要考虑到任务量与价格两个因素。1) 、用户计算任务量的需求。在任何时候,用户任务量是主要需要考虑的,如果任务量不大,购买太多的硬件资源造

18、成资源浪费。任务量比较大,而购买太少的硬件又无法满足要求。2) 、价格因素。当然就任务量来说,硬件配置是越高越好,但是硬件配置越高,所需的资金也越多。这就需要和任务量在企业内部做一个权衡。另外从技术上来说,主要是机群的基本构成与基本成熟机群的选择,这也是本节要讨论的主要问题。微机 N微机微机微机微机 1文件服务器网络交换机 外部网络基于机群的高性能计算平台构建方案- 11 -3.1 机群的硬件构成图 7 一个典型的 Linux 机群系统如图 7 所示,一个典型的 Linux 机群包括以下硬件:1) 、多台微机或者工作站,每台机器都有自己独立的 CPU、内存、硬盘以及其它辅助设备。每台机器的配置

19、可高可低,主要依赖于公司物力财力2) 、高速内连网络,计算节点之间的网络对计算性能的影响很大,直接影响到计算速度与计算可靠性。一般说来,专用网络如Myrinet、QsNet、InfiniBand 其可靠性与计算速度上都比常规以太网要好,但是其造价也很高,往往是以太网的几十倍甚至上百倍。与此同时,随着交换式千兆高速以太网的迅猛发展,其性能虽然比专用网络有一定差距,但与专用网络相比,其价格低,性价比远高于专用网络。现在的企业版高性能平台,为了获取更高的性价比,一般选取常规的千兆以太网。3) 、NFS,PVFS 专用 I/O 高速存储设备,这对于高性能计算平台也是必须的,一般说来,选用高速硬盘就足够

20、,这里不做赘述。基于机群的高性能计算平台构建方案- 12 -3.2 典型的硬件配置表 2 推荐配置配置方式 管理节点与计算节点相同处理器 2*4 核 3.2GHz Xeon内存 32GB 内存硬盘 2*500GB SAS 硬盘网卡 1*10/100/1000Base-T机群规模 8 台网络交换设备 H3C S1208 8 端口交换机2008 年价格 76 万表 2 所示的是一个机群典型的硬件配置主要部件,在硬件配置中,具体如何选择,得具体问题具体分析。一般说来,硬件厂商会为您提供更为专业的咨询。4 软件的安装与优化配置只有硬件的电脑叫裸机,无论硬件性能如何优越,如果没有软件的支持,硬件就毫无用

21、处。本节主要从系统软件与计算软件两个方面介绍软件的安装。基于机群的高性能计算平台构建方案- 13 -4.1 系统及底层支持软件的安装、调试及优化系统软件的选择直接关系到平台使用的可用性,稳定性等方面。当前的系统软件有两个系列,windows 与 Linux,关于这两个操作系统的优劣评价已经争论了好几十年,而且以后还将不断的争论下去。到底哪个操作系统更优,不是我们要关心的话题。这里只给出一个事实,世界上 70%以上的高性能并行平台都安装的是 Linux 系统,其它的是 Unix,Sun 等,而 windows 系统的安装数量几乎可以忽略不计。为什么高性能并行计算平台几乎都采用 Linux 及其家

22、族的操作系统呢?这不是偶然的,我们从高性能并行计算技术的层面上分析主要有以下原因:1)、从计算效率看,Linux 系统优于 Windows。对于这个问题,如表 3 所示。表 3 用 CFX10.0 对同一问题计算到同一精度不同环境计算结果比较Cpu 类型 OS Cpu 数目(个) 计算时长(min)Intel(R) Xeon(TM) CPU 3.20GHz Windows XP 1 287Intel(R) Xeon(TM) CPU 3.20GHz Windows XP 2 147Intel(R) Xeon(TM) CPU 3.20GHz RHEL4UP2 1 230Intel(R) Xeon(

23、TM) CPU 3.20GHz RHEL4UP2 2 118通过无数类似的计算发现,windows 系统效率 Linux 低 20%左右。20%对于企业来说意味着办同样的事,多了 20%以上的开销(电费增加了20%,一般说来集群的功率都是很大的,还包括设备磨损费用,所以要大于 20%) ,并且计算工期延长 20%,这对于工期很紧的项目也是不可接受的。2)、从稳定性上看,Linux 同样优于 Windows。Windows 操作系统的稳定性从来就是让人头疼的一个问题,曾经有人做过比较,采用同样的集群,windows 作为计算平台,平均半个月就会死机一次,而 Linux 的时间是 1 年。显然 L

24、inux 的问题定性要比 Windows 好很多。如果使用 windows,这对企业的一些关键项目的计算上是不可接受的,而使用 Linux就可以放心计算。基于机群的高性能计算平台构建方案- 14 -3)、从价格上看,Linux 占绝对优势。Linux 是一个免费系统,任何人和企业都可以无偿获得并使用。而正版windows 的价格如表 4。表 4 WINDOWS 企业版目录表产品代码 产品名称 购买方式 市场价(人民币元)Windows Server 2003,企业版 P72-00265 Windows Server 2003 简体中文企业版 开放式许可 ¥39,946P72-00303 Win

25、dows Server 2003 简体中文企业版 2 年软件升级保障 ¥19,973P72-00301 Windows Server 2003 简体中文企业版 开放式许可2 年软件升级保障 ¥59,919为了计算的目的,Linux 系统安装完成后,必须为了高性能计算的目的搭建一个稳健、高效的环境,进行一系列的设置与优化,主要体现在以下几个方面:1) 、各计算节点之间 rsh、ssh 互无密码完全访问设置。rsh 是“remote shell” (远程 shell)的缩写。 该命令在指定的远程主机上启动一个 shell 并执行用户在 rsh 命令行中指定的命令。有余 rsh 的安全漏洞问题,再后

26、来就发明了 ssh,ssh 的英文全称是 Secure Shell。无论是 rsh 还是 ssh,在构建各节点的计算机群时,都必须创建相同的用户名密码,并行要能够相互无需密码自由获取资源。2) 、磁盘阵列 NFS 的搭建。NFS 是 Network File System 的简写,即网络文件系统。NFS 是 FreeBSD 支持的文件系统中的一种,也被称为 NFS. NFS 允许一个系统在网络上与它人共享目录和文件。通过使用 NFS,用户和程序可以象访问本地文件一样访问远端系统上的文件。NFS 本地工作站使用更少的磁盘空间,因为通常的数据可以存放在一台机器上而且可以通过网络访问到。用户不必在每

27、个网络上机器里头都有一个 home目录。Home 目录 可以被放在 NFS 服务器上并且在网络上处处可用。诸如软驱,CDROM 之类的存储设备可以在网络上面被别的机器使用。这可以减少整个网络上的可移动介质设备的数量。NFS 至少有两个主要部分:一台服务器和一台(或者更多)客户机。客户基于机群的高性能计算平台构建方案- 15 -机远程访问存放在服务器上的数据。为了正常工作,一些进程需要被配置并运行。NFS 有很多实际应用。比较常见有,多个机器共享一台 CDROM 或者其他设备。这对于在多台机器中安装软件来说更加便宜跟方便。在大型网络中,配置一台中心 NFS 服务器用来放置所有用户的 home 目

28、录可能会带来便利。这些目录能被输出到网络以便用户不管在哪台工作站上登录,总能得到相同的 home目录。几台机器可以有通用的/usr/ports/distfiles 目录。这样的话,当您需要在几台机器上安装 port 时,您可以无需在每台设备上下载而快速访问源码。3) 、MPI 本地化参数的调整。MPI 其全称为 Massage Passing Interface,是消息传递函数库的标准规范,由 MPI 论坛开发,支持 Fortran 和 C。MPI 是一种新的库描述,不是一种语言。共有上百个函数调用接口,在 Fortran 和 C 语言中可以直接对这些函数进行调用。MPI 是一种标准或规范的代

29、表,而不是特指某一个对它的具体实现。MPI是一种消息传递编程模型,并成为这种编程模型的代表和事实上的标准。目前几乎所有的并行计算程序都是基于 MPI 规范中的某一实现而编写的。如何使基于 MPI 的并行程序在机群上稳定高效的运行,需要根据机群硬件特点进行一系列参数调整,具体调整方法需要根据各软件的安装信息、硬件信息、MPI 信息等综合考虑,最后根据需要取得一个良好的折中。4) 、底层作业管理软件 Torque 的安装调试。目前的几十种机群作业管理系统,在目标、结构、功能和实现上各有差异,从不同侧面反映了机群作业管理系统所应具备的特性。PBS、 CONDOR、LSF、 LOADLEVELER 是

30、当今颇具代表性和影响力的几种机群作业管理系统。其中 PBS、CONDOR 是研究产品,LSF、LOADLEVELER是商业软件。PBS 最初由 NASA 的 Ames 研究中心开发,为了提供一个能满足异构计算网络需要的软件包,特别是满足高性能计算的需要。它力求提供对批处理的初始化和调度执行的控制,允许作业在不同主机间的路由。PBS 的独立的调度模块允许系统管理员定义资源和每个作业可使用的数量。调度模块存有各个可用的排队作业、运行作业和系统资源使用状况信息。使用它提供的TCL、 BACL、C 三种过程语言,它的调度策略可以很容易被修改,以适应不同的计算需要和目标,即系统管理员可以方便地实现自己的

31、调度策略。PBS 的主要特点有:代码开放,免费获取;支持批处理、交互式作业和串行、多种并行作业,如 MPI、PVM 、HPF 、MPL;提供 TCL、BACL、C 三种过程语言,容易实现新的调度策略;提供文件传送功能,File Stage-in 和 Stage-out;满足 POSIX1003.2d 标准;支持作业依赖;自动的负载平衡;完整的安全认证;提供了完整的 API,方便新的调度器的开发;提供用户影像功能,使基于机群的高性能计算平台构建方案- 16 -PBS 能用于用户不一致的系统中。PBS 的目前包括 openPBS,PBS Pro 和 Torque 三个主要分支。其中OpenPBS

32、是最早的 PBS 系统,目前已经没有太多后续开发, PBS pro 是 PBS 的商业版本,功能最为丰富。Torque 是 Clustering 公司接过了 OpenPBS,并给与后续支持的一个开源版本。4.2 工程计算软件的安装、调试及优化当安装完成系统软件以及各种支持软件后,下一步需要安装的就是各种工程计算软件,包括常见的商业FEA软件有ABAQUS、ANSYS、ADINA、MSC/NASTRAN、I-DEAS等,常见的商业CFD软件有Ansys-CFX、Fluent 、Numeca 、Star-CD、 Phoneics等。工程计算软件一般都是商业软件,当然也有免费开源软件,不过开源软件很

33、小在工程上投入实际使用。商业软件一般都采用 flexlm 作为 License 管理工具(至少我上面提到的几种最常用的工程软件都采用这种管理方式) 。FLEXlm 是应用广泛的 License 管理工具,它以使软件 License 能够在网上浮动而出名。浮动的 License 有利于软件的使用和对 License 的管理,这使得用户能够高效地使用有效的许可,并使管理者能够控制允许使用它的节点。由于有大约 1500 厂商使用 FLEXle 管理 LICENSE,所以工程软件系统管理人员极有可能要同时安装和管理来自不同厂商的 License 或同一厂商多个产品的License 文件。各工程软件的安

34、装过程大同小异,下面就以 Numeca 为例简要阐述一下其安装过程。第一步:获取 Linux 版本所需要的商业软件。Linux 是一个成熟而开放的操作系统,当前比较流行的工程计算软件几乎都是首先在 Linux(UNIX)上开发的,然后才考虑是否移植到其它操作系统,所以找软件开发商获取一份 Linux 的拷贝应该不是一件很困难的事情。以 Numeca为例,Numeca 一般就包含 Linux 系列版本与 Windows 版本。第二步:仔细阅读安装说明在软件包中,一般都包含有一个名字叫以 installation 开始的文件,以Numeca 为例,叫 installation_note_fine_

35、turbo_design_7.1-1_UNIX-bookmark-Acrov5.pdf。一般说来分成系统需求,安装及环境变量设置,License 安装,并行环境安装,卸载以及常见问题这几大部分。基于机群的高性能计算平台构建方案- 17 -第三步:根据说明书要求尝试安装及测试算例计算当安装说明书理解透彻后,安装就会水到渠成。当安装完毕,一定要进行算例的测试,因为在安装过程中,或许会引入这样或者那样的错误。第四步:调整并行环境,并优化并行参数这一步是安装过程最重要的一步,根据硬件的不同,软件所需要不同环境变量以达到最佳值。5 机群系统管理软件机群的系统管理与机群作业管理系统具有同等重要的地位,侧重

36、于监测与控制机群系统中各种硬件资源与系统状况。5.1 机群系统管理软件开发的背景当机群硬件构建完成,而且各种系统软件与工程计算软件安装调试完毕,从理论上来说,机群就已经可用。这时,机群系统就可以为您提供很强的计算能力,用户就可以通过高速宽带网(或者是公司一般常规局域网)远程使用这些高性能计算资源。但是如果没有高效方便的机群管理软件的支持,机群系统的性能就不能有效地发挥出来:一个机群,需要专业的 Linux 系统管理人员担任系统管理员,以管理高性能计算系统中各种硬件资源,这个系统管理员不仅需要 Linux 系统管理的知识,而且需要高性能计算软件的知识。对于工程计算人员来说,这是比较困难的,于是最

37、直接的想法是,把一些系统管理的常规操作都放入一个软件中,用一个软件来管理计算机群中的各种硬件及系统资源。于是机群管理软件就在这样的背景下产生了。5.2 目前主流的解决方案介绍基于机群的高性能计算平台构建方案- 18 -图 8 机群系统构架在机群的发展之初,人们就开始开发机群管理软件,发展至今,已经有很多开源软件和商业软件。目前集群管理工具包括 OSCAR (System Imager)、ROCKS、Perceus 和 xCAT 2 等,它们都是开放源码的,这几个软件包除了xCAT 外,都侧重于机群安装。如果单从集群管理上看,IBM CSM、xCAT 与Mon 不相上下。但这些都不是我们要介绍的

38、重点,这里要重点介绍的是两个大公司著名的集群管理软件,一个是惠普的 CMU,另一个是 Platform LSF。5.2.1 HP CMU为了有效的管理 HP Cluster 计算集群系统,管理节点配置了管理能力很强的管理软件 CMU(Cluster Management Utility)。CMU 是一个非常出色的Beowulf 集群系统环境下的管理软件,它负责系统的诊断、软件安装、性能监控、系统的克隆(Cloning)和事件的分析与管理。通过使用 CMU 友好的用户界面,集群管理将变得更加高效。CMU 也将通过减少相关的管理任务,使 HP Cluster 计算集群成为一个经济高效的解决方案。C

39、MU 使用了 RILOE 板或集成iLO 的特性,使得所有计算节点的远程文本控制台在服务器的所有状态下(设置、启动、OS 或暂停)均可使用。通过 CMU 管理程序,Cluster 集群系统管理员可以远程控制服务器电源,而无论服务器处于何种状态(即使服务器关机) 。另外,通过 CMU 还可进行远程 BIOS 设置。基于机群的高性能计算平台构建方案- 19 -图 9 HP 集群管理软件 CMU 原理图CMU 还具有将一个系统配置向集群中的所有计算节点传播的功能。CMU可以通过网络将一个映像服务器的磁盘分区内容克隆到计算节点本地磁盘中。这可用于计算节点的首次安装,以及向核心或当前系统配置传播更新内容

40、等。在目标分区与初始映像不同的情况下,CMU 则会重点考虑目标磁盘分区。CMU 在克隆阶段对目标磁盘进行分区,避免了在初次安装期间对各个计算节点进行分区。集群管理实用程序(CMU)可以有效地管理大量计算节点。CMU 带有图形用户界面(GUI) ,可以根据需要和集群中任意数量的节点进行定制。借助CMU,只需在单一显示屏上单击鼠标即可访问所有的计算节点控制台。CMU主窗口可通过访问配置显示界面来设置控制台服务器硬件。 通过 CMU,可以监控、暂停、启动、重启或关闭选定的任何节点。还可以连接到集群中的多个节点,并通过一次键盘输入以广播的方式向其发出命令。CMU 也可以管理来自集群的事件,如节点的增加

41、或减少等。但是 HP 也有其致命的缺点,第一是基于 JAVA 的,效率比较低,另一个是不能 web 监控,同时在 windows 不能操作,限制了其应用。5.2.2 Platform LSF HPCPlatform LSF HPC 是由 Platform 公司研发的一款管理机群资源与作业调度的软件,Platform LSF HPC 的核心是 Platform Enterprise Grid Orchestrator (EGO), 它是第一个,也是迄今唯一一个具有虚拟化和自动化功能,并且能够在所有类应用程序之间共享所有 IT 资源的网格平台。 Platform EGO 提供了灵活的、模块式的方法

42、,能够把所有类型的企业应用程序汇总到一个单一的、连贯的、高效的系统中。Platform EGO 能够把资源管理和负载管理分离开,从而根据企业的商业战略对资源进行有效的分配,优先级调度和管理。这样一来,企业就可以实现向上扩展和向外扩展,并提升应用程序的性能,改善资源利用情况,促基于机群的高性能计算平台构建方案- 20 -进整体 SLA 管理。Platform EGO 为带有数百到数万个 CPU 的企业提供了过去的 13 年所积累的先进的网格技术。Platform LSF HPC 以智能方式对并行和串行负载进行排程,以便克服主要困难,并最大限度地利用计算资源。Platform LSF HPC 是经

43、过业界验证的方案。目前在世界上顶尖的 10 台超级计算机中,就有若干台运行该方案。Platform LSF HPC 带有专利待决功能和基于拓扑的排程功能,可以帮助您充分利用集群系统和超级计算机中的高性能网络互连。Platform LSF HPC 是一整套的解决方案,如图 10 所示:图 10 Platform LSF 软件系统体系结构Platform LSF HPC 虽然有比较好的机群管理方案,但它的系统是一个整体,部署一套 Platform LSF 价格不菲。5.3 自主研发的机群系统管理软件 CAS 介绍我们自主研发的系统 CAS(Cluster Admin System),我们称我们的机

44、群管理为系统(System),而不是软件 Software,因为我们的管理系统从本质上来说是由一系列系统管理软件与作业管理软件组成的系统,不管是软件还是系统,以下都统一简称为 CAS。CAS 系统采用模块化的组成方式,在后台存在一系列的工具软件,然后通过 php 服务器脚本集成到一个界面中。CAS 针对的集群构架如图 11 所示:基于机群的高性能计算平台构建方案- 21 -图 11 CAS 系统所针对的基本系 统构架图 12 CAS 集群管理软件基本构架基于机群的高性能计算平台构建方案- 22 -与 LSF 一样,CAS 所采用的也是模块化的方式,对于每个对应的功能,都有单独的模块与之相对应,

45、用户只需要点击相应按钮,即可得到其所需要的结果。具体而言,CAS 具有以下特点与功能:5.3.1 完全基于 web 的操作方式在 HP CMU 与 LSF 中,关键的控制还是应用 SSH 或者别的工具进行远程登录,然后进行相关操作。这样就要求管理人员具有良好的 Linux 使用基础,而且容易误操作。CAS 系统把常规的操作都通过 web 页面显示,然后点击页面上的按钮或者填写表单的形式进行。从而大大降低了操作的难度。真正做到了集群管理的“所见即所得”理念。如图 13 所示,如需查看某机器的内存状态,只需点击左边的“内存状态”功能按钮,在右边就会有相应的执行结果显示。图 13 显示某机器的内存使

46、用状态5.3.2 实时资源使用状态监控在 CAS 的底层,对应有很多的资源监控模块,实时监控着各种资源的动态使用情况,例如 CPU 利用率,内存利用率,网络流量,硬盘利用率等。CAS 在监控中的优势在于自身所占资源少,并且监控到的信息量比较大。在很多的监控中,监控软件直接处理为所需要的结果保存。这样在中间就需要基于机群的高性能计算平台构建方案- 23 -大量的 CPU 时间。CAS 所采用的策略是,先把监控的信息用比较少的 CPU 时间存为一个中间结果,只有在查看或者要报表调用时才处理成最终图片格式。5.3.3 远程起停机群当机群中的某台机器出现故障,维护等,需要停止、重启、启动等操作,CAS

47、 中有相应的模块。停机与重启比较简单,用一个命令即可。启动过程需要硬件的支持。但是当机器已经严重故障,不接受指令时,就需要特殊的硬件支持即可。5.3.4 可定制的管理模块作为常规管理,作为高性能机群管理,我们常规的模块都能基本满足要求。但是每个公司都有每个公司自己的习惯与行情,故每个公司在机群管理上也许有特殊的要求,我们也可以根据具体需求定制新的功能模块,加入原系统即可。由于功能之间是分开的,新加的模块不会影响原始模块。6 机群作业管理软件机群作业管理软件,是机群管理的核心。机群作业管理软件,其目的简单说来就是提交作业的软件,对于每个作业管理系统,都有一个总体的目标:利用大家熟悉简单方便快捷的

48、图形管理方式提交并执行作业,对于计算机到底如何提交执行的底层过程我们不必关心。对于提交流程,要求直观简单,安全。6.1 机群作业管理软件开发的背景当机群硬件构建完成,而且各种系统软件与工程计算软件安装调试完毕,并且具有硬件管理的能力。从理论上说,机群系统提议提供很强的计算能力,用户可以通过高速宽带网远程或者本地使用这些高性能计算资源。但是如果没基于机群的高性能计算平台构建方案- 24 -有高效方便的应用软件支持,机群系统的性能就不能有效的发挥出来。机群系统中的一个重要的基础软件就是用于管理用户提交作业的作业管理软件,如果没有这种软件,系统资源的管理将会杂乱无章,各类资源不能有效的利用起来,用户

49、之间的作业也可能会发生冲突,最终可能会造成谁都想用但谁都用不好的局面。因此,提供一个界面友善、操作简便、运行高效的作业管理系统是很有必要的。于是机群作业软件就在这样的背景下产生了。6.2 目前主流的解决方案介绍目前的几十种机群作业管理系统,在目标、结构、功能和实现上各有差异,从不同侧面反映了机群作业管理系统所应具有的特性。PBS、 CONDOR、LSF、 LOADLEVELER 是当今颇具代表性和影响力的几种机群作业管理系统。其中 PBS、CONDOR 是研究产品,LSF、LOADLEVELER是商业软件。下面,我们对这几种作业管理系统进行简单介绍和讨论。6.2.1 PBS (Portable Batch System)PBS 最初由 NASA 的 Ames 研究中心研发,为了提供一个能满足异构计算网络需要的软件包,特别是满足高性能计算的需要。他力求提供对批处理的初始化和调度执行的控制,允许作业在不同主机间的路由。PBS 的独立的调度模块允许系统管理员定义资源和每个作业可使用的数量。调度模块存有各个可用的排队作业、运行作业和系统资源使用状况信息。使用他提供的TCL、 BACL、C 三种过程语言,他的调度策略能非常容易被修改,以适应不同的计算需要和目标,即系统管理员能方便地实现自己的调度策略。PBS 的主要特点有:代码开放,免费获取;支持批处理、交互式作业和串行、多种并行

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 专业基础教材

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报