收藏 分享(赏)

高性能集群作业调度系统.ppt

上传人:精品资料 文档编号:9434801 上传时间:2019-08-07 格式:PPT 页数:83 大小:2.59MB
下载 相关 举报
高性能集群作业调度系统.ppt_第1页
第1页 / 共83页
高性能集群作业调度系统.ppt_第2页
第2页 / 共83页
高性能集群作业调度系统.ppt_第3页
第3页 / 共83页
高性能集群作业调度系统.ppt_第4页
第4页 / 共83页
高性能集群作业调度系统.ppt_第5页
第5页 / 共83页
点击查看更多>>
资源描述

1、高性能集群作业调度系统,曙光信息产业股份有限公司,提纲,作业调度系统概述 PBS作业调度系统 Maui调度器 曙光Gridview作业调度中间件 Q&A,1. 1 集群使用中存在的问题,系统资源整合 异构资源,软硬件资源的整合任务综合管理 用户提交的任务的统一安排用户权限的管理 对用户进行各类权限控制,1.2 作业调度系统的功能,资源管理器:管理集群的软硬件资源及认证信息等队列管理器:管理当前所有已提交但还未完成的作业调度器:为作业分配资源,1.3 作业调度系统的组成,作业调度系统的结构,1.3 作业调度系统的组成,1.4 作业调度系统的发展历史,提纲,作业调度系统概述 PBS作业调度系统 M

2、aui调度器 曙光Gridview作业调度中间件 Q&A,PBS(Portable Batch System), 最初由NASA的Ames研究中心开发,设计为一个能满足异构计算网络需要的软件包。它力求提供对批处理的初始化和调度执行的控制,允许作业在不同主机间的路由。PBS的开源版本为OpenPBS,目前已经停止开发。PBS的商业版为PBS Pro,由Altair公司开发和维护。TORQUE( Tera-scale Open-source Resource and Queue manager )为 OpenPBS的后续开源版本,修正了OpenPBS的很多bug,功能和可扩展性都有很大提高。,2.

3、1 PBS作业调度系统,服务器: pbs_server 调度器: pbs_sched 执行器: pbs_mom,2.2 PBS的组成,解压源文件包 tar zxvf torque-2.5.12.tar.gz 编译设置 cd torque-2.5.12./configure -prefix= /usr/local -with-server-home= /var/spool/torque -enable-syslog -with-scp -enable-docs默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。其余的配置文件和运行时环境将安装

4、在/var/spool/torque下编译和安装makemake install,2.3 PBS的安装(Torque Server端),节点操作系统相同,可以用如下SHELL脚本在计算节点(torque客户端)上安装,2.3 PBS的安装(Torque Client端),以root作为torque的管理员账号创建作业队列在torque的安装源文件根目录中,执行./torque.setup rootServer配置目录 /var/spool/torque/server_priv/计算节点列表及属性:/var/spool/torque/server_priv/nodesnode2 np=12 am

5、d chemnode3 np=12 amd chemnode4 np=8 intel chemnode5 np=8 intel chemnode6 np=4 intel bio gpunode7 np=4 intel bio gpu,2.3 PBS Server配置,Server的系统启动脚本 /etc/init.d/pbs_server Scheduler系统启动脚本 /etc/init.d/pbs_sched Mom系统启动脚本 /etc/init.d/pbs_momTorque服务端chkconfig pbs_server onchkconfig pbs_sched onservice

6、pbs_server startservice pbs_sched startTorque客户端chkconfig pbs_mom onservice pbs_mom start,2.3 PBS系统服务,2.4 PBS主要操作,队列设置,节点查看,提交作业,查看作业,作业其他操作,PBS要能正常运行还需要通过qmgr命令在server进行配置,设置一些属性。输入qmgr命令进入配置交互命令,格式为qmgr动作对象类型和操作符,2.4.1 PBS的队列设置,2.4.1 PBS的队列设置,下面是让PBS可以正常运行的基本设置,导入server配置文件qmgr queue.conf 配置文件例子,2

7、.4.1 PBS的队列设置,资源和用户限制,2.4.1 PBS的队列设置,2.4.2 PBS查看节点状态,pbsnodes命令的主要参数-a 列出所有结点及其属性,属性包括“state”和“status”-o 将指定结点的状态标记为“offline”。这将帮助管理员暂时停止某些结点的服务-l 以行的方式列出被标记的结点的状态,如 -l free,-l offline-c 清除结点列表中的“offline”或“down”状态设置,使结点可以被分配给作业-r 清除指定结点的“offline”状态,2.4.2 PBS查看节点状态,步骤:准备:编写描述该作业的脚本,包括作业名,需要的资源等。 提交:使

8、用qsub命令将该作业提交给PBS服务器 排队:服务器将该任务排入适当的队列 调度:服务器检查各工作节点的状态是否符合该作业的要求,并进行调度。 执行:当条件满足时,作业被发给相应的执行服务器执行。程序运行时执行服务器会收集程序的标准输出和标准错误流,等程序结束时,将这些信息返回给用户。 查询和调整:当作业在运行时,用户可以使用qstat进行状态查询。用户发现作业提交错误时,可以使用qdel删除正在运行的作业。 查看结果:使用文本编辑软件vi或者系统命令cat, less等查看输出及错误信息显示。,2.4.3 PBS作业提交,在PBS系统中,用户使用 qsub 命令提交用户程序。用户运行程序的

9、命令及PBS环境变量设置组成PBS作业脚本,如下,2.4.3 PBS作业提交基本命令,作业脚本使用如下格式提交到PBS系统运行,运行参数在 PBS 脚本和 qsub 命令行中均有效,qsub命令行参数的优先级更高,2.4.3 PBS 运行参数,2.4.3 PBS 环境变量,2.4.3 PBS 脚本举例,一些软件有特殊的节点指定格式,比如ANSYS的命令行参数格式为:ansys121 -dis -machines node1:2:node2:2 -i test.inp -o test.log这时我们可以对 $PBS_NODEFILE 进行字符处理,得到需要的格式,2.4.3 PBS 脚本举例,2

10、.4.4 PBS 查看作业状态,注:用户只能删除自己的作业,管理员可以删除所有用户作业,2.4.5 PBS 作业其他操作,删除作业,作业挂起及取消,2.4.5 PBS 作业其他操作,更改作业,2.4.5 PBS 作业其他操作,交换作业顺序,2.4.5 PBS 作业其他操作,2.4.5 PBS 作业其他操作,PBS脚本中可以指定多个作业之间的依赖关系,比如作业提交前另一个作业必须完成,否则处于排队状态,当指定作业非正常结束,作业才能提交运行,作业调度系统概述 PBS作业调度系统 Maui调度器 曙光Gridview作业调度中间件 Q&A,提纲,Torque带有自己的默认调度策略器(pbs_sch

11、ed),但是这个最基本的调度策略并不高级。它根据fifo的原则安排作业,对一般的集群管理应该是足够了,但如果你的集群有几百个以上节点,分成若干个队列,那pbs_sched就力不从心了。为此,可以使用一系列第三方的调度策略进行补充。Maui就是被广泛使用的调度策略之一。,3.1 Maui调度器介绍,3.1 Maui调度器介绍,Maui采用积极的调度策略优化资源的利用和减少作业的响应时间。 Maui的资源和负载管理允许高级的参数配置:作业优先级(Job Priority)、调度和分配(Scheduling and Allocation)、公平性和公平共享(Fairness and Fairshar

12、e)和预留策略(Reservation Policy)。Maui的QoS机制允许资源和服务的直接传递、策略解除(Policy Exemption)和指定特征的受限访问。Maui需要资源管理器和其配合使用。我们可以把Maui想象为PBS中的一个插入部件。,集群已安装配置好Torque解压源文件包 tar zxvf maui-3.2.6p17.tar.gz 编译设置 cd maui-3.2.6p17./configure -with-pbs=/usr/local-with-pbs指定Torque安装目录编译和安装 make make install,3.1 Maui安装(Server),编辑启动脚

13、本cd maui-3.2.6p17cp etc/maui.d /etc/init.d/vim /etc/init.d/maui.d修改其中的” MAUI_PREFIX=/usr/local/maui”(maui的安装目录)停用pbs_sched,启用mauichkconfig pbs_sched offchkconfig maui.d onservice pbs_sched stopservice maui.d start,3.1 Maui安装(Server),Maui的配置参数都写在配置文件maui.cfg中,配置参数可以参考官方手册Maui Administrators Guide主要参数

14、如下:vim maui.cfg# 设置Maui服务器主机名 SERVERHOST server# 一级权限用户,拥有Maui所有控制权限,包括更改调度策略,更改作业属性ADMIN1 root# 二级权限用户,不能更改调度策略,但能更改作业属性ADMIN2 zhang wang zhao# 三级权限用户,只有查看权限,ALL表示所有账户ADMIN3 ALL,3.2 Maui配置,# 定义资源管理器(Resource Manager),指定类型为PBS,以及Torque服务器主机名,刷新资源信息的时间,端口号RMCFG0 TYPE=PBS HOST=server RMPOLLINTERVAL 00

15、:00:30 SERVERPORT 42559 SERVERMODE NORMAL# 日志设置LOGFILE maui.log LOGFILEMAXSIZE 10000000 LOGLEVEL 3,3.2 Maui配置,#设置Fair share策略#FSPOLICY PSDEDICATED #FSDEPTH 7 #FSINTERVAL 86400 #FSDECAY 0.80 #设置回填(Backfill)策略 BACKFILLPOLICY FIRSTFIT RESERVATIONPOLICY CURRENTHIGHEST #节点分配策略#NODEALLOCATIONPOLICY MINRES

16、OURCE #NODEALLOCATIONPOLICY CPULOAD#NODEALLOCATIONPOLICY SHARED NODEALLOCATIONPOLICY FIRSTAVAILABLE,3.2 Maui配置,# QOS配置QOSCFGpreemptor QFLAGS=PREEMPTOR QOSCFGpreemptee QFLAGS=PREEMPTEECLASSCFGhigh PRIORITY=11000 QDEF=preemptorCLASSCFGlow PRIORITY=6000 QDEF=preempteeCLASSCFGmiddle PRIORITY=9000 QDEF=p

17、reemptee #用户优先级设置USERCFGroot MAXPROC=400 MAXNODE=100 MAXJOB=100USERCFGtest PRIORITY=100 MAXPROC=200 MAXJOB=10USERCFGDEFAULT PRIORITY=100 MAXPROC=100 MAXJOB=4,3.2 Maui配置,作业调度系统概述 PBS作业调度系统 Maui调度器 曙光Gridview作业调度中间件 Q&A,提纲,4 曙光Gridview作业调度中间件,介绍,功能,中间件应用,使用方法,作业调度中间件结构图,4.1 曙光Gridview作业调度中间件,强大的资源管理,4

18、.2 作业调度中间件功能,轻巧的专业应用提交,4.2 作业调度中间件功能,提供完善的参数设置,2,灵活的提交方式,3,4.2 作业调度中间件功能,作业提交,提供作业监控功能,提供多集群作业监控,4.2 作业调度中间件功能,作业管理,提供多个时间段的报表,提供多种存储格式,实用的用户管理和记账功能,4.2 作业调度中间件功能,稳定性高,4.2 作业调度中间件功能,4.3 GridView作业调度的应用,应用与作业调度系统相结合,高性能主要领域 主要业务软件 得到各个领域的首席工程师的验证,4.3 GridView作业调度的应用,ANSYS LSDYNA CFX COMSOL FLUENT ,AB

19、INIT GAUSSIAN PWSCF VASP ,4.4 GridView作业调度的使用,4.4.1 节点监控,节点监控提供以下几个功能 (1)监控节点状态 (2)增加节点 (3)删除节点 (4)重启节点进程,4.4.1 节点监控,4.4.2 队列管理,队列管理主要包含对队列的创建、删除、修改和查看等操作。只有root用户和用户管理中规定的管理员才能打开队列管理的主页面,从而操作控制队列。,4.4.2 队列管理,4.4.2 队列管理,4.4.3 用户设置,用户管理主要是对用户在作业调度系统中的身份、优先级,以及在作业调度系统对资源的使用和使用上限进行设置、修改和查看。这里的用户是指已经存在于

20、操作系统中的一般用户,不包括root用户和用户ID小于500的系统用户。,4.4.3 用户设置,4.4.4 作业提交,该作业调度系统主要通过web页面将作业提交给调度器。系统中有三种提交方式: (1)Portal提交 (2)脚本方式提交 (3)命令行方式提交每次只能选择一种方式提交,在打开提交窗口时,默认是第一种提交方式。,4.4.4.1 portal提交,根据应用特点定制,目前集成了19种软件,具体使用方法见手册Gridview_应用Portal_用户手册,4.4.4.1 portal提交,4.4.4.1 portal提交,用户针对应用特殊配置每个应用在$HOME/ .clusportal

21、/目录下有个对应的 .setting文件 ,前缀为应用名。,Fluent,4.4.4.2 脚本和命令行提交,4.4.4.2 脚本和命令行提交,4.4.4.1 portal提交,机群上作业情况,my job id is 326.node1 run nodes is following: node4 node4 node4 node4 begin time is Tue Aug 21 11:09:34 CST 2012 /public/software/ansys_inc/v121/fluent/fluent12.1.4/bin/fluent -r12.1.4 2d -g -t4 -cnf=/op

22、t/gridview/pbs/dispatcher/aux/326.node1 -ssh -mpi=openmpi -i /home/shenj/work/fluent/3/cavity.jou parallel/timer/usagePerformance Timer for 300 iterations on 4 compute nodesAverage wall-clock time per iteration: 0.002 secGlobal reductions per iteration: 53 opsGlobal reductions time per iteration: 0.

23、000 sec (0.0%)Total wall-clock time: 0.560 secTotal CPU time: 2.300 sec end time is Tue Aug 21 11:09:51 CST 2012,实现了平台无关的单一系统映像,减小了用户的软件安装以及跨平台使用的学习成本。实现了对高性能计算的完美封装。 实现了对应用的性能提升。实现了对应用的高度优化,包括通信方式、网络连接等多种并行计算参数,为用户提供了计算性能的自动优化。 高容错性保障。实现了对用户输入、系统命令、文件权限、作业调度系统等多方面的检查与确认功能,提高用户作业的成功率。 基于web方式的提交。提交方

24、式的限制,可降低用户操作难度,减少用户操作带来的系统不稳定因素,同时提高高性能和计算内部网络的安全性。 支持用户定制开发。,Gridview Web Portal 优势,“VNC管理” 提供了查询、打开和删除等管理操作的功能。 root和Gridview管理员可以查询或者打开所有的VNC会话,而普通用户仅能查询和打开自身的VNC会话。,按钮区域,集群列表,会话列表,4.4.5 VNC集成功能,打开VNC会话,选中某一个VNC会话,然后单击“打开会话”按钮,这时系统会打开一个新的“VNC打开”Tab页来呈现当前选中的VNC会话的窗口内容。,4.4.5 VNC集成功能,删除VNC会话,删除会话 用

25、户可以一次选中一个或者多个会话,删除会话。,注意: 如果被删除的会话正在被用户打开使用,删除之后那些打开的VNC窗口会被关闭,并且提示网络错误。,4.4.5 VNC集成功能,4.4.6 作业管理,作业管理主要包含对作业的查询、控制和删除等操作。对作业的控制包括保留、释放、挂起、恢复、重新运行等操作。,新作业,查询功能,管理员可以删除任何作业;普通用户只能删除自己的作业,可以选择多个作业同时删除。,4.4.7 历史作业,主要特点 支持管理员和普通用户报表权限区分 管理员可统计所有数据 普通用户仅可统计自身数据 支持多种导出方式 PDF、EXCEL、HTML 支持多个字段的复合逻辑查询 字段包括时间、用户、关键字等 逻辑关系包括“与”、“或” 支持从不同的角度进行统计 用户统计、节点统计、作业统计、集群统计 提供总表和详表 方便汇报和对账,4.4.8 作业记账,4.4.8 作业记账,查询条件 支持多个字段 时间 用户名 作业名 应用类型 关键字 支持与或逻辑 允许设置字段间的与或关系 支持精确/模糊匹配 允许设置匹配方式,4.4.8 作业记账,用户作业统计总表,用户作业统计详表,4.4.8 作业记账,节点使用统计详表,节点使用统计总表,4.4.8 作业记账,CPU使用时间统计,4.4.8 作业记账,历史作业详表,历史作业总表,4.4.9 统计视图,Q & A,谢 谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报