1、集群作业管理系统简介,报告人:罗正平 导 师:肖炳甲研究员,报告主要内容,1、集群简介2、作业管理系统PBS简介3、作业脚本示例,1 集群简介,集群是一组独立的计算机(节点)的集合体,节点间通过高性能的互连网络连接;各节点除了可以作为一个单一的计算资源供交互式用户使用外,还可以协同工作并表现为一个单一的、集中的计算资源供并行计算任务使用。,机群的各节点都是一个完整的系统:工作站,PC机或SMP机器;互连网络通常使用商品化网络,如以太网、FDDI、ATM等;网络接口与节点的I/O总线松耦合相连;各节点
2、通常有一个本地磁盘;各节点有自己的完整的操作系统。各节点除了可以作为一个单一的计算资源供交互式用户使用外,还可以 协同工作并表现为一个单一的、集中的计算资源供并行计算任务使用。,特征:,Internet,1 集群简介Ctrldata Cluster(.8),管理节点配置:CPU:Intel(R) Xeon(R) 1.6G内存:4G(41.0G)系统:Linux AS4.0计算节点配置:CPU: Intel(R) Xeon(R) 3.0G内存: 4G(41.0G)系统:Linux AS4.0,2 作业管理系统-PBS,最初由NASA在20世纪90年代早期开发面向集群系统提供有效的作业管理服务目前
3、有两个版本:OpenPBS(开源)和PBSPro(商业)CHESS集群管理系统集成了PBS系列管理软件TORQUE。,PBS: Portable Batch SystemTORQUE:Tera-scale Open-source Resource and QUEue manager,2 作业管理系统-PBS特点,易用性:PBS为所有资源提供统一的借口,易于配置,作业调度灵活移植性:用于shell和批处理等各种环境适配性:适配与各种管理策略,提供可扩展的认证和安全模型灵活性:支持交互、批处理、串行及并行作业扩展性:标准PBS支持约300个节点,满足集群需要,TORQUE:基于PBS
4、项目的开源软件,可以认为是开源的OpenPBS的改进版。其优点有:扩展性强:TORQUE可以支持超过1500个节点容错性好:修正了大量的bug,提供更多故障支持,2 作业管理系统-PBS结构,PBS Server:运行于集群的管理节点。创建并接受作业、修改作业、激活调度器(PBS Scheduler)以及通知PBS执行器(PBS Moms)执行作业PBS Scheduler:根据资源管理器获知各个节点的资源状况和系统的作业信息生成相应的作业优先级列表PBS Moms:每个节点均有一个后台进程,该进程真正启动和停止提交到该节点的作业,2 作业管理系统-PBS作业会话实现,qsub,2 作业管理系
5、统-PBS常用命令,作业提交命令-qsub命令格式: qsub my_script返回信息: 作业ID号,2 作业管理系统-PBS常用命令,作业状态检查命令qstat命令格式:qstat -f,2 作业管理系统-PBS常用命令,作业挂起命令-qhold命令格式: qsub job_id作业删除命令-qdel命令格式: dsel job_id,详细信息请查询PBS使用指南,3 作业脚本示例runefit.pbs,#PBS -S /bin/bash#PBS -o out_runefit#PBS -e err_runefit#PBS -l nodes=4:ppn=2echo
6、-echo -n 'Job is running on node ' cat $PBS_NODEFILEecho -echo PBS: qsub is running on $PBS_O_HOSTecho PBS: originating queue is $PBS_O_QUEUEecho PBS: executing queue is $PBS_QUEUEecho PBS: working directory is $PBS_O_WORKDIRecho PBS: execution mode is $PBS_ENVIRONMENTecho PBS: job identifie
7、r is $PBS_JOBIDecho PBS: job name is $PBS_JOBNAMEecho PBS: node file is $PBS_NODEFILEecho PBS: current home directory is $PBS_O_HOMEecho -cd $PBS_O_WORKDIR./efitd129d,不必要部分,-Job is running on node chess_004.localdomainchess_004.localdomainchess_003.localdomainchess_003.localdomainchess_002.localdoma
8、inchess_002.localdomainchess_005.localdomainchess_005.localdomain-PBS: qsub is running on chess_001.localdomainPBS: originating queue is defaultPBS: executing queue is verysmallPBS: working directory is /home/lzp/efit/efitht7uPBS: execution mode is PBS_BATCHPBS: job identifier is 270.chess_001.localdomainPBS: job name is runefit.pbsPBS: node file is var/chess/torque/aux/270.chess_001.localdomainPBS: current home directory is /home/lzp-,输出文件out_runefit,