1、IBM 服务器用户使用说明1. 集群介绍整套集群由四部分组成:Power 720 管理登录节点+5 台 Power 755 计算节点(128 进程/ 台)+10 台 Intel Xeon 系列计算节点(24 进程/台)+DS5020 存储系统。2. 作业管理Power 755 计算节点是 IA64 结构,Intel Xeon 计算节点是 X86_64 结构。整套集群安装了两套作业管理软件:IBM LoadLeveler 和 PBS(Torque)。LoadLeveler 用来管理 Power 755 计算节点上的作业, Torque 用来管理 Intel Xeon 系列计算节点上的作业。2.1
2、 LoadLeveler在 Power 755 这些节点上可以运行的软件有: Gaussian,Gamess,molcas和 molpro.2.1.1 Gaussian 版本 Gaussian 09, Revision B.011. 编写作业卡,文件名 (文件后缀一定为 com)2. 提交命令:$q09 NPP jobname (NPP 代表并行进程数,jobname 为作业文件名,不需后缀)例如: $q09 16 au2 (它将为作业 分配 16 个并行进程,作业结束后生成结果文件 au2.out)3. 如不记得输入参数,可提交命令$q09, 它会出现 Usage: q09 NPP jo
3、bname!4. 由于计算结点上最大为 128 进程,并且 Gaussian 并行效率不高,因此希望在试运行期间提交作业 NPP 设为 8, 16, 32, 64 为好。5. Gaussian 的临时区设在/gpfs/scratch 中, 该区文件随时可能清空。2.1.2 Gamess 版本 GAMESS VERSION = 1 OCT 2010 (R3)1. 编写作业卡,文件名 jobname.inp (文件后缀一定为 inp)2. 提交命令:$qgms NPP jobname (NPP 代表并行进程数,jobname 为作业文件名,不需后缀)例如: $qgms 16 au2 (它将为作业
4、au2.inp 分配 16 个并行进程,作业结束后生成结果文件 au2.log)3. 如不记得输入参数,可提交命令$qgms, 它会出现 Usage: qgms NPP jobname!4. 由于计算结点上最大为 128 进程,因此希望在试运行期间提交作业 NPP设为 8, 16 为好。5. Gamess 的临时区设在 /gpfs/scratch 中, 该区文件随时可能清空。2.1.3 Molpro 版本 Molpro Version 2010.1 linked 17 Jun 2011 12:31:421. 编写作业卡,文件名 jobname (可不用后缀)2. 提交命令:$qmolpro j
5、obname (jobname 为作业文件名)例如: $qgms au2 (它将为作业 au2 分配进程,作业结束后生成结果文件 au2.out)3. 如不记得输入参数,可提交命令$qmolpro, 它会出现Usage: qmolpro jobname!4. 由于 AIX 编译问题,目前只能运行单进程作业。2.1.4 Molcas 版本 Molcas Version version 7.4 patch level 0451. 编写作业卡,文件名 jobname.input (可不用后缀)2. 提交命令:$qmolcas NPP jobname (NPP 代表并行进程数,jobname 为作业文
6、件名,不需后缀)3. 如不记得输入参数,可提交命令$qmolcas, 它会出现 Usage: qmolcas NPP jobname!4. 由于计算结点上最大为 128 进程,因此希望在试运行期间提交作业 NPP设为 8, 16 为好。2.1.5 其它程序作业投交方式以上程序简单命令方式都是通过编写合适脚本由 llsubmit 提交,其它程序可参见以上脚本写出,具体可见路径 /home/apps/bin2.1.6 监控作业和结点状态及取消作业命令通过 llstatus 命令可以查看服务器节点使用情况,类似于我们经常使用的shownodes 和 pbsnodes,示例如下:查看运行作业要使用 l
7、lq 命令:例如: llq u user 可以看到用户 user 作业情况如果要取消某个作业,要使用 llcancel 命令,类似于我们使用过的 qdel 命令。例如: llcancel 2092 (将 2092 号进程取消)试用期队列规则如下:1. 使用队列: normal: 时间限制 7 天;默认队列;如有大作业需求可提出申请在其它队列使用2. 作业数限制:每用户最多同时运行 8 个作业, 8 个排队作业。 每用户的作业数 (运行的+ 排队的)最多为 16 个。超过的作业将进入 NQ (Not Queued)状态,即处于非排队状态。3. 作业类型限制:不通过作业调度系统提交的作业将被杀掉。
8、脚本文件不正常的作业将被杀掉。4. 队列规则会根据用户意见和实际使用情况做相应调整2.2 Torque在 10 台 Intel Xeon 系列计算节点上可以做 Material Studios 方面的计算,提交作业的命令是 qdmol 和 qcastep,使用 qstat 来查看作业情况,使用 qdel 来删除作业。2.2.1 Dmol: 版本 MS 5.51. 通过客户端生成作业卡,文件名 jobname.* (包括一系列文件 )2. 提交命令:$qdmol nodes PPN jobname (nodes 代表计算结点数目,PPN 代表并行进程数,jobname 为作业文件名,不需后缀 )
9、例如: $qdmol 2 24 au2 (它将为作业 au2.* 分配在两个计算结点上,每个计算结点 24 个并行进程,作业结束后生成结果文件)3. 如不记得输入参数,可提交命令$qdmol, 它会出现 Usage: qdmol nodes PPN jobname!4. 由于计算结点上最大为 24 进程。2.2.2 CASTEP: 版本 MS 5.51. 通过客户端生成作业卡,文件名 jobname.* (包括一系列文件 )2. 提交命令:$qcastep nodes PPN jobname (nodes 代表计算结点数目,PPN 代表并行进程数,jobname 为作业文件名,不需后缀 )例如: $qcastep 2 24 au2 (它将为作业 au2.* 分配在两个计算结点上,每个计算结点 24 个并行进程,作业结束后生成结果文件)3. 如不记得输入参数,可提交命令$qcastep, 它会出现 Usage: qcastep nodes PPN jobname!4. 由于计算结点上最大为 24 进程。2.2.3 其它程序作业投交方式以上程序简单命令方式都是通过编写合适脚本由 qsub 提交,其它程序可参见以上脚本写出.