1.如用户提交的作业申请的cpu核数超过64核,请按照64的整数倍申请cpu资源,提高计算节点的使用率。
2.为什么sinfo查看对应的分区有空闲节点,但是我的作业却还在排队
高性能计算平台采用slurm作业调度系统,整个队列中可能有需要占用多节点的高优先级任务正在等待资源,调度器会一定程度上为这些作业保留资源,以确保它们能够运行。
2.error: Job submit/allocate failed: Invalid partition name specified
错误原因:未指定正确的partition,可通过以下指令获取可用的分区 sacctmgr show ass user=`whoami` format=part |uniq
3.error: Job submit/allocate failed: Invalid account or account/partition combination specified
错误原因:通常是因为没有指定正确的账户,可通过以下指令获取可用账户。 sacctmgr show ass user=`whoami` format=account%15 |uniq
4.(QOSMaxWallDurationPerJobLimit)
错误原因:指定-t, --time=\参数时,时间超过qos允许的时长,通过以下命令可以查看相应qos允许运行的最大时长。 sacctmgr show qos format=name,MaxWall
5.batch job submission failed: Requested node configuration is not available
错误原因:申请资源的节点配置不匹配,如partCU的每个节点只有64个核心,但用户申请申请该节点的核心数超过64,就会报错
6.(QOSNotAllowed)
没有指定正确的qos,以下命令可以查看不同分区下可用的qos。 sacctmgr show ass user=`whoami` format=user,part,qos
7.QOSGrpSubmitJobsLimit
出现该错误的原因通常为账户没有余额,或者账户封锁了
8.Invalid qos specification
目前服务器不支持指定qos,请勿添加-q参数
9.各软件提交任务脚本
在/public/slurmscript_demo目录下