Solving SLURM "sbatch: error: Batch job submission failed: Requested node configuration is not available" error
Solving SLURM "sbatch: error: Batch job submission failed: Requested node configuration is not available" error
我们的本地集群有 4 个 GPU 节点、2 个 36 核 CPU 和 200 GB 可用内存。当我尝试提交具有以下配置的作业时:
#SBATCH --nodes=1
#SBATCH --ntasks=40
#SBATCH --cpus-per-task=1
#SBATCH --mem-per-cpu=1500MB
#SBATCH --gres=gpu:4
#SBATCH --time=0-10:00:00
我收到以下错误:
sbatch: error: Batch job submission failed: Requested node configuration is not available
出现此错误的原因可能是什么?这些节点正是我需要的那种硬件...
您在具有 36 个 CPU 的节点上请求 40 个任务。默认的 SLURM 配置将任务绑定到核心,因此将任务减少到 36 个或更少可能会奏效。 (或者将节点增加到 2,如果您的应用程序可以处理的话)
CPU 很可能是 36 线程而不是 36 核,并且 Slurm 可能配置为分配内核而不是线程。
检查 scontrol show nodes
的输出以查看节点真正提供的内容。
我们的本地集群有 4 个 GPU 节点、2 个 36 核 CPU 和 200 GB 可用内存。当我尝试提交具有以下配置的作业时:
#SBATCH --nodes=1
#SBATCH --ntasks=40
#SBATCH --cpus-per-task=1
#SBATCH --mem-per-cpu=1500MB
#SBATCH --gres=gpu:4
#SBATCH --time=0-10:00:00
我收到以下错误:
sbatch: error: Batch job submission failed: Requested node configuration is not available
出现此错误的原因可能是什么?这些节点正是我需要的那种硬件...
您在具有 36 个 CPU 的节点上请求 40 个任务。默认的 SLURM 配置将任务绑定到核心,因此将任务减少到 36 个或更少可能会奏效。 (或者将节点增加到 2,如果您的应用程序可以处理的话)
CPU 很可能是 36 线程而不是 36 核,并且 Slurm 可能配置为分配内核而不是线程。
检查 scontrol show nodes
的输出以查看节点真正提供的内容。