使用 Slurm 时如何将 GPU 分组到一个节点中?
How to group GPUs in one node when using Slurm?
情况:我在 1 个节点中有 4 个 GPU,我想每组 2 个 GPU。
简单地说,
node0 有 gpu0、gpu1、gpu2、gpu3
第 1 组:gpu0、gpu1
- 第 2 组:gpu2、gpu3
Slurm 提供partition to group "nodes" into logical sets,但分区不用于在节点内分组。如果分区不适用于这种情况,您能否为此提出另一个逻辑概念?
您可以在 /etc/slurm/gres.conf 文件中的定义中使用不同的名称类型对 Slurm 中的 GPU 进行分组。一个例子:
NodeName=node01[2-3] Name=gpu Type=gtx1060 File=/dev/nvidia[0-1] CPUs=0-7
NodeName=node01[2-3] Name=gpu Type=gtx1080 File=/dev/nvidia[2-3] CPUs=8-15
Select 提交脚本中的 GPU 使用:
#SBATCH --gres=gpu:gtx1080:1
情况:我在 1 个节点中有 4 个 GPU,我想每组 2 个 GPU。
简单地说,
node0 有 gpu0、gpu1、gpu2、gpu3
第 1 组:gpu0、gpu1
- 第 2 组:gpu2、gpu3
Slurm 提供partition to group "nodes" into logical sets,但分区不用于在节点内分组。如果分区不适用于这种情况,您能否为此提出另一个逻辑概念?
您可以在 /etc/slurm/gres.conf 文件中的定义中使用不同的名称类型对 Slurm 中的 GPU 进行分组。一个例子:
NodeName=node01[2-3] Name=gpu Type=gtx1060 File=/dev/nvidia[0-1] CPUs=0-7
NodeName=node01[2-3] Name=gpu Type=gtx1080 File=/dev/nvidia[2-3] CPUs=8-15
Select 提交脚本中的 GPU 使用:
#SBATCH --gres=gpu:gtx1080:1