使用 Slurm 时如何将 GPU 分组到一个节点中?

How to group GPUs in one node when using Slurm?

情况:我在 1 个节点中有 4 个 GPU,我想每组 2 个 GPU。

简单地说,

Slurm 提供partition to group "nodes" into logical sets,但分区不用于在节点内分组。如果分区不适用于这种情况,您能否为此提出另一个逻辑概念?

您可以在 /etc/slurm/gres.conf 文件中的定义中使用不同的名称类型对 Slurm 中的 GPU 进行分组。一个例子:

NodeName=node01[2-3] Name=gpu Type=gtx1060 File=/dev/nvidia[0-1] CPUs=0-7
NodeName=node01[2-3] Name=gpu Type=gtx1080 File=/dev/nvidia[2-3] CPUs=8-15

Select 提交脚本中的 GPU 使用:

#SBATCH --gres=gpu:gtx1080:1