SLURM:每个节点是否应该有不同的 gres.conf?

SLURM: Should there be a different gres.conf for each node?

配置 slurm 集群时,您需要在所有节点上都有配置文件的副本 slurm.conf。这些副本是相同的。在您需要在集群中使用 GPU 的情况下,您需要在所有节点上拥有一个额外的配置文件。这就是gres.conf。我的问题是 - 根据该节点上的配置,该文件在每个节点上是否不同,或者它在所有节点上是否相同(如 slurm.conf?)。假设节点中有不同的gpus配置并且不相同。

从 Slurm 版本 14.3.0 开始,gres.conf 接受一个 NodeName 参数,以便可以在所有节点上设置相同的文件。

来自新闻文件:

gres.conf - Add "NodeName" specification so that a single gres.conf file can be used for a heterogeneous cluster.

因此看起来像这样:

NodeName=node001 Name=gpu File=/dev/nvidia0
NodeName=node002 Name=gpu File=/dev/nvidia[0-1]
...

在此之前,每个节点的 gres.conf 文件必须不同。