重置单个 GPU 的内存使用情况

reset memory usage of a single GPU

我可以访问 4 个 GPU(不是 root 用户)。其中一个 GPU(2 号)表现怪异,它们是一些内存阻塞但功耗和温度非常低(好像上面什么都没有 运行)。请参阅下图中 nvidia-smi 的详细信息:

如何在不干扰其他 GPU 上的进程 运行 的情况下重置 GPU 2?

PS: 我不是 root 用户,但我想我也可以掌握一些 root 用户。

重置 GPU 可以以某种方式解决您的问题,由于您的 GPU 配置,这可能是不可能的

nvidia-smi --gpu-reset -i "gpu ID"

例如,如果你在 gpu 上启用了 nvlink,它并不总是通过,而且你的 nvidia-smi 似乎无法在你的 gpu 上找到进程 运行,解决方案您的情况是通过 运行 以下命令查找并终止与该 gpu 相关的进程,用您在 fuser 那里找到的 PID 填写

fuser -v /dev/nvidia*

kill -9 "PID"