GPU 能否无延迟地支持多个作业?

Can GPU supports multiple jobs without delay?

所以我正在 运行使用 GPU 进行 PyTorch 深度学习工作 但是工作很轻松

我的 GPU 有 8 GB,但作业只使用了 2 GB。 GPU-Util 也接近于 0%。

|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 1080    Off  | 00000000:01:00.0  On |                  N/A |
|  0%   36C    P2    45W / 210W |   1155MiB /  8116MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

根据 GPU-Util 和内存,我也许可以胜任另外 3 份工作。

但是,我不确定这是否会影响整体 运行时间。

如果我 运行 在同一个 GPU 上执行多个作业,这会影响总体 运行 时间吗?

我想试过一次,我想有延迟。

是的,你可以。一种选择是使用 NVIDIA 的多进程服务 (MPS) 运行 同一张卡上模型的四个副本。

这是我找到的关于操作方法的最佳描述:

如果您仅将显卡用于推理,则可以使用 NVIDIA TensorRT Inference Service 在同一张显卡上托管多个模型(副本或不同模型)。