GPU 能否无延迟地支持多个作业？

Question

所以我正在运行使用 GPU 进行 PyTorch 深度学习工作但是工作很轻松

我的 GPU 有 8 GB，但作业只使用了 2 GB。 GPU-Util 也接近于 0%。

|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 1080    Off  | 00000000:01:00.0  On |                  N/A |
|  0%   36C    P2    45W / 210W |   1155MiB /  8116MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

根据 GPU-Util 和内存，我也许可以胜任另外 3 份工作。

但是，我不确定这是否会影响整体运行时间。

如果我运行在同一个 GPU 上执行多个作业，这会影响总体运行时间吗？

我想试过一次，我想有延迟。

Answer 1

是的，你可以。一种选择是使用 NVIDIA 的多进程服务 (MPS) 运行同一张卡上模型的四个副本。

这是我找到的关于操作方法的最佳描述：

如果您仅将显卡用于推理，则可以使用 NVIDIA TensorRT Inference Service 在同一张显卡上托管多个模型（副本或不同模型）。

GPU 能否无延迟地支持多个作业？

Can GPU supports multiple jobs without delay?

gpu

nvidia

neural-network

deep-learning

pytorch