GKE - GPU nvidia - cuda 驱动程序不工作

GKE - GPU nvidia - cuda drivers dont work

我已经用 nvidia tesla k80 设置了一个 kubernetes 节点,然后 this tutorial 尝试 运行 一个 pytorch docker 图像,nvidia 驱动程序和 cuda 驱动程序正在工作。

我已经成功安装了 nvidia daemonsets,我现在可以看到以下内容 pods:

nvidia-driver-installer-gmvgt
nvidia-gpu-device-plugin-lmj84

问题是,即使使用推荐图像 nvidia/cuda:10.0-runtime-ubuntu18.04,我仍然无法在我的 pod 中找到 nvidia 驱动程序:

root@pod-name-5f6f776c77-87qgq:/app# ls /usr/local/
bin  cuda  cuda-10.0  etc  games  include  lib  man  sbin  share  src

但是教程提到:

CUDA libraries and debug utilities are made available inside the container at /usr/local/nvidia/lib64 and /usr/local/nvidia/bin, respectively.

我也曾尝试测试 cuda 是否正在通过 torch.cuda.is_available() 工作,但我得到的 return 值为 False。

提前为您提供帮助

好的,我终于让 nvidia 驱动程序工作了。

必须设置资源限制才能访问 nvidia 驱动程序,考虑到我的 pod 位于安装了 nvidia 驱动程序的正确节点上,这很奇怪..

这使得 nvidia 文件夹可以访问,但我仍然无法使 cuda 安装与 pytorch 1.3.0 一起工作.. [ ]