GKE - GPU nvidia - cuda 驱动程序不工作
GKE - GPU nvidia - cuda drivers dont work
我已经用 nvidia tesla k80 设置了一个 kubernetes 节点,然后 this tutorial 尝试 运行 一个 pytorch docker 图像,nvidia 驱动程序和 cuda 驱动程序正在工作。
我已经成功安装了 nvidia daemonsets,我现在可以看到以下内容 pods:
nvidia-driver-installer-gmvgt
nvidia-gpu-device-plugin-lmj84
问题是,即使使用推荐图像 nvidia/cuda:10.0-runtime-ubuntu18.04
,我仍然无法在我的 pod 中找到 nvidia 驱动程序:
root@pod-name-5f6f776c77-87qgq:/app# ls /usr/local/
bin cuda cuda-10.0 etc games include lib man sbin share src
但是教程提到:
CUDA libraries and debug utilities are made available inside the container at /usr/local/nvidia/lib64
and /usr/local/nvidia/bin
, respectively.
我也曾尝试测试 cuda 是否正在通过 torch.cuda.is_available()
工作,但我得到的 return 值为 False。
提前为您提供帮助
好的,我终于让 nvidia 驱动程序工作了。
必须设置资源限制才能访问 nvidia 驱动程序,考虑到我的 pod 位于安装了 nvidia 驱动程序的正确节点上,这很奇怪..
这使得 nvidia 文件夹可以访问,但我仍然无法使 cuda 安装与 pytorch 1.3.0 一起工作.. [ ]
我已经用 nvidia tesla k80 设置了一个 kubernetes 节点,然后 this tutorial 尝试 运行 一个 pytorch docker 图像,nvidia 驱动程序和 cuda 驱动程序正在工作。
我已经成功安装了 nvidia daemonsets,我现在可以看到以下内容 pods:
nvidia-driver-installer-gmvgt
nvidia-gpu-device-plugin-lmj84
问题是,即使使用推荐图像 nvidia/cuda:10.0-runtime-ubuntu18.04
,我仍然无法在我的 pod 中找到 nvidia 驱动程序:
root@pod-name-5f6f776c77-87qgq:/app# ls /usr/local/
bin cuda cuda-10.0 etc games include lib man sbin share src
但是教程提到:
CUDA libraries and debug utilities are made available inside the container at
/usr/local/nvidia/lib64
and/usr/local/nvidia/bin
, respectively.
我也曾尝试测试 cuda 是否正在通过 torch.cuda.is_available()
工作,但我得到的 return 值为 False。
提前为您提供帮助
好的,我终于让 nvidia 驱动程序工作了。
必须设置资源限制才能访问 nvidia 驱动程序,考虑到我的 pod 位于安装了 nvidia 驱动程序的正确节点上,这很奇怪..
这使得 nvidia 文件夹可以访问,但我仍然无法使 cuda 安装与 pytorch 1.3.0 一起工作.. [