在 windows 上使用 tensorflow 时,GPU 大部分时间处于空闲状态
GPU is idle most of the time when using tensorflow on windows
我正在尝试在我的 windows PC 上使用 DeepLabV2 网络。我有 GTX 1080Ti (8GB)、32GB 内存和酷睿 i7。我正在 cityscape 数据集上训练网络。
我正在使用 conda/pip 安装包,包括 tensorflow gpu。我的 NVIDIA 驱动和 CUDA/cuDNN 版本都是最新的。我还从 conda 将 CUDNN 文件从 include 和 lib 文件夹复制到我的 virtualenv。
以下是它们的一些详细信息:
我的问题是我看到 CPU 在训练期间被 100% 使用,但 GPU 几乎一直处于空闲状态。当我 运行 网络时,它可以检测到 GPU。见下文:
我已将 GPU 内存限制为 6GB,因为数据集太重而导致崩溃。
第一次循环后:
CPU 和 GPU 利用率如下所示:
我在 Internet 上阅读了有关分析的信息,但与 CPU 相比,数据造成的瓶颈通常会导致更多的 GPU 空闲时间。但是,这里只使用了 CPU,GPU 一直处于空闲状态。
我在这里错过了什么?据我所见,GPU配置正确,并被conda env和tensorflow识别。
谢谢!
编辑:numpy mkl 输出
我发现了问题。我没有在训练脚本中提供以下参数 ´ --num_gpus=1´
因此,从未使用过 gpu。我用了之后,用GPU,训练正常。
我正在尝试在我的 windows PC 上使用 DeepLabV2 网络。我有 GTX 1080Ti (8GB)、32GB 内存和酷睿 i7。我正在 cityscape 数据集上训练网络。
我正在使用 conda/pip 安装包,包括 tensorflow gpu。我的 NVIDIA 驱动和 CUDA/cuDNN 版本都是最新的。我还从 conda 将 CUDNN 文件从 include 和 lib 文件夹复制到我的 virtualenv。
以下是它们的一些详细信息:
我的问题是我看到 CPU 在训练期间被 100% 使用,但 GPU 几乎一直处于空闲状态。当我 运行 网络时,它可以检测到 GPU。见下文:
我已将 GPU 内存限制为 6GB,因为数据集太重而导致崩溃。
第一次循环后:
CPU 和 GPU 利用率如下所示:
我在 Internet 上阅读了有关分析的信息,但与 CPU 相比,数据造成的瓶颈通常会导致更多的 GPU 空闲时间。但是,这里只使用了 CPU,GPU 一直处于空闲状态。
我在这里错过了什么?据我所见,GPU配置正确,并被conda env和tensorflow识别。
谢谢!
编辑:numpy mkl 输出
我发现了问题。我没有在训练脚本中提供以下参数 ´ --num_gpus=1´
因此,从未使用过 gpu。我用了之后,用GPU,训练正常。