在 GC ML 上部署 TF 1.0,GPU 永远排队

Deploying TF 1.0 on GC ML with GPUs queues forever

我正在使用以下参数:

日志显示消息 Job <job_name> is queued. 而没有打印我通常看到的下一条日志消息 (Waiting for job to be provisioned.)。我的工作就这样卡了30分钟,我已经试了两次了

我尝试在没有 GPU 的情况下提交相同的作业(即 scale_tier = BASIC),它进入了配置阶段并最终完成。

可能发生了什么?

原来这个错误是因为我们 运行 超出了 GPU 的配额。当我杀死一些正在使用 GPU 的作业时,排队的作业进入配置阶段。

谢谢!