在 GC ML 上部署 TF 1.0,GPU 永远排队
Deploying TF 1.0 on GC ML with GPUs queues forever
我正在使用以下参数:
- scale_tier = 自定义
- master_type = standard_gpu
- worker_count = 0
- ps_count = 0
- runtime_version = 1.0
日志显示消息 Job <job_name> is queued.
而没有打印我通常看到的下一条日志消息 (Waiting for job to be provisioned.
)。我的工作就这样卡了30分钟,我已经试了两次了
我尝试在没有 GPU 的情况下提交相同的作业(即 scale_tier = BASIC),它进入了配置阶段并最终完成。
可能发生了什么?
原来这个错误是因为我们 运行 超出了 GPU 的配额。当我杀死一些正在使用 GPU 的作业时,排队的作业进入配置阶段。
谢谢!
我正在使用以下参数:
- scale_tier = 自定义
- master_type = standard_gpu
- worker_count = 0
- ps_count = 0
- runtime_version = 1.0
日志显示消息 Job <job_name> is queued.
而没有打印我通常看到的下一条日志消息 (Waiting for job to be provisioned.
)。我的工作就这样卡了30分钟,我已经试了两次了
我尝试在没有 GPU 的情况下提交相同的作业(即 scale_tier = BASIC),它进入了配置阶段并最终完成。
可能发生了什么?
原来这个错误是因为我们 运行 超出了 GPU 的配额。当我杀死一些正在使用 GPU 的作业时,排队的作业进入配置阶段。
谢谢!