Google ML 作业被随机终止并在没有给出原因的情况下重新启动

Question

我有一个 Gcloud ML Engine 训练作业，通常在 ML Engine 上运行良好，但最近我注意到 VM 似乎随机重启。这导致它失去所有进展（我的代码没有做任何聪明的事情，比如重新加载缓存的检查点）因此增加了这个操作的成本并使它花费更长的时间。 gcloud 日志中给出的唯一消息是：

Terminated by service. If the job is supposed to continue running, it will be restarted on other VM shortly.

Module completed; cleaning up.

Clean up finished.

[service] Internal error occurred for the current attempt.

我不清楚 "Internal error" 是指导致 VM 关闭的问题还是清理尝试。

现在已经发生过多次了。我运行同时从事两项工作，所以这可能是资源问题？我能做些什么来减少这种情况的发生吗？

我正在使用 Keras 进行训练。

GPU配置文件如下：

trainingInput:
  scaleTier: CUSTOM
  masterType: standard_gpu
  runtimeVersion: "1.13"

Answer 1

此问题与您同时运行有多少工作无关。日志被服务终止。如果作业应该继续运行，它将很快在其他 VM 上重新启动。表示 VM 运行您的工作被 Google Compute Engine 软件或硬件更新维护事件中断。如果发生这些事件，ML 引擎将自动在另一个 VM 中重试您的作业。看起来你取消了工作，因此重试从未发生过。如果您再次遇到类似问题，请不要取消任务，稍后再回来查看。
如果您有任何问题，请告诉我们。

Answer 2

将其中一项工作转移到不同的地区，我就停止了这种情况，现在就可以了。如果这证明是一致的，除非真正的解释具体化，否则将把它标记为答案。

Google ML 作业被随机终止并在没有给出原因的情况下重新启动

Google ML job being terminated randomly and restarted without reason given

gcloud

keras

google-cloud-ml