Google ML 作业被随机终止并在没有给出原因的情况下重新启动

Google ML job being terminated randomly and restarted without reason given

我有一个 Gcloud ML Engine 训练作业,通常在 ML Engine 上运行良好,但最近我注意到 VM 似乎随机重启。这导致它失去所有进展(我的代码没有做任何聪明的事情,比如重新加载缓存的检查点)因此增加了这个操作的成本并使它花费更长的时间。 gcloud 日志中给出的唯一消息是:

Terminated by service. If the job is supposed to continue running, it will be restarted on other VM shortly.

Module completed; cleaning up.

Clean up finished.

[service] Internal error occurred for the current attempt.

我不清楚 "Internal error" 是指导致 VM 关闭的问题还是清理尝试。

现在已经发生过多次了。我 运行 同时从事两项工作,所以这可能是资源问题?我能做些什么来减少这种情况的发生吗?

我正在使用 Keras 进行训练。

GPU配置文件如下:

trainingInput:
  scaleTier: CUSTOM
  masterType: standard_gpu
  runtimeVersion: "1.13"

此问题与您同时运行有多少工作无关。日志被服务终止。如果作业应该继续 运行,它将很快在其他 VM 上重新启动。表示 VM 运行 您的工作被 Google Compute Engine 软件或硬件更新维护事件中断。如果发生这些事件,ML 引擎将自动在另一个 VM 中重试您的作业。 看起来你取消了工作,因此重试从未发生过。 如果您再次遇到类似问题,请不要取消任务,稍后再回来查看。
如果您有任何问题,请告诉我们。

将其中一项工作转移到不同的地区,我就停止了这种情况,现在就可以了。如果这证明是一致的,除非真正的解释具体化,否则将把它标记为答案。