使用自定义代码训练训练大数据时 ML 引擎出现间歇性错误

Question

我在 Google 机器学习引擎上运行宁自定义代码训练作业时遇到间歇性问题。代码是运行ning Python TensorFlow分割任务。它是间歇性的，因为当我们运行第二次执行相同的任务时，作业就成功了。

此间歇性问题反复出现多次（超过 30 次）。我有运行相同的离线自定义代码和相同的数据集，到目前为止它们没有产生相同的错误。

Below is the payload error:

jsonPayload: {
  created:  1563475627.0648582   
  levelname:  "CRITICAL"   
  lineno:  274
  message:  "Unexpected Event status: 1"
  pathname:  "tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc"
 }

问题是我们如何解决这个问题？

更新： 我的初步测试是，在这种情况下，这可能是由较新版本的 tensorflow (1.12) 引起的，因为在以前的版本 (1.8) 上不会发生该问题。两种情况运行都在 GPU 卡 Tesla K80（计算配置文件 3.7）上。

Answer 1

此问题的解决方案是运行早期 ML 引擎（早期 TensorFlow 版本）1.8 上的训练代码。

从那以后，我们再没有遇到过类似的问题。

Answer 2

要解决此问题，显然您可以将 TF 日志记录级别提高到更详细（并在必要时调试日志记录）。

另外，请检查与图形驱动程序相关的任何错误。具体来说，这个问题与topic

有关

使用自定义代码训练训练大数据时 ML 引擎出现间歇性错误

Intermittent Error on ML Engine when training large data using custom code training

google-cloud-platform

tensorflow

google-cloud-ml