使用自定义代码训练训练大数据时 ML 引擎出现间歇性错误
Intermittent Error on ML Engine when training large data using custom code training
我在 Google 机器学习引擎上 运行 宁自定义代码训练作业时遇到间歇性问题。代码是 运行ning Python TensorFlow分割任务。它是间歇性的,因为当我们 运行 第二次执行相同的任务时,作业就成功了。
此间歇性问题反复出现多次(超过 30 次)。
我有 运行 相同的离线自定义代码和相同的数据集,到目前为止它们没有产生相同的错误。
Below is the payload error:
jsonPayload: {
created: 1563475627.0648582
levelname: "CRITICAL"
lineno: 274
message: "Unexpected Event status: 1"
pathname: "tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc"
}
问题是我们如何解决这个问题?
更新: 我的初步测试是,在这种情况下,这可能是由较新版本的 tensorflow (1.12) 引起的,因为在以前的版本 (1.8) 上不会发生该问题。两种情况 运行 都在 GPU 卡 Tesla K80(计算配置文件 3.7)上。
此问题的解决方案是 运行 早期 ML 引擎(早期 TensorFlow 版本)1.8 上的训练代码。
从那以后,我们再没有遇到过类似的问题。
要解决此问题,显然您可以将 TF 日志记录级别提高到更详细(并在必要时调试日志记录)。
另外,请检查与图形驱动程序相关的任何错误。具体来说,这个问题与topic
有关
我在 Google 机器学习引擎上 运行 宁自定义代码训练作业时遇到间歇性问题。代码是 运行ning Python TensorFlow分割任务。它是间歇性的,因为当我们 运行 第二次执行相同的任务时,作业就成功了。
此间歇性问题反复出现多次(超过 30 次)。 我有 运行 相同的离线自定义代码和相同的数据集,到目前为止它们没有产生相同的错误。
Below is the payload error:
jsonPayload: {
created: 1563475627.0648582
levelname: "CRITICAL"
lineno: 274
message: "Unexpected Event status: 1"
pathname: "tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc"
}
问题是我们如何解决这个问题?
更新: 我的初步测试是,在这种情况下,这可能是由较新版本的 tensorflow (1.12) 引起的,因为在以前的版本 (1.8) 上不会发生该问题。两种情况 运行 都在 GPU 卡 Tesla K80(计算配置文件 3.7)上。
此问题的解决方案是 运行 早期 ML 引擎(早期 TensorFlow 版本)1.8 上的训练代码。
从那以后,我们再没有遇到过类似的问题。
要解决此问题,显然您可以将 TF 日志记录级别提高到更详细(并在必要时调试日志记录)。
另外,请检查与图形驱动程序相关的任何错误。具体来说,这个问题与topic
有关