没有日志,Google Cloud ML 训练作业没有输出
No logs, no output from Google Cloud ML Training Job
我正在尝试 运行 在 Google 的 Cloud ML 上进行训练。我工作 运行ning 的迹象是:
- 指示包已构建和安装的此类消息:
INFO 2017-06-07 15:14:01 -0700 master-replica-0 Successfully built
training-job-foo
INFO 2017-06-07 15:14:01
-0700 master-replica-0 Installing collected packages: training-job-foo
INFO 2017-06-07 15:14:01
-0700 master-replica-0 Successfully installed training-job-foo-0.1.dev0
INFO 2017-06-07 15:14:01
-0700 master-replica-0 Running command: pip install --user training-job-foo-0.1.dev0.tar.gz
INFO 2017-06-07 15:14:02
-0700 master-replica-0 Processing ./training-job-foo-0.1.dev0.tar.gz
- 这样的消息表明我的工作开始了:
INFO 2017-06-07 15:14:03 -0700 master-replica-0 Running command:
python -m training-job-foo.training_routine_bar --job-dir
gs://regional-bucket-similar-to-training-job/output/
- 这样的消息表明正在处理我的标量摘要:
INFO 2017-06-07 15:14:21 -0700 master-replica-0 Summary name Total
Accuracy is illegal; using Total_Accuracy instead.
最后,我还看到 CPU,内存使用量增加,消耗的 MLUnits 增加
我应该补充一点,我还看到摘要文件编写者在创建作业之前创建了摘要文件,但我没有看到这些文件的大小增加。我还看到一个初始检查点文件写入 gs://regional-bucket-similar-to-training-job/output/
除此之外,我看不到更多日志或输出。我应该看到日志,因为我经常打印准确性,丢失。我也写总结和检查点文件。
我错过了什么?
在这种情况下还有哪些其他调试工具可用?我目前所做的只是流式传输日志、查看作业状态、CPU 使用情况、Cloud ML 控制台上的内存使用情况以及查看我的 Cloud Storage 存储桶是否有任何更改
抱歉,您遇到了问题。目前,可用的调试工具是作业日志、指标和 TensorBoard,但似乎所有这些都不能用于您的情况。
如果可以,能否请您将您的项目编号和职位编号发送至 cloudml-feedback@google.com,以便我们仔细查看?
我正在尝试 运行 在 Google 的 Cloud ML 上进行训练。我工作 运行ning 的迹象是:
- 指示包已构建和安装的此类消息:
INFO 2017-06-07 15:14:01 -0700 master-replica-0 Successfully built training-job-foo
INFO 2017-06-07 15:14:01 -0700 master-replica-0 Installing collected packages: training-job-foo
INFO 2017-06-07 15:14:01 -0700 master-replica-0 Successfully installed training-job-foo-0.1.dev0
INFO 2017-06-07 15:14:01 -0700 master-replica-0 Running command: pip install --user training-job-foo-0.1.dev0.tar.gz
INFO 2017-06-07 15:14:02 -0700 master-replica-0 Processing ./training-job-foo-0.1.dev0.tar.gz
- 这样的消息表明我的工作开始了:
INFO 2017-06-07 15:14:03 -0700 master-replica-0 Running command: python -m training-job-foo.training_routine_bar --job-dir gs://regional-bucket-similar-to-training-job/output/
- 这样的消息表明正在处理我的标量摘要:
INFO 2017-06-07 15:14:21 -0700 master-replica-0 Summary name Total Accuracy is illegal; using Total_Accuracy instead.
最后,我还看到 CPU,内存使用量增加,消耗的 MLUnits 增加
我应该补充一点,我还看到摘要文件编写者在创建作业之前创建了摘要文件,但我没有看到这些文件的大小增加。我还看到一个初始检查点文件写入 gs://regional-bucket-similar-to-training-job/output/
除此之外,我看不到更多日志或输出。我应该看到日志,因为我经常打印准确性,丢失。我也写总结和检查点文件。
我错过了什么?
在这种情况下还有哪些其他调试工具可用?我目前所做的只是流式传输日志、查看作业状态、CPU 使用情况、Cloud ML 控制台上的内存使用情况以及查看我的 Cloud Storage 存储桶是否有任何更改
抱歉,您遇到了问题。目前,可用的调试工具是作业日志、指标和 TensorBoard,但似乎所有这些都不能用于您的情况。 如果可以,能否请您将您的项目编号和职位编号发送至 cloudml-feedback@google.com,以便我们仔细查看?