保存更多检查点 Cloud ML Engine

Saving more checkpoints Cloud ML Engine

我在 Cloud ML Engine 上使用 tensorflow 对象检测 API 来训练模型。我想知道的是,有没有办法在 train 文件夹中保存更多模型检查点? 现在模型保存了最近的五个检查点。

RunConfig object accepts a parameter keep_checkpoint_max which defaults to 5. In model_main.py you can see a RunConfig object being instantiated (link):

config = tf.estimator.RunConfig(model_dir=FLAGS.model_dir)

您需要将该文件更新为:

config = tf.estimator.RunConfig(model_dir=FLAGS.model_dir, keep_checkpoint_max=5)

或者,等效地,创建一个通过的新标志。

您可以在配置文件中添加 keep_checkpoint_max 到 train_config。默认值为 5。