如何修复在 AI Platform GPU 分布式训练作业中找不到训练包

How to fix trainer package not found in AI Platform GPU-distributed training job

我正在尝试在 AI Platform 上训练 Tensorflow Estimator。该模型在本地训练非常好,尽管速度非常慢,但是当我尝试 运行 在 AI Platform 上进行分布式 GPU 训练时,我 运行 遇到了这个错误:

CommandException: No URLs matched: gs://path/.../trainer-0.1.tar.gz

我按照 Google Cloud AI Platform 的建议将我的代码与 trainer 模块打包在一起。如有任何帮助,我们将不胜感激!

我实际上能够解决我的问题:看来如果我不设置临时存储桶,那么存储检查点的模型目录将在工作副本能够下载训练器之前覆盖训练器包!我不确定当工作副本还没有全部下载训练器时检查点是如何开始存储的,但是添加与我的模型目录不同的暂存桶修复了这个问题。