在内部分发 Tensorflow 培训的最简单方法?

Simplest way to distribute Tensorflow training on premise?

训练分布在家庭网络中的张量流模型(使用 Estimator API)的最简单方法是什么?看起来不像 ml-engine local train 允许您指定 IP。

您可以设置环境变量TF_CONFIG,估计器会解析该变量。

你最好的选择是使用像 Kubernetes 这样的东西。这是一项正在进行的工作,但我相信它也支持分布式训练——https://github.com/tensorflow/k8s

或者对于更多低技术自动化选项,这些会浮现在脑海中...

  1. 您可以拥有一个仍然使用 SSH 并远程执行脚本的脚本。
  2. 您可以让各个工作人员轮询一个文件的共享位置,以用作下载和执行脚本的信号。