运行 在 Google 云机器学习引擎 ClusterSpec 上分布式 Tensorflow
Running distributed Tensorflow on Google Cloud ML engine ClusterSpec
我正在尝试 运行 在 Google Cloud 的 ML 引擎上构建一个大型分布式张量流模型,但我无法理解应该进行的操作 tf.train.ClusterSpec。
当你 运行 在 Google Cloud 上工作时,你可以 select 来自 BASIC 的 scale tier,STANDARD_1,PREMIUM_1,BASIC_GPU 或 CUSTOM,每个都允许您访问不同类型的集群。但是,我在这些集群中找不到机器的name/addresses。
请查看文档和示例 here。您应该使用环境变量 TF_CONFIG 设置 ClusterSpec;例如
tf_config = os.environ.get('TF_CONFIG')
# If TF_CONFIG is not available run local
if not tf_config:
return run('', True, *args, **kwargs)
tf_config_json = json.loads(tf_config)
cluster = tf_config_json.get('cluster')
...
cluster_spec = tf.train.ClusterSpec(cluster)
我正在尝试 运行 在 Google Cloud 的 ML 引擎上构建一个大型分布式张量流模型,但我无法理解应该进行的操作 tf.train.ClusterSpec。
当你 运行 在 Google Cloud 上工作时,你可以 select 来自 BASIC 的 scale tier,STANDARD_1,PREMIUM_1,BASIC_GPU 或 CUSTOM,每个都允许您访问不同类型的集群。但是,我在这些集群中找不到机器的name/addresses。
请查看文档和示例 here。您应该使用环境变量 TF_CONFIG 设置 ClusterSpec;例如
tf_config = os.environ.get('TF_CONFIG')
# If TF_CONFIG is not available run local
if not tf_config:
return run('', True, *args, **kwargs)
tf_config_json = json.loads(tf_config)
cluster = tf_config_json.get('cluster')
...
cluster_spec = tf.train.ClusterSpec(cluster)