ubuntu 创建一个 tensorflow 工作节点
ubuntu create a tensorflow worker node
我在 Ubuntu
下使用 python 的 tensorflow
我阅读了 here 关于如何开始使用 tensorflow 集群的内容,我希望将另外几台机器设置为 运行 tf 并创建一个工作集群,但找不到任何直接的方法有关如何将机器设置为 tf 工作节点的示例。
我应该在独立机器上设置它,然后将它们全部绑定到一个集群吗?
我应该设置一个集群(如果是这样,请参考一些示例)然后将 tf 作为集群安装在集群上吗?
编辑:
答案很好并且符合条件,我希望了解 tf 集群概念与 Beowulf 集群许可交互的方式,以及我是否需要 Beowulf 集群
谢谢
我想你错过了页面底部关于如何 运行 tensorflow 作为参数服务器或工人的内容,这里有两个参数服务器和两个工人。 job_name 表示它是参数服务器还是 worker,task_index 表示该组中机器的索引:
# On ps0.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=ps --task_index=0
# On ps1.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=ps --task_index=1
# On worker0.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=worker --task_index=0
# On worker1.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=worker --task_index=1
我在 Ubuntu
下使用 python 的 tensorflow我阅读了 here 关于如何开始使用 tensorflow 集群的内容,我希望将另外几台机器设置为 运行 tf 并创建一个工作集群,但找不到任何直接的方法有关如何将机器设置为 tf 工作节点的示例。
我应该在独立机器上设置它,然后将它们全部绑定到一个集群吗? 我应该设置一个集群(如果是这样,请参考一些示例)然后将 tf 作为集群安装在集群上吗?
编辑: 答案很好并且符合条件,我希望了解 tf 集群概念与 Beowulf 集群许可交互的方式,以及我是否需要 Beowulf 集群
谢谢
我想你错过了页面底部关于如何 运行 tensorflow 作为参数服务器或工人的内容,这里有两个参数服务器和两个工人。 job_name 表示它是参数服务器还是 worker,task_index 表示该组中机器的索引:
# On ps0.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=ps --task_index=0
# On ps1.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=ps --task_index=1
# On worker0.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=worker --task_index=0
# On worker1.example.com:
$ python trainer.py \
--ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \
--worker_hosts=worker0.example.com:2222,worker1.example.com:2222 \
--job_name=worker --task_index=1