如何以编程方式 运行 Dataproc 集群上的 Hadoop 实用程序?
How to run Hadoop utils on Dataproc cluster programmatically?
我有:
- App 引擎应用程序(Java/Python)
- Dataproc 集群
我想以编程方式运行 主节点 (hadoop distcp
) 上的 Hadoop 实用程序之一。最好的方法是什么?到目前为止,我有下一条线索:ssh 到主节点并从那里使用 运行 util。是否有其他选择来实现相同的目标?
您可以向 运行 DistCp 提交常规 Hadoop MR job through Dataproc API or gcloud 并指定 org.apache.hadoop.tools.DistCp
作为主要 class:
gcloud dataproc jobs submit hadoop --cluster=<CLUSTER> \
--class=org.apache.hadoop.tools.DistCp -- <SRC> <DST>
从 Python 开始,您可以使用 REST API directly or Python Client library 来提交 DistCp 作业。
我有:
- App 引擎应用程序(Java/Python)
- Dataproc 集群
我想以编程方式运行 主节点 (hadoop distcp
) 上的 Hadoop 实用程序之一。最好的方法是什么?到目前为止,我有下一条线索:ssh 到主节点并从那里使用 运行 util。是否有其他选择来实现相同的目标?
您可以向 运行 DistCp 提交常规 Hadoop MR job through Dataproc API or gcloud 并指定 org.apache.hadoop.tools.DistCp
作为主要 class:
gcloud dataproc jobs submit hadoop --cluster=<CLUSTER> \
--class=org.apache.hadoop.tools.DistCp -- <SRC> <DST>
从 Python 开始,您可以使用 REST API directly or Python Client library 来提交 DistCp 作业。