如何以编程方式 运行 Dataproc 集群上的 Hadoop 实用程序?

How to run Hadoop utils on Dataproc cluster programmatically?

我有:

我想以编程方式运行 主节点 (hadoop distcp) 上的 Hadoop 实用程序之一。最好的方法是什么?到目前为止,我有下一条线索:ssh 到主节点并从那里使用 运行 util。是否有其他选择来实现相同的目标?

您可以向 运行 DistCp 提交常规 Hadoop MR job through Dataproc API or gcloud 并指定 org.apache.hadoop.tools.DistCp 作为主要 class:

gcloud dataproc jobs submit hadoop --cluster=<CLUSTER> \
    --class=org.apache.hadoop.tools.DistCp -- <SRC> <DST>

从 Python 开始,您可以使用 REST API directly or Python Client library 来提交 DistCp 作业。