使用现有的 dataproc 集群 运行 dask

Using an existing dataproc cluster to run dask

我在 Google 云平台上有一个数据处理集群 运行。我打算在 dask 客户端中传递这个集群,而不是初始化一个新的 dask-yarn 集群

但是,我无法直接使用我的 dataproc 集群

#Instead of :
cluster = YarnCluster(environment='environment.tar.gz',worker_vcores=2, worker_memory="8GiB")
cluster.scale(10)
client = Client(cluster)

#Directly using my dataproc cluster:
client = Client(my-dataproc-cluster)

DataProc 创建一个新的 Hadoop 集群,dask-yarn 用于创建 dask 集群,运行 在您的 hadoop 集群(无论可能位于何处)内。要正确 运行 它需要正确设置 python 环境和配置,就像 hadoop 上的任何其他工具一样(包括 spark)。

我们没有特定于数据处理的指南,但此处提供了 AWS 等效 EMR 的指南:http://yarn.dask.org/en/latest/aws-emr.html

要在 DataProc 上部署,您可能会创建一个等效的 initialization action to the EMR bootstrap action: https://github.com/dask/dask-yarn/blob/master/deployment_resources/aws-emr/bootstrap-dask