Dataproc (Spark v2) 中的 Yarn 队列示例

Question

有没有人能够在 Dataproc 中的 Spark 2.x 上向 yarn 添加超过默认队列？

在集群创建时失败的尝试：

capacity-scheduler:yarn.scheduler.capacity.root.queues=alpha,beta,default yarn:yarn.scheduler.capacity.root.queues=alpha,beta,default

此外，在上述任一配置前缀上设置 yarn.scheduler.fair.allow-undeclared-pools=true 以激活动态队列也会失败。

所有情况似乎都会使守护程序失败，导致资源管理器在启动时死机。

Answer 1

每个队列都需要指定容量。您的示例所需的属性如下：

capacity-scheduler:yarn.scheduler.capacity.root.queues=alpha,beta,default
capacity-scheduler:yarn.scheduler.capacity.root.alpha.capacity=20
capacity-scheduler:yarn.scheduler.capacity.root.beta.capacity=20
capacity-scheduler:yarn.scheduler.capacity.root.default.capacity=60

其中指定的所有容量总和为根队列资源的 100%。可以在 Hadoop documentation.

中找到容量调度程序的全套配置选项

Dataproc (Spark v2) 中的 Yarn 队列示例

Example of Yarn Queues in Dataproc (Spark v2)

hadoop-yarn

apache-spark

google-cloud-dataproc