Dataproc 主节点配置

Dataproc master node configuration

我想知道 spark 的主节点应该有多好。（机器类型）我看到有人在谈论工作节点和执行器 cores/instances，但找不到主节点的任何建议。我是运行集群模式下的应用。有什么建议吗？

这实际上取决于集群的大小。 nanemode 保留文件系统中所有文件的目录树，并跟踪文件数据在集群中的保存位置。

因此，如果您有一个大型集群，则需要使用具有更多内存的主服务器。

例如，如果您在一个集群中有大约 500 台 i3.8xlarge 机器，您可以将 i3.8xlarge box 作为主机。但是，如果您有大约 1000 多个这样的盒子，您确实需要使用 R4 内存优化主节点。

如果你有一个相对较小的集群，主节点真的无关紧要。如果你是运行 spark job with cluster mode ，spark driver 将从任何核心节点而不是主节点启动。所以就 spark 而言，主节点并不重要。但是管理大型集群主节点需要更大。