Dataproc 主节点配置
Dataproc master node configuration
我想知道 spark 的主节点应该有多好。(机器类型)我看到有人在谈论工作节点和执行器 cores/instances,但找不到主节点的任何建议。我是运行集群模式下的应用。有什么建议吗?
这实际上取决于集群的大小。 nanemode 保留文件系统中所有文件的目录树,并跟踪文件数据在集群中的保存位置。
因此,如果您有一个大型集群,则需要使用具有更多内存的主服务器。
例如,如果您在一个集群中有大约 500 台 i3.8xlarge 机器,您可以将 i3.8xlarge box 作为主机。但是,如果您有大约 1000 多个这样的盒子,您确实需要使用 R4 内存优化主节点。
如果你有一个相对较小的集群,主节点真的无关紧要。如果你是 运行 spark job with cluster mode ,spark driver 将从任何核心节点而不是主节点启动。所以就 spark 而言,主节点并不重要。但是管理大型集群主节点需要更大。
我想知道 spark 的主节点应该有多好。(机器类型)我看到有人在谈论工作节点和执行器 cores/instances,但找不到主节点的任何建议。我是运行集群模式下的应用。有什么建议吗?
这实际上取决于集群的大小。 nanemode 保留文件系统中所有文件的目录树,并跟踪文件数据在集群中的保存位置。
因此,如果您有一个大型集群,则需要使用具有更多内存的主服务器。
例如,如果您在一个集群中有大约 500 台 i3.8xlarge 机器,您可以将 i3.8xlarge box 作为主机。但是,如果您有大约 1000 多个这样的盒子,您确实需要使用 R4 内存优化主节点。
如果你有一个相对较小的集群,主节点真的无关紧要。如果你是 运行 spark job with cluster mode ,spark driver 将从任何核心节点而不是主节点启动。所以就 spark 而言,主节点并不重要。但是管理大型集群主节点需要更大。