在 yarn 集群上设置 spark 时需要哪些守护进程?

Which daemons are required while setting up spark on yarn cluster?

我了解以下是 spark 集群所需的守护进程

  1. 硕士
  2. 工人(奴隶)
  3. 驱动程序(提交申请时启动)
  4. 执行器(提交申请时启动)

在 yarn 集群上设置 Spark 时,我有一些非常基本的问题

  1. 是否有单独启动 spark 的主守护进程或工作守护进程?我了解纱线集群本身的资源管理器和节点管理器将充当火花作业的主人和工人。从这篇文章 http://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/ 看来,似乎没有 master/slave 单独用于 spark on yarn 的守护进程。
  2. 如果以上问题的答案是否定的。当我们尝试在现有纱线上设置 spark 时,我们是否需要在提交 spark 应用程序之前启动任何 Persistent 守护进程?
  3. spark-1.5.0-bin-hadoop2.4\sbin 目录中的任何启动-停止脚本在这种情况下都会有用吗?
  4. 驱动程序完成执行后,Spark WEB UI 不可用。我说得对吗?

以下是您问题的答案:-

  1. 在yarn模式下,你不需要Master或者Worker或者Executors。你只需要向 Yarn 提交你的应用程序,其余的 Yarn 将自行管理。请参阅 Deployment 如何利用 Yarn 作为集群管理器的部分。
  2. 如果您的 Yarn 集群已启动并且 运行 并准备好服务,那么您不需要任何其他守护进程。
  3. 取决于您想要做什么,但可以使用 SPARK_HOME/sbin/spark-config.shSPARK_HOME/sbin/start-history-server.sh 等脚本。
  4. Spark Web UI 仅在独立模式下可用。在 yarn Driver UI 中,当您的作业正在执行时可用,或者您需要打开历史服务器以在作业完成后进行分析。