如何在具有单节点（CentOS）Yarn 集群的单机（CentOS）上安装 spark

Question

作为一个hadoop/Spark初学者，我已经按照本website中的教程成功地在我的单机（CentOS 6）上部署了一个hadoop框架。现在我想在同一台机器上也安装Spark 1.2，让它与我机器上的单节点Yarn集群一起工作，这意味着在我单机上存储在hdfs上的文件上执行Spark SQL并输出结果到高清文件系统。对于所需的其余步骤，我没有在网上找到针对此场景的好教程。

到目前为止我所做的是：
(1) 从Scala 官方网站下载并安装了scala 2.9.3。 "scala -version" 命令有效！
(2) 从 Apache Spark 网站下载了 Spark 1.2.1（为 Hadoop 2.4 或更高版本预构建）并已解压。

接下来要做什么？如何更改 Spark 目录中的哪个配置文件？有人可以提供分步教程吗？特别是如何配置spark-env.sh。越详细越好。谢谢！（如果您对我如何配置 hadoop 和 yarn 有疑问，我完全按照我之前提到的那个网站中列出的步骤进行操作）

Answer 1

如果你想使用 YARN 那么你必须使用 maven 编译 spark。根据您想要的支持（hadoop 版本、hive 兼容性等），有各种参数。这是带有参数详细信息的 link：http://spark.apache.org/docs/1.2.1/building-spark.html

这是我用来在 Apache Hadoop 2.6.0 上安装带有配置单元支持的 spark 的命令：

mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4 -Phive -Phive-0.12.0 -Phive-thriftserver -DskipTests clean package

对于运行单节点集群，不需要更改spark-env.sh。只需在您的环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR 就足够了。对于非纱线模式，您甚至不需要它。 spark-env.sh 允许在一个地方设置各种环境变量，这样你就可以把你的 hadoop 配置、内存调整设置等放在一个地方。该模板有很好的文档记录。

只需使用 sbin 目录中的脚本启动集群组件（通常 start-all.sh 就足够了）。还有一点 - 如果您希望您的 sparkSQL 使用 Hive metastore，那么您必须将 hive-site.xml 放在 conf 目录中，并将 hive.metastore.uris 的值设置为指向您的 metastore 服务器。

如何在具有单节点（CentOS）Yarn 集群的单机（CentOS）上安装 spark

How to install spark on a single machine(CentOS) which has single node(CentOS) Yarn cluster

hadoop

centos

apache-spark