如何在具有单节点(CentOS)Yarn 集群的单机(CentOS)上安装 spark
How to install spark on a single machine(CentOS) which has single node(CentOS) Yarn cluster
作为一个hadoop/Spark初学者,我已经按照本website中的教程成功地在我的单机(CentOS 6)上部署了一个hadoop框架。现在我想在同一台机器上也安装Spark 1.2,让它与我机器上的单节点Yarn集群一起工作,这意味着在我单机上存储在hdfs上的文件上执行Spark SQL并输出结果到高清文件系统。对于所需的其余步骤,我没有在网上找到针对此场景的好教程。
到目前为止我所做的是:
(1) 从Scala 官方网站下载并安装了scala 2.9.3。 "scala -version" 命令有效!
(2) 从 Apache Spark 网站下载了 Spark 1.2.1(为 Hadoop 2.4 或更高版本预构建)并已解压。
接下来要做什么?如何更改 Spark 目录中的哪个配置文件?有人可以提供分步教程吗?特别是如何配置spark-env.sh。越详细越好。谢谢! (如果您对我如何配置 hadoop 和 yarn 有疑问,我完全按照我之前提到的那个网站中列出的步骤进行操作)
如果你想使用 YARN 那么你必须使用 maven 编译 spark。根据您想要的支持(hadoop 版本、hive 兼容性等),有各种参数。这是带有参数详细信息的 link:http://spark.apache.org/docs/1.2.1/building-spark.html
这是我用来在 Apache Hadoop 2.6.0 上安装带有配置单元支持的 spark 的命令:
mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4 -Phive -Phive-0.12.0 -Phive-thriftserver -DskipTests clean package
对于运行单节点集群,不需要更改spark-env.sh。只需在您的环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR 就足够了。对于非纱线模式,您甚至不需要它。 spark-env.sh 允许在一个地方设置各种环境变量,这样你就可以把你的 hadoop 配置、内存调整设置等放在一个地方。该模板有很好的文档记录。
只需使用 sbin 目录中的脚本启动集群组件(通常 start-all.sh 就足够了)。还有一点 - 如果您希望您的 sparkSQL 使用 Hive metastore,那么您必须将 hive-site.xml 放在 conf 目录中,并将 hive.metastore.uris
的值设置为指向您的 metastore 服务器。
作为一个hadoop/Spark初学者,我已经按照本website中的教程成功地在我的单机(CentOS 6)上部署了一个hadoop框架。现在我想在同一台机器上也安装Spark 1.2,让它与我机器上的单节点Yarn集群一起工作,这意味着在我单机上存储在hdfs上的文件上执行Spark SQL并输出结果到高清文件系统。对于所需的其余步骤,我没有在网上找到针对此场景的好教程。
到目前为止我所做的是:
(1) 从Scala 官方网站下载并安装了scala 2.9.3。 "scala -version" 命令有效!
(2) 从 Apache Spark 网站下载了 Spark 1.2.1(为 Hadoop 2.4 或更高版本预构建)并已解压。
接下来要做什么?如何更改 Spark 目录中的哪个配置文件?有人可以提供分步教程吗?特别是如何配置spark-env.sh。越详细越好。谢谢! (如果您对我如何配置 hadoop 和 yarn 有疑问,我完全按照我之前提到的那个网站中列出的步骤进行操作)
如果你想使用 YARN 那么你必须使用 maven 编译 spark。根据您想要的支持(hadoop 版本、hive 兼容性等),有各种参数。这是带有参数详细信息的 link:http://spark.apache.org/docs/1.2.1/building-spark.html
这是我用来在 Apache Hadoop 2.6.0 上安装带有配置单元支持的 spark 的命令:
mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4 -Phive -Phive-0.12.0 -Phive-thriftserver -DskipTests clean package
对于运行单节点集群,不需要更改spark-env.sh。只需在您的环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR 就足够了。对于非纱线模式,您甚至不需要它。 spark-env.sh 允许在一个地方设置各种环境变量,这样你就可以把你的 hadoop 配置、内存调整设置等放在一个地方。该模板有很好的文档记录。
只需使用 sbin 目录中的脚本启动集群组件(通常 start-all.sh 就足够了)。还有一点 - 如果您希望您的 sparkSQL 使用 Hive metastore,那么您必须将 hive-site.xml 放在 conf 目录中,并将 hive.metastore.uris
的值设置为指向您的 metastore 服务器。