在现有 EC2 集群上设置 UP Spark

Setting UP Spark on existing EC2 cluster

我必须访问 Amazon S3 存储桶中的一些大文件并对它们进行处理。为此,我计划使用 Apache Spark。对于这个学习项目,我有 2 个 EC2 实例。这些只用于小型 crons,所以我可以使用它们来安装和 运行 Spark 吗?如果是这样,如何在现有的EC2机器上安装Spark,这样我就可以做到一主一从?

如果有帮助,我在一个分支上以独立模式安装了 Spark,在另一个分支上也安装了独立模式,将一个设置为 Master,另一个设置为 slave。与我遵循的相同的详细说明是 https://spark.apache.org/docs/1.2.0/spark-standalone.html#installing-spark-standalone-to-a-cluster

在此处查看关于 EC2 上的 Apache Spark 集群的教程 http://www.supergloo.com/fieldnotes/apache-spark-cluster-amazon-ec2-tutorial/

是的,你可以轻松地创建一个主从与 2 个 aws 实例,只需在两个实例的 spark-env.sh 中设置 SPARK_MASTER_IP = instance_privateIP_1,并将 instance2 私有 ip 放入 slaves 文件中conf 文件夹和这些配置在两台机器上都是相同的,其他配置也设置为内存核心等。然后你可以从 master 启动它,并确保 spark 在两台机器上安装在相同的位置。