在现有 EC2 集群上设置 UP Spark

Setting UP Spark on existing EC2 cluster

我必须访问 Amazon S3 存储桶中的一些大文件并对它们进行处理。为此，我计划使用 Apache Spark。对于这个学习项目，我有 2 个 EC2 实例。这些只用于小型 crons，所以我可以使用它们来安装和运行 Spark 吗？如果是这样，如何在现有的EC2机器上安装Spark，这样我就可以做到一主一从？

如果有帮助，我在一个分支上以独立模式安装了 Spark，在另一个分支上也安装了独立模式，将一个设置为 Master，另一个设置为 slave。与我遵循的相同的详细说明是 https://spark.apache.org/docs/1.2.0/spark-standalone.html#installing-spark-standalone-to-a-cluster

在此处查看关于 EC2 上的 Apache Spark 集群的教程 http://www.supergloo.com/fieldnotes/apache-spark-cluster-amazon-ec2-tutorial/

是的，你可以轻松地创建一个主从与 2 个 aws 实例，只需在两个实例的 spark-env.sh 中设置 SPARK_MASTER_IP = instance_privateIP_1，并将 instance2 私有 ip 放入 slaves 文件中conf 文件夹和这些配置在两台机器上都是相同的，其他配置也设置为内存核心等。然后你可以从 master 启动它，并确保 spark 在两台机器上安装在相同的位置。

在现有 EC2 集群上设置 UP Spark

Setting UP Spark on existing EC2 cluster

amazon-s3

amazon-ec2

amazon-web-services

apache-spark