运行 Spark 的最佳方式

Best way to Run Spark

我们正在进行一个小组项目,我们想利用 spark。但是,我们不知道在我们的计算机上 运行 它的最佳方式是什么。我们曾想也许是 Hortonworks,有人建议看看 Maven。不过我们不确定。

我们是学生,所以我们不能买任何东西(至少不能买任何昂贵的东西)。

当我在计算机上搜索 运行 Spark 的方法时 (windows),它通常会弹出编译技巧或代码帮助。

你有很多选择:

  1. 在本地下载 source from github or Apache 和 运行。 自述文件有说明,或者您可以下载 Learning Spark 并阅读第 2 章。
  2. 下载Cloudera Distribution Hadoop 5 QuickStart Virtual Machine。这需要像 VMWare 或 VirtualBox(确保在您的 BIOS 中启用了 VT-x)。这个 运行s 火花 在伪分布式单机模式下并允许您 运行 它 在具有一些配置更改的 Yarn 容器中。你也是 可以 运行 Spark 本地开箱即用,具有所有依赖项 安装。
  3. 下载 Hortonworks 虚拟机。它的工作原理与 Cloudera 的产品非常相似,但我不太熟悉它。

如果您的机器能够 运行 运行重量级 VM 并且您想在伪分布式环境中尝试 运行 运行它,我推荐 Cloudera。如果您只想学习如何使用 API 进行编程,请尝试第一个选项。

  1. http://spark.apache.org/downloads.html 下载预构建的 Spark 版本。
  2. 运行bin/spark-shell.cmd。看 http://spark.apache.org/docs/latest/quick-start.html.

运行spark 的最简单和最快的方法是以独立模式部署它。请参阅本指南:http://spark.apache.org/docs/1.3.0/spark-standalone.html

当您使用 Windows 机器时,我建议在使用 Maven 构建之前先看一下:

下载源代码并修改 pom.xml 后,使用

构建
mvn -DskipTests clean package

如果您告诉我们更多关于您计划如何在您的项目中使用 spark 的信息,我们可能会为您提供更好的答案。