运行 windows 上的 Apache Spark

Running apache Spark on windows

我正尝试在 windows 上 运行 apache spark。有人可以给我一步一步的指导来做到这一点。我已经下载了 spark , sbt 和 scala 。有人可以一步一步给出。我想运行将其作为独立程序


您可以找到分步指南 Here。在 sigmoidanalytics 站点。但是不同版本的spark是不一样的。
如果您尝试使用 eclipse 构建一个使用 maven spark 依赖项的独立应用程序,您必须安装 cygwin 并将 cygwin/bin 添加到您的路径,因为 Spark 使用 linux 命令“ ls " 用于查找文件权限。

如果您使用 sbt 方法构建,那么您还需要 git。
在你的机器上安装 Scala、sbt 和 git。下载 Spark 源代码和 运行 以下命令

sbt assembly

以防万一,如果你使用预构建版本,这里是一步一步的过程:
How to run Apache Spark on Windows7 in standalone mode

取决于您想要做什么 运行。如果尝试 运行 Spark Shell,请按照以下说明进行操作 http://nishutayaltech.blogspot.co.uk/2015/04/how-to-run-apache-spark-on-windows7-in.html

如果尝试 运行 自己的 spark 作业,请在(JAVA/SCALA/Python)中创建一个简单的应用程序。我使用 Scala 进行开发,因此在 Scala 中包含以下库:

"org.apache.spark" %% "spark-core" % "2.1.0",
"org.apache.spark" %% "spark-sql" % "2.1.0",
"org.apache.spark" %% "spark-streaming" % "2.1.0",

然后编写一个简单的主要方法来测试它:

 object MainProcessorJob extends App {
 private val applicationName = "FileProcessor"
 private val cores = "local[5]"
 private val intervalSecs = 1
 start()
 def start(): Unit = {
 val sparkConf = new SparkConf(true)
 val sparkContext = new SparkContext(cores, applicationName, sparkConf)
 ----------
}

您应该可以在 intelliJ/eclipse 中右键单击并运行这个。