我可以在开发环境中使用没有 Hadoop 的 Spark 吗?

Can I use Spark without Hadoop for development environment?

我对大数据和相关领域的概念还很陌生,如果我犯了一些错误或打字错误,我深表歉意。

我想了解Apache Spark and use it only in my computer, in a development / test environment. As Hadoop include HDFS (Hadoop Distributed File System) and other softwares that only matters to distributed systems, can I discard that? If so, where can I download a version of Spark that doesn't need Hadoop? Here我只能找到 Hadoop 依赖版本。

我需要什么:

如果我将 运行 在我的计算机上用于测试目的,是否有理由将 Hadoop 或任何其他分布式文件系统用于 Spark?

请注意,“”与我的问题不同,因为我确实希望在开发环境中使用 运行 Spark。

是的,您可以在没有 Hadoop 的情况下安装 Spark。 查看 Spark 官方文档:http://spark.apache.org/docs/latest/spark-standalone.html

大致步骤:

  1. 下载预编译的 spark 或下载 spark 源码并在本地构建
  2. 摘录TAR
  3. 设置所需的环境变量
  4. 运行 启动脚本 .

Spark(没有 Hadoop)- 在 Spark 下载页面上可用 URL : https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz

如果这个 url 不起作用,请尝试从 Spark 下载页面获取它

这不是对原始问题的正确回答。 对不起,是我的错。


如果有人要运行spark without hadoop分配tar.gz.

需要设置环境变量。这 spark-env.sh 对我有用。

#!/bin/sh
export SPARK_DIST_CLASSPATH=$(hadoop classpath)