我可以在开发环境中使用没有 Hadoop 的 Spark 吗？

Question

我对大数据和相关领域的概念还很陌生，如果我犯了一些错误或打字错误，我深表歉意。

我想了解Apache Spark and use it only in my computer, in a development / test environment. As Hadoop include HDFS (Hadoop Distributed File System) and other softwares that only matters to distributed systems, can I discard that? If so, where can I download a version of Spark that doesn't need Hadoop? Here我只能找到 Hadoop 依赖版本。

我需要什么：

运行 Spark 的所有功能都没有问题，但在一台计算机（我的家用计算机）中。
我在我的计算机上用 Spark 制作的所有东西都应该运行在未来的集群中没有问题。

如果我将运行在我的计算机上用于测试目的，是否有理由将 Hadoop 或任何其他分布式文件系统用于 Spark？

请注意，“”与我的问题不同，因为我确实希望在开发环境中使用运行 Spark。

Answer 1

是的，您可以在没有 Hadoop 的情况下安装 Spark。查看 Spark 官方文档：http://spark.apache.org/docs/latest/spark-standalone.html

大致步骤：

下载预编译的 spark 或下载 spark 源码并在本地构建
摘录TAR
设置所需的环境变量
运行启动脚本 .

Spark（没有 Hadoop）- 在 Spark 下载页面上可用 URL : https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz

如果这个 url 不起作用，请尝试从 Spark 下载页面获取它

Answer 2

这不是对原始问题的正确回答。对不起，是我的错。

如果有人要运行spark without hadoop分配tar.gz.

需要设置环境变量。这 spark-env.sh 对我有用。

#!/bin/sh
export SPARK_DIST_CLASSPATH=$(hadoop classpath)

我可以在开发环境中使用没有 Hadoop 的 Spark 吗？

Can I use Spark without Hadoop for development environment?

filesystems

hadoop

apache-spark

我需要什么：