如果我已经安装了 Hadoop,我应该下载带 Hadoop 还是不带 Hadoop 的 Apache Spark?

If I already have Hadoop installed, should I download Apache Spark WITH Hadoop or WITHOUT Hadoop?

我已经安装了 Hadoop 3.0.0。我现在应该安装 with-hadoop 还是 without-hadoop 版本的 Apache Spark from this page?

我正在关注 this guide 开始使用 Apache Spark。
它说

Download the latest version of Apache Spark (Pre-built according to your Hadoop version) from this link:...

但是我很困惑。如果我的机器中已经有一个 Hadoop 运行ning 实例,然后我下载、安装并 运行 Apache-Spark-WITH-Hadoop,它不会启动另一个额外的 Hadoop 实例吗?

首先,据我所知,Spark 还不支持 Hadoop 3。您会注意到 "your Hadoop version" 没有可供下载的可用选项。

您可以尝试在您的 spark-env.sh 中设置 HADOOP_CONF_DIRHADOOP_HOME,无论您下载哪个。

如果您已经安装了 Hadoop,则应始终下载不带 Hadoop 的版本。

won't it start another additional instance of Hadoop?

没有。您仍然需要显式配置并启动该版本的 Hadoop。

Spark 选项已经配置为使用包含的 Hadoop,我相信

这是对@cricket_007的回答的补充。

如果您安装了Hadoop,请不要下载带有Hadoop 的spark,但是,由于您的Hadoop 版本仍然不受任何版本的spark 支持,因此您需要下载带有Hadoop 的。不过,您需要在计算机上配置捆绑的 Hadoop 版本,以便 Spark 开启 运行。这意味着您在 Hadoop 3 上的所有数据都将 LOST。所以,如果您需要这些数据,请在开始您的 downgrade/re-configuration 之前备份数据。由于某些环境变量,我认为您无法在同一系统上托管 2 个 Hadoop 实例。