如果我已经安装了 Hadoop，我应该下载带 Hadoop 还是不带 Hadoop 的 Apache Spark？

If I already have Hadoop installed, should I download Apache Spark WITH Hadoop or WITHOUT Hadoop?

我已经安装了 Hadoop 3.0.0。我现在应该安装 with-hadoop 还是 without-hadoop 版本的 Apache Spark from this page?

我正在关注 this guide 开始使用 Apache Spark。
它说

Download the latest version of Apache Spark (Pre-built according to your Hadoop version) from this link:...

但是我很困惑。如果我的机器中已经有一个 Hadoop 运行ning 实例，然后我下载、安装并运行 Apache-Spark-WITH-Hadoop，它不会启动另一个额外的 Hadoop 实例吗？

首先，据我所知，Spark 还不支持 Hadoop 3。您会注意到 "your Hadoop version" 没有可供下载的可用选项。

您可以尝试在您的 spark-env.sh 中设置 HADOOP_CONF_DIR 和 HADOOP_HOME，无论您下载哪个。

如果您已经安装了 Hadoop，则应始终下载不带 Hadoop 的版本。

won't it start another additional instance of Hadoop?

没有。您仍然需要显式配置并启动该版本的 Hadoop。

Spark 选项已经配置为使用包含的 Hadoop，我相信

这是对@cricket_007的回答的补充。

如果您安装了Hadoop，请不要下载带有Hadoop 的spark，但是，由于您的Hadoop 版本仍然不受任何版本的spark 支持，因此您需要下载带有Hadoop 的。不过，您需要在计算机上配置捆绑的 Hadoop 版本，以便 Spark 开启运行。这意味着您在 Hadoop 3 上的所有数据都将 LOST。所以，如果您需要这些数据，请在开始您的 downgrade/re-configuration 之前备份数据。由于某些环境变量，我认为您无法在同一系统上托管 2 个 Hadoop 实例。

如果我已经安装了 Hadoop，我应该下载带 Hadoop 还是不带 Hadoop 的 Apache Spark？

If I already have Hadoop installed, should I download Apache Spark WITH Hadoop or WITHOUT Hadoop?

hadoop

apache-spark

hadoop3