Hadoop 的 HDFS 与 Spark
Hadoop's HDFS with Spark
我是集群计算的新手,我正在尝试在 Spark 中设置一个最小的 2 节点集群。
我仍然有点困惑的是:我是否必须首先设置完整的 Hadoop 安装或者 Spark 是否附带了一个包含的 Hadoop 版本?
我发现的关于 Spark 的资料并没有真正说明这一点。我知道 Spark 是作为 Hadoop 的扩展而不是替代它,但是如果它需要一个独立的 运行 Hadoop 系统我不清楚。
我需要一个 HDFS,因此仅使用 Hadoop 的文件系统部分就足够了吗?
有人可以向我指出这个可能很明显的事情吗?
Apache Spark 独立于 Hadoop。 Spark 允许您使用不同的数据源(包括 HDFS),并且能够 运行 无论是在独立集群中,还是使用现有的资源管理框架(例如 YARN、Mesos)。
因此,如果您只对 Spark 感兴趣,则无需安装 Hadoop。
我是集群计算的新手,我正在尝试在 Spark 中设置一个最小的 2 节点集群。 我仍然有点困惑的是:我是否必须首先设置完整的 Hadoop 安装或者 Spark 是否附带了一个包含的 Hadoop 版本?
我发现的关于 Spark 的资料并没有真正说明这一点。我知道 Spark 是作为 Hadoop 的扩展而不是替代它,但是如果它需要一个独立的 运行 Hadoop 系统我不清楚。
我需要一个 HDFS,因此仅使用 Hadoop 的文件系统部分就足够了吗?
有人可以向我指出这个可能很明显的事情吗?
Apache Spark 独立于 Hadoop。 Spark 允许您使用不同的数据源(包括 HDFS),并且能够 运行 无论是在独立集群中,还是使用现有的资源管理框架(例如 YARN、Mesos)。
因此,如果您只对 Spark 感兴趣,则无需安装 Hadoop。