将文件指向 hadoop 集群

Pointing a file to the hadoop cluster

scala
bigdata
apache-spark

我有一个文件存储在服务器中。我希望文件在运行 spark 时指向 Hadoop 集群。我所拥有的是我可以将 spark 上下文指向 hadoop 集群，但是现在它指向集群时无法在 Spark 中访问数据。我将数据存储在本地，因此为了访问数据，我必须将其指向本地。但是，这会导致大量内存错误。我希望做的是将 Spark 指向集群，但同时访问我存储在本地的数据。请提供一些方法让我可以做到这一点。

Spark（在 Hadoop 上）无法读取本地存储的文件。请记住，spark 是多台机器上的分布式系统运行，因此它无法直接读取其中一个节点（localhost 除外）上的数据。

您应该将文件放在 HDFS 上并让 spark 从那里读取它。

要在本地访问它，您应该使用 hadoop fs -get <hdfs filepath> 或 hadoop fs -cat <hdfs filepath> 命令。

将文件指向 hadoop 集群

Pointing a file to the hadoop cluster

scala

bigdata

apache-spark