将文件指向 hadoop 集群
Pointing a file to the hadoop cluster
我有一个文件存储在服务器中。我希望文件在 运行 spark 时指向 Hadoop 集群。我所拥有的是我可以将 spark 上下文指向 hadoop 集群,但是现在它指向集群时无法在 Spark 中访问数据。我将数据存储在本地,因此为了访问数据,我必须将其指向本地。但是,这会导致大量内存错误。我希望做的是将 Spark 指向集群,但同时访问我存储在本地的数据。请提供一些方法让我可以做到这一点。
Spark(在 Hadoop 上)无法读取本地存储的文件。请记住,spark 是多台机器上的分布式系统 运行,因此它无法直接读取其中一个节点(localhost 除外)上的数据。
您应该将文件放在 HDFS 上并让 spark 从那里读取它。
要在本地访问它,您应该使用 hadoop fs -get <hdfs filepath>
或 hadoop fs -cat <hdfs filepath>
命令。
我有一个文件存储在服务器中。我希望文件在 运行 spark 时指向 Hadoop 集群。我所拥有的是我可以将 spark 上下文指向 hadoop 集群,但是现在它指向集群时无法在 Spark 中访问数据。我将数据存储在本地,因此为了访问数据,我必须将其指向本地。但是,这会导致大量内存错误。我希望做的是将 Spark 指向集群,但同时访问我存储在本地的数据。请提供一些方法让我可以做到这一点。
Spark(在 Hadoop 上)无法读取本地存储的文件。请记住,spark 是多台机器上的分布式系统 运行,因此它无法直接读取其中一个节点(localhost 除外)上的数据。
您应该将文件放在 HDFS 上并让 spark 从那里读取它。
要在本地访问它,您应该使用 hadoop fs -get <hdfs filepath>
或 hadoop fs -cat <hdfs filepath>
命令。