是否可以在 Windows 上使用 Scala 语言的 SparkSession object 读取文件？

Question

我一直在尝试使用 SparkContext object 以多种方式读取 .csv 文件。我发现可以通过 scala.io.Source.fromFile 函数实现，但我想使用 spark object。每次我运行函数 textfile 为 org.apache.spark.SparkContext 我得到同样的错误：

scala>     sparkSession.read.csv("file://C:\Users\184229\Desktop\bigdata.csv")


21/12/29 16:47:32 WARN streaming.FileStreamSink: Error while looking for metadata directory.

java.lang.UnsupportedOperationException: Not implemented by the DistributedFileSystem FileSystem implementation
.....

如标题中所述，我运行 IntelliJ Windows 上的代码

[编辑] 在 build.sbt 中没有冗余或重叠的依赖项。我使用 hadoop-tools、spark-sql 和 hadoop-xz。

Answer 1

您是否尝试过运行您的 spark-shell 使用本地模式？

spark-shell --master=local

还要注意不要同时使用 Hadoop-code 和 Hadoop-commons 作为依赖项，因为您可能会遇到 jars 冲突问题。

Answer 2

我找到了解决方案，正是我的一位同事做到的。在依赖项 build.sbt 中，我将 hadoop-tools 更改为 hadoop-commons 并且成功了。

是否可以在 Windows 上使用 Scala 语言的 SparkSession object 读取文件？

Is it possible to read a file using SparkSession object of Scala language on Windows?

windows

scala

file

apache-spark