如何使用 spark-shell 读取 .csv 文件

Question

我正在使用带有预构建 hadoop 的独立 spark。我想知道应该导入哪个库才能让我读取 .csv 文件？

我从 github 找到了一个图书馆：https://github.com/tototoshi/scala-csv 但是当我按照自述文件中的说明输入 import com.github.tototoshi.csv._ 时，它不起作用。在导入它之前我应该做些其他事情吗，比如首先使用 sbt 构建它？我尝试使用 sbt 进行构建，但它也不起作用（我所做的是按照自述文件最后一部分中的步骤，将代码克隆到我的本地计算机，安装 sbt 并执行 ./sbt，但不起作用） .

Answer 1

只需启用 spark-csv 包，例如

spark-shell --packages com.databricks:spark-csv_2.10:1.4.0

这将启用 csv 格式，例如

val df = sqlContext.read.format("csv").load("foo.csv")

如果你有 header

val df = sqlContext.read.format("csv").option("header", "true").load("foo.csv")

有关所有选项，请参阅 github 存储库 https://github.com/databricks/spark-csv

Answer 2

您应该重新表述您的问题以解释它不起作用的原因，否则人们会继续投票。

如果您想使用 spark-shell，您可以在您的 shell 中提供要动态导入的包列表，并使用“--packages”，例如 @the.malkolm。我认为该解决方案仍然不完整，因为您不是在询问如何在 spark-shell 中修复它，而是在询问如何在 sbt 中进行编译。我在 https://github.com/tototoshi/scala-csv 之前用过 maven。我认为 sbt 中的情况并没有太大不同，除了在这里你必须将以下行添加到你的 build.sbt 然后 ./sbt.

libraryDependencies += "com.github.tototoshi" %% "scala-csv" % "1.3.0"

你可以试试databricks提供的library with sbt这一行

libraryDependencies += "com.databricks" %% "spark-csv_2.10" % "1.4.0"

如果那行不通，我建议您更好地了解 http://www.scala-sbt.org/documentation.html，因为这可能不是使用哪个库的问题，而是如何构建 sbt 项目的问题。

如何使用 spark-shell 读取 .csv 文件

How to read .csv file using spark-shell

apache-spark

spark-streaming