如何使用 spark-shell 读取 .csv 文件
How to read .csv file using spark-shell
我正在使用带有预构建 hadoop 的独立 spark。我想知道应该导入哪个库才能让我读取 .csv 文件?
我从 github 找到了一个图书馆:https://github.com/tototoshi/scala-csv
但是当我按照自述文件中的说明输入 import com.github.tototoshi.csv._ 时,它不起作用。在导入它之前我应该做些其他事情吗,比如首先使用 sbt 构建它?我尝试使用 sbt 进行构建,但它也不起作用(我所做的是按照自述文件最后一部分中的步骤,将代码克隆到我的本地计算机,安装 sbt 并执行 ./sbt,但不起作用) .
只需启用 spark-csv 包,例如
spark-shell --packages com.databricks:spark-csv_2.10:1.4.0
这将启用 csv
格式,例如
val df = sqlContext.read.format("csv").load("foo.csv")
如果你有 header
val df = sqlContext.read.format("csv").option("header", "true").load("foo.csv")
有关所有选项,请参阅 github 存储库 https://github.com/databricks/spark-csv
您应该重新表述您的问题以解释它不起作用的原因,否则人们会继续投票。
如果您想使用 spark-shell,您可以在您的 shell 中提供要动态导入的包列表,并使用“--packages”,例如 @the.malkolm。我认为该解决方案仍然不完整,因为您不是在询问如何在 spark-shell 中修复它,而是在询问如何在 sbt 中进行编译。我在 https://github.com/tototoshi/scala-csv 之前用过 maven。我认为 sbt 中的情况并没有太大不同,除了在这里你必须将以下行添加到你的 build.sbt 然后 ./sbt.
libraryDependencies += "com.github.tototoshi" %% "scala-csv" % "1.3.0"
你可以试试databricks提供的library with sbt这一行
libraryDependencies += "com.databricks" %% "spark-csv_2.10" % "1.4.0"
如果那行不通,我建议您更好地了解 http://www.scala-sbt.org/documentation.html,因为这可能不是使用哪个库的问题,而是如何构建 sbt 项目的问题。
我正在使用带有预构建 hadoop 的独立 spark。我想知道应该导入哪个库才能让我读取 .csv 文件?
我从 github 找到了一个图书馆:https://github.com/tototoshi/scala-csv 但是当我按照自述文件中的说明输入 import com.github.tototoshi.csv._ 时,它不起作用。在导入它之前我应该做些其他事情吗,比如首先使用 sbt 构建它?我尝试使用 sbt 进行构建,但它也不起作用(我所做的是按照自述文件最后一部分中的步骤,将代码克隆到我的本地计算机,安装 sbt 并执行 ./sbt,但不起作用) .
只需启用 spark-csv 包,例如
spark-shell --packages com.databricks:spark-csv_2.10:1.4.0
这将启用 csv
格式,例如
val df = sqlContext.read.format("csv").load("foo.csv")
如果你有 header
val df = sqlContext.read.format("csv").option("header", "true").load("foo.csv")
有关所有选项,请参阅 github 存储库 https://github.com/databricks/spark-csv
您应该重新表述您的问题以解释它不起作用的原因,否则人们会继续投票。
如果您想使用 spark-shell,您可以在您的 shell 中提供要动态导入的包列表,并使用“--packages”,例如 @the.malkolm。我认为该解决方案仍然不完整,因为您不是在询问如何在 spark-shell 中修复它,而是在询问如何在 sbt 中进行编译。我在 https://github.com/tototoshi/scala-csv 之前用过 maven。我认为 sbt 中的情况并没有太大不同,除了在这里你必须将以下行添加到你的 build.sbt 然后 ./sbt.
libraryDependencies += "com.github.tototoshi" %% "scala-csv" % "1.3.0"
你可以试试databricks提供的library with sbt这一行
libraryDependencies += "com.databricks" %% "spark-csv_2.10" % "1.4.0"
如果那行不通,我建议您更好地了解 http://www.scala-sbt.org/documentation.html,因为这可能不是使用哪个库的问题,而是如何构建 sbt 项目的问题。