Spark SQL "No input paths specified in job"，但是可以打印Schema

Question

我可以阅读 Json 和 printSchema，但是运行任何操作都失败（作业中未指定输入路径）。

val sc = new org.apache.spark.SparkContext("local[*]", "shell")
val sqlCtx = new SQLContext(sc)
val input = sqlCtx.jsonFile("../data/tweets/")
input.printSchema

root
|-- contributorsIDs: array (nullable = true)
| |-- element: string (containsNull = true)
|-- createdAt: string (nullable = true)
...

input.first
java.io.IOException: No input paths specified in job

文件夹结构如下：

推文
- tweets_1444576960000
  - _成功
  - part-00000
- tweets_1444577070000
  - _成功
  - part-00000

备注：

我正在使用 Spark 和 Spark SQL 版本 1.5.0
执行者 local[*] 在同一台机器上
我尝试用绝对路径替换文件路径。同样的错误
Json 推文是使用 databrick's example app here

Answer 1

好的，通过指定路径解决问题

val input = sqlCtx.jsonFile("../data/tweets/tweets_*/*")

Spark SQL "No input paths specified in job"，但是可以打印Schema

Spark SQL "No input paths specified in job", but can printSchema

scala

apache-spark

apache-spark-sql