Spark SQL "No input paths specified in job",但是可以打印Schema
Spark SQL "No input paths specified in job", but can printSchema
我可以阅读 Json 和 printSchema
,但是 运行 任何操作都失败(作业中未指定输入路径)。
val sc = new org.apache.spark.SparkContext("local[*]", "shell")
val sqlCtx = new SQLContext(sc)
val input = sqlCtx.jsonFile("../data/tweets/")
input.printSchema
root
|-- contributorsIDs: array (nullable = true)
| |-- element: string (containsNull = true)
|-- createdAt: string (nullable = true)
...
input.first
java.io.IOException: No input paths specified in job
文件夹结构如下:
- 推文
- tweets_1444576960000
- _成功
- part-00000
- tweets_1444577070000
- _成功
- part-00000
备注:
- 我正在使用 Spark 和 Spark SQL 版本 1.5.0
- 执行者
local[*]
在同一台机器上
- 我尝试用绝对路径替换文件路径。同样的错误
- Json 推文是使用 databrick's example app here
获取的
好的,通过指定路径解决问题
val input = sqlCtx.jsonFile("../data/tweets/tweets_*/*")
我可以阅读 Json 和 printSchema
,但是 运行 任何操作都失败(作业中未指定输入路径)。
val sc = new org.apache.spark.SparkContext("local[*]", "shell")
val sqlCtx = new SQLContext(sc)
val input = sqlCtx.jsonFile("../data/tweets/")
input.printSchema
root
|-- contributorsIDs: array (nullable = true)
| |-- element: string (containsNull = true)
|-- createdAt: string (nullable = true)
...
input.first
java.io.IOException: No input paths specified in job
文件夹结构如下:
- 推文
- tweets_1444576960000
- _成功
- part-00000
- tweets_1444577070000
- _成功
- part-00000
- tweets_1444576960000
备注:
- 我正在使用 Spark 和 Spark SQL 版本 1.5.0
- 执行者
local[*]
在同一台机器上 - 我尝试用绝对路径替换文件路径。同样的错误
- Json 推文是使用 databrick's example app here 获取的
好的,通过指定路径解决问题
val input = sqlCtx.jsonFile("../data/tweets/tweets_*/*")