Spark 1.6 在保持分区字段的数据框中加载特定分区
Spark 1.6 load specific partition in dataframe keeping partition field
我们有一个分区如下的 avro:
table
--a=01
--a=02
我们想从单个分区加载数据,保留分区列 a。
我找到 并应用了建议的代码段:
DataFrame df = hiveContext.read().format(format).
option("basePath", "path/to/table/").
load("path/to/table/a=01")
但是当我尝试读取字段 a 时,它说:
org.apache.spark.sql.AnalysisException: cannot resolve 'a' given input columns: [b, c, d]
在 Spark Java API 1.6 中有可能吗?
简单地说,答案是……不,这是不可能的。
我们有一个分区如下的 avro:
table
--a=01
--a=02
我们想从单个分区加载数据,保留分区列 a。
我找到
DataFrame df = hiveContext.read().format(format).
option("basePath", "path/to/table/").
load("path/to/table/a=01")
但是当我尝试读取字段 a 时,它说:
org.apache.spark.sql.AnalysisException: cannot resolve 'a' given input columns: [b, c, d]
在 Spark Java API 1.6 中有可能吗?
简单地说,答案是……不,这是不可能的。