SparkR 以二进制而不是字符串形式读取列

SparkR reading in column as binary instead of string

我在 Impala/Hive 中有一个 table,它被定义为字符串类型:

name, type
tdate, string
area, int

(例如)。

当我在 Parquet 文件中读到它基于:

df<-parquetFile(sqlContext,'/path/to/main/folder')
df

它告诉我它有 binary 个字段?

DataFrame[tdate:binary, area:int]

我该如何解决这个问题?

谢谢!

解决方法在这里:

我找到了问题的解决方案。

我们可以做到以下几点:

sql(sqlContext,'SET spark.sql.parquet.binaryAsString=true')

这解决了所有问题。