SparkR 以二进制而不是字符串形式读取列

Question

我在 Impala/Hive 中有一个 table，它被定义为字符串类型：

name, type
tdate, string
area, int

（例如）。

当我在 Parquet 文件中读到它基于：

df<-parquetFile(sqlContext,'/path/to/main/folder')
df

它告诉我它有 binary 个字段？

DataFrame[tdate:binary, area:int]

我该如何解决这个问题？

谢谢！

Answer 1

解决方法在这里：

我找到了问题的解决方案。

我们可以做到以下几点：

sql(sqlContext,'SET spark.sql.parquet.binaryAsString=true')

这解决了所有问题。

SparkR reading in column as binary instead of string