SparkR 以二进制而不是字符串形式读取列
SparkR reading in column as binary instead of string
我在 Impala/Hive 中有一个 table,它被定义为字符串类型:
name, type
tdate, string
area, int
(例如)。
当我在 Parquet 文件中读到它基于:
df<-parquetFile(sqlContext,'/path/to/main/folder')
df
它告诉我它有 binary
个字段?
DataFrame[tdate:binary, area:int]
我该如何解决这个问题?
谢谢!
解决方法在这里:
我找到了问题的解决方案。
我们可以做到以下几点:
sql(sqlContext,'SET spark.sql.parquet.binaryAsString=true')
这解决了所有问题。
我在 Impala/Hive 中有一个 table,它被定义为字符串类型:
name, type
tdate, string
area, int
(例如)。
当我在 Parquet 文件中读到它基于:
df<-parquetFile(sqlContext,'/path/to/main/folder')
df
它告诉我它有 binary
个字段?
DataFrame[tdate:binary, area:int]
我该如何解决这个问题?
谢谢!
解决方法在这里:
我找到了问题的解决方案。
我们可以做到以下几点:
sql(sqlContext,'SET spark.sql.parquet.binaryAsString=true')
这解决了所有问题。