SparkR显示汉字错误
SparkR show Chinese character wrong
我是SparkR的新手,这几天遇到一个问题,将一个包含汉字的文件转换成SparkR后,就不能正常显示了。像这样:
city=c("北京","上海","杭州")
A <- as.data.frame(city)
A
city
1 北京
2 上海
3 杭州
然后,我基于它在SparkR中创建了一个DataFram,并收集起来,一切都变了。
collect(createDataFrame(sqlContext,A))
city
1 7\xac
2 \nw
3 m\xde
我不知道如何将它们转回可读的汉字,甚至我希望我能在SparkR中得到可读的汉字,这样应该方便我调试。
我用的是linux服务器,不知道是不是跟那个有关。有人知道吗?
下面是sessionInfo()
> sessionInfo()
R version 3.2.2 (2015-08-14)
Platform: x86_64-redhat-linux-gnu (64-bit)
Running under: Red Hat Enterprise Linux Server 7.2 (Maipo)
locale:
[1] LC_CTYPE=en_US.UTF-8 LC_NUMERIC=C LC_TIME=en_US.UTF-8 LC_COLLATE=en_US.UTF-8
[5] LC_MONETARY=en_US.UTF-8 LC_MESSAGES=en_US.UTF-8 LC_PAPER=en_US.UTF-8 LC_NAME=C
[9] LC_ADDRESS=C LC_TELEPHONE=C LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] SparkR_1.5.2
loaded via a namespace (and not attached):
[1] tools_3.2.2
这是一个已知问题(通常影响 Unicode 字符)并且已在 1.6 中解决。参见 SPARK-8951。您可以修补和重建 1.5 或升级到 1.6
我是SparkR的新手,这几天遇到一个问题,将一个包含汉字的文件转换成SparkR后,就不能正常显示了。像这样:
city=c("北京","上海","杭州")
A <- as.data.frame(city)
A
city
1 北京
2 上海
3 杭州
然后,我基于它在SparkR中创建了一个DataFram,并收集起来,一切都变了。
collect(createDataFrame(sqlContext,A))
city
1 7\xac
2 \nw
3 m\xde
我不知道如何将它们转回可读的汉字,甚至我希望我能在SparkR中得到可读的汉字,这样应该方便我调试。
我用的是linux服务器,不知道是不是跟那个有关。有人知道吗?
下面是sessionInfo()
> sessionInfo()
R version 3.2.2 (2015-08-14)
Platform: x86_64-redhat-linux-gnu (64-bit)
Running under: Red Hat Enterprise Linux Server 7.2 (Maipo)
locale:
[1] LC_CTYPE=en_US.UTF-8 LC_NUMERIC=C LC_TIME=en_US.UTF-8 LC_COLLATE=en_US.UTF-8
[5] LC_MONETARY=en_US.UTF-8 LC_MESSAGES=en_US.UTF-8 LC_PAPER=en_US.UTF-8 LC_NAME=C
[9] LC_ADDRESS=C LC_TELEPHONE=C LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] SparkR_1.5.2
loaded via a namespace (and not attached):
[1] tools_3.2.2
这是一个已知问题(通常影响 Unicode 字符)并且已在 1.6 中解决。参见 SPARK-8951。您可以修补和重建 1.5 或升级到 1.6