在 spark 中使用数据时遇到问题?

Trouble when using data in spark?

我在 hdfs 中使用 sqoop 提取了数据,但是我的数据在单列中包含逗号“,”。当我在 spark 中使用相同的数据时,它会将每个逗号作为分隔符。我该怎么做才能更改这些逗号?

假设如果你有 xyz 列,我在第一行有 a,b,c,在第二行有 cd 那么我可以做些什么来避免这些逗号?

以文本格式导入数据时,默认字段分隔符为逗号(,)。由于您的数据包含逗号,请更改字段分隔符。

在您的 sqoop 导入命令中使用 --fields-terminated-by <char>

您可能会发现这些命令很有用: --hive_drop-import-delims--hive-delims-replacement

More info here