在 spark 中使用数据时遇到问题？

Trouble when using data in spark?

我在 hdfs 中使用 sqoop 提取了数据，但是我的数据在单列中包含逗号“,”。当我在 spark 中使用相同的数据时，它会将每个逗号作为分隔符。我该怎么做才能更改这些逗号？

假设如果你有 xyz 列，我在第一行有 a,b,c，在第二行有 cd 那么我可以做些什么来避免这些逗号？

以文本格式导入数据时，默认字段分隔符为逗号(,)。由于您的数据包含逗号，请更改字段分隔符。

在您的 sqoop 导入命令中使用 --fields-terminated-by <char>。

您可能会发现这些命令很有用： --hive_drop-import-delims 或 --hive-delims-replacement