在 spark 中使用数据时遇到问题?
Trouble when using data in spark?
我在 hdfs 中使用 sqoop 提取了数据,但是我的数据在单列中包含逗号“,”。当我在 spark 中使用相同的数据时,它会将每个逗号作为分隔符。我该怎么做才能更改这些逗号?
假设如果你有 xyz 列,我在第一行有 a,b,c,在第二行有 cd 那么我可以做些什么来避免这些逗号?
以文本格式导入数据时,默认字段分隔符为逗号(,
)。由于您的数据包含逗号,请更改字段分隔符。
在您的 sqoop 导入命令中使用 --fields-terminated-by <char>
。
您可能会发现这些命令很有用:
--hive_drop-import-delims
或 --hive-delims-replacement
我在 hdfs 中使用 sqoop 提取了数据,但是我的数据在单列中包含逗号“,”。当我在 spark 中使用相同的数据时,它会将每个逗号作为分隔符。我该怎么做才能更改这些逗号?
假设如果你有 xyz 列,我在第一行有 a,b,c,在第二行有 cd 那么我可以做些什么来避免这些逗号?
以文本格式导入数据时,默认字段分隔符为逗号(,
)。由于您的数据包含逗号,请更改字段分隔符。
在您的 sqoop 导入命令中使用 --fields-terminated-by <char>
。
您可能会发现这些命令很有用:
--hive_drop-import-delims
或 --hive-delims-replacement