如何使用 spark-scala 删除 rdd 中的 unicode?
How to remove unicode in rdd with spark-scala?
数据样本:
1991;113;High Heels;Comedy;Bos�, Miguel;Abril, Victoria;Almod�var, Pedro;68;No;NicholasCage.png
如何使用 Spark 中的 Scala 删除 Unicode 并将字符串映射为标准字符串格式。
注意:我确实提到了 PySpark 解决方案,但我正在寻找基于 Scala 的解决方案。
您可以从 org.apache.commons.lang3
导入 StringUtils
class 并使用 this 方法
然后在您的 RDD 上执行映射:
rdd.map(word => StringUtils.stripAccents(word))
您可以获得依赖项 here 取决于您使用的是什么(maven、sbt 等)
下面使用 RDD[String]
的快速示例
val rawRDD = sc.parallelize(List("Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ","Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ") )
val newRDD = rawRDD.map(word => StringUtils.stripAccents(word))
rawRDD
Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ
Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ
newRDD
This is a funky String
This is another funky String
数据样本:
1991;113;High Heels;Comedy;Bos�, Miguel;Abril, Victoria;Almod�var, Pedro;68;No;NicholasCage.png
如何使用 Spark 中的 Scala 删除 Unicode 并将字符串映射为标准字符串格式。
注意:我确实提到了 PySpark 解决方案,但我正在寻找基于 Scala 的解决方案。
您可以从 org.apache.commons.lang3
导入 StringUtils
class 并使用 this 方法
然后在您的 RDD 上执行映射:
rdd.map(word => StringUtils.stripAccents(word))
您可以获得依赖项 here 取决于您使用的是什么(maven、sbt 等)
下面使用 RDD[String]
的快速示例val rawRDD = sc.parallelize(List("Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ","Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ") )
val newRDD = rawRDD.map(word => StringUtils.stripAccents(word))
rawRDD
Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ
Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ
newRDD
This is a funky String
This is another funky String