数据样本:
1991;113;High Heels;Comedy;Bos�, Miguel;Abril, Victoria;Almod�var, Pedro;68;No;NicholasCage.png
如何在 Spark 中使用 Scala 删除 Unicode 并将字符串映射到标准字符串格式。
注意:我确实提到了 PySpark 解决方案,但我正在寻找基于 Scala 的解决方案。
您可以从中导入StringUtils
类org.apache.commons.lang3
并使用此方法
然后在您的 RDD 上执行映射:
rdd.map(word => StringUtils.stripAccents(word))
您可以在此处获取依赖项,具体取决于您使用的内容(maven、sbt 等)
下面带有 RDD[String] 的快速示例
val rawRDD = sc.parallelize(List("Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ","Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ") )
val newRDD = rawRDD.map(word => StringUtils.stripAccents(word))
原始RDD
Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ
Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ
新的RDD
This is a funky String
This is another funky String
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句