如何使用 spark-scala 删除 rdd 中的 unicode？

debugcn 发表于 Dev

普拉达

数据样本：

1991;113;High Heels;Comedy;Bos�, Miguel;Abril, Victoria;Almod�var, Pedro;68;No;NicholasCage.png

如何在 Spark 中使用 Scala 删除 Unicode 并将字符串映射到标准字符串格式。

注意：我确实提到了 PySpark 解决方案，但我正在寻找基于 Scala 的解决方案。

斯库托

您可以从中导入StringUtils类org.apache.commons.lang3并使用此方法

然后在您的 RDD 上执行映射：

rdd.map(word => StringUtils.stripAccents(word))

您可以在此处获取依赖项，具体取决于您使用的内容（maven、sbt 等）

下面带有 RDD[String] 的快速示例

val rawRDD = sc.parallelize(List("Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ","Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ") )
val newRDD = rawRDD.map(word => StringUtils.stripAccents(word))

原始RDD

Tĥïŝ ĩš â fůňķŷ Šťŕĭńġ
Tĥïŝ ĩš ânóthêr fůňķŷ Šťŕĭńġ

新的RDD

This is a funky String
This is another funky String

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-18

我来说两句

0条评论

登录后参与评论

来自分类Dev

使用 Scala 删除 Spark 1.6 输出中的 Unicode 值

来自分类Dev

使用scala在spark中创建对RDD

来自分类常见问题

如何在Scala的Spark RDD中避免使用collect？

来自分类Dev

如何在Scala的Spark RDD中避免使用collect？

来自分类Dev

在Scala Spark中嵌套RDD

来自分类Dev

从Spark RDD中删除元素

来自分类Dev

从Spark RDD中删除元素

来自分类Dev

如何在Scala Spark中对RDD进行排序？

来自分类Dev

在rdd spark scala中split（）之后如何过滤？

来自分类Dev

Spark，Scala：如何根据键对减去RDD对中的值？

来自分类Dev

如何在 Spark (Scala) 中组合两个 RDD？

来自分类Dev

使用Scala在Apache Spark中连接不同RDD的数据集

来自分类Dev

根据SPARK scala中的条件处理RDD

来自分类Dev

Scala Spark中的RDD过滤器

来自分类Dev

RDD scala spark中的全外连接

来自分类Dev

如何在Scala中使用Spark RDD删除重复项（更像是基于多个属性的过滤器）？

来自分类Dev

使用Scala将org.apache.spark.mllib.linalg.Vector RDD转换为Spark中的DataFrame

来自分类Dev

使用Scala Apache Spark合并RDD

来自分类Dev

如何使用 Spark Scala 加入 3 个 RDD

来自分类Dev

如何使用 Scala 语言将 Spark RDD 转换为 JSON

来自分类Dev

Spark-Scala RDD

来自分类Dev

如何在scala中使用rdd删除csv文件的元素？

来自分类Dev

如何删除Scala Spark中的多个字符？

来自分类Dev

如何通过Spark RDD（Java）中的索引获取元素而不是scala，python

来自分类Dev

使用scala和Spark将RDD中的每个记录转换为Array [Map]

来自分类Dev

如何获取spark rdd中的最大值并将其删除？

来自分类Dev

从scala中的rdd中删除特定字符后的值

来自分类Dev

如何使用Scala删除重复的元组？笛卡尔Scala Spark

来自分类Dev

在Scala Spark中未调用RDD的Map函数

Related 相关文章

文章