从Spark Scala删除重复的密钥

用户2200660

我正在使用带有scala的spark 1.2,并且具有(RDD,(String,String))对RDD。样本记录如下:

<Key,  value>
id_1,  val_1_1; val_1_2
id_2,  val_2_1; val_2_2
id_3,  val_3_1; val_3_2
id_1,  val_4_1; val_4_2

我只想删除具有重复键的所有记录,因此在上面的示例中,将删除第四条记录,因为id_1是重复键。

请帮助。

谢谢。

让·洛格特

您可以使用reduceByKey

val rdd: RDD[(K, V)] = // ...
val res: RDD[(K, V)] = rdd.reduceByKey((v1, v2) => v1)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用Scala删除重复的元组?笛卡尔Scala Spark

来自分类Dev

比较文档并删除Spark和Scala中的重复项

来自分类Dev

在Spark Scala中的JSON解析中删除重复属性

来自分类Dev

比较文档并删除Spark和Scala中的重复项

来自分类Dev

Spark Scala通过密钥合并多个RDD

来自分类Dev

Spark从DataFrame中删除重复的行

来自分类Dev

根据spark中的值删除重复的键

来自分类Dev

根据spark中的值删除重复的键

来自分类Dev

从Spark JavaPairDStream / JavaDStream删除重复项

来自分类Dev

删除重复项而无需 shuffle Spark

来自分类Dev

如何在Scala中使用Spark RDD删除重复项(更像是基于多个属性的过滤器)?

来自分类Dev

Scala Spark过滤掉重复出现的零值

来自分类Dev

Spark DataFrame通过GroupBy删除重复项保持第一

来自分类Dev

使用 Spark 连接自定义重复删除策略

来自分类Dev

Spark Scala运行

来自分类Dev

ClassNotFoundException Spark提交Scala

来自分类Dev

Spark Scala了解reduceByKey(_ + _)

来自分类Dev

在Spark Scala中旋转

来自分类Dev

Spark / Scala近似分组

来自分类Dev

从Spark Scala连接Presto

来自分类Dev

在Spark Scala中合并

来自分类Dev

Spark Scala中的映射

来自分类Dev

Spark-Scala RDD

来自分类Dev

Spark Scala编码标准

来自分类Dev

Spark Scala方法组合

来自分类Dev

分析Spark的Scala代码

来自分类Dev

在 Spark(Scala) 中排序

来自分类Dev

将Spark Java转换为Spark Scala

来自分类Dev

Spark Transactional 删除行