我正在使用带有scala的spark 1.2,并且具有(RDD,(String,String))对RDD。样本记录如下:
<Key, value>
id_1, val_1_1; val_1_2
id_2, val_2_1; val_2_2
id_3, val_3_1; val_3_2
id_1, val_4_1; val_4_2
我只想删除具有重复键的所有记录,因此在上面的示例中,将删除第四条记录,因为id_1是重复键。
请帮助。
谢谢。
您可以使用reduceByKey
:
val rdd: RDD[(K, V)] = // ...
val res: RDD[(K, V)] = rdd.reduceByKey((v1, v2) => v1)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句