根据pyspark RDD检查列表中的项目

记忆删除

我有以下带有ID及其计数的pyspark RDD:

rdd = [('12', 560), ('34', 900), ('56', 800), ('78', 100), ('910', 220), ('125', 410), ('111', 41), etc.]

我有一份常规清单:

id_list = ['12', '125', '78']

我想要一个新的键列表,id_list中的“ id”和rdd中的“ counts”的值对。

如此预期的输出:

new_list = [('12', 560), ('125', 410), ('78', 100)]

如果rdd是python字典,我可以遍历id_list,检查它是否在字典中,并返回包含键和计数的新列表。但是我迷上了如何使用RDD做到这一点。请指教。

我可能会尝试将RDD转换为字典,但这会破坏使用spark的目的。

麦克

您可以使用lambda函数过滤RDD,该函数检查密钥是否在id_list

rdd2 = rdd.filter(lambda x: x[0] in id_list)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

PySpark当列表中的项目

来自分类Dev

根据pyspark中的条件汇总值

来自分类Dev

根据列表中的值过滤pyspark数据框

来自分类Dev

如何根据某些条件更新字典的PySpark RDD

来自分类Dev

如何根据某些条件更新字典的PySpark RDD

来自分类Dev

PYSPARK:如何根据条件更新列中的值

来自分类Dev

如何根据Pyspark中的值查找前n个键?

来自分类Dev

如何根据pyspark数据帧中的条件转换日期格式?

来自分类Dev

根据多个条件删除PySpark数据框中的行

来自分类Dev

根据PySpark DataFrame的条件在重复的N行中添加整数

来自分类Dev

根据列当前值更新pyspark中的列

来自分类Dev

PySpark DataFrame 根据其他列中的值乘以列

来自分类Dev

根据列表视图选择的项目从列表中删除项目

来自分类Dev

Pyspark过滤列表列中的项目

来自分类Dev

如何在 Pyspark 中 Srot rdd 内部列表元素?

来自分类Dev

根据列表替换列中的项目

来自分类Dev

根据ID从列表中查找项目

来自分类Dev

根据用户输入替换列表中的项目

来自分类Dev

根据条件合并列表中的项目

来自分类Dev

根据用户输入替换列表中的项目

来自分类Dev

如何根据 Pyspark 数据框中的条件设置新列表值?

来自分类Dev

Pyspark:根据两个RDD中两个列的条件,计算两个对应列的总和

来自分类Dev

如何将RDD列表列表转换为pyspark中的一个列表

来自分类Dev

根据TreeView中检查的项目创建TabSheet和Frame

来自分类Dev

如何根据熊猫中的列表过滤DataFrame中的项目?

来自分类Dev

如何根据列索引列表从pyspark中的csv文件中选择某些列,然后确定它们的不同长度

来自分类Dev

在 PySpark / Python RDD 中过滤

来自分类Dev

根据相同列表中的先前项目从Python列表中删除项目

来自分类Dev

PySpark Dataframe根据其他列中的重复值识别一列中的不同值

Related 相关文章

  1. 1

    PySpark当列表中的项目

  2. 2

    根据pyspark中的条件汇总值

  3. 3

    根据列表中的值过滤pyspark数据框

  4. 4

    如何根据某些条件更新字典的PySpark RDD

  5. 5

    如何根据某些条件更新字典的PySpark RDD

  6. 6

    PYSPARK:如何根据条件更新列中的值

  7. 7

    如何根据Pyspark中的值查找前n个键?

  8. 8

    如何根据pyspark数据帧中的条件转换日期格式?

  9. 9

    根据多个条件删除PySpark数据框中的行

  10. 10

    根据PySpark DataFrame的条件在重复的N行中添加整数

  11. 11

    根据列当前值更新pyspark中的列

  12. 12

    PySpark DataFrame 根据其他列中的值乘以列

  13. 13

    根据列表视图选择的项目从列表中删除项目

  14. 14

    Pyspark过滤列表列中的项目

  15. 15

    如何在 Pyspark 中 Srot rdd 内部列表元素?

  16. 16

    根据列表替换列中的项目

  17. 17

    根据ID从列表中查找项目

  18. 18

    根据用户输入替换列表中的项目

  19. 19

    根据条件合并列表中的项目

  20. 20

    根据用户输入替换列表中的项目

  21. 21

    如何根据 Pyspark 数据框中的条件设置新列表值?

  22. 22

    Pyspark:根据两个RDD中两个列的条件,计算两个对应列的总和

  23. 23

    如何将RDD列表列表转换为pyspark中的一个列表

  24. 24

    根据TreeView中检查的项目创建TabSheet和Frame

  25. 25

    如何根据熊猫中的列表过滤DataFrame中的项目?

  26. 26

    如何根据列索引列表从pyspark中的csv文件中选择某些列,然后确定它们的不同长度

  27. 27

    在 PySpark / Python RDD 中过滤

  28. 28

    根据相同列表中的先前项目从Python列表中删除项目

  29. 29

    PySpark Dataframe根据其他列中的重复值识别一列中的不同值

热门标签

归档