如何从Spark数据框中删除/过滤特定行

斯塔克

我想从Spark数据
框中删除特定记录:样本输入:
样本输入

预期产量:
预期产量

废弃的行:
废弃的行

我写了下面的代码来过滤数据帧(这是不正确的):


val Name = List("Rahul","Mahesh","Gaurav")
val Age =List(20,55)

val final_pub_df = df.filter(!col("Name").isin(Name:_*) &&  !col("Age").isin(Age:_*))

所以我的问题是-如何使用特定的过滤条件过滤多于一列的数据框。数据框应根据“名称”和“年龄”字段的组合进行过滤。

巴拉瓦瓦斯·布莱克

这是解决方案。根据您的数据集,我提出了问题-

数据框下方的条目不正确。我想删除所有不正确的记录,仅保留正确的记录-

val Friends = Seq(
      ("Rahul", "99", "AA"),
      ("Rahul", "20", "BB"),
      ("Rahul", "30", "BB"),
      ("Mahesh", "55", "CC"),
      ("Mahesh", "88", "DD"),
      ("Mahesh", "44", "FF"),
      ("Ramu", "30", "FF"),
      ("Gaurav", "99", "PP"),
      ("Gaurav", "20", "HH")).toDF("Name", "Age", "City")

过滤数组-

val Name = List("Rahul", "Mahesh", "Gaurav")
val IncorrectAge = List(20, 55)

数据操作-

Friends.filter(!(col("Name").isin(Name: _*) && col("Age").isin(IncorrectAge: _*))).show

这是输出-

+------+---+----+
|  Name|Age|City|
+------+---+----+
| Rahul| 99|  AA|
| Rahul| 30|  BB|
|Mahesh| 88|  DD|
|Mahesh| 44|  FF|
|  Ramu| 30|  FF|
|Gaurav| 99|  PP|
+------+---+----+

您也可以在联接的帮助下完成它。

创建Badrecords df-

val badrecords = Friends.filter(col("Name").isin(Name: _*) && col("Age").isin(IncorrectAge: _*))

用户left_anti加入以选择好友减去不良记录-

 Friends.alias("left").join(badrecords.alias("right"), Seq("Name", "Age"), "left_anti").show

这是输出-

+------+---+----+
|  Name|Age|City|
+------+---+----+
| Rahul| 99|  AA|
| Rahul| 30|  BB|
|Mahesh| 88|  DD|
|Mahesh| 44|  FF|
|  Ramu| 30|  FF|
|Gaurav| 99|  PP|
+------+---+----+

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用buttonclick从文本框中删除过滤器文本

来自分类Dev

删除过滤的数据VBA

来自分类Dev

如何按行数过滤嵌套的数据帧列表,以及如何从R中的列表中删除过滤的数据帧?

来自分类Dev

如何从richfaces中的extendedDataTable中删除过滤器组件行

来自分类Dev

jQuery删除过滤后的响应中的特定div

来自分类Dev

如何删除Pandas数据框中特定日期的行?

来自分类Dev

如何从R上的数据框中删除特定行。

来自分类Dev

过滤表数据,并删除过滤的列

来自分类Dev

如何从GPUImageView中删除过滤器

来自分类Dev

如何在odoo中预先删除过滤器

来自分类Dev

删除数据框中的特定行?

来自分类Dev

从数据框中删除特定的行

来自分类Dev

从熊猫数据框中删除特定的行

来自分类Dev

从熊猫数据框中删除特定行

来自分类Dev

根据日期范围删除过滤数据

来自分类常见问题

如何从熊猫数据框中删除包含特定列中特定字符串的行?

来自分类Dev

在Pandas数据框中过滤后删除行

来自分类Dev

过滤、平均和删除熊猫数据框中的行

来自分类Dev

如何根据包含特定值的行(在任何列中)过滤数据框

来自分类常见问题

如何从Spark数据框中过滤出空值

来自分类Dev

如何过滤数据框中的行以仅获取3个最流行的数据并删除其他未使用的数据?

来自分类Dev

如何从过滤的数据框“内存”中删除因子级别

来自分类Dev

如何从过滤后的数据框中删除冗余索引

来自分类Dev

如何根据特定条件在熊猫中删除数据框中的重复行

来自分类Dev

过滤数据框中的行

来自分类Dev

如何过滤不在另一行中的事件值的特定时间范围内的数据框中的行?

来自分类Dev

如何从熊猫数据框中删除具有特定属性值的行的分数

来自分类Dev

将表数据添加到可编辑的DataTables中可删除过滤器

来自分类Dev

使用宏删除过滤器中的多个数据值

Related 相关文章

  1. 1

    如何使用buttonclick从文本框中删除过滤器文本

  2. 2

    删除过滤的数据VBA

  3. 3

    如何按行数过滤嵌套的数据帧列表,以及如何从R中的列表中删除过滤的数据帧?

  4. 4

    如何从richfaces中的extendedDataTable中删除过滤器组件行

  5. 5

    jQuery删除过滤后的响应中的特定div

  6. 6

    如何删除Pandas数据框中特定日期的行?

  7. 7

    如何从R上的数据框中删除特定行。

  8. 8

    过滤表数据,并删除过滤的列

  9. 9

    如何从GPUImageView中删除过滤器

  10. 10

    如何在odoo中预先删除过滤器

  11. 11

    删除数据框中的特定行?

  12. 12

    从数据框中删除特定的行

  13. 13

    从熊猫数据框中删除特定的行

  14. 14

    从熊猫数据框中删除特定行

  15. 15

    根据日期范围删除过滤数据

  16. 16

    如何从熊猫数据框中删除包含特定列中特定字符串的行?

  17. 17

    在Pandas数据框中过滤后删除行

  18. 18

    过滤、平均和删除熊猫数据框中的行

  19. 19

    如何根据包含特定值的行(在任何列中)过滤数据框

  20. 20

    如何从Spark数据框中过滤出空值

  21. 21

    如何过滤数据框中的行以仅获取3个最流行的数据并删除其他未使用的数据?

  22. 22

    如何从过滤的数据框“内存”中删除因子级别

  23. 23

    如何从过滤后的数据框中删除冗余索引

  24. 24

    如何根据特定条件在熊猫中删除数据框中的重复行

  25. 25

    过滤数据框中的行

  26. 26

    如何过滤不在另一行中的事件值的特定时间范围内的数据框中的行?

  27. 27

    如何从熊猫数据框中删除具有特定属性值的行的分数

  28. 28

    将表数据添加到可编辑的DataTables中可删除过滤器

  29. 29

    使用宏删除过滤器中的多个数据值

热门标签

归档