比较Spark中两个相同结构的数据框

高拉夫·马图尔
val originalDF = Seq((1,"gaurav","jaipur",550,70000),(2,"sunil","noida",600,80000),(3,"rishi","ahmedabad",510,65000)).toDF("id","name","city","credit_score","credit_limit")

val changedDF= Seq((1,"gaurav","jaipur",550,70000),(2,"sunil","noida",650,90000),(4,"Joshua","cochin",612,85000)).toDF("id","name","city","creditscore","credit_limit")

因此,以上两个数据帧具有相同的表结构,我想找出另一个数据帧中已更改其值的id(changedDF)。我尝试在spark中使用exception()函数,但它给了我两行。Id是这两个数据框之间的公共列。

changedDF.except(originalDF).show
+---+------+------+-----------+------------+
| id|  name|  city|creditscore|credit_limit|
+---+------+------+-----------+------------+
|  4|Joshua|cochin|        612|       85000|
|  2| sunil| noida|        650|       90000|
+---+------+------+-----------+------------+

而我只希望有任何更改的通用ID。

+---+------+------+-----------+------------+
| id|  name|  city|creditscore|credit_limit|
+---+------+------+-----------+------------+
|  2| sunil| noida|        650|       90000|
+---+------+------+-----------+------------+

有什么方法可以找出更改了数据的唯一公共ID。有人可以告诉我我可以遵循的任何方法来实现这一目标。

拉曼努斯

您可以进行inner数据帧连接,这将为您提供具有通用ID的结果。

originalDF.alias("a").join(changedDF.alias("b"), col("a.id") === col("b.id"), "inner")
  .select("a.*")
  .except(changedDF)
  .show

然后,您的预期结果将会出来:

+---+-----+-----+------------+------------+
| id| name| city|credit_score|credit_limit|
+---+-----+-----+------------+------------+
|  2|sunil|noida|         600|       80000|
+---+-----+-----+------------+------------+

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

比较两个表中的数据并检查相同的数据

来自分类Dev

比较Spark中两个RDD中的数据

来自分类Dev

比较两个结构相同但数据不相同的Access表

来自分类Dev

R:两个结构相同的 Excel 文件在数据框中返回不同的数据类型

来自分类Dev

比较相同结构的两个不同大小的向量

来自分类Dev

查询以比较具有相同结构的两个表?

来自分类Dev

从外部API比较两个相同类型的结构

来自分类Dev

比较相同结构的两个不同大小的向量

来自分类Dev

比较两个表中的数据

来自分类Dev

比较两个或三个数据框中的列值并合并

来自分类Dev

比较两个熊猫数据框的差异

来自分类Dev

两个熊猫数据框的逐元素比较

来自分类Dev

比较两个没有重复的数据框

来自分类Dev

比较两个 Pandas 数据框并创建值列表

来自分类Dev

两个如何比较来自两个不同数据框的熊猫的两行

来自分类Dev

比较多列以获取两个熊猫数据框中不同的行

来自分类Dev

如何在两个不同的熊猫数据框中相互比较值

来自分类Dev

从结构化字符向量中获取两个变量并创建数据框

来自分类Dev

合并两个具有相同列名的数据框

来自分类Dev

合并两个相同/不同名称的数据框

来自分类Dev

比较两个git分支中的相同文件

来自分类Dev

如果行包含R中相同变量的两个值,则转置数据框

来自分类Dev

如何比较熊猫中两个数据框的值?

来自分类Dev

如何比较R中两个数据框的行

来自分类Dev

比较R中的两个数据框

来自分类Dev

比较熊猫中的两个数据框

来自分类Dev

比较python中的两个数据框值

来自分类Dev

在两个索引列上连接两个结构相似的数据框?

来自分类Dev

如何一次将两列与 python (pandas) 中的两个不同数据框进行比较?

Related 相关文章

  1. 1

    比较两个表中的数据并检查相同的数据

  2. 2

    比较Spark中两个RDD中的数据

  3. 3

    比较两个结构相同但数据不相同的Access表

  4. 4

    R:两个结构相同的 Excel 文件在数据框中返回不同的数据类型

  5. 5

    比较相同结构的两个不同大小的向量

  6. 6

    查询以比较具有相同结构的两个表?

  7. 7

    从外部API比较两个相同类型的结构

  8. 8

    比较相同结构的两个不同大小的向量

  9. 9

    比较两个表中的数据

  10. 10

    比较两个或三个数据框中的列值并合并

  11. 11

    比较两个熊猫数据框的差异

  12. 12

    两个熊猫数据框的逐元素比较

  13. 13

    比较两个没有重复的数据框

  14. 14

    比较两个 Pandas 数据框并创建值列表

  15. 15

    两个如何比较来自两个不同数据框的熊猫的两行

  16. 16

    比较多列以获取两个熊猫数据框中不同的行

  17. 17

    如何在两个不同的熊猫数据框中相互比较值

  18. 18

    从结构化字符向量中获取两个变量并创建数据框

  19. 19

    合并两个具有相同列名的数据框

  20. 20

    合并两个相同/不同名称的数据框

  21. 21

    比较两个git分支中的相同文件

  22. 22

    如果行包含R中相同变量的两个值,则转置数据框

  23. 23

    如何比较熊猫中两个数据框的值?

  24. 24

    如何比较R中两个数据框的行

  25. 25

    比较R中的两个数据框

  26. 26

    比较熊猫中的两个数据框

  27. 27

    比较python中的两个数据框值

  28. 28

    在两个索引列上连接两个结构相似的数据框?

  29. 29

    如何一次将两列与 python (pandas) 中的两个不同数据框进行比较?

热门标签

归档