レコードが他のデータフレームと重複している場合は、データフレームを変更します

user14176250

2つのデータフレームと2つのids列があり、df1のid1がdf2で利用可能かどうかを検証したいid2複製する新しい列が存在するが、コードが機能しない何が間違っているのか.. ??

また、検証する列名を指定するための入力パラメーターをユーザーに提供しています

df1 <-  data.frame(ID1= c("EMT1","EMT2","EMT3","EMT4","EMT5","EMT6","EMT7","EMT8","EMT9","EMT10","EMT11","EMT12","EMT13","EMT14","EMT15","EMT16","EMT17","EMT18","EMT19","EMT20","EMT21","EMT22","EMT23","EMT24","EMT25","EMT25","EMT27"))
df2 <-  data.frame(ID2= c("EMT10","EMT10","EMT10","EMT8","EMT8","EMT8","EMT6","EMT10","EMT6","","EMT6","EMT6","EMT5","EMT5","EMT5","EMT5","EMT5","EMT5","EMT5","EMT4","EMT4","EMT4","EMT4","EMT23","EMT32","EMT241","EMT51"))

empid_new = "ID1"
empid_old = "ID2"


uniqu_emp <- df2 %>% select(empid_old) %>% distinct()
df1 <- df1 %>% mutate(`dupe id` = ifelse((df1[[empid_new]] %in% uniqu_emp)== TRUE, "duplicate exist",""))


ロナックシャー

を使用しているのでdplyr、でデータフレームを参照できます.data

distinct%in%ベクトルが必要な場合と比較するためのデータフレームを返します

library(dplyr)
uniqu_emp <- df2 %>% distinct(.data[[empid_old]]) %>% pull()

df1 %>% 
   mutate(`dupe id` = ifelse(.data[[empid_new]] %in% uniqu_emp, 
                       "duplicate exist",""))

#     ID1         dupe id
#1   EMT1                
#2   EMT2                
#3   EMT3                
#4   EMT4 duplicate exist
#5   EMT5 duplicate exist
#6   EMT6 duplicate exist
#7   EMT7                
#8   EMT8 duplicate exist
#9   EMT9                
#10 EMT10 duplicate exist
#11 EMT11                
#12 EMT12   
#....             
#....

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

重複するレコードがSparkScalaの他のデータフレームに移動されました

分類Dev

キーの値が重複している2つのデータフレームを結合します

分類Dev

Python Pandasデータフレームは、IDが他のデータフレームに存在する場合、新しい列に「1」を追加します

分類Dev

一部の列が共通している場合は、マスターデータフレームにデータフレームを追加します

分類Dev

カスタム(および場合によっては重複する)ビンに基づいて、要約データフレーム内の個々のパンダデータフレームからのデータポイントを合計します

分類Dev

dplyrによる別のデータフレームとの照合に基づいて、データフレームの列名を変更します

分類Dev

列名が一致する場合は、データフレームの列値を行に変更します

分類Dev

他の列を辞書と照合して、データフレームの列を変更します

分類Dev

Pysparkデータフレームは、重複する列名がほとんどなく、重複する列がない場合に結合します

分類Dev

値がnullの場合は、別のデータフレームパンダからデータフレームの値を変更します

分類Dev

パンダデータフレームは、行の重複する値の名前を変更します

分類Dev

列ヘッダーが重複しているデータフレームの列のデータ型を変更する

分類Dev

値が他のデータフレームにない場合、パンダはデータフレームから行を除外します

分類Dev

KeyErrorがデータフレームの列を変更しています

分類Dev

値がリストにある場合、Pandasデータフレームの行が重複している

分類Dev

pandasデータフレームは、前のデータフレームのn回の行を複製し、日付を変更することにより、新しいデータフレームを作成します

分類Dev

pandasデータフレーム内の重複レコードを削除しますが、アルファベット順に基づいて保持します

分類Dev

行が重複している2つのデータフレームを結合する

分類Dev

Apache Spark:データフレームの結果(結合のあるデータフレーム)を保存して、データフレームに対するアクションが結果を変更しないようにする方法は?

分類Dev

データフレームで、値が別のデータフレームに存在する場合は、値を複製します

分類Dev

Pysparkデータフレームの行が重複しています

分類Dev

Sparkデータフレーム列を変更するために既存の関数がUDFとして使用されている場合のエラー

分類Dev

Pysparkデータフレームがすべての重複を削除しない

分類Dev

他のデータフレームの列に基づいて、データフレームの列を重複排除します

分類Dev

セルが空の場合はデータフレームを変更します

分類Dev

行の他のエントリが一致する場合は、PythonPandasデータフレームのエントリを変更します

分類Dev

両方のデータフレームにまったく同じ列とインデックスがある場合、別のデータフレームの条件を照合して、あるデータフレームのデータをグループ化するにはどうすればよいですか?

分類Dev

パンダ:エントリが変更された場合、データフレームを別のデータフレームにマージします

分類Dev

Python Pandas:データがNaNの場合は、0に変更します。それ以外の場合は、データフレームで1に変更します。

Related 関連記事

  1. 1

    重複するレコードがSparkScalaの他のデータフレームに移動されました

  2. 2

    キーの値が重複している2つのデータフレームを結合します

  3. 3

    Python Pandasデータフレームは、IDが他のデータフレームに存在する場合、新しい列に「1」を追加します

  4. 4

    一部の列が共通している場合は、マスターデータフレームにデータフレームを追加します

  5. 5

    カスタム(および場合によっては重複する)ビンに基づいて、要約データフレーム内の個々のパンダデータフレームからのデータポイントを合計します

  6. 6

    dplyrによる別のデータフレームとの照合に基づいて、データフレームの列名を変更します

  7. 7

    列名が一致する場合は、データフレームの列値を行に変更します

  8. 8

    他の列を辞書と照合して、データフレームの列を変更します

  9. 9

    Pysparkデータフレームは、重複する列名がほとんどなく、重複する列がない場合に結合します

  10. 10

    値がnullの場合は、別のデータフレームパンダからデータフレームの値を変更します

  11. 11

    パンダデータフレームは、行の重複する値の名前を変更します

  12. 12

    列ヘッダーが重複しているデータフレームの列のデータ型を変更する

  13. 13

    値が他のデータフレームにない場合、パンダはデータフレームから行を除外します

  14. 14

    KeyErrorがデータフレームの列を変更しています

  15. 15

    値がリストにある場合、Pandasデータフレームの行が重複している

  16. 16

    pandasデータフレームは、前のデータフレームのn回の行を複製し、日付を変更することにより、新しいデータフレームを作成します

  17. 17

    pandasデータフレーム内の重複レコードを削除しますが、アルファベット順に基づいて保持します

  18. 18

    行が重複している2つのデータフレームを結合する

  19. 19

    Apache Spark:データフレームの結果(結合のあるデータフレーム)を保存して、データフレームに対するアクションが結果を変更しないようにする方法は?

  20. 20

    データフレームで、値が別のデータフレームに存在する場合は、値を複製します

  21. 21

    Pysparkデータフレームの行が重複しています

  22. 22

    Sparkデータフレーム列を変更するために既存の関数がUDFとして使用されている場合のエラー

  23. 23

    Pysparkデータフレームがすべての重複を削除しない

  24. 24

    他のデータフレームの列に基づいて、データフレームの列を重複排除します

  25. 25

    セルが空の場合はデータフレームを変更します

  26. 26

    行の他のエントリが一致する場合は、PythonPandasデータフレームのエントリを変更します

  27. 27

    両方のデータフレームにまったく同じ列とインデックスがある場合、別のデータフレームの条件を照合して、あるデータフレームのデータをグループ化するにはどうすればよいですか?

  28. 28

    パンダ:エントリが変更された場合、データフレームを別のデータフレームにマージします

  29. 29

    Python Pandas:データがNaNの場合は、0に変更します。それ以外の場合は、データフレームで1に変更します。

ホットタグ

アーカイブ