検索

検索

レコードが他のデータフレームと重複している場合は、データフレームを変更します

debugcn 投稿 Dev

2

user14176250

2つのデータフレームと2つのids列があり、df1のid1がdf2で利用可能かどうかを検証したいid2複製する新しい列が存在するが、コードが機能しない何が間違っているのか.. ??

また、検証する列名を指定するための入力パラメーターをユーザーに提供しています

df1 <-  data.frame(ID1= c("EMT1","EMT2","EMT3","EMT4","EMT5","EMT6","EMT7","EMT8","EMT9","EMT10","EMT11","EMT12","EMT13","EMT14","EMT15","EMT16","EMT17","EMT18","EMT19","EMT20","EMT21","EMT22","EMT23","EMT24","EMT25","EMT25","EMT27"))
df2 <-  data.frame(ID2= c("EMT10","EMT10","EMT10","EMT8","EMT8","EMT8","EMT6","EMT10","EMT6","","EMT6","EMT6","EMT5","EMT5","EMT5","EMT5","EMT5","EMT5","EMT5","EMT4","EMT4","EMT4","EMT4","EMT23","EMT32","EMT241","EMT51"))

empid_new = "ID1"
empid_old = "ID2"


uniqu_emp <- df2 %>% select(empid_old) %>% distinct()
df1 <- df1 %>% mutate(`dupe id` = ifelse((df1[[empid_new]] %in% uniqu_emp)== TRUE, "duplicate exist",""))

ロナックシャー

を使用しているのでdplyr、でデータフレームを参照できます.data。

distinct%in%ベクトルが必要な場合と比較するためのデータフレームを返します。

library(dplyr)
uniqu_emp <- df2 %>% distinct(.data[[empid_old]]) %>% pull()

df1 %>% 
   mutate(`dupe id` = ifelse(.data[[empid_new]] %in% uniqu_emp, 
                       "duplicate exist",""))

#     ID1         dupe id
#1   EMT1                
#2   EMT2                
#3   EMT3                
#4   EMT4 duplicate exist
#5   EMT5 duplicate exist
#6   EMT6 duplicate exist
#7   EMT7                
#8   EMT8 duplicate exist
#9   EMT9                
#10 EMT10 duplicate exist
#11 EMT11                
#12 EMT12   
#....             
#....

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-13

0

コメントを追加

0

サインイン

関連記事

分類Dev

重複するレコードがSparkScalaの他のデータフレームに移動されました

分類Dev

キーの値が重複している2つのデータフレームを結合します

分類Dev

Python Pandasデータフレームは、IDが他のデータフレームに存在する場合、新しい列に「1」を追加します

分類Dev

一部の列が共通している場合は、マスターデータフレームにデータフレームを追加します

分類Dev

カスタム（および場合によっては重複する）ビンに基づいて、要約データフレーム内の個々のパンダデータフレームからのデータポイントを合計します

分類Dev

dplyrによる別のデータフレームとの照合に基づいて、データフレームの列名を変更します

分類Dev

列名が一致する場合は、データフレームの列値を行に変更します

分類Dev

他の列を辞書と照合して、データフレームの列を変更します

分類Dev

Pysparkデータフレームは、重複する列名がほとんどなく、重複する列がない場合に結合します

分類Dev

値がnullの場合は、別のデータフレームパンダからデータフレームの値を変更します

分類Dev

パンダデータフレームは、行の重複する値の名前を変更します

分類Dev

列ヘッダーが重複しているデータフレームの列のデータ型を変更する

分類Dev

値が他のデータフレームにない場合、パンダはデータフレームから行を除外します

分類Dev

KeyErrorがデータフレームの列を変更しています

分類Dev

値がリストにある場合、Pandasデータフレームの行が重複している

分類Dev

pandasデータフレームは、前のデータフレームのn回の行を複製し、日付を変更することにより、新しいデータフレームを作成します

分類Dev

pandasデータフレーム内の重複レコードを削除しますが、アルファベット順に基づいて保持します

分類Dev

行が重複している2つのデータフレームを結合する

分類Dev

Apache Spark：データフレームの結果（結合のあるデータフレーム）を保存して、データフレームに対するアクションが結果を変更しないようにする方法は？

分類Dev

データフレームで、値が別のデータフレームに存在する場合は、値を複製します

分類Dev

Pysparkデータフレームの行が重複しています

分類Dev

Sparkデータフレーム列を変更するために既存の関数がUDFとして使用されている場合のエラー

分類Dev

Pysparkデータフレームがすべての重複を削除しない

分類Dev

他のデータフレームの列に基づいて、データフレームの列を重複排除します

分類Dev

セルが空の場合はデータフレームを変更します

分類Dev

行の他のエントリが一致する場合は、PythonPandasデータフレームのエントリを変更します

分類Dev

両方のデータフレームにまったく同じ列とインデックスがある場合、別のデータフレームの条件を照合して、あるデータフレームのデータをグループ化するにはどうすればよいですか？

分類Dev

パンダ：エントリが変更された場合、データフレームを別のデータフレームにマージします

分類Dev

Python Pandas：データがNaNの場合は、0に変更します。それ以外の場合は、データフレームで1に変更します。

Related 関連記事

記事

ホットタグ

アーカイブ