レコードのランダムな選択を保証する不均衡なデータフレームから新しいバランスの取れたデータフレームを作成するにはどうすればよいですか?

user3115933

と呼ばれるデータフレームがdf1あり、machine learning分析に使用されます。

ターゲット変数(Attrition)に基づいて、データフレームdf1のYES:NOの比率は60:40になります。

df1はい/いいえのターゲット変数が50:50になるように、から新しいデータフレームを再作成する必要があります。

私の課題は、新しいデータフレームAttrition= NO(つまり、の40%df1のレコードの全数を保持し、RでAttrition= YESのレコードから残りの50%をランダムに抽出することですdf1

新しいデータフレームが呼び出されると仮定するとdf2、どうすればこれを行うことができますか?

RLave

最初の60:40は不均衡ではありません

ただし、caretパッケージの関数を使用できます。

library(caret)
set.seed(123)
# this downsamples the majority class
df2 <- downSample(x = df1[, -which(colnames(df1)=="Attrition")], 
                         y = df1$Attrition)

#this upsamples the minority class
df2 <- upSample(x = df1[, -which(colnames(df1)=="Attrition")], # supposing that Attrition is the last column in df1 
                         y = df1$Attrition)

詳細については、こちらご覧ください

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

Related 関連記事

ホットタグ

アーカイブ