私はrecipes
、機械学習パイプラインの一部として、変数変換の新しいパッケージを模索してきました。私はこのアプローチを選択しました-すべての新しい拡張機能のために、caret
のpreProcess
関数の使用からアップグレードします。しかし、パッケージは変換されたデータに対して非常に異なる結果をもたらすことがわかりました。
library(caret) # V6.0-79
library(recipes) # V0.1.2
library(MASS) # V7.3-47
# transform variables using recipes
rec_box <- recipe(~ ., data = as.data.frame(state.x77)) %>%
step_BoxCox(., everything()) %>%
prep(., training = as.data.frame(state.x77)) %>%
bake(., as.data.frame(state.x77))
> head(rec_box)
# A tibble: 6 x 8
Population Income Illiteracy `Life Exp` Murder `HS Grad` Frost Area
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 8.19 138. 0.647 60171653. 6.89 651. 20. 56.0
2 5.90 185. 0.376 61218586. 5.52 1632. 152. 106.
3 7.70 155. 0.527 66409311. 4.08 1253. 15. 69.4
4 7.65 133. 0.570 66885876. 5.05 609. 65. 56.4
5 9.96 165. 0.0936 71570875. 5.13 1445. 20. 75.5
6 7.84 161. -0.382 73188251. 3.62 1503. 166. 67.7
# transform variables using preProcess
pre_box <- preProcess(x = as.data.frame(state.x77), method = c('BoxCox')) %>%
predict(. ,newdata = as.data.frame(state.x77))
> head(pre_box)
# A tibble: 6 x 8
Population Income Illiteracy `Life Exp` Murder `HS Grad` Frost Area
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 8.19 118. 0.642 2383. 6.83 618. 20. 38.7
2 5.90 157. 0.374 2401. 5.47 1538. 152. 65.7
3 7.70 133. 0.524 2488. 4.05 1183. 15. 46.3
4 7.65 114. 0.566 2496. 5.01 579. 65. 38.9
5 9.96 141. 0.0935 2571. 5.09 1363. 20. 49.7
6 7.84 138. -0.383 2596. 3.60 1418. 166. 45.4
## Subtract recipe transformations from MARS::boxcox via caret::preProcess
colMeans(rec_box - pre_box)
> colMeans(rec_box - pre_box)
Population Income Illiteracy Life Exp Murder HS Grad Frost Area
0.000000e+00 2.215800e+01 2.515464e-03 6.803437e+07 2.638715e-02 5.883549e+01 0.000000e+00 1.745788e+01
したがって、一部の列では同意しているように見えますが、他の列では大きく異なります。これらの変換が非常に異なる可能性がある理由は何ですか?他の誰かが同様の矛盾を見つけていますか?
違いはlambdas
、preProcess
小数点以下1桁に丸められる関数の丸めによるものです。
この例を確認してください。
library(caret)
library(recipes)
library(MASS)
library(mlbench)
data(Sonar)
df <- Sonar[,-61]
preProcess
関数を使用し、fudge
0に設定します(ラムダの0/1強制に対する許容範囲はありません)。
z2 <- preProcess(x = as.data.frame(df), method = c('BoxCox'), fudge = 0)
と使用recepies
:
z <- recipe(~ ., data = as.data.frame(df )) %>%
step_BoxCox(., everything()) %>%
prep(., training = as.data.frame(df))
ラムダをチェックしてみましょうrecepies
:
z$steps[[1]]$lambdas
#output
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12
0.09296796 0.23383117 0.19487939 0.11471259 0.18688851 0.35852835 0.48787887 0.36830343 0.26340880 0.29810673 0.33913896 0.50361765
V13 V14 V15 V16 V17 V18 V19 V20 V21 V22 V23 V24
0.49178396 0.35997958 0.43900093 0.28981749 0.22843441 0.27016373 0.50573719 0.83436868 1.02366629 1.15194335 1.35062142 1.44484148
V25 V26 V27 V28 V29 V30 V31 V32 V33 V34 V35 V36
1.51851127 1.61365888 1.47445453 1.44448827 1.22132457 1.00145613 0.66343491 0.61951328 0.53028496 0.45278118 0.39019507 0.37536033
V37 V38 V39 V40 V41 V42 V52 V53 V54 V55 V56 V57
0.28428050 0.23439217 0.29554367 0.47263000 0.34455069 0.44036919 0.15240917 0.30314637 0.28647186 0.16202628 0.27153385 0.17005357
V58 V59 V60
0.15688906 0.28761156 0.06652761
およびのラムダpreProcess
:
sapply(z2$bc, function(x) x$lambda)
#output
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20 V21 V22 V23 V24 V25 V26 V27 V28 V29 V30 V31 V32 V33 V34
0.1 0.2 0.2 0.1 0.2 0.4 0.5 0.4 0.3 0.3 0.3 0.5 0.5 0.4 0.4 0.3 0.2 0.3 0.5 0.8 1.0 1.2 1.4 1.4 1.5 1.6 1.5 1.4 1.2 1.0 0.7 0.6 0.5 0.5
V35 V36 V37 V38 V39 V40 V41 V42 V52 V53 V54 V55 V56 V57 V58 V59 V60
0.4 0.4 0.3 0.2 0.3 0.5 0.3 0.4 0.2 0.3 0.3 0.2 0.3 0.2 0.2 0.3 0.1
そう:
df$V1^z$steps[[1]]$lambdas[1]
と等しくない
df$V1^sapply(z2$bc, function(x) x$lambda)[1]
デフォルトでfudge = 0.2
は、ラムダが-変換なしに変更されている間-0.2 - 02
、0
つまりlog
変換に変更されるため、差はさらに大きくなります。0.8 - 1.2
1
これらの違いについては気にしません。どちらの関数もデータの歪度を減らします。同じトレーニングパイプラインでそれらを混在させないでください。
また、パフォーマンスのより偏りのない推定値を取得するには、データ漏洩を回避するために、これらの変換をリサンプリングの前ではなく、リサンプリング中に実行する必要があります。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加