レシピとキャレットの前処理を使用した前処理の違い

debugcn 投稿 Dev

ハンジョ・ジョバーグ・オデンダール

私はrecipes、機械学習パイプラインの一部として、変数変換の新しいパッケージを模索してきました。私はこのアプローチを選択しました-すべての新しい拡張機能のために、caretのpreProcess関数の使用からアップグレードします。しかし、パッケージは変換されたデータに対して非常に異なる結果をもたらすことがわかりました。

library(caret) # V6.0-79
library(recipes) # V0.1.2
library(MASS) # V7.3-47
# transform variables using recipes
rec_box <- recipe(~ ., data = as.data.frame(state.x77)) %>% 
  step_BoxCox(., everything()) %>% 
  prep(., training = as.data.frame(state.x77)) %>% 
  bake(., as.data.frame(state.x77)) 

> head(rec_box)
# A tibble: 6 x 8
  Population Income Illiteracy `Life Exp` Murder `HS Grad` Frost  Area
       <dbl>  <dbl>      <dbl>      <dbl>  <dbl>     <dbl> <dbl> <dbl>
1       8.19   138.     0.647   60171653.   6.89      651.   20.  56.0
2       5.90   185.     0.376   61218586.   5.52     1632.  152. 106. 
3       7.70   155.     0.527   66409311.   4.08     1253.   15.  69.4
4       7.65   133.     0.570   66885876.   5.05      609.   65.  56.4
5       9.96   165.     0.0936  71570875.   5.13     1445.   20.  75.5
6       7.84   161.    -0.382   73188251.   3.62     1503.  166.  67.7

# transform variables using preProcess
pre_box <- preProcess(x = as.data.frame(state.x77), method = c('BoxCox')) %>% 
  predict(. ,newdata = as.data.frame(state.x77)) 

> head(pre_box)
    # A tibble: 6 x 8
      Population Income Illiteracy `Life Exp` Murder `HS Grad` Frost  Area
           <dbl>  <dbl>      <dbl>      <dbl>  <dbl>     <dbl> <dbl> <dbl>
    1       8.19   118.     0.642       2383.   6.83      618.   20.  38.7
    2       5.90   157.     0.374       2401.   5.47     1538.  152.  65.7
    3       7.70   133.     0.524       2488.   4.05     1183.   15.  46.3
    4       7.65   114.     0.566       2496.   5.01      579.   65.  38.9
    5       9.96   141.     0.0935      2571.   5.09     1363.   20.  49.7
    6       7.84   138.    -0.383       2596.   3.60     1418.  166.  45.4


## Subtract recipe transformations from MARS::boxcox via caret::preProcess
colMeans(rec_box - pre_box)

> colMeans(rec_box - pre_box)
  Population       Income   Illiteracy     Life Exp       Murder      HS Grad        Frost         Area 
0.000000e+00 2.215800e+01 2.515464e-03 6.803437e+07 2.638715e-02 5.883549e+01 0.000000e+00 1.745788e+01

したがって、一部の列では同意しているように見えますが、他の列では大きく異なります。これらの変換が非常に異なる可能性がある理由は何ですか？他の誰かが同様の矛盾を見つけていますか？

誤用

違いはlambdas、preProcess小数点以下1桁に丸められる関数の丸めによるものです。

この例を確認してください。

library(caret) 
library(recipes) 
library(MASS)
library(mlbench)
data(Sonar)

df <- Sonar[,-61]

preProcess関数を使用し、fudge0に設定します（ラムダの0/1強制に対する許容範囲はありません）。

z2 <- preProcess(x = as.data.frame(df), method = c('BoxCox'), fudge = 0)

と使用recepies：

z <- recipe(~ ., data = as.data.frame(df )) %>% 
  step_BoxCox(., everything()) %>% 
  prep(., training = as.data.frame(df))

ラムダをチェックしてみましょうrecepies：

z$steps[[1]]$lambdas
#output
        V1         V2         V3         V4         V5         V6         V7         V8         V9        V10        V11        V12 
0.09296796 0.23383117 0.19487939 0.11471259 0.18688851 0.35852835 0.48787887 0.36830343 0.26340880 0.29810673 0.33913896 0.50361765 
       V13        V14        V15        V16        V17        V18        V19        V20        V21        V22        V23        V24 
0.49178396 0.35997958 0.43900093 0.28981749 0.22843441 0.27016373 0.50573719 0.83436868 1.02366629 1.15194335 1.35062142 1.44484148 
       V25        V26        V27        V28        V29        V30        V31        V32        V33        V34        V35        V36 
1.51851127 1.61365888 1.47445453 1.44448827 1.22132457 1.00145613 0.66343491 0.61951328 0.53028496 0.45278118 0.39019507 0.37536033 
       V37        V38        V39        V40        V41        V42        V52        V53        V54        V55        V56        V57 
0.28428050 0.23439217 0.29554367 0.47263000 0.34455069 0.44036919 0.15240917 0.30314637 0.28647186 0.16202628 0.27153385 0.17005357 
       V58        V59        V60 
0.15688906 0.28761156 0.06652761

およびのラムダpreProcess：

sapply(z2$bc, function(x) x$lambda)
#output
 V1  V2  V3  V4  V5  V6  V7  V8  V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20 V21 V22 V23 V24 V25 V26 V27 V28 V29 V30 V31 V32 V33 V34 
0.1 0.2 0.2 0.1 0.2 0.4 0.5 0.4 0.3 0.3 0.3 0.5 0.5 0.4 0.4 0.3 0.2 0.3 0.5 0.8 1.0 1.2 1.4 1.4 1.5 1.6 1.5 1.4 1.2 1.0 0.7 0.6 0.5 0.5 
V35 V36 V37 V38 V39 V40 V41 V42 V52 V53 V54 V55 V56 V57 V58 V59 V60 
0.4 0.4 0.3 0.2 0.3 0.5 0.3 0.4 0.2 0.3 0.3 0.2 0.3 0.2 0.2 0.3 0.1

そう：

df$V1^z$steps[[1]]$lambdas[1]

と等しくない

df$V1^sapply(z2$bc, function(x) x$lambda)[1]

デフォルトでfudge = 0.2は、ラムダが-変換なしに変更されている間-0.2 - 02、0つまりlog変換に変更されるため、差はさらに大きくなります。0.8 - 1.21

これらの違いについては気にしません。どちらの関数もデータの歪度を減らします。同じトレーニングパイプラインでそれらを混在させないでください。

また、パフォーマンスのより偏りのない推定値を取得するには、データ漏洩を回避するために、これらの変換をリサンプリングの前ではなく、リサンプリング中に実行する必要があります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-1

コメントを追加

サインイン

分類Dev

キャレットを使用したトレーニングおよびテストデータの前処理

分類Dev

キャレット-列車では利用できない一部の前処理オプション

分類Dev

キャレットを使用した前処理に依存する単一の袋入りツリーモデルの予測

分類Dev

キュウリシナリオの概要を使用したExcelスプレッドシートの処理

分類Dev

コンテキスト変数を使用した thymeleaf での前処理

分類Dev

マルチプロセッシングを使用した画像の前処理

分類Dev

トレーニング前またはピクセルベースの分類の後処理として実行されるグラフカット

分類Dev

予測にopencvを使用したテスト画像の前処理

分類Dev

Kerasラムダレイヤーとしての画像の前処理とそれ自体の前処理

分類Dev

時々サイレントに失敗したいときにPromiseキャッチエラーを処理する最良の方法

分類Dev

画像処理：スキャンした画像を多くの同一機能を備えたテンプレート画像にマッピングする

分類Dev

matplotlibを使用したイベント処理とピッキングのテスト

分類Dev

前処理機能を使用したRでの並列処理が機能しない

分類Dev

キャレットのRでの並列処理

分類Dev

LINQ toEntitiesとLINQtoObjectsがキャストを処理する方法の違い

分類Dev

CPUでの前処理中に複数のスレッドを使用すると、Tensorflowが遅くなります

分類Dev

numpyのみを使用してテキストを前処理する方法

分類Dev

PhantomJS + Seleniumを使用したリダイレクトの処理

分類Dev

カスタムNSURLProtocolおよびHTTPプロキシを使用したリダイレクトの処理

分類Dev

Xを前処理と次元削減の前または後にテスト/トレーニングに分割しますか？機械学習

分類Dev

レトロフィットを使用したKotlinシリアル化MissingFieldExceptionの処理

分類Dev

MSBuildとVisualStudio2012 +を使用したC ++ファイルの前処理

分類Dev

Python。NLP。テキストの前処理

分類Dev

JSESSIONID Cookie を使用したサーブレットでのセッション処理がセッションを取得しない

分類Dev

前処理されたテキストで句読点を独自の単位として保持する

分類Dev

PowershellWebコマンドレットを使用したクロスエディションの例外処理

分類Dev

R Tidymodelsの場合：個別のpca（前処理/レシピ）を異なるデータフレームに適用し、トレーニングのためにそれらをマージします

分類Dev

Keras flow_from_directoryと私のメソッドを使用した同じ前処理メソッドですか？

分類Dev

ジェネリックスを使用して、キャストせずに共通のスーパークラスとそのコレクションを持つさまざまなクラスのオブジェクトで定義された操作を処理するにはどうすればよいですか？

Related 関連記事

記事