キャレットを使用したトレーニングおよびテストデータの前処理

Aveshen Pillay

良い一日

キャレット関数のpreProcess()関数を使用して、それに応じてトレーニングデータをスケーリングしています。また、トレーニングセットと同じ平均と標準偏差でスケーリングしたいテストデータセットもあります。このように、私はテストデータを、トレーニングデータに基づいて観察したものに従ってスケーリングされた完全に新しい/見えないデータとして扱っています。

私は次のコードを持っています:

train = training data
test = test data (want to treat this as unseen)

preprocess_values_train = preProcess(train, method = c("center", "scale"))
train.st = predict(preprocess_values_train, train)

test.st = predict(preprocess_values_train, test)

これにより、トレーニングの平均と標準偏差がテストデータセットに適用されると思いましたが、そうではありません。このコードをどのように編集して、トレーニングデータの詳細に基づいてテストデータをスケーリングしますか?train.stはまさに私が必要としているものですが、test.stはそうではありません。

ありがとう、Aveshen

StupidWolf

列車の平均と標準偏差に基づいてスケーリングされます。

library(caret)
df = data.frame(matrix(runif(2000),ncol=10))
train = df[1:100,]
test = df[101:200,]

preprocess_values_train = preProcess(train, method = c("center", "scale"))
train.st = predict(preprocess_values_train, train)

head(train.st)
          X1          X2         X3           X4         X5           X6
1  1.3163365 -0.31011484 -1.2534994  1.448256135 -0.8130691  1.401194346
2  1.1156438  1.44669749 -1.3775943 -0.077657870  1.6383685 -0.004940122
3  0.3628558  0.05983967 -1.4853910 -0.233465895  0.7657059  1.173381343
4 -1.3851982 -0.78838468  1.3607501 -0.001212484 -0.3388031 -1.321384412
5 -1.0269737 -1.34665949 -1.2681398  1.507292935  0.4152667  1.337453028
6  0.6322652  0.31820145  0.3719918  1.619318256 -0.3721707 -0.955420716
          X7          X8         X9        X10
1  0.5323608  0.09905265 -0.4302925 -1.3965973
2  0.8590394 -1.13310729  0.9641076  0.9685195
3 -0.7753370 -0.08805592  1.4285071 -1.2162778
4  1.1605200  0.44107850 -0.7273844  0.7803693
5  0.2324899  0.28557215 -0.2934569  1.5633815
6 -0.7492416 -0.18478112  1.1474105 -0.2717625

手動で計算できます。

scaled_train = t(apply(train,1,function(i)(i-preprocess_values_train$mean)/preprocess_values_train$std))

ご覧のとおり、predict(...)と同じ値が返されます。

all.equal(scaled_train,as.matrix(train.st))
[1] TRUE

次に、これをテストに適用します。

test.st = predict(preprocess_values_train, test)

scaled_test = t(apply(test,1,function(i)(i-preprocess_values_train$mean)/preprocess_values_train$std))

 all.equal(scaled_test,as.matrix(test.st))
[1] TRUE

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

Rのキャレットを使用してデータをランダムにトレーニングおよびテストする100回分割

分類Dev

キャレットを使用してトレーニングおよびテストデータを作成するときに値が欠落している

分類Dev

MNISTデータセットでトレーニングされたNNおよびCNNの数字認識前の前処理

分類Dev

rを使用したトレーニングおよびテストセットの関数とループ

分類Dev

テストおよびトレーニングデータセットで時間ベースの分割を使用してデータを分割する

分類Dev

トレーニングセットとテストセットへの分割を含む画像データセットの前処理

分類Dev

JPGおよびXMLファイルのデータセットをトレーニングセットとテストセットに分割します

分類Dev

データセットを分割して、グループの尊重をテストおよびトレーニングする方法

分類Dev

トレーニングと推論のDNNアーキテクチャをクラウドおよびエッジデバイスに配布できますか?

分類Dev

macOSおよびCentOS上のdoSNOWクラスターを使用した並列キャレット

分類Dev

Java構成を使用したSpringルートおよびサーブレットコンテキスト

分類Dev

Spring Restテンプレートを使用したタイムアウトおよびその他のIO例外の処理の一般的な方法

分類Dev

テンプレート化された関数をラップして、constおよびnon-constデータを処理する方法

分類Dev

カスタムNSURLProtocolおよびHTTPプロキシを使用したリダイレクトの処理

分類Dev

unittestおよびpytestパッケージを使用して作成されたテストのユニットテストカバレッジレポート

分類Dev

畳み込みネットワークをトレーニングするためのデータ前処理での画像のサイズ変更

分類Dev

Kerasで構築およびトレーニングされたニューラルネットワークで誤った予測を処理する方法は?

分類Dev

データセットを使用したモデルのトレーニング

分類Dev

レシピとキャレットの前処理を使用した前処理の違い

分類Dev

ダッシュを使用して画像を処理し、トレーニングおよび保存された画像分類モデルを実行して、ダッシュボードに結果を表示します

分類Dev

sklearnによるトレーニングリストの前処理

分類Dev

SparkR-データマイニング用のテストおよびトレーニングデータフレームの作成

分類Dev

画像処理:スキャンした画像を多くの同一機能を備えたテンプレート画像にマッピングする

分類Dev

Azure データ レイク ストアでの増分データ インジェストを処理またはアーキテクチャする方法は?

分類Dev

$ parseを使用してテンプレートにバインディングを使用したデータのAngularディレクティブ処理

分類Dev

同じPCAを適用してセットをトレーニングおよびテストする方法

分類Dev

Xを前処理と次元削減の前または後にテスト/トレーニングに分割しますか?機械学習

分類Dev

MVVM、Entity Framework、およびmysqlを使用したテキストボックスへの基本的なデータバインディング

分類Dev

同じデータを使用したディープCNNのトレーニングとテスト

Related 関連記事

  1. 1

    Rのキャレットを使用してデータをランダムにトレーニングおよびテストする100回分割

  2. 2

    キャレットを使用してトレーニングおよびテストデータを作成するときに値が欠落している

  3. 3

    MNISTデータセットでトレーニングされたNNおよびCNNの数字認識前の前処理

  4. 4

    rを使用したトレーニングおよびテストセットの関数とループ

  5. 5

    テストおよびトレーニングデータセットで時間ベースの分割を使用してデータを分割する

  6. 6

    トレーニングセットとテストセットへの分割を含む画像データセットの前処理

  7. 7

    JPGおよびXMLファイルのデータセットをトレーニングセットとテストセットに分割します

  8. 8

    データセットを分割して、グループの尊重をテストおよびトレーニングする方法

  9. 9

    トレーニングと推論のDNNアーキテクチャをクラウドおよびエッジデバイスに配布できますか?

  10. 10

    macOSおよびCentOS上のdoSNOWクラスターを使用した並列キャレット

  11. 11

    Java構成を使用したSpringルートおよびサーブレットコンテキスト

  12. 12

    Spring Restテンプレートを使用したタイムアウトおよびその他のIO例外の処理の一般的な方法

  13. 13

    テンプレート化された関数をラップして、constおよびnon-constデータを処理する方法

  14. 14

    カスタムNSURLProtocolおよびHTTPプロキシを使用したリダイレクトの処理

  15. 15

    unittestおよびpytestパッケージを使用して作成されたテストのユニットテストカバレッジレポート

  16. 16

    畳み込みネットワークをトレーニングするためのデータ前処理での画像のサイズ変更

  17. 17

    Kerasで構築およびトレーニングされたニューラルネットワークで誤った予測を処理する方法は?

  18. 18

    データセットを使用したモデルのトレーニング

  19. 19

    レシピとキャレットの前処理を使用した前処理の違い

  20. 20

    ダッシュを使用して画像を処理し、トレーニングおよび保存された画像分類モデルを実行して、ダッシュボードに結果を表示します

  21. 21

    sklearnによるトレーニングリストの前処理

  22. 22

    SparkR-データマイニング用のテストおよびトレーニングデータフレームの作成

  23. 23

    画像処理:スキャンした画像を多くの同一機能を備えたテンプレート画像にマッピングする

  24. 24

    Azure データ レイク ストアでの増分データ インジェストを処理またはアーキテクチャする方法は?

  25. 25

    $ parseを使用してテンプレートにバインディングを使用したデータのAngularディレクティブ処理

  26. 26

    同じPCAを適用してセットをトレーニングおよびテストする方法

  27. 27

    Xを前処理と次元削減の前または後にテスト/トレーニングに分割しますか?機械学習

  28. 28

    MVVM、Entity Framework、およびmysqlを使用したテキストボックスへの基本的なデータバインディング

  29. 29

    同じデータを使用したディープCNNのトレーニングとテスト

ホットタグ

アーカイブ