カテゴリが欠落しているワンホットエンコーディング

lipsumar

カテゴリ列のあるデータセットがあります。線形回帰を使用するために、I1-この列をホットエンコードします。

私のセットには、カテゴリ列を含む10列があります。その列を削除し、1-hotエンコードされた行列を追加した後、14列(10-1 + 5)になります。

そこで、線形回帰モデルを形状の行列(n、14)でトレーニング(適合)します。

トレーニング後、トレーニングセットのサブセットでテストしたいので、最初に5つだけを取得して、同じパイプラインに通します。しかし、これらの5つには、最初に3つのカテゴリしか含まれていません。したがって、パイプラインを通過した後、2つのカテゴリが欠落しているため、形状のマトリックス(n、13)だけが残ります。

1ホットエンコーダに5つのカテゴリを使用させるにはどうすればよいですか?

sklearnのLabelBinarizerを使用しています。

lipsumar

エラーは、「テストデータを同じパイプラインに通す」ことです。基本的に私はやっていた:

data_prepared = full_pipeline.fit_transform(train_set)

lin_reg = LinearRegression()
lin_reg.fit(data_prepared, labels)

some_data = train_set.iloc[:5]
some_data_prepared = full_pipeline.fit_transform(some_data)

lin_reg.predict(some_data_prepared)
# => error because mismatching shapes

問題のある行は次のとおりです。

some_data_prepared = full_pipeline.fit_transform(some_data)

を実行することによりfit_transform、LabelBinarizerを3つのラベルのみを含むセットに適合させます。代わりに私はすべきです:

some_data_prepared = full_pipeline.transform(some_data)

このように、フルセット(train_set)に適合したパイプラインを使用して、同じ方法で変換します。

ありがとう@VivekKumar

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

カテゴリデータセットを使用したワンホットエンコーディング:カテゴリデータのさまざまな値(数が少ない)を処理する方法

分類Dev

kmodesVSワンホットエンコーディング+カテゴリカルデータのkmeans?

分類Dev

Excelでのカテゴリデータのワンホット(ダミー)エンコーディング

分類Dev

Python PANDAS:ワンホットエンコーディングをカテゴリカルに戻す方法

分類Dev

パンダワンホットエンコーディング:頻度の低いカテゴリをまとめる

分類Dev

1行のいくつかのカテゴリにワンホットエンコーディングを使用する

分類Dev

ワンホットエンコーディングなしでカテゴリ変数を持つ決定木を使用する方法はありますか?

分類Dev

sklearn-ワンホットエンコーディング時に欠落データを組み込む方法

分類Dev

複数の1が連続しているpysparkのワンホットエンコーディング

分類Dev

ドラッグアンドムーブ後にTinyMCEエディターのコンテンツが欠落している

分類Dev

パンダを使用して2つのカテゴリ列の組み合わせに基づいてワンホットエンコーディングを行う方法は?

分類Dev

列内の複数のカテゴリデータを1つのホットエンコーディング

分類Dev

sklearnでは、カテゴリ機能を備えたデシジョンツリーを構築するときにワンホットエンコーディングがどのように役立ちますか?

分類Dev

1つのホットエンコーディング単一カテゴリ数値列

分類Dev

トップカテゴリ、NA、およびRで「その他」として含まれている残りの1つのホットエンコーディング

分類Dev

コントローラ$ _GETで一部のデータが欠落しているAJAXAPIリクエスト

分類Dev

エンタープライズアーキテクトのスクリプティング:java apieaapi.jarでメソッドが欠落しています

分類Dev

エンティティフレームワークの参照がデバッグビルドとリリースビルドの間で欠落します

分類Dev

欠落しているエントリの合計が0の複数のカテゴリにわたるSQLCOUNTアイテムとGROUP

分類Dev

ワンホットエンコーディング列にない要素を使用してパンダの列をエンコードする

分類Dev

パンダの1つのホットエンコーディングで未知のカテゴリ値を処理する方法

分類Dev

PHPで欠落している「承認」リクエストヘッダーのトラブルシューティング

分類Dev

セル値をワンホットエンコーディングの列として作成する

分類Dev

インテルグラフィックコマンドセンターがローカルホストのポート9001でリッスンしているWebエンドポイントを残すのはなぜですか?

分類Dev

ワンホットエンコーディングに似ているが、バイナリコーディング(0と1000の正の数のみ)がない構造を取得するにはどうすればよいですか?

分類Dev

テストに値が存在しない1つのホットエンコーディングトレイン

分類Dev

カスケードエンティティをSpringJPAエンティティに保存した後に値が欠落している

分類Dev

特定のコールスタックのシンボルテーブルが欠落しているコアダンプをデバッグするGDB

分類Dev

RAIDコントローラーを使用してHDDディスクが欠落している(RAID 0構成)

Related 関連記事

  1. 1

    カテゴリデータセットを使用したワンホットエンコーディング:カテゴリデータのさまざまな値(数が少ない)を処理する方法

  2. 2

    kmodesVSワンホットエンコーディング+カテゴリカルデータのkmeans?

  3. 3

    Excelでのカテゴリデータのワンホット(ダミー)エンコーディング

  4. 4

    Python PANDAS:ワンホットエンコーディングをカテゴリカルに戻す方法

  5. 5

    パンダワンホットエンコーディング:頻度の低いカテゴリをまとめる

  6. 6

    1行のいくつかのカテゴリにワンホットエンコーディングを使用する

  7. 7

    ワンホットエンコーディングなしでカテゴリ変数を持つ決定木を使用する方法はありますか?

  8. 8

    sklearn-ワンホットエンコーディング時に欠落データを組み込む方法

  9. 9

    複数の1が連続しているpysparkのワンホットエンコーディング

  10. 10

    ドラッグアンドムーブ後にTinyMCEエディターのコンテンツが欠落している

  11. 11

    パンダを使用して2つのカテゴリ列の組み合わせに基づいてワンホットエンコーディングを行う方法は?

  12. 12

    列内の複数のカテゴリデータを1つのホットエンコーディング

  13. 13

    sklearnでは、カテゴリ機能を備えたデシジョンツリーを構築するときにワンホットエンコーディングがどのように役立ちますか?

  14. 14

    1つのホットエンコーディング単一カテゴリ数値列

  15. 15

    トップカテゴリ、NA、およびRで「その他」として含まれている残りの1つのホットエンコーディング

  16. 16

    コントローラ$ _GETで一部のデータが欠落しているAJAXAPIリクエスト

  17. 17

    エンタープライズアーキテクトのスクリプティング:java apieaapi.jarでメソッドが欠落しています

  18. 18

    エンティティフレームワークの参照がデバッグビルドとリリースビルドの間で欠落します

  19. 19

    欠落しているエントリの合計が0の複数のカテゴリにわたるSQLCOUNTアイテムとGROUP

  20. 20

    ワンホットエンコーディング列にない要素を使用してパンダの列をエンコードする

  21. 21

    パンダの1つのホットエンコーディングで未知のカテゴリ値を処理する方法

  22. 22

    PHPで欠落している「承認」リクエストヘッダーのトラブルシューティング

  23. 23

    セル値をワンホットエンコーディングの列として作成する

  24. 24

    インテルグラフィックコマンドセンターがローカルホストのポート9001でリッスンしているWebエンドポイントを残すのはなぜですか?

  25. 25

    ワンホットエンコーディングに似ているが、バイナリコーディング(0と1000の正の数のみ)がない構造を取得するにはどうすればよいですか?

  26. 26

    テストに値が存在しない1つのホットエンコーディングトレイン

  27. 27

    カスケードエンティティをSpringJPAエンティティに保存した後に値が欠落している

  28. 28

    特定のコールスタックのシンボルテーブルが欠落しているコアダンプをデバッグするGDB

  29. 29

    RAIDコントローラーを使用してHDDディスクが欠落している(RAID 0構成)

ホットタグ

アーカイブ