pandasDataFrameの列の文字列の1つのホットエンコーディング

ヨルダン

'description'列のDataFrameがあり、説明内の単語の単語数を含む1つのホットエンコーディングを作成したいと思います。

    description
0   test words that describe things
1   more and more words here
2   things test

必要な出力

    test   words  that describe things more  here  and
0   1.0    1.0    1.0    1.0    1.0    0.0   0.0   0.0
1   0.0    1.0    0.0    0.0    0.0    2.0   1.0   1.0
2   1.0    0.0    0.0    0.0    1.0    0.0   0.0   0.0

私が持っている現在の解決策は次のとおりです。

one_hot = df.apply(lambda x: pd.Series(x.description).str.split(expand=True).stack().value_counts(), axis=1)

これは、大きなデータセット(130K行)では非常に遅くなり(1行あたり2.6ミリ秒)、より良い解決策があるかどうか疑問に思いました。また、1つのエントリにのみ表示される単語を削除したいと思います。

    test   words  things
0   1.0    1.0    1.0
1   0.0    1.0    0.0
2   1.0    0.0    1.0
アンキー

IIUCは、カウントのために、あなたが行うことができますgroupby+sum上のaxis=1get_dummies

final = (pd.get_dummies(df['description'].str.split(expand=True))
         .groupby(lambda x: x.split('_')[-1],axis=1).sum())

またはapply(slower)を使用:

df['description'].str.split(expand=True).apply(pd.value_counts,axis=1).fillna(0)

   and  describe  here  more  test  that  things  words
0    0         1     0     0     1     1       1      1
1    1         0     1     2     0     0       0      1
2    0         0     0     0     1     0       1      0

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

1つの列を1つのホットエンコーディング

分類Dev

1つのホットエンコーディング文字

分類Dev

複数の値を持つデータフレーム文字列列からの1つのホットエンコーディング

分類Dev

文字レベルでの1つのホットエンコーディング

分類Dev

混合データの多くの列を1つのホットエンコーディング

分類Dev

列内の複数のカテゴリデータを1つのホットエンコーディング

分類Dev

Verilogの1つのホットエンコーディング

分類Dev

パンダの辞書の列から1つのホットエンコーディングを作成する

分類Dev

RDataFrame-複数の用語を含む列の1つのホットエンコーディング

分類Dev

1つのホットエンコーディングsklearnの後に列の名前を保持する方法は?

分類Dev

1つのホットエンコーディング機能

分類Dev

CFSMの状態の1つのホットエンコーディング

分類Dev

ScalaのRDDでの1つのホットエンコーディング

分類Dev

1つのホットエンコーディング単一カテゴリ数値列

分類Dev

複数の同様の列を持つパンダのワンホットエンコーディング

分類Dev

R-他の列を静止させたまま、1つの列を1つのホットエンコーディングする方法は?

分類Dev

numpyからの1つのホットエンコーディング

分類Dev

他の列の値の一部に基づいて1つのホットエンコーディング列を作成する

分類Dev

rデータセット内の1つの変数のワンホットエンコーディング

分類Dev

numpyを使用した1つのホットエンコーディング

分類Dev

集約された1つのホットエンコーディング

分類Dev

Pythonの列で1つのホットエンコーディングを実行せずに行間のジャッカード距離を取得します

分類Dev

複数の列にわたるワンホットエンコーディング-ただし、1つのグループとして

分類Dev

DNA配列の1つのホットエンコーディングを生成するにはどうすればよいですか?

分類Dev

PDFテキスト文字列のエンコーディング

分類Dev

複合フィールドの1つのホットエンコーディング

分類Dev

パンダはブール値として列から1つのホットエンコーディングを取得します

分類Dev

NNのDNAデータ入力、1つのホットエンコーディング

分類Dev

ケラスでのマルチラベル画像の1つのホットエンコーディング

Related 関連記事

  1. 1

    1つの列を1つのホットエンコーディング

  2. 2

    1つのホットエンコーディング文字

  3. 3

    複数の値を持つデータフレーム文字列列からの1つのホットエンコーディング

  4. 4

    文字レベルでの1つのホットエンコーディング

  5. 5

    混合データの多くの列を1つのホットエンコーディング

  6. 6

    列内の複数のカテゴリデータを1つのホットエンコーディング

  7. 7

    Verilogの1つのホットエンコーディング

  8. 8

    パンダの辞書の列から1つのホットエンコーディングを作成する

  9. 9

    RDataFrame-複数の用語を含む列の1つのホットエンコーディング

  10. 10

    1つのホットエンコーディングsklearnの後に列の名前を保持する方法は?

  11. 11

    1つのホットエンコーディング機能

  12. 12

    CFSMの状態の1つのホットエンコーディング

  13. 13

    ScalaのRDDでの1つのホットエンコーディング

  14. 14

    1つのホットエンコーディング単一カテゴリ数値列

  15. 15

    複数の同様の列を持つパンダのワンホットエンコーディング

  16. 16

    R-他の列を静止させたまま、1つの列を1つのホットエンコーディングする方法は?

  17. 17

    numpyからの1つのホットエンコーディング

  18. 18

    他の列の値の一部に基づいて1つのホットエンコーディング列を作成する

  19. 19

    rデータセット内の1つの変数のワンホットエンコーディング

  20. 20

    numpyを使用した1つのホットエンコーディング

  21. 21

    集約された1つのホットエンコーディング

  22. 22

    Pythonの列で1つのホットエンコーディングを実行せずに行間のジャッカード距離を取得します

  23. 23

    複数の列にわたるワンホットエンコーディング-ただし、1つのグループとして

  24. 24

    DNA配列の1つのホットエンコーディングを生成するにはどうすればよいですか?

  25. 25

    PDFテキスト文字列のエンコーディング

  26. 26

    複合フィールドの1つのホットエンコーディング

  27. 27

    パンダはブール値として列から1つのホットエンコーディングを取得します

  28. 28

    NNのDNAデータ入力、1つのホットエンコーディング

  29. 29

    ケラスでのマルチラベル画像の1つのホットエンコーディング

ホットタグ

アーカイブ