検索

検索

pandasDataFrameの列の文字列の1つのホットエンコーディング

debugcn 投稿 Dev

1

ヨルダン

'description'列のDataFrameがあり、説明内の単語の単語数を含む1つのホットエンコーディングを作成したいと思います。

    description
0   test words that describe things
1   more and more words here
2   things test

必要な出力

    test   words  that describe things more  here  and
0   1.0    1.0    1.0    1.0    1.0    0.0   0.0   0.0
1   0.0    1.0    0.0    0.0    0.0    2.0   1.0   1.0
2   1.0    0.0    0.0    0.0    1.0    0.0   0.0   0.0

私が持っている現在の解決策は次のとおりです。

one_hot = df.apply(lambda x: pd.Series(x.description).str.split(expand=True).stack().value_counts(), axis=1)

これは、大きなデータセット（130K行）では非常に遅くなり（1行あたり2.6ミリ秒）、より良い解決策があるかどうか疑問に思いました。また、1つのエントリにのみ表示される単語を削除したいと思います。

    test   words  things
0   1.0    1.0    1.0
1   0.0    1.0    0.0
2   1.0    0.0    1.0

アンキー

IIUCは、カウントのために、あなたが行うことができますgroupby+sum上のaxis=1後get_dummies

final = (pd.get_dummies(df['description'].str.split(expand=True))
         .groupby(lambda x: x.split('_')[-1],axis=1).sum())

またはapply（slower）を使用：

df['description'].str.split(expand=True).apply(pd.value_counts,axis=1).fillna(0)

   and  describe  here  more  test  that  things  words
0    0         1     0     0     1     1       1      1
1    1         0     1     2     0     0       0      1
2    0         0     0     0     1     0       1      0

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-12

0

コメントを追加

0

サインイン

関連記事

分類Dev

1つの列を1つのホットエンコーディング

分類Dev

1つのホットエンコーディング文字

分類Dev

複数の値を持つデータフレーム文字列列からの1つのホットエンコーディング

分類Dev

文字レベルでの1つのホットエンコーディング

分類Dev

混合データの多くの列を1つのホットエンコーディング

分類Dev

列内の複数のカテゴリデータを1つのホットエンコーディング

分類Dev

Verilogの1つのホットエンコーディング

分類Dev

パンダの辞書の列から1つのホットエンコーディングを作成する

分類Dev

RDataFrame-複数の用語を含む列の1つのホットエンコーディング

分類Dev

1つのホットエンコーディングsklearnの後に列の名前を保持する方法は？

分類Dev

1つのホットエンコーディング機能

分類Dev

CFSMの状態の1つのホットエンコーディング

分類Dev

ScalaのRDDでの1つのホットエンコーディング

分類Dev

1つのホットエンコーディング単一カテゴリ数値列

分類Dev

複数の同様の列を持つパンダのワンホットエンコーディング

分類Dev

R-他の列を静止させたまま、1つの列を1つのホットエンコーディングする方法は？

分類Dev

numpyからの1つのホットエンコーディング

分類Dev

他の列の値の一部に基づいて1つのホットエンコーディング列を作成する

分類Dev

rデータセット内の1つの変数のワンホットエンコーディング

分類Dev

numpyを使用した1つのホットエンコーディング

分類Dev

集約された1つのホットエンコーディング

分類Dev

Pythonの列で1つのホットエンコーディングを実行せずに行間のジャッカード距離を取得します

分類Dev

複数の列にわたるワンホットエンコーディング-ただし、1つのグループとして

分類Dev

DNA配列の1つのホットエンコーディングを生成するにはどうすればよいですか？

分類Dev

PDFテキスト文字列のエンコーディング

分類Dev

複合フィールドの1つのホットエンコーディング

分類Dev

パンダはブール値として列から1つのホットエンコーディングを取得します

分類Dev

NNのDNAデータ入力、1つのホットエンコーディング

分類Dev

ケラスでのマルチラベル画像の1つのホットエンコーディング

Related 関連記事

記事

ホットタグ

アーカイブ