ダミー列を生成する前に、データフレームのカテゴリをフィルタリングします。

debugcn 投稿 Dev

マーティンゼイキ

いくつかの列にカテゴリ値を持つデータセットがあります (1 つの行には、で区切られた複数のカテゴリが含まれる場合があります,)。例:

  user hashtags
0   u1      a,b
1   u2      a,c
2   u3        c

これらのカテゴリにダミーの列を作成したいと思います。また、データセットにほとんど出現しないカテゴリにも興味がありません。現在、ダミーの列を生成してから、次のように出現回数の少ない列を削除しています (これchunkは元のデータフレームです)。

dummies_hashtags = chunk['hashtags'].str.get_dummies(sep=',')
dummies_hashtags.columns = dummies_hashtags.columns.map(lambda c: 'hashtag_' + c)

# get rid of dummy columns with usage below 10
usage = dummies_hashtags.sum(0)
high_usage = dummies_hashtags[np.where(usage >= 10)[0]]
low_usage = dummies_hashtags[np.where(usage < 10)[0]]
dummies_hashtags = high_usage
dummies_hashtags['other_hashtags'] = low_usage.sum(1)

出現率の低いカテゴリの数の列も追加していることに注意してください。

このアプローチは機能しますが、非常に低速です。それを改善する方法についての私の考えは、ダミー列を生成する前に、最初にすべての一意のカテゴリとその数を取得し、次に低い数のカテゴリを削除することです。

これについてお聞きしたいのですが、このアプローチは実際に何かを改善しますか? それはどのように実装されますか？（np.uniqueとreturn_counts=True思い浮かびます）。また、この問題に対するより良いアプローチはありますか?

(注: データセットはSparseDataFrameすでに存在します)。

回転した

numpyブール値のスライスを使用すると速度が上がります.これがうまくいくかどうか教えてください。

duh = df.hashtags.str.get_dummies(',')
v = duh.values
m = v.sum(0) > 1  # filter out occurrences of 1.  change for your needs
d2 = pd.DataFrame(v[:, m], duh.index, duh.columns[m])

df.join(d2)

  user hashtags  a  c
0   u1      a,b  1  0
1   u2      a,c  1  1
2   u3        c  0  1

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-07-31

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

ダミー列を生成する前に、データ フレームのカテゴリをフィルタリングします。

ダミー列を生成する前に、データ フレームのカテゴリをフィルタリングします。

カテゴリカル列でDaskデータフレームをフィルタリングしますか？

そのカテゴリを更新する列の値によってパンダcatagoricalデータフレームをフィルタリング

パンダ：カテゴリカルデータフレームに列を追加します

カテゴリ列によるパンダデータフレームのフィルタリングに失敗する

カテゴリ列によるパンダデータフレームのフィルタリングに失敗する

データフレームのサブ設定を使用して、カテゴリ列を再コーディングします

注文したカテゴリのアイテム数でパンダのデータフレームをフィルタリングする方法はありますか？

パンダのデータフレームをkerasのカテゴリに変換します

パンダのデータフレームをフィルタリングし、tkinter / pandastableに表示します

パンダは、最大合計値を持つカテゴリ列を持つデータフレームをグループ化します

データフレームをフィルタリングし、前の行データを使用する

カスタム商品ループをフィルタリングして、WooCommerceのカテゴリから商品を取得します

パンダデータフレーム内のカテゴリデータのサブグループをカウントする方法は？

カテゴリ別のPythonデータフレームでランダムサンプルを取得する

パンダのデータフレームをグループ化してフィルタリングする

データのリストに関してデータフレームをフィルタリングする

リストを使用してパンダのデータフレームをフィルタリングする

既存の列のカテゴリ値に基づいてデータフレームに列を追加します

pandasデータフレームに列を追加すると、カテゴリカルインデックスエラーが発生します

グループカテゴリが重複しているパンダのデータフレームをプロットする

カテゴリのリストとしてパンダのデータフレーム列をモデル化する

最大カテゴリカルオカレンスに基づいてテーブルをフィルタリングします

パンダは正と負の値のデータフレームをフィルタリングします

Python Pandas：別のデータフレームの文字列コメントからデータフレームのカテゴリの最大値を削除します

ループ関数を使用して、データフレームをデータフレームのリストにフィルタリングします

カウントのあるパンダデータフレーム内のさまざまなアイテムの文字列をカテゴリカルカウントに変換します

配列を含むパンダデータフレームのセルをフィルタリングする

列のリストに対してORステートメントを使用してPandasデータフレームをフィルタリングする

連続データをパンダデータフレームのカテゴリデータに変換します

ダミー列を生成する前に、データフレームのカテゴリをフィルタリングします。

ダミー列を生成する前に、データフレームのカテゴリをフィルタリングします。