パンダデータフレームの各グループの上位n％行のみを保持するにはどうすればよいですか？

debugcn 投稿 Dev

キャメルケース

パンダのデータフレームに各グループの上位n行を保持し、ソリューションではパーセンテージではなく絶対数としてnを使用するというこの質問の変形を確認しました。ここでは、パンダは各グループ内で最上位のnレコードを取得します。ただし、私のデータフレームでは、各グループの行数が異なるため、各グループの上位n％の行を保持したいと思います。この問題にどのようにアプローチしますか？

jpp

ブール型の一連のフラグを作成し、前にフィルタリングすることができますgroupby。まず、サンプルデータフレームを作成し、最初のシリーズの一意の値ごとに行数を確認しましょう。

np.random.seed(0)
df = pd.DataFrame(np.random.randint(0, 2, (10, 3)))

print(df[0].value_counts())

0    6
1    4
Name: 0, dtype: int64

次に、分数を定義します。たとえば、50％以下で、フィルタリング用のブール系列を作成します。

n = 0.5

g = df.groupby(0)
flags = (g.cumcount() + 1) <= g[1].transform('size') * n

次に、条件を適用し、インデックスを最初の系列として設定し、（必要に応じて）インデックスを並べ替えます。

df = df.loc[flags].set_index(0).sort_index()

print(df)

   1  2
0      
0  1  1
0  1  1
0  1  0
1  1  1
1  1  0

ご覧のとおり、結果のデータフレームには3つの0インデックスと2つのインデックスしかなく1、いずれの場合も元のデータフレームの半分の数です。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-7

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

パンダデータフレームの各グループの上位n％行のみを保持するにはどうすればよいですか？

パンダデータフレームの各グループの上位n％行のみを保持するにはどうすればよいですか？

パンダのデータフレームに各グループの上位3行を保持するにはどうすればよいですか？

パンダのデータフレームに各グループの上位[2-31]行を保持するにはどうすればよいですか？

パンダのデータフレームの値を各グループの最初の行で割るにはどうすればよいですか？

パンダのデータフレームのサブグループで操作を実行するにはどうすればよいですか？

2つのパンダデータフレームから各セルのタプルを作成するにはどうすればよいですか？

グループごとに計算を行ってパンダのデータフレームを更新するにはどうすればよいですか？

パンダのデータフレームをフィルタリングし、他の列や他の条件に基づいて行のみを保持するにはどうすればよいですか？

Pythonでパンダデータフレームの各エントリ（タプル）を丸めるにはどうすればよいですか？

行の位置でパンダのデータフレームをフィルタリングするにはどうすればよいですか？

パンダの行を別のデータフレーム列でフィルタリングするにはどうすればよいですか？

データフレーム内の各グループに対してforループを実行するにはどうすればよいですか？

パンダのデータフレームをピークのグループに分割するにはどうすればよいですか？

グループ化されたパンダのデータフレームにタイトルを追加するにはどうすればよいですか？

各グループの多重指数データフレームの最初の行を削除するにはどうすればよいですか？

パンダのデータフレームで重複に近い値をグループ化するにはどうすればよいですか？

パンダのデータフレームをループして新しい行を生成するにはどうすればよいですか？

パンダでグループ化した後、各グループから上位n行を選択するにはどうすればよいですか？

jinja2でパンダデータフレームの行と列をループするにはどうすればよいですか？

パンダの列の特定の単語リストの後に行を保持するデータフレームをフィルタリングするにはどうすればよいですか？

異なるレートでパンダのデータフレームから各グループをサンプリングするにはどうすればよいですか

パンダデータフレームのフィルタリングされた行の平均を計算し、元のデータフレームのすべての列に平均を追加するにはどうすればよいですか？

パンダのデータフレームにリサンプリングの特定の条件を設定するにはどうすればよいですか？

パンダデータフレームの選択した行と列にのみ関数を適用するにはどうすればよいですか？

パンダのシリーズにデータフレームの各列を追加するにはどうすればよいですか？

パンダのデータフレームからのみ列ラベルを抽出するにはどうすればよいですか？

パンダのデータフレームで不均衡なパネルのラグ変数を生成するにはどうすればよいですか？

パンダのデータフレームをフィルタリングして特定の値を含めるにはどうすればよいですか？

パンダでforループの反復内に複数のデータフレームを作成するにはどうすればよいですか？

パンダのデータフレームをループして、条件の下で値を変更するにはどうすればよいですか？