検索

検索

異なるレートでパンダのデータフレームから各グループをサンプリングするにはどうすればよいですか

debugcn 投稿 Dev

1

ライアン

サンプルを生成したい母集団に関する情報を含むデータフレームがあります。また、サンプルで必要なデータフレームsample_info内の各グループのユニット数を詳細に示すpopulationデータフレームもあります。必要なものを実現するコードをいくつか開発しましたが、使用しているデータセットが大きいため、実行速度が遅くなります。

以下で行ったようにグループをループするのではなく、母集団フレームをグループ化し、グループにサンプリングを適用する方法はありますか？

import pandas as pd

population = pd.DataFrame([[1,True],[1,False],[1,False],[2,True],[2,True],[2,False],[2, True]], columns = ['Group ID','Response'])

    Group ID    Response
0   1           True
1   1           False
2   1           False
3   2           True
4   2           True
5   2           False
6   2           True

sample_info = pd.DataFrame([[1,5],[2,6]], columns = ['Group ID','Sample Size'])

output = pd.DataFrame(columns = ['Group ID','Response'])

    Group ID    Sample Size
0   1           5
1   2           6


for index, row in sample_info.iterrows():    
        output = output.append(population.loc[population['Group ID'] == row['Group ID']].sample(n=row['Sample Size'], replace = True))

group-byを使用してサンプルサイズ情報を取り込み、Pandasで提案されているように適用することができませんでした：groupbyの後に各グループをサンプリングします

ヴァイシャーリー

sample_infoを辞書に変換します。グループIDによるグループ人口。ディクショナリを使用して、サンプルサイズの値をDataFrame.sampleに渡します。

mapper = sample_info.set_index('Group ID')['Sample Size'].to_dict()

population.groupby('Group ID').apply(lambda x: x.sample(n=mapper.get(x.name))).reset_index(drop = True)

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-13

0

コメントを追加

0

サインイン

関連記事

分類Dev

パンダのデータフレームの値を各グループの最初の行で割るにはどうすればよいですか？

分類Dev

パンダのデータフレームに各グループの上位3行を保持するにはどうすればよいですか？

分類Dev

パンダのデータフレームに各グループの上位[2-31]行を保持するにはどうすればよいですか？

分類Dev

パンダデータフレームの各グループの上位n％行のみを保持するにはどうすればよいですか？

分類Dev

パンダのデータフレームにリサンプリングの特定の条件を設定するにはどうすればよいですか？

分類Dev

Pythonでパンダデータフレームの各エントリ（タプル）を丸めるにはどうすればよいですか？

分類Dev

各列に異なる関数を適用してデータフレームをリサンプルするにはどうすればよいですか？

分類Dev

パンダのデータフレーム列でグループ化し、同じExcelファイルの複数のシートに異なるグループを保存するにはどうすればよいですか？

分類Dev

パンダのデータフレームのサブグループで操作を実行するにはどうすればよいですか？

分類Dev

グループ化されたパンダのデータフレームにタイトルを追加するにはどうすればよいですか？

分類Dev

2つのパンダデータフレームから各セルのタプルを作成するにはどうすればよいですか？

分類Dev

各リストアイテムを異なるパンダデータフレームに割り当てるにはどうすればよいですか？

分類Dev

パンダ：2つの異なるデータフレームでforループを繰り返すにはどうすればよいですか？

分類Dev

パンダを使用して1つのデータフレームからテストおよびトレーニングサンプルを作成するにはどうすればよいですか？

分類Dev

パンダのデータフレームをフィルタリングしてから、値のリストをグループ化して集計するにはどうすればよいですか？

分類Dev

パンダのデータフレームで重複に近い値をグループ化するにはどうすればよいですか？

分類Dev

パンダの加速度計データを固定サンプリングレートに補間するにはどうすればよいですか？

分類Dev

パンダのデータフレームをピークのグループに分割するにはどうすればよいですか？

分類Dev

グループごとに計算を行ってパンダのデータフレームを更新するにはどうすればよいですか？

分類Dev

行の位置でパンダのデータフレームをフィルタリングするにはどうすればよいですか？

分類Dev

パンダの行を別のデータフレーム列でフィルタリングするにはどうすればよいですか？

分類Dev

パンダのデータフレームからリストに座標をプッシュするにはどうすればよいですか？

分類Dev

各クラスの頻度を考慮してパンダデータフレームをサブサンプリングするにはどうすればよいですか？

分類Dev

パンダでリサンプリングされたマルチインデックスデータフレームをカウントするにはどうすればよいですか？

分類Dev

.mapアイテムのリストから各アイテムをクリックするたびに異なるデータをレンダリングするにはどうすればよいですか？

分類Dev

パンダのデータフレームをフィルタリングして特定の値を含めるにはどうすればよいですか？

分類Dev

Pythonとパンダ：データフレームをグループに分割するにはどうすればよいですか

分類Dev

パンダのデータフレームで不均衡なパネルのラグ変数を生成するにはどうすればよいですか？

分類Dev

パンダのデータフレームからデータのストリームを作成するにはどうすればよいですか？

Related 関連記事

記事

ホットタグ

アーカイブ