別の列でグループ化された要素からリストのリストを返します

debugcn 投稿 Dev

エレノア

質問の説明方法がわからないので、ここで例を示します。

データフレームには2つの列AとBがあります。このようなリストを返すようにします。

[[3,4],[5,8,6],[6,8],[10,1]]

ご覧のとおり、これはグループ化されA、B列に数値のリストを返します。注意すべき点として、要素の順序は変更されBません。また、サブリストの順序は列Aに示されているものと同じです（[3,4]グループ1[5,8,6]から、グループ2からなど）。

データフレームがすでにAによって順序付けられているとします。forループを使用してそれを行う方法は知っていますが、私のデータセットには10億のレコードがあります。だから私はこの問題のためのいくつかの効率的でクリーンなコードを探しています。

アレクサンダー

最初に最初の列Aでグループ化し、次にで一意の値を取得する必要がありますB（一意の値のみが必要であり、重複は必要ないと仮定します）。それが終わったら、ラムダ式を使用して各np.array値をリストに変換し、結果のシリーズをを使用してリストに変換し.tolist()ます。

>>> df.groupby('A', sort=False)['B'].apply(list).tolist()

または、

>>> [list(v) for v in df.groupby('A', sort=False)['B'].unique()]

または、

>>> df.groupby('A', sort=False)['B'].apply(lambda x: x.unique().tolist()).tolist()

[[3, 4], [5, 8, 6], [6, 8], [10, 1]]

また、groupby操作をソートしないことをお勧めします。

興味のある方のために、タイミングを比較します。

df_ = pd.concat([df] * 10000)  # Set-up larger dataframe with 90k rows.

%timeit df_.groupby('A', sort=False)['B'].unique().apply(list).tolist()
# 100 loops, best of 3: 5.9 ms per loop

%timeit df_.groupby('A', sort=False)['B'].apply(list).tolist()
# 100 loops, best of 3: 6.79 ms per loop

%timeit list(map(list, df_.groupby('A', sort=False)['B'].apply(list)))
# 100 loops, best of 3: 8.02 ms per loop

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-1

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

別の列でグループ化された要素からリストのリストを返します

別の列でグループ化された要素からリストのリストを返します

Pythonのリストのリストからグループ化された棒グラフを作成します

リストのリスト内の要素をネストされた辞書にグループ化します

別の列でグループ化されたパンダ列のリストから頻出要素を見つける

LINQを使用して、別のプロパティでグループ化されたリストから最大値を除くすべてを削除します

SQLクエリからネストされた配列をPHPでグループ化して、jqTreeプラグインのJSONを取得します

各要素を長さでグループ化して、1次元リストからリストのリストを作成します

日付でグループ化されたリストのQuerySetを返します

リストのグループ化された要素をPythonの単一要素で1つのリストに結合します

dictのリストを受け入れ、複数のキーでグループ化されたリストのdictを返します

標準ライブラリのみを使用して、別の列のグループ化された値から1つの列の累積合計でテキストファイルを並べ替えますか？

ネストされたリストの要素でリストをグループ化する

pandas DataFrameを列でグループ化し、列のグループからリストを作成します

forループで返された要素から新しいリストを追加します

Python-ポイントのリストを使用して、forループなしでグリッド化されたNetCDFからデータを抽出します

日付ごとのネストされたリストで要素を時間ごとにグループ化しますか？

C＃のリストからHashSetとDictionaryを取得し、ネストされたプロパティでグループ化します

Rの別の列に基づいて列から抽出された文字列テキストをグループ化する列を作成します

Javaでループのために使用して別のリストから要素を転送します

大きなnumpy配列を、グループ化されたインデックスのリストを使用して個別の配列に分割します

タプルのリストを別のソートされた列挙リストで並べ替えます

別のリストで示されているリストから特定の要素をプロットしたい

多次元配列phpからグループ化されたコンマ区切りリストを生成します

ネストされたリストから特定の名前のすべての要素をプルします

タプルのリストを最初の要素でグループ化します

グループ化された行のリストを更新します。

グループ化されたリストからタプルキーのみをフィルタリングします

Pythonは、一意の値からグループ化されたリストのリストを作成します

リストを繰り返し処理し、ネストされたタグからテキスト内のタグをスクレイプで削除します

日付とタグでグループ化された行のリスト要素の頻度をカウントします