ピボットテーブルに従ってDaskでインデックスを並べ替える方法

debugcn 投稿 Dev

ベンテン

ソートされたインデックスを維持しながら、daskでpivot_tableを使用しようとしています。私は次のような単純なパンダデータフレームを持っています：

# make dataframe, fist in pandas and then in dask
df = pd.DataFrame({'A':['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c'], 'B': ['a', 'b', 'c', 'a', 'b', 'c', 'a','b', 'c'], 'dist': [0, .1, .2, .1, 0, .3, .4, .1,  0]})

df.sort_values(by='A', inplace=True)
dd = dask.dataframe.from_pandas(df, chunksize=3)  # just for demo's sake, you obviously don't ever want a chunksize of 3
print(dd.known_divisions)  # Here I get True, which means my data is sorted

# now pivot and see if the index remains sorted
dd = dd.categorize('B')
pivot_dd = dd.pivot_table(index='A', columns='B', values='dist')
print(pivot_dd.known_divisions) # Here I get False, which makes me sad

並べ替えられたインデックスを持つようにpivot_ddを取得する方法を見つけたいのですが、daskにsort_indexメソッドが表示されず、キーエラーが発生しない限り「A」をインデックスとして設定できません（すでにインデックスです！）。

このおもちゃの例では、最初にパンダのテーブルを回転させてから並べ替えることができます。私が考えている実際のアプリケーションでは、それができません。

ヘルプ/提案を事前に感謝します。

mdurant

これはあなたが望んでいたものではないかもしれませんし、おそらく最良の答えでもないかもしれませんが、それはうまくいくようです。最初の問題は、pivot操作によって列のカテゴリインデックスが作成されることです。これは煩わしいことです。次のことができます。

>>> pivot_dd = dd.pivot_table(index='A', columns='B', values='dist')
>>> pivot_dd.columns = list(pivot_dd.columns)
>>> pivot_dd = pivot_dd.reset_index().set_index('A', sorted=True)
>>> pivot_dd.known_divisions
True

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-1

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

ピボットテーブルに従ってDaskでインデックスを並べ替える方法

ピボットテーブルに従ってDaskでインデックスを並べ替える方法

インデックスによるピボット テーブルの並べ替えを回避する方法

パンダでピボットテーブルを並べ替える方法

リストのインデックス値を別のリスト値に従って並べ替える

Luaの内部テーブルを「スコア」、次に「インデックス」で並べ替える方法は？

ピボットテーブルの並べ替え（マルチインデックス）

Excelのピボットテーブルを時系列で並べ替える方法

selectステートメントに従って行を並べ替える方法

パンダのピボットテーブル関数でデータを並べ替える

ピボットテーブルパンダで並べ替え

Google SheetsAPIを使用してピボットテーブルの「総計」の値で並べ替える方法

Pandas dfは、整数インデックスリストに従って行と列を並べ替えます

Laravelコレクションを多対多のピボットテーブル列で並べ替える

javaScriptで指定されたインデックスに従って配列を並べ替えます

2つのインデックスピボットテーブルを並べ替える：グループ内の値、値に基づくインデックス

Elasticsearch、兄弟フィールドに従って、ただし異なるインデックスからの集計を並べ替えます

パンダを並べ替えるピボットテーブル

別のテーブルのインデックスシーケンスに基づいて列の名前を並べ替える方法は？

Pythonを使用して、インデックス付き列とインデックスなし列に基づいてテーブル値を並べ替える

ネストされた行列の特定の列のcolMeansに従って、ネストされたリスト（インデックス）を並べ替える

Swiftの与えられたインデックスに従って配列を並べ替えます

ピボットテーブルのフィルターペインを並べ替える

インデックス割り当てによるテーブルの並べ替え

パンダのピボットテーブルの値を並べ替える方法は？

パンダマルチインデックスピボットテーブルの日付形式の並べ替えと変化し、精度の損失

arrylistを使用してユーザー定義の並べ替えに従ってクラスオブジェクトを並べ替える方法は？

各インデックスの各文字列の番号に従ってList <string>を並べ替えるにはどうすればよいですか？

パンダのピボットテーブルを行と列の合計で並べ替える

Pandas でデータフレーム インデックスを並べ替え/並べ替える方法は?

サブカテゴリの個別の数でデータフレーム/ピボットテーブルを並べ替える方法は？

インデックスによるピボットテーブルの並べ替えを回避する方法

Pandas でデータフレームインデックスを並べ替え/並べ替える方法は?