パンダはタイムスタンプをTimeGrouper頻度グループにバケットします

debugcn 投稿 Dev

ゲオルク・ハイラー

パンダにDateTimeインデックス付きのデータフレームがあります。タイムpd.Grouper(freq='360Min')グループでグループ化する場合：、この結果を元のタイムスタンプに結合するにはどうすればよいですか？つまり、等結合のタイムスタンプ=バケットは機能しませんか？便利な機能はありますか？asof結合を使用する必要がありますか？または、手動で時間を抽出して、それを一致させようとする必要がありますか？

例：

のソースのために

import pandas as pd
df = pd.DataFrame(
   {
       "Publish date": [
            pd.Timestamp("2000-01-02"),
            pd.Timestamp("2000-01-02"),
            pd.Timestamp("2000-01-09"),
            pd.Timestamp("2000-01-16")
        ],
        "ID": [0, 1, 2, 3],
        "Price": [10, 20, 30, 40]
    }
)

それは与える：

  Publish date  ID  Price
0   2000-01-02   0     10
1   2000-01-02   1     20
2   2000-01-09   2     30
3   2000-01-16   3     40

任意の頻度（月、日、時間だけでなく）で集計を実行したい、たとえば1

month.

agg_result = df.groupby(pd.Grouper(key="Publish date", freq="1M")).agg([pd.Series.mean, pd.Series.median]).reset_index()
agg_result.columns = ['_'.join(col).strip() for col in agg_result.columns.values]
agg_result.columns = ['Publish date month', 'ID_mean', 'ID_median', 'Price_mean', 'Price_median']
print(agg_result)
Publish date month  ID_mean  ID_median  Price_mean  Price_median
0         2000-01-31      1.5        1.5          25            25

エクイジョインが再び機能することを確認するにはどうすればよいですか？つまり、同じ任意の頻度を使用して、元のタイムスタンプをフィッティングバケットに変換しますか？

つまり、例のコードで説明されているように、どうすれば取得できますか？

agg_result['Publish date month'] = agg_result['Publish date'].apply(magic transform to same frequency bucket)
df.merge(agg_result, on['Publish date month'])

動作するには、つまり、適切なバケットへの変換を定義しますか？

アダム・ゼルディン

編集：

各グループに対応する元の値を識別する最も簡単な方法は、次のとおりです。

gb = df.groupby(pd.Grouper(key="Publish date", freq="1M"))
dict(list(gb['Publish date']))

次に、これを使用して、任意の情報を元のテーブルに結合し直すことができます。

2つの中間列で結合できますか？

df['Publish date'].dt.month

そして

df.groupby(pd.Grouper(key="Publish date", freq="1M")).agg([pd.Series.mean, pd.Series.median]).index.month

このような

results =  df.groupby(pd.Grouper(key="Publish date", freq="1M")).agg([pd.Series.mean, pd.Series.median])

results.columns = ['-'.join(col[::-1]).strip() for col in results.columns]

df['month'] = df['Publish date'].dt.month

results['month'] = results.index.month
results.merge(df)

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-13

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

パンダはタイムスタンプをTimeGrouper頻度グループにバケットします

パンダはタイムスタンプをTimeGrouper頻度グループにバケットします

例：

パンダ行を異なるタイムバケットにグループ化する方法は？

パンダはインデックスレベル内で頻度をリサンプリングします

各グループの頻度に従ってデータフレームをパディングします

パンダはタイムスタンプの近さによってグループを形成します

頻度に応じてタイムスタンプを「リサンプリング」します

numpyまたはpandasを使用して、タプルのリストからバイグラムの頻度マトリックスを作成します

スコアリストをバケット化し、パンダデータフレームの日付で効果的にグループ化する方法

Jenkinsスクリプトパイプラインはグローバルタイムスタンプオプションを使用します

タイムスタンプをbuilspec.yamlファイルのS3バケットフォルダーに追加します

C ++にトランスパイルされたカスタム言語ソースをデバッグしてステップインする方法は？

パンダ-タイムバケット内の行のグループ化

オートマッパーは、カスタムメンバーマッピングの既存のサブタイプマッピングを参照します

パンダのデータフレーム列内の単語を別の列でグループ化して、頻度/数を取得します

パンダはタイムスタンプとIDとカウントでグループ化されます

タスクスケジューラコンソールアプリケーションは、プログラムの再実行を防ぐ例外でジャストインタイムデバッガを表示します

ワニスはグーグルモバイルテスターのデスクトップサイトをレンダリングしています

パンダは、列とインデックスの隣接関係によってデータフレームをグループ化します

データフレーム行をパンダグループバイのリストにグループ化する方法は？

ブルームバーグからサプライチェーンデータ（SPLC）をエクスポートするためにBlpapi / Pdblpなどのパッケージを使用した人はいますか？

パンダ：グループ化されたデータフレームで1日の頻度の倍数である日付を選択しますか？

TimeGrouperとデータをオーバーラップするPythonパンダ

terraform自動スケーリンググループはタイムアウトを破棄します

ラムダをダバグしたいのですが、パイプラインスタックによってデプロイされた場合、cdkシンセにはラムダリソースが含まれていません

パンダのタイムスタンプに沿って合計をグループ化する方法は?

パンダは別のデータフレーム列の列値の頻度をカウントします

ループバックは未知のミックスインを使用します：タイムスタンプ

自動スケーリング グループ インスタンスをロード バランサーに直接アタッチします。

Sitecoreレンダリングパイプラインを使用したままのSitecoreMVCカスタムルート

タイムスタンプをRの頻度ビン時系列に変換しますか？

自動スケーリンググループインスタンスをロードバランサーに直接アタッチします。