pandasデータフレームの行のサブセットの平均値と最大値を計算します

debugcn 投稿 Dev

user5421875

次のようなデータフレームがあります。

 date       session     time         x1          x2     x3    x4      x5     x6   
 2015-05-22      1     morning       Tom         129     1     129    45     67
 2015-05-22      1     morning       Kate         0      1     670    89     34   
 2015-05-22      1     noon          GroupeId     0      1     45     56    13
 2015-05-26      2     noon          Hence        129    1     167    7     13
 2015-05-26      2     evening       Kate         0            987    876    478
 2015-05-26      3     night         Julie        0      1     567            8

したがって、各セッションの列ごとの平均値と最大値を計算する必要があります。つまり、各セッションの値の平均をX2にする必要があります（例では1番目、2番目、または3番目ですが、実際のデータフレームでははるかに多くの行とセッションがあります）。 X4の値x4の最大値、各セッションの値x3の合計。いくつかの列の平均について多くの例を見つけましたが、ご覧のとおり、それは私が探しているものではありません。私は次のようないくつかの方法を試しました：multi_df.groupby(level=1).sum().to_csv('output.csv', sep='\t')これを使って作成しようとしたマルチレベルデータフレームのmulti_df=df.set_index(['session','index'], inplace=False)場合、それは私に感覚を与える可能性のある結果を与えません

ですから、私が探しているようなアドバイスや変革の例はありがたいです。

hilberts_drinking_problem

このようなものをお探しですか？（つまり、列ごとに特定の関数で集計する方法はありますか？）。

import pandas as pd
import numpy as np

df = pd.io.parsers.read_csv('temp.txt', sep = '\t')

df_agg = df.groupby('session').agg({
    'x2' : np.mean,
    'x3' : np.sum,
    'x4' : np.min,
    })

# you can apply more than one function to a column like so:

df_agg_multifunc = df.groupby('session').agg({
    'x2' : [np.mean, np.std],
    'x3' : [np.sum, np.std],
    'x4' : [np.min, np.std],
    })

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-07-6

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

pandasデータフレームの行のサブセットの平均値と最大値を計算します

pandasデータフレームの行のサブセットの平均値と最大値を計算します

Pandasデータフレームの行のサブセットである値を検索します

1つのデータフレームを別のデータフレームの各行の値と合計距離列でサブセット化します

パンダデータフレームの行のサブセットから平均を計算します：groupbyまたはforループ？

rのデータフレームのサブセットの平均を計算するためのループ

R group_byを使用して、データフレームの平均と値の合計を計算します

データフレーム内の行をグループ化し、最大値を取得して、グループの平均を計算します

データフレームの13行ごとの平均を計算します

データフレームのすべてのサブセットの係数を計算します

pandasデータフレームの5行あたりの平均と標準偏差を計算します

PySpark：列のサブセットの最大行を計算し、既存のデータフレームに追加します

pandasデータフレーム行内のリストの平均と標準偏差を計算します

データフレーム列の最小、最大、平均を計算します

データフレームのサブセットの計算

画像データセットの平均値を計算する

Rの一致を使用して、列のサブセットに2番目のデータフレームの値を乗算します

R：行データフレームの値をその行の最大値で除算します

多くのRデータフレームからの行の値を交差させ、対応する値の平均を計算します

PANDAS：別のデータフレームのブール値に基づいてパンダのデータフレーム要素で計算を行います

bool値とintを使用したデータフレームのPandas条件付きサブセット

データフレームの行間の類似性を計算します（共通のカウント値）

groupby列を使用して最小列と最大列の値からPandasデータフレームの変化率を計算します

データフレームのサブセット化と1回のパスでの計算の実行

pandasデータフレームで最大値の行を抽出します

マルチインデックスデータフレームからデータのサブセットを抽出し、列の差を計算します

R-一番上の行から一番下の行までのデータフレーム列の平均値を計算します

データフレーム列の値のサブセットを更新します

列の個別の値ごとに特定の条件を持つ行に基づいて、Pandasデータフレームのpercを計算します

特定の列値を持つ行で構成されるPandasデータフレームのサブセット

awkを使用して、データのサブセットの列の平均と分散を計算するには