列の値に基づくパンダの集計減算

debugcn 投稿 Dev

マーティン

私がDataFrameを持っているとしましょう

'name'     'quantity'   'day'
'A'         1           'Monday'
'A'         10          'Sunday'
'A'         5           'Friday'
'B'         2           'Monday'
'B'         30          'Sunday'
'B'         5           'Thursday'

構築する必要があるのは、名前ごとに日曜日の量から月曜日の量を引く別のデータフレームです。そのためgroupBy、名前にaが必要で、次にagg関数付きが必要だと思いますが、それらの日だけが考慮されるようにフィルターを実行する方法がわかりません。

例に従って、私が求める最終結果は次のとおりです。

'name'     'sub_quantity'
'A'         9 
'B'         28

piRSquared

セットアップ

import pandas as pd
from io import StringIO

txt = """name     quantity   day
A         1           Monday
A         10          Sunday
A         5           Friday
B         2           Monday
B         30          Sunday
B         5           Thursday"""

df = pd.read_csv(StringIO(txt), delim_whitespace=True)

オプション1
unstack

d1 = df.set_index(['name', 'day']).quantity.unstack()

d1.Sunday.sub(d1.Monday)

name
A     9.0
B    28.0
dtype: float64

オプション2
query

s = df.set_index('name').query('day == "Sunday"').quantity
m = df.set_index('name').query('day == "Monday"').quantity
s - m

name
A     9
B    28
Name: quantity, dtype: int64

オプション3
xs

d1 = df.set_index(['day', 'name']).quantity
d1.xs('Sunday') - d1.xs('Monday')

name
A     9
B    28
Name: quantity, dtype: int64

オプション4
かわいいapply

def obnoxious(x):
    s = x.day.eq('Sunday').idxmax()
    m = x.day.eq('Monday').idxmax()
    q = 'quantity'
    return x.get_value(s, q) - x.get_value(m, q)

df.groupby('name').apply(obnoxious)

name
A     9
B    28
dtype: int64

タイミング
例データ