我有一个数据框:
Type Name Cost
A X 545
B Y 789
C Z 477
D X 640
C X 435
B Z 335
A X 850
B Y 152
我的数据框中具有类型['A','B','C','D']和名称['X','Y','Z']的所有此类组合。我使用了groupby方法来获取特定组合的统计信息,例如AX,AY,AZ。下面是一些代码:
df = pd.DataFrame({'Type':['A','B','C','D','C','B','A','B'] ,'Name':['X','Y','Z','X','X','Z','X','Y'], 'Cost':[545,789,477,640,435,335,850,152]})
df.groupby(['Name','Type']).agg([mean,std])
#need to use mad instead of std
我需要消除3个MAD以外的观测值;就像是:
test = df[np.abs(df.Cost-df.Cost.mean())<=(3*df.Cost.mad())]
我对此感到困惑,因为df.Cost.mad()返回整个数据而不是特定Type-Name类别的Cost的MAD。我该如何结合两者?
您可以使用groupby
和transform
创建可用于过滤数据的新数据系列。
groups = df.groupby(['Name','Type'])
mad = groups['Cost'].transform(lambda x: x.mad())
dif = groups['Cost'].transform(lambda x: np.abs(x - x.mean()))
df2 = df[dif <= 3*mad]
但是,在这种情况下,由于差异等于平均绝对偏差(各组最多只有两行),因此不会过滤掉任何行。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句