我已经完成了数据帧聚合,我想添加一个新列,如果到2020年该行中的值> 0,则它将放置1,否则为0。
这是我的代码和数据帧头
df['year'] = pd.DatetimeIndex(df['TxnDate']).year # add column year
df['client'] = df['Customer'].str.split(' ').str[:3].str.join(' ') # add colum with 3 first word
Datedebut = df['year'].min()
Datefin = df['year'].max()
#print(df)
df1 = df.groupby(['client','year']).agg({'Amount': ['sum']}).unstack()
print(df1)
df1['nb2020']= np.where( df1['year']==2020, 1, 0)
最后一行错误是:KeyError:'year'
谢谢
当您执行聚合和未堆叠(df.groupby(['client','year']).agg({'Amount': ['sum']}).unstack()
)时,该列的值year
已扩展为列,并且这些列是MultiIndex。您可以通过以下方式查看:
print (df1.columns)
然后可以选择它们。
因此,要选择与2020相匹配的列,您可以使用:
df1.loc[:,df1.columns.get_level_values(2).isin({2020})
您可能可以获取正确的列,然后使用以下命令检查2020是否具有非零值:
df1['nb2020'] = df1.loc[:,df1.columns.get_level_values('year').isin({2020})] > 0
如果您想要1和0(而不是布尔类型),则可以转换为int(使用astype
)。
如果您认为这有点复杂,则可能还希望将列更改为单个索引。使用类似
df1.columns = df1.columns.get_level_values('year')
要么
df1.columns = df1.columns.get_level_values(2)
接着
df1['nb2020'] = (df1[2020] > 0).astype(int)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句