我有这个片段代码,ID
将熊猫数据框的分组列并在结果数据框中附加唯一ID的所有最高薪水。该代码可以工作,但是对于较大的文件来说有点慢。我想知道是否有人可以提出一种更有效的方法。
groupe = df.groupby("ID")
t = (group.sort_values(by="Salary", ascending=False)[:1] for yr, group in groupe)
result = pd.DataFrame()
for i in t:
result = result.append(i)
df.groupby('ID').max()
然后,您可以选择薪金列。
编辑
如果要保留所有其他列,即使是非数字列,也应执行以下操作:
df.sort_values(by="Salary", ascending=False).groupby('ID').first()
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句