我有一个格式很大的数据框
col1 col2 val1 val2
[0]A B 0.8 0.1
[1]B A 0.8 0.1
[2]A C 0.3 0.9
[3]A D 0.2 0.8
[4]D A 0.2 0.8
如您所见,有些行仅重复col1
且col2
反向。例如,row1
是row的重复0
,而row4
是row的重复3
。您是否可以根据以下匹配项删除重复项col1
:col2
等于col2
:col1
?
您可以对两列进行排序np.sort
并分配回来,然后DataFrame.drop_duplicates
与指定一些列一起使用:
df[['col1','col2']] = np.sort(df[['col1','col2']], axis=1)
df1 = df.drop_duplicates(['col1','col2'])
print (df1)
col1 col2 val1 val2
0 A B 0.8 0.1
2 A C 0.3 0.9
3 A D 0.2 0.8
在所有列中删除重复项:
df2 = df.drop_duplicates()
print (df2)
col1 col2 val1 val2
0 A B 0.8 0.1
2 A C 0.3 0.9
3 A D 0.2 0.8
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句