如何在python中比较数据框的行是否相等

debugcn 发表于 Dev

塔纳

我有一个数据框（见上文）。我需要比较它的行以获得匹配的行。因此，对于上面的df，我应该在比较后得到row1 = row4 = row6和row2 = row5。有什么有效的方法可以在python中进行行比较。

耶斯列尔

用：

import pandas as pd


df = pd.DataFrame({0: {0: 1, 1: 0, 2: 0, 3: 1, 4: 0, 5: 1}, 
                   1: {0: 0, 1: 0, 2: 1, 3: 0, 4: 0, 5: 0}, 
                   2: {0: 0, 1: 0, 2: 0, 3: 0, 4: 0, 5: 0}, 
                   3: {0: 0, 1: 0, 2: 0, 3: 0, 4: 0, 5: 0}, 
                   4: {0: 1, 1: 0, 2: 1, 3: 1, 4: 0, 5: 1}})
print df
   0  1  2  3  4
0  1  0  0  0  1
1  0  0  0  0  0
2  0  1  0  0  1
3  1  0  0  0  1
4  0  0  0  0  0
5  1  0  0  0  1

#first select only all duplicated rows
df1 = df[df.duplicated(keep=False)]
print df1
   0  1  2  3  4
0  1  0  0  0  1
1  0  0  0  0  0
3  1  0  0  0  1
4  0  0  0  0  0
5  1  0  0  0  1

#sort values by all columns
df2 = df1.sort_values(by=df.columns.tolist())
print df2
   0  1  2  3  4
1  0  0  0  0  0
4  0  0  0  0  0
0  1  0  0  0  1
3  1  0  0  0  1
5  1  0  0  0  1

#find groups
print (~((df2 == df2.shift(1)).all(1))).cumsum()
1    1
4    1
0    2
3    2
5    2
dtype: int32

#print groups    
for i, g in df.groupby((~((df2 == df2.shift(1)).all(1))).cumsum()):
    print g

   0  1  2  3  4
1  0  0  0  0  0
4  0  0  0  0  0
   0  1  2  3  4
0  1  0  0  0  1
3  1  0  0  0  1
5  1  0  0  0  1

#dict comprehension for storing groups
dfs = {i-1: g for i,g in df.groupby((~((df2 == df2.shift(1)).all(1))).cumsum())}
print dfs
{0.0:    0  1  2  3  4
1  0  0  0  0  0
4  0  0  0  0  0, 1.0:    0  1  2  3  4
0  1  0  0  0  1
3  1  0  0  0  1
5  1  0  0  0  1}

print dfs[0]
   0  1  2  3  4
1  0  0  0  0  0
4  0  0  0  0  0

print dfs[1]
   0  1  2  3  4
0  1  0  0  0  1
3  1  0  0  0  1
5  1  0  0  0  1

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。