在熊猫数据框中查找重复的行

gabboshow 发表于 Dev

嘉宝秀

我试图在熊猫数据框中找到重复的行。

df=pd.DataFrame(data=[[1,2],[3,4],[1,2],[1,4],[1,2]],columns=['col1','col2'])

df
Out[15]: 
   col1  col2
0     1     2
1     3     4
2     1     2
3     1     4
4     1     2

duplicate_bool = df.duplicated(subset=['col1','col2'], keep='first')
duplicate = df.loc[duplicate_bool == True]

duplicate
Out[16]: 
   col1  col2
2     1     2
4     1     2

有没有一种方法可以添加引用第一个重复项的索引的列（保留一个）

duplicate
Out[16]: 
   col1  col2  index_original
2     1     2               0
4     1     2               0

注意：在我的情况下，df可能非常大。

cs95

使用groupby，创建一个新的索引列，然后调用duplicated：

df['index_original'] = df.groupby(['col1', 'col2']).col1.transform('idxmin')    
df[df.duplicated(subset=['col1','col2'], keep='first')]

   col1  col2  index_original
2     1     2               0
4     1     2               0

细节

我groupby首先输入两列，然后调用transform+idxmin以获取每个组的第一个索引。

df.groupby(['col1', 'col2']).col1.transform('idxmin') 

0    0
1    1
2    0
3    3
4    0
Name: col1, dtype: int64

duplicated 给我一个我想保留的布尔值掩码：

df.duplicated(subset=['col1','col2'], keep='first')

0    False
1    False
2     True
3    False
4     True
dtype: bool

其余的只是布尔索引。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2020-11-18

我来说两句

0条评论

登录后参与评论

来自分类Dev

查找熊猫数据框中的所有重复行

来自分类Dev

根据熊猫数据框中的选定列条件查找重复的行

来自分类Dev

使用熊猫查找数据框中重复句子的数量

来自分类Dev

通过熊猫数据框中的 3 列查找重复项

来自分类Dev

如何在熊猫数据框中查找重复项

来自分类Dev

如果值在列表中，则熊猫数据框中的行重复

来自分类Python

在熊猫中的数据框中查找非数字行？

来自分类Dev

我如何知道熊猫数据框中的重复行？

来自分类Dev

如何删除熊猫数据框中具有重复的行？

来自分类Python

如何计算熊猫数据框中的重复行？

来自分类Dev

根据条件删除熊猫数据框中的重复行

来自分类Dev

删除一行熊猫数据框中的重复值

来自分类Dev

从熊猫时间序列数据框中删除重复的行

来自分类Dev

抖动几乎重复了熊猫数据框中的行

来自分类Dev

熊猫数据框重复的行与类中的列表分隔？

来自分类Dev

根据熊猫数据框中的条件分组查找匹配的行

来自分类Dev

朱莉娅：在数据框中查找重复的行

来自分类Dev

重复特定行的熊猫数据框

来自分类Dev

重复熊猫数据框行标签

来自分类Dev

熊猫数据框：保留重复的行

来自分类Dev

从熊猫数据框中删除重复的列？

来自分类Dev

在熊猫数据框中查找第一个重复的连续条目

来自分类Python

如何在熊猫数据框中查找和标记重复项？

来自分类Dev

如何使用熊猫从完整数据框中查找重复项？

来自分类Dev

数据框中的重复行

来自分类Dev

在熊猫数据框中查找元素

来自分类Python

在函数中查找熊猫数据框的长度

来自分类Dev

从熊猫数据框中的多列查找

来自分类Dev

熊猫数据框中的查找值

Related 相关文章

文章