在熊猫数据框中查找重复的行

嘉宝秀

我试图在熊猫数据框中找到重复的行。

df=pd.DataFrame(data=[[1,2],[3,4],[1,2],[1,4],[1,2]],columns=['col1','col2'])

df
Out[15]: 
   col1  col2
0     1     2
1     3     4
2     1     2
3     1     4
4     1     2

duplicate_bool = df.duplicated(subset=['col1','col2'], keep='first')
duplicate = df.loc[duplicate_bool == True]

duplicate
Out[16]: 
   col1  col2
2     1     2
4     1     2

有没有一种方法可以添加引用第一个重复项的索引的列(保留一个)

duplicate
Out[16]: 
   col1  col2  index_original
2     1     2               0
4     1     2               0

注意:在我的情况下,df可能非常大。

cs95

使用groupby,创建一个新的索引列,然后调用duplicated

df['index_original'] = df.groupby(['col1', 'col2']).col1.transform('idxmin')    
df[df.duplicated(subset=['col1','col2'], keep='first')]

   col1  col2  index_original
2     1     2               0
4     1     2               0

细节

groupby首先输入两列,然后调用transform+idxmin以获取每个组的第一个索引。

df.groupby(['col1', 'col2']).col1.transform('idxmin') 

0    0
1    1
2    0
3    3
4    0
Name: col1, dtype: int64

duplicated 给我一个我想保留的布尔值掩码:

df.duplicated(subset=['col1','col2'], keep='first')

0    False
1    False
2     True
3    False
4     True
dtype: bool

其余的只是布尔索引

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

查找熊猫数据框中的所有重复行

来自分类Dev

根据熊猫数据框中的选定列条件查找重复的行

来自分类Dev

使用熊猫查找数据框中重复句子的数量

来自分类Dev

通过熊猫数据框中的 3 列查找重复项

来自分类Dev

如何在熊猫数据框中查找重复项

来自分类Dev

如果值在列表中,则熊猫数据框中的行重复

来自分类Python

在熊猫中的数据框中查找非数字行?

来自分类Dev

我如何知道熊猫数据框中的重复行?

来自分类Dev

如何删除熊猫数据框中具有重复的行?

来自分类Python

如何计算熊猫数据框中的重复行?

来自分类Dev

根据条件删除熊猫数据框中的重复行

来自分类Dev

删除一行熊猫数据框中的重复值

来自分类Dev

从熊猫时间序列数据框中删除重复的行

来自分类Dev

抖动几乎重复了熊猫数据框中的行

来自分类Dev

熊猫数据框重复的行与类中的列表分隔?

来自分类Dev

根据熊猫数据框中的条件分组查找匹配的行

来自分类Dev

朱莉娅:在数据框中查找重复的行

来自分类Dev

重复特定行的熊猫数据框

来自分类Dev

重复熊猫数据框行标签

来自分类Dev

熊猫数据框:保留重复的行

来自分类Dev

从熊猫数据框中删除重复的列?

来自分类Dev

在熊猫数据框中查找第一个重复的连续条目

来自分类Python

如何在熊猫数据框中查找和标记重复项?

来自分类Dev

如何使用熊猫从完整数据框中查找重复项?

来自分类Dev

数据框中的重复行

来自分类Dev

在熊猫数据框中查找元素

来自分类Python

在函数中查找熊猫数据框的长度

来自分类Dev

从熊猫数据框中的多列查找

来自分类Dev

熊猫数据框中的查找值

Related 相关文章

热门标签

归档