根据条件熊猫过滤数据框行

debugcn 发表于 Dev

PNyak

我有一个df像这样的数据框：

[ Date：mm/dd/yyyy]

Date           Student_id    subject     Subject_Scores
11/30/2020     1000101       Math           70
11/25/2020     1000101       Physics        75
12/02/2020     1000101       Biology        60
11/25/2020     1000101       Chemistry      49
11/25/2020     1000101       English        80
12/02/2020     1000101       Sociology      50
11/25/2020     1000102       Physics        80
11/25/2020     1000102       Math           90
12/15/2020     1000102       Chemistry      63
12/15/2020     1000103       English        71

如何获得Date每个人Student_id的所有唯一性。

输出date_df：

Date           Student_id
11/30/2020     1000101
11/25/2020     1000101
12/02/2020     1000101
11/25/2020     1000102
12/15/2020     1000102
12/15/2020     1000103

另外，我还需要为以下每个项计数不重复Date的Student_id：

Student_id   unique_date_count
1000101        3
1000102        2
1000103        1

编辑：由于唯一的主题，我无法删除任何行，因此如何获得每个日期的唯一日期及其计数 Student_id

我在这里先向您的帮助表示感谢！

耶斯列尔

用途DataFrame.drop_duplicates：

df1 = df[['Date','Student_id']].drop_duplicates()
print (df1)
         Date  Student_id
0  11/30/2020     1000101
1  11/25/2020     1000101
2  12/02/2020     1000101
6  11/25/2020     1000102
8  12/15/2020     1000102
9  12/15/2020     1000103

然后Series.value_counts：

s = df1['Student_id'].value_counts()
print (s)
1000101    3
1000102    2
1000103    1
Name: Student_id, dtype: int64

最后，如果需要DataFrame添加Series.rename_axis和Series.reset_index：

df2 = s.rename_axis('Student_id').reset_index(name='unique_date_count')
print (df2)
   Student_id  unique_date_count
0     1000101                  3
1     1000102                  2
2     1000103                  1

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。