パンダ-2つのセルの類似した内容に基づいて行をマージします

debugcn 投稿 Dev

Waqas Khalid Obeidy

次のようなパンダのデータフレームがあります。IDとCountryCodeの値の同一のペアを含むすべての行をマージしようとしています。

records = [ (1, 'IN', 'yes' , '', '' , '', '') ,
             (1, 'MY', '' , 'yes', '' , '', '' ) ,
             (1, 'MY', '' , '', 'yes', '', '' ) ,
             (1, 'MY', '' , '' , '' , 'yes', '') ,
             (1, 'US', '' , '', '' , '', 'yes') ,
             (2, 'MY', 'yes' , '', '' , '', ''),
             (2, 'UK', '' , 'yes', '' , '', '')]

dfRecords = pd.DataFrame(records, columns = ['ID' , 'CountryCode', 'Address' , 'MobileNo', 'HomeNo', 'OfficeNo', 'TacNo'])

出力：

ID  CountryCode Address MobileNo    HomeNo  OfficeNo    TacNo
1   IN          yes             
1   MY                  yes         
1   MY                              yes     
1   MY                                      yes 
1   US                                                  yes
2   MY          yes             
2   UK                  yes

これは私が必要なものです

ID  CountryCode Address MobileNo    HomeNo  OfficeNo    TacNo
1   IN          yes             
1   MY                  yes         yes     yes
1   US                                                  yes
2   MY          yes             
2   UK                  yes

ID列とCountryCode列に基づいてgroupby（）を使用する必要があると思いますが、行をマージできません。

groupings = dfRecords.groupby(['ID','CountryCode'])
groupings.groups

出力：

{(1, 'IN'): Int64Index([0], dtype='int64'),
 (1, 'MY'): Int64Index([1, 2, 3], dtype='int64'),
 (1, 'US'): Int64Index([4], dtype='int64'),
 (2, 'MY'): Int64Index([5], dtype='int64'),
 (2, 'UK'): Int64Index([6], dtype='int64')}

piRSquared

`max`

ので'yes'より大きけれ''

dfRecords.groupby(['ID', 'CountryCode'], as_index=False).max()

   ID CountryCode Address MobileNo HomeNo OfficeNo TacNo
0   1          IN     yes                               
1   1          MY              yes    yes      yes      
2   1          US                                    yes
3   2          MY     yes                               
4   2          UK              yes

`first`

頼らずに max

g = dfRecords.mask(dfRecords == '').groupby(['ID', 'CountryCode'], as_index=False)
g.first().fillna('')

   ID CountryCode Address MobileNo HomeNo OfficeNo TacNo
0   1          IN     yes                               
1   1          MY              yes    yes      yes      
2   1          US                                    yes
3   2          MY     yes                               
4   2          UK              yes

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]