我有一个熊猫数据框,看起来像这样:
ner_id art_id ner
0 0 emmanuel macron
1 0 paris
2 0 france
3 1 paris
4 0 france
我想更改“ ner_id”列。
例如,巴黎出现在ID为0和1的文章中(请参见art_id列)。
我只想更改ner_id列,并为巴黎提供唯一的ID,而不是其他ID。
每当列中有一个单词重复时,我都希望在列中执行此操作,并为重复的单词赋予相同的ID。
我该怎么做 ?
预期产量:
ner_id art_id ner
0 0 emmanuel macron
1 0 paris
2 0 france
1 1 paris
2 0 france
每当下一行重复一个术语时,我都会给出该术语的第一个ID。
我会回答。这为相同的单词提供了相同的ID。
df = pd.DataFrame({'ner':['emmanuel macron', 'paris', 'france', 'paris', 'france']})
df['ner_id'] = df.groupby('ner').ngroup()
df
ner ner_id
0 emmanuel macron 0
1 paris 2
2 france 1
3 paris 2
4 france 1
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句