我有一个通过读取的数据框
data = pd.read_csv("animals_clean.csv")
它包含具有超过67000个值的列,并且始终重复相同的80+个值。
如:
Ailurus
Harpia
Alligator
Branta
Araucaria
Branta
Alligator
我想在它旁边创建一个列,该列采用每种单独的类型并为其分配一个数值。如
1
2
3
4
5
4
3
目前我唯一的选择是通过手动进行
data['animal'].replace(['harpia'], ['2'],inplace=True)
但是,这将不可行,因为这需要时间
你可以试试
df['num_A']=df.A.astype('category').cat.codes
要么
df['num_A']=df.A.factorize()[0]
要么
df.groupby('A').ngroup()
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句