如何在熊猫中编码特殊字符。
我的_csv:
column A
Id - Number
Id – Column
my_df = pd.read_csv('my_csv.csv', encoding = 'latin-1')
我的_df
Id - Number
Id ? Column
在我的 csv 中有一个列,即 A 列有两个值,当我在 Pandas 中读取这个文件时,我的第二个值变成如下所示。我怎样才能读取我在 csv 中的第二个值。
Id - Number --> Id - Number
Id – Column --> Id ? Column --> it should be like Id – Column
字符–
(U+2013) En Dash在大多数 8 位 Windows 代码页中定义为'\x96'
.
不幸的是,在'iso-8859-1'
(或者'latin-1'
如果你想要)中,这个字符是 U+0096 Start Of Guarded Area(一个不可打印的字符;因此问号作为替换字符)。
用
import pandas as pd
my_df = pd.read_csv('my_csv.csv', encoding = 'cp1252')
my_df
column A 0 Id - Number 1 Id – Column
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句