有什么方法可以将Unicode文本格式数据正确转换为python中的csv吗?

杰瑞德

我正在访问位于ftp服务器上的数据集。下载数据后,我通常pandas将其读取为,csv但出现了编码错误。该文件具有csv文件扩展名,但是当我使用MS excell打开文件后,数据已Unicode Text格式化。我想对以Unicode文本格式存储的那些数据集进行转换。我怎样才能做到这一点?有什么想法可以做到这一点吗?

我的尝试

from ftplib import FTP
import os

def mydef():
defaultIP=''
username='cat'
password='cat'

ftp = FTP(defaultIP,user=username, passwd=password)
ftp.dir()

filenames=ftp.nlst() 

for filename in files:
    local_filename = os.path.join('C:\\Users\\me', filename)
    file = open(local_filename, 'wb')
    ftp.retrbinary('RETR '+ filename, file.write)

    file.close()

ftp.quit()

然后我尝试这样做以获得正确的编码:

mydef.encode('utf-8').splitlines()

但这对我不起作用。我用这个解决方案

上面代码的输出

这是上面代码的输出片段:

b'\ xff \ xfeF \ x00L \ x00O \ x00W \ x00 \ t \ x00C \ x00T \ x00Y \ x00_ \ x00R \ x00P \ x00T \ x00 \ t \ x00R \ x00E \ x00P \ x00O \ x00R \ x00R \ x00T \ x00E \ x00R \ x00 \ t \ x00C \ x00T \ x00Y \ x00_ \ x00P \ x00T \ x00N \ x00 \ t \ x00P \ x00A \ x00R \ x00T \ x00N \ x00E \ x00R \ x00 \ t \ x00C \ x00O \ x00M \ x00M \ x00O \ x00D \ x00I \ x00T \ x00Y \ x00 \ t \ x00D \ x00E \ x00S \ x00C \ x00R \ x00I \ x00P \ x00T \ x00I \ x00O \ x00N \ x00 \ t'

预期产量

该数据集的预期输出应为常规csv数据(例如常见贸易数据)中的数据,但编码对我而言不起作用。

我使用了不同的编码来获得csv格式数据的正确转换,但是它们都不适合我。我该如何工作?有什么想法可以做到这一点吗?谢谢

简单

编辑:我必须更改它-现在,我删除开头(BOM)的2个字节和结尾的一个字节,因为数据不完整(每个char需要2个字节)


现在看来,这是不是utf-8,但utf-16BOM

如果我删除了前两个字节(BOM- Bytes Order Mark)和最后一个字节,因为它不完整(每个char需要两个字节),请使用decode('utf-16-le')

b'F\x00L\x00O\x00W\x00\t\x00C\x00T\x00Y\x00_\x00R\x00P\x00T\x00\t\x00R\x00E\x00P\x00O\x00R\x00T\x00E\x00R\x00\t\x00C\x00T\x00Y\x00_\x00P\x00T\x00N\x00\t\x00P\x00A\x00R\x00T\x00N\x00E\x00R\x00\t\x00C\x00O\x00M\x00M\x00O\x00D\x00I\x00T\x00Y\x00\t\x00D\x00E\x00S\x00C\x00R\x00I\x00P\x00T\x00I\x00O\x00N\x00'.decode('utf-16-le')

然后我得到

'FLOW\tCTY_RPT\tREPORTER\tCTY_PTN\tPARTNER\tCOMMODITY\tDESCRIPTION'

编辑:同时,我还发现Python-用BOM解码UTF-16文件

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

有什么方法可以禁用写字板的纯文本格式保存警告吗?

来自分类Dev

将文本格式转换为数字格式

来自分类Dev

将文本格式的固定宽度表转换为dataframe / excel / csv

来自分类Dev

XSLT 2.0:将纯文本格式转换为svg

来自分类Dev

有没有一种方法可以使用BeautifulSoup将列表中的数据正确转换为CSV文件?

来自分类Dev

如何将 text/x-python 转换为纯文本格式?

来自分类Dev

将数据从文本格式读入Python Pandas数据框

来自分类Dev

如何使用Python将FlatBuffer消息从二进制格式转换为人类可读的文本格式?

来自分类Dev

熊猫中是否有任何方法可以将数据帧从天转换为默认的d / m / y格式?

来自分类Dev

将所有 Excel 单元格转换为文本格式并打印导出 | C# MVC 5

来自分类Dev

转换为unicode的正确方法是什么?

来自分类Dev

有什么方法可以将Excel单元格值转换为html格式?

来自分类Dev

有什么有效的方法可以将TArray <string>转换为TStringDynArray吗?

来自分类Dev

有什么有效的方法可以将TArray <string>转换为TStringDynArray吗?

来自分类Dev

使用Python将pdf数据转换为JSON格式吗?

来自分类Dev

将日期从文本格式转换为日期格式部分起作用

来自分类Dev

有什么方法可以根据定义的宏将变量宏转换为0或1吗?

来自分类Dev

Scala-有什么方法可以将模式匹配转换为if / else吗?

来自分类Dev

Scala-有什么方法可以将模式匹配转换为if / else吗?

来自分类Dev

有什么方法可以将游戏资产转换为像素艺术吗?

来自分类Dev

有没有什么简单的方法可以将 python 中的 type() 函数的输出转换为字符串?

来自分类Dev

处理文本并转换为字符串而不删除php中的文本格式

来自分类Dev

openpyxl python-将csv写入excel将提供'数字格式为文本格式'

来自分类Dev

使用php将.doc扩展文件转换为文本格式时显示不同的字符

来自分类Dev

如何使用PHP将富文本格式转换为图像?

来自分类Dev

如何将填充整数的列转换为文本格式 - VBA - Excel

来自分类Dev

将结果写入csv时,数字/文本格式设置不正确

来自分类Dev

为什么从LotusScript代理创建和发送的备忘录将富文本格式转换为纯文本并删除文档链接?

来自分类Dev

有什么方法可以将Realm数据库文件转换为sqlite?

Related 相关文章

  1. 1

    有什么方法可以禁用写字板的纯文本格式保存警告吗?

  2. 2

    将文本格式转换为数字格式

  3. 3

    将文本格式的固定宽度表转换为dataframe / excel / csv

  4. 4

    XSLT 2.0:将纯文本格式转换为svg

  5. 5

    有没有一种方法可以使用BeautifulSoup将列表中的数据正确转换为CSV文件?

  6. 6

    如何将 text/x-python 转换为纯文本格式?

  7. 7

    将数据从文本格式读入Python Pandas数据框

  8. 8

    如何使用Python将FlatBuffer消息从二进制格式转换为人类可读的文本格式?

  9. 9

    熊猫中是否有任何方法可以将数据帧从天转换为默认的d / m / y格式?

  10. 10

    将所有 Excel 单元格转换为文本格式并打印导出 | C# MVC 5

  11. 11

    转换为unicode的正确方法是什么?

  12. 12

    有什么方法可以将Excel单元格值转换为html格式?

  13. 13

    有什么有效的方法可以将TArray <string>转换为TStringDynArray吗?

  14. 14

    有什么有效的方法可以将TArray <string>转换为TStringDynArray吗?

  15. 15

    使用Python将pdf数据转换为JSON格式吗?

  16. 16

    将日期从文本格式转换为日期格式部分起作用

  17. 17

    有什么方法可以根据定义的宏将变量宏转换为0或1吗?

  18. 18

    Scala-有什么方法可以将模式匹配转换为if / else吗?

  19. 19

    Scala-有什么方法可以将模式匹配转换为if / else吗?

  20. 20

    有什么方法可以将游戏资产转换为像素艺术吗?

  21. 21

    有没有什么简单的方法可以将 python 中的 type() 函数的输出转换为字符串?

  22. 22

    处理文本并转换为字符串而不删除php中的文本格式

  23. 23

    openpyxl python-将csv写入excel将提供'数字格式为文本格式'

  24. 24

    使用php将.doc扩展文件转换为文本格式时显示不同的字符

  25. 25

    如何使用PHP将富文本格式转换为图像?

  26. 26

    如何将填充整数的列转换为文本格式 - VBA - Excel

  27. 27

    将结果写入csv时,数字/文本格式设置不正确

  28. 28

    为什么从LotusScript代理创建和发送的备忘录将富文本格式转换为纯文本并删除文档链接?

  29. 29

    有什么方法可以将Realm数据库文件转换为sqlite?

热门标签

归档